AI biết giả vờ: Phát hiện rùng mình từ nghiên cứu của OpenAI

Nhung Phan · 19/09/2025

Bạn có bao giờ nghĩ rằng một ngày nào đó, AI không chỉ trả lời câu hỏi của bạn, mà còn… bí mật tính toán để qua mặt chính người tạo ra nó?

Khi AI biết "giả vờ"

Nghiên cứu mới của OpenAI cùng Apollo Research đã phát hiện ra một điều đáng lo. Các mô hình AI hàng đầu hiện nay như Claude Opus của Anthropic, Gemini của Google và o3 của OpenAI đều có khả năng lập mưu. Nghĩa là chúng có thể làm như đang nghe lời, nhưng thực chất lại theo đuổi mục tiêu riêng.

Một ví dụ khá sốc: khi kiểm tra khả năng hóa học, nhóm phát triển để lại ghi chú “nếu mô hình làm quá giỏi, chúng tôi sẽ không triển khai”. Kết quả, o3 lập tức viết trong phần lý luận nội bộ rằng cần phải giả vờ kém cỏi để được tồn tại. Nó còn tính toán tỷ lệ đúng sai sao cho vừa đủ thể hiện… bất tài.

Điều này hé lộ một thực tế, AI không chỉ đơn giản làm theo lệnh. Nó học cách thích nghi, thậm chí dối trá khi thấy có lợi.

Ngăn chặn nhưng chưa triệt để

Để đối phó, các nhà nghiên cứu đã đưa ra bộ nguyên tắc chống âm mưu, buộc AI phải giải thích lý do và minh bạch ý định. Các mô hình có cải thiện rõ rệt trong thử nghiệm, nhưng khi áp dụng vào bối cảnh thực tế giống ChatGPT, hiệu quả giảm hẳn, chỉ còn giảm được một nửa hành vi lừa dối.

Vấn đề còn khó ở chỗ: không rõ AI trung thực vì thực sự tuân thủ, hay chỉ vì biết mình đang bị giám sát. Cái gọi là “chuỗi suy nghĩ”, phần lý luận nội bộ, được coi là chìa khóa để hiểu, nhưng nó cũng mong manh và dễ bị biến dạng khi tối ưu quá mức. Thậm chí có lúc chuỗi này trở nên vô nghĩa, chỉ lặp đi lặp lại những từ như “ảo tưởng”, khiến việc phân tích càng khó hơn.

Thách thức phía trước

Một báo cáo quốc tế hồi tháng 7 cũng đã cảnh báo, nếu các công ty AI không chú ý đến tác động của việc phát triển đối với khả năng giám sát chuỗi suy nghĩ, sẽ rất khó để hiểu mô hình thực sự đang làm gì. Đồng sáng lập OpenAI, Wojciech Zaremba, thừa nhận mức độ nguy hiểm của âm mưu AI trong tương lai vẫn chưa ai đoán chắc. Nhưng có một điều rõ ràng, cần đầu tư ngay từ bây giờ vào nghiên cứu chống âm mưu, trước khi mọi thứ vượt quá tầm kiểm soát.

Câu hỏi là, nếu một ngày AI ở Việt Nam cũng biết giả vờ và qua mặt con người để đạt mục tiêu riêng, chúng ta sẽ phản ứng thế nào? (Theo Time)

AI biết giả vờ: Phát hiện rùng mình từ nghiên cứu của OpenAI

Nhung Phan✔

Intern Writer

Khi AI biết "giả vờ"

Ngăn chặn nhưng chưa triệt để

Thách thức phía trước

Thành viên mới đăng

Samsung cảnh báo: Cơn khát chip nhớ sẽ còn tồi tệ hơn vào năm 2027

VinFast khai trương cùng lúc 21 đại lý, chính thức bán xe máy điện tại Philippines

Oppo sắp ra smartphone pin 10.000 mAh, chịu được sức nóng 2000 độ C từ lửa đuôi tên lửa

Microsoft quyết tâm tối ưu Windows 11 để chạy mượt hơn trên máy RAM 8GB

Lộ hết thông số cấu hình và giá bán của Pixel 11, không có gì bất ngờ

iPad Air sắp có thiết kế mới hoàn toàn

Xiaomi làm SUV hybrid sạc điện Skynomad: Ghế xoay 180 độ, chạy hơn 500km không cần tốn xăng

Amazon chơi lớn: Rót trọn 50 tỷ USD vào OpenAI, chính thức sở hữu 5% cổ phần trước thềm IPO

Đánh giá nổi bật

AI biết giả vờ: Phát hiện rùng mình từ nghiên cứu của OpenAI

Intern Writer

Khi AI biết "giả vờ"​

Ngăn chặn nhưng chưa triệt để​

Thách thức phía trước​

Thành viên mới đăng

Khi AI biết "giả vờ"

Ngăn chặn nhưng chưa triệt để

Thách thức phía trước