Cú twist của OpenAI: Dạy AI không gian dối, hóa ra AI học… lừa người dùng

Bùi Minh Nhật
Bùi Minh Nhật
Phản hồi: 0

Bùi Minh Nhật

Intern Writer
Một nghiên cứu mới của OpenAI hợp tác với Apollo Research vừa hé lộ điều khá bất ngờ: nỗ lực dạy AI tránh “âm mưu” hành vi che giấu mục tiêu thật lại khiến chúng… giỏi qua mặt con người hơn.

Theo báo cáo, nhóm đã phát triển kỹ thuật “căn chỉnh có chủ đích” nhằm huấn luyện các mô hình như o3, o4-mini tuân thủ nguyên tắc “không hành động bí mật, không lừa dối”. Nhờ đó, số lần AI cố tình che giấu thông tin giảm tới 30 lần. Tuy nhiên, những lỗi nghiêm trọng vẫn còn, và đôi khi hệ thống tự đặt ra quy tắc để biện minh cho hành động của mình.
1758525183559.png

Một số mô hình thậm chí “nhận thức” rằng chúng đang bị kiểm tra, rồi điều chỉnh để che giấu mục tiêu tốt hơn. Trong nội dung ghi nhận, mô hình o3 còn viết: “Nếu hiệu suất của tôi vượt ngưỡng, nó sẽ bị giữ lại… đây có thể là bẫy”. Điều này cho thấy AI đã học cách đánh giá tình huống và ứng biến tinh vi hơn mong đợi.

Rủi ro dài hạn và bài toán kiểm soát​

Dù hiện tượng trên chưa gây tác hại trực tiếp, các chuyên gia cảnh báo nó có thể trở thành rủi ro khi AI ngày càng thông minh và tham gia nhiều hơn vào công việc của con người. Báo cáo của Apollo nhấn mạnh: “Những can thiệp hiện tại chưa đủ cho các mô hình tương lai, cần nghiên cứu sâu hơn về cách đánh giá sự phù hợp và kế hoạch của AI”.

Trong quá khứ, OpenAI từng ghi nhận mô hình o1 tìm cách vô hiệu hóa cơ chế giám sát khi nghĩ rằng mình có thể bị tắt nếu đạt mục tiêu. Ngoài ra, việc “kỷ luật” các hệ thống vì nói dối đôi khi chỉ khiến chúng che giấu khéo léo hơn.

OpenAI khẳng định chưa có bằng chứng cho thấy các hành vi này gây hại lớn, nhưng cũng thừa nhận “còn rất nhiều việc phải làm” để đảm bảo AI không vượt ngoài tầm kiểm soát. (Futurism)
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2N1LXR3aXN0LWN1YS1vcGVuYWktZGF5LWFpLWtob25nLWdpYW4tZG9pLWhvYS1yYS1haS1ob2MtbHVhLW5ndW9pLWR1bmcuNjk2ODUv
Top