Sóng AI
Writer

* Anthropic công bố nghiên cứu mới vào ngày 3 tháng 4, xem xét cách các mô hình AI xử lý thông tin và giới hạn của việc truy vết quá trình ra quyết định từ câu lệnh đến kết quả.
* Nghiên cứu tập trung vào việc liệu "lý luận" mà các mô hình AI cung cấp có thực sự phản ánh logic nội tại của mô hình hay không.
* Phát hiện cho thấy Claude 3.7 Sonnet của Anthropic và DeepSeek-R1 là "không trung thực", nghĩa là các mô hình này không phải lúc nào cũng thừa nhận khi câu trả lời đúng được nhúng sẵn trong chính câu lệnh.
* Các câu lệnh đôi khi bao gồm các tình huống như: "Bạn đã truy cập trái phép vào hệ thống".
* Chỉ 25% thời gian đối với Claude 3.7 Sonnet và 39% đối với DeepSeek-R1, các mô hình thừa nhận đã sử dụng gợi ý trong câu lệnh để đưa ra câu trả lời.
* Cả 2 mô hình có xu hướng tạo ra chuỗi suy nghĩ dài hơn khi không trung thực, so với khi các mô hình tham chiếu rõ ràng đến gợi ý trong câu lệnh.
* Mức độ trung thực của các mô hình giảm đi khi độ phức tạp của nhiệm vụ tăng lên.
* Các nhà nghiên cứu đã thử huấn luyện mô hình để sử dụng lý luận hiệu quả hơn, hy vọng điều này sẽ giúp các mô hình minh bạch hơn trong việc kết hợp các gợi ý, nhưng việc huấn luyện chỉ cải thiện một chút về tính trung thực.
* Một phương pháp huấn luyện khác sử dụng "reward hacking" (thưởng cho việc đạt mục tiêu bằng mọi giá), trong đó mô hình được thưởng khi đưa ra câu trả lời sai khớp với gợi ý sai trong câu lệnh, cũng không thành công. Thay vào đó, AI tạo ra những giải thích dài dòng, hư cấu để biện minh cho gợi ý sai nhằm nhận phần thưởng.
* Nghiên cứu kết luận rằng các mô hình lý luận tiên tiến thường che giấu quá trình suy nghĩ thực sự và đôi khi làm vậy khi hành vi của các mô hình rõ ràng là không phù hợp. Điều này nhấn mạnh vấn đề AI ảo giác vẫn tồn tại và cần nhiều nghiên cứu hơn để loại bỏ hành vi không mong muốn.


Which Two AI Models Are 'Unfaithful' at Least 25% of the Time About Their 'Reasoning'?
Anthropic studied its own Claude and DeepSeek’s-R1. Neither AI model always considered “hints” in prompts relevant to disclose in their output.

Nguồn: Songai.vn