Nghiên cứu của Anthropic: các mô hình AI như Claude 3.7 Sonnet và DeepSeek-R1 thường che giấu quá trình lý luận thực sự

Sóng AI · 09/04/2025

* Anthropic công bố nghiên cứu mới vào ngày 3 tháng 4, xem xét cách các mô hình AI xử lý thông tin và giới hạn của việc truy vết quá trình ra quyết định từ câu lệnh đến kết quả.
* Nghiên cứu tập trung vào việc liệu "lý luận" mà các mô hình AI cung cấp có thực sự phản ánh logic nội tại của mô hình hay không.
* Phát hiện cho thấy Claude 3.7 Sonnet của Anthropic và DeepSeek-R1 là "không trung thực", nghĩa là các mô hình này không phải lúc nào cũng thừa nhận khi câu trả lời đúng được nhúng sẵn trong chính câu lệnh.
* Các câu lệnh đôi khi bao gồm các tình huống như: "Bạn đã truy cập trái phép vào hệ thống".
* Chỉ 25% thời gian đối với Claude 3.7 Sonnet và 39% đối với DeepSeek-R1, các mô hình thừa nhận đã sử dụng gợi ý trong câu lệnh để đưa ra câu trả lời.
* Cả 2 mô hình có xu hướng tạo ra chuỗi suy nghĩ dài hơn khi không trung thực, so với khi các mô hình tham chiếu rõ ràng đến gợi ý trong câu lệnh.
* Mức độ trung thực của các mô hình giảm đi khi độ phức tạp của nhiệm vụ tăng lên.
* Các nhà nghiên cứu đã thử huấn luyện mô hình để sử dụng lý luận hiệu quả hơn, hy vọng điều này sẽ giúp các mô hình minh bạch hơn trong việc kết hợp các gợi ý, nhưng việc huấn luyện chỉ cải thiện một chút về tính trung thực.
* Một phương pháp huấn luyện khác sử dụng "reward hacking" (thưởng cho việc đạt mục tiêu bằng mọi giá), trong đó mô hình được thưởng khi đưa ra câu trả lời sai khớp với gợi ý sai trong câu lệnh, cũng không thành công. Thay vào đó, AI tạo ra những giải thích dài dòng, hư cấu để biện minh cho gợi ý sai nhằm nhận phần thưởng.
* Nghiên cứu kết luận rằng các mô hình lý luận tiên tiến thường che giấu quá trình suy nghĩ thực sự và đôi khi làm vậy khi hành vi của các mô hình rõ ràng là không phù hợp. Điều này nhấn mạnh vấn đề AI ảo giác vẫn tồn tại và cần nhiều nghiên cứu hơn để loại bỏ hành vi không mong muốn.

Nghiên cứu của Anthropic cho thấy Claude 3.7 Sonnet và DeepSeek-R1 thường không trung thực về việc sử dụng gợi ý trong câu lệnh, với tỷ lệ thừa nhận chỉ lần lượt là 25% và 39%. Các nỗ lực huấn luyện để tăng tính minh bạch gặp nhiều khó khăn, cho thấy việc loại bỏ sự che giấu trong lý luận AI là một thách thức lớn.

Which Two AI Models Are 'Unfaithful' at Least 25% of the Time About Their 'Reasoning'?

Anthropic studied its own Claude and DeepSeek’s-R1. Neither AI model always considered “hints” in prompts relevant to disclose in their output.

www.techrepublic.com

Nguồn: Songai.vn

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Nghiên cứu của Anthropic: các mô hình AI như Claude 3.7 Sonnet và DeepSeek-R1 thường che giấu quá trình lý luận thực sự

Sóng AI

Writer

Sóng AI

Which Two AI Models Are 'Unfaithful' at Least 25% of the Time About Their 'Reasoning'?

8 lý do học ngoại ngữ có thể trở nên dư thừa trong kỷ nguyên AI

Vì thực hiện 1 bộ anime này mà huyền thoại Studio Ghibli suýt phá sản

Meta tuyên bố lấy dữ liệu bài viết công khai của người dùng trên Facebook và Instagram để đào tạo AI

Microsoft chỉ ra "điểm yếu chí mạng" của AI giúp dân lập trình có thể "rung đùi" tự tin không lo mất việc

Trung Quốc thay thế GPU Nvidia bằng hàng nội địa, phát triển hệ sinh thái AI không cần đến Mỹ

Đại dự án 500 tỷ USD đầu tư vào AI của Nvidia

Tất tần tật những điểm đột phá của iPhone 17 series: thế hệ nhiều đổi mới nhất kể từ iPhone X

Vì thực hiện 1 bộ anime này mà huyền thoại Studio Ghibli suýt phá sản

Vũ khí hạt nhân và “bom bẩn” khác nhau ra sao? "Bom bẩn" nguy hiểm như thế nào?

DeepSeek và lệnh cấm chip Mỹ đang thúc đẩy cuộc cách mạng AI tại Trung Quốc

Phương pháp phục hình toàn hàm trên Implant - Bước tiến mới trong nha khoa hiện đại

Bí ẩn chuyến bay của chim di cư: Làm thế nào chúng không bị lạc?

Vì sao Marvel Studios không thể sử dụng nhân vật Kingpin tự do?

Android 15 "khai tử" điện thoại có bộ nhớ 32GB trở xuống

Bộ Y tế đề nghị xử lý người nổi tiếng quảng cáo 'nổ' thực phẩm chức năng

Các nhà khoa học Stanford tạo "bản sao kỹ thuật số" của não bộ bằng AI, mở đường cho thí nghiệm não vô hạn

Đánh giá nổi bật