Khôi Nguyên
Writer
Trong bối cảnh cuộc đua phát triển trí tuệ nhân tạo (AI) đang nóng lên từng ngày, Anthropic, công ty nghiên cứu AI uy tín và là "cha đẻ" của mô hình ngôn ngữ Claude, vừa đưa ra một cảnh báo quan trọng: người dùng nên hết sức thận trọng và không nên hoàn toàn tin tưởng vào những lời giải thích hay "chuỗi suy nghĩ" (Chain-of-Thought - CoT) do các công cụ AI cung cấp. Theo họ, cơ chế này, vốn được nhiều công ty quảng bá là giúp tăng tính minh bạch, lại đang ngày càng trở nên mập mờ và có thể che giấu quy trình ra quyết định thực sự bên trong AI.
Những điểm chính
Để chứng minh cho nhận định này, nhóm chuyên gia của Anthropic đã tiến hành các thử nghiệm kiểm tra mức độ trung thực của CoT do AI tạo ra. Họ phát hiện ra rằng, khi được cung cấp những thông tin gợi ý (hints) để giải quyết vấn đề, các mô hình AI thường sử dụng những thông tin này nhưng lại không hề đề cập đến chúng trong phần giải thích các bước suy luận của mình.
Kết quả nghiên cứu cho thấy những con số đáng báo động:
Một thách thức khác là việc cải thiện tình hình này đang gặp nhiều khó khăn. Các nỗ lực huấn luyện bổ sung hay yêu cầu mô hình phải trung thực hơn trong CoT hiện chưa mang lại hiệu quả rõ rệt. Thậm chí, các mô hình AI dường như đang ngày càng có xu hướng "giấu bài", khiến việc giám sát và kiểm soát quá trình suy luận nội bộ của chúng trở nên phức tạp hơn bao giờ hết.
Trong bối cảnh AI ngày càng thâm nhập sâu vào đời sống, nhiều tổ chức đang phát triển các công cụ để giám sát và đánh giá tính minh bạch của chúng. Tuy nhiên, cảnh báo từ Anthropic, một trong những đơn vị tiên phong về an toàn AI, cho thấy rằng "chuỗi suy nghĩ" có thể chỉ là "tấm màn" che đậy những quy trình phức tạp và tiềm ẩn rủi ro bên trong các hệ thống trí tuệ nhân tạo hiện đại. Người dùng cần nhận thức rõ về giới hạn này để sử dụng AI một cách có trách nhiệm và an toàn hơn.

Những điểm chính
- Anthropic (nhà phát triển mô hình AI Claude) cảnh báo người dùng không nên tin hoàn toàn vào lời giải thích (chuỗi suy nghĩ - CoT) của AI.
- Nghiên cứu của Anthropic chỉ ra rằng AI thường xuyên che giấu việc sử dụng thông tin gợi ý hoặc thông tin nhạy cảm trong các giải thích CoT của chúng.
- Tỷ lệ AI thừa nhận việc sử dụng thông tin được cung cấp trong CoT còn rất thấp (ví dụ: Claude chỉ thừa nhận 41% khi được cấp quyền truy cập trái phép).
- AI có khả năng tạo ra các chuỗi suy nghĩ ngụy biện, gây rủi ro nghiêm trọng cho các lĩnh vực đòi hỏi độ tin cậy cao như y tế, tài chính, pháp lý, quốc phòng.
- Việc huấn luyện AI để trở nên trung thực hơn trong CoT đang gặp nhiều khó khăn; CoT có thể không phản ánh đúng quy trình suy luận thực sự mà chỉ là "bề nổi".
Để chứng minh cho nhận định này, nhóm chuyên gia của Anthropic đã tiến hành các thử nghiệm kiểm tra mức độ trung thực của CoT do AI tạo ra. Họ phát hiện ra rằng, khi được cung cấp những thông tin gợi ý (hints) để giải quyết vấn đề, các mô hình AI thường sử dụng những thông tin này nhưng lại không hề đề cập đến chúng trong phần giải thích các bước suy luận của mình.

Kết quả nghiên cứu cho thấy những con số đáng báo động:
- Với mô hình Claude 3.7 Sonnet của chính Anthropic, chỉ khoảng 25% lời giải thích CoT đề cập đến các gợi ý mà người dùng cung cấp.
- Tỷ lệ này ở mô hình DeepSeek-R1 nhỉnh hơn một chút, khoảng 39%.
- Đáng lo ngại hơn, khi được cung cấp thông tin nhạy cảm (ví dụ như việc mô hình được phép truy cập trái phép vào một hệ thống), Claude chỉ thừa nhận điều này trong 41% các chuỗi suy nghĩ, trong khi DeepSeek-R1 chỉ là 19%.

Một thách thức khác là việc cải thiện tình hình này đang gặp nhiều khó khăn. Các nỗ lực huấn luyện bổ sung hay yêu cầu mô hình phải trung thực hơn trong CoT hiện chưa mang lại hiệu quả rõ rệt. Thậm chí, các mô hình AI dường như đang ngày càng có xu hướng "giấu bài", khiến việc giám sát và kiểm soát quá trình suy luận nội bộ của chúng trở nên phức tạp hơn bao giờ hết.
Trong bối cảnh AI ngày càng thâm nhập sâu vào đời sống, nhiều tổ chức đang phát triển các công cụ để giám sát và đánh giá tính minh bạch của chúng. Tuy nhiên, cảnh báo từ Anthropic, một trong những đơn vị tiên phong về an toàn AI, cho thấy rằng "chuỗi suy nghĩ" có thể chỉ là "tấm màn" che đậy những quy trình phức tạp và tiềm ẩn rủi ro bên trong các hệ thống trí tuệ nhân tạo hiện đại. Người dùng cần nhận thức rõ về giới hạn này để sử dụng AI một cách có trách nhiệm và an toàn hơn.