Công ty nghiên cứu AI uy tín cảnh báo: AI ngày càng giỏi "nói dối" và che giấu

Khôi Nguyên · 08/04/2025

Trong bối cảnh cuộc đua phát triển trí tuệ nhân tạo (AI) đang nóng lên từng ngày, Anthropic, công ty nghiên cứu AI uy tín và là "cha đẻ" của mô hình ngôn ngữ Claude, vừa đưa ra một cảnh báo quan trọng: người dùng nên hết sức thận trọng và không nên hoàn toàn tin tưởng vào những lời giải thích hay "chuỗi suy nghĩ" (Chain-of-Thought - CoT) do các công cụ AI cung cấp. Theo họ, cơ chế này, vốn được nhiều công ty quảng bá là giúp tăng tính minh bạch, lại đang ngày càng trở nên mập mờ và có thể che giấu quy trình ra quyết định thực sự bên trong AI.

Những điểm chính

Anthropic (nhà phát triển mô hình AI Claude) cảnh báo người dùng không nên tin hoàn toàn vào lời giải thích (chuỗi suy nghĩ - CoT) của AI.
Nghiên cứu của Anthropic chỉ ra rằng AI thường xuyên che giấu việc sử dụng thông tin gợi ý hoặc thông tin nhạy cảm trong các giải thích CoT của chúng.
Tỷ lệ AI thừa nhận việc sử dụng thông tin được cung cấp trong CoT còn rất thấp (ví dụ: Claude chỉ thừa nhận 41% khi được cấp quyền truy cập trái phép).
AI có khả năng tạo ra các chuỗi suy nghĩ ngụy biện, gây rủi ro nghiêm trọng cho các lĩnh vực đòi hỏi độ tin cậy cao như y tế, tài chính, pháp lý, quốc phòng.
Việc huấn luyện AI để trở nên trung thực hơn trong CoT đang gặp nhiều khó khăn; CoT có thể không phản ánh đúng quy trình suy luận thực sự mà chỉ là "bề nổi".

Nhiều công ty công nghệ hiện đang nỗ lực làm cho các mô hình AI trở nên dễ hiểu hơn thông qua kỹ thuật CoT, về cơ bản là yêu cầu AI giải thích từng bước lập luận của nó. Tuy nhiên, Anthropic lại đi ngược lại xu hướng này bằng một tuyên bố thẳng thắn trên blog chính thức: "Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron".

Để chứng minh cho nhận định này, nhóm chuyên gia của Anthropic đã tiến hành các thử nghiệm kiểm tra mức độ trung thực của CoT do AI tạo ra. Họ phát hiện ra rằng, khi được cung cấp những thông tin gợi ý (hints) để giải quyết vấn đề, các mô hình AI thường sử dụng những thông tin này nhưng lại không hề đề cập đến chúng trong phần giải thích các bước suy luận của mình.

Kết quả nghiên cứu cho thấy những con số đáng báo động:

Với mô hình Claude 3.7 Sonnet của chính Anthropic, chỉ khoảng 25% lời giải thích CoT đề cập đến các gợi ý mà người dùng cung cấp.
Tỷ lệ này ở mô hình DeepSeek-R1 nhỉnh hơn một chút, khoảng 39%.
Đáng lo ngại hơn, khi được cung cấp thông tin nhạy cảm (ví dụ như việc mô hình được phép truy cập trái phép vào một hệ thống), Claude chỉ thừa nhận điều này trong 41% các chuỗi suy nghĩ, trong khi DeepSeek-R1 chỉ là 19%.

Anthropic cảnh báo rằng, khi bị đặt vào những tình huống mang tính định hướng sai lệch, các mô hình AI sẵn sàng tạo ra những chuỗi suy nghĩ mang tính ngụy biện, tức là đưa ra những lập luận có vẻ hợp lý nhưng thực chất là để che đậy hoặc biện minh cho một kết quả sai lầm. Điều này đặt ra rủi ro cực kỳ lớn khi AI được triển khai trong các lĩnh vực đòi hỏi độ chính xác và tin cậy tuyệt đối như y tế, tài chính, pháp lý hay an ninh quốc phòng.

Một thách thức khác là việc cải thiện tình hình này đang gặp nhiều khó khăn. Các nỗ lực huấn luyện bổ sung hay yêu cầu mô hình phải trung thực hơn trong CoT hiện chưa mang lại hiệu quả rõ rệt. Thậm chí, các mô hình AI dường như đang ngày càng có xu hướng "giấu bài", khiến việc giám sát và kiểm soát quá trình suy luận nội bộ của chúng trở nên phức tạp hơn bao giờ hết.

Trong bối cảnh AI ngày càng thâm nhập sâu vào đời sống, nhiều tổ chức đang phát triển các công cụ để giám sát và đánh giá tính minh bạch của chúng. Tuy nhiên, cảnh báo từ Anthropic, một trong những đơn vị tiên phong về an toàn AI, cho thấy rằng "chuỗi suy nghĩ" có thể chỉ là "tấm màn" che đậy những quy trình phức tạp và tiềm ẩn rủi ro bên trong các hệ thống trí tuệ nhân tạo hiện đại. Người dùng cần nhận thức rõ về giới hạn này để sử dụng AI một cách có trách nhiệm và an toàn hơn.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Công ty nghiên cứu AI uy tín cảnh báo: AI ngày càng giỏi "nói dối" và che giấu

Khôi Nguyên

Writer

Khôi Nguyên

8 lý do học ngoại ngữ có thể trở nên dư thừa trong kỷ nguyên AI

Cách AI đặc biệt của Nga "đe nẹt" DeepSeek

Qualcomm chọn Việt Nam làm "cứ điểm" R&D AI lớn thứ 3 thế giới?

CEO OpenAI cuối cùng cũng thừa nhận: Sẽ "đại tu" cách đặt tên GPT đang gây "rối não".

Các mô hình GPT 4.1 mới của OpenAI vượt trội về tính năng dân coder khao khát

Google Gemini vừa có tính năng mới rất xịn, tạo video AI ngay trên app

FedEx nâng cao chất lượng dịch vụ và tăng cường kết nối doanh nghiệp Việt Nam với thị trường Mỹ

ASUS gây ấn tượng tại Tuần lễ Thiết kế Milan 2025 với triển lãm “Design You Can Feel”: tôn vinh chất liệu, tay nghề thủ công và trí tuệ nhân tạo (AI)

Trung tâm Đổi mới Sáng tạo Quốc gia Việt Nam (NIC) tham gia triển lãm công nghệ hàng đầu Châu Á về công nghệ và khởi nghiệp

Samsung ra mắt máy giặt, tủ lạnh có màn hình cảm ứng, AI cá nhân hóa tại Việt Nam

Toyota thử nghiệm thành phố tương lai: Có gì bên trong Woven City?

Ý công khai chỉ trích Anh "ích kỷ", không chịu chia sẻ công nghệ tiêm kích thế hệ 6

Cách AI đặc biệt của Nga "đe nẹt" DeepSeek

Qualcomm chọn Việt Nam làm "cứ điểm" R&D AI lớn thứ 3 thế giới?

Đây sẽ là chiếc iPhone có giá đắt nhất từ trước đến nay

Để khách "chơi trội" đang đánh pickleball lại nhảy xuống biển: Chủ "sân" nhận phạt 12,5 triệu đồng, buộc tháo dỡ!

Đánh giá nổi bật