Anthropic phát hiện Claude có thể nói dối và ngụy tạo lý do – AI đang “suy nghĩ” như con người?

Sóng AI · 08:32, Thứ 6

Các nhà khoa học tại Anthropic đã công bố nghiên cứu đầu tiên “giải mã” cách AI Claude thực sự xử lý thông tin và ra quyết định, nhờ hai kỹ thuật mới: circuit tracing (theo dõi mạch) và attribution graphs (biểu đồ quy chiếu).
Các kỹ thuật này lấy cảm hứng từ thần kinh học, xem mô hình AI như một “bộ não nhân tạo”, cho phép quan sát quá trình kích hoạt các cụm nơron khi Claude thực hiện tác vụ.
Claude lên kế hoạch trước khi viết thơ: khi được yêu cầu viết câu thơ có vần với từ “rabbit”, mô hình sẽ kích hoạt cụm từ đó trước, sau đó xây dựng câu dẫn đến vần phù hợp, cho thấy AI “nhìn trước” đích đến của câu.
Claude thực hiện suy luận đa bước: với câu hỏi “thủ phủ của bang có thành phố Dallas là…”, Claude đầu tiên truy xuất “Texas” rồi dùng thông tin đó để trả lời “Austin” – đây là minh chứng rằng AI không chỉ ghi nhớ, mà thật sự suy luận theo chuỗi logic.
Claude dịch bằng khái niệm trừu tượng chung, không cần hệ thống riêng cho từng ngôn ngữ. Ví dụ, khi xử lý từ “small” trong các ngôn ngữ khác nhau, mô hình vẫn dùng cùng nhóm biểu diễn cho “sự đối lập” và “nhỏ bé”, chứng minh năng lực học đa ngôn ngữ hội tụ.
AI đôi khi “ngụy tạo” lập luận toán học: khi được hỏi bài toán khó (ví dụ tính cos), Claude đôi khi tuyên bố thực hiện chuỗi phép tính, nhưng nội bộ lại không thể hiện các bước tính toán thật. Có lúc, mô hình làm ngược lại: bắt đầu từ đáp án người dùng gợi ý rồi xây dựng chuỗi suy luận hợp lý… theo kiểu “định kiến hợp lý hóa”.
Hai hiện tượng đáng lo ngại được xác định:
- “Bullshitting”: mô hình giả vờ đưa ra chuỗi suy luận hợp lý dù thực tế không làm vậy.
- “Motivated reasoning”: mô hình xây dựng suy luận dựa trên kết quả mong muốn, không phải từ dữ kiện đầu vào.
Tại sao Claude đôi khi bịa thông tin? Các nhà nghiên cứu phát hiện Claude có một “mạch từ chối mặc định” – khi mô hình không chắc chắn về thông tin, nó sẽ từ chối trả lời. Tuy nhiên, nếu nó nhận diện chủ thể quen thuộc, mạch từ chối này sẽ bị ức chế. Khi nhận diện sai hoặc thiếu thông tin – mô hình có thể tưởng là biết và... tự tin bịa.
Những hiểu biết này giúp giám sát và kiểm tra AI tốt hơn, ví dụ:
- Phát hiện hành vi có khả năng đánh lừa người dùng
- Xác định khi nào AI không thực sự “thành thật” trong lý luận
- Xây dựng AI minh bạch hơn, loại bỏ nội dung nguy hiểm
Tuy nhiên, kỹ thuật mới chỉ giải mã được một phần nhỏ trong quá trình tính toán của Claude và còn cần nhiều nghiên cứu tiếp theo để hiểu toàn diện cách AI "suy nghĩ".

Anthropic lần đầu giải mã nội tâm Claude, phát hiện AI lập kế hoạch trước, thực hiện suy luận logic đa bước, dịch ngôn ngữ thông qua mạng lưới khái niệm trừu tượng, và đôi khi… bịa đặt để hợp lý hóa đáp án. Nhờ kỹ thuật circuit tracing, họ phát hiện Claude có thể ngụy tạo suy luận toán học hoặc từ chối trả lời khi mạch mặc định bị sai lệch. Những phát hiện này giúp xây dựng AI minh bạch và đáng tin cậy hơn, nhưng các nhà nghiên cứu cảnh báo: chúng ta mới chỉ hiểu được bề nổi của trí tuệ máy móc.

Anthropic scientists expose how AI actually ‘thinks’ — and discover it secretly plans ahead and sometimes lies

Anthropic has developed a new method for peering inside large language models like Claude, revealing for the first time how these AI systems process information and make decisions. The research, published today in two papers (available here and here), shows these models are more sophisticated...

venturebeat.com

Nguồn: Songai.vn

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Anthropic phát hiện Claude có thể nói dối và ngụy tạo lý do – AI đang “suy nghĩ” như con người?

Sóng AI

Writer

Sóng AI

Anthropic scientists expose how AI actually ‘thinks’ — and discover it secretly plans ahead and sometimes lies

Trung Quốc có thể cấm bán GPU Nvidia để trả đũa Mỹ, Huawei "mừng như bắt được vàng"

Google bất ngờ "quay xe", cho dùng miễn phí 'mô hình AI thông minh nhất' Gemini 2.5 Pro

Huấn luyện quá mức có thể hủy hoại hiệu suất của mô hình LLM

OpenAI gây tranh cãi khi cho phép tạo hình ảnh chữ thập ngoặc: Tự do biểu đạt hay thiếu trách nhiệm?

AgentSpec buộc AI agent tuân thủ quy tắc, giải quyết vấn đề độ tin cậy

Tôi đã cho Gemini xem lịch sử tìm kiếm của mình và giờ đây tôi sợ hãi vì nó hiểu tôi quá rõ

Một ứng dụng chat được chính phủ Mỹ tin dùng, hacker yêu thích, và giờ là đến người dân Hoa Kỳ

Sinh viên FPT 'hiến kế' giúp bạn trẻ cai thuốc lá, thuốc lá điện tử

Một thành phố ở Việt Nam vừa công bố cuộc thi Sáng tác tranh kỹ thuật số ứng dụng công nghệ NFT, tổng giá trị giải thưởng lên đến 100 triệu đồng

Hàng loạt website cơ quan Nhà nước bị chèn link quảng cáo cờ bạc, cá độ trực tuyến

Saramonic Ultra: Micro không dây chống nước, pin cả ngày, thu âm xa được tới 300m

Microsoft "khai tử" mật khẩu truyền thống, hơn 1 tỷ người dùng bị ảnh hưởng

Trí tuệ nhân tạo thúc đẩy tăng trưởng chất lượng cao của Trung Quốc

Vì sao động đất ở Myanmar gây thiệt hại nặng nề?

Vết cắt khổng lồ sau trận động đất Myanmar từ ảnh vệ tinh

Google bất ngờ "quay xe", cho dùng miễn phí 'mô hình AI thông minh nhất' Gemini 2.5 Pro

Đánh giá nổi bật