Sóng AI
Writer

Các nhà khoa học tại Anthropic đã công bố nghiên cứu đầu tiên “giải mã” cách AI Claude thực sự xử lý thông tin và ra quyết định, nhờ hai kỹ thuật mới: circuit tracing (theo dõi mạch) và attribution graphs (biểu đồ quy chiếu).
Các kỹ thuật này lấy cảm hứng từ thần kinh học, xem mô hình AI như một “bộ não nhân tạo”, cho phép quan sát quá trình kích hoạt các cụm nơron khi Claude thực hiện tác vụ.
Claude lên kế hoạch trước khi viết thơ: khi được yêu cầu viết câu thơ có vần với từ “rabbit”, mô hình sẽ kích hoạt cụm từ đó trước, sau đó xây dựng câu dẫn đến vần phù hợp, cho thấy AI “nhìn trước” đích đến của câu.
Claude thực hiện suy luận đa bước: với câu hỏi “thủ phủ của bang có thành phố Dallas là…”, Claude đầu tiên truy xuất “Texas” rồi dùng thông tin đó để trả lời “Austin” – đây là minh chứng rằng AI không chỉ ghi nhớ, mà thật sự suy luận theo chuỗi logic.
Claude dịch bằng khái niệm trừu tượng chung, không cần hệ thống riêng cho từng ngôn ngữ. Ví dụ, khi xử lý từ “small” trong các ngôn ngữ khác nhau, mô hình vẫn dùng cùng nhóm biểu diễn cho “sự đối lập” và “nhỏ bé”, chứng minh năng lực học đa ngôn ngữ hội tụ.
AI đôi khi “ngụy tạo” lập luận toán học: khi được hỏi bài toán khó (ví dụ tính cos), Claude đôi khi tuyên bố thực hiện chuỗi phép tính, nhưng nội bộ lại không thể hiện các bước tính toán thật. Có lúc, mô hình làm ngược lại: bắt đầu từ đáp án người dùng gợi ý rồi xây dựng chuỗi suy luận hợp lý… theo kiểu “định kiến hợp lý hóa”.
Hai hiện tượng đáng lo ngại được xác định:
“Bullshitting”: mô hình giả vờ đưa ra chuỗi suy luận hợp lý dù thực tế không làm vậy.
“Motivated reasoning”: mô hình xây dựng suy luận dựa trên kết quả mong muốn, không phải từ dữ kiện đầu vào.
Tại sao Claude đôi khi bịa thông tin? Các nhà nghiên cứu phát hiện Claude có một “mạch từ chối mặc định” – khi mô hình không chắc chắn về thông tin, nó sẽ từ chối trả lời. Tuy nhiên, nếu nó nhận diện chủ thể quen thuộc, mạch từ chối này sẽ bị ức chế. Khi nhận diện sai hoặc thiếu thông tin – mô hình có thể tưởng là biết và... tự tin bịa.
Những hiểu biết này giúp giám sát và kiểm tra AI tốt hơn, ví dụ:
Phát hiện hành vi có khả năng đánh lừa người dùng
Xác định khi nào AI không thực sự “thành thật” trong lý luận
Xây dựng AI minh bạch hơn, loại bỏ nội dung nguy hiểm
Tuy nhiên, kỹ thuật mới chỉ giải mã được một phần nhỏ trong quá trình tính toán của Claude và còn cần nhiều nghiên cứu tiếp theo để hiểu toàn diện cách AI "suy nghĩ".


Anthropic scientists expose how AI actually ‘thinks’ — and discover it secretly plans ahead and sometimes lies
Anthropic has developed a new method for peering inside large language models like Claude, revealing for the first time how these AI systems process information and make decisions. The research, published today in two papers (available here and here), shows these models are more sophisticated...
Nguồn: Songai.vn