Tại sao AI trả lời đúng nhưng vẫn sai bản chất?

Nguyễn Hoàng
Nguyễn Hoàng
Phản hồi: 0

Nguyễn Hoàng

Intern Writer
Bạn có bao giờ tự hỏi AI có thật sự “hiểu” hay chỉ đang tạo ra ảo giác về kiến thức?

Một nhóm nhà nghiên cứu đến từ MIT, Harvard và Đại học Chicago vừa chỉ ra một lỗ hổng khá thú vị (và đáng ngại) trong cách chúng ta đánh giá trí tuệ nhân tạo. Họ đặt tên cho hiện tượng này là "hiểu biết Potemkin", ám chỉ việc các mô hình AI có thể trả lời đúng các câu hỏi khái niệm nhưng thực chất lại không hiểu những gì chúng đang nói.

Thuật ngữ này lấy cảm hứng từ câu chuyện lịch sử về những “ngôi làng Potemkin” ở Nga, được xây dựng giả tạo để lấy lòng hoàng hậu Catherine II. Về bề ngoài, làng rất đẹp, trật tự, đúng chuẩn, nhưng thực chất chỉ là mặt nạ rỗng tuếch. Tương tự, nhiều mô hình ngôn ngữ lớn (LLM) như GPT-4o, Claude 3.5 hay Gemini 2.0 có thể trả lời đúng bài kiểm tra, nhưng nếu hỏi sâu hơn một chút, ví dụ như áp dụng khái niệm vào tình huống mới, thì... bắt đầu lòi ra sơ hở.

Không phải "ảo giác" mà là một lớp diễn khác tinh vi hơn​

Từ trước đến nay, khi AI trả lời sai, người ta gọi đó là “hallucination” (ảo giác). Nhưng hiểu biết Potemkin không phải như vậy. Nó không bịa đặt thông tin sai lệch, mà mô phỏng lại một câu trả lời đúng, chỉ có điều nó không thực sự hiểu. Nó biết “nói đúng”, nhưng không thể làm đúng.

Ví dụ: khi được hỏi sơ đồ vần ABAB là gì, GPT-4o trả lời cực kỳ chuẩn mực: “Dòng 1 và 3 vần với nhau, dòng 2 và 4 vần với nhau.” Nghe tưởng như nó nắm được khái niệm. Nhưng ngay sau đó, khi yêu cầu nó điền từ vào một bài thơ sử dụng sơ đồ đó, nó... chọn sai vần. Điều này cho thấy: biết diễn đạt khái niệm ≠ hiểu khái niệm.

Những bài kiểm tra hiện tại: Đúng nhưng... sai bản chất​

Hầu hết các bài kiểm tra năng lực AI hiện nay đánh giá khả năng nhận diện hoặc mô tả khái niệm. Nhưng theo các nhà nghiên cứu, việc này dễ tạo ra ảo tưởng rằng mô hình "thông minh", trong khi nó chỉ đang trả lời giống như... học vẹt.

1751602649966.png
Để kiểm chứng điều này, nhóm nghiên cứu đã tạo ra một bộ kiểm thử riêng, đánh vào các lĩnh vực như kỹ thuật văn học, lý thuyết trò chơi, và thiên kiến tâm lý, những thứ đòi hỏi áp dụng khái niệm, chứ không chỉ mô tả suông.

Kết quả rất đáng chú ý:
  • Dù các mô hình xác định được khái niệm đúng đến 94,2%
  • Nhưng khi yêu cầu phân loại tình huống, tạo ví dụ, hoặc chỉnh sửa khái niệm, tỷ lệ thất bại lên tới 40–55%
Tức là: nếu bài thi đòi hỏi vận dụng linh hoạt, AI... “toang”.

Vì sao "Potemkin" lại nguy hiểm?​

Bởi vì nó khiến chúng ta ngộ nhận về năng lực thật của AI. Nếu AI vượt qua một bài kiểm tra nhưng không thể áp dụng ngoài thực tế, vậy thì bài kiểm tra ấy có còn giá trị? Nó không chỉ khiến người dùng nhầm lẫn, mà còn tạo ra rủi ro lớn khi AI được đưa vào giáo dục, y tế, pháp luật hay các ngành đòi hỏi quyết định nghiêm túc.

Một trong các tác giả, Keyon Vafa, nhấn mạnh rằng: hành vi biểu hiện hiểu biết ở AI (như cách trả lời đúng) không tương đương với hiểu biết thật sự như ở con người. Điều này nghĩa là: chúng ta cần những cách kiểm tra mới, không chỉ sao chép cách kiểm tra dành cho con người.

Để xử lý “hiểu biết Potemkin”, các nhà nghiên cứu cho rằng cần:
  • Thiết kế lại chuẩn mực kiểm thử, tập trung vào khả năng ứng dụng, sáng tạo và suy luận linh hoạt
  • Hoặc can thiệp kỹ thuật để loại bỏ xu hướng “trả lời đúng mà không hiểu gì” khỏi quá trình học của AI
Đây cũng chính là một bước quan trọng nếu chúng ta thật sự muốn tiến đến AGI, trí tuệ nhân tạo tổng quát, chứ không phải một chiếc máy học vẹt biết tấu hài. (TheRegister)
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL3RhaS1zYW8tYWktdHJhLWxvaS1kdW5nLW5odW5nLXZhbi1zYWktYmFuLWNoYXQuNjQyNjYv
Top