Nghiên cứu mới nhất của Meta chứng minh AI hoàn toàn không hiểu được suy nghĩ của con người

Nhai kỹ sống chậm
Nhai kỹ sống chậm
Phản hồi: 1
Trí tuệ nhân tạo (AI) đã đạt được những tiến bộ đáng kinh ngạc trong việc xử lý thông tin, giao tiếp, và hỗ trợ con người. Tuy nhiên, AI vẫn đang phải đối mặt với một thách thức lớn: khả năng hiểu được suy nghĩ và cảm xúc của con người. Nghiên cứu mới nhất từ Meta đã cho thấy rằng, ngay cả những hệ thống AI tiên tiến nhất cũng không thể đạt được trí tuệ cảm xúc như con người.
1735004977080.png

Vào tháng 12, nhóm nghiên cứu của Meta đã công bố một báo cáo nghiên cứu có tiêu đề "Khám phá lý thuyết tâm trí: Tạo dữ liệu đối nghịch được hướng dẫn bởi chương trình cho lý thuyết lý luận tâm trí".

Khả năng đọc hiểu ý nghĩ: Nút thắt lớn của AI

Chúng ta thường hy vọng AI, như ChatGPT, có thể hiểu rõ điều mình muốn, nhưng lại cần cung cấp những hướng dẫn chi tiết để AI đưa ra câu trả lời mong đợi. Điều này không chỉ là vấn đề về khả năng diễn đạt của chúng ta, mà còn do AI thiếu sự hiểu biết về trạng thái nhận thức và tâm lý của con người.

Ví dụ, nếu một khách hàng nói: “Cửa hàng này quá đắt”, một AI thông minh có thể hiểu rằng người này đang tìm kiếm giảm giá hoặc cần được thuyết phục. Trong khi đó, AI thiếu trí tuệ cảm xúc sẽ chỉ trả lời dựa trên dữ liệu, như: “Giá sản phẩm của chúng tôi cao hơn mức trung bình của thị trường.” Câu trả lời này không chỉ thiếu sự đồng cảm, mà còn khiến AI trở nên “máy móc” và khó gần.

“Lý thuyết tâm trí”: Nền tảng của trí tuệ cảm xúc

Để AI có thể hiểu con người, điều cần thiết là trang bị cho nó khả năng nhận thức xã hội, hay còn gọi là “lý thuyết tâm trí” (Theory of Mind). Đây là năng lực hiểu rằng mỗi người có trạng thái nhận thức và thông tin khác nhau.

Một ví dụ đơn giản: Nếu bạn biết bé Minh đã chuyển quả táo từ bàn sang tủ lạnh nhưng bé Hồng không biết, bạn sẽ dễ dàng trả lời rằng bé Hồng sẽ tìm táo trên bàn. AI, để đạt được cấp độ nhận thức này, cần vượt qua những bài kiểm tra phức tạp hơn rất nhiều.
1735005091733.png

Các nhà nghiên cứu chia các câu chuyện thành ba nhóm tình huống có độ phức tạp khác nhau tùy theo điểm điều tra chính của họ. Màu xanh là ngữ cảnh đơn giản, thêm điều kiện màu cam thì khó, thêm điều kiện màu đỏ là khó nhất.
Cấp độ đầu tiên: theo dõi nhận thức cơ bản
"Mary cất chìa khóa vào ngăn kéo trong bếp. Khi cô ấy đi ra ngoài, John đã chuyển chìa khóa sang bàn cà phê trong phòng khách. Khi cô ấy quay lại, Mary sẽ tìm chìa khóa ở đâu?"
Những câu hỏi này kiểm tra xem AI có hiểu rằng hành động của một người dựa trên thông tin họ biết chứ không phải sự thật khách quan hay không.

Cấp độ thứ hai: hiểu biết về truyền thông tin
Thay vì chỉ thay đổi đồ vật, còn có sự truyền tải thông tin giữa các nhân vật.
Beth muối táo, rời khỏi bếp và nhắn tin cho Charles để nói với Charles rằng táo đã được muối. Lúc này Charles vào bếp có biết táo đã được rắc muối không?
Loại câu hỏi này kiểm tra xem AI có thể hiểu được hay không: quá trình truyền thông tin diễn ra

Cấp độ thứ ba: mối quan hệ nhận thức bất đối xứng
Đây là điều phức tạp nhất, vì nhận thức của tất cả các nhân vật là không đối xứng. Một số người biết điều gì đó, trong khi những người khác thì không.
"Jenny đang chuẩn bị mẫu trong phòng thí nghiệm. Tom đã nhìn thấy toàn bộ quá trình qua camera an ninh nhưng Jenny không hề biết mình đang bị theo dõi. Liz đã bước vào và chuyển mẫu sang địa điểm khác. Mọi người sẽ phản ứng thế nào khi người giám sát hỏi về mẫu" ?
Loại kịch bản này kiểm tra xem AI có thể hiểu được hay không: các trạng thái nhận thức khác nhau của nhiều người và tính gián tiếp của việc thu thập thông tin.

Không chỉ vậy, họ còn thêm các bẫy làm biến số trong những cảnh này để tăng độ khó.
Chẳng hạn như bẫy gây mất tập trung :
"Trong khi bác sĩ Smith đang xem hồ sơ bệnh án, y tá đã thay đổi vị trí đặt thuốc. Mặc dù bác sĩ có mặt nhưng ông ấy vẫn tập trung vào điện thoại." Đây là một bài kiểm tra xem AI có hiểu được sự hiện diện vật lý đó hay không. không nhận thấy những thay đổi bằng nhau.
Những manh mối gây hiểu lầm:
"Anna đặt chiếc bánh vào hộp màu đỏ. Khi Bill bước vào, cô ấy nói: 'Chiếc bánh ở trong hộp màu xanh.' Điều này kiểm tra xem liệu AI có thể phân biệt giữa: sự thật khách quan, niềm tin chủ quan, và cố tình gây nhầm lẫn
Các nhà nghiên cứu của Meta đã tạo ra hơn 3.000 kịch bản thử nghiệm độc đáo thông qua ExploreToM. Mỗi kịch bản được xem xét bởi ít nhất hai chuyên gia để đảm bảo tính chặt chẽ về mặt logic và hiệu quả thử nghiệm.
Nhóm nghiên cứu đã chọn ra các mô hình AI tiêu biểu nhất hiện nay để thử nghiệm, bao gồm gpt-4o của OpenAI, Llama-3.1-70B-Inst và Mixtral-8x7B-Inst của Meta.
Kết quả thật đáng kinh ngạc. Đối với các bài toán phức tạp chứa một số phần tử nhất định, GPT-4o chỉ đạt độ chính xác kém 9%, trong khi Llama-3.1-70B chỉ đạt độ chính xác 0%.

Nghiên cứu của Meta: AI gặp khó với các kịch bản xã hội

Tháng 12/2023, nhóm nghiên cứu của Meta đã công bố hệ thống ExploreToM, một công cụ kiểm tra khả năng nhận thức xã hội của AI. Họ tạo ra hơn 3.000 kịch bản xã hội, chia thành ba cấp độ:
  1. Theo dõi nhận thức cơ bản: Kiểm tra khả năng AI hiểu rằng hành động của một người dựa trên thông tin họ có, không phải sự thật khách quan.
  2. Truyền tải thông tin: Đánh giá khả năng AI nhận ra quá trình giao tiếp giữa các nhân vật.
  3. Mối quan hệ nhận thức bất đối xứng: Các nhân vật có thông tin khác nhau, đòi hỏi AI theo dõi trạng thái nhận thức phức tạp.
Kết quả thử nghiệm cho thấy các mô hình AI hiện tại, như GPT-4o và Llama-3.1, gặp khó khăn lớn khi xử lý các kịch bản phức tạp. Độ chính xác giảm mạnh khi số lượng hành động, nhân vật và các yếu tố gây nhiễu tăng lên.

Ví dụ, GPT-4o đạt độ chính xác chỉ 9% trong những bài toán khó. Thậm chí, ở các nhiệm vụ cơ bản như theo dõi trạng thái vật lý của đồ vật, kết quả cũng không mấy khả quan.

Đào tạo trí tuệ cảm xúc cho AI: Một tia hy vọng

Meta đã thử nghiệm đào tạo Llama-3.1 bằng 80.000 kịch bản chứa đựng yếu tố nhận thức xã hội. Sau khóa huấn luyện, AI cải thiện đáng kể, đạt tỷ lệ chính xác lên tới 75-80% trong các nhiệm vụ cơ bản. Tuy nhiên, với những tình huống phức tạp như niềm tin lồng nhau hoặc lời nói dối trắng trợn, độ chính xác vẫn thấp, chỉ đạt khoảng 30-35%.

Thách thức lớn: Dữ liệu đào tạo thiếu sự đồng cảm

Một trong những nguyên nhân chính khiến AI không có trí tuệ cảm xúc là do dữ liệu đào tạo không chứa đựng đủ các tình huống đòi hỏi sự đồng cảm. Trong khi cuộc sống con người đầy rẫy sự hiểu lầm, khoảng trống thông tin và những cảm xúc tinh tế, phần lớn dữ liệu hiện tại chỉ tập trung vào truyền tải thông tin đơn giản.

Để xây dựng một AI thực sự hiểu con người, các nhà nghiên cứu cần thiết kế những bộ dữ liệu đặc thù, tập trung vào việc mô phỏng các tình huống phức tạp và khác biệt nhận thức.

Tương lai của AI: Trí tuệ cảm xúc có thể được xây dựng?

Mặc dù còn một chặng đường dài để AI đạt được trí tuệ cảm xúc như con người, nghiên cứu của Meta cho thấy đây là mục tiêu có thể đạt được với sự đào tạo bài bản. AI trong tương lai không chỉ là cỗ máy trả lời câu hỏi mà còn có thể trở thành đối tác giao tiếp thực sự, hiểu và đồng cảm với con người.

Khả năng đồng cảm, vốn là đặc trưng của con người, có thể sẽ là bước đột phá tiếp theo trong hành trình phát triển AI. Và biết đâu, một ngày không xa, AI sẽ thực sự hiểu được bạn đang nghĩ gì.
 


Đăng nhập một lần thảo luận tẹt ga

lananhhne

Pearl
Thấy Meta nghiên cứu cái này cũng hay ghê, nhưng chắc còn lâu AI mới đủ đồng cảm giống con người hoặc kh thể. Thôi thì tận dụng điểm mạnh của AI trước đã, như mấy công cụ kiểu Preny AI hỗ trợ CSKH tự động cũng khá ổn mà
 
Thành viên mới đăng
Top