Minh Nguyệt
Intern Writer
Chắc hẳn ai cũng biết rằng trí tuệ nhân tạo (AI) vẫn mắc phải những sai lầm. Tuy nhiên, một vấn đề nghiêm trọng hơn có thể là những thiếu sót trong cách mà AI đưa ra kết luận. Khi AI, đặc biệt là AI sinh sinh (generative AI), ngày càng được sử dụng như một trợ lý thay vì chỉ là một công cụ, hai nghiên cứu mới đây đã chỉ ra rằng cách mà các mô hình lý luận có thể có những tác động nghiêm trọng trong các lĩnh vực quan trọng như y tế, pháp luật và giáo dục.
Độ chính xác của các mô hình ngôn ngữ lớn (LLMs) khi trả lời câu hỏi về nhiều chủ đề đã cải thiện đáng kể trong những năm gần đây. Điều này đã thúc đẩy sự quan tâm ngày càng tăng đối với tiềm năng của công nghệ này trong việc hỗ trợ các lĩnh vực như chẩn đoán y tế, cung cấp liệu pháp tâm lý, hoặc đóng vai trò như một gia sư ảo. Những báo cáo từ thực tế cho thấy người dùng đã sử dụng các LLM có sẵn cho những nhiệm vụ này với kết quả không đồng nhất. Một phụ nữ ở California gần đây đã lật ngược quyết định trục xuất của mình sau khi sử dụng AI để nhận tư vấn pháp lý, nhưng một người đàn ông 60 tuổi lại gặp phải ngộ độc bromide sau khi tìm kiếm thông tin y tế từ công cụ này. Các nhà trị liệu cũng cảnh báo rằng việc sử dụng AI để hỗ trợ sức khỏe tâm thần thường làm trầm trọng thêm triệu chứng của bệnh nhân.
Nghiên cứu mới cho thấy một phần của vấn đề là các mô hình này lý luận theo cách hoàn toàn khác với con người, điều này có thể khiến chúng gặp khó khăn với những vấn đề tinh vi hơn. Một bài báo gần đây trên tạp chí Nature Machine Intelligence đã phát hiện rằng các mô hình gặp khó khăn trong việc phân biệt giữa niềm tin của người dùng và sự thật, trong khi một bài báo chưa được đánh giá trên arXiv cho thấy các hệ thống đa tác nhân được thiết kế để cung cấp lời khuyên y tế cũng gặp phải những thiếu sót trong lý luận có thể làm sai lệch chẩn đoán.
James Zou, phó giáo sư khoa học dữ liệu y sinh tại Trường Y khoa Stanford, cho biết: “Khi chúng ta chuyển từ AI chỉ là một công cụ sang AI như một tác nhân, cách thức trở nên ngày càng quan trọng. Khi bạn sử dụng AI như một người tư vấn, gia sư, bác sĩ hay thậm chí là bạn bè, thì không chỉ câu trả lời cuối cùng quan trọng. Toàn bộ quá trình và cuộc trò chuyện cũng rất quan trọng.”
Việc phân biệt giữa sự thật và niềm tin là một khả năng đặc biệt quan trọng trong các lĩnh vực như pháp luật, trị liệu và giáo dục. Điều này đã thúc đẩy Zou và các đồng nghiệp đánh giá 24 mô hình AI hàng đầu dựa trên một tiêu chuẩn mới mà họ tạo ra có tên là KaBLE, viết tắt của “Knowledge and Belief Evaluation”. Bài kiểm tra này bao gồm 1.000 câu khẳng định từ mười lĩnh vực khác nhau, bao gồm lịch sử, văn học, y học và pháp luật, được ghép với các phiên bản không chính xác. Những câu này đã được sử dụng để tạo ra 13.000 câu hỏi nhằm kiểm tra khả năng của mô hình trong việc xác minh sự thật, hiểu niềm tin của người khác và nhận thức về những gì một người biết về niềm tin hoặc kiến thức của người khác.
Các nhà nghiên cứu phát hiện rằng các mô hình lý luận mới hơn, chẳng hạn như O1 của OpenAI hay R1 của DeepSeek, đạt điểm cao trong việc xác minh sự thật, với độ chính xác trên 90%. Các mô hình cũng khá tốt trong việc phát hiện khi niềm tin sai được báo cáo ở ngôi thứ ba, với độ chính xác đạt 95% cho các mô hình mới và 79% cho các mô hình cũ. Tuy nhiên, tất cả các mô hình đều gặp khó khăn với các nhiệm vụ liên quan đến niềm tin sai được báo cáo ở ngôi thứ nhất, với độ chính xác chỉ đạt 62% cho các mô hình mới và 52% cho các mô hình cũ. Điều này có thể gây ra những thất bại trong lý luận đáng kể khi các mô hình tương tác với người dùng có niềm tin sai lệch.
Những thiếu sót trong cách mà các mô hình đưa ra quyết định có thể đặc biệt nghiêm trọng trong các bối cảnh y tế. Sự quan tâm ngày càng tăng đối với việc sử dụng các hệ thống đa tác nhân, nơi nhiều tác nhân AI tham gia vào một cuộc thảo luận hợp tác để giải quyết vấn đề, nhằm tái tạo các đội ngũ bác sĩ đa ngành chẩn đoán các tình huống y tế phức tạp. Lequan Yu, phó giáo sư AI y tế tại Đại học Hong Kong, cho biết nhóm của ông đã quyết định điều tra cách mà các hệ thống này lý luận qua việc thử nghiệm sáu hệ thống trên 3.600 trường hợp thực tế từ sáu bộ dữ liệu y tế.
Các hệ thống đa tác nhân tốt nhất đã đạt điểm cao trong một số bộ dữ liệu đơn giản, với độ chính xác khoảng 90%. Nhưng đối với những vấn đề phức tạp hơn cần kiến thức chuyên môn, hiệu suất giảm mạnh, với mô hình tốt nhất chỉ đạt khoảng 27%. Khi các nhà nghiên cứu tìm hiểu lý do tại sao điều này xảy ra, họ phát hiện bốn chế độ thất bại chính đã làm gián đoạn các hệ thống.
Một vấn đề đáng kể đến từ việc hầu hết các hệ thống đa tác nhân này đều dựa vào cùng một LLM để cung cấp năng lượng cho tất cả các tác nhân tham gia vào cuộc thảo luận. Điều này có nghĩa là những khoảng trống kiến thức trong mô hình cơ sở có thể dẫn đến việc tất cả các tác nhân đồng ý một cách tự tin về câu trả lời sai. Nhưng cũng có những mẫu rõ ràng cho thấy những thiếu sót cơ bản hơn trong khả năng lý luận của các tác nhân. Thường thì động lực của cuộc thảo luận không hiệu quả, với các cuộc trò chuyện bị đình trệ, đi vòng vo, hoặc các tác nhân mâu thuẫn với nhau. Thông tin quan trọng được đề cập trước đó trong cuộc thảo luận có thể dẫn đến chẩn đoán đúng thường bị mất ở các giai đoạn cuối. Và điều đáng lo ngại nhất là các ý kiến thiểu số đúng thường bị bỏ qua hoặc bị đa số sai lầm tự tin bác bỏ. Trên sáu bộ dữ liệu, lỗi này xảy ra từ 24% đến 38% thời gian.
Những thất bại trong lý luận này tạo ra một rào cản lớn đối với việc triển khai an toàn các hệ thống này trong lâm sàng. Zhu cho biết: “Nếu một AI có được câu trả lời đúng nhờ một phỏng đoán may mắn... chúng ta không thể dựa vào nó cho trường hợp tiếp theo. Một quá trình lý luận sai có thể hoạt động cho các trường hợp đơn giản, nhưng có thể thất bại một cách thảm khốc.”
Cả hai nhóm nghiên cứu đều cho rằng những thiếu sót trong lý luận của các mô hình có thể được truy nguyên về cách mà chúng được đào tạo. Các LLM mới nhất được dạy cách lý luận qua các vấn đề phức tạp, nhiều bước thông qua việc học tăng cường, nơi mô hình được thưởng cho những con đường lý luận dẫn đến kết luận đúng. Nhưng chúng thường được đào tạo trên các vấn đề có giải pháp cụ thể như lập trình và toán học, điều này không chuyển giao tốt cho các nhiệm vụ mở hơn như xác định niềm tin chủ quan của một người. Sự tập trung vào việc thưởng cho các kết quả đúng cũng có nghĩa là việc đào tạo không tối ưu hóa cho các quy trình lý luận tốt. Và các bộ dữ liệu hiếm khi bao gồm loại tranh luận và thảo luận cần thiết cho các hệ thống y tế đa tác nhân hiệu quả.
Các vấn đề đã được ghi nhận về sự nịnh bợ trong các mô hình AI cũng có thể góp phần vào những thiếu sót trong lý luận. Hầu hết các LLM được đào tạo để cung cấp những phản hồi dễ chịu cho người dùng, và điều này có thể khiến chúng ngại thách thức những niềm tin sai lệch của người khác. Vấn đề này dường như cũng mở rộng đến cách mà chúng tương tác với các tác nhân khác. Zhu cho biết: “Chúng đồng ý với ý kiến của nhau rất dễ dàng và tránh những ý kiến có rủi ro cao.”
Thay đổi cách mà các mô hình được đào tạo có thể giúp giảm bớt một số vấn đề này. Phòng thí nghiệm của Zou đã phát triển một khung đào tạo mới có tên là CollabLLM, mô phỏng sự hợp tác lâu dài với người dùng và khuyến khích các mô hình phát triển sự hiểu biết về niềm tin và mục tiêu của con người. Đối với các hệ thống đa tác nhân trong y tế, thách thức còn lớn hơn. Zhu cho biết: “Lý tưởng nhất, bạn muốn tạo ra các ví dụ về cách mà các chuyên gia y tế lý luận qua các quyết định của họ, nhưng việc tạo ra loại bộ dữ liệu này sẽ rất tốn kém. Nhiều vấn đề y tế cũng không có câu trả lời rõ ràng, và các hướng dẫn y tế và thực hành chẩn đoán có thể khác nhau đáng kể giữa các quốc gia và thậm chí giữa các bệnh viện.”
Một giải pháp khả thi có thể là chỉ định một tác nhân trong hệ thống đa tác nhân để giám sát quá trình thảo luận và xác định xem các tác nhân khác có hợp tác tốt hay không. “Vì vậy, chúng tôi thưởng cho những mô hình đó vì lý luận và hợp tác tốt, không chỉ vì đạt được câu trả lời cuối cùng,” ông nói.
Độ chính xác của các mô hình ngôn ngữ lớn (LLMs) khi trả lời câu hỏi về nhiều chủ đề đã cải thiện đáng kể trong những năm gần đây. Điều này đã thúc đẩy sự quan tâm ngày càng tăng đối với tiềm năng của công nghệ này trong việc hỗ trợ các lĩnh vực như chẩn đoán y tế, cung cấp liệu pháp tâm lý, hoặc đóng vai trò như một gia sư ảo. Những báo cáo từ thực tế cho thấy người dùng đã sử dụng các LLM có sẵn cho những nhiệm vụ này với kết quả không đồng nhất. Một phụ nữ ở California gần đây đã lật ngược quyết định trục xuất của mình sau khi sử dụng AI để nhận tư vấn pháp lý, nhưng một người đàn ông 60 tuổi lại gặp phải ngộ độc bromide sau khi tìm kiếm thông tin y tế từ công cụ này. Các nhà trị liệu cũng cảnh báo rằng việc sử dụng AI để hỗ trợ sức khỏe tâm thần thường làm trầm trọng thêm triệu chứng của bệnh nhân.
Nghiên cứu mới cho thấy một phần của vấn đề là các mô hình này lý luận theo cách hoàn toàn khác với con người, điều này có thể khiến chúng gặp khó khăn với những vấn đề tinh vi hơn. Một bài báo gần đây trên tạp chí Nature Machine Intelligence đã phát hiện rằng các mô hình gặp khó khăn trong việc phân biệt giữa niềm tin của người dùng và sự thật, trong khi một bài báo chưa được đánh giá trên arXiv cho thấy các hệ thống đa tác nhân được thiết kế để cung cấp lời khuyên y tế cũng gặp phải những thiếu sót trong lý luận có thể làm sai lệch chẩn đoán.
James Zou, phó giáo sư khoa học dữ liệu y sinh tại Trường Y khoa Stanford, cho biết: “Khi chúng ta chuyển từ AI chỉ là một công cụ sang AI như một tác nhân, cách thức trở nên ngày càng quan trọng. Khi bạn sử dụng AI như một người tư vấn, gia sư, bác sĩ hay thậm chí là bạn bè, thì không chỉ câu trả lời cuối cùng quan trọng. Toàn bộ quá trình và cuộc trò chuyện cũng rất quan trọng.”
Việc phân biệt giữa sự thật và niềm tin là một khả năng đặc biệt quan trọng trong các lĩnh vực như pháp luật, trị liệu và giáo dục. Điều này đã thúc đẩy Zou và các đồng nghiệp đánh giá 24 mô hình AI hàng đầu dựa trên một tiêu chuẩn mới mà họ tạo ra có tên là KaBLE, viết tắt của “Knowledge and Belief Evaluation”. Bài kiểm tra này bao gồm 1.000 câu khẳng định từ mười lĩnh vực khác nhau, bao gồm lịch sử, văn học, y học và pháp luật, được ghép với các phiên bản không chính xác. Những câu này đã được sử dụng để tạo ra 13.000 câu hỏi nhằm kiểm tra khả năng của mô hình trong việc xác minh sự thật, hiểu niềm tin của người khác và nhận thức về những gì một người biết về niềm tin hoặc kiến thức của người khác.
Các nhà nghiên cứu phát hiện rằng các mô hình lý luận mới hơn, chẳng hạn như O1 của OpenAI hay R1 của DeepSeek, đạt điểm cao trong việc xác minh sự thật, với độ chính xác trên 90%. Các mô hình cũng khá tốt trong việc phát hiện khi niềm tin sai được báo cáo ở ngôi thứ ba, với độ chính xác đạt 95% cho các mô hình mới và 79% cho các mô hình cũ. Tuy nhiên, tất cả các mô hình đều gặp khó khăn với các nhiệm vụ liên quan đến niềm tin sai được báo cáo ở ngôi thứ nhất, với độ chính xác chỉ đạt 62% cho các mô hình mới và 52% cho các mô hình cũ. Điều này có thể gây ra những thất bại trong lý luận đáng kể khi các mô hình tương tác với người dùng có niềm tin sai lệch.
Những thiếu sót trong cách mà các mô hình đưa ra quyết định có thể đặc biệt nghiêm trọng trong các bối cảnh y tế. Sự quan tâm ngày càng tăng đối với việc sử dụng các hệ thống đa tác nhân, nơi nhiều tác nhân AI tham gia vào một cuộc thảo luận hợp tác để giải quyết vấn đề, nhằm tái tạo các đội ngũ bác sĩ đa ngành chẩn đoán các tình huống y tế phức tạp. Lequan Yu, phó giáo sư AI y tế tại Đại học Hong Kong, cho biết nhóm của ông đã quyết định điều tra cách mà các hệ thống này lý luận qua việc thử nghiệm sáu hệ thống trên 3.600 trường hợp thực tế từ sáu bộ dữ liệu y tế.
Các hệ thống đa tác nhân tốt nhất đã đạt điểm cao trong một số bộ dữ liệu đơn giản, với độ chính xác khoảng 90%. Nhưng đối với những vấn đề phức tạp hơn cần kiến thức chuyên môn, hiệu suất giảm mạnh, với mô hình tốt nhất chỉ đạt khoảng 27%. Khi các nhà nghiên cứu tìm hiểu lý do tại sao điều này xảy ra, họ phát hiện bốn chế độ thất bại chính đã làm gián đoạn các hệ thống.
Một vấn đề đáng kể đến từ việc hầu hết các hệ thống đa tác nhân này đều dựa vào cùng một LLM để cung cấp năng lượng cho tất cả các tác nhân tham gia vào cuộc thảo luận. Điều này có nghĩa là những khoảng trống kiến thức trong mô hình cơ sở có thể dẫn đến việc tất cả các tác nhân đồng ý một cách tự tin về câu trả lời sai. Nhưng cũng có những mẫu rõ ràng cho thấy những thiếu sót cơ bản hơn trong khả năng lý luận của các tác nhân. Thường thì động lực của cuộc thảo luận không hiệu quả, với các cuộc trò chuyện bị đình trệ, đi vòng vo, hoặc các tác nhân mâu thuẫn với nhau. Thông tin quan trọng được đề cập trước đó trong cuộc thảo luận có thể dẫn đến chẩn đoán đúng thường bị mất ở các giai đoạn cuối. Và điều đáng lo ngại nhất là các ý kiến thiểu số đúng thường bị bỏ qua hoặc bị đa số sai lầm tự tin bác bỏ. Trên sáu bộ dữ liệu, lỗi này xảy ra từ 24% đến 38% thời gian.
Những thất bại trong lý luận này tạo ra một rào cản lớn đối với việc triển khai an toàn các hệ thống này trong lâm sàng. Zhu cho biết: “Nếu một AI có được câu trả lời đúng nhờ một phỏng đoán may mắn... chúng ta không thể dựa vào nó cho trường hợp tiếp theo. Một quá trình lý luận sai có thể hoạt động cho các trường hợp đơn giản, nhưng có thể thất bại một cách thảm khốc.”
Cả hai nhóm nghiên cứu đều cho rằng những thiếu sót trong lý luận của các mô hình có thể được truy nguyên về cách mà chúng được đào tạo. Các LLM mới nhất được dạy cách lý luận qua các vấn đề phức tạp, nhiều bước thông qua việc học tăng cường, nơi mô hình được thưởng cho những con đường lý luận dẫn đến kết luận đúng. Nhưng chúng thường được đào tạo trên các vấn đề có giải pháp cụ thể như lập trình và toán học, điều này không chuyển giao tốt cho các nhiệm vụ mở hơn như xác định niềm tin chủ quan của một người. Sự tập trung vào việc thưởng cho các kết quả đúng cũng có nghĩa là việc đào tạo không tối ưu hóa cho các quy trình lý luận tốt. Và các bộ dữ liệu hiếm khi bao gồm loại tranh luận và thảo luận cần thiết cho các hệ thống y tế đa tác nhân hiệu quả.
Các vấn đề đã được ghi nhận về sự nịnh bợ trong các mô hình AI cũng có thể góp phần vào những thiếu sót trong lý luận. Hầu hết các LLM được đào tạo để cung cấp những phản hồi dễ chịu cho người dùng, và điều này có thể khiến chúng ngại thách thức những niềm tin sai lệch của người khác. Vấn đề này dường như cũng mở rộng đến cách mà chúng tương tác với các tác nhân khác. Zhu cho biết: “Chúng đồng ý với ý kiến của nhau rất dễ dàng và tránh những ý kiến có rủi ro cao.”
Thay đổi cách mà các mô hình được đào tạo có thể giúp giảm bớt một số vấn đề này. Phòng thí nghiệm của Zou đã phát triển một khung đào tạo mới có tên là CollabLLM, mô phỏng sự hợp tác lâu dài với người dùng và khuyến khích các mô hình phát triển sự hiểu biết về niềm tin và mục tiêu của con người. Đối với các hệ thống đa tác nhân trong y tế, thách thức còn lớn hơn. Zhu cho biết: “Lý tưởng nhất, bạn muốn tạo ra các ví dụ về cách mà các chuyên gia y tế lý luận qua các quyết định của họ, nhưng việc tạo ra loại bộ dữ liệu này sẽ rất tốn kém. Nhiều vấn đề y tế cũng không có câu trả lời rõ ràng, và các hướng dẫn y tế và thực hành chẩn đoán có thể khác nhau đáng kể giữa các quốc gia và thậm chí giữa các bệnh viện.”
Một giải pháp khả thi có thể là chỉ định một tác nhân trong hệ thống đa tác nhân để giám sát quá trình thảo luận và xác định xem các tác nhân khác có hợp tác tốt hay không. “Vì vậy, chúng tôi thưởng cho những mô hình đó vì lý luận và hợp tác tốt, không chỉ vì đạt được câu trả lời cuối cùng,” ông nói.