Câu hỏi toán học cực đơn giản nhưng khiến chatbot AI bó tay: 9,9 với 9,11, số nào lớn hơn?

Sasha

Moderator
Làn sóng chatbot trí tuệ nhân tạo (AI) được phép sử dụng rộng rãi tại Trung Quốc đại lục cho phép người dùng tạo ra nhiều nội dung mới - bao gồm âm thanh, mã, hình ảnh, mô phỏng, video và văn bản đúng ngữ pháp - để giải trí và hỗ trợ các công việc hàng ngày.

Nhu cầu này đã thúc đẩy sự phát triển của hơn 200 mô hình ngôn ngữ lớn (LLM), công nghệ nền tảng cho các dịch vụ AI tạo sinh (GenAI) như ChatGPT. LLM là các thuật toán AI học sâu có thể nhận dạng, tóm tắt, dịch, dự đoán và tạo nội dung bằng cách sử dụng bộ dữ liệu rất lớn.

Mặc dù sở hữu nguồn tài nguyên khổng lồ, các mô hình AI đã được chứng minh là gặp khó khăn với kiến thức toán học cơ bản vào cuối tuần qua trên chương trình truyền hình thực tế Singer 2024 của Trung Quốc, một cuộc thi hát do Đài truyền hình Hồ Nam sản xuất.

Nghệ sĩ Đại lục, Tôn Nam, đã nhận được 13,8% phiếu bầu trực tuyến, vượt qua ca sĩ người Mỹ Chanté Moore, người nhận được 13,11% phiếu bầu. Một số cư dân mạng địa phương đã châm chọc bảng xếp hạng, cho rằng con số sau lớn hơn và đề nghị "Hãy hỏi AI". Kết quả họ nhận được rất đa dạng.

Cả chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan ban đầu đều đưa ra câu trả lời sai. Chúng tự sửa chữa và xin lỗi sau khi người dùng thực hiện truy vấn theo phương pháp chuỗi suy nghĩ (chain of thought) - một phương pháp lý luận trong đó ứng dụng AI được hướng dẫn từng bước qua một vấn đề.

1721353191562.png


LLM Qwen của Alibaba Group Holding đã sử dụng Trình thông dịch mã Python để tính toán câu trả lời, trong khi Ernie Bot của Baidu mất sáu bước để đưa ra câu trả lời đúng. Ngược lại, LLM Doubao của ByteDance đã đưa ra phản hồi trực tiếp bằng một ví dụ: “Nếu bạn có 9,90 USD và 9,11 USD, thì rõ ràng 9,90 USD nhiều tiền hơn.”

“LLM rất kém toán - điều này rất phổ biến”, Wu Yiquan, nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở Hàng Châu, cho biết.

GenAI không có khả năng toán học bẩm sinh và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu đào tạo, theo Wu. Ông cho biết một số LLM hoạt động tốt trong các bài kiểm tra toán học có thể là do “ô nhiễm dữ liệu”, có nghĩa là thuật toán đã ghi nhớ câu trả lời vì các câu hỏi tương tự đã có trong dữ liệu đào tạo của nó.

"Thế giới AI được mã hóa - số, chữ, dấu câu và khoảng trắng đều được coi như nhau", Wu nói. "Do đó, bất kỳ thay đổi nào trong lời nhắc đều có thể ảnh hưởng đáng kể đến kết quả."

Vấn đề toán học cho thấy công nghệ AI đang tiếp tục phát triển không chỉ ở Trung Quốc đại lục mà còn trên toàn thế giới.

Theo Zheng Ge, giáo sư luật công tại Đại học Giao thông Thượng Hải, bên lề một hội nghị ở Bắc Kinh vào thứ Sáu tuần trước, tình huống này có thể khiến Trung Quốc gác lại nỗ lực thiết lập luật AI quốc gia thống nhất.

Zheng cho biết: “Phần lớn các chuyên gia tin rằng thời điểm để soạn thảo luật AI quốc gia thống nhất có thể chưa phù hợp vì công nghệ đang phát triển quá nhanh”.

Việc “kiểm tra so sánh số” cho các mô hình AI đã lan truyền sau khi nhà nghiên cứu Bill Yuchen Lin của Viện Allen và kỹ sư prompt Riley Goodside của công ty công nghệ Scale AI nêu bật những điểm yếu toán học cơ bản của công nghệ này trên nền tảng mạng xã hội X.

Khi được hỏi số nào lớn hơn, 9,9 hay 9,11, các LLM tiên tiến như GPT-4o của OpenAI, Claude 3.5 Sonnet và Mistral AI đều trả lời là 9,11.

Trong một bài đăng trên X, Goodside cho biết ông không có ý định hạ thấp LLM, mà nhằm mục đích giúp hiểu và khắc phục những sai sót của chúng.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top