'Kỳ thi cuối cùng của loài người' là gì? Bạn dám thử không?

Checker · 11:19

Bạn có biết một số người thông minh nhất trên hành tinh tạo ra các chuẩn mực để kiểm tra khả năng của AI trong việc sao chép trí thông minh của con người không? Chà, thật đáng sợ khi hầu hết các chuẩn mực AI đều dễ dàng được hoàn thành bởi các mô hình trí tuệ nhân tạo, cho thấy những mô hình như GPT-4o của ChatGPT, 1.5 của Google Gemini và thậm chí cả o3-mini mới thực sự thông minh như thế nào.

Trong nỗ lực tạo ra chuẩn mực khó nhất có thể, Scale AI và Trung tâm An toàn AI (CAIS) đã hợp tác để tạo ra Kỳ thi cuối cùng của loài người -
Humanity’s Last Exam - một bài kiểm tra mà họ gọi là "chuẩn mực AI mới mang tính đột phá được thiết kế để kiểm tra giới hạn kiến thức của AI ở ranh giới chuyên môn của con người".

Tôi không phải là thiên tài theo bất kỳ nghĩa nào, nhưng tôi đã xem qua một số câu hỏi này và tôi nói cho bạn biết, chúng cực kỳ khó. Khó đến mức chỉ những bộ óc thông minh nhất trên hành tinh này mới có thể trả lời được. Mức độ khó đáng kinh ngạc này có nghĩa là khi thử nghiệm, các mô hình AI hiện tại chỉ có thể trả lời đúng chưa đến 10 phần trăm các câu hỏi.

Tên gốc của bài kiểm tra là 'Humanity's Last Stand', nhưng sau đó được đổi thành Exam, chỉ để loại bỏ bản chất hơi đáng sợ của khái niệm này. Các câu hỏi được đóng góp từ cộng đồng, với những người đóng góp chuyên môn từ hơn 500 tổ chức trên 50 quốc gia đưa ra những câu hỏi lý luận khó nhất có thể.

Bộ dữ liệu Humanity's Last Exam hiện tại bao gồm 3.000 câu hỏi và tôi đã chọn một số mẫu bên dưới để cho bạn thấy nó khó đến mức nào. Bản thân tôi đọc câu hỏi xong cũng không hiểu

Bạn có thể vượt qua Humanity's Last Exam không? Chúc may mắn!
Bạn có thông minh hơn chatbot AI không?

Câu hỏi 1:

Chim ruồi trong bộ Apodiformes có một xương bầu dục ghép đôi hai bên, một xương vừng được nhúng vào phần đuôi bên của mạc hình chữ thập mở rộng của điểm bám của m. depressor caudae. Có bao nhiêu gân ghép đôi được xương vừng này hỗ trợ? Trả lời bằng một con số.

Câu hỏi 2:

Tôi cung cấp văn bản gốc tiếng Hebrew trong Kinh thánh chuẩn hóa từ Biblia Hebraica Stuttgartensia (Psalms 104:7). Nhiệm vụ của bạn là phân biệt giữa âm tiết đóng và mở. Vui lòng xác định và liệt kê tất cả các âm tiết đóng (kết thúc bằng phụ âm) dựa trên nghiên cứu mới nhất về truyền thống phát âm tiếng Hebrew trong Kinh thánh của người Tiberian do các học giả như Geoffrey Khan, Aaron D. Hornkohl, Kim Phillips và Benjamin Suchard thực hiện. Các nguồn thời Trung cổ, chẳng hạn như bản thảo phiên âm Karaite, đã giúp các nhà nghiên cứu hiện đại hiểu rõ hơn về các khía cạnh cụ thể của cách phát âm tiếng Hebrew trong Kinh thánh theo truyền thống Tiberian, bao gồm các phẩm chất và chức năng của shewa và những chữ cái nào được phát âm là phụ âm ở cuối âm tiết.

מִן־גַּעֲרָ֣תְךָ֣ יְנוּס֑וּן מִן־ק֥וֹל רַֽ֝עַמְךָ֗ יֵחָפֵזֽוּן (Thi Thiên 104:7) ?

Câu hỏi 3:

Trong thần thoại Hy Lạp, ông cố ngoại của Jason là ai?

Bạn làm thế nào? Không có gì đáng xấu hổ khi nói "không tốt lắm". Tôi sẽ không nói dối - Tôi không nghĩ là tôi thậm chí còn không hiểu những gì tôi được hỏi trong câu hỏi thứ hai.
Còn đây là kết quả AI: Theo kết quả ban đầu do CAIS và Scale AI báo cáo, GPT-4o của OpenAI đạt độ chính xác 3,3% trên Bài kiểm tra cuối cùng của loài người, trong khi Grok-2 đạt 3,8%, Claude 3.5 Sonnet 4,3%, Gemini 6,2%, o1 9,1% và DeepSeek-R1 (hoàn toàn là văn bản vì không phải đa phương thức) đạt 9,4%.

Điều thú vị là Kỳ thi cuối cùng của loài người khó hơn đáng kể đối với AI so với bất kỳ kỳ thi chuẩn nào khác, bao gồm cả các tùy chọn phổ biến nhất là GPQA, MATH và MMLU.

Vậy tất cả những điều này có nghĩa là gì? Vâng, chúng ta vẫn đang trong giai đoạn đầu của các mô hình AI có chức năng suy luận, và trong khi o3 và o3-mini hoàn toàn mới của OpenAI vẫn chưa đạt được chuẩn mực cực kỳ khó khăn này, thì sẽ mất rất nhiều thời gian để bất kỳ LLM nào có thể hoàn thành Kỳ thi cuối cùng của loài người.

Tuy nhiên, điều đáng lưu ý là AI đang phát triển với tốc độ nhanh chóng, với chức năng mới được cung cấp cho người dùng hầu như hàng ngày. Chỉ trong tuần này, OpenAI đã ra mắt Operator , tác nhân AI đầu tiên của mình và nó cho thấy triển vọng to lớn trong tương lai khi AI có thể tự động hóa các tác vụ mà nếu không sẽ cần đến sự tham gia của con người. Hiện tại, không có AI nào có thể tiến gần đến việc hoàn thành Kỳ thi cuối cùng của loài người, nhưng khi một AI làm được điều đó… thì chúng ta có thể gặp rắc rối.