Hoàng Đức
Writer
Kỳ thi AI khó nhất thế giới, Humanity's Last Exam, đã được triển khai cách đây chưa đầy hai tuần và chúng ta đã chứng kiến sự gia tăng đáng kể về độ chính xác, với ChatGPT o3-mini và hiện tại là Deep Reasoning của OpenAI đứng đầu bảng xếp hạng.
Tiêu chuẩn AI do các chuyên gia trên khắp thế giới tạo ra chứa một số vấn đề và câu hỏi lý luận khó nhất mà con người từng biết đến – khó đến nỗi thậm chí còn không hiểu nổi một câu hỏi, chứ đừng nói đến việc trả lời (câu hỏi ở cuối bài nhé).
Vào thời điểm viết bài viết cuối cùng, hiện tượng thế giới DeepSeek R1 đã đứng đầu bảng xếp hạng với điểm chính xác 9,4% khi chỉ đánh giá trên văn bản (không phải đa phương thức). Hiện tại, o3-mini của OpenAI , được ra mắt vào đầu tuần này, đã đạt điểm chính xác 10,5% ở cài đặt o3-mini và độ chính xác 13% ở cài đặt o3-mini-high, thông minh hơn nhưng mất nhiều thời gian hơn để tạo ra câu trả lời.
Tuy nhiên, ấn tượng hơn là điểm chuẩn của tác nhân AI mới Deep Research của OpenAI, với công cụ mới đạt 26,6%, tăng 183% về độ chính xác của kết quả trong vòng chưa đầy 10 ngày. Bây giờ, điều đáng chú ý là Deep Research có khả năng tìm kiếm khiến việc so sánh trở nên hơi không công bằng, vì các mô hình AI khác không có. Khả năng tìm kiếm trên web hữu ích cho một bài kiểm tra như Bài kiểm tra cuối cùng của Nhân loại, vì nó bao gồm một số câu hỏi dựa trên kiến thức chung.
Nói như vậy, độ chính xác của kết quả do các mô hình lấy kết quả Bài kiểm tra cuối cùng của Nhân loại đang được cải thiện đều đặn, và điều đó khiến bạn tự hỏi chúng ta sẽ phải đợi bao lâu để thấy một mô hình AI tiến gần đến việc hoàn thành chuẩn mực. Thực tế là AI sẽ không thể tiến gần đến bất kỳ lúc nào sớm, nhưng tôi không cược là không.
Tốt hơn, nhưng 26,6% không bao giờ giúp tôi đạt được bất kỳ kỳ thi SAT nào
OpenAI Deep Research là một công cụ vô cùng ấn tượng và tôi đã bị choáng ngợp bởi những ví dụ mà OpenAI đã giới thiệu khi công bố tác nhân AI. Deep Research có thể hoạt động như một nhà phân tích cá nhân của bạn, dành thời gian để tiến hành nghiên cứu chuyên sâu và đưa ra các báo cáo và câu trả lời mà nếu không thì con người sẽ mất hàng giờ để hoàn thành.
Mặc dù số điểm 26,6% trong kỳ thi Humanity's Last Exam thực sự ấn tượng, đặc biệt khi xét đến chặng đường mà bảng xếp hạng chuẩn mực này đã tiến xa chỉ sau vài tuần, nhưng xét về mặt tuyệt đối thì đây vẫn là số điểm thấp - không ai có thể khẳng định mình đã vượt qua bài kiểm tra nếu đạt dưới 50% trong thế giới thực.
Bài kiểm tra cuối cùng của loài người là một chuẩn mực tuyệt vời và sẽ chứng minh được giá trị vô giá khi các mô hình AI phát triển, cho phép chúng ta đánh giá được chúng đã tiến xa đến mức nào. Chúng ta sẽ phải đợi bao lâu để thấy AI vượt qua mốc 50%? Và mô hình nào sẽ là mô hình đầu tiên làm được điều đó?
מִן־גַּעֲרָ֣תְךָ֣ יְנוּס֑וּן מִן־ק֥וֹל רַֽ֝עַמְךָ֗ יֵחָפֵזֽוּן (Thi Thiên 104:7) ?
Bạn làm thế nào? Không có gì đáng xấu hổ khi nói "không tốt lắm". Tôi sẽ không nói dối - Tôi không nghĩ là tôi thậm chí còn không hiểu những gì tôi được hỏi trong câu hỏi thứ hai.
Nguồn: Tech Radar
Tiêu chuẩn AI do các chuyên gia trên khắp thế giới tạo ra chứa một số vấn đề và câu hỏi lý luận khó nhất mà con người từng biết đến – khó đến nỗi thậm chí còn không hiểu nổi một câu hỏi, chứ đừng nói đến việc trả lời (câu hỏi ở cuối bài nhé).
Vào thời điểm viết bài viết cuối cùng, hiện tượng thế giới DeepSeek R1 đã đứng đầu bảng xếp hạng với điểm chính xác 9,4% khi chỉ đánh giá trên văn bản (không phải đa phương thức). Hiện tại, o3-mini của OpenAI , được ra mắt vào đầu tuần này, đã đạt điểm chính xác 10,5% ở cài đặt o3-mini và độ chính xác 13% ở cài đặt o3-mini-high, thông minh hơn nhưng mất nhiều thời gian hơn để tạo ra câu trả lời.
Tuy nhiên, ấn tượng hơn là điểm chuẩn của tác nhân AI mới Deep Research của OpenAI, với công cụ mới đạt 26,6%, tăng 183% về độ chính xác của kết quả trong vòng chưa đầy 10 ngày. Bây giờ, điều đáng chú ý là Deep Research có khả năng tìm kiếm khiến việc so sánh trở nên hơi không công bằng, vì các mô hình AI khác không có. Khả năng tìm kiếm trên web hữu ích cho một bài kiểm tra như Bài kiểm tra cuối cùng của Nhân loại, vì nó bao gồm một số câu hỏi dựa trên kiến thức chung.
Nói như vậy, độ chính xác của kết quả do các mô hình lấy kết quả Bài kiểm tra cuối cùng của Nhân loại đang được cải thiện đều đặn, và điều đó khiến bạn tự hỏi chúng ta sẽ phải đợi bao lâu để thấy một mô hình AI tiến gần đến việc hoàn thành chuẩn mực. Thực tế là AI sẽ không thể tiến gần đến bất kỳ lúc nào sớm, nhưng tôi không cược là không.
Tốt hơn, nhưng 26,6% không bao giờ giúp tôi đạt được bất kỳ kỳ thi SAT nào
OpenAI Deep Research là một công cụ vô cùng ấn tượng và tôi đã bị choáng ngợp bởi những ví dụ mà OpenAI đã giới thiệu khi công bố tác nhân AI. Deep Research có thể hoạt động như một nhà phân tích cá nhân của bạn, dành thời gian để tiến hành nghiên cứu chuyên sâu và đưa ra các báo cáo và câu trả lời mà nếu không thì con người sẽ mất hàng giờ để hoàn thành.
Mặc dù số điểm 26,6% trong kỳ thi Humanity's Last Exam thực sự ấn tượng, đặc biệt khi xét đến chặng đường mà bảng xếp hạng chuẩn mực này đã tiến xa chỉ sau vài tuần, nhưng xét về mặt tuyệt đối thì đây vẫn là số điểm thấp - không ai có thể khẳng định mình đã vượt qua bài kiểm tra nếu đạt dưới 50% trong thế giới thực.
Bài kiểm tra cuối cùng của loài người là một chuẩn mực tuyệt vời và sẽ chứng minh được giá trị vô giá khi các mô hình AI phát triển, cho phép chúng ta đánh giá được chúng đã tiến xa đến mức nào. Chúng ta sẽ phải đợi bao lâu để thấy AI vượt qua mốc 50%? Và mô hình nào sẽ là mô hình đầu tiên làm được điều đó?
Câu hỏi 1:
Chim ruồi trong bộ Apodiformes có một xương bầu dục ghép đôi hai bên, một xương vừng được nhúng vào phần đuôi bên của mạc hình chữ thập mở rộng của điểm bám của m. depressor caudae. Có bao nhiêu gân ghép đôi được xương vừng này hỗ trợ? Trả lời bằng một con số.Câu hỏi 2:
Tôi cung cấp văn bản gốc tiếng Hebrew trong Kinh thánh chuẩn hóa từ Biblia Hebraica Stuttgartensia (Psalms 104:7). Nhiệm vụ của bạn là phân biệt giữa âm tiết đóng và mở. Vui lòng xác định và liệt kê tất cả các âm tiết đóng (kết thúc bằng phụ âm) dựa trên nghiên cứu mới nhất về truyền thống phát âm tiếng Hebrew trong Kinh thánh của người Tiberian do các học giả như Geoffrey Khan, Aaron D. Hornkohl, Kim Phillips và Benjamin Suchard thực hiện. Các nguồn thời Trung cổ, chẳng hạn như bản thảo phiên âm Karaite, đã giúp các nhà nghiên cứu hiện đại hiểu rõ hơn về các khía cạnh cụ thể của cách phát âm tiếng Hebrew trong Kinh thánh theo truyền thống Tiberian, bao gồm các phẩm chất và chức năng của shewa và những chữ cái nào được phát âm là phụ âm ở cuối âm tiết.מִן־גַּעֲרָ֣תְךָ֣ יְנוּס֑וּן מִן־ק֥וֹל רַֽ֝עַמְךָ֗ יֵחָפֵזֽוּן (Thi Thiên 104:7) ?
Câu hỏi 3:
Trong thần thoại Hy Lạp, ông cố ngoại của Jason là ai?Bạn làm thế nào? Không có gì đáng xấu hổ khi nói "không tốt lắm". Tôi sẽ không nói dối - Tôi không nghĩ là tôi thậm chí còn không hiểu những gì tôi được hỏi trong câu hỏi thứ hai.
Nguồn: Tech Radar