Vượt Google, Meta, Microsoft: ML-Master 2.0 dẫn đầu OpenAI MLE-bench, hé lộ hình hài “nhà khoa học AI tự trị”

C
Con voi còi
Phản hồi: 0
Một bất ngờ lớn vừa xuất hiện trên bảng xếp hạng OpenAI MLE-bench, chuẩn đánh giá uy tín dành cho kỹ thuật học máy ở cấp độ nghiên cứu khoa học thực sự. ML-Master 2.0, tác nhân AI do nhóm SciMaster phát triển dựa trên mô hình mã nguồn mở DeepSeek, đã vượt qua các hệ thống đến từ Google, Meta và Microsoft để vươn lên vị trí số một toàn cầu, thiết lập kỷ lục SOTA mới.

Hiện ML-Master 2.0 đã được mở trải nghiệm thử nghiệm trên nền tảng SciMaster theo hình thức danh sách chờ, thu hút sự quan tâm lớn từ cộng đồng nghiên cứu AI quốc tế.
1766650043499.png

Khi AI không chỉ “trả lời đúng”, mà biết làm khoa học

Từ “trí tử” trong Tam thể âm thầm can thiệp vào các thí nghiệm vật lý, đến HAL 9000 trong 2001: A Space Odyssey, hay các robot suy luận khoa học của Isaac Asimov, con người từ lâu đã đặt ra một câu hỏi nền tảng: điều gì sẽ xảy ra nếu AI không còn chỉ là công cụ, mà có thể tự khám phá, sửa đổi giả thuyết và tiến hành nghiên cứu lâu dài như một nhà khoa học thực thụ?

Trong nhiều thập kỷ, đó chỉ là trí tưởng tượng khoa học viễn tưởng. Nhưng với sự bùng nổ của các mô hình nền tảng quy mô lớn, câu hỏi ấy đang dần trở thành một bài toán kỹ thuật nghiêm túc.

Ngày càng nhiều nhà nghiên cứu nhận ra rằng ranh giới thực sự không nằm ở việc AI có trả lời chính xác hay không, mà nằm ở khả năng duy trì quá trình thử và sai kéo dài, tự điều chỉnh chiến lược, tích lũy kinh nghiệm và thúc đẩy tri thức trong môi trường bất định, giống như cách khoa học vận hành ngoài đời thực.

Google DeepMind với AlphaEvolve, OpenAI với các dự án AI for Science, hay thậm chí các chương trình quy mô quốc gia như “Genesis Mission” của Mỹ đều đang tiếp cận cùng một đích đến: AI có thể tham gia nghiên cứu khoa học dài hạn hay không.

AI4AI và vai trò đặc biệt của kỹ thuật học máy

Trong bối cảnh đó, AI4AI, tức AI được dùng để phát triển chính AI, nổi lên như một hướng đi then chốt. Và kỹ thuật học máy, Machine Learning Engineering (MLE), trở thành bài kiểm tra lý tưởng.

Khác với các bài toán trả lời ngắn hạn, nghiên cứu MLE ngoài đời thường đòi hỏi hàng chục giờ lặp đi lặp lại giữa thiết kế thí nghiệm, viết mã, gỡ lỗi, phân tích kết quả, phủ định giả thuyết và bắt đầu lại. Thất bại không phải ngoại lệ, mà là trạng thái bình thường.

Chính vì vậy, MLE-bench được xem là một trong số ít chuẩn đánh giá có khả năng phản ánh liệu AI có đủ năng lực nghiên cứu khoa học dài hạn hay không.

ML-Master 2.0: tác nhân AI sinh ra cho nghiên cứu thật

ML-Master 2.0 được phát triển bởi nhóm SciMaster, bao gồm Trường Trí tuệ nhân tạo Đại học Giao thông Thượng Hải, Viện Đổi mới Thuật toán Thượng Hải và Công nghệ Shenshi, với sự hỗ trợ hạ tầng từ EigenAI.

Hệ thống sử dụng mô hình mã nguồn mở DeepSeek-V3.2-Speciale và được thiết kế như một tác nhân tự trị chuyên biệt cho các nhiệm vụ nghiên cứu MLE thực tế.

Trên OpenAI MLE-bench, ML-Master 2.0 đạt tỷ lệ huy chương 56,44%, cao hơn 28,3% so với các tác nhân hàng đầu dựa trên mô hình mã nguồn đóng của Google và các nhóm khác, qua đó vươn lên vị trí dẫn đầu toàn cầu.

Quan trọng hơn, hệ thống này đã được triển khai trong các kịch bản nghiên cứu thực tế, từ huấn luyện robot thông minh hiện thân đến mô phỏng và khám phá vật lý lý thuyết.

Quyền tự chủ cực dài: chìa khóa của nghiên cứu AI

Điểm cốt lõi trong thiết kế của ML-Master 2.0 là khái niệm “quyền tự chủ cực dài”. Trong nghiên cứu MLE, tự chủ không đơn thuần là viết mã giỏi hơn, mà là khả năng theo đuổi cùng một mục tiêu khoa học trong hàng chục giờ, rút kinh nghiệm từ thất bại, tránh lặp lại các ngõ cụt kỹ thuật và chuyển giao tri thức từ nhiệm vụ này sang nhiệm vụ khác.

Vấn đề không nằm ở độ dài ngữ cảnh, mà ở việc liệu hệ thống có thể chắt lọc, sắp xếp và kết tinh ngữ cảnh thành tài sản nhận thức tái sử dụng hay không.

Bộ nhớ đệm nhận thức phân cấp: nền móng cho khám phá dài hạn


Từ tư duy đó, ML-Master 2.0 xây dựng kiến trúc xoay quanh “tích lũy nhận thức”, với cơ chế bộ nhớ đệm nhận thức phân cấp.

Trong hệ thống này, nhận thức được phân hóa theo thời gian và độ ổn định. Kinh nghiệm phục vụ quyết định tức thời. Kiến thức là các kết luận đã được xác minh nhiều lần trong cùng nhiệm vụ. Trí tuệ là chiến lược và khuôn mẫu tư duy có thể tái sử dụng ở các bài toán khác.

Cơ chế này cho phép hệ thống loại bỏ nhiễu một cách tự nhiên, tránh bùng nổ ngữ cảnh và không đánh mất lịch sử, ngay cả khi hoạt động liên tục trong thời gian dài.

Từ bảng xếp hạng đến tương lai nhà khoa học AI

Thành công của ML-Master 2.0 không chỉ là một thứ hạng, mà là tín hiệu rõ ràng cho thấy hướng tiếp cận coi nhận thức là tài nguyên có thể tích lũy, chuyển giao và quản lý đang tiệm cận hình hài của một nhà khoa học AI tự trị.

Trong cuộc đua AI4Science ngày càng khốc liệt, việc một nhóm nghiên cứu Trung Quốc sử dụng mô hình mã nguồn mở trong nước để dẫn đầu một chuẩn đánh giá quan trọng mang ý nghĩa biểu tượng không nhỏ.

Mã nguồn cốt lõi của ML-Master 2.0 hiện đã được mở để cộng đồng nghiên cứu tiếp cận, và bộ năng lực tác nhân tự trị cho nghiên cứu khoa học sẽ sớm được thương mại hóa dưới dạng sản phẩm trên nền tảng SciMaster.

Danh sách chờ trải nghiệm hiện đã mở, đánh dấu một bước tiến nữa trên con đường biến AI từ công cụ thành đồng nghiệp khoa học thực thụ.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL3Z1b3QtZ29vZ2xlLW1ldGEtbWljcm9zb2Z0LW1sLW1hc3Rlci0yLTAtZGFuLWRhdS1vcGVuYWktbWxlLWJlbmNoLWhlLWxvLWhpbmgtaGFpLW5oYS1raG9hLWhvYy1haS10dS10cmkuNzY0NzEv
Top