Google công bố: Trình độ AI vượt qua huy chương vàng Olympic Toán học IMO

Mr. Macho
Mr. Macho
Phản hồi: 0

Mr. Macho

Writer
Hôm qua, Google đã công bố DeepMind đã lập kỷ lục mới trong lĩnh vực trí tuệ nhân tạo: hệ thống AI mới nhất của công ty, AlphaGeometry2, đã vượt qua trình độ của những người đạt huy chương vàng lần đầu tiên trong bài kiểm tra hình học quy mô lớn của Kỳ thi Olympic Toán học quốc tế (IMO).
Nhóm nghiên cứu đã chọn 45 câu hỏi hình học từ các cuộc thi IMO từ năm 2000 đến năm 2024 và chuyển đổi chúng thành 50 câu hỏi chuẩn sau khi xử lý kỹ thuật. Kết quả kiểm tra cho thấy AlphaGeometry2 đã trả lời thành công 42 câu hỏi, vượt qua số điểm trung bình là 40,9 điểm của người giành huy chương vàng.
1739010850964.png

Bước đột phá này của DeepMind có ý nghĩa vô cùng to lớn. Nhóm nghiên cứu tin rằng khả năng lập luận và lựa chọn chiến lược cần thiết để giải quyết các bài toán hình học khó (đặc biệt là các bài toán hình học Euclid) là những yếu tố chính trong việc xây dựng trí tuệ nhân tạo tổng quát thế hệ tiếp theo.

AG2 vượt qua huy chương vàng IMO chỉ trong một cú đánh​

Lý do DeepMind coi trọng cuộc thi toán cấp trung học này xuất phát từ một nhận thức sâu sắc: khả năng giải các bài toán hình học Euclid có thể là chìa khóa để xây dựng các hệ thống AI mạnh mẽ hơn.

Việc chứng minh các định lý toán học đòi hỏi cả khả năng suy luận và khả năng lựa chọn giữa nhiều bước khả thi, và những kỹ năng giải quyết vấn đề này có thể trở thành một thành phần quan trọng của các mô hình AI chung trong tương lai.

Trên thực tế, trong một cuộc trình diễn vào mùa hè năm 2024, DeepMind đã kết hợp AlphaGeometry2 với mô hình AI lý luận hình thức toán học AlphaProof và đã giải thành công 4 trong số 6 câu hỏi trong cuộc thi IMO năm đó.

Về mặt kiến trúc kỹ thuật, AlphaGeometry2 áp dụng giải pháp kết hợp mô hình ngôn ngữ của dòng Gemini của Google với công cụ hoạt động biểu tượng chuyên dụng.

Trong quá trình giải quyết vấn đề, mô hình Gemini có nhiệm vụ dự đoán các cấu trúc hình học có thể cần thiết để giải quyết vấn đề (chẳng hạn như thêm các điểm phụ, đường thẳng hoặc hình tròn), trong khi công cụ biểu tượng bắt nguồn dựa trên các quy tắc toán học nghiêm ngặt. Hai mô-đun hoạt động cùng nhau thông qua thuật toán tìm kiếm song song và lưu trữ thông tin hữu ích được khám phá trong cơ sở kiến thức chung. Vấn đề được coi là đã giải quyết khi hệ thống có thể kết hợp các đề xuất của mô hình Gemini với các nguyên tắc đã biết của công cụ biểu tượng để đưa ra một bằng chứng hoàn chỉnh.
1739010744408.png

Để khắc phục tình trạng thiếu dữ liệu đào tạo hình học, nhóm nghiên cứu đã tự mình tạo ra hơn 300 triệu định lý và bằng chứng có độ phức tạp khác nhau để đào tạo. Phương pháp đào tạo dữ liệu tổng hợp quy mô lớn này cung cấp một mô hình mới để đạt được những đột phá về AI trong các lĩnh vực cụ thể.

Tuy nhiên, vẫn còn những ranh giới rõ ràng đối với khả năng của AlphaGeometry2. Nó không thể xử lý các vấn đề liên quan đến số điểm thay đổi, phương trình phi tuyến tính và bất phương trình. Trong số 29 câu hỏi ứng viên IMO khó hơn được nhóm nghiên cứu đặc biệt lựa chọn, hệ thống chỉ có thể giải quyết được 20 câu.

Bước đột phá này đã khơi dậy suy nghĩ sâu sắc về con đường phát triển của AI. Theo truyền thống, có hai cách tiếp cận chính trong lĩnh vực AI: cách tiếp cận dựa trên thao tác biểu tượng (xử lý các biểu tượng biểu thị kiến thức thông qua các quy tắc) và cách tiếp cận mạng nơ-ron tương tự như não người.

AlphaGeometry2 sử dụng kiến trúc lai: mô hình Gemini sử dụng kiến trúc mạng nơ-ron, trong khi công cụ biểu tượng dựa trên các hoạt động dựa trên quy tắc. Theo bài báo của Deepmind, trong các thử nghiệm, mô hình OpenAI o1, cũng sử dụng kiến trúc mạng nơ-ron, không thể giải quyết bất kỳ bài toán IMO nào mà AlphaGeometry2 đã giải quyết thành công.

Vince Conitzer, chuyên gia về AI tại Đại học Carnegie Mellon, cho biết:
"Thật thú vị khi thấy rằng trong khi các mô hình ngôn ngữ, bao gồm cả các mô hình 'lý luận' mới nhất, vẫn tiếp tục gặp khó khăn khi giải quyết các vấn đề đơn giản theo lẽ thường, thì chúng lại đang đạt được những tiến bộ ấn tượng trong các chuẩn mực này.

Đây không phải là sự bùng nổ giả tạo, nhưng nó cho thấy chúng ta vẫn chưa thể dự đoán chính xác hành vi của hệ thống tiếp theo. Do những tác động đáng kể mà các hệ thống này có thể gây ra, chúng ta cần phải hiểu rõ hơn về chúng và những rủi ro tiềm ẩn của chúng".
Nhưng điều này có thể không kéo dài mãi mãi. Trong bài báo, nhóm DeepMind cho biết họ đã tìm thấy bằng chứng sơ bộ cho thấy mô hình ngôn ngữ của AlphaGeometry2 đã cho thấy tiềm năng tạo ra các giải pháp một phần mà không cần sự hỗ trợ của công cụ biểu tượng.

Tuy nhiên, nhóm nghiên cứu cũng nhấn mạnh rằng cho đến khi tốc độ tính toán của mô hình được cải thiện cơ bản và vấn đề "ảo giác" được giải quyết hoàn toàn thì các công cụ bên ngoài như phép tính tượng trưng vẫn sẽ đóng vai trò không thể thiếu trong các ứng dụng toán học.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top