Derpy
Intern Writer
Vào tối ngày 27 tháng 11, DeepSeek đã âm thầm công bố một mô hình mới mang tên DeepSeek-Math-V2 trên nền tảng Hugging Face. Đây là một mô hình chuyên về toán học và cũng là mô hình đầu tiên trong ngành đạt được tiêu chuẩn vàng của IMO (International Mathematical Olympiad) và được mở nguồn.
Trong bài báo kỹ thuật đi kèm, DeepSeek cho biết rằng một số hiệu suất của Math-V2 đã vượt qua mô hình Gemini DeepThink của Google. Mô hình này đã thể hiện khả năng xuất sắc trong các bài kiểm tra IMO-ProofBench và các cuộc thi toán học gần đây. Cụ thể, trong bài kiểm tra Basic, DeepSeek-Math-V2 đã đạt gần 99% điểm số, vượt xa mô hình Gemini DeepThink (IMO Gold) với 89%. Tuy nhiên, trong bài kiểm tra Advanced khó hơn, Math-V2 đạt 61,9%, thấp hơn một chút so với 65,7% của Gemini DeepThink.
Bài báo có tiêu đề "DeepSeek Math-V2: Hướng tới suy luận toán học tự xác thực" đã chỉ ra rằng các mô hình ngôn ngữ lớn đã đạt được những tiến bộ đáng kể trong suy luận toán học, điều này cho thấy AI đang trở thành một nền tảng thử nghiệm quan trọng. Nếu được phát triển thêm, nó có thể có ảnh hưởng lớn đến nghiên cứu khoa học. Tuy nhiên, hiện tại, AI vẫn gặp phải những hạn chế trong suy luận toán học: việc chỉ dựa vào câu trả lời đúng cuối cùng không đảm bảo rằng quá trình suy luận cũng đúng. Nhiều nhiệm vụ toán học, như chứng minh định lý, cần phải có sự suy luận từng bước một cách chặt chẽ, chứ không chỉ đơn thuần là câu trả lời số.
Để vượt qua giới hạn của suy luận sâu, DeepSeek cho rằng cần phải xác thực tính toàn diện và tính chặt chẽ của suy luận toán học. Nhóm nghiên cứu đã đề xuất rằng việc tự xác thực là rất quan trọng để mở rộng thời gian kiểm tra, đặc biệt là đối với những vấn đề mở mà không có giải pháp đã biết. Mô hình Math-V2 đã chuyển từ hướng tiếp cận dựa trên kết quả sang hướng tiếp cận dựa trên quá trình, thể hiện khả năng chứng minh định lý mạnh mẽ. Mô hình này không phụ thuộc vào một lượng lớn dữ liệu câu trả lời cho các bài toán toán học, mà thay vào đó, nó được dạy để kiểm tra quá trình chứng minh một cách nghiêm ngặt như một nhà toán học, từ đó có thể tự nâng cao khả năng giải quyết các bài toán chứng minh khó mà không cần sự can thiệp của con người.
Bài báo cũng đề cập rằng Math-V2 đã đạt được thành tích vàng tại IMO 2025 và CMO 2024, và gần như đạt điểm tối đa (118/120) trong bài kiểm tra Putnam 2024 thông qua việc mở rộng thời gian kiểm tra. DeepSeek tin rằng, mặc dù còn nhiều việc phải làm, nhưng những kết quả này cho thấy suy luận toán học tự xác thực là một hướng nghiên cứu khả thi, có thể giúp phát triển các hệ thống AI toán học mạnh mẽ hơn.
Phản ứng từ cộng đồng quốc tế về động thái này của DeepSeek là "cá voi cuối cùng đã trở lại". Nhiều người dùng mạng xã hội đã bày tỏ sự ngạc nhiên khi DeepSeek vượt qua mô hình DeepThink của Google với 10 điểm phần trăm, điều này nằm ngoài dự đoán. "Hãy tưởng tượng điều gì sẽ xảy ra khi họ công bố mô hình lập trình, tôi cá rằng họ chắc chắn có một mô hình lập trình."
Hiện tại, các mô hình của các công ty hàng đầu trong ngành đã trải qua một vòng lặp phát triển mới. Vào tháng 11, OpenAI đã phát hành GPT-5.1, vài ngày sau đó xAI công bố Grok 4.1, và tuần trước Google đã phát hành dòng sản phẩm Gemini 3 gây sốt trong cộng đồng AI. Giờ đây, mọi người đang chờ đợi động thái tiếp theo từ DeepSeek, đặc biệt là thời điểm cập nhật mô hình flagship của họ. #DeepSeekMath
Trong bài báo kỹ thuật đi kèm, DeepSeek cho biết rằng một số hiệu suất của Math-V2 đã vượt qua mô hình Gemini DeepThink của Google. Mô hình này đã thể hiện khả năng xuất sắc trong các bài kiểm tra IMO-ProofBench và các cuộc thi toán học gần đây. Cụ thể, trong bài kiểm tra Basic, DeepSeek-Math-V2 đã đạt gần 99% điểm số, vượt xa mô hình Gemini DeepThink (IMO Gold) với 89%. Tuy nhiên, trong bài kiểm tra Advanced khó hơn, Math-V2 đạt 61,9%, thấp hơn một chút so với 65,7% của Gemini DeepThink.
Bài báo có tiêu đề "DeepSeek Math-V2: Hướng tới suy luận toán học tự xác thực" đã chỉ ra rằng các mô hình ngôn ngữ lớn đã đạt được những tiến bộ đáng kể trong suy luận toán học, điều này cho thấy AI đang trở thành một nền tảng thử nghiệm quan trọng. Nếu được phát triển thêm, nó có thể có ảnh hưởng lớn đến nghiên cứu khoa học. Tuy nhiên, hiện tại, AI vẫn gặp phải những hạn chế trong suy luận toán học: việc chỉ dựa vào câu trả lời đúng cuối cùng không đảm bảo rằng quá trình suy luận cũng đúng. Nhiều nhiệm vụ toán học, như chứng minh định lý, cần phải có sự suy luận từng bước một cách chặt chẽ, chứ không chỉ đơn thuần là câu trả lời số.
Để vượt qua giới hạn của suy luận sâu, DeepSeek cho rằng cần phải xác thực tính toàn diện và tính chặt chẽ của suy luận toán học. Nhóm nghiên cứu đã đề xuất rằng việc tự xác thực là rất quan trọng để mở rộng thời gian kiểm tra, đặc biệt là đối với những vấn đề mở mà không có giải pháp đã biết. Mô hình Math-V2 đã chuyển từ hướng tiếp cận dựa trên kết quả sang hướng tiếp cận dựa trên quá trình, thể hiện khả năng chứng minh định lý mạnh mẽ. Mô hình này không phụ thuộc vào một lượng lớn dữ liệu câu trả lời cho các bài toán toán học, mà thay vào đó, nó được dạy để kiểm tra quá trình chứng minh một cách nghiêm ngặt như một nhà toán học, từ đó có thể tự nâng cao khả năng giải quyết các bài toán chứng minh khó mà không cần sự can thiệp của con người.
Bài báo cũng đề cập rằng Math-V2 đã đạt được thành tích vàng tại IMO 2025 và CMO 2024, và gần như đạt điểm tối đa (118/120) trong bài kiểm tra Putnam 2024 thông qua việc mở rộng thời gian kiểm tra. DeepSeek tin rằng, mặc dù còn nhiều việc phải làm, nhưng những kết quả này cho thấy suy luận toán học tự xác thực là một hướng nghiên cứu khả thi, có thể giúp phát triển các hệ thống AI toán học mạnh mẽ hơn.
Phản ứng từ cộng đồng quốc tế về động thái này của DeepSeek là "cá voi cuối cùng đã trở lại". Nhiều người dùng mạng xã hội đã bày tỏ sự ngạc nhiên khi DeepSeek vượt qua mô hình DeepThink của Google với 10 điểm phần trăm, điều này nằm ngoài dự đoán. "Hãy tưởng tượng điều gì sẽ xảy ra khi họ công bố mô hình lập trình, tôi cá rằng họ chắc chắn có một mô hình lập trình."
Hiện tại, các mô hình của các công ty hàng đầu trong ngành đã trải qua một vòng lặp phát triển mới. Vào tháng 11, OpenAI đã phát hành GPT-5.1, vài ngày sau đó xAI công bố Grok 4.1, và tuần trước Google đã phát hành dòng sản phẩm Gemini 3 gây sốt trong cộng đồng AI. Giờ đây, mọi người đang chờ đợi động thái tiếp theo từ DeepSeek, đặc biệt là thời điểm cập nhật mô hình flagship của họ. #DeepSeekMath