Trung Đào
Writer
Công ty AI Trung Quốc DeepSeek ngày 1/12 công bố hai mô hình ngôn ngữ lớn mới hoàn toàn miễn phí, tạo áp lực cạnh tranh với các sản phẩm trả phí của OpenAI và Google.
Hai phiên bản DeepSeek-V3.2 và DeepSeek-V3.2-Speciale được công bố với khả năng suy luận toán học và lập trình ấn tượng, đồng thời hoàn toàn mã nguồn mở và có thể triển khai cục bộ.
Phiên bản tiêu chuẩn V3.2 cũng cho thấy khả năng lập trình mạnh mẽ, giải quyết 73,1% lỗi phần mềm thực tế trên nền tảng SWE-Verified, gần bằng GPT-5-High (74,9%).
Julian Goldie, một blogger SEO nổi tiếng trên YouTube đã đưa ra các bài so sánh giữa Deepseek và Google Gemini mạnh nhất
Cơ chế chú ý thưa (DSA): Thay vì xử lý toàn bộ văn bản, hệ thống chỉ tập trung vào các phần quan trọng, giúp tăng tốc độ suy luận gấp 3,5 lần và giảm 70% sử dụng bộ nhớ với ngữ cảnh dài 128K token.
Đầu tư lớn vào học tăng cường: DeepSeek phân bổ toàn bộ ngân sách đào tạo cho giai đoạn tinh chỉnh sau, không chỉ phần nhỏ như các đối thủ, nhằm đạt hiệu suất cấp chuyên gia.
Huấn luyện tác nhân đa bước: Mô hình Speciale được thiết kế để duy trì mạch suy luận qua nhiều lần gọi công cụ, phù hợp với quy trình làm việc phức tạp.
Khác với các đối thủ, DeepSeek công khai toàn bộ trọng số mô hình trên nền tảng Hugging Face. Chi phí sử dụng API chỉ bằng 1/25 so với GPT-5.
"Khoảng cách giữa nguồn mở và nguồn đóng đang thu hẹp nhanh chóng," Chen Fang, thành viên dự án, tuyên bố trên mạng xã hội.
Hai phiên bản DeepSeek-V3.2 và DeepSeek-V3.2-Speciale được công bố với khả năng suy luận toán học và lập trình ấn tượng, đồng thời hoàn toàn mã nguồn mở và có thể triển khai cục bộ.
Hiệu suất ngang ngửa các mô hình thương mại
Theo các bài kiểm tra độc lập, phiên bản Speciale với 685 tỷ tham số đạt nhiều thành tích đáng chú ý:- Đạt 35/42 điểm tại Olympic Toán học quốc tế (IMO) 2025, giành huy chương vàng
- Ghi 492/600 điểm tại Olympic Tin học quốc tế (IOI), cũng giành huy chương vàng
- Giải được 10/12 bài toán tại vòng chung kết ICPC thế giới, đứng thứ hai
Phiên bản tiêu chuẩn V3.2 cũng cho thấy khả năng lập trình mạnh mẽ, giải quyết 73,1% lỗi phần mềm thực tế trên nền tảng SWE-Verified, gần bằng GPT-5-High (74,9%).
Julian Goldie, một blogger SEO nổi tiếng trên YouTube đã đưa ra các bài so sánh giữa Deepseek và Google Gemini mạnh nhất
Ba đột phá công nghệ chính
Sách trắng kỹ thuật của DeepSeek nêu ba cải tiến then chốt giúp mô hình đạt hiệu suất cao:Cơ chế chú ý thưa (DSA): Thay vì xử lý toàn bộ văn bản, hệ thống chỉ tập trung vào các phần quan trọng, giúp tăng tốc độ suy luận gấp 3,5 lần và giảm 70% sử dụng bộ nhớ với ngữ cảnh dài 128K token.
Đầu tư lớn vào học tăng cường: DeepSeek phân bổ toàn bộ ngân sách đào tạo cho giai đoạn tinh chỉnh sau, không chỉ phần nhỏ như các đối thủ, nhằm đạt hiệu suất cấp chuyên gia.
Huấn luyện tác nhân đa bước: Mô hình Speciale được thiết kế để duy trì mạch suy luận qua nhiều lần gọi công cụ, phù hợp với quy trình làm việc phức tạp.
Khác với các đối thủ, DeepSeek công khai toàn bộ trọng số mô hình trên nền tảng Hugging Face. Chi phí sử dụng API chỉ bằng 1/25 so với GPT-5.
"Khoảng cách giữa nguồn mở và nguồn đóng đang thu hẹp nhanh chóng," Chen Fang, thành viên dự án, tuyên bố trên mạng xã hội.
Một số hạn chế còn tồn tại
Các chuyên gia kỹ thuật lưu ý ba điểm yếu chính của V3.2:- Kiến thức thế giới chưa được cập nhật, cần bổ sung dữ liệu ngoài (RAG)
- Hiệu quả xử lý dữ liệu văn bản dài chưa tối ưu
- Khả năng lý luận cực kỳ phức tạp vẫn cần hoàn thiện