AI Trung Quốc DeepSeek R1 "lột xác": Ít "ảo giác" hơn, có bản "mini" chạy trên một GPU, thách thức OpenAI, Google!

Khánh Vân
Khánh Vân
Phản hồi: 0

Khánh Vân

Writer
Startup AI Trung Quốc DeepSeek vừa triển khai bản cập nhật đầu tiên cho mô hình R1 sau 5 tháng ra mắt, mang tên R1-0528. Bản nâng cấp này không chỉ cải thiện đáng kể khả năng suy luận, xử lý tác vụ phức tạp mà còn giới thiệu một phiên bản "chưng cất" dựa trên Qwen3-8B của Alibaba, có thể hoạt động hiệu quả chỉ với một GPU.

1737391674957_75.jpg

DeepSeek R1-0528: "Nâng cấp nhỏ" với cải tiến lớn

Sau 5 tháng kể từ khi ra mắt mô hình AI R1 gây tiếng vang, công ty khởi nghiệp (startup) AI Trung Quốc DeepSeek đã chính thức triển khai bản nâng cấp đầu tiên mang tên R1-0528. Thông qua nền tảng dành cho các nhà phát triển Hugging Face, DeepSeek mô tả R1-0528 là một "nâng cấp nhỏ" nhưng mang lại những cải thiện đáng kể về khả năng suy luận (inference) và suy diễn sâu sắc (deep reasoning), bao gồm cả việc xử lý tốt hơn các tác vụ phức tạp.

Đáng chú ý, DeepSeek tự tin khẳng định hiệu suất của mô hình mới này chỉ đứng sau mô hình suy luận o3 của OpenAI và Gemini 2.5 Pro của Google, những "gã khổng lồ" trong ngành AI hiện nay.

maxresdefault_jpg_75(16).jpg

Ban đầu, DeepSeek không nêu chi tiết các tính năng mới của R1-0528, khác hẳn với cách họ ra mắt bản R1 gốc vào tháng 1 (khi đó công ty đã đăng kèm một bài báo học thuật có sự tham gia của nhiều học giả AI hàng đầu Trung Quốc, nhấn mạnh hàng loạt tính năng nổi bật). Tuy nhiên, vài giờ sau đó, DeepSeek đã đăng một bài viết trên X (trước đây là Twitter) về R1-0528, cho biết "hiệu suất đã được cải thiện". Tiếp đó, trên nền tảng WeChat (vào ngày 30/5), công ty cung cấp thêm thông tin:
  • Tỷ lệ "ảo giác" (hallucination – hiện tượng AI đưa ra thông tin sai lệch hoặc bịa đặt) của bản cập nhật mới đã giảm khoảng 45-50% trong các tình huống như viết lại văn bản và tóm tắt nội dung.
  • Mô hình cho phép "viết bài luận, tiểu thuyết và các thể loại khác một cách sáng tạo" hiệu quả hơn.
  • Cải thiện khả năng trong các lĩnh vực như viết code giao diện phần mềm"nhập vai" dưới dạng một tác nhân AI (AI agent).
Mô hình R1-0528 có kích thước lên đến 685 tỷ tham số, là một bản cập nhật khá "nặng ký". Nó được cấp phép theo giấy phép MIT, nghĩa là có thể được sử dụng cho các mục đích thương mại. "Mô hình chứng minh hiệu suất vượt trội qua nhiều bài đánh giá chuẩn mực khác nhau, bao gồm toán học, lập trình và logic chung," DeepSeek viết trên WeChat.

Bà Adina Yakefu, một nhà nghiên cứu AI của Hugging Face, cũng đánh giá cao bản nâng cấp này của R1. "Mô hình mới sắc nét hơn về mặt lý luận, mạnh hơn về toán học và mã nguồn, và gần đạt đến trình độ của các mô hình hàng đầu như Gemini và OpenAI o3," bà Yakefu chia sẻ với CNBC.

deepseek-r1-0528-official-benchmark-v0-ph8ccp8vyp3f1_png_75.jpg

Biến thể "chưng cất" DeepSeek-R1-0528-Qwen3-8B: Chạy trên một GPU duy nhất

Bên cạnh phiên bản tiêu chuẩn, DeepSeek đã tạo ra một biến thể "được tinh chế" đặc biệt của R1-0528 có tên là DeepSeek-R1-0528-Qwen3-8B. Mô hình này được xây dựng dựa trên mô hình Qwen3-8B (8 tỷ tham số) của Alibaba (vừa ra mắt vào tháng 5) thông qua một quá trình gọi là "chưng cất" (distillation). Kết quả là hiệu suất của mô hình mới này cao hơn Qwen3-8B ban đầu hơn 10%.

Quá trình "chưng cất" này được thực hiện bằng cách lấy văn bản do mô hình R1-0528 lớn hơn tạo ra và sử dụng nó để tinh chỉnh (fine-tune) mô hình Qwen3-8B nhỏ hơn. Việc này giúp mô hình mới trở nên mạnh mẽ hơn mà lại sử dụng ít tài nguyên phần cứng hơn đáng kể. Theo NodeShift, mô hình DeepSeek-R1-0528-Qwen3-8B chỉ yêu cầu một GPU duy nhất có RAM từ 40-80 GB là đủ để chạy, ví dụ như Nvidia A100. Trong khi đó, phiên bản R1-0528 tiêu chuẩn cần đến khoảng 16 GPU A100 80GB để hoạt động.

benchmark_png_75.jpg

DeepSeek cho biết mô hình nhỏ gọn này hoạt động tốt hơn cả Gemini 2.5 Flash của Google trong bài kiểm tra toán học đầy thử thách AIME 2025, cũng như có sức mạnh tương đương với mô hình lý luận Phi 4 của Microsoft trong bài kiểm tra kỹ năng toán học HMMT.

Trên Hugging Face, DeepSeek mô tả DeepSeek-R1-0528-Qwen3-8B là mô hình "dành cho cả nghiên cứu học thuật, lý luận, và phát triển công nghiệp quy mô nhỏ". Mô hình này cũng được cấp phép theo giấy phép MIT và một số máy chủ như LM Studio đã được cung cấp thông qua API.

Tác động thị trường và bối cảnh cạnh tranh

Theo ghi nhận của Reuters, sau thông báo cập nhật R1 của DeepSeek, cổ phiếu của nhiều công ty AI trên thị trường đã có sự sụt giảm từ 5-15%, cho thấy sức ảnh hưởng không nhỏ của startup này.

DeepSeek đã thu hút sự chú ý lớn vào cuối năm ngoái khi ra mắt mô hình V3 và sau đó là R1 vào đầu năm nay. Cả hai đều được đánh giá có sức mạnh tương đương với những sản phẩm hàng đầu từ OpenAI hay Google, dù được cho là sử dụng ít GPU hơn để đào tạo – một điều đi ngược lại xu hướng "đốt tiền" vào AI của các công ty công nghệ lớn. Để đối phó với sự trỗi dậy của DeepSeek, nhiều công ty đã phải đưa ra các chiến lược cạnh tranh, ví dụ như Google giới thiệu các gói dịch vụ Gemini với giá phải chăng hơn, hay OpenAI giảm giá và phát hành mô hình o3-mini sử dụng ít năng lực tính toán hơn.

Hồi tháng 3, DeepSeek cũng đã cập nhật mô hình V3 nhưng chưa nhận được nhiều sự chú ý bằng lần này. Công ty được cho là đã có kế hoạch ra mắt mô hình R2, kế nhiệm R1, vào tháng 5, nhưng đến nay mô hình này vẫn chưa xuất hiện. Bản cập nhật R1-0528 và đặc biệt là biến thể chạy trên một GPU có thể là một bước đi chiến lược của DeepSeek trong việc tiếp cận rộng rãi hơn đến các nhà phát triển và doanh nghiệp vừa và nhỏ.

#DeepSeekR1
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2FpLXRydW5nLXF1b2MtZGVlcHNlZWstcjEtbG90LXhhYy1pdC1hby1naWFjLWhvbi1jby1iYW4tbWluaS1jaGF5LXRyZW4tbW90LWdwdS10aGFjaC10aHVjLW9wZW5haS1nb29nbGUuNjIxOTIv
Top