“Con cưng” R1 của DeepSeek đã bị công ty đồng hương đánh bại

Sasha
Sasha
Phản hồi: 0

Sasha

Writer
Theo các bài kiểm tra chuẩn mới nhất của ngành mô hình AI, dòng mô hình trí tuệ nhân tạo (AI) Qwen3 mới phát hành của Alibaba đã vượt qua R1 của DeepSeek để trở thành mô hình nguồn mở được xếp hạng cao nhất thế giới.

1746844200178.png

Dữ liệu từ LiveBench, một nền tảng độc lập đánh giá chuẩn các mô hình ngôn ngữ lớn (LLM) - công nghệ hỗ trợ các dịch vụ AI tạo sinh như ChatGPT - cho thấy Qwen3 đã vượt qua R1 trong các bài kiểm tra đánh giá khả năng của các mô hình AI nguồn mở bao gồm mã hóa, toán học, phân tích dữ liệu và hướng dẫn ngôn ngữ.

Tuần trước, đơn vị điện toán đám mây của Alibaba có trụ sở tại Hàng Châu đã phát hành dòng Qwen3, bao gồm tám mô hình nâng cao có phạm vi từ 600 triệu đến 235 tỷ tham số. Trong học máy, các tham số là các biến có trong hệ thống AI trong quá trình đào tạo, giúp thiết lập cách dữ liệu nhắc nhở tạo ra đầu ra mong muốn.

Trước các bài kiểm tra mới nhất, R1 của DeepSeek đã giữ vị trí mô hình AI nguồn mở hàng đầu thế giới trên nền tảng LiveBench kể từ khi ra mắt vào tháng 1.

Sự thăng tiến của Qwen3 trong bảng xếp hạng LiveBench phản ánh tốc độ phát triển nhanh chóng trong lĩnh vực AI của Trung Quốc và vị thế dẫn đầu ngày càng tăng của Alibaba trong cộng đồng nguồn mở toàn cầu.

Phương pháp nguồn mở cho phép công chúng truy cập vào mã nguồn của chương trình, cho phép các nhà phát triển phần mềm của bên thứ ba sửa đổi hoặc chia sẻ thiết kế của chương trình, sửa các liên kết bị hỏng hoặc mở rộng khả năng của chương trình. Các công nghệ nguồn mở đã đóng góp rất lớn cho ngành công nghệ của Trung Quốc trong vài thập kỷ qua.

Vào tháng 2, dòng mô hình Qwen được cập nhật của Alibaba đã cung cấp năng lượng cho 10 LLM nguồn mở hàng đầu thế giới, theo nền tảng và cộng đồng học máy cộng tác Hugging Face.

DeepSeek trước đó đã thu hút sự chú ý trên toàn thế giới từ cuối tháng 12 năm 2024 đến tháng 1 bằng cách liên tiếp phát hành hai mô hình AI nguồn mở tiên tiến, V3 và R1, được xây dựng với chi phí và sức mạnh tính toán chỉ bằng một phần nhỏ so với các công ty công nghệ lớn thường yêu cầu cho các dự án LLM.

Tuy nhiên, bảng xếp hạng LiveBench rộng hơn cho thấy Qwen3 vẫn đứng sau các mô hình AI nguồn đóng hàng đầu thế giới - lần lượt là o3 của OpenAI, Gemini Pro 2.5 của Google và Claude 3.7 của Anthropic.

Theo LiveBench, mô hình AI hàng đầu của OpenAI do Microsoft hậu thuẫn, o3-mini high, đã đứng đầu bảng xếp hạng chung của các mô hình AI trên thế giới.

Chi phí chạy o3 là 10 USD cho mỗi 1 triệu token. Để so sánh, chi phí chạy Qwen3 là 4 nhân dân tệ (0,55 USD) cho mỗi 1 triệu token, giúp việc sử dụng trở nên dễ dàng hơn.

Ưu điểm về chi phí và hiệu suất của Qwen3 đã thúc đẩy nhiều doanh nghiệp tuyên bố hỗ trợ mô hình AI mới nhất của Alibaba khi phát hành.

Theo tờ SCMP, Huawei Technologies cùng với các công ty bán dẫn Moore Threads, Cambricon Technologies và Hygon Information Technology đã công bố riêng về việc hỗ trợ Qwen3.

Vào ngày 29/4, Cambricon cho biết họ đã tối ưu hóa thành công Qwen3 để chạy hiệu quả trên các đơn vị xử lý đồ họa của mình nhằm đáp ứng nhu cầu của các nhà phát triển AI địa phương về chip do Trung Quốc sản xuất.

Qwen3 cũng đang được các công ty cơ sở hạ tầng AI Hyperbolic và Fireworks.ai áp dụng trên nền tảng điện toán đám mây của họ. Các công ty bán dẫn của Mỹ là Nvidia và Intel cũng được cho là đã bắt đầu hỗ trợ Qwen3.

Các trung tâm dữ liệu trong nước lớn - từ các thành phố hạng nhất là Bắc Kinh, Thượng Hải và Hàng Châu đến các trung tâm ở trung tâm Hồ Bắc, đông bắc Cát Lâm và tây bắc Thiểm Tây - cũng đã công bố việc áp dụng các mô hình AI Qwen thế hệ thứ ba của Alibaba. Mạng siêu máy tính của Trung Quốc, kết nối hơn 20 trung tâm điện toán tại 20 thành phố trên 14 tỉnh, cũng đã áp dụng Qwen3.
 


Đăng nhập một lần thảo luận tẹt ga
Top