DeepSeek V3: "Vũ khí" mới của Trung Quốc trong cuộc đua AI, cạnh tranh sòng phẳng với ChatGPT

Mai Nhung
Mai Nhung
Phản hồi: 0

Mai Nhung

Writer
DeepSeek, một công ty khởi nghiệp tại Hàng Châu, Trung Quốc, vừa ra mắt mô hình ngôn ngữ lớn (LLM) DeepSeek V3. Điểm nổi bật của mô hình này là khả năng cạnh tranh với các đối thủ lớn như ChatGPT hay Gemini , nhưng với chi phí huấn luyện thấp đáng kinh ngạc.

bi-132_webp_75.jpg

Bước tiến công nghệ ấn tượng


DeepSeek V3 sở hữu 671 tỷ tham số, được huấn luyện chỉ trong 2 tháng với chi phí 5,58 triệu USD. Đây là con số đáng chú ý khi so sánh với những khoản đầu tư khổng lồ của các công ty công nghệ lớn trên thế giới. Mô hình được phát triển dựa trên kiến trúc hiệu quả chi phí, sử dụng GPU NVIDIA H800 – dòng GPU thiết kế riêng cho Trung Quốc với hiệu năng thấp hơn so với H100.

Với 2,78 triệu giờ GPU cần thiết để huấn luyện, V3 đã chứng minh sự vượt trội về tối ưu hóa tài nguyên, thấp hơn nhiều so với 30,8 triệu giờ GPU của Llama 3.1 từ Meta.


68461dd2-b454-42e5-b281-e62fe7bf65c1_33f5c6da_jpg_75.jpg


Theo báo cáo kỹ thuật, DeepSeek V3 không chỉ vượt qua Llama 3.1 và Qwen 2.5 của Alibaba mà còn sánh ngang với các mô hình hàng đầu như GPT-4o của OpenAI và Claude 3.5 Sonnet của Anthropic. Các bài kiểm tra bao gồm hiểu và tạo văn bản, lập trình, giải toán và kiến thức chuyên sâu đã cho thấy khả năng vượt trội của V3 trong các lĩnh vực này.

Nhà khoa học máy tính Andrej Karpathy, một thành viên sáng lập của OpenAI, cũng bày tỏ sự ngạc nhiên về báo cáo của DeepSeek. Ông nhận xét trên nền tảng X: "DeepSeek đã làm điều này trông thật dễ dàng với ngân sách huấn luyện gần như không đáng kể."

Vượt qua rào cản công nghệ


DeepSeek V3 là minh chứng cho sự phát triển vượt bậc của các công ty AI Trung Quốc, ngay cả khi đối mặt với lệnh cấm vận của Mỹ về các bán dẫn tiên tiến. Việc sử dụng GPU H800, thay vì các dòng GPU cao cấp như H100, cho thấy khả năng thích nghi và sáng tạo của các nhà phát triển tại quốc gia này.

Bằng cách giảm phụ thuộc vào công nghệ nước ngoài và tận dụng nguồn lực trong nước, DeepSeek đã mở ra hướng đi mới trong ngành AI, nơi không còn chỉ là sân chơi của các tập đoàn công nghệ lớn.

DeepSeek được tách ra từ High-Flyer Quant vào năm 2022, với sự hậu thuẫn tài chính mạnh mẽ từ quỹ đầu cơ định lượng lớn nhất Trung Quốc. Với mục tiêu phát triển AI mang lại lợi ích cho nhân loại, DeepSeek đã phát triển nhiều mô hình AI được sử dụng trong các ứng dụng bên thứ ba và chatbot riêng.


nvidiah800nvlink80g8gpunvlink8mo-dunnividamaychuh800-1735539073734-1735539073874430235206_png_75.jpg

DeepSeek V3 đánh dấu một bước ngoặt lớn, không chỉ cho startup này mà còn cho toàn ngành công nghệ AI. Thành công này hứa hẹn sẽ thúc đẩy sự đổi mới, mở ra cơ hội cho các công ty nhỏ hơn và tái định nghĩa vai trò của Trung Quốc trong cuộc đua công nghệ toàn cầu.

Sự ra đời của DeepSeek V3 đặt ra câu hỏi về vị trí của Trung Quốc trong ngành công nghệ AI. Liệu quốc gia này có thể vượt qua các thách thức để trở thành một cường quốc công nghệ mới, đặc biệt khi các công ty khởi nghiệp đang cho thấy tiềm năng vượt trội? Câu trả lời sẽ phụ thuộc vào cách họ tận dụng các bước tiến này để định hình tương lai AI toàn cầu.
 


Đăng nhập một lần thảo luận tẹt ga
Top