Khánh Phạm
Writer
DeepSeek, mô hình ngôn ngữ lớn của Trung Quốc, đã thu hút sự chú ý toàn cầu khi đạt hiệu suất vượt trội với chi phí chỉ bằng 1/20 so với GPT-4.
Điểm nổi bật: chi phí đào tạo DeepSeek-V3 chỉ khoảng 5,5 triệu USD (dùng 2048 GPU trong chưa đầy 2 tháng), so với hơn 100 triệu USD của GPT-4.
1. Liang Wenfeng
Tuy nhiên, liệu DeepSeek có thực sự hiệu quả như tuyên bố vẫn cần thêm thời gian kiểm chứng. Nhưng không thể phủ nhận, họ đã mang đến làn gió mới trong cuộc đua AI toàn cầu.
Hành trình của "Sức mạnh bí ẩn phương Đông"
Thành lập năm 2022 tại Hàng Châu, DeepSeek nhanh chóng vươn lên trở thành công ty AI nổi bật nhất Trung Quốc. Đội ngũ chỉ dưới 150 người, nhưng nhờ cách tiếp cận sáng tạo, họ đã tung ra DeepSeek-V3 – mô hình ngôn ngữ lớn thế hệ thứ ba.Điểm nổi bật: chi phí đào tạo DeepSeek-V3 chỉ khoảng 5,5 triệu USD (dùng 2048 GPU trong chưa đầy 2 tháng), so với hơn 100 triệu USD của GPT-4.
DeepSeek đạt được các cải tiến trong:
- Kiến trúc mô hình: Sử dụng cơ chế MLA (chú ý nhiều đầu tiềm ẩn) và kiến trúc MoE (chuyên gia kết hợp) để tối ưu bộ nhớ và giảm yêu cầu tính toán.
- Chiến lược đào tạo: Tối ưu hóa dữ liệu và phương pháp xử lý. Họ huấn luyện trên độ chính xác FP8 thay vì FP16, tiết kiệm tài nguyên đáng kể.
- Tư duy khác biệt: Chú trọng minh bạch trong đào tạo, không áp dụng phương pháp "hộp đen" như OpenAI.
Đội ngũ và văn hóa công ty
DeepSeek có đội ngũ trẻ, chủ yếu là sinh viên mới tốt nghiệp. Người sáng lập, Liang Wenfeng, xuất thân từ Đại học Chiết Giang, luôn duy trì phong cách lãnh đạo khiêm tốn. Công ty tập trung vào nghiên cứu, không ưu tiên thương mại hóa, và duy trì nguyên tắc: chi phí thấp nhưng vẫn có lợi nhuận.1. Liang Wenfeng
- Sinh năm 1980, Liang Wenfeng là cựu sinh viên tài năng của Đại học Chiết Giang, một trong những ngôi trường danh giá hàng đầu Trung Quốc.
- Trước khi sáng lập DeepSeek, ông là người đứng đầu công ty mẹ Huanfang Quantitative, một tổ chức đầu tư cổ phần tư nhân khổng lồ chuyên về giao dịch định lượng.
- Liang nổi tiếng với phong cách làm việc kín đáo và kỹ lưỡng. Ông thường xuyên "đọc báo, viết mã và tham gia thảo luận nhóm" để hỗ trợ nhân viên ở mọi cấp độ.
- Một nhân vật nổi bật trong đội ngũ sáng lập, Luo Fuli thuộc thế hệ 9X và được biết đến như “cô gái thiên tài” trong lĩnh vực công nghệ.
- Trước khi gia nhập DeepSeek, cô đã tham gia vào nghiên cứu và phát triển các mô hình ngôn ngữ lớn, trở thành một trong những kỹ sư chính đằng sau thế hệ mô hình trước đó.
- Cô từng được Lei Jun, người sáng lập Xiaomi, chiêu mộ với mức lương hàng chục triệu nhân dân tệ mỗi năm.
- Một thực tập sinh cũng có thể đóng góp lớn vào dự án nếu có ý tưởng sáng tạo. Triết lý này đã giúp DeepSeek nhanh chóng thu hút được những tài năng trẻ và xây dựng một đội ngũ nghiên cứu mạnh mẽ, linh hoạt.
So sánh với OpenAI
Mặc dù DeepSeek nhỏ gọn hơn (chỉ bằng 1/10 quy mô nhân sự OpenAI), sản phẩm của họ đã đạt nhiều bước tiến ấn tượng. DeepSeek không chỉ được công nhận về chi phí thấp mà còn tiên phong trong nguồn mở, tạo điều kiện cho cộng đồng phát triển AI.Tác động đến ngành AI
DeepSeek đã định hình lại cách nhìn nhận về AI tại Trung Quốc, phá bỏ định kiến rằng nước này chỉ giỏi ứng dụng thay vì nghiên cứu cơ bản. Họ được kỳ vọng sẽ trở thành hình mẫu cho các startup AI toàn cầu.Tuy nhiên, liệu DeepSeek có thực sự hiệu quả như tuyên bố vẫn cần thêm thời gian kiểm chứng. Nhưng không thể phủ nhận, họ đã mang đến làn gió mới trong cuộc đua AI toàn cầu.