Startup AI Trung Quốc làm đảo lộn chiến lược cấm vận chip của Mỹ

Bỉ Ngạn Hoa
Bỉ Ngạn Hoa
Phản hồi: 0
Khi nhà sáng lập quỹ phòng hộ định lượng (quantitative hedge funds) Trung Quốc Liang Wenfeng tham gia nghiên cứu AI, ông đã lấy 10.000 chip Nvidia và tập hợp một nhóm tài năng trẻ đầy tham vọng. Hai năm sau, DeepSeek đã bùng nổ trên thị trường.

1737876410543.png

Vào ngày 20/1 vừa qua, DeepSeek, một phòng nghiên cứu AI tương đối ít người biết đến của Trung Quốc, đã phát hành một mô hình nguồn mở nhanh chóng trở thành chủ đề bàn tán ở Thung lũng Silicon. Theo một bài báo do công ty biên soạn, DeepSeek-R1 đánh bại các mô hình hàng đầu của ngành như OpenAI o1 trên một số chuẩn mực toán học và lý luận.

Thành công của DeepSeek chỉ ra một kết quả không mong muốn của cuộc chiến tranh lạnh công nghệ giữa Hoa Kỳ và Trung Quốc. Các biện pháp kiểm soát xuất khẩu của Hoa Kỳ đã hạn chế nghiêm trọng khả năng cạnh tranh về AI theo cách của phương Tây của các công ty công nghệ Trung Quốc—tức là mở rộng quy mô vô hạn bằng cách mua thêm chip và đào tạo trong thời gian dài hơn. Do đó, hầu hết các công ty Trung Quốc tập trung vào các ứng dụng hạ nguồn thay vì xây dựng các mô hình của riêng họ. Nhưng với bản phát hành mới nhất, DeepSeek chứng minh rằng có một cách khác để giành chiến thắng: bằng cách cải tổ cấu trúc nền tảng của các mô hình AI và sử dụng các nguồn lực hạn chế một cách hiệu quả hơn.

Marina Zhang, phó giáo sư tại Đại học Công nghệ Sydney, người nghiên cứu các sáng kiến của Trung Quốc, giải thích rằng: "Không giống như nhiều công ty AI của Trung Quốc phụ thuộc nhiều vào khả năng tiếp cận phần cứng tiên tiến, DeepSeek tập trung vào việc tối đa hóa tối ưu hóa tài nguyên do phần mềm điều khiển. DeepSeek đã áp dụng các phương pháp nguồn mở, tập hợp chuyên môn tập thể và thúc đẩy đổi mới cộng tác. Cách tiếp cận này không chỉ giảm thiểu các hạn chế về tài nguyên mà còn đẩy nhanh quá trình phát triển các công nghệ tiên tiến, giúp DeepSeek khác biệt so với các đối thủ cạnh tranh khép kín hơn".

Vậy ai là người đứng sau công ty khởi nghiệp AI này? Và tại sao họ đột nhiên phát hành một mô hình hàng đầu trong ngành và tặng miễn phí? Trang công nghệ WIRED cho biết họ đã trao đổi với các chuyên gia về ngành AI của Trung Quốc và đọc các cuộc phỏng vấn chi tiết với nhà sáng lập DeepSeek Liang Wenfeng để ghép lại câu chuyện đằng sau sự trỗi dậy nhanh chóng của công ty.

Một quỹ đầu cơ ngôi sao tại Trung Quốc

Ngay cả trong ngành AI của Trung Quốc, DeepSeek cũng là một công ty không theo khuôn mẫu. Công ty bắt đầu với tên gọi Fire-Flyer, một nhánh nghiên cứu học sâu của High-Flyer, một trong những quỹ phòng hộ định lượng có hiệu suất hoạt động tốt nhất của Trung Quốc. Được thành lập vào năm 2015, quỹ đầu cơ này nhanh chóng trở nên nổi tiếng ở Trung Quốc, trở thành quỹ phòng hộ định lượng đầu tiên huy động được hơn 100 tỷ RMB (khoảng 15 tỷ USD). (Kể từ năm 2021, con số này đã giảm xuống còn khoảng 8 tỷ USD, mặc dù High-Flyer vẫn là một trong những quỹ phòng hộ định lượng quan trọng nhất tại quốc gia này.)

Trong nhiều năm, High-Flyer đã tích trữ GPU và xây dựng siêu máy tính Fire-Flyer để phân tích dữ liệu tài chính. Sau đó, vào năm 2023, Liang, người có bằng thạc sĩ khoa học máy tính, quyết định rót nguồn lực của quỹ vào một công ty mới có tên là DeepSeek, công ty này sẽ xây dựng các mô hình tiên tiến của riêng mình và hy vọng sẽ phát triển trí tuệ nhân tạo tổng quát.

Tầm nhìn táo bạo. Nhưng bằng cách nào đó, nó đã thành công. “DeepSeek đại diện cho thế hệ công ty công nghệ Trung Quốc mới ưu tiên tiến bộ công nghệ dài hạn hơn là thương mại hóa nhanh chóng”, Zhang nói.

Liang nói với ấn phẩm công nghệ Trung Quốc 36Kr rằng quyết định này được thúc đẩy bởi sự tò mò khoa học hơn là mong muốn kiếm lợi nhuận. “Tôi sẽ không thể tìm ra lý do thương mại [để thành lập DeepSeek] ngay cả khi bạn hỏi tôi”, ông giải thích. “Bởi vì nó không đáng để đầu tư về mặt thương mại. Nghiên cứu khoa học cơ bản có tỷ lệ hoàn vốn đầu tư rất thấp. Khi các nhà đầu tư ban đầu của OpenAI rót tiền cho công ty, họ chắc chắn không nghĩ đến việc họ sẽ nhận được bao nhiêu lợi nhuận. Thay vào đó, họ thực sự muốn làm điều này”.

Ngày nay, DeepSeek là một trong số ít công ty AI hàng đầu tại Trung Quốc không phụ thuộc vào nguồn tài trợ từ những gã khổng lồ công nghệ như Baidu, Alibaba hay ByteDance.

Một nhóm thiên tài trẻ khao khát chứng minh bản thân

Theo Liang, khi thành lập nhóm nghiên cứu của DeepSeek, ông không tìm kiếm những kỹ sư giàu kinh nghiệm để xây dựng một sản phẩm hướng đến người tiêu dùng. Thay vào đó, ông tập trung vào các nghiên cứu sinh tiến sĩ từ các trường đại học hàng đầu của Trung Quốc, bao gồm Đại học Bắc Kinh và Đại học Thanh Hoa, những người khao khát chứng minh bản thân. Nhiều người đã được công bố trên các tạp chí hàng đầu và giành giải thưởng tại các hội nghị học thuật quốc tế, nhưng lại thiếu kinh nghiệm trong ngành, theo ấn phẩm công nghệ Trung Quốc QBitAI.

“Các vị trí kỹ thuật cốt lõi của chúng tôi chủ yếu do những người tốt nghiệp năm nay hoặc một hoặc hai năm trở lại đây đảm nhiệm”, Liang chia sẻ với 36Kr vào năm 2023. Chiến lược tuyển dụng này đã giúp tạo ra văn hóa công ty cộng tác, nơi mọi người được tự do sử dụng nhiều nguồn tài nguyên máy tính để theo đuổi các dự án nghiên cứu độc đáo. Đây là cách hoạt động hoàn toàn khác so với các công ty internet đã thành lập ở Trung Quốc, nơi các nhóm thường cạnh tranh để giành nguồn lực. (Một ví dụ gần đây: ByteDance đã cáo buộc một cựu thực tập sinh—một người từng đoạt giải thưởng học thuật danh giá—phá hoại công việc của đồng nghiệp để tích trữ nhiều nguồn tài nguyên máy tính hơn cho nhóm của mình.)

Liang cho biết sinh viên có thể phù hợp hơn với nghiên cứu đầu tư cao, lợi nhuận thấp. Ông giải thích rằng “Hầu hết mọi người, khi còn trẻ, có thể cống hiến hết mình cho một sứ mệnh mà không cần cân nhắc đến tính thực dụng”. Ông giới thiệu với những người được tuyển dụng tiềm năng rằng DeepSeek được tạo ra để “giải quyết những câu hỏi khó nhất trên thế giới”.

Các chuyên gia cho biết thực tế là những nhà nghiên cứu trẻ này hầu như hoàn toàn được đào tạo tại Trung Quốc càng thúc đẩy động lực của họ. “Thế hệ trẻ này cũng thể hiện tinh thần yêu nước, đặc biệt là khi họ vượt qua các hạn chế và điểm nghẽn của Hoa Kỳ trong các công nghệ phần cứng và phần mềm quan trọng”, Zhang giải thích. “Quyết tâm vượt qua những rào cản này của họ không chỉ phản ánh tham vọng cá nhân mà còn là cam kết rộng lớn hơn trong việc thúc đẩy vị thế của Trung Quốc như một quốc gia đi đầu về đổi mới sáng tạo toàn cầu”.

Đổi mới ra đời từ khủng hoảng

Vào tháng 10 năm 2022, chính phủ Hoa Kỳ bắt đầu đưa ra các biện pháp kiểm soát xuất khẩu hạn chế nghiêm ngặt các công ty AI của Trung Quốc tiếp cận các chip tiên tiến như H100 của Nvidia. Động thái này đã gây ra vấn đề cho DeepSeek. Công ty đã bắt đầu với kho dự trữ 10.000 H100, nhưng cần nhiều hơn nữa để cạnh tranh với các công ty như OpenAI và Meta. Liang trả lời 36Kr trong một cuộc phỏng vấn thứ hai vào năm 2024 rằng “Vấn đề chúng tôi đang phải đối mặt không phải là tài trợ, mà là kiểm soát xuất khẩu chip tiên tiến”.

DeepSeek phải đưa ra các phương pháp hiệu quả hơn để đào tạo các mô hình của mình. “Họ đã tối ưu hóa kiến trúc mô hình của mình bằng cách sử dụng một loạt các thủ thuật kỹ thuật—các lược đồ giao tiếp tùy chỉnh giữa các chip, giảm kích thước trường để tiết kiệm bộ nhớ và sử dụng sáng tạo phương pháp kết hợp các mô hình”, Wendy Chang, một kỹ sư phần mềm chuyển sang làm nhà phân tích chính sách tại Viện nghiên cứu Trung Quốc Mercator, cho biết. “Nhiều phương pháp trong số này không phải là ý tưởng mới, nhưng việc kết hợp chúng thành công để tạo ra một mô hình tiên tiến là một kỳ tích đáng chú ý”.

DeepSeek cũng đã đạt được tiến bộ đáng kể về Multi-head Latent Attention (MLA) và Mixture-of-Experts, hai thiết kế kỹ thuật giúp các mô hình DeepSeek tiết kiệm chi phí hơn bằng cách yêu cầu ít tài nguyên tính toán hơn để đào tạo các thuật toán AI. Trên thực tế, mô hình mới nhất của DeepSeek hiệu quả đến mức chỉ cần một phần mười sức mạnh tính toán của mô hình Llama 3.1 tương đương của Meta để đào tạo, theo viện nghiên cứu Epoch AI.

Sự sẵn lòng chia sẻ những sáng kiến này với công chúng của DeepSeek đã mang lại cho công ty thiện chí đáng kể trong cộng đồng nghiên cứu AI toàn cầu. Đối với nhiều công ty AI Trung Quốc, phát triển các mô hình nguồn mở là cách duy nhất để bắt kịp các đối tác phương Tây, vì nó thu hút nhiều người dùng và người đóng góp hơn, từ đó giúp các mô hình phát triển. Chang cho biết: "Giờ đây, họ đã chứng minh rằng các mô hình tiên tiến có thể được xây dựng bằng ít tiền hơn, mặc dù vẫn rất nhiều tiền, và các chuẩn mực hiện tại về xây dựng mô hình để lại nhiều chỗ cho việc tối ưu hóa". "Chúng tôi chắc chắn sẽ thấy nhiều nỗ lực hơn nữa theo hướng này trong tương lai".

Sự thành công của DeepSeek có thể gây rắc rối cho các biện pháp kiểm soát xuất khẩu hiện tại của Hoa Kỳ tập trung vào việc tạo ra các nút thắt cổ chai về tài nguyên điện toán. Chang cho biết: "Các ước tính hiện tại về mức độ sức mạnh điện toán AI của Trung Quốc và những gì họ có thể đạt được với nó có thể bị đảo lộn".
 


Đăng nhập một lần thảo luận tẹt ga
Top