Trong vài ngày qua, quan sát trên mạng xã hội X (Twitter) tôi cảm thấy rõ ràng rằng cộng đồng kỹ thuật nói tiếng Anh đang nửa sốc nửa bối rối về sự tiến bộ của ngành AI của Trung Quốc. Có hai nguyên nhân chính gây căng thẳng:
Điều bất ngờ của B2-W là họ chuyển đổi dây chuyền kỹ thuật và thay thế giải pháp 4 chân mà B2 vẫn sử dụng bằng giải pháp bánh xe thể thao hơn nhưng cũng khó giữ thăng bằng hơn, để rồi chỉ trong vòng 1 năm đã hoàn thành nhiệm vụ di chuyển địa hình khắc nghiệt trong môi trường huấn luyện ngoài trời, nhiều người Mỹ nói dưới video rằng đây chắc chắn là hình ảnh CGI, không biết là thật hay giả, hay họ chỉ bị điên thôi.
Boston Dynamics cũng đã sử dụng giải pháp bánh xe trên chó robot trong một thời gian ngắn, hoặc đã thử nghiệm nhiều giải pháp hơn Yushu - công ty đã thành lập từ lâu ở Hàng Châu của Vương Hưng Hưng - nhưng với tư cách là công ty tiên phong trong ngành, nó thậm chí không thể duy trì được vị thế của một công ty Mỹ.
Hyundai Motor đã mua lại Boston Dynamics từ SoftBank với giá ưu đãi vào năm 2020, đúng lúc SoftBank đang lỗ sổ sách lớn và cần phục hồi. Ban đầu SoftBank đã mua nó từ Google vào năm 2017. Tại sao Google lại bán nó vì cảm thấy nó quá đắt.
Lý do này thật quá đáng. Hệ thống đầu tư mạo hiểm của Hoa Kỳ có khả năng chịu thua lỗ cao nhất trên thế giới. Đối với những nghiên cứu tiên tiến, việc chi tiền để chỉ trích nó là điều cực kỳ phổ biến - hãy nhìn vào sự tiến bộ của Thung lũng Silicon trong hai năm qua. Chúng ta biết tỷ lệ đầu vào-đầu ra của AI - nhưng tại sao Boston Dynamics lại được bán dưới dạng tài sản kém hiệu quả ở vị trí độc quyền?
Có một con voi trong phòng mà ngành công nghệ Hoa Kỳ thường giả vờ như không nhìn thấy: Người Mỹ ngày nay, từ ngân hàng đầu tư đến các công ty, từ CEO đến lập trình viên, từ New York đến Vùng Vịnh, đều chán ghét việc sản xuất. Nó đã trở thành bản năng.
Đối tác của A16Z, Marc Andreessen đã viết kiệt tác được lưu hành rộng rãi "Phần mềm ăn cả thế giới" trên tờ Wall Street Journal vào năm 2011. Điều đó đại khái có nghĩa là các công ty phần mềm với chi phí cận biên cực thấp sẽ tiếp quản tất cả những nơi có nước và cỏ phát triển mạnh, và điều này được so sánh đối với các ngành công nghiệp khác, loại hình kinh doanh này có thể mang lại sự tăng trưởng theo cấp số nhân.
Không có gì sai trong cách thể hiện của Marc Andreessen. Thực tế trong khoảng một thập kỷ qua đã thực sự chứng minh rằng con đường thu lợi nhuận quy mô lớn này mang lại lợi nhuận cao nhất của cả một thế hệ cuối cùng là kết quả của việc con người mất đi khả năng sản xuất.
Việc mất khả năng sản xuất được đề cập ở đây không có nghĩa là mất đi hứng thú hoặc sự nhiệt tình trong sản xuất. Cách đây một thời gian, tôi đã đến thăm một công ty mua sắm ở nước ngoài ở Thâm Quyến. Hoạt động kinh doanh của họ là biến các phụ kiện điện tử của Huaqiangbei thành một danh mục có cấu trúc có thể lập chỉ mục, sau đó cung cấp dịch vụ mua hàng các dịch vụ từ kiểm tra đến cung cấp dịch vụ trọn gói, người mua lớn nhất là thị trường DIY của Mỹ và sinh viên đại học. Lý do họ phải đợi hàng nghìn km mới được giao cho người Trung Quốc mua đồ là vì ở Mỹ không có chuỗi cung ứng nào cả.
Khi đó những sinh viên đó chỉ có cơ hội thực sự cố gắng làm ra điều gì đó khi còn đi học. Sau khi vào làm ở một công ty lớn và được trả lương, không ai muốn bị bẩn tay nữa.
Nhưng xét cho cùng, phần mềm không thể chạy nếu không có phần cứng. Ngay cả khi giá trị gia tăng của việc sản xuất phần cứng là không đủ, dựa trên việc thu thập dữ liệu vật lý trực tiếp, các nhà sản xuất có thể xây dựng một bộ giải pháp đầy đủ sau khi củng cố lại về việc liệu họ có thể hình thành được đội ngũ kỹ sư giỏi hay không. Ngược lại, trước đây, khi các đơn hàng sản xuất được gia công lâu ngày, nó trở thành chuỗi công nghiệp phụ trợ và không thể trả lại được.
Do đó, nguyên mẫu của các công nghệ mới nổi như máy bay không người lái nhiều cánh quạt và chó robot bốn chân thường được sản xuất ở Châu Âu và Hoa Kỳ, những nơi có vốn để thử và sai, được gọi là quy trình "từ 0 đến 1" . giai đoạn thực hiện "Mười", kết quả đuổi kịp của Trung Quốc sẽ bắt đầu xuất hiện mạnh mẽ. Sau khi bước vào sản xuất hàng loạt "Mười đến Trăm", chi phí chuỗi cung ứng của Trung Quốc sẽ trực tiếp giết chết đối thủ cạnh tranh.
Khi robot của Boston Dynamics lần đầu tiên trở nên phổ biến trên Internet, người phụ trách Google Things, với tư cách là công ty mẹ, bạn không những không hài lòng mà còn muốn trốn tránh. Bây giờ bạn đã hiểu mối lo ngại này đến từ đâu. Và bạn cũng hiểu vì sao Google, một gã khổng lồ phần mềm, xắn tay áo làm công việc sản xuất.
Tất nhiên, vẫn có những nhà xây dựng như Elon Musk ở Mỹ, nhưng bạn phải biết rằng lý do khiến câu chuyện của Musk gây xúc động là vì những người như ông hiện nay cực kỳ khan hiếm và họ chưa được ngành công nghệ chính thống chào đón trong một thời gian dài. Nó hoàn toàn dựa vào những thành tựu thách thức lẽ thường - chế tạo ô tô, tên lửa và đường hầm, tất cả những thứ mà Thung lũng Silicon sợ phải tránh - để từng bước xây dựng danh tiếng của mình.
Nếu Yushu đã gây ra làn sóng hoài nghi về thực tế trong phần cứng thì DeepSeek đã kiểm soát chặt chẽ các nhà sản xuất mô hình lớn trong lãnh địa phần mềm bản địa.
Trong khi Microsoft, Meta và Google đều đang gấp rút đào tạo mô hình lớn trên cụm 100.000 card thì DeepSeek đã chi chưa đến 6 triệu USD và 2 tháng cho 2.000 GPU để đạt được sự liên kết giữa kết quả thử nghiệm GPT-4o và Claude 3.5 Sonnet.
DeepSeek-V2 trở nên phổ biến cách đây nửa năm, nhưng câu chuyện lúc đó tương đối phù hợp với mong đợi của phiên bản cũ: Các công ty AI Trung Quốc đã tung ra các mô hình nguồn mở chi phí thấp, và nếu họ muốn trở thành kẻ bán thịt giá cả trong Trong ngành, người Trung Quốc rất giỏi làm thứ gì đó rẻ và bền như thế này, miễn là bạn không so sánh với những sản phẩm hàng đầu thì có thể chắc chắn rằng nó sẽ hoạt động.
Nhưng V3 thì hoàn toàn khác. Nó đã giảm chi phí hơn 10 lần, đồng thời chất lượng tương đương với trại t1. Điều quan trọng là tất cả đều là khu vực bình luận của các tweet liên quan. “Người Trung Quốc đã làm điều đó như thế nào?”
Mặc dù, các mô hình lớn phát triển muộn có thể đạt được hiệu quả đào tạo tiết kiệm chi phí hơn thông qua việc chắt lọc kiến thức và các phương tiện khác - tương tự như độ dốc giảm tốc độ bạn học ba định luật Newton, nhưng nó cũng có lợi cho những người theo đuổi, và nó là chắc chắn là nhanh hơn chính Newton tìm ra các định luật Nhanh chóng và chi phí thấp, nhưng sự cải thiện hiệu quả đáng kinh ngạc rất khó có thể tóm tắt bằng các phương pháp đào tạo đã biết. Nó hẳn đã tạo ra những đổi mới trong kiến trúc cơ bản khác với những gã khổng lồ khác.
Một góc độ khác thú vị hơn. Nếu hậu quả cuối cùng của chính sách cấm chip AI của Trung Quốc là các công ty kiểu mẫu lớn của Trung Quốc phải thực hiện các giải pháp hiệu quả hơn dưới sự hạn chế của sức mạnh tính toán hạn chế, thì kiểu âm mưu phản tác dụng này thật trớ trêu.
Liang Wenfeng, người sáng lập DeepSeek, trước đây cũng từng nói rằng vấn đề của công ty chưa bao giờ là tiền mà là chip cao cấp bị cấm vận.
Vì vậy, các công ty kiểu mẫu lớn của Trung Quốc như Byte và Alibaba có thể xoay sở đủ. Nếu họ sử dụng 1/10 thu nhập hàng năm để đầu tư vào AI thì sẽ không phải là vấn đề lớn. Tuy nhiên, các công ty khởi nghiệp lại không làm được như vậy. nhiều đạn dược và không thể ngồi yên trên bàn poker. Cách duy nhất là phải đổi mới một cách liều lĩnh.
Kai-Fu Lee năm nay đã bày tỏ quan điểm rằng lợi thế của Trung Quốc trong việc phát triển AI chưa bao giờ là thực hiện nghiên cứu đột phá mà không đặt ra giới hạn ngân sách, mà là tìm ra giải pháp tối ưu giữa tốt, nhanh, rẻ và đáng tin cậy.
Cả Zero-One và DeepSeek đều sử dụng mô hình MoE (Mixed Expert), tương đương với việc đào tạo cụ thể về các bộ dữ liệu chất lượng cao được chuẩn bị trước. Không thể nói rằng điểm số đang chạy là không có độ ẩm, nhưng thị trường thì có. không quan tâm đến nguyên tắc, miễn là chất lượng và giá cả Nếu so sánh đủ, chắc chắn sẽ có sức cạnh tranh.
Tất nhiên, điều khác biệt ở DeepSeek là nó không thiếu thẻ. Nó đã dự trữ 10.000 thẻ NVIDIA A100 vào năm 2021. ChatGPT vẫn chưa xuất hiện vào thời điểm đó và Meta dự trữ thẻ cho metaverse nhưng vô tình bắt kịp làn sóng AI. Nó rất giống với việc DeepSeek đã mua rất nhiều thẻ để thực hiện giao dịch định lượng...
Ấn tượng đầu tiên của tôi về Liang Wenfeng là từ lời nói đầu được ông viết trong cuốn “The Biography of Simons”. Simons là người sáng lập Công ty Công nghệ Phục hưng và là người tiên phong sử dụng các mô hình thuật toán để thực hiện các khoản đầu tư tự động vào thời điểm đó, đối với vốn cổ phần tư nhân định lượng, việc viết lời tựa để tri ân người sáng lập ngành là điều đương nhiên.
Để giải thích nền tảng này, tôi muốn nói rằng một số công ty của Liang Wenfeng, từ giao dịch định lượng đến phát triển mô hình lớn, không phải là một quá trình biến tài chính thành công nghệ mà là sự chuyển đổi các kỹ năng toán học giữa hai kịch bản ứng dụng và mục đích đầu tư. Đó là một thị trường dự đoán và nguyên tắc của mô hình lớn cũng là dự đoán Token.
Sau này, tôi đã xem một số cuộc phỏng vấn với Liang Wenfeng và tôi có ấn tượng rất tốt về anh ấy. Anh ấy là một người rất tỉnh táo và thông minh. Tôi sẽ đăng một vài đoạn để bạn kiểm nghiệm:
Hỏi: Hầu hết các công ty Trung Quốc chọn có cả mô hình và ứng dụng Tại sao DeepSeek hiện chỉ chọn nghiên cứu và thăm dò?
Liang Wenfeng: Bởi vì chúng tôi cảm thấy điều quan trọng nhất hiện nay là tham gia vào làn sóng đổi mới toàn cầu. Trong nhiều năm qua, các công ty Trung Quốc đã quen với việc những người khác tạo ra những đổi mới công nghệ và chúng tôi sử dụng chúng để kiếm tiền từ các ứng dụng, nhưng đây không phải là chuyện đương nhiên. Trong làn sóng này, điểm xuất phát của chúng ta không phải là tận dụng cơ hội để làm giàu mà là đi đầu về công nghệ để thúc đẩy sự phát triển của toàn bộ hệ sinh thái.
Hỏi: Nhận thức quán tính để lại cho hầu hết mọi người trong thời đại Internet và Internet di động là Hoa Kỳ giỏi đổi mới công nghệ, trong khi Trung Quốc giỏi hơn về ứng dụng.
Liang Wenfeng: Chúng tôi tin rằng với sự phát triển kinh tế, Trung Quốc phải dần dần trở thành nước đóng góp thay vì luôn là kẻ ăn bám. Trong làn sóng CNTT khoảng ba mươi năm trở lại đây, về cơ bản chúng ta chưa tham gia vào đổi mới công nghệ thực sự. Chúng ta đã quen với Định luật Moore từ trên trời rơi xuống và phần cứng cũng như phần mềm tốt hơn sẽ ra đời chỉ sau 18 tháng ở nhà. Luật mở rộng quy mô cũng được xử lý theo cách này. Nhưng trên thực tế, đây là thứ mà cộng đồng công nghệ phương Tây thống trị đã làm việc không mệt mỏi qua nhiều thế hệ để tạo ra, chỉ vì trước đây chúng ta không tham gia vào quá trình này nên bỏ qua sự tồn tại của nó.
Hỏi: Nhưng trong bối cảnh Trung Quốc, sự lựa chọn này là quá ngông cuồng. Mô hình lớn là một cuộc chơi đầu tư lớn và không phải công ty nào cũng có vốn để chỉ nghiên cứu đổi mới sáng tạo mà không tính đến thương mại hóa trước tiên.
Liang Wenfeng: Chi phí cho sự đổi mới chắc chắn không thấp, và sức ì của chủ nghĩa chiếm đoạt trong quá khứ cũng liên quan đến điều kiện quốc gia trong quá khứ. Nhưng bây giờ, cho dù nhìn vào quy mô kinh tế của Trung Quốc hay lợi nhuận của các công ty lớn như Byte và Tencent, chúng đều không hề thấp trên thế giới. Cái chúng ta thiếu trong đổi mới chắc chắn không phải là vốn mà là thiếu sự tự tin và không biết cách tổ chức nhân tài với mật độ cao để đạt được đổi mới hiệu quả.
Hỏi: Nhưng khi nói đến các mô hình quy mô lớn, khó có thể tạo nên lợi thế tuyệt đối chỉ bằng việc dẫn đầu về công nghệ. Điều lớn hơn mà anh đang đặt cược vào là gì?
Liang Wenfeng: Điều chúng ta thấy là AI của Trung Quốc không phải lúc nào cũng ở vị thế đi sau. Chúng ta thường nói rằng có khoảng cách một hoặc hai năm giữa AI của Trung Quốc và Hoa Kỳ, nhưng khoảng cách thực sự là sự khác biệt giữa tính nguyên bản và tính bắt chước. Nếu điều này không thay đổi, Trung Quốc sẽ luôn là kẻ đi sau nên việc thăm dò là điều khó tránh khỏi. Sự lãnh đạo của NVIDIA không chỉ là nỗ lực của một công ty mà là kết quả của nỗ lực chung của toàn bộ cộng đồng và ngành công nghệ phương Tây. Họ có thể nhìn thấy xu hướng công nghệ thế hệ tiếp theo và có lộ trình trong tay. Sự phát triển AI ở Trung Quốc cũng đòi hỏi một hệ sinh thái như vậy. Nhiều chip trong nước không thể phát triển vì thiếu cộng đồng kỹ thuật hỗ trợ và chỉ có thông tin cũ. Do đó, Trung Quốc phải có người đi đầu về công nghệ.
Hỏi: Nhiều công ty kiểu mẫu lớn đang kiên trì săn lùng người ở nước ngoài. Nhiều người cho rằng 50 nhân tài hàng đầu trong lĩnh vực này có thể không thuộc về các công ty Trung Quốc.
Liang Wenfeng: Không có người từ nước ngoài về trong mô hình V2, họ đều là người địa phương. Top 50 nhân tài có thể không có ở Trung Quốc, nhưng có lẽ chúng ta có thể tự đào tạo ra những người như vậy.
Hỏi: Vậy là anh cũng lạc quan về vấn đề này?
Liang Wenfeng: Tôi lớn lên ở một thành phố cấp 5 ở Quảng Đông vào những năm 1980. Cha tôi là giáo viên tiểu học. Vào những năm 1990, ở Quảng Đông có rất nhiều cơ hội kiếm tiền. Khi đó, nhiều phụ huynh đến nhà tôi hầu hết đều cho rằng việc học là vô ích. Nhưng bây giờ nhìn lại, suy nghĩ của tôi đã thay đổi. Vì kiếm tiền khó nên tôi thậm chí có thể không có cơ hội lái taxi. Điều đó thay đổi trong một thế hệ. Sẽ ngày càng có nhiều đổi mới cốt lõi hơn trong tương lai. Bây giờ có thể không dễ hiểu vì toàn bộ nhóm xã hội cần được giáo dục về sự thật. Khi xã hội này cho phép những người có óc đổi mới sáng tạo trở nên thành công, tư duy nhóm sẽ thay đổi. Chúng ta chỉ cần một loạt sự kiện và một quá trình.
⋯⋯
Bạn nghĩ sao?
- Một là phong cách robot chân bánh xe dog B2-W của Unitree Robotics.
- Cái còn lại là mô hình MoE mã nguồn mở DeepSeek-V3.
Điều bất ngờ của B2-W là họ chuyển đổi dây chuyền kỹ thuật và thay thế giải pháp 4 chân mà B2 vẫn sử dụng bằng giải pháp bánh xe thể thao hơn nhưng cũng khó giữ thăng bằng hơn, để rồi chỉ trong vòng 1 năm đã hoàn thành nhiệm vụ di chuyển địa hình khắc nghiệt trong môi trường huấn luyện ngoài trời, nhiều người Mỹ nói dưới video rằng đây chắc chắn là hình ảnh CGI, không biết là thật hay giả, hay họ chỉ bị điên thôi.
Boston Dynamics cũng đã sử dụng giải pháp bánh xe trên chó robot trong một thời gian ngắn, hoặc đã thử nghiệm nhiều giải pháp hơn Yushu - công ty đã thành lập từ lâu ở Hàng Châu của Vương Hưng Hưng - nhưng với tư cách là công ty tiên phong trong ngành, nó thậm chí không thể duy trì được vị thế của một công ty Mỹ.
Hyundai Motor đã mua lại Boston Dynamics từ SoftBank với giá ưu đãi vào năm 2020, đúng lúc SoftBank đang lỗ sổ sách lớn và cần phục hồi. Ban đầu SoftBank đã mua nó từ Google vào năm 2017. Tại sao Google lại bán nó vì cảm thấy nó quá đắt.
Lý do này thật quá đáng. Hệ thống đầu tư mạo hiểm của Hoa Kỳ có khả năng chịu thua lỗ cao nhất trên thế giới. Đối với những nghiên cứu tiên tiến, việc chi tiền để chỉ trích nó là điều cực kỳ phổ biến - hãy nhìn vào sự tiến bộ của Thung lũng Silicon trong hai năm qua. Chúng ta biết tỷ lệ đầu vào-đầu ra của AI - nhưng tại sao Boston Dynamics lại được bán dưới dạng tài sản kém hiệu quả ở vị trí độc quyền?
Có một con voi trong phòng mà ngành công nghệ Hoa Kỳ thường giả vờ như không nhìn thấy: Người Mỹ ngày nay, từ ngân hàng đầu tư đến các công ty, từ CEO đến lập trình viên, từ New York đến Vùng Vịnh, đều chán ghét việc sản xuất. Nó đã trở thành bản năng.
Đối tác của A16Z, Marc Andreessen đã viết kiệt tác được lưu hành rộng rãi "Phần mềm ăn cả thế giới" trên tờ Wall Street Journal vào năm 2011. Điều đó đại khái có nghĩa là các công ty phần mềm với chi phí cận biên cực thấp sẽ tiếp quản tất cả những nơi có nước và cỏ phát triển mạnh, và điều này được so sánh đối với các ngành công nghiệp khác, loại hình kinh doanh này có thể mang lại sự tăng trưởng theo cấp số nhân.
Không có gì sai trong cách thể hiện của Marc Andreessen. Thực tế trong khoảng một thập kỷ qua đã thực sự chứng minh rằng con đường thu lợi nhuận quy mô lớn này mang lại lợi nhuận cao nhất của cả một thế hệ cuối cùng là kết quả của việc con người mất đi khả năng sản xuất.
Việc mất khả năng sản xuất được đề cập ở đây không có nghĩa là mất đi hứng thú hoặc sự nhiệt tình trong sản xuất. Cách đây một thời gian, tôi đã đến thăm một công ty mua sắm ở nước ngoài ở Thâm Quyến. Hoạt động kinh doanh của họ là biến các phụ kiện điện tử của Huaqiangbei thành một danh mục có cấu trúc có thể lập chỉ mục, sau đó cung cấp dịch vụ mua hàng các dịch vụ từ kiểm tra đến cung cấp dịch vụ trọn gói, người mua lớn nhất là thị trường DIY của Mỹ và sinh viên đại học. Lý do họ phải đợi hàng nghìn km mới được giao cho người Trung Quốc mua đồ là vì ở Mỹ không có chuỗi cung ứng nào cả.
Khi đó những sinh viên đó chỉ có cơ hội thực sự cố gắng làm ra điều gì đó khi còn đi học. Sau khi vào làm ở một công ty lớn và được trả lương, không ai muốn bị bẩn tay nữa.
Nhưng xét cho cùng, phần mềm không thể chạy nếu không có phần cứng. Ngay cả khi giá trị gia tăng của việc sản xuất phần cứng là không đủ, dựa trên việc thu thập dữ liệu vật lý trực tiếp, các nhà sản xuất có thể xây dựng một bộ giải pháp đầy đủ sau khi củng cố lại về việc liệu họ có thể hình thành được đội ngũ kỹ sư giỏi hay không. Ngược lại, trước đây, khi các đơn hàng sản xuất được gia công lâu ngày, nó trở thành chuỗi công nghiệp phụ trợ và không thể trả lại được.
Do đó, nguyên mẫu của các công nghệ mới nổi như máy bay không người lái nhiều cánh quạt và chó robot bốn chân thường được sản xuất ở Châu Âu và Hoa Kỳ, những nơi có vốn để thử và sai, được gọi là quy trình "từ 0 đến 1" . giai đoạn thực hiện "Mười", kết quả đuổi kịp của Trung Quốc sẽ bắt đầu xuất hiện mạnh mẽ. Sau khi bước vào sản xuất hàng loạt "Mười đến Trăm", chi phí chuỗi cung ứng của Trung Quốc sẽ trực tiếp giết chết đối thủ cạnh tranh.
Khi robot của Boston Dynamics lần đầu tiên trở nên phổ biến trên Internet, người phụ trách Google Things, với tư cách là công ty mẹ, bạn không những không hài lòng mà còn muốn trốn tránh. Bây giờ bạn đã hiểu mối lo ngại này đến từ đâu. Và bạn cũng hiểu vì sao Google, một gã khổng lồ phần mềm, xắn tay áo làm công việc sản xuất.
Tất nhiên, vẫn có những nhà xây dựng như Elon Musk ở Mỹ, nhưng bạn phải biết rằng lý do khiến câu chuyện của Musk gây xúc động là vì những người như ông hiện nay cực kỳ khan hiếm và họ chưa được ngành công nghệ chính thống chào đón trong một thời gian dài. Nó hoàn toàn dựa vào những thành tựu thách thức lẽ thường - chế tạo ô tô, tên lửa và đường hầm, tất cả những thứ mà Thung lũng Silicon sợ phải tránh - để từng bước xây dựng danh tiếng của mình.
Nếu Yushu đã gây ra làn sóng hoài nghi về thực tế trong phần cứng thì DeepSeek đã kiểm soát chặt chẽ các nhà sản xuất mô hình lớn trong lãnh địa phần mềm bản địa.
Trong khi Microsoft, Meta và Google đều đang gấp rút đào tạo mô hình lớn trên cụm 100.000 card thì DeepSeek đã chi chưa đến 6 triệu USD và 2 tháng cho 2.000 GPU để đạt được sự liên kết giữa kết quả thử nghiệm GPT-4o và Claude 3.5 Sonnet.
DeepSeek-V2 trở nên phổ biến cách đây nửa năm, nhưng câu chuyện lúc đó tương đối phù hợp với mong đợi của phiên bản cũ: Các công ty AI Trung Quốc đã tung ra các mô hình nguồn mở chi phí thấp, và nếu họ muốn trở thành kẻ bán thịt giá cả trong Trong ngành, người Trung Quốc rất giỏi làm thứ gì đó rẻ và bền như thế này, miễn là bạn không so sánh với những sản phẩm hàng đầu thì có thể chắc chắn rằng nó sẽ hoạt động.
Nhưng V3 thì hoàn toàn khác. Nó đã giảm chi phí hơn 10 lần, đồng thời chất lượng tương đương với trại t1. Điều quan trọng là tất cả đều là khu vực bình luận của các tweet liên quan. “Người Trung Quốc đã làm điều đó như thế nào?”
Mặc dù, các mô hình lớn phát triển muộn có thể đạt được hiệu quả đào tạo tiết kiệm chi phí hơn thông qua việc chắt lọc kiến thức và các phương tiện khác - tương tự như độ dốc giảm tốc độ bạn học ba định luật Newton, nhưng nó cũng có lợi cho những người theo đuổi, và nó là chắc chắn là nhanh hơn chính Newton tìm ra các định luật Nhanh chóng và chi phí thấp, nhưng sự cải thiện hiệu quả đáng kinh ngạc rất khó có thể tóm tắt bằng các phương pháp đào tạo đã biết. Nó hẳn đã tạo ra những đổi mới trong kiến trúc cơ bản khác với những gã khổng lồ khác.
Một góc độ khác thú vị hơn. Nếu hậu quả cuối cùng của chính sách cấm chip AI của Trung Quốc là các công ty kiểu mẫu lớn của Trung Quốc phải thực hiện các giải pháp hiệu quả hơn dưới sự hạn chế của sức mạnh tính toán hạn chế, thì kiểu âm mưu phản tác dụng này thật trớ trêu.
Liang Wenfeng, người sáng lập DeepSeek, trước đây cũng từng nói rằng vấn đề của công ty chưa bao giờ là tiền mà là chip cao cấp bị cấm vận.
Vì vậy, các công ty kiểu mẫu lớn của Trung Quốc như Byte và Alibaba có thể xoay sở đủ. Nếu họ sử dụng 1/10 thu nhập hàng năm để đầu tư vào AI thì sẽ không phải là vấn đề lớn. Tuy nhiên, các công ty khởi nghiệp lại không làm được như vậy. nhiều đạn dược và không thể ngồi yên trên bàn poker. Cách duy nhất là phải đổi mới một cách liều lĩnh.
Kai-Fu Lee năm nay đã bày tỏ quan điểm rằng lợi thế của Trung Quốc trong việc phát triển AI chưa bao giờ là thực hiện nghiên cứu đột phá mà không đặt ra giới hạn ngân sách, mà là tìm ra giải pháp tối ưu giữa tốt, nhanh, rẻ và đáng tin cậy.
Cả Zero-One và DeepSeek đều sử dụng mô hình MoE (Mixed Expert), tương đương với việc đào tạo cụ thể về các bộ dữ liệu chất lượng cao được chuẩn bị trước. Không thể nói rằng điểm số đang chạy là không có độ ẩm, nhưng thị trường thì có. không quan tâm đến nguyên tắc, miễn là chất lượng và giá cả Nếu so sánh đủ, chắc chắn sẽ có sức cạnh tranh.
Tất nhiên, điều khác biệt ở DeepSeek là nó không thiếu thẻ. Nó đã dự trữ 10.000 thẻ NVIDIA A100 vào năm 2021. ChatGPT vẫn chưa xuất hiện vào thời điểm đó và Meta dự trữ thẻ cho metaverse nhưng vô tình bắt kịp làn sóng AI. Nó rất giống với việc DeepSeek đã mua rất nhiều thẻ để thực hiện giao dịch định lượng...
Ấn tượng đầu tiên của tôi về Liang Wenfeng là từ lời nói đầu được ông viết trong cuốn “The Biography of Simons”. Simons là người sáng lập Công ty Công nghệ Phục hưng và là người tiên phong sử dụng các mô hình thuật toán để thực hiện các khoản đầu tư tự động vào thời điểm đó, đối với vốn cổ phần tư nhân định lượng, việc viết lời tựa để tri ân người sáng lập ngành là điều đương nhiên.
Để giải thích nền tảng này, tôi muốn nói rằng một số công ty của Liang Wenfeng, từ giao dịch định lượng đến phát triển mô hình lớn, không phải là một quá trình biến tài chính thành công nghệ mà là sự chuyển đổi các kỹ năng toán học giữa hai kịch bản ứng dụng và mục đích đầu tư. Đó là một thị trường dự đoán và nguyên tắc của mô hình lớn cũng là dự đoán Token.
Sau này, tôi đã xem một số cuộc phỏng vấn với Liang Wenfeng và tôi có ấn tượng rất tốt về anh ấy. Anh ấy là một người rất tỉnh táo và thông minh. Tôi sẽ đăng một vài đoạn để bạn kiểm nghiệm:
Hỏi: Hầu hết các công ty Trung Quốc chọn có cả mô hình và ứng dụng Tại sao DeepSeek hiện chỉ chọn nghiên cứu và thăm dò?
Liang Wenfeng: Bởi vì chúng tôi cảm thấy điều quan trọng nhất hiện nay là tham gia vào làn sóng đổi mới toàn cầu. Trong nhiều năm qua, các công ty Trung Quốc đã quen với việc những người khác tạo ra những đổi mới công nghệ và chúng tôi sử dụng chúng để kiếm tiền từ các ứng dụng, nhưng đây không phải là chuyện đương nhiên. Trong làn sóng này, điểm xuất phát của chúng ta không phải là tận dụng cơ hội để làm giàu mà là đi đầu về công nghệ để thúc đẩy sự phát triển của toàn bộ hệ sinh thái.
Hỏi: Nhận thức quán tính để lại cho hầu hết mọi người trong thời đại Internet và Internet di động là Hoa Kỳ giỏi đổi mới công nghệ, trong khi Trung Quốc giỏi hơn về ứng dụng.
Liang Wenfeng: Chúng tôi tin rằng với sự phát triển kinh tế, Trung Quốc phải dần dần trở thành nước đóng góp thay vì luôn là kẻ ăn bám. Trong làn sóng CNTT khoảng ba mươi năm trở lại đây, về cơ bản chúng ta chưa tham gia vào đổi mới công nghệ thực sự. Chúng ta đã quen với Định luật Moore từ trên trời rơi xuống và phần cứng cũng như phần mềm tốt hơn sẽ ra đời chỉ sau 18 tháng ở nhà. Luật mở rộng quy mô cũng được xử lý theo cách này. Nhưng trên thực tế, đây là thứ mà cộng đồng công nghệ phương Tây thống trị đã làm việc không mệt mỏi qua nhiều thế hệ để tạo ra, chỉ vì trước đây chúng ta không tham gia vào quá trình này nên bỏ qua sự tồn tại của nó.
Hỏi: Nhưng trong bối cảnh Trung Quốc, sự lựa chọn này là quá ngông cuồng. Mô hình lớn là một cuộc chơi đầu tư lớn và không phải công ty nào cũng có vốn để chỉ nghiên cứu đổi mới sáng tạo mà không tính đến thương mại hóa trước tiên.
Liang Wenfeng: Chi phí cho sự đổi mới chắc chắn không thấp, và sức ì của chủ nghĩa chiếm đoạt trong quá khứ cũng liên quan đến điều kiện quốc gia trong quá khứ. Nhưng bây giờ, cho dù nhìn vào quy mô kinh tế của Trung Quốc hay lợi nhuận của các công ty lớn như Byte và Tencent, chúng đều không hề thấp trên thế giới. Cái chúng ta thiếu trong đổi mới chắc chắn không phải là vốn mà là thiếu sự tự tin và không biết cách tổ chức nhân tài với mật độ cao để đạt được đổi mới hiệu quả.
Hỏi: Nhưng khi nói đến các mô hình quy mô lớn, khó có thể tạo nên lợi thế tuyệt đối chỉ bằng việc dẫn đầu về công nghệ. Điều lớn hơn mà anh đang đặt cược vào là gì?
Liang Wenfeng: Điều chúng ta thấy là AI của Trung Quốc không phải lúc nào cũng ở vị thế đi sau. Chúng ta thường nói rằng có khoảng cách một hoặc hai năm giữa AI của Trung Quốc và Hoa Kỳ, nhưng khoảng cách thực sự là sự khác biệt giữa tính nguyên bản và tính bắt chước. Nếu điều này không thay đổi, Trung Quốc sẽ luôn là kẻ đi sau nên việc thăm dò là điều khó tránh khỏi. Sự lãnh đạo của NVIDIA không chỉ là nỗ lực của một công ty mà là kết quả của nỗ lực chung của toàn bộ cộng đồng và ngành công nghệ phương Tây. Họ có thể nhìn thấy xu hướng công nghệ thế hệ tiếp theo và có lộ trình trong tay. Sự phát triển AI ở Trung Quốc cũng đòi hỏi một hệ sinh thái như vậy. Nhiều chip trong nước không thể phát triển vì thiếu cộng đồng kỹ thuật hỗ trợ và chỉ có thông tin cũ. Do đó, Trung Quốc phải có người đi đầu về công nghệ.
Hỏi: Nhiều công ty kiểu mẫu lớn đang kiên trì săn lùng người ở nước ngoài. Nhiều người cho rằng 50 nhân tài hàng đầu trong lĩnh vực này có thể không thuộc về các công ty Trung Quốc.
Liang Wenfeng: Không có người từ nước ngoài về trong mô hình V2, họ đều là người địa phương. Top 50 nhân tài có thể không có ở Trung Quốc, nhưng có lẽ chúng ta có thể tự đào tạo ra những người như vậy.
Hỏi: Vậy là anh cũng lạc quan về vấn đề này?
Liang Wenfeng: Tôi lớn lên ở một thành phố cấp 5 ở Quảng Đông vào những năm 1980. Cha tôi là giáo viên tiểu học. Vào những năm 1990, ở Quảng Đông có rất nhiều cơ hội kiếm tiền. Khi đó, nhiều phụ huynh đến nhà tôi hầu hết đều cho rằng việc học là vô ích. Nhưng bây giờ nhìn lại, suy nghĩ của tôi đã thay đổi. Vì kiếm tiền khó nên tôi thậm chí có thể không có cơ hội lái taxi. Điều đó thay đổi trong một thế hệ. Sẽ ngày càng có nhiều đổi mới cốt lõi hơn trong tương lai. Bây giờ có thể không dễ hiểu vì toàn bộ nhóm xã hội cần được giáo dục về sự thật. Khi xã hội này cho phép những người có óc đổi mới sáng tạo trở nên thành công, tư duy nhóm sẽ thay đổi. Chúng ta chỉ cần một loạt sự kiện và một quá trình.
⋯⋯
Bạn nghĩ sao?