"Thổi bay" 2,000 tỷ USD vốn hóa chứng khoán Mỹ, DeepSeek có thật sự "thần thánh" đến thế?

Homelander The Seven
Homelander The Seven
Phản hồi: 0

Homelander The Seven

I will laser every f****** one of you!
Công ty trí tuệ nhân tạo (AI) DeepSeek của Trung Quốc đã làm rung chuyển thị trường trong tuần này, tuyên bố mô hình AI mới của họ vượt trội hơn OpenAI và chi phí xây dựng chỉ bằng một phần nhỏ.

Đột phá hay chiêu trò?​


Những khẳng định này - cụ thể là mô hình ngôn ngữ lớn của DeepSeek chỉ tốn 5,6 triệu USD để đào tạo - đã làm dấy lên lo ngại về số tiền khổng lồ mà các đại gia công nghệ hiện đang chi cho cơ sở hạ tầng máy tính cần thiết để đào tạo và chạy các khối lượng công việc AI nâng cao.

Nỗi sợ hãi của các nhà đầu tư về tác động đột phá của DeepSeek đã xóa sạch gần 600 tỷ USD khỏi vốn hóa thị trường của Nvidia vào thứ Hai — mức giảm trong một ngày lớn nhất đối với bất kỳ công ty nào trong lịch sử Hoa Kỳ. Nhưng không phải ai cũng bị thuyết phục bởi những tuyên bố của DeepSeek.

1738295001624.png


CNBC đã hỏi ý kiến các chuyên gia trong ngành về DeepSeek và cách nó thực sự so sánh với OpenAI, nhà sáng tạo chatbot ChatGPT lan truyền đã châm ngòi cho cuộc cách mạng AI.

DeepSeek là gì?


Tuần trước, DeepSeek đã phát hành R1, mô hình lập luận mới của mình cạnh tranh với o1 của OpenAI. Mô hình lập luận là một mô hình ngôn ngữ lớn chia nhỏ lời nhắc thành các phần nhỏ hơn và xem xét nhiều cách tiếp cận trước khi tạo phản hồi. Nó được thiết kế để xử lý các vấn đề phức tạp theo cách tương tự như con người.

DeepSeek được thành lập vào năm 2023 bởi Liang Wenfeng, đồng sáng lập quỹ phòng hộ định lượng tập trung vào AI High-Flyer, để tập trung vào các mô hình ngôn ngữ lớn và đạt được trí tuệ nhân tạo tổng quát hay AGI.

AGI như một khái niệm đề cập một cách lỏng lẻo đến ý tưởng về một AI ngang bằng hoặc vượt qua trí tuệ của con người trong một loạt các nhiệm vụ. Phần lớn công nghệ đằng sau R1 không phải là mới. Tuy nhiên, điều đáng chú ý là DeepSeek là công ty đầu tiên triển khai nó trong một mô hình AI hiệu suất cao với — theo công ty — việc giảm đáng kể nhu cầu năng lượng.

1738295015059.png


“Điều đáng nói là có rất nhiều khả năng để phát triển ngành công nghiệp này. Cách thâm dụng chip/vốn cao cấp là một cách tiếp cận công nghệ,” Xiaomeng Lu, giám đốc thực hành địa công nghệ của Tập đoàn Á-Âu cho biết.

“Nhưng DeepSeek chứng minh rằng chúng ta vẫn đang ở giai đoạn sơ khai của sự phát triển AI và con đường do OpenAI thiết lập có thể không phải là con đường duy nhất dẫn đến AI có năng lực cao.”

Nó khác OpenAI như thế nào?


DeepSeek có hai hệ thống chính đã thu hút sự chú ý từ cộng đồng AI: V3, mô hình ngôn ngữ lớn hỗ trợ các sản phẩm của nó và R1, mô hình lập luận của nó. Cả hai mô hình đều là mã nguồn mở, có nghĩa là mã cơ bản của chúng là miễn phí và công khai để các nhà phát triển khác tùy chỉnh và phân phối lại.

Các mô hình của DeepSeek nhỏ hơn nhiều so với nhiều mô hình ngôn ngữ lớn khác. V3 có tổng cộng 671 tỷ tham số hoặc biến mà mô hình học được trong quá trình đào tạo. Và trong khi OpenAI không tiết lộ các tham số, các chuyên gia ước tính mô hình mới nhất của nó có ít nhất một nghìn tỷ.

Về hiệu suất, DeepSeek cho biết mô hình R1 của họ đạt được hiệu suất tương đương với o1 của OpenAI về các nhiệm vụ lập luận, trích dẫn các điểm chuẩn bao gồm AIME 2024, Codeforces, GPQA Diamond, MATH-500, MMLU và SWE-bench Verified.

Trong một báo cáo kỹ thuật, công ty cho biết mô hình V3 của họ chỉ có chi phí đào tạo là 5,6 triệu USD — một phần nhỏ trong số hàng tỷ USD mà các phòng thí nghiệm AI phương Tây đáng chú ý như OpenAI và Anthropic đã chi để đào tạo và chạy các mô hình AI nền tảng của họ. Tuy nhiên, vẫn chưa rõ DeepSeek tốn bao nhiêu chi phí để chạy.

1738295024892.png


Tuy nhiên, nếu chi phí đào tạo là chính xác, thì điều đó có nghĩa là mô hình này được phát triển với chi phí chỉ bằng một phần nhỏ so với các mô hình cạnh tranh của OpenAI, Anthropic, Google và những công ty khác. Daniel Newman, CEO của công ty chuyên sâu về công nghệ The Futurum Group, cho biết những phát triển này cho thấy “một bước đột phá lớn”, mặc dù ông đã bày tỏ sự nghi ngờ về con số chính xác.

“Tôi tin rằng những đột phá của DeepSeek cho thấy một bước ngoặt có ý nghĩa đối với luật mở rộng quy mô và là một điều thực sự cần thiết,” ông nói. “Tuy nhiên, vẫn còn rất nhiều câu hỏi và sự không chắc chắn xung quanh bức tranh toàn cảnh về chi phí liên quan đến sự phát triển của DeepSeek.”

Trong khi đó, Paul Triolio, phó chủ tịch cấp cao phụ trách Trung Quốc và lãnh đạo chính sách công nghệ tại công ty tư vấn DGA Group, lưu ý rằng rất khó để so sánh trực tiếp giữa chi phí mô hình của DeepSeek và chi phí của các nhà phát triển lớn của Hoa Kỳ.

“Con số 5,6 triệu cho DeepSeek V3 chỉ dành cho một lần đào tạo và công ty nhấn mạnh rằng điều này không đại diện cho tổng chi phí R&D để phát triển mô hình,” ông nói. “Tổng chi phí khi đó có thể cao hơn đáng kể, nhưng vẫn thấp hơn số tiền mà các công ty AI lớn của Hoa Kỳ đã chi.”

DeepSeek đã không trả lời ngay lập tức để bình luận khi được CNBC liên hệ.

So sánh về chi phí


DeepSeek và OpenAI đều công bố giá tính toán cho mô hình của họ trên trang web của mình.

1738295040935.png


DeepSeek cho biết R1 có giá 55 xu cho 1 triệu token đầu vào — “token” đề cập đến từng đơn vị văn bản riêng lẻ được xử lý bởi mô hình — và 2,19 USD cho 1 triệu token đầu ra.

Để so sánh, trang định giá của OpenAI cho o1 cho thấy công ty tính phí 15 USD cho 1 triệu token đầu vào và 60 USD cho 1 triệu token đầu ra. Đối với mô hình ngôn ngữ nhỏ GPT-4o mini chi phí thấp của OpenAI, công ty tính phí 15 xu cho 1 triệu token đầu vào.

Sự hoài nghi về chip


Việc DeepSeek tiết lộ R1 đã dẫn đến cuộc tranh luận công khai gay gắt về tính xác thực của tuyên bố của họ — không chỉ vì các mô hình của nó được xây dựng bất chấp các biện pháp kiểm soát xuất khẩu từ Hoa Kỳ hạn chế việc sử dụng chip AI tiên tiến cho Trung Quốc.

DeepSeek tuyên bố rằng họ đã có bước đột phá bằng cách sử dụng các clip Nvidia cũ, bao gồm chip H800 và A100, kém tiên tiến hơn so với H100 tiên tiến của nhà sản xuất chip, không thể xuất khẩu sang Trung Quốc.

Tuy nhiên, trong bình luận gửi CNBC tuần trước, Giám đốc điều hành Scale AI, Alexandr Wang, cho biết ông tin rằng DeepSeek đã sử dụng các chip bị cấm — một tuyên bố mà DeepSeek bác bỏ. Kể từ đó, Nvidia đã lên tiếng và cho biết các GPU mà DeepSeek sử dụng hoàn toàn tuân thủ xuất khẩu.

Ngon thực sự hay không?


Các chuyên gia trong ngành dường như đồng ý rộng rãi rằng những gì DeepSeek đã đạt được là rất ấn tượng, mặc dù một số người đã kêu gọi hoài nghi về một số tuyên bố của công ty Trung Quốc. Doanh nhân người Mỹ Palmer Luckey, người sáng lập Oculus và Anduril đã viết trên X: “DeepSeek thực sự ấn tượng, nhưng mức độ cuồng loạn là một bản cáo trạng đối với rất nhiều người”.

“Con số 5 triệu đô la là giả mạo. Nó được một quỹ phòng hộ Trung Quốc thúc đẩy để làm chậm đầu tư vào các công ty khởi nghiệp AI của Mỹ, phục vụ lợi ích ngắn hạn của chính họ chống lại các đại gia Mỹ như Nvidia và che giấu hành vi trốn tránh lệnh trừng phạt.”


Seena Rejal, giám đốc thương mại của NetMind, một công ty khởi nghiệp có trụ sở tại London cung cấp quyền truy cập vào các mô hình AI của DeepSeek thông qua mạng GPU phân tán, cho biết ông không thấy lý do gì để không tin tưởng DeepSeek.

“Ngay cả khi nó lệch một hệ số nhất định, nó vẫn rất hiệu quả,” Rejal nói với CNBC trong một cuộc phỏng vấn qua điện thoại vào đầu tuần này. “Logic của những gì họ đã giải thích là rất hợp lý.” Tuy nhiên, một số người cho rằng công nghệ của DeepSeek có thể không được xây dựng từ đầu.

Nhà đầu tư tỷ phú Vinod Khosla nói trên X mà không đưa ra thêm chi tiết: “DeepSeek mắc phải những sai lầm tương tự mà O1 mắc phải, một dấu hiệu mạnh mẽ cho thấy công nghệ đã bị đánh cắp”.

Đó là một tuyên bố mà chính OpenAI đã ám chỉ, nói với CNBC trong một tuyên bố hôm thứ Tư rằng họ đang xem xét các báo cáo DeepSeek có thể đã “sử dụng không đúng cách” dữ liệu đầu ra từ các mô hình của mình để phát triển mô hình AI của họ, một phương pháp được gọi là “chưng cất”.

“Chúng tôi thực hiện các biện pháp đối phó chủ động, mạnh mẽ để bảo vệ công nghệ của mình và sẽ tiếp tục hợp tác chặt chẽ với chính phủ Hoa Kỳ để bảo vệ các mô hình có khả năng nhất đang được xây dựng ở đây,” người phát ngôn của OpenAI nói với CNBC.

Thương mại hóa AI


Tuy nhiên, sự giám sát xung quanh DeepSeek đã được thực hiện, các nhà khoa học AI nhìn chung đồng ý rằng nó đánh dấu một bước tích cực cho ngành.

Yann LeCun, nhà khoa học AI chính tại Meta, cho biết thành công của DeepSeek đại diện cho chiến thắng của các mô hình AI nguồn mở, không nhất thiết là chiến thắng của Trung Quốc trước Hoa Kỳ. Meta đứng sau một mô hình AI nguồn mở phổ biến có tên Llama.

“Đối với những người nhìn thấy hiệu suất của DeepSeek và nghĩ: 'Trung Quốc đang vượt qua Hoa Kỳ về AI.' Bạn đang đọc sai điều này. Cách đọc chính xác là: 'Các mô hình nguồn mở đang vượt qua các mô hình độc quyền',” ông nói trong một bài đăng trên LinkedIn.

“DeepSeek đã thu lợi từ nghiên cứu mở và nguồn mở (ví dụ: PyTorch và Llama từ Meta). Họ đã đưa ra những ý tưởng mới và xây dựng chúng dựa trên công việc của những người khác. Bởi vì công việc của họ được xuất bản và nguồn mở, mọi người đều có thể thu lợi từ nó. Đó là sức mạnh của nghiên cứu mở và nguồn mở.”

#DeepSeek
 


Đăng nhập một lần thảo luận tẹt ga
Top