8 điều bạn cần biết về DeepSeek (tài liệu tham khảo)

Đoàn Thúy Hà
Đoàn Thúy Hà
Phản hồi: 0

Đoàn Thúy Hà

Editor
Thành viên BQT
Sáng sớm ngày 27/1/2025, DeepSeek đã đứng đầu về lượt tải xuống trong danh sách miễn phí của Apple App Store ở cả Trung Quốc và Hoa Kỳ, vượt qua ChatGPT, ứng dụng trước đó đã thống trị danh sách này. Đây là lần đầu tiên một ứng dụng Trung Quốc đạt được thành tích này. Nửa tháng trước (ngày 11/1), ứng dụng DeepSeek vừa được ra mắt trên cửa hàng ứng dụng iOS và Android.
1738828791919.png

Sau ngày hôm đó, ứng dụng DeepSeek bắt đầu ngừng hoạt động. Công ty cho biết các dịch vụ của họ đã bị tấn công độc hại nghiêm trọng và do đó sẽ tạm thời hạn chế đăng ký người dùng mới. Cổ phiếu công nghệ của Hoa Kỳ đồng loạt giảm khi mở cửa phiên giao dịch đêm hôm đó - Chỉ số bán dẫn Philadelphia (SOX) giảm 9,2%, mức giảm lớn nhất kể từ tháng 3 năm 2020. Trong số đó, giá cổ phiếu của Nvidia giảm gần 17% và giá trị thị trường của công ty bốc hơi gần 600 tỷ đô la Mỹ, mức lớn nhất trong lịch sử chứng khoán Hoa Kỳ. Ngoài ra, Broadcom, TSMC, ASML, Google và Microsoft cũng lần lượt giảm 17,4%, 13%, 7%, 4% và 2,14%. Ngay cả dầu thô WTI cũng giảm 3% trong phiên giao dịch vì một số nhà giao dịch tin rằng nếu việc đào tạo và lý luận của các mô hình lớn không còn đòi hỏi quá nhiều sức mạnh tính toán nữa thì nhu cầu điện năng của các trung tâm dữ liệu cũng sẽ giảm và tất nhiên sẽ không cần nhiều dầu như vậy để tạo ra điện.
1738828890529.png

Điểm hiệu suất R1
DeepSeek là một công ty mô hình ngôn ngữ lớn có trụ sở tại Hàng Châu và được thành lập vào năm 2023. Công ty không thu hút được nhiều sự chú ý từ thị trường cho đến giữa năm 2024. Nhưng vào tháng cuối cùng của năm 2024, hãng đã tung ra nhiều mô hình ngôn ngữ mới. Trong số đó, mô hình có tên DeepSeek-V3 (sau đây gọi là "V3") được phát hành sau Giáng sinh được cho là "tương đương" với các mô hình nguồn đóng hàng đầu trong ngành là GPT-4o và Claude-3.5-Sonnet về hiệu suất và "tốt hơn" so với mô hình nguồn mở tốt nhất là Llama 3 của Meta, với tổng chi phí đào tạo chỉ 5,576 triệu đô la Mỹ, chỉ bằng 1% so với mô hình trước (ước tính đầu tư hơn 500 triệu đô la Mỹ). Vào ngày 20/1, gần Tết Nguyên đán Ất Tỵ, công ty đã phát hành một mô hình khác có tên DeepSeek-R1 (sau đây gọi là "R1"). Tương tự như vậy, DeepSeek tuyên bố trong bài báo rằng mô hình R1 "đạt được hiệu suất tương đương với OpenAI o1 trên một loạt các nhiệm vụ".

Vào ngày 29/1, Bloomberg đưa tin, trích dẫn nguồn tin giấu tên có hiểu biết về vấn đề này, rằng vào mùa thu năm 2024, các nhà nghiên cứu bảo mật của Microsoft đã phát hiện ra rằng các nhân viên của DeepSeek đã sử dụng API của OpenAI để đánh cắp một lượng lớn dữ liệu, ngụ ý rằng dữ liệu có thể được sử dụng để đào tạo các mô hình V3 hoặc R1. Tuy nhiên, OpenAI quy định rõ ràng rằng các công ty khác không được phép sử dụng dữ liệu do mô hình tạo ra để đào tạo mô hình. Vào giữa năm 2023, ByteDance đã có xích mích với OpenAI do hành vi tương tự. DeepSeek vẫn chưa phản hồi tuyên bố này.

Rắc rối không dừng lại ở đó. Cùng ngày, chính quyền Ý đã yêu cầu DeepSeek cung cấp thông tin về cách công ty xử lý dữ liệu người dùng. DeepSeek sẽ có 20 ngày để chuẩn bị phản hồi. DeepSeek hiện đã xóa các ứng dụng khỏi các cửa hàng ứng dụng của Apple và Google tại Ý.

Vẫn còn nhiều nghi ngờ về DeepSeek, chẳng hạn như liệu mô hình của công ty này có phải chỉ là mô hình chưng cất từ mô hình tiên tiến của Mỹ hay không, liệu sự đổi mới này có thực sự quan trọng hay không và liệu cổ phiếu công nghệ Mỹ có đang phản ứng thái quá hay không. Về cơ bản, DeepSeek đã trả lời những câu hỏi này trong báo cáo kỹ thuật.

1. Sự hoảng loạn trong giới công nghệ toàn cầu do DeepSeek gây ra diễn ra như thế nào?​


Cú sốc thị trường vào ngày 27/1 xảy ra gần một tháng sau khi DeepSeek công bố dữ liệu gây sốc trong bài báo mô hình của mình. Cho đến Diễn đàn Davos 2025 diễn ra cách đây một tuần, mặc dù nhiều người đã nói về DeepSeek, nhưng hầu hết ý kiến đều bảo thủ hoặc hoài nghi. Ví dụ, Tổng giám đốc điều hành của DeepMind, Demis Hassabis, tuyên bố tại Davos rằng mô hình của DeepSeek thực sự "bất ngờ", nhưng ông cho biết "ông không chắc mô hình DeepSeek hoạt động như thế nào, bao gồm cả mức độ mà nó dựa vào kết quả của các mô hình từ các công ty Mỹ khác".

Ngoài quan điểm hoài nghi cho rằng "V3 là một mô hình chưng cất từ mô hình tiên tiến của Hoa Kỳ", một tiếng nói khác không muốn tin vào kết quả của DeepSeek đến từ Alexandr Wang, CEO của Scale AI. Trong một cuộc phỏng vấn với CNBC, ông khẳng định DeepSeek sở hữu 50.000 chip AI tiên tiến nhất của Nvidia là H100, ngụ ý rằng DeepSeek đã vi phạm chính sách cấm vận chip của Hoa Kỳ và đạt được bước đột phá về mô hình. Do vấn đề kiểm soát chip, Nvidia không còn cung cấp chip AI cao cấp H100 cho thị trường Trung Quốc kể từ mùa thu năm 2022. Thay vào đó, hãng sẽ thay thế bằng H800, có bộ nhớ và băng thông hạn chế hơn - hiệu suất chỉ bằng một nửa so với H100.

Tuy nhiên, cùng lúc đó, các nhân viên của Meta tuyên bố trên một trang web ẩn danh rằng việc DeepSeek đạt được hiệu suất vượt trội hơn Llama 3 chỉ với 1% khoản đầu tư đã gây hoang mang cho nhóm AI của công ty, đặc biệt khi xét đến việc khoản đầu tư dự kiến cho mô hình thế hệ tiếp theo Llama 4 mà công ty đang đào tạo đắt hơn Llama 3 gấp nhiều lần. The Information đưa tin rằng Meta đã thành lập bốn nhóm nghiên cứu đặc biệt để nghiên cứu nguyên lý hoạt động của DeepSeek và cải tiến Llama dựa trên nguyên lý này. Trước khi phát hành V3, Llama là mô hình mã nguồn mở có khả năng nhất trên thế giới, cho đến khi nó bị thay thế bởi V3.

Nếu chỉ có hiệu quả như V3, DeepSeek có thể sẽ không thu hút được nhiều sự chú ý. Mô hình R1 được phát hành vào ngày 20/1 đã tiếp thêm động lực quan trọng cho sự phổ biến của DeepSeek - đây là mô hình suy luận giống O1 có thể trải nghiệm ngay trong ứng dụng. Điểm khác biệt giữa chatbot cùng tên của DeepSeek và các chatbot khác là khi trả lời câu hỏi của người dùng, nó sẽ hiển thị đầy đủ Chuỗi suy nghĩ (CoT). "Hoạt động bên trong" của nó như một robot cân nhắc cẩn thận nhu cầu của người dùng và cố gắng an ủi mọi cảm xúc được nói ra hoặc ẩn ý của người dùng đã khơi dậy sự nhiệt tình của một số lượng lớn người dùng. Bản chất của kinh doanh là tạo ra sự khan hiếm. Cho dù giữa con người hay AI, sự đồng cảm là một mặt hàng khan hiếm.

CoT là khả năng mà tất cả các mô hình giống o1 đang phát triển và con người cũng lý luận theo cách tương tự như vậy. Tuy nhiên, quá trình suy nghĩ này cũng là một tài sản dữ liệu quan trọng mà các công ty trí tuệ nhân tạo muốn giữ bí mật. Nếu bạn hỏi mô hình o1 của nó về cách nó suy nghĩ trong ChatGPT vài lần, OpenAI có thể gửi cho bạn email cảnh báo rằng tài khoản của bạn sẽ bị thu hồi.

Marc Andreessen, người sáng lập công ty đầu tư mạo hiểm Andreessen Horowitz (a16z), mô tả R1 là "khoảnh khắc Sputnik của AI", ám chỉ vệ tinh nhân tạo đầu tiên được Liên Xô phóng vào năm 1957. Những người khác gọi việc phát hành loạt mô hình của DeepSeek là "Trân Châu Cảng" của cộng đồng AI Hoa Kỳ. Điều này có nghĩa là với tư cách là quốc gia đi đầu về công nghệ trong lĩnh vực trí tuệ nhân tạo toàn cầu, Hoa Kỳ đang đánh mất mô hình kinh doanh AI và hào công nghệ mà họ đã xây dựng.

2. DeepSeek-V3 đã đạt được những đột phá gì?​


Sự đột phá của DeepSeek đến từ hai khía cạnh: chi phí thấp và khả năng suy luận. Trong đó, đột phá của V3 chủ yếu nằm ở chi phí đào tạo và hiệu quả tính toán, còn R1 đã mở ra một hướng đi mới cho việc đào tạo các mô hình suy luận.

Cụ thể, V3 áp dụng kiến trúc DeepSeekMoE vượt trội hơn kiến trúc MoE (mô hình chuyên gia) truyền thống và DeepSeekMLA (sự chú ý tiềm ẩn đa đầu) vượt trội hơn sự chú ý đa đầu (MHA) truyền thống.

DeepSeekMoE (Hỗn hợp các chuyên gia)

Các mô hình dày đặc truyền thống, chẳng hạn như GPT-3.5, kích hoạt tất cả các tham số trong quá trình đào tạo và suy luận. Tuy nhiên, trên thực tế, không phải mọi bộ phận của mô hình đều cần thiết cho nhiệm vụ đang thực hiện. Do đó, ý tưởng của MoE là chia mô hình thành nhiều "chuyên gia" và chỉ kích hoạt những chuyên gia cần thiết cho nhiệm vụ trong quá trình suy luận. GPT-4 cũng là một mô hình MoE, được cho là có hơn 1,67 nghìn tỷ tham số, phần lớn được phân phối trong 16 mô-đun chuyên gia (như các lớp FFN). Mỗi lần hoàn thành một tác vụ cụ thể, khoảng một hoặc hai chuyên gia sẽ được kích hoạt, do đó lượng tính toán được giảm đáng kể. DeepSeek V3 có 671 tỷ tham số, trong đó tổng số tham số của các chuyên gia đang hoạt động là 37 tỷ.

Trong bài báo mô hình V3, DeepSeek tuyên bố rằng so với MoE truyền thống, DeepSeekMoE sử dụng các chuyên gia "chi tiết hơn" để làm cho các chuyên gia trở nên chuyên biệt hơn, với một chuyên gia duy nhất chỉ có hàng tỷ tham số, giúp cải thiện khả năng thích ứng với nhiệm vụ. Đồng thời, DeepSeekMoE cô lập một số chuyên gia dưới dạng "chuyên gia được chia sẻ" để giảm sự trùng lặp kiến thức giữa các chuyên gia, cho phép mô hình V3 hoạt động tốt hơn trong khi kích hoạt cùng số lượng chuyên gia và tham số.

DeepSeekMLA (Cơ chế chú ý tiên tiến)

Multi-Head Attention (MHA) là cơ chế cốt lõi của điện toán AI tạo sinh. Nó cho phép mô hình tập trung vào các cấp độ đầu vào khác nhau của người dùng cùng một lúc, xử lý các chiều thông tin khác nhau này song song, sau đó tích hợp chúng để hoàn thành phản hồi. Quá trình xử lý song song này tương tự như tính toán song song trong xử lý hình ảnh, do đó GPU (Bộ xử lý đồ họa) được sử dụng để xử lý đồ họa trước đây đã trở thành nền tảng phần cứng lý tưởng cho tính toán AI.

Tuy nhiên, quá trình này cũng sẽ tạo ra một lượng lớn bộ nhớ đệm, hạn chế hiệu quả suy luận. DeepSeekMLA đã tìm ra cách nén chung dữ liệu được lưu trong bộ nhớ đệm, do đó giảm đáng kể lượng bộ nhớ sử dụng trong quá trình suy luận và đảm bảo suy luận hiệu quả. DeepSeek đã nêu trong báo cáo rằng nhờ những cải tiến này, mô hình V2 (thế hệ trước của mô hình V3) đã đạt được thông lượng tạo ra hơn 50.000 token mỗi giây khi được trang bị 8 GPU H800 trên một nút duy nhất, cao gấp 5,76 lần thông lượng tạo ra tối đa của mô hình thế hệ trước.

MTP (Dự đoán nhiều mã thông báo cùng lúc)

Các mô hình lớn truyền thống chỉ dự đoán mã thông báo tiếp theo khi trả lời nhu cầu của người dùng, trong khi V3 sử dụng công nghệ MTP để dự đoán hai mã thông báo tiếp theo cùng một lúc. Vấn đề then chốt ở đây là vấn đề thứ hai về độ chính xác của dự đoán mã thông báo (tức là “tỷ lệ chấp nhận”, tỷ lệ mã thông báo được dự đoán có thể được áp dụng cuối cùng). DeepSeek ước tính rằng tỷ lệ chấp nhận mã thông báo thứ hai do mô hình của họ tạo ra đạt 85% đến 90% ở các chủ đề khác nhau được tạo ra. Tỷ lệ chấp nhận cao này có nghĩa là V3 có thể tạo văn bản với tốc độ gần gấp đôi so với các mô hình dự đoán mã thông báo đơn lẻ truyền thống.

FP8: Đào tạo độ chính xác thấp

FP8 có nghĩa là dấu phẩy động 8 bit. Số càng cao thì độ chính xác tính toán càng cao, nhưng đồng thời tốc độ tính toán sẽ thấp hơn. DeepSeek sử dụng định dạng dữ liệu FP8 để đào tạo V3 và triển khai việc sử dụng dữ liệu linh hoạt và luân phiên ở các độ chính xác khác nhau như FP8, BF16 và FP32 trong các giai đoạn tính toán mô hình khác nhau, đây là một khuôn khổ độ chính xác hỗn hợp. Trong một số quy trình truyền thông tham số, DeepSeek cũng đạt được khả năng truyền chính xác FP8. Thông qua quy trình này, DeepSeek đã đạt được tốc độ đào tạo nhanh hơn và giảm mức sử dụng bộ nhớ GPU, đồng thời "lần đầu tiên xác minh hiệu quả của khuôn khổ đào tạo độ chính xác hỗn hợp FP8 trên các mô hình quy mô cực lớn".

Kiến trúc DeepSeekMoE + DeepSeekMLA đã được phát triển từ thời điểm DeepSeek phát triển mô hình V2. Mô hình V2 đã xác minh rằng sự kết hợp này có thể tính đến cả đào tạo hiệu quả và lý luận trong khi vẫn duy trì hiệu suất. V3 đã thực hiện nhiều cải tiến trên cơ sở này. Điều thực sự khiến mẫu V3 vượt trội hơn Llama 3 về khả năng chính là một cải tiến khác - tự thưởng.

Sau khi đào tạo: Tự thưởng

Sau chưa đầy hai tháng đào tạo trước và 2,664 triệu giờ GPU, DeepSeek đã dành thêm 5.000 giờ GPU cho V3 đào tạo sau dựa trên "tự khen thưởng" và chưng cất.

Một ví dụ điển hình về học tăng cường là AlphaGo, cung cấp cho mô hình các quy tắc của cờ vây và cho biết ý nghĩa của việc giành chiến thắng trong trò chơi. Sau đó, mô hình sẽ tự tìm ra một con đường thỏa mãn tất cả các mục tiêu này. Tuy nhiên, thách thức lớn nhất trong phương pháp học máy này là cách thiết lập hàm phần thưởng. Các lĩnh vực đòi hỏi khả năng lý luận cao, chẳng hạn như toán học, lập trình và cờ vây, thường có câu trả lời rõ ràng và ranh giới rõ ràng, nhưng điều này có thể không đúng trong các lĩnh vực khác của cuộc sống. Sau khi OpenAI phát hành mô hình o1, thế giới bên ngoài vô cùng tò mò về cách nó thiết lập hàm phần thưởng cho quá trình học tăng cường. Sau khi OpenAI không còn mở nữa, DeepSeek đã trình bày trong bài báo của mình cách thiết lập hàm phần thưởng cho mô hình V3 - trực tiếp sử dụng chính mô hình V3 làm mô hình tạo phần thưởng và quyết định xem có nên tự thưởng cho chính nó hay không.

DeepSeek đã so sánh khả năng phán đoán của V3 với GPT-4o và Claude-3.5, cho biết hiệu suất của V3 tương đương với các phiên bản tốt nhất của GPT-4o-0806 và Claude-3.5-Sonnet-1022, và khả năng phán đoán của V3 có thể được nâng cao thông qua công nghệ bỏ phiếu. Do đó, DeepSeek sử dụng kết quả đánh giá và bỏ phiếu nhiều lần của V3 như một "chức năng thưởng" để tự thưởng cho các câu hỏi mở.
1738828927217.png

DeepSeek tin rằng một mô hình cơ bản có khả năng phán đoán tự nó đã là một mô hình phần thưởng đủ tốt.
"Bản thân LLM (Mô hình ngôn ngữ lớn) là một bộ xử lý đa chức năng có thể chuyển đổi thông tin phi cấu trúc từ các tình huống khác nhau thành phần thưởng, cuối cùng thúc đẩy sự tự cải thiện của LLM." DeepSeek cho biết trong bài báo công bố mô hình V3, nghĩa là nếu một mô hình lớn đủ tốt và có khả năng phán đoán tốt, thì nó sẽ có thể đánh giá câu trả lời của AI như một con người xuất sắc. Quá trình này là chìa khóa để mô hình V3 tiến bộ hơn so với Llama 3.

3. Tại sao DeepSeek đạt được mức chi phí thấp như vậy trong khi các nhà sản xuất khác, đặc biệt là Mỹ, lại không làm được?​


Thuật ngữ "lời nguyền tài nguyên" là phù hợp nhất vào thời điểm này. So với các nhà sản xuất Trung Quốc, các công ty mô hình lớn của Mỹ có nhiều tiền mặt và sức mạnh tính toán hơn để mở đường cho sự phát triển mô hình lớn của họ. Nvidia cũng liên tục tung ra các chip mạnh hơn và đắt hơn để đáp ứng nhu cầu của các nhà sản xuất lớn này. Luật mở rộng của mô hình lớn từ lâu đã được mở rộng từ chính mô hình sang liên kết tài trợ. Nhiều nhà sản xuất mô hình lớn, không chỉ ở Trung Quốc, đã rút lui khỏi cuộc chơi vào nửa cuối năm ngoái do chi phí đào tạo trước quá cao.

Đối với các công ty lớn có nguồn lực dồi dào, con đường dễ nhất là tuyển dụng mạnh tay, trả lương cao và trả phí cao cho Nvidia. Hầu như tất cả các cải tiến trong dòng DeepSeek-V đều liên quan đến việc thích ứng với chip H800 có băng thông hạn chế.

4. DeepSeek-V3 có phải là mô hình chưng cất không?​


Sau khi chi phí đào tạo V3 được công bố, câu hỏi lớn nhất là liệu đây có phải là mô hình được chắt lọc từ các mô hình tiên tiến khác hay không.

Trong các bài báo có liên quan đến mô hình V3 và R1, DeepSeek đã nhấn mạnh đến việc khám phá công nghệ chưng cất ở phần cuối. Ví dụ, trong mô hình V3, DeepSeek đã sử dụng các khả năng suy luận được trích xuất từ loạt mô hình DeepSeek-R1 - R1 được sử dụng làm mô hình giáo viên để tạo ra 800.000 mẫu đào tạo. "Chúng tôi trích xuất CoT (chuỗi suy nghĩ) lý luận từ loạt mô hình DeepSeek R1 và kết hợp nó vào các LLM (mô hình ngôn ngữ lớn) chuẩn, đặc biệt là DeepSeek-V3. Quy trình của chúng tôi tích hợp khéo léo các mẫu xác minh và phản ánh của R1 vào DeepSeek-V3, cải thiện đáng kể hiệu suất lý luận của nó", DeepSeek cho biết trong bài báo.

Ngoài việc sử dụng 800.000 mẫu chuỗi suy nghĩ được trích xuất từ các mô hình dòng R1 để đào tạo V3, DeepSeek còn khám phá sâu hơn những tác động của việc áp dụng dữ liệu này vào các mô hình dòng Qwen2.5 của Alibaba. DeepSeek đã nêu trong báo cáo rằng các mô hình dòng Qwen (DeepSeek-R1-Distill-Qwen-7B và DeepSeek-R1-Distill-Qwen-32B) đã trải qua quá trình đào tạo sau này "tốt hơn đáng kể so với các phiên bản trước và tương đương với o1-mini". DeepSeek cho biết: "Chúng tôi chứng minh rằng các mô hình lý luận từ các mô hình lớn hơn có thể được trích xuất vào các mô hình nhỏ hơn", điều này mở ra một hướng đi mới đầy hứa hẹn cho việc tối ưu hóa "hậu đào tạo" các mô hình lớn.

Tuy nhiên, những nỗ lực này không có nghĩa là mô hình V3 giá rẻ của DeepSeek là một mô hình chưng cất. Theo bài báo, mô hình thế hệ trước V2 của V3 đã được đào tạo với 8,1 nghìn tỷ dữ liệu mã thông báo và dữ liệu tiền đào tạo của mô hình V3 đã được mở rộng lên 14,8 nghìn tỷ. Bài báo cho thấy V3 đã sử dụng tổng cộng khoảng 2,8 triệu giờ GPU (bao gồm 2,664 triệu giờ tiền đào tạo, 119.000 giờ đào tạo độ dài ngữ cảnh và 5.000 giờ hậu đào tạo) và hoàn thành khoảng 39,7 nghìn tỷ phép tính dấu phẩy động. Lượng tính toán này phù hợp với các yêu cầu lý thuyết để đào tạo một tập dữ liệu gồm 14,8 nghìn tỷ mã thông báo. Nói cách khác, theo kiến trúc DeepSeekMoE+DeepSeekMLA của DeepSeek, sử dụng phương pháp đào tạo và truyền dữ liệu có độ chính xác thấp của FP8 và dự đoán nhiều mã thông báo cùng một lúc, DeepSeek thực sự có thể đạt được chi phí dưới 6 triệu đô la Mỹ. Đây là một con số hợp lý.

5. So với DeepSeek-V3, DeepSeek-R1 có những cải tiến gì?​


Cả mẫu V3 và mẫu R1 đều được phát triển dựa trên V3-Base, phiên bản cơ bản hơn của mẫu V3. So với mô hình V3 (loại 4o), các mô hình dòng R1 (loại o1) thực hiện nhiều hoạt động tự đánh giá và tự khen thưởng khi học tăng cường sau đào tạo hơn.

Trước R1, các mô hình lớn trong ngành thường dựa vào RLHF (học tăng cường dựa trên phản hồi của con người). Mô hình học tăng cường này sử dụng một số lượng lớn các câu hỏi và câu trả lời chất lượng cao do con người viết để hiểu "câu trả lời tốt là gì" và giúp mô hình biết cách đưa ra những lựa chọn khó khăn khi phần thưởng không rõ ràng. Chính việc sử dụng công nghệ này đã giúp GPT-3 phát triển thành GPT-3.5 nhân văn hơn, tạo nên trải nghiệm đáng ngạc nhiên khi ChatGPT được ra mắt vào cuối năm 2022. Tuy nhiên, việc thiếu tiến triển trong GPT cũng có nghĩa là mô hình này đã chạm đến điểm nghẽn.
1738828995656.png

DeepSeek cho biết các mô hình dòng R đã thể hiện khả năng "phản xạ" trong học tăng cường.
Các mô hình dòng R1 loại bỏ phần HF (phản hồi của con người) của RLHF, chỉ để lại RL (học tăng cường) thuần túy. Trong phiên bản đầu tiên, R1-Zero, DeepSeek đã triển khai quy trình học tăng cường sau đây một cách khá triệt để: hai hàm phần thưởng được thiết lập cho mô hình, một là thưởng cho câu trả lời với "kết quả đúng" (sử dụng các công cụ bên ngoài để xác minh tính đúng đắn cuối cùng của câu trả lời), và hàm còn lại là thưởng cho câu trả lời với "quy trình suy nghĩ đúng" (sử dụng một mô hình xác minh nhỏ để đánh giá tính mạch lạc logic của các bước lập luận); mô hình được khuyến khích thử nhiều câu trả lời khác nhau cùng một lúc, sau đó chấm điểm chúng theo hai hàm phần thưởng.

DeepSeek phát hiện ra rằng các câu trả lời do R1-Zero tạo ra, khi tham gia vào quá trình học tăng cường, khó đọc và thường sử dụng hỗn hợp tiếng Trung và tiếng Anh. Tuy nhiên, khi thời gian đào tạo tăng lên, R1-Zero có thể liên tục "tự tiến hóa" và bắt đầu thể hiện các hành vi phức tạp như "phản ánh" và khám phá các cách thay thế để giải quyết vấn đề. Không có hành vi nào trong số này được lập trình rõ ràng.

DeepSeek cho biết "khoảnh khắc aha" này xảy ra ở giữa quá trình đào tạo mô hình. Trong giai đoạn này, DeepSeek-R1-Zero học cách phân bổ nhiều thời gian suy nghĩ hơn bằng cách đánh giá lại cách tiếp cận ban đầu của nó. "Khoảnh khắc này chứng minh sức mạnh và vẻ đẹp của học tăng cường - miễn là có những động cơ phù hợp, mô hình sẽ tự động phát triển các chiến lược giải quyết vấn đề nâng cao". DeepSeek cho biết sau hàng nghìn bước "học tăng cường thuần túy" như vậy, hiệu suất của DeepSeek-R1-Zero trong các tiêu chuẩn lý luận đã ngang bằng với OpenAI-o1-0912.

DeepSeek cho biết trong báo cáo, "Đây là nghiên cứu mở đầu tiên xác minh rằng khả năng suy luận của LLM có thể được thúc đẩy hoàn toàn bởi RL (học tăng cường) mà không cần đến SFT (điều chỉnh có giám sát)."

Tuy nhiên, do mô hình đào tạo học tăng cường thuần túy tập trung quá nhiều vào tính đúng đắn của câu trả lời và bỏ qua các khả năng cơ bản như khả năng ngôn ngữ lưu loát nên văn bản được tạo ra là sự pha trộn giữa tiếng Trung và tiếng Anh. Để đạt được mục đích này, DeepSeek đã thêm một giai đoạn khởi động lạnh - sử dụng hàng nghìn dữ liệu suy nghĩ chuỗi (CoT) để tinh chỉnh mô hình V3-Base. Những dữ liệu này chứa các biểu thức ngôn ngữ chuẩn hóa và các ví dụ lý luận nhiều bước, do đó, mô hình ban đầu có thể nắm vững khả năng tạo ra sự mạch lạc logic; sau đó bắt đầu quá trình học tăng cường, nó đã tạo ra khoảng 600.000 mẫu liên quan đến lý luận và khoảng 200.000 mẫu không liên quan đến lý luận. Sau khi 800.000 dữ liệu mẫu này được sử dụng lại để tinh chỉnh V3-Base, R1 đã thu được. Như đã đề cập trước đó, DeepSeek cũng đã sử dụng 800.000 dữ liệu dựa trên chuỗi suy nghĩ này để tinh chỉnh loạt mô hình nguồn mở Qwen của Alibaba và kết quả cho thấy khả năng lý luận của nó cũng được cải thiện.

6. DeepSeek có giải quyết hoàn toàn vấn đề suy luận không? Điều này có nghĩa là AGI không cần một mô hình mới không?​


Những cải tiến của DeepSeek trong mô hình V3 đều là kỹ thuật và ý nghĩa lớn hơn của bước đột phá này nằm ở việc thay đổi mô hình kinh doanh hiện tại của các mô hình lớn và lệnh trừng phạt chip của Hoa Kỳ đối với Trung Quốc - một số lượng lớn các cải tiến của V3 liên quan đến việc khắc phục tình trạng băng thông bộ nhớ không đủ do sử dụng H800 thay vì H100. Để làm được điều này, DeepSeek thậm chí còn bỏ qua công cụ lập trình CUDA của Nvidia và lập trình lại 20 trong số 132 đơn vị xử lý trên mỗi chip H800 để quản lý cụ thể các giao tiếp giữa các chip.

So sánh mà nói, việc khám phá học tăng cường thuần túy của R1 ít nhất đã đạt đến một mức độ tương đương với OpenAI o1. Hiện tại vẫn chưa rõ liệu công nghệ đằng sau o1 có giống với công nghệ của R1 hay không. OpenAI chưa tiết lộ giải pháp học tăng cường cho mô hình o1 của mình. Cách các công ty mô hình lớn thiết lập chức năng phần thưởng trong học tăng cường luôn rất khác nhau.

Tuy nhiên, không thể nói rằng R1 đã giải quyết hoàn toàn vấn đề lý luận. Ít nhất là khi AI vận hành dựa trên o1 - Operator không thể vận hành nhiều thiết bị điện tử tự do như con người, thì không thể nói rằng cấp độ AI này là trí tuệ nhân tạo nói chung. Hiện tại, về mặt lý thuyết, Operator có thể thực hiện mọi thao tác mà chuột và bàn phím cho phép theo yêu cầu của người dùng : chỉ cần người dùng ra lệnh bằng lời, nó có thể giúp người dùng gọi đồ ăn mang về hoặc tìm lộ trình di chuyển; khi gặp sự cố hoặc lỗi vận hành, nó có thể sử dụng khả năng suy luận do học tăng cường mang lại để tự sửa; khi thực sự không thể giải quyết vấn đề, nó sẽ trả lại quyền điều khiển cho người dùng - giống như xe tự hành, khi AI gặp phải tình huống khó xử không thể đưa ra quyết định, nó sẽ trả lại vô lăng cho người lái. Cũng giống như xe tự lái, “tỷ lệ tiếp quản” này sẽ là một trong những chỉ số để quan sát liệu AI dựa trên học tăng cường có đang tiến triển hay không.

7. Những thành tựu của DeepSeek sẽ ảnh hưởng như thế nào đến tương lai của ngành công nghiệp AI?​


Diễn biến của cổ phiếu công nghệ Hoa Kỳ vào ngày 27/1 ban đầu đã chứng minh quy mô và phạm vi tác động của một số mô hình được DeepSeek phát hành liên tiếp trên thị trường.

Mô hình chi phí thấp của DeepSeek được ra mắt ngay khi Tổng thống Hoa Kỳ Trump công bố dự án cơ sở hạ tầng AI trị giá 500 tỷ đô la, trong đó OpenAI, SoftBank và nhiều công ty khác đã cam kết tham gia. Trước đó, Microsoft đã tuyên bố sẽ đầu tư 80 tỷ đô la vào cơ sở hạ tầng AI vào năm 2025 và Zuckerberg của Meta có kế hoạch đầu tư từ 60 đến 65 tỷ đô la vào chiến lược trí tuệ nhân tạo của công ty vào năm 2025. Mô hình giá rẻ của DeepSeek khiến mọi người bắt đầu nghi ngờ liệu những khoản đầu tư đáng kinh ngạc này có phải là lãng phí hay không. Nếu một mô hình 40 cấp độ có thể được đào tạo chỉ với hàng triệu đô la thay vì hàng trăm triệu đô la, thì nhu cầu về chip GPU cho các mô hình lớn có thể chỉ bằng 1/10 hoặc thậm chí 1/100 mức hiện tại.

Giá cổ phiếu của Nvidia giảm mạnh nhất do hậu quả này, nhưng về lâu dài, công ty chịu ảnh hưởng nặng nề nhất có thể không phải là Nvidia, mà là các công ty khác phát triển các mô hình lớn của riêng họ và thiết lập các mô hình kinh doanh dựa trên các cuộc gọi mô hình. OpenAI, Anthropic, Dark Side of the Moon, ByteDance, v.v. đều nằm trong phạm vi này. Về chi phí suy luận, OpenAI o1 tính phí lần lượt là 15 đô la và 60 đô la cho mỗi triệu mã thông báo đầu vào và đầu ra, trong khi DeepSeek R1 chỉ tính phí lần lượt là 0,55 đô la và 2,19 đô la cho cùng một đầu vào và đầu ra, chỉ bằng khoảng 3% so với mức phí trước. Trước đây, OpenAI tính phí thuê bao hàng tháng cho người dùng mô hình o1 tiên tiến nhất của mình là 200 đô la, và vẫn đang lỗ và có kế hoạch tăng giá. Sự xuất hiện của DeepSeek R1 có thể phá hỏng kế hoạch tăng giá của ChatGPT.

Ngoài ra, một số lượng lớn các công ty người mẫu quy mô lớn của Trung Quốc như ByteDance và Dark Side of the Moon có thể mất đi nguồn tiền quảng cáo đã chi cho việc tăng trưởng người dùng vào năm 2024. Dữ liệu từ công ty giám sát dữ liệu Sensor Tower cho thấy kể từ khi ra mắt vào ngày 11 tháng 1 năm nay, tổng lượt tải xuống ứng dụng DeepSeek đã vượt quá 3 triệu lần, trong đó 80% lượt tải xuống tập trung trong tuần từ ngày 20 tháng 1 đến ngày 26 tháng 1. Nếu duy trì tốc độ tăng trưởng này, DeepSeek sẽ sớm gia nhập hàng ngũ ứng dụng AI với hàng chục triệu người dùng.

Sau khi giá cổ phiếu của công ty giảm gần 17%, Nvidia cho biết trong một tuyên bố rằng kết quả của DeepSeek đã chứng minh nhu cầu thị trường đối với chip Nvidia sẽ nhiều hơn (chứ không phải ít hơn). Tuyên bố này có lý, vì khi đào tạo mô hình và suy luận trở nên rẻ hơn và đòi hỏi ít năng lực tính toán hơn, thì việc thương mại hóa trí tuệ nhân tạo có thể tiến triển nhanh hơn. Ví dụ, một phiên bản nhỏ của R1 có thể chạy trên máy tính gia đình thông thường, điều này sẽ giúp thúc đẩy sự phổ biến và dân chủ hóa các ứng dụng AI. Các công ty như Apple cung cấp thiết bị đầu cuối cho các mô hình lớn sẽ là người chiến thắng. Trong đợt lao dốc của cổ phiếu công nghệ Hoa Kỳ vào ngày 27 tháng 1, Apple là một trong hai công ty công nghệ duy nhất không bị sụp đổ. Công ty còn lại là Amazon, công ty có mảng kinh doanh điện toán đám mây. Công ty này cũng tụt hậu về các mô hình lớn tự phát triển, nhưng có mảng kinh doanh điện toán đám mây cần thiết cho bất kỳ mô hình nào.

So với giai đoạn đào tạo, giai đoạn suy luận sau khi thương mại hóa sẽ tiêu tốn nhiều sức mạnh tính toán hơn gấp nhiều lần. Hơn nữa, cách sử dụng máy tính hiệu quả hơn không có nghĩa là sức mạnh tính toán lớn hơn là vô dụng. Tuy nhiên, trong ngắn hạn, các công ty công nghệ đặt hàng số lượng lớn với Nvidia sẽ trở nên thận trọng hơn.

Tất nhiên, người hưởng lợi nhiều nhất vẫn là người tiêu dùng.

8. Tại sao một công ty đầu tư định lượng lại đầu tư mạnh vào trí tuệ nhân tạo?​

DeepSeek được Liang Wenfeng thành lập vào tháng 12/2023. Trước đó, ông đã thành lập một quỹ đầu cơ định lượng có tên High-Flyer vào năm 2015, sử dụng AI để phân tích dữ liệu tài chính nhằm đưa ra quyết định giao dịch. Năm 2019, Huanfang Quantitative trở thành quỹ đầu cơ định lượng đầu tiên tại Trung Quốc huy động được hơn 100 tỷ nhân dân tệ (khoảng 346 nghìn tỷ đồng).

Mặc dù luôn có những ý kiến cho rằng thị trường tài chính khó lường như thời tiết khó lường, và những người này có thể đúng, nhưng kể từ những năm 1980, đã có một luồng các nhà toán học và nhà khoa học máy tính muốn lập mô hình giá cả và kiếm tiền dựa trên chúng. Trong 30 năm từ 1988 đến 2018, Renaissance Technologies, gã khổng lồ đầu tư định lượng của Mỹ, đã tạo ra tỷ lệ lợi nhuận kép hàng năm là 39,1%, vượt xa các bậc thầy đầu tư truyền thống như Buffett và Soros, những người dựa vào con người để quyết định thời điểm đặt cược.

Các quỹ định lượng này không tìm cách dự đoán mức giá tiếp theo trên thị trường tài chính mà thay vào đó tập trung vào việc tìm kiếm và khám phá các mô hình giá cụ thể trên thị trường. Ví dụ, mô hình "hiệu ứng 24 giờ": Giá thay đổi vào thứ Hai thường là sự tiếp diễn của xu hướng vào thứ Sáu và xu hướng này sẽ đảo ngược vào thứ Ba (hiệu ứng 24 giờ); "hiệu ứng cuối tuần": nếu thị trường cho thấy xu hướng tăng rõ ràng vào thứ Sáu, thì việc mua trước khi giá đóng cửa vào thứ Sáu và bán vào sáng sớm thứ Hai rất có thể sẽ kiếm được tiền; ví dụ, một số tài sản khi tăng giá vào ngày đầu tiên, rất có thể chúng sẽ tiếp tục tăng giá vào ngày thứ hai và ngược lại. Những tín hiệu tài chính dự đoán này đã trở thành các yếu tố giao dịch (chỉ báo) được các quỹ định lượng sử dụng để hướng dẫn đầu tư của họ. Mặc dù biên lợi nhuận tiềm năng không lớn đến vậy, miễn là tần suất giao dịch đủ cao (hoàn toàn ngược lại với những gì đầu tư giá trị ủng hộ), các quỹ định lượng có thể gặt hái được phần đuôi béo bở của thị trường.

Các mô hình lớn rất giỏi trong việc tìm ra các mô hình trong lượng lớn dữ liệu và khả năng này chính xác là điều mà các quỹ định lượng, những quỹ muốn tìm ra các yếu tố giao dịch từ dữ liệu tài chính, mong muốn. Lượng tử hóa ma thuật cũng không phải là ngoại lệ. DeepSeek vẫn chưa đưa ra mô hình đầu tư tài chính tương ứng, nhưng đây chỉ là vấn đề thời gian. #DeepSeek
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top