Cộng đồng trí tuệ nhân tạo (AI) đang vô cùng phấn khích về DeepSeek-R1, một mô hình nguồn mở mới do công ty khởi nghiệp DeepSeek của Trung Quốc phát triển.
Được phát hành vào ngày 20 tháng 1, ứng dụng này đã nhanh chóng vươn lên vị trí đầu bảng xếp hạng ứng dụng miễn phí trên cửa hàng ứng dụng của Apple vào thứ Hai, vượt qua ChatGPT của OpenAI.
Theo DeepSeek, trong các nhiệm vụ như toán học, mã hóa và suy luận ngôn ngữ tự nhiên, hiệu suất của mô hình này tương đương với các mô hình hàng đầu từ những công ty lớn như OpenAI nhưng chỉ bằng một phần nhỏ về tiền mặt và sức mạnh tính toán so với các đối thủ cạnh tranh.
Sau đây là những gì DeepSeek đã làm và lý do tại sao nó lại gây chấn động ngành công nghiệp AI.
DEEPSEEK LÀ GÌ?
Có tên chính thức là Công ty TNHH Nghiên cứu Công nghệ Cơ bản Trí tuệ Nhân tạo DeepSeek, công ty được thành lập vào tháng 7 năm 2023. Là một công ty khởi nghiệp công nghệ sáng tạo, DeepSeek chuyên phát triển các mô hình ngôn ngữ lớn (LLM) tiên tiến và các công nghệ liên quan.
Kể từ khi mô hình đầu tiên "DeepSeek LLM" được phát hành vào tháng 1 năm ngoái, công ty đã trải qua nhiều vòng lặp lại. Vào tháng 12, công ty khởi nghiệp đã ra mắt LLM nguồn mở "V3", vượt qua tất cả các LLM nguồn mở của Meta và cạnh tranh với GPT4-o nguồn đóng của OpenAI, theo các báo cáo của phương tiện truyền thông Hoa Kỳ.
Mô hình R1 vừa được phát hành đã đạt được một bước đột phá quan trọng về công nghệ -- sử dụng phương pháp học sâu thuần túy để cho phép AI tự động xuất hiện với khả năng suy luận.
Không giống như các phương pháp truyền thống như Chain-of-Thought (CoT) và Supervisory Fine-Tuning (SFT), DeepSeek đã tạo nên sự khác biệt trong ngành AI bằng cách áp dụng Reinforcement Learning (RL) làm phương pháp đào tạo cốt lõi.
Trong khi CoT và SFT dựa vào lý luận từng bước và lượng lớn dữ liệu được gắn nhãn, RL cho phép các mô hình học thông qua cơ chế tương tác và phần thưởng, khiến nó phù hợp hơn với các tác vụ phức tạp và năng động.
Việc áp dụng RL đã cho phép công ty khởi nghiệp này nâng cao khả năng lý luận, khả năng thích ứng và hiệu quả của các mô hình, giúp công ty trở thành người đi đầu trong lĩnh vực này.
Khi được hỏi về ý nghĩa của "DeepSeek", chatbot R1 mới nhất của công ty đã trả lời: "Cái tên phản ánh sứ mệnh của công ty là khám phá sâu sắc và phát triển các công nghệ nền tảng của AI, nhằm mục đích mở rộng ranh giới của đổi mới và ứng dụng AI".
"LỚN HƠN KHÔNG CÒN LÚC NÀO LUÔN THÔNG MINH HƠN"
Theo báo cáo kỹ thuật của model V3, chi phí sản xuất của DeepSeek vào khoảng 5,57 triệu đô la Mỹ, khiến nó trở thành loại LLM có chi phí thấp nhất.
Nhà kinh tế học nổi tiếng người Mỹ Jeffrey Sachs, giáo sư và giám đốc Trung tâm Phát triển Bền vững tại Đại học Columbia, nói với Tân Hoa Xã rằng bước đột phá của DeepSeek "cho thấy khả năng phát triển AI tiên tiến với chi phí thấp hơn nhiều so với những gì người ta vẫn tin tưởng rộng rãi ở Hoa Kỳ cho đến ngày hôm qua".
Andrej Karpathy, thành viên sáng lập của OpenAI, đã đăng trên X rằng DeepSeek-V3 "làm cho việc đó trở nên dễ dàng hơn ngày nay với bản phát hành mở của LLM cấp độ biên giới được đào tạo với ngân sách không tưởng (2.048 GPU trong 2 tháng, 6 triệu đô la)".
So với các mô hình nổi tiếng khác, DeepSeek đã đạt được mức giảm đáng kể.
Marc Andreessen, một nhà đầu tư công nghệ nổi tiếng, cho biết chi phí này "hoàn toàn trái ngược với hàng trăm triệu, nếu không muốn nói là hàng tỷ, mà các công ty Hoa Kỳ thường đầu tư vào các công nghệ tương tự", đồng thời mô tả R1 của DeepSeek là "một trong những đột phá đáng kinh ngạc nhất" mà ông từng thấy.
Sự phát triển của ngành công nghiệp AI từ lâu đã dựa vào việc tích lũy sức mạnh tính toán. Mô hình DeepSeek tiết kiệm chi phí có thể làm đảo lộn bối cảnh AI.
Ca ngợi Báo cáo kỹ thuật DeepSeek-V3 là "rất hay và chi tiết", Karpathy cho biết báo cáo này rất đáng để đọc.
Ngân hàng đầu tư và nhà cung cấp dịch vụ tài chính Hoa Kỳ Morgan Stanley tin rằng DeepSeek chứng minh một con đường thay thế để đào tạo mô hình hiệu quả hơn so với cuộc chạy đua hiện tại giữa các công ty cung cấp dịch vụ siêu quy mô bằng cách tăng đáng kể chất lượng dữ liệu và cải thiện kiến trúc mô hình.
"Lớn hơn không phải lúc nào cũng đồng nghĩa với thông minh hơn", báo cáo cho biết.
MÔ HÌNH MÃ NGUỒN MỞ
Giám đốc điều hành Microsoft Satya Nadella cho biết: "Khi xem mô hình DeepSeek mới, thật sự rất ấn tượng về cách họ thực sự tạo ra một mô hình nguồn mở có khả năng tính toán theo thời gian suy luận và có hiệu suất tính toán siêu việt".
Mã nguồn mở cho phép các nhà nghiên cứu, nhà phát triển và người dùng truy cập vào mã cơ bản của mô hình và "trọng số" của nó - các tham số xác định cách mô hình xử lý thông tin - cho phép họ sử dụng, sửa đổi hoặc cải tiến mô hình cho phù hợp với nhu cầu của họ.
DeepSeek đã được hưởng lợi rất nhiều từ các nguyên tắc nguồn mở và thể hiện cam kết mạnh mẽ trong việc chia sẻ kiến thức và đóng góp vào sự tiến bộ chung của công nghệ.
Nhà khoa học AI hàng đầu của Meta, Yann LeCun cho biết: "Họ đã đưa ra những ý tưởng mới và xây dựng chúng dựa trên công trình của những người khác. Vì công trình của họ được công bố và mã nguồn mở nên mọi người đều có thể hưởng lợi từ nó".
"Đó chính là sức mạnh của nghiên cứu mở và nguồn mở", LeCun nói thêm.
Đồng tình với LeCun, nhà kinh tế học người Mỹ Sachs cho biết, "Mô hình kinh doanh và phát triển của DeepSeek là mã nguồn mở, đây là mô hình hấp dẫn và thành công cho khoa học, công nghệ và kinh doanh".
Trong khi đối tác của DeepSeek tại Hoa Kỳ, OpenAI, ban đầu bắt đầu là một tổ chức nguồn mở nhưng sau đó chuyển sang mô hình nguồn đóng, DeepSeek lại đi theo một con đường khác.
Nhấn mạnh tầm quan trọng của việc thúc đẩy sự hợp tác và đổi mới thông qua các nguyên tắc nguồn mở, Liang Wenfeng, người sáng lập DeepSeek, cho biết việc xây dựng một hệ sinh thái công nghệ mạnh mẽ là ưu tiên hàng đầu.
"Chúng tôi sẽ không chọn nguồn đóng", Liang nói rõ lập trường của công ty. #DeepSeek
Nguồn: Tân Hoa xã
Được phát hành vào ngày 20 tháng 1, ứng dụng này đã nhanh chóng vươn lên vị trí đầu bảng xếp hạng ứng dụng miễn phí trên cửa hàng ứng dụng của Apple vào thứ Hai, vượt qua ChatGPT của OpenAI.
Theo DeepSeek, trong các nhiệm vụ như toán học, mã hóa và suy luận ngôn ngữ tự nhiên, hiệu suất của mô hình này tương đương với các mô hình hàng đầu từ những công ty lớn như OpenAI nhưng chỉ bằng một phần nhỏ về tiền mặt và sức mạnh tính toán so với các đối thủ cạnh tranh.
Sau đây là những gì DeepSeek đã làm và lý do tại sao nó lại gây chấn động ngành công nghiệp AI.
DEEPSEEK LÀ GÌ?
Có tên chính thức là Công ty TNHH Nghiên cứu Công nghệ Cơ bản Trí tuệ Nhân tạo DeepSeek, công ty được thành lập vào tháng 7 năm 2023. Là một công ty khởi nghiệp công nghệ sáng tạo, DeepSeek chuyên phát triển các mô hình ngôn ngữ lớn (LLM) tiên tiến và các công nghệ liên quan.
Kể từ khi mô hình đầu tiên "DeepSeek LLM" được phát hành vào tháng 1 năm ngoái, công ty đã trải qua nhiều vòng lặp lại. Vào tháng 12, công ty khởi nghiệp đã ra mắt LLM nguồn mở "V3", vượt qua tất cả các LLM nguồn mở của Meta và cạnh tranh với GPT4-o nguồn đóng của OpenAI, theo các báo cáo của phương tiện truyền thông Hoa Kỳ.
Mô hình R1 vừa được phát hành đã đạt được một bước đột phá quan trọng về công nghệ -- sử dụng phương pháp học sâu thuần túy để cho phép AI tự động xuất hiện với khả năng suy luận.
Không giống như các phương pháp truyền thống như Chain-of-Thought (CoT) và Supervisory Fine-Tuning (SFT), DeepSeek đã tạo nên sự khác biệt trong ngành AI bằng cách áp dụng Reinforcement Learning (RL) làm phương pháp đào tạo cốt lõi.
Trong khi CoT và SFT dựa vào lý luận từng bước và lượng lớn dữ liệu được gắn nhãn, RL cho phép các mô hình học thông qua cơ chế tương tác và phần thưởng, khiến nó phù hợp hơn với các tác vụ phức tạp và năng động.
Việc áp dụng RL đã cho phép công ty khởi nghiệp này nâng cao khả năng lý luận, khả năng thích ứng và hiệu quả của các mô hình, giúp công ty trở thành người đi đầu trong lĩnh vực này.
Khi được hỏi về ý nghĩa của "DeepSeek", chatbot R1 mới nhất của công ty đã trả lời: "Cái tên phản ánh sứ mệnh của công ty là khám phá sâu sắc và phát triển các công nghệ nền tảng của AI, nhằm mục đích mở rộng ranh giới của đổi mới và ứng dụng AI".
"LỚN HƠN KHÔNG CÒN LÚC NÀO LUÔN THÔNG MINH HƠN"
Theo báo cáo kỹ thuật của model V3, chi phí sản xuất của DeepSeek vào khoảng 5,57 triệu đô la Mỹ, khiến nó trở thành loại LLM có chi phí thấp nhất.
Nhà kinh tế học nổi tiếng người Mỹ Jeffrey Sachs, giáo sư và giám đốc Trung tâm Phát triển Bền vững tại Đại học Columbia, nói với Tân Hoa Xã rằng bước đột phá của DeepSeek "cho thấy khả năng phát triển AI tiên tiến với chi phí thấp hơn nhiều so với những gì người ta vẫn tin tưởng rộng rãi ở Hoa Kỳ cho đến ngày hôm qua".
Andrej Karpathy, thành viên sáng lập của OpenAI, đã đăng trên X rằng DeepSeek-V3 "làm cho việc đó trở nên dễ dàng hơn ngày nay với bản phát hành mở của LLM cấp độ biên giới được đào tạo với ngân sách không tưởng (2.048 GPU trong 2 tháng, 6 triệu đô la)".
So với các mô hình nổi tiếng khác, DeepSeek đã đạt được mức giảm đáng kể.
Marc Andreessen, một nhà đầu tư công nghệ nổi tiếng, cho biết chi phí này "hoàn toàn trái ngược với hàng trăm triệu, nếu không muốn nói là hàng tỷ, mà các công ty Hoa Kỳ thường đầu tư vào các công nghệ tương tự", đồng thời mô tả R1 của DeepSeek là "một trong những đột phá đáng kinh ngạc nhất" mà ông từng thấy.
Sự phát triển của ngành công nghiệp AI từ lâu đã dựa vào việc tích lũy sức mạnh tính toán. Mô hình DeepSeek tiết kiệm chi phí có thể làm đảo lộn bối cảnh AI.
Ca ngợi Báo cáo kỹ thuật DeepSeek-V3 là "rất hay và chi tiết", Karpathy cho biết báo cáo này rất đáng để đọc.
Ngân hàng đầu tư và nhà cung cấp dịch vụ tài chính Hoa Kỳ Morgan Stanley tin rằng DeepSeek chứng minh một con đường thay thế để đào tạo mô hình hiệu quả hơn so với cuộc chạy đua hiện tại giữa các công ty cung cấp dịch vụ siêu quy mô bằng cách tăng đáng kể chất lượng dữ liệu và cải thiện kiến trúc mô hình.
"Lớn hơn không phải lúc nào cũng đồng nghĩa với thông minh hơn", báo cáo cho biết.
MÔ HÌNH MÃ NGUỒN MỞ
Giám đốc điều hành Microsoft Satya Nadella cho biết: "Khi xem mô hình DeepSeek mới, thật sự rất ấn tượng về cách họ thực sự tạo ra một mô hình nguồn mở có khả năng tính toán theo thời gian suy luận và có hiệu suất tính toán siêu việt".
Mã nguồn mở cho phép các nhà nghiên cứu, nhà phát triển và người dùng truy cập vào mã cơ bản của mô hình và "trọng số" của nó - các tham số xác định cách mô hình xử lý thông tin - cho phép họ sử dụng, sửa đổi hoặc cải tiến mô hình cho phù hợp với nhu cầu của họ.
DeepSeek đã được hưởng lợi rất nhiều từ các nguyên tắc nguồn mở và thể hiện cam kết mạnh mẽ trong việc chia sẻ kiến thức và đóng góp vào sự tiến bộ chung của công nghệ.
Nhà khoa học AI hàng đầu của Meta, Yann LeCun cho biết: "Họ đã đưa ra những ý tưởng mới và xây dựng chúng dựa trên công trình của những người khác. Vì công trình của họ được công bố và mã nguồn mở nên mọi người đều có thể hưởng lợi từ nó".
"Đó chính là sức mạnh của nghiên cứu mở và nguồn mở", LeCun nói thêm.
Đồng tình với LeCun, nhà kinh tế học người Mỹ Sachs cho biết, "Mô hình kinh doanh và phát triển của DeepSeek là mã nguồn mở, đây là mô hình hấp dẫn và thành công cho khoa học, công nghệ và kinh doanh".
Trong khi đối tác của DeepSeek tại Hoa Kỳ, OpenAI, ban đầu bắt đầu là một tổ chức nguồn mở nhưng sau đó chuyển sang mô hình nguồn đóng, DeepSeek lại đi theo một con đường khác.
Nhấn mạnh tầm quan trọng của việc thúc đẩy sự hợp tác và đổi mới thông qua các nguyên tắc nguồn mở, Liang Wenfeng, người sáng lập DeepSeek, cho biết việc xây dựng một hệ sinh thái công nghệ mạnh mẽ là ưu tiên hàng đầu.
"Chúng tôi sẽ không chọn nguồn đóng", Liang nói rõ lập trường của công ty. #DeepSeek
Nguồn: Tân Hoa xã