Bỉ Ngạn Hoa
Writer
Một phòng thí nghiệm AI ít người biết đến ở Trung Quốc đã gây ra sự hoảng loạn khắp Thung lũng Silicon sau khi phát hành các mô hình AI có thể vượt trội hơn các mô hình tốt nhất của Mỹ mặc dù được xây dựng với chi phí rẻ hơn và chip kém mạnh hơn.
DeepSeek, tên phòng thí nghiệm, đã công bố một mô hình ngôn ngữ lớn mã nguồn mở miễn phí vào cuối tháng 12 mà họ cho biết chỉ mất hai tháng và chưa đến 6 triệu USD chi phí xây dựng, sử dụng chip bị cắt giảm hiệu năng từ Nvidia có tên là H800.
Những phát triển mới của DeepSeek đã làm dấy lên hồi chuông cảnh báo về việc liệu vị thế dẫn đầu toàn cầu của Mỹ về trí tuệ nhân tạo có đang bị thu hẹp hay không và đặt ra câu hỏi về khoản chi tiêu khổng lồ của các công ty công nghệ lớn vào việc xây dựng các mô hình AI và trung tâm dữ liệu.
Theo hãng tin CNBC, trong một loạt các bài kiểm tra chuẩn của bên thứ ba, mô hình của DeepSeek đã vượt trội hơn Llama 3.1 của Meta, GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic về độ chính xác, từ giải quyết vấn đề phức tạp đến toán học và mã hóa.
DeepSeek vừa phát hành r1, một mô hình lý luận cũng vượt trội hơn o1 mới nhất của OpenAI trong nhiều bài kiểm tra của bên thứ ba.
"Khi xem mô hình mới của DeepSeek, nó thực sự ấn tượng về cách họ thực sự thực hiện hiệu quả một mô hình nguồn mở thực hiện tính toán thời gian suy luận này và hiệu quả tính toán siêu cao", CEO của Microsoft Satya Nadella phát biểu tại Diễn đàn Kinh tế Thế giới ở Davos, Thụy Sĩ. "Chúng ta nên xem xét những diễn biến ở Trung Quốc một cách rất, rất nghiêm túc".
DeepSeek phải thích ứng với các hạn chế nghiêm ngặt về chất bán dẫn mà chính phủ Mỹ Kỳ áp đặt đối với Trung Quốc, cắt đứt quyền tiếp cận của quốc gia này với các chip mạnh nhất như H100 của Nvidia. Những tiến bộ mới nhất cho thấy DeepSeek đã tìm ra cách để vượt những giới hạn về chip xử lý và cho thấy các biện pháp kiểm soát xuất khẩu không phải là cách để Mỹ có thể ngăn chặn hoàn toàn những tiến bộ công nghệ của Trung Quốc.
"Họ có thể sử dụng một mô hình lớn thực sự tốt và sử dụng một quy trình gọi là chưng cất", Chetan Puttagunta, Đối tác chung của Benchmark, cho biết. “Về cơ bản, bạn sử dụng một mô hình rất lớn để giúp mô hình nhỏ trở nên thông minh hơn ở việc bạn muốn nó trở nên thông minh hơn. Thực tế, điều đó rất tiết kiệm chi phí”.
Người ta biết rất ít về phòng thí nghiệm và người sáng lập của DeepSeek là Liang WenFeng. DeepSeek được thành lập từ một quỹ đầu cơ của Trung Quốc có tên là High-Flyer Quant, quản lý khoảng 8 tỷ USD tài sản, theo các báo cáo của phương tiện truyền thông.
Nhưng DeepSeek không phải là công ty Trung Quốc duy nhất đang thâm nhập vào thị trường này.
Nhà nghiên cứu AI hàng đầu Kai-Fu Lee cho biết công ty khởi nghiệp 01.ai của ông chỉ được đào tạo bằng 3 triệu USD. Gần đây, công ty mẹ của TikTok là ByteDance đã phát hành bản cập nhật cho mô hình của mình, tuyên bố rằng nó vượt trội hơn o1 của OpenAI trong một bài kiểm tra chuẩn quan trọng.
“Sự cần thiết là mẹ của sáng chế”, Aravind Srinivas, CEO của Perplexity cho biết. “Vì họ phải tìm ra giải pháp thay thế, nên cuối cùng họ đã xây dựng được thứ gì đó hiệu quả hơn nhiều”.
#DeepSeek
DeepSeek, tên phòng thí nghiệm, đã công bố một mô hình ngôn ngữ lớn mã nguồn mở miễn phí vào cuối tháng 12 mà họ cho biết chỉ mất hai tháng và chưa đến 6 triệu USD chi phí xây dựng, sử dụng chip bị cắt giảm hiệu năng từ Nvidia có tên là H800.
Những phát triển mới của DeepSeek đã làm dấy lên hồi chuông cảnh báo về việc liệu vị thế dẫn đầu toàn cầu của Mỹ về trí tuệ nhân tạo có đang bị thu hẹp hay không và đặt ra câu hỏi về khoản chi tiêu khổng lồ của các công ty công nghệ lớn vào việc xây dựng các mô hình AI và trung tâm dữ liệu.
Theo hãng tin CNBC, trong một loạt các bài kiểm tra chuẩn của bên thứ ba, mô hình của DeepSeek đã vượt trội hơn Llama 3.1 của Meta, GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic về độ chính xác, từ giải quyết vấn đề phức tạp đến toán học và mã hóa.
DeepSeek vừa phát hành r1, một mô hình lý luận cũng vượt trội hơn o1 mới nhất của OpenAI trong nhiều bài kiểm tra của bên thứ ba.
"Khi xem mô hình mới của DeepSeek, nó thực sự ấn tượng về cách họ thực sự thực hiện hiệu quả một mô hình nguồn mở thực hiện tính toán thời gian suy luận này và hiệu quả tính toán siêu cao", CEO của Microsoft Satya Nadella phát biểu tại Diễn đàn Kinh tế Thế giới ở Davos, Thụy Sĩ. "Chúng ta nên xem xét những diễn biến ở Trung Quốc một cách rất, rất nghiêm túc".
DeepSeek phải thích ứng với các hạn chế nghiêm ngặt về chất bán dẫn mà chính phủ Mỹ Kỳ áp đặt đối với Trung Quốc, cắt đứt quyền tiếp cận của quốc gia này với các chip mạnh nhất như H100 của Nvidia. Những tiến bộ mới nhất cho thấy DeepSeek đã tìm ra cách để vượt những giới hạn về chip xử lý và cho thấy các biện pháp kiểm soát xuất khẩu không phải là cách để Mỹ có thể ngăn chặn hoàn toàn những tiến bộ công nghệ của Trung Quốc.
"Họ có thể sử dụng một mô hình lớn thực sự tốt và sử dụng một quy trình gọi là chưng cất", Chetan Puttagunta, Đối tác chung của Benchmark, cho biết. “Về cơ bản, bạn sử dụng một mô hình rất lớn để giúp mô hình nhỏ trở nên thông minh hơn ở việc bạn muốn nó trở nên thông minh hơn. Thực tế, điều đó rất tiết kiệm chi phí”.
Người ta biết rất ít về phòng thí nghiệm và người sáng lập của DeepSeek là Liang WenFeng. DeepSeek được thành lập từ một quỹ đầu cơ của Trung Quốc có tên là High-Flyer Quant, quản lý khoảng 8 tỷ USD tài sản, theo các báo cáo của phương tiện truyền thông.
Nhưng DeepSeek không phải là công ty Trung Quốc duy nhất đang thâm nhập vào thị trường này.
Nhà nghiên cứu AI hàng đầu Kai-Fu Lee cho biết công ty khởi nghiệp 01.ai của ông chỉ được đào tạo bằng 3 triệu USD. Gần đây, công ty mẹ của TikTok là ByteDance đã phát hành bản cập nhật cho mô hình của mình, tuyên bố rằng nó vượt trội hơn o1 của OpenAI trong một bài kiểm tra chuẩn quan trọng.
“Sự cần thiết là mẹ của sáng chế”, Aravind Srinivas, CEO của Perplexity cho biết. “Vì họ phải tìm ra giải pháp thay thế, nên cuối cùng họ đã xây dựng được thứ gì đó hiệu quả hơn nhiều”.
>> Startup AI Trung Quốc làm đảo lộn chiến lược cấm vận chip của Mỹ
#DeepSeek