Chưng cất AI là gì, vì sao từ khóa này nóng lên cùng với DeepSeek?

Bỉ Ngạn Hoa
Bỉ Ngạn Hoa
Phản hồi: 0
Ngành công nghệ và thị trường chứng khoán đã dành phần lớn thời gian trong tuần vừa qua để cố gắng tìm hiểu cách một công ty Trung Quốc nhỏ, tương đối ít người biết đến có thể phát triển một chatbot trí tuệ nhân tạo tinh vi ngang bằng với ChatGPT của Open AI với chi phí chỉ bằng một phần nhỏ.

1738396440038.png

Một câu trả lời khả thi đang được đưa ra trong giới công nghệ là chưng cất, một phương pháp đào tạo AI sử dụng các mô hình "giáo viên" lớn hơn để đào tạo các mô hình "học viên" nhỏ hơn nhưng hoạt động nhanh hơn.

DeepSeek tuyên bố đã đạt được mức hiệu suất tương tự như mô hình o1 của OpenAI với chi phí chỉ bằng một phần nhỏ thông qua "thiết kế mã tối ưu của thuật toán, khuôn khổ và phần cứng".

Điều này đã gây ra một đợt bán tháo mạnh đối với cổ phiếu công nghệ khi các nhà đầu tư cân nhắc liệu cách tiếp cận ngân sách thấp của công ty Trung Quốc có báo hiệu sự kết thúc của cuộc đua đầu tư AI và sự thống trị của các gã khổng lồ công nghệ Mỹ hay không.

Nhưng các câu hỏi sớm nảy sinh, với một số người trong ngành suy đoán rằng DeepSeek đã dựa vào các phát triển của OpenAI.

Những suy đoán như vậy đã được thúc đẩy khi Bloomberg đưa tin rằng Microsoft và OpenAI đã tiến hành một cuộc điều tra về việc liệu DeepSeek có lấy dữ liệu không đúng cách từ OpenAI để đào tạo mô hình của riêng mình hay không. OpenAI đã nói với tờ Financial Times rằng họ đã thấy bằng chứng về chưng cất (distillation), mặc dù họ không công khai bằng chứng đó.

Bản thân chưng cất không phải là một kỹ thuật mới và không nhất thiết phải gây tranh cãi. Minitron và Falcon 3 của Nvidia, được Viện Đổi mới Công nghệ tại UAE phát triển, đều sử dụng kỹ thuật này, có khả năng sử dụng chính các LLM của họ làm giáo viên. Kỹ thuật này đã trở nên ngày càng phổ biến kể từ năm 2024 trong bối cảnh nhu cầu từ các doanh nghiệp muốn sử dụng các mô hình ngôn ngữ lớn (LLM) trong các dịch vụ của họ.

Tuy nhiên, các mô hình LLM lớn "khó xử lý và bạn sẽ cần một số lượng lớn các đơn vị xử lý đồ họa (GPU) để triển khai", một kỹ sư tại một công ty khởi nghiệp AI ở Nhật Bản cho biết.

GPU là lý do chính khiến các hệ thống AI đắt đỏ như vậy. Ví dụ, chip H100 đặc trưng của Nvidia có giá từ 30.000 đến 35.000 USD mỗi chip. Chưng cất cắt giảm đáng kể thời gian và chi phí phát triển, đồng thời tạo ra các mô hình có thể hoạt động nhanh hơn so với các đối tác lớn hơn của chúng.

Vấn đề đối với DeepSeek là liệu mô hình chi phí thấp của họ có dựa nhiều vào sự chưng cất hơn là sự đổi mới hay không.

"Có một câu hỏi về việc liệu họ có thể sử dụng các mô hình ngôn ngữ lớn hiện có để chắt lọc kết quả của mình hay không", Kirk Boodry, một nhà phân tích tại Astris Advisory Japan, nói với Nikkei Asia. "Có vẻ như vấn đề này đang được thảo luận khá nhiều. Mọi người đều nói rằng, 'Tôi không biết có bao nhiêu trong số này thực sự là tiên tiến.'"

Kazuhiro Sugiyama, giám đốc tư vấn tại Omdia, tỏ ra nghi ngờ rằng DeepSeek có thể phá vỡ đáng kể hệ sinh thái AI hiện tại. Ông cho biết tác động của nó là "tạm thời và hạn chế", đồng thời chỉ ra rằng mặc dù chatbot của công ty Trung Quốc cho thấy dấu hiệu cải tiến ấn tượng, ngành công nghiệp vẫn cần xác minh xem nó có thể duy trì được bao nhiêu.

Các nhà phân tích cũng đặt câu hỏi liệu chatbot của Trung Quốc có thực sự được phát triển với một phần nhỏ ngân sách của các đối tác phương Tây hay không.

Boodry từ Astris cho biết "Khi mọi người nói về các con số tiêu đề của [DeepSeek], chẳng hạn như một vài tháng phát triển, [hoặc chi] 6 triệu USD, thì họ đang nói về [mô hình] rất cụ thể này". "Những con số mà mọi người đưa ra có lẽ là quá thấp".

Vào tháng 12, công ty DeepSeek đã công bố một bài báo trong đó đặt con số cho mô hình V3 của mình là 5,6 triệu USD. Con số này không bao gồm các chi phí liên quan đến nghiên cứu và thử nghiệm trước đó. Chi phí đào tạo GPT-4 của OpenAI ước tính vượt quá 100 triệu USD.

Sugiyama cho biết nhiều công ty có thể sẽ tham gia cuộc đua phát triển LLM, nhưng vị thế trên thị trường của những công ty lớn, bao gồm cả OpenAI, có thể sẽ không thay đổi. Ông dự đoán các mô hình AI sẽ dần "phân cực", với các công ty lớn như Microsoft và Google tiếp tục đầu tư vào các mô hình lớn hơn và mạnh hơn để sử dụng trên các dịch vụ của họ, và các công ty nhỏ hơn phát triển các mô hình nhỏ hơn, rẻ hơn và hiệu quả hơn được thiết kế riêng cho các thị trường cụ thể.

Bỏ qua sự cường điệu, các kỹ sư không nghi ngờ rằng DeepSeek đã đạt được điều gì đó xứng đáng được ghi nhận.

Ngay cả khi công ty sử dụng phương pháp chưng cất, thì chỉ riêng điều đó cũng không đủ để phát triển một mô hình hoạt động, theo một kỹ sư. "Nó sẽ cần bí quyết để sử dụng GPU hiệu quả và cũng đưa ra cách thực hiện đào tạo phức tạp", chẳng hạn như kết hợp các mô hình khác nhau để đưa ra câu trả lời tốt hơn.

Một kỹ sư AI khác cho biết ông "không ngạc nhiên" khi một công ty như DeepSeek đột nhiên xuất hiện. "Có một xu hướng lớn là giảm kích thước của mô hình AI. ... Theo thời gian, sẽ có nhiều cách để đạt được điều này."

>> Startup AI Trung Quốc làm đảo lộn chiến lược cấm vận chip của Mỹ

>> Đây là mô hình AI của Trung Quốc đang gây sự hoảng loạn ở thung lũng Silicon

>> Hàng loạt cổ phiếu công nghệ giảm mạnh do DeepSeek gieo rắc nghi ngờ về đầu tư cho AI

>> Nvidia vừa trải qua "ngày mất mát" lớn nhất lịch sử Mỹ

#DeepSeek
 


Đăng nhập một lần thảo luận tẹt ga
Top