Hoàng Anh
Writer
Trong cuộc đua Trí tuệ Nhân tạo (AI) ngày càng khốc liệt, việc bảo vệ tài sản trí tuệ và lợi thế cạnh tranh của các mô hình ngôn ngữ lớn (LLM) đang trở thành ưu tiên hàng đầu. OpenAI, công ty tiên phong với ChatGPT, dường như vừa có một động thái mới nhằm giải quyết vấn đề này: triển khai yêu cầu xác minh danh tính bằng giấy tờ chính phủ (ID verification) đối với các nhà phát triển muốn truy cập vào API của các mô hình AI tiên tiến nhất.
Mặc dù lý do chính thức được OpenAI đưa ra là nhằm ngăn chặn việc lạm dụng API, nhiều nhà quan sát tin rằng mục đích sâu xa hơn là ngăn chặn các đối thủ cạnh tranh, đặc biệt là DeepSeek đến từ Trung Quốc, thu thập (scraping) dữ liệu đầu ra từ các mô hình của OpenAI (như câu trả lời của ChatGPT) để sử dụng làm dữ liệu huấn luyện cho chính các mô hình AI của họ. Kỹ thuật này được gọi là "chưng cất" (distillation) mô hình.
Nghiên cứu chỉ ra sự tương đồng đáng ngờ
Nghi ngờ về việc DeepSeek "chưng cất" mô hình của OpenAI càng có cơ sở khi một nghiên cứu mới từ Copyleaks, công ty chuyên về phát hiện nội dung do AI tạo ra, được công bố. Sử dụng một hệ thống phân tích "dấu vân tay" dựa trên phong cách ngôn ngữ, Copyleaks phát hiện ra rằng có tới khoảng 74% nội dung đầu ra từ mô hình DeepSeek-R1 có thể được phân loại là mang phong cách của OpenAI.
Con số này đặc biệt nổi bật khi so sánh với các mô hình khác được kiểm tra. Mô hình phi-4 của Microsoft và Grok-1 của Elon Musk gần như không cho thấy sự tương đồng (tỷ lệ "không đồng thuận" lần lượt là 99,3% và 100%). Mô hình Mixtral của Mistral (Pháp) có một số điểm tương đồng nhất định, nhưng tỷ lệ của DeepSeek vẫn cao một cách đáng kinh ngạc. Nghiên cứu này cho thấy, ngay cả khi được yêu cầu viết theo các giọng điệu khác nhau, các mô hình AI vẫn để lại những "chữ ký" phong cách riêng biệt có thể truy vết được.
Kỹ thuật "chưng cất" và lo ngại của OpenAI
"Chưng cất" là kỹ thuật phổ biến trong nghiên cứu AI, nơi một mô hình nhỏ hơn (student model) được huấn luyện để bắt chước đầu ra của một mô hình lớn hơn, mạnh mẽ hơn (teacher model). Điều này giúp tạo ra các mô hình nhỏ gọn, hiệu quả hơn mà vẫn giữ được một phần năng lực của mô hình gốc. Tuy nhiên, việc các công ty sử dụng đầu ra từ mô hình độc quyền của đối thủ (như OpenAI) để "chưng cất" mô hình thương mại của mình mà không có sự cho phép rõ ràng là hành vi vi phạm điều khoản dịch vụ và đặt ra vấn đề nghiêm trọng về sở hữu trí tuệ.
Chính OpenAI đã công khai bày tỏ sự quan ngại này vào đầu năm nay, sau khi DeepSeek gây ấn tượng mạnh với các mô hình có hiệu suất lý luận tương đương sản phẩm của họ. OpenAI cho biết họ "đang xem xét những dấu hiệu cho thấy DeepSeek có thể đã không phù hợp khi 'chưng cất' các mô hình của chúng tôi." Bài báo nghiên cứu về R1 của DeepSeek chỉ đề cập đến việc chưng cất từ các mô hình mã nguồn mở và công ty này đã không phản hồi các cáo buộc từ OpenAI.
Rào cản ID và cuộc tranh luận đạo đức
Việc yêu cầu xác minh ID chính phủ để truy cập API được xem là một rào cản kỹ thuật hiệu quả nhằm ngăn chặn việc scraping dữ liệu quy mô lớn để chưng cất mô hình. Nó khiến việc tạo hàng loạt tài khoản ẩn danh để thu thập dữ liệu trở nên khó khăn và tốn kém hơn nhiều cho các đối thủ cạnh tranh.
Tuy nhiên, động thái này của OpenAI cũng làm dấy lên cuộc tranh luận về tính nhất quán và đạo đức. Nhiều nhà phê bình chỉ ra rằng chính OpenAI trong giai đoạn đầu đã xây dựng các mô hình GPT của mình bằng cách thu thập lượng lớn dữ liệu từ khắp nơi trên internet, bao gồm cả nội dung có bản quyền từ các nhà xuất bản, tác giả, nghệ sĩ... thường không có sự đồng ý rõ ràng. Liệu có phải là "đạo đức giả" khi giờ đây OpenAI lại ngăn cản người khác sử dụng đầu ra của mình?
Ông Alon Yamin, CEO của Copyleaks, đưa ra một góc nhìn phân biệt: việc huấn luyện trên nội dung có bản quyền do con người tạo ra mà không xin phép là một vấn đề (liên quan đến bản quyền tác giả), nhưng việc sử dụng đầu ra của một hệ thống AI độc quyền của đối thủ để huấn luyện mô hình cạnh tranh lại là một vấn đề khác, giống như việc giải mã ngược (reverse-engineering) sản phẩm của đối thủ. Ông cho rằng hành vi thứ hai trực tiếp chuyển giao giá trị R&D một cách không công bằng và gây rủi ro cạnh tranh.
Cuộc chiến về dữ liệu huấn luyện và sở hữu trí tuệ trong ngành AI đang ngày càng trở nên gay gắt. Các công cụ như "dấu vân tay" kỹ thuật số của Copyleaks đang mở ra khả năng truy vết nguồn gốc nội dung do AI tạo ra. Động thái yêu cầu xác minh ID của OpenAI có thể chỉ là bước đi đầu tiên trong một cuộc chiến dài hơi nhằm bảo vệ tài sản trí tuệ và duy trì lợi thế trong cuộc đua AI toàn cầu.

Mặc dù lý do chính thức được OpenAI đưa ra là nhằm ngăn chặn việc lạm dụng API, nhiều nhà quan sát tin rằng mục đích sâu xa hơn là ngăn chặn các đối thủ cạnh tranh, đặc biệt là DeepSeek đến từ Trung Quốc, thu thập (scraping) dữ liệu đầu ra từ các mô hình của OpenAI (như câu trả lời của ChatGPT) để sử dụng làm dữ liệu huấn luyện cho chính các mô hình AI của họ. Kỹ thuật này được gọi là "chưng cất" (distillation) mô hình.
Nghiên cứu chỉ ra sự tương đồng đáng ngờ
Nghi ngờ về việc DeepSeek "chưng cất" mô hình của OpenAI càng có cơ sở khi một nghiên cứu mới từ Copyleaks, công ty chuyên về phát hiện nội dung do AI tạo ra, được công bố. Sử dụng một hệ thống phân tích "dấu vân tay" dựa trên phong cách ngôn ngữ, Copyleaks phát hiện ra rằng có tới khoảng 74% nội dung đầu ra từ mô hình DeepSeek-R1 có thể được phân loại là mang phong cách của OpenAI.
Con số này đặc biệt nổi bật khi so sánh với các mô hình khác được kiểm tra. Mô hình phi-4 của Microsoft và Grok-1 của Elon Musk gần như không cho thấy sự tương đồng (tỷ lệ "không đồng thuận" lần lượt là 99,3% và 100%). Mô hình Mixtral của Mistral (Pháp) có một số điểm tương đồng nhất định, nhưng tỷ lệ của DeepSeek vẫn cao một cách đáng kinh ngạc. Nghiên cứu này cho thấy, ngay cả khi được yêu cầu viết theo các giọng điệu khác nhau, các mô hình AI vẫn để lại những "chữ ký" phong cách riêng biệt có thể truy vết được.
Kỹ thuật "chưng cất" và lo ngại của OpenAI
"Chưng cất" là kỹ thuật phổ biến trong nghiên cứu AI, nơi một mô hình nhỏ hơn (student model) được huấn luyện để bắt chước đầu ra của một mô hình lớn hơn, mạnh mẽ hơn (teacher model). Điều này giúp tạo ra các mô hình nhỏ gọn, hiệu quả hơn mà vẫn giữ được một phần năng lực của mô hình gốc. Tuy nhiên, việc các công ty sử dụng đầu ra từ mô hình độc quyền của đối thủ (như OpenAI) để "chưng cất" mô hình thương mại của mình mà không có sự cho phép rõ ràng là hành vi vi phạm điều khoản dịch vụ và đặt ra vấn đề nghiêm trọng về sở hữu trí tuệ.

Chính OpenAI đã công khai bày tỏ sự quan ngại này vào đầu năm nay, sau khi DeepSeek gây ấn tượng mạnh với các mô hình có hiệu suất lý luận tương đương sản phẩm của họ. OpenAI cho biết họ "đang xem xét những dấu hiệu cho thấy DeepSeek có thể đã không phù hợp khi 'chưng cất' các mô hình của chúng tôi." Bài báo nghiên cứu về R1 của DeepSeek chỉ đề cập đến việc chưng cất từ các mô hình mã nguồn mở và công ty này đã không phản hồi các cáo buộc từ OpenAI.
Rào cản ID và cuộc tranh luận đạo đức
Việc yêu cầu xác minh ID chính phủ để truy cập API được xem là một rào cản kỹ thuật hiệu quả nhằm ngăn chặn việc scraping dữ liệu quy mô lớn để chưng cất mô hình. Nó khiến việc tạo hàng loạt tài khoản ẩn danh để thu thập dữ liệu trở nên khó khăn và tốn kém hơn nhiều cho các đối thủ cạnh tranh.
Tuy nhiên, động thái này của OpenAI cũng làm dấy lên cuộc tranh luận về tính nhất quán và đạo đức. Nhiều nhà phê bình chỉ ra rằng chính OpenAI trong giai đoạn đầu đã xây dựng các mô hình GPT của mình bằng cách thu thập lượng lớn dữ liệu từ khắp nơi trên internet, bao gồm cả nội dung có bản quyền từ các nhà xuất bản, tác giả, nghệ sĩ... thường không có sự đồng ý rõ ràng. Liệu có phải là "đạo đức giả" khi giờ đây OpenAI lại ngăn cản người khác sử dụng đầu ra của mình?
Ông Alon Yamin, CEO của Copyleaks, đưa ra một góc nhìn phân biệt: việc huấn luyện trên nội dung có bản quyền do con người tạo ra mà không xin phép là một vấn đề (liên quan đến bản quyền tác giả), nhưng việc sử dụng đầu ra của một hệ thống AI độc quyền của đối thủ để huấn luyện mô hình cạnh tranh lại là một vấn đề khác, giống như việc giải mã ngược (reverse-engineering) sản phẩm của đối thủ. Ông cho rằng hành vi thứ hai trực tiếp chuyển giao giá trị R&D một cách không công bằng và gây rủi ro cạnh tranh.
Cuộc chiến về dữ liệu huấn luyện và sở hữu trí tuệ trong ngành AI đang ngày càng trở nên gay gắt. Các công cụ như "dấu vân tay" kỹ thuật số của Copyleaks đang mở ra khả năng truy vết nguồn gốc nội dung do AI tạo ra. Động thái yêu cầu xác minh ID của OpenAI có thể chỉ là bước đi đầu tiên trong một cuộc chiến dài hơi nhằm bảo vệ tài sản trí tuệ và duy trì lợi thế trong cuộc đua AI toàn cầu.