OpenAI tuyên bố tìm ra cách ngăn chặn DeepSeek "chưng cất" dữ liệu của ChatGPT

Hoàng Anh · 13:01

Trong cuộc đua Trí tuệ Nhân tạo (AI) ngày càng khốc liệt, việc bảo vệ tài sản trí tuệ và lợi thế cạnh tranh của các mô hình ngôn ngữ lớn (LLM) đang trở thành ưu tiên hàng đầu. OpenAI, công ty tiên phong với ChatGPT, dường như vừa có một động thái mới nhằm giải quyết vấn đề này: triển khai yêu cầu xác minh danh tính bằng giấy tờ chính phủ (ID verification) đối với các nhà phát triển muốn truy cập vào API của các mô hình AI tiên tiến nhất.

Mặc dù lý do chính thức được OpenAI đưa ra là nhằm ngăn chặn việc lạm dụng API, nhiều nhà quan sát tin rằng mục đích sâu xa hơn là ngăn chặn các đối thủ cạnh tranh, đặc biệt là DeepSeek đến từ Trung Quốc, thu thập (scraping) dữ liệu đầu ra từ các mô hình của OpenAI (như câu trả lời của ChatGPT) để sử dụng làm dữ liệu huấn luyện cho chính các mô hình AI của họ. Kỹ thuật này được gọi là "chưng cất" (distillation) mô hình.

Nghiên cứu chỉ ra sự tương đồng đáng ngờ

Nghi ngờ về việc DeepSeek "chưng cất" mô hình của OpenAI càng có cơ sở khi một nghiên cứu mới từ Copyleaks, công ty chuyên về phát hiện nội dung do AI tạo ra, được công bố. Sử dụng một hệ thống phân tích "dấu vân tay" dựa trên phong cách ngôn ngữ, Copyleaks phát hiện ra rằng có tới khoảng 74% nội dung đầu ra từ mô hình DeepSeek-R1 có thể được phân loại là mang phong cách của OpenAI.

Con số này đặc biệt nổi bật khi so sánh với các mô hình khác được kiểm tra. Mô hình phi-4 của Microsoft và Grok-1 của Elon Musk gần như không cho thấy sự tương đồng (tỷ lệ "không đồng thuận" lần lượt là 99,3% và 100%). Mô hình Mixtral của Mistral (Pháp) có một số điểm tương đồng nhất định, nhưng tỷ lệ của DeepSeek vẫn cao một cách đáng kinh ngạc. Nghiên cứu này cho thấy, ngay cả khi được yêu cầu viết theo các giọng điệu khác nhau, các mô hình AI vẫn để lại những "chữ ký" phong cách riêng biệt có thể truy vết được.

Kỹ thuật "chưng cất" và lo ngại của OpenAI

"Chưng cất" là kỹ thuật phổ biến trong nghiên cứu AI, nơi một mô hình nhỏ hơn (student model) được huấn luyện để bắt chước đầu ra của một mô hình lớn hơn, mạnh mẽ hơn (teacher model). Điều này giúp tạo ra các mô hình nhỏ gọn, hiệu quả hơn mà vẫn giữ được một phần năng lực của mô hình gốc. Tuy nhiên, việc các công ty sử dụng đầu ra từ mô hình độc quyền của đối thủ (như OpenAI) để "chưng cất" mô hình thương mại của mình mà không có sự cho phép rõ ràng là hành vi vi phạm điều khoản dịch vụ và đặt ra vấn đề nghiêm trọng về sở hữu trí tuệ.

Chính OpenAI đã công khai bày tỏ sự quan ngại này vào đầu năm nay, sau khi DeepSeek gây ấn tượng mạnh với các mô hình có hiệu suất lý luận tương đương sản phẩm của họ. OpenAI cho biết họ "đang xem xét những dấu hiệu cho thấy DeepSeek có thể đã không phù hợp khi 'chưng cất' các mô hình của chúng tôi." Bài báo nghiên cứu về R1 của DeepSeek chỉ đề cập đến việc chưng cất từ các mô hình mã nguồn mở và công ty này đã không phản hồi các cáo buộc từ OpenAI.

Rào cản ID và cuộc tranh luận đạo đức

Việc yêu cầu xác minh ID chính phủ để truy cập API được xem là một rào cản kỹ thuật hiệu quả nhằm ngăn chặn việc scraping dữ liệu quy mô lớn để chưng cất mô hình. Nó khiến việc tạo hàng loạt tài khoản ẩn danh để thu thập dữ liệu trở nên khó khăn và tốn kém hơn nhiều cho các đối thủ cạnh tranh.

Tuy nhiên, động thái này của OpenAI cũng làm dấy lên cuộc tranh luận về tính nhất quán và đạo đức. Nhiều nhà phê bình chỉ ra rằng chính OpenAI trong giai đoạn đầu đã xây dựng các mô hình GPT của mình bằng cách thu thập lượng lớn dữ liệu từ khắp nơi trên internet, bao gồm cả nội dung có bản quyền từ các nhà xuất bản, tác giả, nghệ sĩ... thường không có sự đồng ý rõ ràng. Liệu có phải là "đạo đức giả" khi giờ đây OpenAI lại ngăn cản người khác sử dụng đầu ra của mình?

Ông Alon Yamin, CEO của Copyleaks, đưa ra một góc nhìn phân biệt: việc huấn luyện trên nội dung có bản quyền do con người tạo ra mà không xin phép là một vấn đề (liên quan đến bản quyền tác giả), nhưng việc sử dụng đầu ra của một hệ thống AI độc quyền của đối thủ để huấn luyện mô hình cạnh tranh lại là một vấn đề khác, giống như việc giải mã ngược (reverse-engineering) sản phẩm của đối thủ. Ông cho rằng hành vi thứ hai trực tiếp chuyển giao giá trị R&D một cách không công bằng và gây rủi ro cạnh tranh.

Cuộc chiến về dữ liệu huấn luyện và sở hữu trí tuệ trong ngành AI đang ngày càng trở nên gay gắt. Các công cụ như "dấu vân tay" kỹ thuật số của Copyleaks đang mở ra khả năng truy vết nguồn gốc nội dung do AI tạo ra. Động thái yêu cầu xác minh ID của OpenAI có thể chỉ là bước đi đầu tiên trong một cuộc chiến dài hơi nhằm bảo vệ tài sản trí tuệ và duy trì lợi thế trong cuộc đua AI toàn cầu.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

OpenAI tuyên bố tìm ra cách ngăn chặn DeepSeek "chưng cất" dữ liệu của ChatGPT

Hoàng Anh

Writer

Hoàng Anh

8 lý do học ngoại ngữ có thể trở nên dư thừa trong kỷ nguyên AI

Apple Intelligence bị "cấm cửa" trên lãnh địa Facebook, Instagram, WhatsApp

Cựu chủ tịch Google cảnh báo "ngày tận thế" của lập trình viên: AI thay thế trong 1 năm tới?

70% sinh viên thừa nhận dùng AI để làm bài tập, đồ án: Con số báo động hay tín hiệu của sự thay đổi tất yếu?

ChatGPT đang "đốt" hàng chục triệu USD mỗi năm chỉ vì người dùng "cảm ơn"

Bộ trưởng AI Anh gây sốc: Kêu gọi dùng AI nhưng chưa từng "đụng" AI tạo sinh trong công việc

OpenAI và start-up đua phát triển mô hình lập trình vượt mặt con người, đảo lộn ngành phần mềm

70 năm ngày Einstein qua đời: Vì sao GPS, Laser, Năng lượng hạt nhân đều mang ơn ông?

Sau "vũ khí bí mật", chính phủ Mỹ tiếp tục úp mở về công nghệ siêu việt "bẻ cong không-thời gian".

18 năm nhìn lại Nokia N95: Di sản của chiếc điện thoại định hình khái niệm "nhiều hơn nghe gọi"

Hướng dẫn thực tế từ OpenAI giúp các nhóm kỹ thuật xây dựng agent AI từ đầu đến triển khai

Kính thông minh Huawei mới trình làng biết bạn ngồi sai tư thế rồi đưa lời khuyên, giúp giảm đau cổ vai gáy, bệnh cột sống

OpenAI đang phát triển mạng xã hội giống X (Twitter)

OpenAI ra mắt Codex CLI: Agent nguồn mở viết code tự động trong terminal

Foxconn xây nhà máy rộng 220 sân bóng ở Ấn Độ: Tham vọng biến nơi đây thành "iPhone City" thứ hai thay Trung Quốc

Apple "né" thuế 245% của ông Trump: iPhone bất ngờ được lắp ráp sớm tại vương quốc túc cầu giáo

Đánh giá nổi bật