Khánh Vân
Writer
Một nghiên cứu mới đây đã làm dấy lên những nghi vấn về tính độc lập và nguồn gốc dữ liệu đào tạo của mô hình ngôn ngữ AI DeepSeek (Trung Quốc), khi phát hiện ra sự tương đồng đáng kinh ngạc về phong cách văn bản giữa DeepSeek và ChatGPT của OpenAI.
Copyleaks Phát Hiện Sự Tương Đồng 'Bất Thường'
Nghiên cứu, được công bố trên arXiv.org vào ngày 3/3/2025, do Copyleaks, một công ty chuyên về so sánh và phát hiện đạo văn, thực hiện. Copyleaks đã sử dụng công nghệ sàng lọc và bộ phân loại thuật toán để phân tích "dấu vân tay" phong cách văn bản của nhiều mô hình ngôn ngữ lớn (LLM) khác nhau, bao gồm OpenAI (ChatGPT), Claude, Google Gemini, Meta Llama và DeepSeek.
Kết quả cho thấy, văn bản do hầu hết các mô hình tạo ra đều có thể dễ dàng phân biệt được, thể hiện phong cách riêng biệt. Tuy nhiên, phần lớn văn bản do DeepSeek tạo ra lại được thuật toán của Copyleaks phân loại là "do các mô hình của OpenAI tạo ra". Cụ thể, mức độ tương đồng về phong cách lên tới 74,2%.
Shai Nisan, Giám đốc khoa học dữ liệu tại Copyleaks, ví von phương pháp này với việc một chuyên gia về chữ viết tay cố gắng xác định tác giả của một bản thảo bằng cách so sánh với các mẫu chữ viết tay khác nhau.
"Trong trường hợp này, kết quả thật đáng kinh ngạc và cũng mang nhiều ý nghĩa," Nisan nói với Forbes. "Có điểm tương đồng lớn về phong cách giữa DeepSeek và OpenAI, điều không tìm thấy trong các mô hình được kiểm tra khác."
Nghi Vấn Về Nguồn Gốc Dữ Liệu Đào Tạo và Vi Phạm Bản Quyền
Kết quả nghiên cứu đặt ra câu hỏi lớn về cách DeepSeek được đào tạo và liệu mô hình này có "học lỏm" từ đầu ra của ChatGPT hay không. Mặc dù sự tương đồng về phong cách chưa thể khẳng định chắc chắn DeepSeek là một sản phẩm "đạo nhái", nhưng nó đã làm dấy lên những nghi ngờ về quá trình phát triển của mô hình này.
Nisan nhấn mạnh, nếu DeepSeek thực sự sử dụng văn bản do OpenAI tạo ra để đào tạo mà không có sự cho phép, thì điều này sẽ gây ra những tác động sâu sắc đến vấn đề quyền sở hữu trí tuệ và đặt ra những thách thức lớn cho việc quản lý và phát triển AI trong tương lai.
Tính Minh Bạch Trong Đào Tạo AI: Vấn Đề Cấp Bách
Vụ việc của DeepSeek và OpenAI một lần nữa cho thấy sự thiếu minh bạch trong dữ liệu đào tạo AI là một vấn đề cấp bách cần được giải quyết. Các cơ quan quản lý có thể sẽ xem xét yêu cầu các công ty AI công khai thông tin về các tập dữ liệu và đầu ra mô hình được sử dụng để đào tạo, nhằm đảm bảo tính minh bạch và tuân thủ các quy định về bản quyền.
Mặc dù các mô hình AI có thể hội tụ về phong cách theo thời gian nếu được đào tạo trên các tập dữ liệu chồng chéo, Nisan cho rằng phương pháp của Copyleaks được thiết kế đặc biệt để phát hiện những khác biệt tinh tế về phong cách. Do đó, sự tương đồng giữa DeepSeek và OpenAI không chỉ đơn thuần là do trùng lặp dữ liệu, mà có thể liên quan đến cấu trúc hoặc quy trình đào tạo của mô hình.
DeepSeek Từng Tự Nhận Là ChatGPT
Cuối năm 2024, mô hình V3 của DeepSeek đã từng gây xôn xao khi tự nhận mình là ChatGPT trong các truy vấn. Thử nghiệm của TechCrunch và chia sẻ của nhiều người dùng trên mạng xã hội cho thấy, DeepSeek V3 đã khẳng định mình là phiên bản GPT-4 của OpenAI.
Một số ý kiến cho rằng DeepSeek có thể đã sử dụng kỹ thuật "chưng cất" (distillation) kiến thức từ các mô hình lớn hơn. Vào tháng 1/2025, OpenAI đã phát hiện dấu hiệu "chưng cất" mà họ nghi ngờ từ DeepSeek. "Chưng cất" là một kỹ thuật phổ biến trong lĩnh vực AI, cho phép các mô hình nhỏ hơn đạt được hiệu suất tương đương với các mô hình lớn hơn trong các tác vụ cụ thể, bằng cách "học" từ đầu ra của mô hình lớn. Tuy nhiên, việc sử dụng kỹ thuật này có thể vi phạm điều khoản dịch vụ của OpenAI nếu không được phép.
Hiện tại, cả DeepSeek và OpenAI đều chưa đưa ra bình luận chính thức về nghiên cứu của Copyleaks.

Copyleaks Phát Hiện Sự Tương Đồng 'Bất Thường'
Nghiên cứu, được công bố trên arXiv.org vào ngày 3/3/2025, do Copyleaks, một công ty chuyên về so sánh và phát hiện đạo văn, thực hiện. Copyleaks đã sử dụng công nghệ sàng lọc và bộ phân loại thuật toán để phân tích "dấu vân tay" phong cách văn bản của nhiều mô hình ngôn ngữ lớn (LLM) khác nhau, bao gồm OpenAI (ChatGPT), Claude, Google Gemini, Meta Llama và DeepSeek.
Kết quả cho thấy, văn bản do hầu hết các mô hình tạo ra đều có thể dễ dàng phân biệt được, thể hiện phong cách riêng biệt. Tuy nhiên, phần lớn văn bản do DeepSeek tạo ra lại được thuật toán của Copyleaks phân loại là "do các mô hình của OpenAI tạo ra". Cụ thể, mức độ tương đồng về phong cách lên tới 74,2%.

Shai Nisan, Giám đốc khoa học dữ liệu tại Copyleaks, ví von phương pháp này với việc một chuyên gia về chữ viết tay cố gắng xác định tác giả của một bản thảo bằng cách so sánh với các mẫu chữ viết tay khác nhau.
"Trong trường hợp này, kết quả thật đáng kinh ngạc và cũng mang nhiều ý nghĩa," Nisan nói với Forbes. "Có điểm tương đồng lớn về phong cách giữa DeepSeek và OpenAI, điều không tìm thấy trong các mô hình được kiểm tra khác."
Nghi Vấn Về Nguồn Gốc Dữ Liệu Đào Tạo và Vi Phạm Bản Quyền
Kết quả nghiên cứu đặt ra câu hỏi lớn về cách DeepSeek được đào tạo và liệu mô hình này có "học lỏm" từ đầu ra của ChatGPT hay không. Mặc dù sự tương đồng về phong cách chưa thể khẳng định chắc chắn DeepSeek là một sản phẩm "đạo nhái", nhưng nó đã làm dấy lên những nghi ngờ về quá trình phát triển của mô hình này.
Nisan nhấn mạnh, nếu DeepSeek thực sự sử dụng văn bản do OpenAI tạo ra để đào tạo mà không có sự cho phép, thì điều này sẽ gây ra những tác động sâu sắc đến vấn đề quyền sở hữu trí tuệ và đặt ra những thách thức lớn cho việc quản lý và phát triển AI trong tương lai.

Tính Minh Bạch Trong Đào Tạo AI: Vấn Đề Cấp Bách
Vụ việc của DeepSeek và OpenAI một lần nữa cho thấy sự thiếu minh bạch trong dữ liệu đào tạo AI là một vấn đề cấp bách cần được giải quyết. Các cơ quan quản lý có thể sẽ xem xét yêu cầu các công ty AI công khai thông tin về các tập dữ liệu và đầu ra mô hình được sử dụng để đào tạo, nhằm đảm bảo tính minh bạch và tuân thủ các quy định về bản quyền.
Mặc dù các mô hình AI có thể hội tụ về phong cách theo thời gian nếu được đào tạo trên các tập dữ liệu chồng chéo, Nisan cho rằng phương pháp của Copyleaks được thiết kế đặc biệt để phát hiện những khác biệt tinh tế về phong cách. Do đó, sự tương đồng giữa DeepSeek và OpenAI không chỉ đơn thuần là do trùng lặp dữ liệu, mà có thể liên quan đến cấu trúc hoặc quy trình đào tạo của mô hình.

DeepSeek Từng Tự Nhận Là ChatGPT
Cuối năm 2024, mô hình V3 của DeepSeek đã từng gây xôn xao khi tự nhận mình là ChatGPT trong các truy vấn. Thử nghiệm của TechCrunch và chia sẻ của nhiều người dùng trên mạng xã hội cho thấy, DeepSeek V3 đã khẳng định mình là phiên bản GPT-4 của OpenAI.
Một số ý kiến cho rằng DeepSeek có thể đã sử dụng kỹ thuật "chưng cất" (distillation) kiến thức từ các mô hình lớn hơn. Vào tháng 1/2025, OpenAI đã phát hiện dấu hiệu "chưng cất" mà họ nghi ngờ từ DeepSeek. "Chưng cất" là một kỹ thuật phổ biến trong lĩnh vực AI, cho phép các mô hình nhỏ hơn đạt được hiệu suất tương đương với các mô hình lớn hơn trong các tác vụ cụ thể, bằng cách "học" từ đầu ra của mô hình lớn. Tuy nhiên, việc sử dụng kỹ thuật này có thể vi phạm điều khoản dịch vụ của OpenAI nếu không được phép.
Hiện tại, cả DeepSeek và OpenAI đều chưa đưa ra bình luận chính thức về nghiên cứu của Copyleaks.