DeepSeek và ChatGPT: 'Song sinh' về phong cách viết, dấy lên nghi vấn đạo nhái

Khánh Vân · 19:51 Hôm qua

Một nghiên cứu mới đây đã làm dấy lên những nghi vấn về tính độc lập và nguồn gốc dữ liệu đào tạo của mô hình ngôn ngữ AI DeepSeek (Trung Quốc), khi phát hiện ra sự tương đồng đáng kinh ngạc về phong cách văn bản giữa DeepSeek và ChatGPT của OpenAI.

z6284140578883_faba19babade02de2c84fb51de1e4b8f_jpg_75.jpg

Copyleaks Phát Hiện Sự Tương Đồng 'Bất Thường'

Nghiên cứu, được công bố trên arXiv.org vào ngày 3/3/2025, do Copyleaks, một công ty chuyên về so sánh và phát hiện đạo văn, thực hiện. Copyleaks đã sử dụng công nghệ sàng lọc và bộ phân loại thuật toán để phân tích "dấu vân tay" phong cách văn bản của nhiều mô hình ngôn ngữ lớn (LLM) khác nhau, bao gồm OpenAI (ChatGPT), Claude, Google Gemini, Meta Llama và DeepSeek.

Kết quả cho thấy, văn bản do hầu hết các mô hình tạo ra đều có thể dễ dàng phân biệt được, thể hiện phong cách riêng biệt. Tuy nhiên, phần lớn văn bản do DeepSeek tạo ra lại được thuật toán của Copyleaks phân loại là "do các mô hình của OpenAI tạo ra". Cụ thể, mức độ tương đồng về phong cách lên tới 74,2%.

Shai Nisan, Giám đốc khoa học dữ liệu tại Copyleaks, ví von phương pháp này với việc một chuyên gia về chữ viết tay cố gắng xác định tác giả của một bản thảo bằng cách so sánh với các mẫu chữ viết tay khác nhau.

"Trong trường hợp này, kết quả thật đáng kinh ngạc và cũng mang nhiều ý nghĩa," Nisan nói với Forbes. "Có điểm tương đồng lớn về phong cách giữa DeepSeek và OpenAI, điều không tìm thấy trong các mô hình được kiểm tra khác."

Nghi Vấn Về Nguồn Gốc Dữ Liệu Đào Tạo và Vi Phạm Bản Quyền

Kết quả nghiên cứu đặt ra câu hỏi lớn về cách DeepSeek được đào tạo và liệu mô hình này có "học lỏm" từ đầu ra của ChatGPT hay không. Mặc dù sự tương đồng về phong cách chưa thể khẳng định chắc chắn DeepSeek là một sản phẩm "đạo nhái", nhưng nó đã làm dấy lên những nghi ngờ về quá trình phát triển của mô hình này.

Nisan nhấn mạnh, nếu DeepSeek thực sự sử dụng văn bản do OpenAI tạo ra để đào tạo mà không có sự cho phép, thì điều này sẽ gây ra những tác động sâu sắc đến vấn đề quyền sở hữu trí tuệ và đặt ra những thách thức lớn cho việc quản lý và phát triển AI trong tương lai.

Tính Minh Bạch Trong Đào Tạo AI: Vấn Đề Cấp Bách

Vụ việc của DeepSeek và OpenAI một lần nữa cho thấy sự thiếu minh bạch trong dữ liệu đào tạo AI là một vấn đề cấp bách cần được giải quyết. Các cơ quan quản lý có thể sẽ xem xét yêu cầu các công ty AI công khai thông tin về các tập dữ liệu và đầu ra mô hình được sử dụng để đào tạo, nhằm đảm bảo tính minh bạch và tuân thủ các quy định về bản quyền.

Mặc dù các mô hình AI có thể hội tụ về phong cách theo thời gian nếu được đào tạo trên các tập dữ liệu chồng chéo, Nisan cho rằng phương pháp của Copyleaks được thiết kế đặc biệt để phát hiện những khác biệt tinh tế về phong cách. Do đó, sự tương đồng giữa DeepSeek và OpenAI không chỉ đơn thuần là do trùng lặp dữ liệu, mà có thể liên quan đến cấu trúc hoặc quy trình đào tạo của mô hình.

DeepSeek Từng Tự Nhận Là ChatGPT

Cuối năm 2024, mô hình V3 của DeepSeek đã từng gây xôn xao khi tự nhận mình là ChatGPT trong các truy vấn. Thử nghiệm của TechCrunch và chia sẻ của nhiều người dùng trên mạng xã hội cho thấy, DeepSeek V3 đã khẳng định mình là phiên bản GPT-4 của OpenAI.

Một số ý kiến cho rằng DeepSeek có thể đã sử dụng kỹ thuật "chưng cất" (distillation) kiến thức từ các mô hình lớn hơn. Vào tháng 1/2025, OpenAI đã phát hiện dấu hiệu "chưng cất" mà họ nghi ngờ từ DeepSeek. "Chưng cất" là một kỹ thuật phổ biến trong lĩnh vực AI, cho phép các mô hình nhỏ hơn đạt được hiệu suất tương đương với các mô hình lớn hơn trong các tác vụ cụ thể, bằng cách "học" từ đầu ra của mô hình lớn. Tuy nhiên, việc sử dụng kỹ thuật này có thể vi phạm điều khoản dịch vụ của OpenAI nếu không được phép.

Hiện tại, cả DeepSeek và OpenAI đều chưa đưa ra bình luận chính thức về nghiên cứu của Copyleaks.

Chủ đề hot

Có thể bạn quan tâm

DeepSeek và ChatGPT: 'Song sinh' về phong cách viết, dấy lên nghi vấn đạo nhái

Khánh Vân

Writer

Khánh Vân

Robot Massage AI: Không mệt mỏi, không than vãn, giá rẻ hơn nhân viên thật?

AI có xu hướng leo thang trong các tình huống khủng hoảng, nguy hiểm khi ra quyết định chính sách đối ngoại và an ninh quốc gia

AI đang thay đổi ngành dịch vụ CNTT Ấn Độ, buộc các công ty như Infosys và HCL Technologies phải thích nghi

Bút thông minh AI mới với khả năng chuyển đổi chữ viết tay thành văn bản và tích hợp ChatGPT

OpenAI hoãn ra mắt ChatGPT-4.5 và đề xuất thanh toán dựa trên tín dụng cho người dùng Plus

Advisor360: 85% cố vấn tài chính đang sử dụng AI tạo sinh

Robot Massage AI: Không mệt mỏi, không than vãn, giá rẻ hơn nhân viên thật?

Đánh giá ổ cứng SSD Exceria Plus G4 PCIe 5.0: Sức mạnh khủng cân mọi tựa game

MWC 2025: 'Độc lạ' chiếc điện thoại gập chữ 'C', laptop sạc năng lượng mặt trời, nhẫn điều khiển máy tính

Tòa án bác yêu cầu của Elon Musk đòi ngăn chặn OpenAI

AI có xu hướng leo thang trong các tình huống khủng hoảng, nguy hiểm khi ra quyết định chính sách đối ngoại và an ninh quốc gia

AI đang thay đổi ngành dịch vụ CNTT Ấn Độ, buộc các công ty như Infosys và HCL Technologies phải thích nghi

Bút thông minh AI mới với khả năng chuyển đổi chữ viết tay thành văn bản và tích hợp ChatGPT

OpenAI hoãn ra mắt ChatGPT-4.5 và đề xuất thanh toán dựa trên tín dụng cho người dùng Plus

Advisor360: 85% cố vấn tài chính đang sử dụng AI tạo sinh

WEF: Cách tích hợp AI agent vào doanh nghiệp để tăng tốc giá trị

Đánh giá nổi bật