Mai Nhung
Writer
Mới đây, DeepSeek, một startup AI đến từ Trung Quốc, đã ra mắt mô hình AI "mở" mang tên DeepSeek V3, nhận được sự chú ý nhờ khả năng xử lý văn bản xuất sắc và thực hiện nhiều tác vụ tương đương các mô hình hàng đầu thế giới. Tuy nhiên, điều khiến dư luận bất ngờ là việc DeepSeek V3 liên tục tự nhận mình là ChatGPT – chatbot AI nổi tiếng của OpenAI.
DeepSeek V3 được xây dựng trên nền tảng dữ liệu đồ sộ với hơn 600 tỷ tham số, giúp mô hình này thực hiện hiệu quả các tác vụ như lập trình, viết luận văn, và nhiều công việc phức tạp khác. Tuy nhiên, các thử nghiệm thực tế do TechCrunch thực hiện cùng nhiều bài đăng trên mạng xã hội đã chỉ ra rằng, trong 5/8 lần tương tác, DeepSeek V3 tự khẳng định mình là ChatGPT. Không chỉ vậy, mô hình này còn cho rằng nó là phiên bản GPT-4 của OpenAI, và thậm chí hướng dẫn sử dụng API của OpenAI thay vì của chính DeepSeek.
Những trường hợp nhầm lẫn này không dừng lại ở việc nhận diện sai danh tính. DeepSeek V3 còn lặp lại các câu chuyện cười, thậm chí cả cách dẫn dắt và câu chốt hệt như GPT-4. Điều này dấy lên câu hỏi: Liệu DeepSeek V3 có đang sao chép nội dung từ các mô hình đối thủ?
Theo ông Mike Cook, nghiên cứu viên tại Đại học King's College London, các mô hình AI như DeepSeek V3 có thể đã được huấn luyện trên dữ liệu chứa kết quả từ GPT-4. Điều này dẫn đến việc mô hình "học vẹt" và lặp lại nguyên văn các phản hồi từ ChatGPT. “Việc huấn luyện như vậy không chỉ làm suy giảm chất lượng mô hình mà còn dễ gây ra ảo giác và sai lệch thông tin. Đây chính là ví dụ điển hình của việc ‘tam sao thất bản’ trong công nghệ AI,” ông Cook nhận định.
Không chỉ dừng ở mặt kỹ thuật, hành động này có thể vi phạm điều khoản dịch vụ của OpenAI. Theo đó, OpenAI cấm sử dụng kết quả từ sản phẩm của họ để phát triển các mô hình cạnh tranh.
Việc DeepSeek V3 tự nhận là ChatGPT không phải trường hợp cá biệt. Các mô hình như Gemini của Google đôi khi cũng xảy ra hiện tượng tương tự. Nguyên nhân chủ yếu đến từ sự "ô nhiễm dữ liệu" trên web – nơi chứa ngày càng nhiều nội dung do AI tạo ra. Theo ước tính, đến năm 2026, 90% nội dung trên internet có thể do AI sản xuất. Điều này khiến việc lọc bỏ các kết quả do AI tạo ra khỏi tập dữ liệu huấn luyện trở nên cực kỳ khó khăn.
Heidy Khlaaf, chuyên gia tại AI Now Institute, cảnh báo rằng việc tận dụng dữ liệu từ các mô hình AI hiện có tuy tiết kiệm chi phí nhưng tiềm ẩn rủi ro lớn về đạo đức và chất lượng.
CEO OpenAI, ông Sam Altman đã ngụ ý nói về điều này trong dòng tweet của mình không lâu sau khi DeepSeek V3 được công bố vào ngày 26-12 vừa qua. Điều này cũng có thể vi phạm điều khoản dịch vụ của hệ thống OpenAI. Các điều khoản của OpenAI cấm người dùng sản phẩm của họ, bao gồm cả khách hàng ChatGPT, sử dụng kết quả để phát triển các mô hình cạnh tranh với chính OpenAI.
Dù DeepSeek V3 được kỳ vọng là bước tiến mới của ngành AI Trung Quốc, nhưng việc lặp lại nội dung từ GPT-4 đã đặt ra nhiều vấn đề về đạo đức trong phát triển công nghệ. Việc sử dụng dữ liệu từ các mô hình đối thủ là một hành động "đạo văn" tinh vi, hay chỉ là kết quả không mong muốn trong một môi trường dữ liệu phức tạp?
Hơn nữa, nếu một mô hình không thể xác định chính xác danh tính của mình, thì khả năng tin cậy vào các câu trả lời khác của nó cũng bị đặt dấu hỏi lớn.
Trong bối cảnh ranh giới giữa thực và ảo ngày càng mờ nhạt, câu chuyện của DeepSeek V3 là lời cảnh tỉnh về sự cần thiết của các quy chuẩn đạo đức và giám sát chặt chẽ trong lĩnh vực AI – không chỉ để bảo vệ người dùng, mà còn để đảm bảo sự phát triển bền vững cho công nghệ.
Khả năng vượt trội nhưng tự nhận sai danh tính
DeepSeek V3 được xây dựng trên nền tảng dữ liệu đồ sộ với hơn 600 tỷ tham số, giúp mô hình này thực hiện hiệu quả các tác vụ như lập trình, viết luận văn, và nhiều công việc phức tạp khác. Tuy nhiên, các thử nghiệm thực tế do TechCrunch thực hiện cùng nhiều bài đăng trên mạng xã hội đã chỉ ra rằng, trong 5/8 lần tương tác, DeepSeek V3 tự khẳng định mình là ChatGPT. Không chỉ vậy, mô hình này còn cho rằng nó là phiên bản GPT-4 của OpenAI, và thậm chí hướng dẫn sử dụng API của OpenAI thay vì của chính DeepSeek.
Những trường hợp nhầm lẫn này không dừng lại ở việc nhận diện sai danh tính. DeepSeek V3 còn lặp lại các câu chuyện cười, thậm chí cả cách dẫn dắt và câu chốt hệt như GPT-4. Điều này dấy lên câu hỏi: Liệu DeepSeek V3 có đang sao chép nội dung từ các mô hình đối thủ?
Bối cảnh phức tạp của dữ liệu huấn luyện
Theo ông Mike Cook, nghiên cứu viên tại Đại học King's College London, các mô hình AI như DeepSeek V3 có thể đã được huấn luyện trên dữ liệu chứa kết quả từ GPT-4. Điều này dẫn đến việc mô hình "học vẹt" và lặp lại nguyên văn các phản hồi từ ChatGPT. “Việc huấn luyện như vậy không chỉ làm suy giảm chất lượng mô hình mà còn dễ gây ra ảo giác và sai lệch thông tin. Đây chính là ví dụ điển hình của việc ‘tam sao thất bản’ trong công nghệ AI,” ông Cook nhận định.
Không chỉ dừng ở mặt kỹ thuật, hành động này có thể vi phạm điều khoản dịch vụ của OpenAI. Theo đó, OpenAI cấm sử dụng kết quả từ sản phẩm của họ để phát triển các mô hình cạnh tranh.
Việc DeepSeek V3 tự nhận là ChatGPT không phải trường hợp cá biệt. Các mô hình như Gemini của Google đôi khi cũng xảy ra hiện tượng tương tự. Nguyên nhân chủ yếu đến từ sự "ô nhiễm dữ liệu" trên web – nơi chứa ngày càng nhiều nội dung do AI tạo ra. Theo ước tính, đến năm 2026, 90% nội dung trên internet có thể do AI sản xuất. Điều này khiến việc lọc bỏ các kết quả do AI tạo ra khỏi tập dữ liệu huấn luyện trở nên cực kỳ khó khăn.
Heidy Khlaaf, chuyên gia tại AI Now Institute, cảnh báo rằng việc tận dụng dữ liệu từ các mô hình AI hiện có tuy tiết kiệm chi phí nhưng tiềm ẩn rủi ro lớn về đạo đức và chất lượng.
CEO OpenAI, ông Sam Altman đã ngụ ý nói về điều này trong dòng tweet của mình không lâu sau khi DeepSeek V3 được công bố vào ngày 26-12 vừa qua. Điều này cũng có thể vi phạm điều khoản dịch vụ của hệ thống OpenAI. Các điều khoản của OpenAI cấm người dùng sản phẩm của họ, bao gồm cả khách hàng ChatGPT, sử dụng kết quả để phát triển các mô hình cạnh tranh với chính OpenAI.
Những câu hỏi về đạo đức và trách nhiệm
Dù DeepSeek V3 được kỳ vọng là bước tiến mới của ngành AI Trung Quốc, nhưng việc lặp lại nội dung từ GPT-4 đã đặt ra nhiều vấn đề về đạo đức trong phát triển công nghệ. Việc sử dụng dữ liệu từ các mô hình đối thủ là một hành động "đạo văn" tinh vi, hay chỉ là kết quả không mong muốn trong một môi trường dữ liệu phức tạp?
Hơn nữa, nếu một mô hình không thể xác định chính xác danh tính của mình, thì khả năng tin cậy vào các câu trả lời khác của nó cũng bị đặt dấu hỏi lớn.
Trong bối cảnh ranh giới giữa thực và ảo ngày càng mờ nhạt, câu chuyện của DeepSeek V3 là lời cảnh tỉnh về sự cần thiết của các quy chuẩn đạo đức và giám sát chặt chẽ trong lĩnh vực AI – không chỉ để bảo vệ người dùng, mà còn để đảm bảo sự phát triển bền vững cho công nghệ.