Các mô hình ngôn ngữ lớn tuyên bố vượt GPT-4 đều dựa vào "đạo văn"

Đoàn Thúy Hà

Editor
Thành viên BQT
Có một bí mật mở mà mọi người trong ngành AI đều “ngầm chia sẻ”. Ai cũng biết nhưng ai cũng cố gắng không thừa nhận, đó là “ăn cắp dữ liệu”.
Mới đây, tạp chí The Information đã xuyên thủng tấm màn này, để lộ hình thể xấu nhất của “vỏ” mô hình ngôn ngữ lớn. Và cuộc chiến dữ liệu đằng sau nó cũng nhận được nhiều sự chú ý hơn trong năm nay.

"Phím tắt dữ liệu" giúp mô hình đồng nhất​

Nếu mọi người đều sử dụng cùng một dữ liệu, làm sao bạn có thể giỏi hơn người khác? Matt Murphy, giám đốc điều hành của Menlo Ventures, công ty đầu tư vào đối thủ Anthropic của OpenAI, nhận xét.
Như chúng ta đã biết, dữ liệu rất quan trọng trong quá trình đào tạo các mô hình lớn và trọng tâm là khác nhau ở các giai đoạn khác nhau. Khi đào tạo mô hình cơ sở, việc theo đuổi dữ liệu là "số lượng" và yêu cầu về sức mạnh tính toán cũng cực kỳ cao, điều này quyết định "khả năng hiểu biết" cơ bản của các mô hình lớn.
Rõ ràng, không phải tất cả các công ty khởi nghiệp đều có thể chi trả được chi phí và thời gian này. Vì vậy, nhiều startup sẽ bỏ qua bước đầu tiên và trực tiếp sử dụng các mô hình mã nguồn mở Meta hoặc Mistral AI.
Trên cơ sở đó, các startup tinh chỉnh mô hình theo trọng tâm sản phẩm của mình - lượng dữ liệu đầu vào tương đối nhỏ nhưng có mục tiêu và chất lượng cao hơn, có thể giúp mô hình trở thành “chuyên gia” trong một lĩnh vực cụ thể và tạo nên sự khác biệt cho sản phẩm. Ở giai đoạn này, các nhà phát triển cần nhập "câu hỏi" và "câu trả lời" để cố gắng thiết lập các xu hướng "liên tưởng" cụ thể cho mô hình.
Đây cũng là nơi xuất hiện hiện tượng “đánh cắp dữ liệu”.
Bởi vì các công ty lớn như OpenAI, Anthropic và Google có đủ nguồn lực để hoàn thành hai giai đoạn đào tạo một cách hoàn hảo nên chất lượng kết quả đầu ra từ mô hình của họ cũng tương đối cao. Các công ty khởi nghiệp thiếu dữ liệu riêng sẽ mua tài khoản trả phí cho các mô hình mới nhất như GPT-4, sau đó đặt câu hỏi cho GPT-4 theo nhu cầu đào tạo mô hình của riêng họ, sau đó nhập câu trả lời và câu hỏi vào đào tạo mô hình.
Ví dụ: các nhà phát triển tập trung vào lập trình các mô hình phân khu có thể nhập trực tiếp một đoạn mã rồi hỏi GPT-4 xem mã này có vấn đề gì, từ đó tạo ra tài liệu dữ liệu.
Các mô hình ngôn ngữ lớn tuyên bố vượt GPT-4 đều dựa vào đạo văn
Về lý thuyết, các công ty lớn không được phép làm điều này.
Tuy nhiên, có tin CEO Sam Altman của OpenAI đã nói với các doanh nhân tại một hội nghị năm ngoái rằng họ có thể làm được điều này. Điều này chắc chắn mang lại cho các doanh nhân hiện tại sự an tâm nhất định, nhưng không ai có thể biết khi nào Altman sẽ quyết định lấy lại “đặc quyền” này.
Google cũng có "cổng dữ liệu" của riêng mình vào năm ngoái - hãng không chỉ bị cáo buộc sử dụng dữ liệu Trung Quốc do Wen Xinyiyan của Baidu tạo ra để đào tạo Gemini mà còn cả nhân viên đã nghỉ việc vì Google sử dụng dữ liệu do ChatGPT tạo ra để đào tạo mô hình của riêng mình.
Với sự “ngầm chấp thuận” của toàn ngành, tình trạng này ngày càng trở nên phổ biến.
Daniel Han, đồng sáng lập Unsloth AI, công ty giúp các nhà phát triển phát triển AI đàm thoại, cho biết khoảng một nửa số khách hàng của họ sử dụng dữ liệu do GPT-4 hoặc Claude của Anthropic tạo ra để tối ưu hóa mô hình của họ.
ShareGPT, một công cụ ban đầu được sử dụng để chia sẻ các cuộc trò chuyện ChatGPT thú vị, đã trở thành nơi để nhiều công ty trực tiếp trích xuất dữ liệu và các công cụ như OpenPipe thậm chí có thể cải thiện khả năng tự động hóa toàn bộ quy trình.
Kết quả là hiện nay ngày càng có nhiều startup đưa ra những mô hình tương tự. Điều này thậm chí còn tạo ra các công ty khởi nghiệp như Martian ở San Francisco, chuyên tìm kiếm giải pháp “thay thế” cho các công ty cần dịch vụ AI.
Nhưng các nhà đầu tư không thích cảm giác bị lừa.
Như New York Times đã chỉ ra trong một bài báo gần đây, ngành công nghiệp AI hiện thiếu các tiêu chuẩn và hệ thống đánh giá, khiến mọi người khó có thể hiểu được sự khác biệt về hiệu suất hoặc lợi thế của các mô hình khác nhau một cách thống nhất.
Điều này khiến các nhà đầu tư chú ý hơn đến nguồn dữ liệu đào tạo cho các startup AI. Rob Toews, đối tác tại Radical Ventures, nhấn mạnh:
Chất lượng và nguồn dữ liệu đào tạo mô hình AI đã trở thành một trong những mối quan tâm nóng bỏng nhất. Không ai biết tương lai sẽ ra sao, nhưng bất kỳ công ty khởi nghiệp AI nào không cẩn thận hoặc có chiến lược về nguồn dữ liệu sẽ bị bỏ lại phía sau.

Trong cuộc chiến dữ liệu, “im lặng” trở thành tiếng vang​

Các mô hình ngôn ngữ lớn tuyên bố vượt GPT-4 đều dựa vào đạo văn
Nếu “thiếu chip” là sự đồng thuận của ngành AI vào năm 2023 thì “thiếu dữ liệu” là chủ đề mới vào năm 2024. Không chỉ các công ty khởi nghiệp khan hiếm mà các công ty lớn cũng khan hiếm.
Bất kể lớn hay nhỏ, các công ty này đang bắt đầu đi vào vùng xám để thu thập dữ liệu.
Ngay từ năm 2021, OpenAI đã phải đối mặt với vấn đề thiếu dữ liệu.
Mặc dù một số nhân viên nêu lên lo ngại về hành vi sai trái, OpenAI cuối cùng đã viết một công cụ chuyển giọng nói thành văn bản có tên Whisper để chuyển hơn 1 triệu giờ video YouTube thành văn bản để đào tạo GPT-4.
Trong hoạt động này, Chủ tịch OpenAI Greg Brockman cũng đích thân giúp thu thập video.
Những người quen thuộc với sự việc tiết lộ rằng khi Google phát hiện ra OpenAI đang làm gì, họ đã không vạch trần và tố cáo những hành vi vi phạm bản quyền của người sáng tạo này vì Google cũng muốn làm điều tương tự.
Người phát ngôn của Google, Matt Bryant trả lời rằng công ty không biết về hành động của OpenAI và nghiêm cấm việc thu thập dữ liệu trái phép.
Ngoài YouTube, ba người quen thuộc với vấn đề này cho biết Google cũng đang để mắt đến dữ liệu trong công cụ tài liệu cộng tác trực tuyến Google Doc, nhưng chính sách quyền riêng tư của họ hạn chế cách Google sử dụng dữ liệu.
Vào tháng 7 năm ngoái, Google đã cập nhật chính sách bảo mật của mình, tuyên bố rằng họ có thể đào tạo các mô hình AI bằng cách thu thập thông tin công khai trên Internet hoặc thông tin từ các nguồn công khai khác.
Các mô hình ngôn ngữ lớn tuyên bố vượt GPT-4 đều dựa vào đạo văn
Đối với Meta, người “dậy sớm nhưng vội vàng đi làm muộn” trong lĩnh vực AI, dù đã có những cảnh báo pháp lý về vấn đề bản quyền nhưng cuối cùng họ vẫn quyết định làm theo “tiền lệ ngành” của OpenAI và sử dụng sách, bài báo, v.v. có bản quyền.
Các đoạn ghi âm bị rò rỉ cũng cho thấy các giám đốc điều hành của Meta đã đồng ý rằng nếu có sự cố xảy ra, họ có thể sử dụng tiền lệ của vụ kiện thất bại của Hội Nhà văn kiện Google năm 2015 để tự bảo vệ mình.
Đối với Facebook và Instagram, dường như là thế mạnh lớn nhất của Meta, trên thực tế không có nhiều dữ liệu có sẵn. Nhiều người dùng Facebook đã xóa nội dung ban đầu của họ và mạng xã hội nói chung không phải là nơi mọi người thích xuất bản nội dung dài.
Quá khứ mà những gã khổng lồ này không muốn nhắc đến tạo nên sự lảng tránh nhất quán của ngành AI đối với dữ liệu đào tạo.
Adobe là một trong số ít các công ty lớn tích cực thảo luận về dữ liệu đào tạo mô hình của riêng mình. Gần đây, nó cũng đã sụp đổ.
Adobe luôn khẳng định công ty đứng về phía những người sáng tạo và quyết tâm chỉ sử dụng các thư viện được ủy quyền của riêng mình để đào tạo người mẫu. Họ sẽ không sử dụng các tài liệu hình ảnh có bản quyền để đào tạo mà không được phép như Midjourney và Dall-E. Cho đến khi ai đó phát hiện ra rằng dữ liệu đào tạo của Adobe thực sự bao gồm các hình ảnh do AI tạo ra và Adobe đã biết được điều đó.
Các mô hình ngôn ngữ lớn tuyên bố vượt GPT-4 đều dựa vào đạo văn
Mặc dù Adobe nhấn mạnh rằng chỉ có khoảng 5% hình ảnh trong dữ liệu đào tạo của mô hình được tạo ra bởi AI, nhưng trong mọi trường hợp, những hình ảnh đó cũng được thực hiện thông qua các mô hình đồ thị Vincentian xâm phạm quyền lợi bản quyền của người sáng tạo nên không hoàn toàn" đạo đức."
Đầu tháng này, Phó chủ tịch cấp cao của Adobe Ashley Still đã phát biểu tại một sự kiện: Khi chúng tôi ra mắt Firefly, một số người dùng doanh nghiệp đã đến gặp chúng tôi và nói: "Chúng tôi yêu thích những gì bạn đang làm và chúng tôi thực sự biết ơn vì bạn đã không đánh cắp tài sản trí tuệ của chúng tôi trên Internet".
Không biết người dùng doanh nghiệp này sẽ cảm thấy thế nào sau khi tin tức “sập nhà” lộ ra.

Sau khi “vắt khô” Internet, tiếp theo là gì?​

Chúng ta từng nghĩ Internet là “rộng lớn và vô biên”, nhưng giờ đây các mô hình ngôn ngữ lớn đã “không thể có đủ”.
Hai năm trước, Pablo Villalobos của công ty nghiên cứu Epoch đã chỉ ra rằng nhu cầu về dữ liệu chất lượng cao có thể sẽ vượt quá nguồn cung vào giữa năm 2024. Bây giờ họ lạc quan hơn một chút, tin rằng tình trạng này sẽ không xảy ra cho đến năm 2028.
Mặc dù vậy, OpenAI có thể hiện đang bận rộn.
Epoch ước tính rằng dữ liệu đào tạo được GPT-4 sử dụng là khoảng 12 nghìn tỷ mã thông báo. Theo Luật mở rộng, sẽ cần khoảng 60-100 nghìn tỷ mã thông báo để đào tạo GPT-5 rất được mong đợi.
Nếu chúng ta sử dụng tiêu chuẩn này, tổng khối lượng dữ liệu văn bản và hình ảnh chất lượng cao hiện có sẽ không đủ và vẫn còn khoảng cách 10-20 nghìn tỷ mã thông báo.
Sự thay đổi sắp xảy ra.
Sam Altman trước đó cũng đã ám chỉ rằng OpenAI đang tìm kiếm một lối thoát mới: Tôi nghĩ thời đại theo đuổi những mô hình ngôn ngữ khổng lồ sắp kết thúc. Chúng tôi sẽ sử dụng những cách khác để làm cho chúng tốt hơn.
Các mô hình ngôn ngữ lớn tuyên bố vượt GPT-4 đều dựa vào đạo văn
Đồng thời, các nguồn tin cho biết cả OpenAI và Google đều đang xem xét xây dựng một hệ thống có thể đo lường sự đóng góp của dữ liệu cụ thể vào việc đào tạo mô hình để những người cung cấp dữ liệu có thể tính toán các khoản phí phải trả nhưng vẫn chưa có tiến triển.
Trước khi những dữ liệu tiên phong và công nghệ tiên tiến này được hiện thực hóa, có một điều mà các công ty khởi nghiệp AI hiện có khả năng nhưng không nhất thiết phải sẵn sàng làm - đó là tăng cường tính minh bạch và phá vỡ sự im lặng.
Nếu điều này là không thể, làm sao chúng ta có thể tin tưởng các công ty này sẽ tạo ra các sản phẩm AI có trách nhiệm với xã hội?
 


Đăng nhập một lần thảo luận tẹt ga
Top