Apple, NVIDIA bị cáo buộc đã sử dụng trái phép các video YouTube để đào tạo mô hình AI

Một loạt công ty công nghệ hàng đầu thế giới vừa bị cáo buộc đã đào tạo các mô hình AI của họ trên bộ dữ liệu bao gồm bản ghi của hơn 173.000 video YouTube mà không được phép.

Apple,-Nvidia,-Anthropic-Used-Thousands-of-Swiped-YouTube-Videos-to-Train-AI-GettyImages-14608...jpg

Một cuộc điều tra mới từ Proof News đã cho thấy Bộ dữ liệu được tạo bởi một công ty phi lợi nhuận có tên EleutherAI, chứa bản ghi các video YouTube từ hơn 48.000 kênh và được Apple, NVIDIA và Anthropic cùng các công ty khác sử dụng. Những phát hiện của cuộc điều tra làm nổi bật sự thật khó chịu của AI: công nghệ này phần lớn được xây dựng dựa trên dữ liệu được lấy từ người sáng tạo mà không có sự đồng ý của họ.

Tập dữ liệu không bao gồm bất kỳ video hoặc hình ảnh nào từ YouTube nhưng chứa bản ghi video từ những người sáng tạo lớn nhất của nền tảng bao gồm Marques Brownlee và MrBeast, cũng như các nhà xuất bản tin tức lớn như The New York Times , BBC và ABC News.

“Apple đã lấy dữ liệu về AI của họ từ một số công ty,” Brownlee, YouTuber công nghệ số 1 thế giới đăng trên X. Anh nói thêm: “Một trong số họ đã thu thập hàng tấn dữ liệu/bản ghi từ các video trên YouTube, bao gồm cả của tôi”. “Đây sẽ là một vấn đề nhức nhối trong một thời gian dài.”

1721183993126.png

Người phát ngôn của Google nói với Engadget rằng những bình luận trước đây của Giám đốc điều hành YouTube Neal Mohan nói rằng các công ty sử dụng dữ liệu của YouTube để đào tạo các mô hình AI sẽ vi phạm các điều khoản và dịch vụ của paltform vẫn có hiệu lực. Apple, NVIDIA, Anthropic và EleutherAI đã không trả lời yêu cầu bình luận từ Engadget.

Cho đến nay, các công ty AI vẫn chưa minh bạch về dữ liệu được sử dụng để đào tạo mô hình của họ. Đầu tháng này, các nghệ sĩ và nhiếp ảnh gia đã chỉ trích Apple vì đã không tiết lộ nguồn dữ liệu đào tạo cho Apple Intelligence, công ty sở hữu công nghệ AI sắp ra mắt trên hàng triệu thiết bị Apple trong năm nay.

8d541010-38d9-11ef-b7fd-2183e5dd7ce6_75.jpg

Đặc biệt, YouTube, kho lưu trữ video lớn nhất thế giới, là một kho vàng không chỉ có bản ghi mà còn cả âm thanh, video và hình ảnh, khiến nó trở thành một bộ dữ liệu hấp dẫn để đào tạo các mô hình AI. Đầu năm nay, giám đốc công nghệ của OpenAI, Mira Murati, đã né tránh các câu hỏi từ The Wall Street Journal về việc liệu công ty có sử dụng video YouTube để đào tạo Sora, công cụ tạo video AI sắp ra mắt của OpenAI hay không. Murati cho biết vào thời điểm đó: “Tôi sẽ không đi sâu vào chi tiết về dữ liệu đã được sử dụng, nhưng đó là dữ liệu được cấp phép hoặc có sẵn công khai. Giám đốc điều hành Alphabet Sundar Pichai cũng cho biết các công ty sử dụng dữ liệu từ YouTube để đào tạo các mô hình AI của họ sẽ vi phạm điều khoản dịch vụ của nền tảng này.

Nếu bạn muốn xem liệu phụ đề từ video YouTube hoặc từ các kênh yêu thích của bạn có phải là một phần của tập dữ liệu đào tạo AI hay không, hãy truy cập công cụ tra cứu của Proof News.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top