Meta bị kiện vì sử dụng dữ liệu vi phạm bản quyền để huấn luyện AI LLaMA

The Storm Riders
The Storm Riders
Phản hồi: 0
Công ty mẹ của Facebook, Meta, hiện đang phải đối mặt với một vụ kiện tập thể cáo buộc vi phạm bản quyền và cạnh tranh không lành mạnh, cùng với các cáo buộc khác, liên quan đến cách công ty này huấn luyện mô hình ngôn ngữ lớn LLaMA. Theo một bài đăng trên X (trước đây là Twitter) của vx-underground, hồ sơ tòa án tiết lộ rằng công ty truyền thông xã hội này đã sử dụng torrent lậu để tải xuống 81,7TB dữ liệu từ các thư viện "ngầm" bao gồm Anna's Archive, Z-Library và LibGen. Sau đó, Meta đã sử dụng thông tin này để huấn luyện các mô hình AI của mình.

Bằng chứng, dưới dạng các trao đổi bằng văn bản, cho thấy sự lo ngại của các nhà nghiên cứu về việc Meta sử dụng tài liệu vi phạm bản quyền. Một nhà nghiên cứu AI cấp cao cho biết từ tháng 10 năm 2022: "Tôi không nghĩ chúng ta nên sử dụng tài liệu vi phạm bản quyền. Tôi thực sự cần phải vạch ra một ranh giới ở đây." Trong khi một người khác nói: "Sử dụng tài liệu vi phạm bản quyền nên vượt quá ngưỡng đạo đức của chúng ta," sau đó họ nói thêm - "SciHub, ResearchGate, LibGen về cơ bản giống như PirateBay hoặc một cái gì đó tương tự, họ đang phân phối nội dung được bảo vệ bởi bản quyền và họ đang vi phạm nó."

Sau đó, vào tháng 1 năm 2023, đích thân Mark Zuckerberg đã tham dự một cuộc họp, nơi ông nói: "Chúng ta cần thúc đẩy những thứ này... chúng ta cần tìm cách để mở khóa tất cả những thứ này." Khoảng ba tháng sau, một nhân viên của Meta đã gửi tin nhắn cho một người khác nói rằng họ lo ngại về việc địa chỉ IP của Meta được sử dụng "để tải nội dung vi phạm bản quyền". Họ cũng nói thêm, "tải torrent từ một máy tính xách tay của công ty có vẻ không đúng," theo sau là biểu tượng cảm xúc cười lớn.

1739263177072.png


Ngoài những tin nhắn đó, các tài liệu cũng tiết lộ rằng công ty đã thực hiện các bước để cơ sở hạ tầng của mình không được sử dụng trong các hoạt động tải xuống và chia sẻ này để hoạt động này không bị truy ngược lại Meta. Các tài liệu của tòa án nói rằng điều này cấu thành bằng chứng về hoạt động bất hợp pháp của Meta, có vẻ như đang thực hiện các bước có chủ ý để lách luật bản quyền.

Tuy nhiên, đây không phải là lần đầu tiên một mô hình huấn luyện AI bị cáo buộc đánh cắp thông tin trên internet. OpenAI đã bị các tiểu thuyết gia kiện từ tháng 6 năm 2023 vì sử dụng sách của họ để huấn luyện các mô hình ngôn ngữ lớn của mình, với The New York Times theo sau vào tháng 12. Nvidia cũng đã phải đối mặt với một vụ kiện do các nhà văn đệ trình vì sử dụng 196.640 cuốn sách để huấn luyện mô hình NeMo của mình, sau đó đã bị gỡ xuống. Một cựu nhân viên của Nvidia đã tố cáo công ty vào tháng 8 năm ngoái, nói rằng họ đã thu thập hơn 426 nghìn giờ video mỗi ngày để sử dụng trong đào tạo AI. Gần đây hơn, OpenAI đang điều tra xem liệu DeepSeek có lấy dữ liệu bất hợp pháp từ ChatGPT hay không, điều này cho thấy mọi thứ có thể trở nên trớ trêu như thế nào.

Vụ kiện chống lại Meta vẫn đang diễn ra, vì vậy chúng ta sẽ phải đợi cho đến khi tòa án đưa ra quyết định để nói liệu công ty có vi phạm trực tiếp hay không. Và ngay cả khi các nhà văn thắng vụ kiện này, Meta, với nguồn tài chính khổng lồ của mình, có thể sẽ kháng cáo quyết định này, có nghĩa là chúng ta sẽ phải đợi vài tháng, nếu không muốn nói là nhiều năm, để xem phán quyết cuối cùng của tòa án.
 


Đăng nhập một lần thảo luận tẹt ga
Top