Meta bị kiện vì sử dụng dữ liệu vi phạm bản quyền để huấn luyện AI LLaMA

The Storm Riders · 11/02/2025

Công ty mẹ của Facebook, Meta, hiện đang phải đối mặt với một vụ kiện tập thể cáo buộc vi phạm bản quyền và cạnh tranh không lành mạnh, cùng với các cáo buộc khác, liên quan đến cách công ty này huấn luyện mô hình ngôn ngữ lớn LLaMA. Theo một bài đăng trên X (trước đây là Twitter) của vx-underground, hồ sơ tòa án tiết lộ rằng công ty truyền thông xã hội này đã sử dụng torrent lậu để tải xuống 81,7TB dữ liệu từ các thư viện "ngầm" bao gồm Anna's Archive, Z-Library và LibGen. Sau đó, Meta đã sử dụng thông tin này để huấn luyện các mô hình AI của mình.

Bằng chứng, dưới dạng các trao đổi bằng văn bản, cho thấy sự lo ngại của các nhà nghiên cứu về việc Meta sử dụng tài liệu vi phạm bản quyền. Một nhà nghiên cứu AI cấp cao cho biết từ tháng 10 năm 2022: "Tôi không nghĩ chúng ta nên sử dụng tài liệu vi phạm bản quyền. Tôi thực sự cần phải vạch ra một ranh giới ở đây." Trong khi một người khác nói: "Sử dụng tài liệu vi phạm bản quyền nên vượt quá ngưỡng đạo đức của chúng ta," sau đó họ nói thêm - "SciHub, ResearchGate, LibGen về cơ bản giống như PirateBay hoặc một cái gì đó tương tự, họ đang phân phối nội dung được bảo vệ bởi bản quyền và họ đang vi phạm nó."

Sau đó, vào tháng 1 năm 2023, đích thân Mark Zuckerberg đã tham dự một cuộc họp, nơi ông nói: "Chúng ta cần thúc đẩy những thứ này... chúng ta cần tìm cách để mở khóa tất cả những thứ này." Khoảng ba tháng sau, một nhân viên của Meta đã gửi tin nhắn cho một người khác nói rằng họ lo ngại về việc địa chỉ IP của Meta được sử dụng "để tải nội dung vi phạm bản quyền". Họ cũng nói thêm, "tải torrent từ một máy tính xách tay của công ty có vẻ không đúng," theo sau là biểu tượng cảm xúc cười lớn.

Ngoài những tin nhắn đó, các tài liệu cũng tiết lộ rằng công ty đã thực hiện các bước để cơ sở hạ tầng của mình không được sử dụng trong các hoạt động tải xuống và chia sẻ này để hoạt động này không bị truy ngược lại Meta. Các tài liệu của tòa án nói rằng điều này cấu thành bằng chứng về hoạt động bất hợp pháp của Meta, có vẻ như đang thực hiện các bước có chủ ý để lách luật bản quyền.

Tuy nhiên, đây không phải là lần đầu tiên một mô hình huấn luyện AI bị cáo buộc đánh cắp thông tin trên internet. OpenAI đã bị các tiểu thuyết gia kiện từ tháng 6 năm 2023 vì sử dụng sách của họ để huấn luyện các mô hình ngôn ngữ lớn của mình, với The New York Times theo sau vào tháng 12. Nvidia cũng đã phải đối mặt với một vụ kiện do các nhà văn đệ trình vì sử dụng 196.640 cuốn sách để huấn luyện mô hình NeMo của mình, sau đó đã bị gỡ xuống. Một cựu nhân viên của Nvidia đã tố cáo công ty vào tháng 8 năm ngoái, nói rằng họ đã thu thập hơn 426 nghìn giờ video mỗi ngày để sử dụng trong đào tạo AI. Gần đây hơn, OpenAI đang điều tra xem liệu DeepSeek có lấy dữ liệu bất hợp pháp từ ChatGPT hay không, điều này cho thấy mọi thứ có thể trở nên trớ trêu như thế nào.

Vụ kiện chống lại Meta vẫn đang diễn ra, vì vậy chúng ta sẽ phải đợi cho đến khi tòa án đưa ra quyết định để nói liệu công ty có vi phạm trực tiếp hay không. Và ngay cả khi các nhà văn thắng vụ kiện này, Meta, với nguồn tài chính khổng lồ của mình, có thể sẽ kháng cáo quyết định này, có nghĩa là chúng ta sẽ phải đợi vài tháng, nếu không muốn nói là nhiều năm, để xem phán quyết cuối cùng của tòa án.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Meta bị kiện vì sử dụng dữ liệu vi phạm bản quyền để huấn luyện AI LLaMA

The Storm Riders

Writer

The Storm Riders

Công cụ lập trình 97 triệu lượt tải mỗi tháng bị chèn mã độc lấy hết thông tin, lộ ra là vì "vibe coding"

Bán video rửa bát, quét nhà lấy 2.000 đồng: Nghề mới hay bẫy dữ liệu?

Apple Mac "cháy hàng" ở Trung Quốc vì trào lưu "nuôi tôm hùm"

Dùng AI tạo ra nữ quân nhân Mỹ sát cánh cùng ông Trump, CR7, Messi, "lừa" được tới hơn 1 triệu người theo dõi

300.000 doanh nghiệp nhỏ tại Việt Nam sắp được chính phủ hỗ trợ để ứng dụng AI

Tim Cook thăm Bắc Kinh, gọi AI là "khuếch đại con người chứ không thay thế con người"

Sự kiện Hội nghị an ninh mạng OT 2026 có gì đáng chú ý?

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Đánh giá nổi bật