Bất ngờ chưa: Meta của Mark Zuckerberg bị tố dùng nội dung vi phạm bản quyền để đào tạo AI

A-Train The Seven · 14/01/2025

Meta đang đối mặt với cáo buộc sử dụng nội dung vi phạm bản quyền từ các trang torrent để huấn luyện mô hình ngôn ngữ lớn (LLM) Llama, nền tảng của Meta AI. Vụ kiện này là một trong những vụ kiện bản quyền đầu tiên chống lại một công ty công nghệ vì hành vi huấn luyện AI.

Theo Wired, Meta đã bị kiện vào năm 2023 vì cáo buộc huấn luyện Llama bằng nội dung lậu. Vụ kiện "Kadrey et al. v. Meta Platforms" được đệ trình bởi các tiểu thuyết gia Richard Kadrey và Christopher Golden, cho rằng Meta đã sử dụng nội dung có bản quyền mà không được phép. Meta ban đầu cung cấp các tài liệu được biên tập cho tòa án, nhưng Thẩm phán Vince Chhabria của Tòa án Quận Hoa Kỳ cho Quận Bắc California đã yêu cầu công bố tài liệu gốc.

Các tài liệu này tiết lộ các cuộc trò chuyện giữa nhân viên Meta về Meta AI và Llama. Trong một cuộc trò chuyện, một kỹ sư nói rằng "tải torrent từ máy tính xách tay của công ty [thuộc sở hữu của Meta] cảm thấy không đúng", điều này chứng thực rằng công ty đã sử dụng nội dung lậu để huấn luyện AI của mình. Một cuộc trò chuyện khác cho thấy "MZ" (Mark Zuckerberg) đã cho phép sử dụng tài liệu lậu.

Bằng chứng cho thấy Meta đã sử dụng nội dung từ LibGen, một thư viện khổng lồ gồm sách, tạp chí và bài báo học thuật lậu. LibGen được tạo ra ở Nga vào năm 2008 và đã bị kiện nhiều lần về bản quyền, mặc dù không ai biết ai thực sự điều hành "trung tâm vi phạm bản quyền" này. Meta cũng được cho là đã sử dụng nội dung từ các "thư viện ngầm" khác để huấn luyện AI.

Meta lập luận rằng họ đã sử dụng tài liệu công khai theo học thuyết pháp lý về "sử dụng hợp lý", cho phép sử dụng nội dung có bản quyền mà không cần xin phép trong một số trường hợp nhất định, được phân tích trên cơ sở từng trường hợp cụ thể. Meta cũng tuyên bố rằng họ chỉ "sử dụng văn bản để lập mô hình thống kê ngôn ngữ và tạo ra biểu thức gốc." Đây không phải là lần đầu tiên các công ty công nghệ lớn bị cáo buộc huấn luyện mô hình AI bằng nội dung có bản quyền. Năm ngoái, một cuộc điều tra cho thấy mô hình OpenELM do Apple tạo ra bao gồm phụ đề từ hơn 170.000 video trên YouTube.

Mặc dù ban đầu điều này khiến mọi người tin rằng Apple đang sử dụng nội dung có bản quyền để huấn luyện Apple Intelligence, nhưng công ty sau đó đã giải thích rằng OpenELM là một mô hình nguồn mở được tạo ra cho mục đích nghiên cứu và cơ sở dữ liệu của nó không được sử dụng để cung cấp năng lượng cho Apple Intelligence. Theo Apple, các tính năng AI của họ có sẵn trên iOS và macOS được đào tạo "trên dữ liệu được cấp phép, bao gồm dữ liệu được chọn để nâng cao các tính năng cụ thể, cũng như dữ liệu có sẵn công khai được thu thập bởi trình thu thập thông tin web của chúng tôi."

Đáng chú ý là nhiều nhà xuất bản lớn như The New York Times và The Atlantic đã chọn không chia sẻ nội dung với chương trình huấn luyện Apple Intelligence.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Bất ngờ chưa: Meta của Mark Zuckerberg bị tố dùng nội dung vi phạm bản quyền để đào tạo AI

A-Train The Seven

...'cause for once, I didn't hate myself.

A-Train The Seven

New York Times và bóng ma AI trong phòng tin tức

Ông trùm trí tuệ nhân tạo không còn sử dụng ChatGPT nữa; vậy ông ấy đang lo lắng điều gì?

Claude Mythos là gì? Tìm hiểu mô hình AI mạnh nhất của Anthropic

Rò rỉ thông tin Anthropic phát triển một mô hình giỏi hack đến mức do dự phát hành

Một lập trình viên siêu cấp đang chờ bị sa thải: Tôi đã thất bại trước AI như thế nào trong năm qua

"ChatGPT phiên bản người lớn" bị treo vô thời hạn

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Tại sao bọn buôn lậu lại đổ xô đến Đông Phi để buôn kiến thợ gặt bán sang Trung Quốc và châu Âu?

Đánh giá nổi bật