A-Train The Seven
...'cause for once, I didn't hate myself.
Meta đang đối mặt với cáo buộc sử dụng nội dung vi phạm bản quyền từ các trang torrent để huấn luyện mô hình ngôn ngữ lớn (LLM) Llama, nền tảng của Meta AI. Vụ kiện này là một trong những vụ kiện bản quyền đầu tiên chống lại một công ty công nghệ vì hành vi huấn luyện AI.
Theo Wired, Meta đã bị kiện vào năm 2023 vì cáo buộc huấn luyện Llama bằng nội dung lậu. Vụ kiện "Kadrey et al. v. Meta Platforms" được đệ trình bởi các tiểu thuyết gia Richard Kadrey và Christopher Golden, cho rằng Meta đã sử dụng nội dung có bản quyền mà không được phép. Meta ban đầu cung cấp các tài liệu được biên tập cho tòa án, nhưng Thẩm phán Vince Chhabria của Tòa án Quận Hoa Kỳ cho Quận Bắc California đã yêu cầu công bố tài liệu gốc.
Các tài liệu này tiết lộ các cuộc trò chuyện giữa nhân viên Meta về Meta AI và Llama. Trong một cuộc trò chuyện, một kỹ sư nói rằng "tải torrent từ máy tính xách tay của công ty [thuộc sở hữu của Meta] cảm thấy không đúng", điều này chứng thực rằng công ty đã sử dụng nội dung lậu để huấn luyện AI của mình. Một cuộc trò chuyện khác cho thấy "MZ" (Mark Zuckerberg) đã cho phép sử dụng tài liệu lậu.
Bằng chứng cho thấy Meta đã sử dụng nội dung từ LibGen, một thư viện khổng lồ gồm sách, tạp chí và bài báo học thuật lậu. LibGen được tạo ra ở Nga vào năm 2008 và đã bị kiện nhiều lần về bản quyền, mặc dù không ai biết ai thực sự điều hành "trung tâm vi phạm bản quyền" này. Meta cũng được cho là đã sử dụng nội dung từ các "thư viện ngầm" khác để huấn luyện AI.
Meta lập luận rằng họ đã sử dụng tài liệu công khai theo học thuyết pháp lý về "sử dụng hợp lý", cho phép sử dụng nội dung có bản quyền mà không cần xin phép trong một số trường hợp nhất định, được phân tích trên cơ sở từng trường hợp cụ thể. Meta cũng tuyên bố rằng họ chỉ "sử dụng văn bản để lập mô hình thống kê ngôn ngữ và tạo ra biểu thức gốc." Đây không phải là lần đầu tiên các công ty công nghệ lớn bị cáo buộc huấn luyện mô hình AI bằng nội dung có bản quyền. Năm ngoái, một cuộc điều tra cho thấy mô hình OpenELM do Apple tạo ra bao gồm phụ đề từ hơn 170.000 video trên YouTube.
Mặc dù ban đầu điều này khiến mọi người tin rằng Apple đang sử dụng nội dung có bản quyền để huấn luyện Apple Intelligence, nhưng công ty sau đó đã giải thích rằng OpenELM là một mô hình nguồn mở được tạo ra cho mục đích nghiên cứu và cơ sở dữ liệu của nó không được sử dụng để cung cấp năng lượng cho Apple Intelligence. Theo Apple, các tính năng AI của họ có sẵn trên iOS và macOS được đào tạo "trên dữ liệu được cấp phép, bao gồm dữ liệu được chọn để nâng cao các tính năng cụ thể, cũng như dữ liệu có sẵn công khai được thu thập bởi trình thu thập thông tin web của chúng tôi."
Đáng chú ý là nhiều nhà xuất bản lớn như The New York Times và The Atlantic đã chọn không chia sẻ nội dung với chương trình huấn luyện Apple Intelligence.
Theo Wired, Meta đã bị kiện vào năm 2023 vì cáo buộc huấn luyện Llama bằng nội dung lậu. Vụ kiện "Kadrey et al. v. Meta Platforms" được đệ trình bởi các tiểu thuyết gia Richard Kadrey và Christopher Golden, cho rằng Meta đã sử dụng nội dung có bản quyền mà không được phép. Meta ban đầu cung cấp các tài liệu được biên tập cho tòa án, nhưng Thẩm phán Vince Chhabria của Tòa án Quận Hoa Kỳ cho Quận Bắc California đã yêu cầu công bố tài liệu gốc.
Các tài liệu này tiết lộ các cuộc trò chuyện giữa nhân viên Meta về Meta AI và Llama. Trong một cuộc trò chuyện, một kỹ sư nói rằng "tải torrent từ máy tính xách tay của công ty [thuộc sở hữu của Meta] cảm thấy không đúng", điều này chứng thực rằng công ty đã sử dụng nội dung lậu để huấn luyện AI của mình. Một cuộc trò chuyện khác cho thấy "MZ" (Mark Zuckerberg) đã cho phép sử dụng tài liệu lậu.
Bằng chứng cho thấy Meta đã sử dụng nội dung từ LibGen, một thư viện khổng lồ gồm sách, tạp chí và bài báo học thuật lậu. LibGen được tạo ra ở Nga vào năm 2008 và đã bị kiện nhiều lần về bản quyền, mặc dù không ai biết ai thực sự điều hành "trung tâm vi phạm bản quyền" này. Meta cũng được cho là đã sử dụng nội dung từ các "thư viện ngầm" khác để huấn luyện AI.
Meta lập luận rằng họ đã sử dụng tài liệu công khai theo học thuyết pháp lý về "sử dụng hợp lý", cho phép sử dụng nội dung có bản quyền mà không cần xin phép trong một số trường hợp nhất định, được phân tích trên cơ sở từng trường hợp cụ thể. Meta cũng tuyên bố rằng họ chỉ "sử dụng văn bản để lập mô hình thống kê ngôn ngữ và tạo ra biểu thức gốc." Đây không phải là lần đầu tiên các công ty công nghệ lớn bị cáo buộc huấn luyện mô hình AI bằng nội dung có bản quyền. Năm ngoái, một cuộc điều tra cho thấy mô hình OpenELM do Apple tạo ra bao gồm phụ đề từ hơn 170.000 video trên YouTube.
Mặc dù ban đầu điều này khiến mọi người tin rằng Apple đang sử dụng nội dung có bản quyền để huấn luyện Apple Intelligence, nhưng công ty sau đó đã giải thích rằng OpenELM là một mô hình nguồn mở được tạo ra cho mục đích nghiên cứu và cơ sở dữ liệu của nó không được sử dụng để cung cấp năng lượng cho Apple Intelligence. Theo Apple, các tính năng AI của họ có sẵn trên iOS và macOS được đào tạo "trên dữ liệu được cấp phép, bao gồm dữ liệu được chọn để nâng cao các tính năng cụ thể, cũng như dữ liệu có sẵn công khai được thu thập bởi trình thu thập thông tin web của chúng tôi."
Đáng chú ý là nhiều nhà xuất bản lớn như The New York Times và The Atlantic đã chọn không chia sẻ nội dung với chương trình huấn luyện Apple Intelligence.