Cách các công ty công nghệ lớn như Meta và OpenAI sử dụng sách lậu để huấn luyện AI

Sóng AI
Sóng AI
Phản hồi: 0

Sóng AI

Writer
fHz5P8CDsLZSTwQeGEkE.webp


  • Hiện nay quyền tiếp cận văn học miễn phí đang bị tấn công từ hai phía: các công ty công nghệ lớn và chính quyền Trump.


  • Tạp chí The Atlantic đã phân tích và tạo kho dữ liệu công khai được sử dụng để huấn luyện AI, tập trung vào LibGen - kho lưu trữ tài liệu lậu với gần 7,5 triệu sách và 81 triệu bài báo học thuật.


  • LibGen (Library Genesis) được coi là "thư viện ngầm" vì tính chất bất hợp pháp nhưng mở. Mặc dù chứa nhiều tài liệu có bản quyền, nó cũng giúp các nhà khoa học tiếp cận công trình học thuật mà không phải trả phí cao cho các nhà xuất bản.


  • Tài liệu tòa án từ vụ kiện tập thể do nghệ sĩ hài Sarah Silverman khởi xướng tiết lộ Meta đã chọn sử dụng kho lưu trữ lậu thay vì cấp phép sách để huấn luyện AI.


  • Một nhà nghiên cứu cấp cao của Meta, Melanie Kambadur, đã nói rằng công ty cần sách "càng sớm càng tốt" vì "sách thực sự quan trọng hơn dữ liệu web" để huấn luyện AI.


  • Theo The Atlantic, Meta đã sử dụng torrent để tải xuống LibGen, điều này vi phạm trực tiếp luật bản quyền. Tuy nhiên, Meta lại tự hào thông báo người dùng đã tải xuống mô hình AI Llama của họ 1 tỷ lần.


  • Nhiều tác giả không hài lòng khi phát hiện tác phẩm của họ bị sử dụng để huấn luyện AI. Michael Livingston tìm thấy 16 cuốn sách và nhiều bài viết của ông được dùng để huấn luyện Llama 3.


  • Trong khi đó, ngày 14/3, Tổng thống Trump đã ban hành sắc lệnh hành pháp sẽ thực sự "giết chết" Viện Dịch vụ Bảo tàng và Thư viện (IMLS) - cơ quan cung cấp tài trợ cho thư viện công cộng trên khắp Hoa Kỳ.


  • Nhiều thư viện ở Mỹ phụ thuộc vào tài trợ liên bang cho các dịch vụ cơ bản, bao gồm cả dịch vụ số như Libby và Hoopla, cho phép người dùng mượn sách điện tử hoặc sách nói từ thư viện địa phương.


  • Jeff Jankowski, Chủ tịch Hoopla Digital, cảnh báo rằng nếu không có tài trợ liên bang, một số thư viện có thể thu hẹp hoặc hủy bỏ dịch vụ số của họ.

📌 Các gã khổng lồ công nghệ như Meta đang sử dụng hàng triệu sách lậu từ LibGen để huấn luyện AI, trong khi chính quyền Trump cắt giảm tài trợ cho IMLS - cơ quan hỗ trợ thư viện công cộng. Hậu quả kép này đang đe dọa nghiêm trọng quyền tiếp cận văn học miễn phí của người dân Mỹ.

Nguồn: Songai.vn
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top