Những gì tìm thấy trong cơ sở dữ liệu Meta sử dụng để đào tạo AI sáng tạo

Các tác giả đoạt giải Nobel, Dungeons and Dragons, văn học Cơ đốc giáo và truyện khiêu *** đều đóng vai trò là điểm dữ liệu cho máy.
Ghi chú của biên tập viên: Bài viết này là một phần trong loạt bài của The Atlantic về Books3.
Những gì tìm thấy trong cơ sở dữ liệu Meta sử dụng để đào tạo AI sáng tạo
Mùa hè này, tôi đã báo cáo về một tập dữ liệu gồm hơn 191.000 cuốn sách được Meta, Bloomberg và những người khác sử dụng mà không được phép để đào tạo các hệ thống Generative AI. “Books3”, như tên gọi của nó, dựa trên một bộ sưu tập sách điện tử lậu bao gồm sách hướng dẫn du lịch, tiểu thuyết khiêu *** tự xuất bản, tiểu thuyết của Stephen King và Margaret Atwood, v.v. Nó hiện là trung tâm của một số vụ kiện chống lại Meta bởi những người viết cho rằng việc sử dụng nó dẫn đến vi phạm bản quyền.
Sách đóng một vai trò quan trọng trong việc đào tạo các hệ thống AI sáng tạo. Các đoạn văn dài, nhất quán theo chủ đề của họ cung cấp thông tin về cách xây dựng các đoạn văn dài, nhất quán theo chủ đề—điều cần thiết để tạo ra ảo giác về trí thông minh. Do đó, các công ty công nghệ sử dụng bộ sách dữ liệu khổng lồ mà thường không được phép, mua hoặc cấp phép. (Các luật sư của Meta đã lập luận trong một hồ sơ tòa án gần đây rằng cả kết quả đầu ra từ AI sáng tạo của công ty cũng như bản thân mô hình đều không “về cơ bản giống” với các cuốn sách hiện có.)
Tham khảo bài viết gốc tại đây:
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top