Thời báo New York cấm sử dụng nội dung của báo để đào tạo các mô hình AI

Thoại Viết Hoàng · 15/08/2023

Ấn phẩm đã cập nhật T&C của mình để bao gồm các quy tắc cấm nội dung của nó được sử dụng để đào tạo các hệ thống trí tuệ nhân tạo.

Deepfakes, tống tiền và sự nguy hiểm của AI sáng tạo

Thời báo New York cấm sử dụng nội dung của báo để đào tạo các mô hình AI

Thời báo New York đã thực hiện các biện pháp phủ đầu để ngăn nội dung của nó được sử dụng để đào tạo các mô hình trí tuệ nhân tạo. Theo báo cáo của Adweek, NYT đã cập nhật Điều khoản dịch vụ của mình vào ngày 3 tháng 8 để cấm nội dung của nó — bao gồm văn bản, ảnh chụp, hình ảnh, đoạn âm thanh/video, “giao diện”, siêu dữ liệu hoặc phần tổng hợp — không được sử dụng trong quá trình phát triển của “bất kỳ chương trình phần mềm nào, bao gồm, nhưng không giới hạn, đào tạo hệ thống máy học hoặc trí tuệ nhân tạo (AI).”
Các điều khoản cập nhật hiện cũng chỉ rõ rằng không thể sử dụng các công cụ tự động như trình thu thập thông tin trang web được thiết kế để sử dụng, truy cập hoặc thu thập nội dung đó nếu không có sự cho phép bằng văn bản của nhà xuất bản. NYT nói rằng việc từ chối tuân thủ các hạn chế mới này có thể dẫn đến các khoản tiền phạt hoặc hình phạt không xác định. Mặc dù đã đưa ra các quy tắc mới cho chính sách của mình, ấn phẩm dường như không thực hiện bất kỳ thay đổi nào đối với tệp robots.txt — tệp thông báo cho trình thu thập thông tin của công cụ tìm kiếm biết những URL nào có thể được truy cập.
Động thái này có thể là để đáp lại một bản cập nhật gần đây cho chính sách quyền riêng tư của Google tiết lộ gã khổng lồ tìm kiếm có thể thu thập dữ liệu công khai từ web để đào tạo các dịch vụ AI khác nhau của mình, chẳng hạn như Bard hoặc Cloud AI. Nhiều mô hình ngôn ngữ lớn cung cấp năng lượng cho các dịch vụ AI phổ biến như ChatGPT của OpenAI được đào tạo trên các bộ dữ liệu khổng lồ có thể chứa các tài liệu có bản quyền hoặc được bảo vệ khác lấy từ web mà không có sự cho phép của người tạo ban đầu.
Điều đó nói rằng, NYT cũng đã ký một thỏa thuận trị giá 100 triệu đô la với Google vào tháng Hai, cho phép gã khổng lồ tìm kiếm giới thiệu nội dung của Times trên một số nền tảng của nó trong ba năm tới. Ấn phẩm cho biết cả hai công ty sẽ làm việc cùng nhau trên các công cụ phân phối nội dung, đăng ký, tiếp thị, quảng cáo và “thử nghiệm”, vì vậy có thể những thay đổi đối với điều khoản dịch vụ của NYT hướng đến các công ty khác như OpenAI hoặc Microsoft. Semafor đã báo cáo vào Chủ nhật rằng Times đã từ bỏ một liên minh truyền thông đang cố gắng đàm phán cùng với các công ty công nghệ về dữ liệu đào tạo AI – điều đó có nghĩa là nếu nó đạt được thỏa thuận với các công ty, thì nó có thể có nhiều khả năng hơn trong từng trường hợp cụ thể.
OpenAI gần đây đã thông báo rằng các nhà điều hành trang web hiện có thể chặn trình thu thập dữ liệu web GPTBot của họ khỏi việc thu thập thông tin trang web của họ. Microsoft cũng bổ sung một số hạn chế mới đối với T&C của riêng mình cấm mọi người sử dụng các sản phẩm AI của họ để “tạo, đào tạo hoặc cải thiện (trực tiếp hoặc gián tiếp) bất kỳ dịch vụ AI nào khác”, cùng với việc cấm người dùng cạo hoặc trích xuất dữ liệu từ các công cụ AI của mình .
Đầu tháng này, một số tổ chức tin tức bao gồm Associated Press và Hội đồng các nhà xuất bản châu Âu đã ký một bức thư ngỏ kêu gọi các nhà lập pháp toàn cầu đưa ra các quy tắc yêu cầu sự minh bạch trong tập dữ liệu đào tạo và sự đồng ý của chủ sở hữu quyền trước khi sử dụng dữ liệu để đào tạo.
Tham khảo bài viết gốc tại đây: