Hàng trăm website lớn chặn AI "cào" dữ liệu để train

Thoại Viết Hoàng · 05/09/2023

Các trang web lớn đang chặn trình thu thập thông tin AI truy cập nội dung của họ, bao gồm Amazon, Quora, The New York Times, CNN, ABC, Reuters và nhiều trang khác. Theo Originality.AI, một công cụ phát hiện AI, gần 20% trong số 1000 trang web hàng đầu trên thế giới chặn các bot thu thập thông tin thu thập dữ liệu web để sử dụng cho AI.

Meta sử dụng dữ liệu Facebook của bạn để đào tạo AI của mình. Làm thế nào để chống lại điều đó?

Cách phát hiện hình ảnh do AI tạo ra

Hàng trăm website lớn chặn AI cào dữ liệu để train

Các mô hình ngôn ngữ lớn (LLM) như ChatGPT của OpenAI và Bard của Google yêu cầu lượng dữ liệu khổng lồ để đào tạo hệ thống AI của họ. OpenAI cũng phát hành trình thu thập dữ liệu web của riêng mình, GPTBot, để quét các trang web và nâng cao các dịch vụ AI của mình, gần đây đã tiết lộ cách nó có thể bị chặn.
Các trình thu thập dữ liệu web bị chặn bao gồm GPTBot và CCBot, trình thu thập dữ liệu web của Common Crawl, một kho lưu trữ dữ liệu web mở. Trình thu thập dữ liệu web quét các trang web và thu thập dữ liệu để giúp đào tạo các sản phẩm AI. Tuy nhiên, các nhà điều hành trang web ngày càng lo ngại về tác động của những trình thu thập thông tin này đối với nội dung của họ và muốn bảo vệ tài sản trí tuệ của mình.
Hầu hết văn bản và hình ảnh có sẵn trên internet đều có bản quyền. Trình thu thập thông tin không yêu cầu sự cho phép hoặc trả tiền cho giấy phép để trích xuất dữ liệu và thông tin. Khi các công cụ AI tạo sinh như ChatGPT bùng nổ, nhận thức về quyền sở hữu dữ liệu mà các trình thu thập thông tin này thu thập để đào tạo các mô hình AI dựa trên LLM đang tăng lên.
Các nhà điều hành trang web hiện nay đang phải tự mình bảo vệ nội dung và sở hữu trí tuệ.
OpenAI và những tổ chức khác đang phải đối mặt với phản ứng dữ dội từ các tác giả chính thống như Stephen King và nhiều vụ kiện từ các tờ báo nổi tiếng như New York Times. Tháng trước, Agence France-Presse, Getty Images và các phương tiện truyền thông có uy tín khác đã kêu gọi quản lý AI, bao gồm tính minh bạch về các tập dữ liệu được sử dụng để đào tạo các mô hình và sự đồng ý đối với tài liệu có bản quyền.
Việc từ chối quyền truy cập của trình thu thập dữ liệu AI vào các trang web lớn có thể có ý nghĩa quan trọng đối với sự phát triển của bot AI trong tương lai. Nếu những trình thu thập thông tin này bị chặn trên nhiều trang web hơn, điều đó có thể hạn chế số lượng và chất lượng dữ liệu có sẵn để đào tạo các mô hình AI và do đó ảnh hưởng đến tiến trình của chúng.
Xem bài viết gốc tại đây