Thế giới đang cạn kiệt dữ liệu để đào tạo AI

Lan Thanh · 22/07/2024

Trong nhiều năm, những người tạo ra các hệ thống trí tuệ nhân tạo đã sử dụng vô số văn bản, hình ảnh và video từ internet để huấn luyện mô hình của họ. Giờ đây, nguồn dữ liệu đó đang dần cạn kiệt.

Theo một nghiên cứu được công bố trong tuần này bởi Data Provenance Initiative, một nhóm nghiên cứu do MIT dẫn đầu, trong một năm qua, nhiều nguồn web quan trọng nhất được sử dụng để huấn luyện các mô hình AI đã hạn chế quyền truy cập vào dữ liệu của họ.

Nghiên cứu xem xét 14.000 tên miền web có trong ba bộ dữ liệu huấn luyện AI, đã phát hiện ra một "cuộc khủng hoảng mới về sự đồng ý [sử dụng dữ liệu]", khi các nhà xuất bản và nền tảng trực tuyến đã thực hiện các biện pháp để ngăn chặn việc thu thập dữ liệu của họ.

Các nhà nghiên cứu ước tính rằng trong ba bộ dữ liệu (được gọi là C4, RefinedWeb và Dolma), 5% tổng số dữ liệu và 25% dữ liệu từ các nguồn chất lượng cao nhất đã bị hạn chế. Những hạn chế đó được thiết lập thông qua Giao thức Loại trừ Robot (Robots Exclusion Protocol), một phương pháp đã có từ lâu dành cho chủ sở hữu trang web để ngăn chặn các chương trình tự động (bot) thu thập dữ liệu trang web của họ bằng cách sử dụng tệp có tên robots.txt. Nghiên cứu cũng phát hiện ra rằng có tới 45% dữ liệu trong bộ C4 đã bị hạn chế bởi các điều khoản dịch vụ của trang web.

"Chúng ta đang chứng kiến sự sụt giảm nhanh chóng về sự đồng ý sử dụng dữ liệu trên web, điều này sẽ gây ra hậu quả không chỉ đối với AI mà còn đối với các nhà nghiên cứu, học giả và các tổ chức phi thương mại," Shayne Longpre, tác giả chính của nghiên cứu, cho biết.

Dữ liệu là nguyên liệu thô cho các hệ thống AI, được "nuôi dưỡng" bằng hàng tỷ ví dụ về văn bản, hình ảnh và video. Phần lớn dữ liệu đó được các nhà nghiên cứu lấy từ các trang web công cộng và tập hợp thành các bộ dữ liệu khổng lồ, có thể tải xuống và sử dụng miễn phí hoặc kết hợp dữ liệu từ các nguồn khác.

Học hỏi từ khối dữ liệu khổng lồ đó là điều cho phép các công cụ AI như ChatGPT của OpenAI, Gemini của Google và Claude của Anthropic viết văn bản mới, viết mã và tạo hình ảnh cũng như video. Nói chung, càng nhiều dữ liệu chất lượng cao được đưa vào các mô hình này thì kết quả đầu ra của chúng càng tốt.

Trong nhiều năm, các nhà phát triển AI có thể thu thập dữ liệu khá dễ dàng. Nhưng sự bùng nổ của AI tạo sinh trong vài năm qua đã dẫn đến căng thẳng với những người sở hữu dữ liệu đó. Nhiều người trong số họ lo ngại về việc dữ liệu của họ bị sử dụng để đào tạo AI hoặc ít nhất là muốn được trả tiền cho việc đó.

Khi sự phản đối ngày càng tăng, một số nhà xuất bản đã dựng lên tường phí (paywall) hoặc thay đổi điều khoản dịch vụ của họ để hạn chế việc sử dụng dữ liệu của họ cho mục đích đào tạo AI. Những người khác đã chặn các trình thu thập dữ liệu web tự động được các công ty như OpenAI, Anthropic và Google sử dụng.

Các trang web như Reddit và StackOverflow đã bắt đầu tính phí các công ty AI truy cập dữ liệu của họ, và một số nhà xuất bản đã có hành động pháp lý. Ví dụ, The New York Times đã kiện OpenAI và Microsoft vì vi phạm bản quyền vào năm ngoái, cáo buộc các công ty này sử dụng các bài báo của tờ báo để đào tạo mô hình của họ mà không được phép.

Các công ty như OpenAI, Google và Meta đã nỗ lực rất nhiều trong những năm gần đây để thu thập thêm dữ liệu nhằm cải thiện hệ thống của họ, bao gồm cả việc ghi lại video YouTube và thay đổi chính sách dữ liệu của riêng họ. Gần đây hơn, một số công ty AI đã đạt được thỏa thuận với các nhà xuất bản bao gồm Associated Press và News Corp, chủ sở hữu của The Wall Street Journal, cho phép họ tiếp tục truy cập nội dung của các nhà xuất bản này.

Tuy nhiên, những hạn chế ngày càng tăng về dữ liệu có thể gây ra mối đe dọa cho các công ty AI, vốn cần nguồn cung cấp dữ liệu chất lượng cao ổn định để giữ cho mô hình của họ luôn mới mẻ và được cập nhật.

Điều này cũng có thể gây khó khăn cho các công ty AI nhỏ hơn và các viện nghiên cứu, những người thường dựa vào các bộ dữ liệu công cộng và có thể không đủ khả năng chi trả để cấp phép sử dụng dữ liệu trực tiếp từ các nhà xuất bản. Common Crawl, một bộ dữ liệu như vậy bao gồm hàng tỷ trang nội dung web và được duy trì bởi một tổ chức phi lợi nhuận, đã được trích dẫn trong hơn 10.000 nghiên cứu học thuật.

Không rõ mô hình AI nào đã được đào tạo trên các nguồn này vì rất ít nhà phát triển tiết lộ danh sách đầy đủ dữ liệu mà họ sử dụng. Nhưng các bộ dữ liệu có nguồn gốc từ Common Crawl, bao gồm C4 (viết tắt của Colossal, Cleaned Crawled Corpus) đã được các công ty bao gồm Google và OpenAI sử dụng để đào tạo các phiên bản trước của mô hình AI của họ.

Cuộc khủng hoảng về sự đồng ý trong việc sử dụng dữ liệu để đào tạo các mô hình AI là một phản ứng tự nhiên đối với hoạt động thu thập dữ liệu "không thể kiểm soát" của ngành. Nhưng việc yêu cầu dữ liệu phải được cấp phép mới có thể được sử dụng sẽ ngăn cản các nhà nghiên cứu tham gia vào quá trình định hình công nghệ này. Các công ty công nghệ lớn đã có tất cả dữ liệu, vì vậy việc thay đổi giấy phép sử dụng dữ liệu sẽ không thu hồi quyền truy cập trước đó của họ. Những người bị ảnh hưởng đầu tiên sẽ là các công ty khởi nghiệp và các nhà nghiên cứu.
Các công ty AI đã lập luận rằng việc họ sử dụng dữ liệu web công cộng được luật pháp bảo vệ theo học thuyết sử dụng hợp lý. Nhưng việc thu thập dữ liệu mới đã trở nên khó khăn hơn. Một số công ty AI đang lo lắng về việc gặp phải “bức tường dữ liệu”, thời điểm mà tất cả dữ liệu đào tạo trên internet công cộng đã cạn kiệt và phần còn lại bị ẩn sau các bức tường phí, bị chặn bởi robots.txt hoặc bị khóa trong các giao dịch độc quyền.

Một số công ty tin rằng họ có thể mở rộng bức tường dữ liệu bằng cách sử dụng dữ liệu tổng hợp, tức là dữ liệu do chính hệ thống AI tạo ra, để đào tạo mô hình của họ. Nhưng nhiều nhà nghiên cứu nghi ngờ rằng các hệ thống AI ngày nay có khả năng tạo ra đủ dữ liệu tổng hợp chất lượng cao để thay thế dữ liệu do con người tạo ra.