Trình thu thập thông tin, công cụ tìm kiếm và sự nhếch nhác của các công ty phát triển AI

Thoại Viết Hoàng · 14/07/2023

Các công ty AI coi tính mở của web là cho phép thu thập thông tin quy mô lớn để lấy dữ liệu đào tạo. Vậy các nhà xuất bản nên làm gì?

AI sáng tạo đáp ứng bản quyền

Sự bùng nổ của các sản phẩm AI sáng tạo trong vài tháng qua đã khiến nhiều trang web phải thực hiện các biện pháp đối phó.
Mối quan tâm cơ bản diễn ra như sau:
Các sản phẩm AI phụ thuộc vào việc sử dụng khối lượng lớn nội dung để đào tạo các mô hình ngôn ngữ của chúng (gọi tắt là các mô hình ngôn ngữ lớn hoặc viết tắt là LLM) và nội dung này phải đến từ một nơi nào đó. Các công ty AI coi tính mở của web là cho phép thu thập thông tin quy mô lớn để lấy dữ liệu đào tạo, nhưng một số nhà điều hành trang web không đồng ý, bao gồm Reddit, Stack Overflow và Twitter.
Câu trả lời cho câu hỏi thú vị này chắc chắn sẽ được tranh tụng tại các tòa án trên khắp thế giới.
Bài viết này sẽ khám phá câu hỏi này, tập trung vào các khía cạnh kinh doanh và kỹ thuật. Nhưng trước khi chúng tôi đi sâu vào, một vài điểm:
Mặc dù chủ đề này đề cập đến và tôi đưa vào bài viết này một số lập luận pháp lý, nhưng tôi không phải là luật sư, tôi không phải là luật sư của bạn và tôi không đưa ra bất kỳ lời khuyên nào cho bạn dưới bất kỳ hình thức nào. Nói chuyện với con mèo luật sư yêu thích của bạn nếu bạn cần tư vấn pháp lý.
Tôi đã từng làm việc tại Google nhiều năm trước, chủ yếu là tìm kiếm trên web. Tôi không nói thay mặt cho Google dưới bất kỳ hình thức hay hình thức nào, ngay cả khi tôi trích dẫn một số ví dụ của Google bên dưới.
Đây là một chủ đề di chuyển nhanh. Đảm bảo rằng trong khoảng thời gian tôi viết xong bài này và bạn đang đọc nó, một điều gì đó quan trọng đã xảy ra trong ngành và chắc chắn rằng tôi sẽ bỏ sót điều gì đó!
“Thỏa thuận” giữa công cụ tìm kiếm và trang web
Chúng ta bắt đầu với cách thức hoạt động của một công cụ tìm kiếm hiện đại, như Google hoặc Bing. Nói một cách quá đơn giản, một công cụ tìm kiếm hoạt động như sau:
Công cụ tìm kiếm có một danh sách các URL. Mỗi URL có siêu dữ liệu (đôi khi được gọi là "tín hiệu") cho biết URL có thể quan trọng hoặc hữu ích để hiển thị trong các trang kết quả của công cụ tìm kiếm.
Dựa trên các tín hiệu này, công cụ tìm kiếm có trình thu thập thông tin, bot, là chương trình tìm nạp các URL này theo một số thứ tự “quan trọng” dựa trên những gì các tín hiệu chỉ ra. Vì mục đích này, trình thu thập thông tin của Google được gọi là Googlebot và của Bing là Bingbot (và cả hai đều có nhiều mục đích khác, như quảng cáo). Cả hai bot đều tự nhận dạng trong tiêu đề tác nhân người dùng và cả hai đều có thể được các trang web xác minh theo chương trình để đảm bảo rằng nội dung đang được cung cấp cho bot công cụ tìm kiếm thực chứ không phải giả mạo.
Khi nội dung được tìm nạp, nó sẽ được lập chỉ mục. Chỉ mục của công cụ tìm kiếm là cơ sở dữ liệu phức tạp chứa nội dung trang cùng với một lượng lớn siêu dữ liệu và các tín hiệu khác được sử dụng để so khớp và xếp hạng nội dung với các truy vấn của người dùng. Chỉ mục là thứ thực sự được tìm kiếm khi bạn nhập truy vấn vào Google hoặc Bing.
Các công cụ tìm kiếm hiện đại, ít nhất là những công cụ tìm kiếm lịch sự tốt, cung cấp cho người điều hành trang web toàn quyền kiểm soát việc thu thập thông tin và lập chỉ mục.
LLM không phải là công cụ tìm kiếm
Bây giờ có thể thấy rất rõ ràng rằng LLM là một con thú khác với công cụ tìm kiếm.
Phản hồi của mô hình ngôn ngữ không trực tiếp trỏ lại (các) trang web có nội dung được sử dụng để đào tạo mô hình. Không có trao đổi kinh tế như chúng ta thấy với các công cụ tìm kiếm và đây là lý do tại sao nhiều nhà xuất bản (và tác giả) khó chịu.
Việc thiếu các trích dẫn nguồn trực tiếp là sự khác biệt cơ bản giữa công cụ tìm kiếm và LLM, và đó là câu trả lời cho câu hỏi rất phổ biến là “tại sao Google và Bing được phép thu thập nội dung mà không phải OpenAI?” (Tôi đang sử dụng cách diễn đạt lịch sự hơn cho câu hỏi này.).
Google và Bing đang cố gắng hiển thị các liên kết nguồn trong các phản hồi AI tổng quát của họ, nhưng các nguồn này, nếu được hiển thị, không phải là toàn bộ.
Điều này mở ra một câu hỏi liên quan: Tại sao một trang web nên cho phép sử dụng nội dung của nó để đào tạo một mô hình ngôn ngữ nếu nó không nhận được gì?
Đó là một câu hỏi rất hay – và có lẽ là câu hỏi quan trọng nhất mà chúng ta nên trả lời với tư cách là một xã hội.
LLM thực sự có những lợi ích mặc dù có những thiếu sót lớn với thế hệ LLM hiện tại (chẳng hạn như ảo giác, nói dối người điều khiển con người và thành kiến, v.v.) và những lợi ích này sẽ chỉ tăng lên theo thời gian trong khi những thiếu sót được khắc phục.
Nhưng đối với cuộc thảo luận này, điểm quan trọng là nhận ra rằng trụ cột cơ bản về cách thức hoạt động của web mở ngay bây giờ không phù hợp với LLM.
Sự nhếch nhác
Đó dường như không phải là vấn đề đối với các công ty AI chỉ quan tâm đến việc đào tạo các mô hình lớn vì lợi ích kinh tế của chính họ.
OpenAI đã sử dụng một số bộ dữ liệu làm đầu vào dữ liệu đào tạo (chi tiết tại đây cho GPT3) và OpenAI cố tình không tiết lộ các bộ dữ liệu đào tạo cho GPT4.
Mặc dù OpenAI sử dụng nhiều lý lẽ để biện minh cho việc không tiết lộ thông tin về dữ liệu đào tạo của GPT4 (được thảo luận tại đây), điểm mấu chốt đối với chúng tôi vẫn là: Chúng tôi không biết nội dung nào đã được sử dụng để đào tạo nó và OpenAI không thể hiện điều đó trong các phản hồi của ChatGPT.
Việc thu thập dữ liệu của OpenAI có tuân theo Giao thức loại trừ rô-bốt không? Nó có bao gồm văn bản có bản quyền, như sách giáo khoa hoặc sách khác không? Họ có được phép từ bất kỳ trang web hoặc nhà xuất bản nào không? Họ không nói.
Cách tiếp cận siêu mờ ám của Brave Software
Nếu cách tiếp cận của OpenAI có vấn đề, thì Brave Software (nhà sản xuất trình duyệt Brave và công cụ tìm kiếm Brave) sẽ có cách tiếp cận và lập trường thậm chí còn rắc rối hơn khi nói đến dữ liệu tìm kiếm và đào tạo AI.
Công cụ tìm kiếm Brave phụ thuộc rất nhiều vào cái được gọi là Dự án khám phá web. Cách tiếp cận này khá phức tạp và được ghi lại ở đây, nhưng tôi sẽ nhấn mạnh một sự thật quan trọng: Brave dường như không có trình thu thập thông tin tập trung nào mà họ vận hành và không có trình thu thập thông tin nào tự nhận mình là trình thu thập thông tin cho Brave và (ngồi xuống cho điều này) Brave bán nội dung cóp nhặt với các quyền mà Brave trao cho người mua để đào tạo AI.
Có rất nhiều trong câu đó, vì vậy hãy phân tích nó ra.
Tìm kiếm Brave sử dụng trình duyệt Brave làm trình thu thập thông tin phân tán. Như được ghi lại trong bài viết trợ giúp này, có câu hỏi và câu trả lời Câu hỏi thường gặp này:
Dự án Khám phá Web có phải là trình thu thập dữ liệu không?
Theo một cách nào đó, vâng. Dự án khám phá web xử lý các công việc tìm nạp từ trình thu thập dữ liệu web của Brave. Cứ sau vài giây hoặc vài phút, trình duyệt có thể được hướng dẫn tìm nạp một trang web và gửi HTML trở lại Brave. Tuy nhiên, quá trình tìm nạp này không ảnh hưởng đến lịch sử duyệt web hoặc cookie của bạn—việc này được thực hiện dưới dạng lệnh gọi API tìm nạp riêng tư. Để đảm bảo an toàn hơn, các miền công việc tìm nạp được chọn trước từ một nhóm nhỏ các miền vô thưởng vô phạt và có uy tín.
Dự án Khám phá Web là gì?
Fetch API là một chức năng tiêu chuẩn web được tích hợp trong các công cụ trình duyệt hiện đại, bao gồm cả chức năng mà Brave sử dụng. Công dụng phổ biến của nó là tìm nạp nội dung để hiển thị cho người dùng trong trình duyệt. Đối với mục đích của chúng tôi, chúng tôi biết ngay đó là trình duyệt của người dùng yêu cầu nội dung của trang web thay mặt cho công cụ tìm kiếm của Brave.

Thật thú vị, một chủ đề Reddit từ tháng 6 năm 2021 đã bổ sung thêm nhiều chi tiết và sự nhầm lẫn. Một câu trả lời từ đại diện của Brave rất thú vị (đánh dấu của tôi):
Chúng tôi có trình thu thập dữ liệu của riêng mình, nhưng nó không chứa chuỗi tác nhân người dùng (giống như trình duyệt Brave, cũng không chứa chuỗi tác nhân người dùng duy nhất) để tránh khả năng bị phân biệt đối xử. Điều đó nói rằng, chúng tôi đã nói về khả năng xác định trình thu thập thông tin cho quản trị viên, những người muốn biết khi nào/ở đâu trình thu thập thông tin xuất hiện trên tài sản của họ. Chúng tôi cũng tôn trọng robots.txt, vì vậy nếu bạn không muốn Brave Search thu thập dữ liệu trang web của mình, thì nó sẽ không như vậy.
Đây là một mỏ vàng của sự thật:
Họ có trình thu thập dữ liệu của riêng mình, có thể đề cập đến một trình thu thập dữ liệu tập trung hoặc Dự án Khám phá Web dựa trên trình duyệt phân tán.
Trình thu thập thông tin này không tự nhận mình là trình thu thập thông tin, nhưng bằng cách nào đó, nó tuân theo Giao thức loại trừ rô-bốt (ở dạng tệp robots.txt). Làm cách nào một nhà điều hành trang web có thể viết chỉ thị loại trừ rô-bốt nếu trình duyệt không tự nhận dạng? Mã thông báo tác nhân người dùng nào (như tên gọi của nó) sẽ được sử dụng trong tệp robots.txt để chỉ định các lệnh dành riêng cho trình thu thập thông tin của Brave? Tôi không thể tìm thấy bất kỳ tài liệu nào từ Brave.
Những gì họ đang gọi là phân biệt đối xử thực sự là cách các nhà xuất bản sẽ kiểm soát việc thu thập dữ liệu. Giao thức loại trừ rô-bốt là một cơ chế để nhà xuất bản phân biệt giữa những gì người dùng và trình thu thập dữ liệu được phép truy cập và phân biệt giữa các trình thu thập thông tin khác nhau (ví dụ: cho phép Bingbot thu thập dữ liệu chứ không phải Googlebot). Bằng cách tuyên bố rằng họ muốn tránh bị phân biệt đối xử, Brave thực sự đang nói rằng họ có quyền quyết định những gì họ thu thập dữ liệu và lập chỉ mục chứ không phải nhà xuất bản.
Quay lại Fetch API: Theo mặc định, Fetch API sử dụng chuỗi tác nhân người dùng của trình duyệt. Chúng tôi đã biết rằng trình duyệt Brave không tự nhận dạng chính nó bằng tiêu đề tác nhân người dùng duy nhất, thay vào đó, sử dụng chuỗi tác nhân người dùng chung do công cụ trình duyệt bên dưới tạo ra.
Chuỗi tác nhân người dùng có thể được tùy chỉnh, đối với trình duyệt nói chung và API tìm nạp, nhưng tôi không tìm thấy bất kỳ dấu hiệu nào cho thấy Brave làm điều đó (và thực tế, câu trả lời Reddit được trích dẫn ở trên nói rõ ràng rằng không có mã định danh duy nhất).
Hơn nữa, Brave tiếp tục bán dữ liệu thu thập được dành riêng cho đào tạo AI, không chỉ là kết quả tìm kiếm (ví dụ: để tăng sức mạnh cho tính năng tìm kiếm trang web).
Truy cập trang chủ Brave Search API sẽ hiển thị một số mức giá, bao gồm một số được gọi là “Dữ liệu cho AI”. Các gói dữ liệu này bao gồm các tùy chọn cho “Dữ liệu có quyền lưu trữ” cho phép người đăng ký “Bộ nhớ cache/lưu trữ dữ liệu để đào tạo các mô hình AI”, với dữ liệu bao gồm “Đoạn trích thay thế bổ sung cho AI” và với “Quyền sử dụng dữ liệu để suy luận AI. ”
Tóm lại, dựa trên các tuyên bố công khai của Brave và việc thiếu tài liệu, Brave thu thập dữ liệu trang web một cách lén lút, không có cách rõ ràng để kiểm soát hoặc chặn trang web đó và tiếp tục bán lại nội dung được thu thập dữ liệu để đào tạo AI.
Hay nói lại điều này một cách thẳng thắn hơn, Brave đã chỉ định mình là nhà phân phối vì lợi nhuận của nội dung có bản quyền mà không có giấy phép hoặc sự cho phép của nhà xuất bản trang web điều này có chấp nhận được không? Tôi thấy nó như một cái máy cạo nhếch nhác như một dịch vụ.
Sáng kiến Kiểm soát nhà xuất bản của Google
Có thể sắp có một loại trình thu thập dữ liệu web mới, một loại dành riêng cho AI tổng quát.
Có vẻ như Google đã nhận ra sự không tương thích được thảo luận ở trên, rằng việc sử dụng nội dung mà Googlebot tìm nạp để tìm kiếm trên web có thể không phù hợp để đào tạo các mô hình AI.
Google đã thông báo rằng họ muốn bắt đầu một cuộc thảo luận cộng đồng để tạo Kiểm soát nhà xuất bản web AI (này, Google, tôi đã đăng ký, vui lòng cho tôi tham gia!). Tôi hết lòng ủng hộ việc tổ chức cuộc trò chuyện này và làm tốt lắm Google vì đã mở ra cơ hội cho cuộc trò chuyện này
Vì chúng ta đang ở những ngày đầu, điều quan trọng là phải gắn cờ rằng các giá trị mặc định và khả năng của các điều khiển đó sẽ rất quan trọng đối với sự thành công hay thất bại của chúng. Tôi nghi ngờ rằng nhiều nhà xuất bản và tác giả sẽ có ý kiến mạnh mẽ rằng chúng ta cần nghe về cách thức hoạt động của các biện pháp kiểm soát AI này.
Còn các LLM mã nguồn mở thì sao?
Một khía cạnh quan trọng của lập luận trên là trao đổi kinh tế. Nhưng điều gì sẽ xảy ra nếu tổ chức đằng sau mô hình ngôn ngữ phát hành mô hình một cách tự do mà không mang lại lợi ích cho chính nó?
Có nhiều mô hình mã nguồn mở như vậy và chúng được đào tạo trên các tập dữ liệu trùng lặp đáng kể với các tập dữ liệu được sử dụng để đào tạo các mô hình độc quyền thương mại. Nhiều mô hình nguồn mở hiện đủ tốt cho một số trường hợp sử dụng và chúng chỉ ngày càng tốt hơn.
Tuy nhiên: Có đúng không khi nội dung của trang web được sử dụng mà không được phép để đào tạo LLM nguồn mở?
Đó có thể là một câu hỏi phức tạp hơn và tôi nghĩ rằng câu trả lời hiện đang dựa trên những gì mà Giao thức loại trừ rô-bốt cho phép. Có thể một câu trả lời tốt hơn sẽ xuất hiện dưới dạng một cách tiếp cận được thiết kế tốt từ Kiểm soát nhà xuất bản web AI của Google hoặc một số sáng kiến tương tự khác.
Xem không gian này.
Vì vậy, những gì một nhà xuất bản có thể làm bây giờ?
Tình hình hiện tại là tình hình mà nhiều nhà xuất bản không muốn và cũng không chấp nhận. Họ có thể làm gì?
Ở đây chúng ta cần quay lại cách chặn bot/trình thu thập dữ liệu trường học cũ. Thông thường có hai loại trình thu thập dữ liệu:
Trình thu thập thông tin tự xác định. Chúng có thể tuân theo hoặc không tuân theo Giao thức loại trừ rô-bốt, nhưng ít nhất máy chủ có một mã định danh để kiểm tra nhằm quyết định có chặn yêu cầu hay không. Ví dụ bao gồm Googlebot và Bingbot.
Trình thu thập dữ liệu ẩn, không được sử dụng cho các công cụ tìm kiếm lịch sự. Họ không xác định danh tính của mình và/hoặc không tuân theo Giao thức loại trừ rô-bốt. Ví dụ là bất kỳ trình thu thập thông tin rác nào của script kiddie hoặc trình thu thập thông tin của Brave Search.
Có hai điều bổ sung mà bạn có thể làm:
Nếu trình thu thập thông tin tuân theo Giao thức loại trừ rô-bốt, thì bạn có thể chặn trình thu thập thông tin nếu bạn cho rằng nội dung mà trình thu thập thông tin đưa vào dữ liệu đào tạo AI. Có hai cách tiếp cận ở đây:
Chặn tất cả trình thu thập dữ liệu và chỉ cho phép những trình thu thập dữ liệu bạn muốn cho phép theo nhu cầu của mình (như Googlebot và Bingbot). Điều này nguy hiểm đối với hiệu suất của trang web trong tìm kiếm không phải trả tiền. Bạn cần phải cực kỳ cẩn thận với nó, nhưng nó có hiệu quả đối với những trình thu thập thông tin này.
Cho phép tất cả thu thập dữ liệu và chặn những thứ bạn muốn chặn. Cách tiếp cận dễ dãi hơn này ít nguy hiểm hơn, nhưng tất nhiên nội dung của bạn có thể bị AI hoặc các trình thu thập dữ liệu khác mà bạn không muốn thu thập.
Sử dụng trình phát hiện bot tàng hình phía máy chủ và sử dụng nó để chặn các trình thu thập dữ liệu đó. Nhiều sản phẩm có thể làm điều này. Nếu bạn đang sử dụng mạng phân phối nội dung (CDN) như nhiều nhà xuất bản vẫn làm, thì có khả năng loại chức năng này có sẵn thông qua mạng đó (ví dụ: Akamai, Cloudflare, Fastly).
Cách tiếp cận mà tôi bắt đầu thực hiện với các trang web mà tôi điều hành và thảo luận với khách hàng là sự kết hợp giữa các tùy chọn (1a) và (2), cụ thể là sử dụng tệp robots.txt hạn chế cùng với các điều khiển CDN.
Đây có thể không phải là cách tiếp cận tốt nhất cho mỗi nhà xuất bản, nhưng tôi nghĩ nó đáng để xem xét một cách nghiêm túc.
Tất cả điều này có nghĩa là gì?
Chúng ta đang sống qua những thời kỳ sẽ đi xuống như một trong những thời kỳ có ảnh hưởng nhất trong lịch sử. Mọi người đang dự đoán sự diệt vong của loài người từ AI theo đúng nghĩa đen. Tất cả chúng ta đều có một phần vai trò trong việc định hình tương lai.
Về phần mình, với tư cách là người sáng tạo nội dung gốc, chúng tôi cần suy nghĩ về cách phản hồi, đồng thời theo kịp và thích ứng với phần chuyển động nhanh này của ngành. Việc quyết định cách tạo, phân phối và tiêu thụ nội dung mà chúng ta là tác giả hiện là một sự kết hợp phức tạp giữa chiến lược, công nghệ, tài chính, đạo đức, v.v.
Dù bạn phản ứng như thế nào, bạn đang có lập trường vào một thời điểm lịch sử. Tôi cảm thấy gánh nặng của bạn.
Tham khảo bài viết gốc tại đây: