"Mỡ nó rán nó", dùng AI để "trị" AI

Yu Ki San
Yu Ki San
Phản hồi: 0

Yu Ki San

Writer
Trong bối cảnh các công ty trí tuệ nhân tạo (AI) đang ráo riết thu thập dữ liệu web để huấn luyện các mô hình ngôn ngữ lớn (LLM), thường phớt lờ các quy tắc ứng xử chung, Cloudflare đã đưa ra một giải pháp độc đáo và có phần "xảo quyệt": tạo ra một "mê cung AI" để bẫy các bot thu thập dữ liệu "cư xử sai trái" theo phương án "mỡ nó rán nó, dùng AI để trị AI".

1725772030789_75.jpg

Những điểm chính:
  • Các công ty AI đang thu thập dữ liệu web quy mô lớn để huấn luyện mô hình, thường phớt lờ các quy tắc như robots.txt.
  • Cloudflare tạo ra "mê cung AI" (honeypot) - các trang web giả chứa nội dung do AI tạo ra - để bẫy các bot thu thập dữ liệu vi phạm quy tắc.
  • Bot bị dụ vào "mê cung" sẽ lãng phí tài nguyên tính toán và có nguy cơ bị "sụp đổ mô hình" (model collapse) nếu huấn luyện bằng dữ liệu AI này.
  • "Mê cung AI" được thiết kế để người dùng thật không nhìn thấy, chỉ các bot vi phạm mới bị ảnh hưởng.
  • Khách hàng của Cloudflare có thể kích hoạt tính năng này để bảo vệ nội dung website của họ.
Vấn nạn AI 'đánh cắp' dữ liệu web

Các công ty AI đã xây dựng nên những đế chế kinh doanh trị giá hàng tỷ USD phần lớn nhờ vào việc thu thập (crawling) một lượng dữ liệu khổng lồ từ internet để huấn luyện các mô hình của họ. Việc thu thập dữ liệu web không phải là mới, nhưng cách thức các công ty AI thực hiện đang gây ra nhiều tranh cãi.

Trước đây, các trang web thường sử dụng tệp robots.txt, một giao thức đơn giản, để chỉ định những phần nào của trang web được phép hoặc không được phép thu thập bởi các bot (trình thu thập thông tin web). Các công ty xây dựng công cụ tìm kiếm như Google thường tôn trọng các quy tắc này. Tuy nhiên, nhiều công ty AI lại bị cáo buộc đã phớt lờ robots.txt và các hướng dẫn khác, tự ý thu thập mọi dữ liệu họ có thể tiếp cận.

Cloudflare, một công ty cung cấp dịch vụ mạng và bảo mật toàn cầu, cho biết các trình thu thập thông tin AI tạo ra hơn 50 tỷ yêu cầu đến mạng lưới của họ mỗi ngày, chiếm gần 1% tổng lưu lượng web mà Cloudflare xử lý.

image_75.jpg

Giải pháp 'mê cung AI' của Cloudflare: Dùng AI trị AI

Trước đây, Cloudflare chỉ đơn giản là chặn các trình thu thập thông tin AI vi phạm. Tuy nhiên, cách làm này không hiệu quả lâu dài vì nó cảnh báo cho những người điều hành bot biết rằng họ đã bị chặn, và họ sẽ thay đổi chiến lược để tiếp tục thu thập dữ liệu.

Vì vậy, Cloudflare đã nghĩ ra một giải pháp mới: xây dựng một "mê cung AI" (AI maze), hay còn gọi là honeypot (hũ mật). Đây là một loạt các trang web giả, được tạo ra bằng chính nội dung do AI tạo ra.

Khi phát hiện một bot thu thập dữ liệu vi phạm quy tắc robots.txt, thay vì chặn, Cloudflare sẽ điều hướng bot đó vào "mê cung AI". Bot sẽ bị "lạc" trong các trang web giả này, liên tục thu thập những dữ liệu vô nghĩa do AI tạo ra, gây lãng phí thời gian và tài nguyên tính toán của công ty chủ quản.
Hậu quả cho các mô hình AI: 'Sụp đổ mô hình' (Model Collapse)

Việc Cloudflare sử dụng nội dung do AI tạo ra để "bẫy" các bot AI không chỉ mang tính trêu tức. Khi một mô hình AI được huấn luyện bằng dữ liệu do chính AI tạo ra, chất lượng của mô hình đó có thể bị suy giảm nghiêm trọng. Hiện tượng này được gọi là "model collapse" (sụp đổ mô hình).
Về cơ bản, Cloudflare đang đảm bảo rằng các bot vi phạm quy tắc sẽ bị "trừng phạt" bằng cách bị ép "ăn" dữ liệu "rác", có khả năng làm hỏng chính mô hình AI mà chúng đang cố gắng xây dựng.

Thiết kế 'vô hình' với người dùng thật

Cloudflare cho biết, "mê cung AI" được thiết kế một cách tinh vi để khách truy cập là con người sẽ không bao giờ nhìn thấy những trang web giả này. Chỉ có các bot thu thập dữ liệu vi phạm quy tắc mới bị dẫn vào "hang thỏ" này.

Hiện tại, khách hàng của Cloudflare có thể lựa chọn bật tính năng "mê cung AI" để bảo vệ nội dung trang web của họ khỏi các trình thu thập dữ liệu AI trái phép.

Giải pháp "mê cung AI" của Cloudflare là một cách tiếp cận sáng tạo và tiềm năng để đối phó với vấn nạn thu thập dữ liệu trái phép của các công ty AI. Nó không chỉ giúp bảo vệ nội dung của các trang web mà còn có thể gây ra hậu quả tiêu cực cho chính các mô hình AI vi phạm, tạo ra một cơ chế "tự điều chỉnh" trong cuộc đua AI hiện nay.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top