Bot AI giờ là nguồn lưu lượng truy cập web đáng kể

Sasha
Sasha
Phản hồi: 0

Sasha

Writer
Dữ liệu mới cho thấy các bot AI đang thâm nhập sâu hơn vào web, khiến các nhà xuất bản phải triển khai các biện pháp phòng thủ mạnh mẽ hơn.

1770255851054.png

Trợ lý ảo OpenClaw, trước đây được biết đến với tên Moltbot và trước đó nữa là Clawdbot, là biểu tượng của một cuộc cách mạng rộng lớn hơn đang diễn ra, có thể thay đổi căn bản cách thức hoạt động của internet. Thay vì là nơi chủ yếu do con người sinh sống, web rất có thể sẽ sớm bị thống trị bởi các bot AI tự động.

Một báo cáo mới đo lường hoạt động của bot trên web, cũng như dữ liệu liên quan được công ty cơ sở hạ tầng internet Akamai chia sẻ với trang công nghệ Wired, cho thấy các bot AI đã chiếm một phần đáng kể lưu lượng truy cập web. Những phát hiện này cũng làm sáng tỏ một cuộc chạy đua vũ trang ngày càng tinh vi đang diễn ra khi các bot triển khai các chiến thuật thông minh để vượt qua các biện pháp phòng thủ của trang web nhằm ngăn chặn chúng.

“Phần lớn lưu lượng truy cập internet trong tương lai sẽ là lưu lượng truy cập của bot,” Toshit Pangrahi, đồng sáng lập và CEO của TollBit, một công ty theo dõi hoạt động thu thập dữ liệu web, cho biết. “Đây không chỉ là vấn đề bản quyền, mà còn là sự xuất hiện của một loại khách truy cập mới trên internet.”

Hầu hết các trang web lớn đều cố gắng hạn chế nội dung mà các bot có thể thu thập và cung cấp cho hệ thống AI để huấn luyện. Nhưng một loại thu thập dữ liệu từ trang web liên quan đến AI khác cũng đang gia tăng. Nhiều chatbot và các công cụ AI hiện có thể truy xuất thông tin thời gian thực từ web và sử dụng nó để bổ sung và cải thiện kết quả đầu ra của chúng. Điều này có thể bao gồm giá sản phẩm cập nhật từng phút, lịch chiếu phim hoặc tóm tắt tin tức mới nhất.

Theo dữ liệu từ Akamai, lưu lượng truy cập của bot liên quan đến huấn luyện đã tăng đều đặn kể từ tháng 7 năm ngoái. Trong khi đó, hoạt động toàn cầu của các bot thu thập nội dung web cho các tác nhân AI cũng đang gia tăng. “Trí tuệ nhân tạo (AI) đang thay đổi web như chúng ta biết,” Robert Blumofe, giám đốc công nghệ của Akamai, nói với trang Wired. “Cuộc chạy đua vũ trang sắp tới sẽ quyết định diện mạo, cảm nhận và chức năng của web trong tương lai, cũng như những nguyên tắc cơ bản của việc kinh doanh.”

Trong quý IV năm 2025, TollBit ước tính rằng trung bình cứ 31 lượt truy cập vào trang web của khách hàng thì có một lượt đến từ bot thu thập dữ liệu bằng AI. Trong quý đầu tiên của năm 2025, con số này chỉ là một trên 200. Công ty cho biết trong quý IV, hơn 13% yêu cầu của bot đã bỏ qua robots.txt, một tệp mà một số trang web sử dụng để chỉ ra những trang mà bot nên tránh. TollBit cho biết tỷ lệ bot AI bỏ qua robots.txt đã tăng 400% từ quý II đến quý IV năm ngoái.

TollBit cũng báo cáo mức tăng 336% về số lượng trang web cố gắng chặn bot AI trong năm qua. Pangrahi cho biết các kỹ thuật thu thập dữ liệu tự động đang ngày càng tinh vi hơn khi các trang web cố gắng kiểm soát cách các bot truy cập nội dung của họ. Một số bot ngụy trang bằng cách làm cho lưu lượng truy cập của chúng trông giống như đến từ một trình duyệt web thông thường hoặc gửi các yêu cầu được thiết kế để bắt chước cách con người thường tương tác với các trang web. Nghiên cứu của TollBit lưu ý rằng hành vi của một số tác nhân AI hiện gần như không thể phân biệt được với lưu lượng truy cập web của con người.

TollBit tiếp thị các công cụ mà chủ sở hữu trang web có thể sử dụng để tính phí các trình thu thập dữ liệu AI khi truy cập nội dung của họ. Các công ty khác, bao gồm Cloudflare, cũng cung cấp các công cụ tương tự. “Bất cứ ai dựa vào lưu lượng truy cập web của con người – bắt đầu từ các nhà xuất bản, nhưng về cơ bản là tất cả mọi người – đều sẽ bị ảnh hưởng,” Pangrahi nói. “Cần phải có một cách nhanh hơn để có được sự trao đổi giá trị tự động, giữa máy móc với nhau.”

Trang Wired cho biết họ đã cố gắng liên hệ với 15 công ty thu thập dữ liệu AI được đề cập trong báo cáo của TollBit để xin bình luận. Phần lớn không phản hồi hoặc không thể liên lạc được. Một số người cho biết hệ thống AI của họ hướng đến việc tôn trọng các giới hạn kỹ thuật mà các trang web đặt ra để hạn chế việc thu thập dữ liệu trái phép, nhưng họ lưu ý rằng những rào cản này thường phức tạp và khó tuân thủ.

Or Lenchner, Giám đốc điều hành của Bright Data, một trong những công ty thu thập dữ liệu web lớn nhất thế giới, cho biết các bot của công ty ông không thu thập thông tin không công khai. Bright Data trước đây đã bị Meta và X kiện vì bị cáo buộc thu thập nội dung trái phép từ nền tảng của họ. (Meta sau đó đã rút đơn kiện, và một thẩm phán liên bang ở California đã bác bỏ vụ kiện do X đệ trình.)

Karolis Stasiulevičiu, người phát ngôn của ScrapingBee, nói với Wired: "ScrapingBee hoạt động dựa trên một trong những nguyên tắc cốt lõi của internet: web mở được thiết kế để dễ dàng truy cập. Các trang web công cộng, theo thiết kế, có thể đọc được bởi cả người và máy."

Oxylabs, một công ty thu thập dữ liệu web khác, cho biết trong một tuyên bố rằng các bot của họ không "truy nhập vào nội dung yêu cầu đăng nhập, trả phí hoặc xác thực. Chúng tôi yêu cầu khách hàng chỉ sử dụng dịch vụ của chúng tôi để truy cập thông tin công khai và chúng tôi thực thi các thủ thuật tiêu chuẩn trên toàn bộ nền tảng của mình."

Oxylabs nói thêm rằng có nhiều lý do chính đáng để các công ty thu thập nội dung web bao gồm cả mục tiêu an ninh mạng và tiến hành báo chí điều tra. Công ty cũng cho biết các biện pháp tranh luận mà một số trang web sử dụng không phân biệt giữa các trường hợp sử dụng khác nhau. “Thực tế là nhiều hệ thống chống bot hiện đại không phân biệt rõ ràng giữa lưu lượng truy cập độc hại và truy cập tự động hợp pháp,” Oxylabs nói.

Ngoài việc gây ra những rối loạn cho các nhà sản xuất, cuộc chiến thu thập dữ liệu web đang tạo ra những cơ hội kinh doanh mới. Báo cáo của TollBit cho thấy hơn 40 công ty hiện đang tiếp tục hiển thị các bot có khả năng thu thập nội dung web để huấn luyện AI hoặc các mục tiêu khác. Sự dậy sóng của các công cụ tìm kiếm được hỗ trợ bởi AI, cũng như các công cụ như OpenClaw, có thể góp phần cung cấp nhu cầu cho các dịch vụ này.

Một số công ty hứa hẹn sẽ giúp các doanh nghiệp hiển thị nội dung cho các tác nhân AI thay vì cố gắng ngăn chặn chúng, một chiến lược được gọi là tối ưu hóa công cụ tạo sinh (GEO). “Về cơ bản, chúng tôi đang thấy sự nổi lên của một kênh tiếp thị mới”, Uri Gafni, giám đốc kinh doanh của Brandlight, một công ty tối ưu hóa nội dung để nội dung xuất hiện nổi bật trong các công cụ AI, cho biết.

“Điều này sẽ chỉ mạnh mẽ hơn vào năm 2026, và chúng tôi sẽ tìm thấy sự phát triển này như một kênh tiếp theo thị trường hoàn chỉnh, với sự hội tụ của tìm kiếm, quảng cáo, truyền thông và thương mại”, Gafni nói.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2JvdC1haS1naW8tbGEtbmd1b24tbHV1LWx1b25nLXRydXktY2FwLXdlYi1kYW5nLWtlLjc4NzIzLw==
Top