Tranh cãi quanh web scraping, nhất là khi AI ngày càng phụ thuộc vào dữ liệu này

Rumi · 08:53

Trong thế giới của việc thu thập dữ liệu trên web, hay còn được gọi là web scraping, có rất nhiều điều thú vị mà có thể nhiều bạn chưa từng biết đến. Vậy web scraping là gì? Đơn giản mà nói, đây là hoạt động trích xuất dữ liệu từ các trang web mà người dùng có thể truy cập khi ghé thăm một trang. Tuy nhiên, việc này khác với việc lấy dữ liệu thông qua các API mà các nhà cung cấp trang web cung cấp, hay từ các cơ sở dữ liệu mà có thể tải xuống.

Hãy cùng mình xem qua một ví dụ. Giả sử bạn là một nhà buôn bán trực tuyến với 200 sản phẩm. Những sản phẩm của bạn có giá nhạy cảm, nghĩa là nếu một đối thủ cạnh tranh hạ giá sản phẩm tương tự xuống thấp hơn, bạn cũng cần phải điều chỉnh giá của mình ngay lập tức. Việc yêu cầu nhân viên liên tục làm mới hàng trăm trang web và ghi chép thông tin vào bảng tính sẽ không khả thi, vì vậy bạn sẽ cần đến một quy trình tự động. Trong trường hợp này, web scraping chính là giải pháp.

Không chỉ dừng lại ở việc điều chỉnh giá, web scraping còn rất hữu ích cho nhiều mục đích khác nhau. Ví dụ, các công ty có thể sử dụng công nghệ này để theo dõi hàng tồn kho, xem các sản phẩm mới của đối thủ, hoặc theo dõi các đánh giá và xu hướng thị trường. Nếu bạn đã từng sử dụng các công cụ giám sát SEO hoặc công cụ xếp hạng từ khóa, có thể bạn đã tiếp cận những dữ liệu đã được thu thập qua web scraping.

Tuy nhiên, cũng cần lưu ý rằng web scraping còn có các ứng dụng liên quan đến bảo vệ tài sản trí tuệ và an ninh. Đối với các thương hiệu có giá trị, việc theo dõi các trang web thương mại để phát hiện việc sử dụng thương hiệu trái phép là rất quan trọng. Thực tế, các ước tính cho thấy hàng hóa bị giả mạo có giá trị lên tới hàng ngàn tỷ đô la mỗi năm, và việc bảo vệ thương hiệu là trách nhiệm của từng chủ sở hữu.

Khi nói về web scraping, không thể không nhắc tới vai trò của các công cụ tìm kiếm. Các công cụ như Google thực chất là những "kẻ ký sinh có lợi", chúng thu thập dữ liệu từ các trang web và gửi lượng truy cập trở lại cho những trang web đó. Ngược lại, AI lại giống như các "kẻ ký sinh" thực sự, "ăn cắp" thông tin mà không tạo ra giá trị cho các trang web gốc, điều này gây tổn hại đến lưu lượng truy cập của họ.

Một thách thức lớn trong việc thực hiện web scraping ở quy mô công nghiệp là việc các máy chủ web thường phát hiện và chặn các truy cập lặp lại. Để thực hiện việc thu thập dữ liệu này một cách hiệu quả, nhiều công ty đã phát triển các dịch vụ web scraping, sử dụng hàng ngàn máy tính cá nhân trong một mạng lưới rộng lớn để thu thập dữ liệu. Mặc dù không phải tất cả các dịch vụ này đều hoạt động hợp pháp hay đạo đức, nhưng có vài công ty đã thực hiện web scraping một cách đúng đắn và có trách nhiệm.

Ngoài việc thu thập dữ liệu, một số công ty cũng đã chọn cách cung cấp dữ liệu của mình một cách chính thức thông qua các thỏa thuận cấp phép. Ví dụ, Reddit đã quyết định cho phép OpenAI truy cập vào dữ liệu của mình thông qua một API, thay vì để AI thu thập thông tin mà không có sự đồng ý.

Cũng không thể không nhắc đến việc công ty Cloudflare, hiện đang chặn các bot web AI theo mặc định, nhằm bảo vệ các trang web khỏi sự xâm phạm dữ liệu. Cuộc chiến xung quanh web scraping rõ ràng chủ yếu xoay quanh vấn đề tài chính. Dù là việc chi tiền để vượt qua các hạn chế, hay để bảo vệ dữ liệu của chính mình, hoặc cho sự đồng ý để thu thập thông tin, tất cả đều liên quan đến việc tạo ra hoặc mất đi giá trị.

Cuối cùng, mình muốn biết các bạn nghĩ gì về việc các công ty AI ngày càng sử dụng web scraping so với các công cụ tìm kiếm? Liệu các thỏa thuận cấp phép như của Reddit có phải là giải pháp công bằng hay không, hay chúng chỉ hợp pháp hóa việc mất lưu lượng truy cập? Hãy chia sẻ suy nghĩ của bạn nhé!

Nguồn tham khảo: Zdnet

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Tranh cãi quanh web scraping, nhất là khi AI ngày càng phụ thuộc vào dữ liệu này

Rumi

Intern Writer

Rumi

Cách tích hợp GPT-5 vào VS Code cùng GitHub Copilot!

Cục CSGT công bố 10 phường, xã có người vi phạm giao thông nhiều nhất

Cách dùng ChatGPT phân tích dữ liệu và vẽ biểu đồ như dân chuyên

4 cách đơn giản xóa AI Tổng quan trong tìm kiếm Google

Vé số trượt được hoàn vào quỹ hưu trí cá nhân, Thái Lan nâng tầm "vui chơi có thưởng"

Chạy mô hình AI yêu thích trên Linux dễ dàng với ứng dụng hữu ích này!

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Hướng đi mới của ông lớn Nhật Bản ở thị trường đồ gia dụng

Màn hình sau Xiaomi 17 Pro có hữu dụng hay chỉ là chiêu trò quảng cáo?

LG trình làng dải sản phẩm giặt sấy 2026 tại Việt Nam có thể giảm thiểu vi nhựa, biết độ bẩn của quần áo

CEO Nvidia có phải 'chúa tể của những lời khen' khi nói về Elon Musk không?

HUAWEI WATCH GT 6 Series chính thức ra mắt tại Việt Nam: pin đến 3 tuần, hàng loạt nâng cấp, giá từ 4,99 triệu đồng

Đánh giá nổi bật