Tranh cãi quanh web scraping, nhất là khi AI ngày càng phụ thuộc vào dữ liệu này

Rumi
Rumi
Phản hồi: 0

Rumi

Intern Writer
Trong thế giới của việc thu thập dữ liệu trên web, hay còn được gọi là web scraping, có rất nhiều điều thú vị mà có thể nhiều bạn chưa từng biết đến. Vậy web scraping là gì? Đơn giản mà nói, đây là hoạt động trích xuất dữ liệu từ các trang web mà người dùng có thể truy cập khi ghé thăm một trang. Tuy nhiên, việc này khác với việc lấy dữ liệu thông qua các API mà các nhà cung cấp trang web cung cấp, hay từ các cơ sở dữ liệu mà có thể tải xuống.

Hãy cùng mình xem qua một ví dụ. Giả sử bạn là một nhà buôn bán trực tuyến với 200 sản phẩm. Những sản phẩm của bạn có giá nhạy cảm, nghĩa là nếu một đối thủ cạnh tranh hạ giá sản phẩm tương tự xuống thấp hơn, bạn cũng cần phải điều chỉnh giá của mình ngay lập tức. Việc yêu cầu nhân viên liên tục làm mới hàng trăm trang web và ghi chép thông tin vào bảng tính sẽ không khả thi, vì vậy bạn sẽ cần đến một quy trình tự động. Trong trường hợp này, web scraping chính là giải pháp.
1759458476363.png

Không chỉ dừng lại ở việc điều chỉnh giá, web scraping còn rất hữu ích cho nhiều mục đích khác nhau. Ví dụ, các công ty có thể sử dụng công nghệ này để theo dõi hàng tồn kho, xem các sản phẩm mới của đối thủ, hoặc theo dõi các đánh giá và xu hướng thị trường. Nếu bạn đã từng sử dụng các công cụ giám sát SEO hoặc công cụ xếp hạng từ khóa, có thể bạn đã tiếp cận những dữ liệu đã được thu thập qua web scraping.

Tuy nhiên, cũng cần lưu ý rằng web scraping còn có các ứng dụng liên quan đến bảo vệ tài sản trí tuệ và an ninh. Đối với các thương hiệu có giá trị, việc theo dõi các trang web thương mại để phát hiện việc sử dụng thương hiệu trái phép là rất quan trọng. Thực tế, các ước tính cho thấy hàng hóa bị giả mạo có giá trị lên tới hàng ngàn tỷ đô la mỗi năm, và việc bảo vệ thương hiệu là trách nhiệm của từng chủ sở hữu.

Khi nói về web scraping, không thể không nhắc tới vai trò của các công cụ tìm kiếm. Các công cụ như Google thực chất là những "kẻ ký sinh có lợi", chúng thu thập dữ liệu từ các trang web và gửi lượng truy cập trở lại cho những trang web đó. Ngược lại, AI lại giống như các "kẻ ký sinh" thực sự, "ăn cắp" thông tin mà không tạo ra giá trị cho các trang web gốc, điều này gây tổn hại đến lưu lượng truy cập của họ.

Một thách thức lớn trong việc thực hiện web scraping ở quy mô công nghiệp là việc các máy chủ web thường phát hiện và chặn các truy cập lặp lại. Để thực hiện việc thu thập dữ liệu này một cách hiệu quả, nhiều công ty đã phát triển các dịch vụ web scraping, sử dụng hàng ngàn máy tính cá nhân trong một mạng lưới rộng lớn để thu thập dữ liệu. Mặc dù không phải tất cả các dịch vụ này đều hoạt động hợp pháp hay đạo đức, nhưng có vài công ty đã thực hiện web scraping một cách đúng đắn và có trách nhiệm.

Ngoài việc thu thập dữ liệu, một số công ty cũng đã chọn cách cung cấp dữ liệu của mình một cách chính thức thông qua các thỏa thuận cấp phép. Ví dụ, Reddit đã quyết định cho phép OpenAI truy cập vào dữ liệu của mình thông qua một API, thay vì để AI thu thập thông tin mà không có sự đồng ý.

Cũng không thể không nhắc đến việc công ty Cloudflare, hiện đang chặn các bot web AI theo mặc định, nhằm bảo vệ các trang web khỏi sự xâm phạm dữ liệu. Cuộc chiến xung quanh web scraping rõ ràng chủ yếu xoay quanh vấn đề tài chính. Dù là việc chi tiền để vượt qua các hạn chế, hay để bảo vệ dữ liệu của chính mình, hoặc cho sự đồng ý để thu thập thông tin, tất cả đều liên quan đến việc tạo ra hoặc mất đi giá trị.

Cuối cùng, mình muốn biết các bạn nghĩ gì về việc các công ty AI ngày càng sử dụng web scraping so với các công cụ tìm kiếm? Liệu các thỏa thuận cấp phép như của Reddit có phải là giải pháp công bằng hay không, hay chúng chỉ hợp pháp hóa việc mất lưu lượng truy cập? Hãy chia sẻ suy nghĩ của bạn nhé!

Nguồn tham khảo: Zdnet
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL3RyYW5oLWNhaS1xdWFuaC13ZWItc2NyYXBpbmctbmhhdC1sYS1raGktYWktbmdheS1jYW5nLXBodS10aHVvYy12YW8tZHUtbGlldS1uYXkuNzA0NDcv
Top