Những gã khổng lồ Internet "đánh cắp" dữ liệu của bạn một cách hợp pháp để đào tạo AI như thế nào?

Trường Sơn · 03/07/2024

Bạn có biết rằng dữ liệu của riêng bạn hiện đang được sử dụng hợp pháp bởi những gã khổng lồ Internet để đào tạo AI?

Trong làn sóng cạnh tranh AI mới, do các mô hình đào tạo đòi hỏi nhiều dữ liệu nên khi dữ liệu thông thường của Internet cạn kiệt, một lượng lớn nội dung cá nhân của người dùng trên nền tảng sẽ trở thành tài nguyên thông tin đầy cám dỗ.

Một số công ty công nghệ ở Thung lũng Silicon đang khao khát dữ liệu mới đến nỗi họ lén lút bổ sung đào tạo AI vào chính sách dữ liệu, tự cho mình quyền sử dụng dữ liệu của mọi người.

Trong khoảng một năm qua, các công ty lớn bao gồm Google, Meta, Adobe, Zoom và X đã cập nhật các điều khoản dịch vụ hoặc chính sách bảo mật để cho phép họ đào tạo các mô hình AI tạo ra bằng cách sử dụng dữ liệu người dùng.

Những gã khổng lồ Internet này đang bí mật nhồi nhét vào "Điều khoản dịch vụ" là gì?

"Hành động nhỏ" của các gã khổng lồ Thung lũng Silicon

Khi những gã khổng lồ công nghệ ngày càng khao khát dữ liệu, họ đang cẩn thận viết lại các điều khoản và điều kiện để bao gồm các từ như "trí tuệ nhân tạo", "học máy" và "AI tạo ra".

Để tránh ác cảm của người dùng đối với các vấn đề riêng tư, các công ty đôi khi thực hiện những thay đổi này một cách lặng lẽ. Trong nhiều trường hợp, người dùng sẽ nhấp vào đồng ý mà không cần đọc một từ, chấp nhận thỏa thuận mà không cần cảnh báo.

Dưới đây là chi tiết về sự "ràng buộc" của những gã khổng lồ ở Thung lũng Silicon trong điều khoản dịch vụ người dùng của họ:

Google

Vào cuối năm 2022, khi OpenAI phát hành ChatGPT và châm ngòi cho một cuộc đua bắt kịp toàn ngành, các nhà nghiên cứu và kỹ sư của Google đã bắt đầu thảo luận về cách tận dụng dữ liệu người dùng khác. Hàng tỷ từ nội dung được lưu trữ trong Google Docs của mọi người và các ứng dụng Google miễn phí khác, nhưng chính sách bảo mật của công ty giới hạn cách họ sử dụng dữ liệu đó.

Vào thời điểm đó, chính sách bảo mật của Google tuyên bố rằng các công ty chỉ có thể sử dụng thông tin có sẵn công khai để "giúp đào tạo các mô hình ngôn ngữ của Google và xây dựng các tính năng như Google Dịch".

Tháng 6 năm ngoái, tờ New York Times đưa tin bộ phận pháp lý của Google đã yêu cầu nhóm bảo mật soạn thảo ngôn ngữ để mở rộng phạm vi dữ liệu người tiêu dùng mà các công ty có thể sử dụng.

Tháng 7 năm ngoái, Google đã thay đổi chính sách bảo mật của mình, thêm nội dung nơi thông tin công khai có thể được sử dụng để đào tạo chatbot AI và các dịch vụ khác.

"Chúng tôi sử dụng thông tin có sẵn công khai để giúp đào tạo các mô hình AI của Google và xây dựng các sản phẩm và tính năng như Google Dịch, Bard và khả năng AI đám mây".

Trong nỗ lực trấn an người dùng, Google tuyên bố rằng những thay đổi đối với chính sách bảo mật của họ "chỉ làm rõ rằng các dịch vụ mới như Bard (nay là Gemini) cũng được bao gồm. Chúng tôi đã không bắt đầu đào tạo các mô hình về các loại dữ liệu khác vì sự thay đổi ngôn ngữ này".

Chương trình đào tạo AI của Google cũng sử dụng nhiều dữ liệu cá nhân nhất, chẳng hạn như tin nhắn cho bạn bè và gia đình. Một phát ngôn viên của Google nói rằng với sự cho phép của một nhóm nhỏ người dùng, Google được phép đào tạo AI trong một số lĩnh vực bằng cách sử dụng nội dung email cá nhân người dùng.

Meta

Năm ngoái, Meta đã cập nhật chính sách quyền riêng tư để người dùng sẽ sử dụng "hoạt động và thông tin được cung cấp trên các sản phẩm và dịch vụ của chúng tôi" để đào tạo AI của họ, bao gồm mọi thứ họ viết hoặc nói khi sử dụng các công cụ như AI.

Meta cho biết AI của họ sẽ không đọc tin nhắn được gửi giữa người dùng, bạn bè và gia đình trên các ứng dụng như Messenger và WhatsApp trừ khi người dùng @ chatbot AI của họ trong tin nhắn. Meta đặt trách nhiệm tương tác với AI lên người dùng, nói rằng mọi người nên "chú ý" đến những gì họ nói trong lời nhắc của họ, chẳng hạn như không bao gồm bất kỳ thông tin cá nhân nào, chẳng hạn như địa chỉ nhà hoặc số điện thoại.

Meta cho biết: "Điều gì sẽ xảy ra với các tin nhắn tôi gửi đến các tính năng AI tổng hợp? AI có thể giữ lại và sử dụng thông tin bạn chia sẻ trong cuộc trò chuyện để cung cấp các câu trả lời được cá nhân hóa hơn hoặc thông tin có liên quan hơn và chúng tôi có thể chia sẻ một số câu hỏi nhất định mà bạn hỏi với các đối tác đáng tin cậy, chẳng hạn như nhà cung cấp dịch vụ tìm kiếm, để cung cấp các câu trả lời phù hợp, chính xác và cập nhật hơn.

"Việc sử dụng thông tin có sẵn công khai để đào tạo các mô hình AI là một thực tế toàn ngành và không phải là duy nhất đối với các dịch vụ của chúng tôi", người phát ngôn của Meta cho biết trong một tuyên bố.

X

Musk đã và đang xây dựng một dự án AI. Tháng 9 năm ngoái, X đã thêm một câu vào chính sách bảo mật về học máy và trí tuệ nhân tạo.

"Chúng tôi sử dụng thông tin thu thập được để cung cấp và vận hành các sản phẩm và dịch vụ của X. Chúng tôi cũng sử dụng thông tin thu thập được để cải thiện và cá nhân hóa các sản phẩm và dịch vụ để bạn có trải nghiệm tốt hơn trên X, bao gồm hiển thị cho bạn nội dung và quảng cáo phù hợp hơn, đề xuất những người và chủ đề bạn theo dõi, cho phép và giúp bạn khám phá các ứng dụng và dịch vụ của bên thứ ba. Chúng tôi có thể sử dụng thông tin chúng tôi thu thập và những gì có sẵn công khai để giúp đào tạo các mô hình học máy hoặc trí tuệ nhân tạo của chúng tôi cho các mục đích được nêu trong chính sách này”.

Snap

Một số thay đổi trong Điều khoản dịch vụ của Snap chỉ là một vài từ. Những người khác thêm toàn bộ đoạn văn giải thích cách các mô hình AI tạo ra hoạt động và các loại quyền truy cập mà họ có đối với dữ liệu người dùng.

Ví dụ, năm nay, Snap đã cập nhật chính sách bảo mật để thu thập dữ liệu cho chatbot của mình, My AI. Snap nhắc nhở người dùng không chia sẻ thông tin bí mật với chatbot AI, vì thông tin này sẽ được sử dụng để đào tạo.

"AI của chúng tôi là một chatbot được xây dựng trên công nghệ AI tổng quát và được thiết kế với sự an toàn. Generative AI là một công nghệ đang được phát triển có thể cung cấp các câu trả lời thiên vị, không chính xác, có hại hoặc gây hiểu lầm. Vì vậy, bạn không nên dựa vào lời khuyên của nó. Bạn cũng không nên chia sẻ bất kỳ thông tin bí mật hoặc nhạy cảm nào - nếu bạn làm vậy, AI sẽ sử dụng nó.

Khi bạn tương tác với My AI, chúng tôi sử dụng nội dung bạn chia sẻ và vị trí của bạn (nếu bạn đã bật chia sẻ vị trí cho Snapchat) để cải thiện các sản phẩm của Snap, bao gồm tăng cường bảo mật cho My AI và cá nhân hóa trải nghiệm của bạn, bao gồm cả quảng cáo".

Zoom

Zoom đã bắt đầu cập nhật các điều khoản dịch vụ của mình vào tháng 7 năm ngoái để giải thích rằng họ sẽ sử dụng dữ liệu người dùng để đào tạo AI, nhưng họ đã phải đối mặt với rất nhiều lời chỉ trích từ người dùng và những người ủng hộ quyền riêng tư. Sau khi vấp phải phản ứng dữ dội trên mạng xã hội, Zoom đã cập nhật lại các điều khoản dịch vụ của mình vào tháng 8 năm ngoái để làm rõ rằng nội dung video, âm thanh hoặc trò chuyện sẽ không được sử dụng mà không có sự đồng ý.

Điều khoản dịch vụ cập nhật tiếp tục yêu cầu người dùng "cấp cho Zoom giấy phép vĩnh viễn, trên toàn thế giới, không độc quyền, miễn phí bản quyền, có thể cấp phép lại và có thể chuyển nhượng và tất cả các quyền khác" để sử dụng Nội dung của Khách hàng.

Các quyền này bao gồm "phân phối lại, xuất bản, nhập, truy cập, sử dụng, lưu trữ, truyền tải, xem xét, tiết lộ, lưu, trích xuất, sửa đổi, tái tạo, chia sẻ, hiển thị, sao chép, phân phối, dịch, phiên âm, tạo các tác phẩm phái sinh từ và xử lý" Nội dung Khách hàng.

Điều khoản không còn đề cập cụ thể đến quyền của Zoom trong việc tiến hành "đào tạo AI và ML" về Nội dung khách hàng, mà là "phát triển dịch vụ, tiếp thị, phân tích, đảm bảo chất lượng, máy học, trí tuệ nhân tạo, đào tạo, thử nghiệm, cải tiến Dịch vụ, Phần mềm hoặc các sản phẩm, dịch vụ, dịch vụ và phần mềm khác của Zoom hoặc bất kỳ sự kết hợp nào của chúng".

Adobe

Vào đầu tháng 6, Adobe đã khiến những người sáng tạo tức giận khi đưa một cụm từ về tự động hóa vào chính sách bảo mật của mình, với nhiều người dùng giải thích nó có liên quan đến việc thu thập dữ liệu AI.

"Chúng tôi truy cập Nội dung của bạn: Chúng tôi có thể truy cập, xem hoặc nghe Nội dung của bạn thông qua các phương tiện tự động và thủ công, nhưng chỉ theo những cách hạn chế và chỉ khi được pháp luật cho phép."

Các điều khoản này ảnh hưởng đến hơn 20 triệu người dùng bộ Creative Cloud của Adobe, với một số người tin rằng họ cho phép Adobe truy cập và xem nội dung của họ, bao gồm các tác phẩm được bảo vệ bởi các thỏa thuận không tiết lộ. Một số người tin rằng Adobe đang theo dõi công việc của họ, hấp thụ tác phẩm nghệ thuật của người dùng và có thể sử dụng nó để đào tạo các mô hình AI.

Sau phản ứng dữ dội từ người dùng, Adobe đã cập nhật Điều khoản dịch vụ của mình để làm rõ rằng họ sẽ không sử dụng công việc của khách hàng để đào tạo AI.

Adobe đã làm rõ trong một bài đăng trên blog rằng những thay đổi này nhằm phát hiện và xóa nội dung bất hợp pháp, chẳng hạn như nội dung khiêu *** trẻ em (CSAM), cũng như nội dung hoặc hành vi lạm dụng, bao gồm spam và lừa đảo. Adobe không sử dụng các tệp được lưu trữ trên đám mây Adobe để đào tạo AI Firefly.

Cho vào tầm ngắm

Tuy nhiên, những hành động nhỏ của những gã khổng lồ vẫn được các cơ quan quản lý theo dõi.

Ủy ban Thương mại Liên bang Hoa Kỳ (FTC) từ lâu đã để mắt đến các hành vi lừa đảo và không công bằng liên quan đến chính sách bảo mật của công ty. Các công ty đã kiện trong quá khứ vì những thay đổi lén lút đối với chính sách bảo mật, phá vỡ lời hứa hiện có với người tiêu dùng.

Vào tháng Hai, Ủy ban Thương mại Liên bang Hoa Kỳ đã cảnh báo các công ty công nghệ rằng việc thay đổi chính sách bảo mật để thu thập dữ liệu cũ có thể không công bằng hoặc lừa đảo và sẽ theo đuổi các công ty "lặng lẽ" thay đổi chính sách bảo mật để khai thác dữ liệu người dùng cho AI.

FTC lưu ý rằng các công ty có thể bị cám dỗ khai thác dữ liệu hiện có từ cơ sở người dùng để sử dụng trong các mô hình AI, với "các ưu đãi thương mại mạnh mẽ". FTC cho biết tình trạng khó khăn cơ bản của công ty là xung đột lợi ích. "Những người tham gia thị trường nên lưu ý rằng bất kỳ công ty nào từ bỏ cam kết về quyền riêng tư của người dùng đều có thể vi phạm pháp luật".

Tuy nhiên, chỉ mới tuần trước, Giám đốc điều hành Microsoft AI Mustafa Suleyman đã công khai tuyên bố rằng nội dung công khai của Internet có thể được sử dụng để đào tạo AI miễn phí và một tuyên bố thẳng thừng như vậy đã gây ra phản ứng dữ dội của công chúng.

Có thể thấy từ những thay đổi được thực hiện bởi những người khổng lồ ở Thung lũng Silicon trong điều khoản sử dụng của họ, họ thực sự đang tận dụng các sản phẩm của mình để sử dụng dữ liệu người dùng để đào tạo AI. Tuy nhiên, vẫn chưa có sự đồng thuận trong ngành về dữ liệu nào sẽ được sử dụng để đào tạo và những gì nó không thể - trong những ngày đầu của công nghệ, chắc chắn sẽ có một giai đoạn của "miền Tây hoang dã", nơi không có quy tắc.

Và các điều khoản sử dụng nêu trên đã bị thao túng chắc chắn là một cái hố mà những người khổng lồ chiếm giữ trước để được miễn trách nhiệm sau đó. Nếu không có gì khác, một nhà sản xuất lớn trong nước và công ty AI nên sửa đổi và thêm nội dung đào tạo AI vào các điều khoản của người dùng.

Đối với người dùng phổ thông, 99% trong số hàng chục trang điều khoản sử dụng của người dùng sẽ bị bỏ qua. Tuy nhiên, nếu sản phẩm này có thể sao chép một "bạn" với dữ liệu hạn chế, người dùng có nên thận trọng hơn không?

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Những gã khổng lồ Internet "đánh cắp" dữ liệu của bạn một cách hợp pháp để đào tạo AI như thế nào?

Trường Sơn

Writer

Trường Sơn

"Hành động nhỏ" của các gã khổng lồ Thung lũng Silicon

Cho vào tầm ngắm

Viettel Post khởi công Trung tâm Logistics Đà Nẵng, đẩy mạnh phát triển khu vực miền Trung – Tây Nguyên

Lý giải cơn địa chấn của giới crypto những ngày vừa qua, 1.6 triệu nhà đầu tư thay đổi vận mệnh

TCL hoàn tất việc mua lại nhà máy màn hình LCD cuối cùng của LG Display

Analog Devices ra mắt "hệ sinh thái thiết kế" Power Studio cho ngành xe điện, logistics ở Việt Nam

Apple sẽ sản xuất robot để bàn, camera giám sát và màn hình smarthome tại Việt Nam

Dropbox đồng hành cùng Việt Nam thúc đẩy hiệu suất làm việc trong thời đại Chuyển đổi số

Thời trang Mango bị bên thứ ba xâm phạm, dữ liệu khách hàng bị ảnh hưởng

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Kafka lộ hơn 600 nghìn bản ghi người dùng Huddle01

Vingroup đồng loạt triển khai dự án nhà ở xã hội trên toàn quốc

Viettel Digital cùng TP Hà Nội ra mắt tính năng “Tiện ích thanh toán” trên app iHanoi

iPad Pro M5 xuất kích: Sức mạnh AI nhanh hơn tới 3,5 lần và lần đầu tiên có modem "cây nhà lá vườn"

Đánh giá nổi bật

Chủ đề hot

Có thể bạn quan tâm

Những gã khổng lồ Internet "đánh cắp" dữ liệu của bạn một cách hợp pháp để đào tạo AI như thế nào?

Writer

"Hành động nhỏ" của các gã khổng lồ Thung lũng Silicon​

Cho vào tầm ngắm​

Viettel Post khởi công Trung tâm Logistics Đà Nẵng, đẩy mạnh phát triển khu vực miền Trung – Tây Nguyên

Lý giải cơn địa chấn của giới crypto những ngày vừa qua, 1.6 triệu nhà đầu tư thay đổi vận mệnh

TCL hoàn tất việc mua lại nhà máy màn hình LCD cuối cùng của LG Display

Analog Devices ra mắt "hệ sinh thái thiết kế" Power Studio cho ngành xe điện, logistics ở Việt Nam

Apple sẽ sản xuất robot để bàn, camera giám sát và màn hình smarthome tại Việt Nam

Dropbox đồng hành cùng Việt Nam thúc đẩy hiệu suất làm việc trong thời đại Chuyển đổi số

"Hành động nhỏ" của các gã khổng lồ Thung lũng Silicon

Cho vào tầm ngắm