Thế Việt
Writer
Tập đoàn Meta, công ty mẹ của Facebook và Instagram đã chính thức thông báo về kế hoạch sử dụng dữ liệu công khai của người dùng tại châu Âu để phục vụ việc huấn luyện các mô hình trí tuệ nhân tạo (AI) của mình. Đây là một bước đi đáng chú ý, diễn ra sau gần một năm hãng này phải tạm hoãn kế hoạch tương tự do vấp phải những rào cản pháp lý liên quan đến các quy định bảo vệ dữ liệu và quyền riêng tư nghiêm ngặt của Liên minh châu Âu (EU).
Những điểm chính
Theo thông báo, Meta sẽ sử dụng các nội dung được người dùng (từ 18 tuổi trở lên) chia sẻ công khai trên nền tảng Facebook và Instagram, bao gồm bài đăng (post) và bình luận (comment). Ngoài ra, thông tin mà người dùng đã trao đổi với công cụ trợ lý Meta AI cũng sẽ được đưa vào nguồn dữ liệu huấn luyện.
Meta cho biết người dùng tại châu Âu sẽ nhận được thông báo về việc này qua ứng dụng hoặc email. Quan trọng hơn, công ty cung cấp một cơ chế để người dùng có thể phản đối (opt-out) việc dữ liệu của họ bị sử dụng cho mục đích huấn luyện AI, thông qua việc điền vào một biểu mẫu trực tuyến được cung cấp.
Lý giải cho quyết định này, Meta cho rằng việc sử dụng dữ liệu từ châu Âu là cần thiết để các mô hình AI của họ có thể hiểu và phản ánh tốt hơn nền văn hóa, ngôn ngữ và các sắc thái đa dạng của cộng đồng người dùng trong khu vực. "Các mô hình AI tạo sinh của chúng tôi được đào tạo trên nhiều loại dữ liệu để có thể hiểu được những sắc thái và sự phức tạp đáng kinh ngạc và đa dạng, tạo nên các cộng đồng châu Âu," Meta viết trong thông báo, nhấn mạnh rằng điều này sẽ giúp hỗ trợ tốt hơn cho hàng triệu người dùng và doanh nghiệp tại đây.
Thực tế, việc sử dụng dữ liệu người dùng công khai để huấn luyện AI không phải là mới đối với Meta. Công ty đã và đang làm điều này với dữ liệu từ hầu hết các khu vực khác trên thế giới trong nhiều năm (một số điều tra cho thấy dữ liệu có thể được thu thập từ các bài đăng công khai từ năm 2007). Châu Âu là một ngoại lệ lớn do có các quy định bảo vệ dữ liệu chặt chẽ như GDPR. Kế hoạch ban đầu của Meta là bắt đầu sử dụng dữ liệu người dùng châu Âu từ tháng 6 năm 2024 nhưng đã phải hoãn lại. Lần này, Meta khẳng định họ "đã đáp ứng nghĩa vụ pháp lý của mình" trước khi triển khai.
Động thái của Meta diễn ra trong bối cảnh các công ty phát triển AI đang đối mặt với "cơn khát" dữ liệu huấn luyện ("đói dữ liệu") ngày càng tăng. Việc tìm kiếm các nguồn dữ liệu mới, chất lượng cao và hợp pháp là một thách thức lớn. Sử dụng dữ liệu công khai từ người dùng trên các nền tảng của mình là một giải pháp rõ ràng, nhưng cũng làm dấy lên những tranh cãi. Trang tin Gizmodo gọi đây là hành động đưa dữ liệu người dùng vào "máy xay nội dung", một cách ngầm tuyên bố rằng nội dung công khai của người dùng thuộc về nền tảng và có thể được sử dụng cho mục đích thương mại của công ty.
Cuối tuần trước, cuộc tranh luận về dữ liệu huấn luyện AI càng nóng lên khi Jack Dorsey, người sáng lập Twitter, kêu gọi "xóa tất cả luật về sở hữu trí tuệ", và nhận được sự đồng tình từ Elon Musk. Đề xuất cực đoan này phản ánh phần nào sự khó khăn của các nhà phát triển AI trong việc tiếp cận các nguồn dữ liệu có bản quyền.
Trong thông báo của mình, Meta cũng không quên khẳng định vị thế về sự minh bạch: "Chúng tôi tự hào cách tiếp cận của mình minh bạch hơn nhiều so với các đối thủ trong ngành". Việc công khai thông báo và cung cấp cơ chế phản đối cho người dùng châu Âu được Meta xem là bằng chứng cho tuyên bố này.
Dù vậy, quyết định của Meta chắc chắn sẽ tiếp tục được các cơ quan quản lý và các nhà hoạt động về quyền riêng tư tại châu Âu theo dõi sát sao. Việc cân bằng giữa nhu cầu phát triển công nghệ AI với quyền kiểm soát dữ liệu cá nhân của người dùng vẫn là một bài toán phức tạp trong kỷ nguyên số.

Những điểm chính
- Meta (công ty mẹ Facebook, Instagram) chính thức thông báo (14/4) sẽ sử dụng dữ liệu công khai của người dùng châu Âu (từ 18 tuổi trở lên) để huấn luyện các mô hình AI của hãng.
- Dữ liệu được sử dụng bao gồm bài đăng, bình luận công khai trên Facebook/Instagram và các tương tác với trợ lý Meta AI.
- Người dùng tại châu Âu sẽ nhận được thông báo và có quyền từ chối (opt-out) việc dữ liệu của mình bị sử dụng cho mục đích này thông qua một biểu mẫu trực tuyến.
- Meta cho biết mục đích là để AI hiểu rõ hơn về văn hóa và ngôn ngữ châu Âu, và hãng khẳng định đã đáp ứng các yêu cầu pháp lý về quyền riêng tư của EU sau khi phải trì hoãn kế hoạch từ năm 2024.
- Động thái này diễn ra trong bối cảnh các công ty AI đang rất cần dữ liệu huấn luyện; Meta tự nhận cách làm của mình (thông báo, cho phép từ chối) là "minh bạch hơn" so với các đối thủ.
Theo thông báo, Meta sẽ sử dụng các nội dung được người dùng (từ 18 tuổi trở lên) chia sẻ công khai trên nền tảng Facebook và Instagram, bao gồm bài đăng (post) và bình luận (comment). Ngoài ra, thông tin mà người dùng đã trao đổi với công cụ trợ lý Meta AI cũng sẽ được đưa vào nguồn dữ liệu huấn luyện.
Meta cho biết người dùng tại châu Âu sẽ nhận được thông báo về việc này qua ứng dụng hoặc email. Quan trọng hơn, công ty cung cấp một cơ chế để người dùng có thể phản đối (opt-out) việc dữ liệu của họ bị sử dụng cho mục đích huấn luyện AI, thông qua việc điền vào một biểu mẫu trực tuyến được cung cấp.
Lý giải cho quyết định này, Meta cho rằng việc sử dụng dữ liệu từ châu Âu là cần thiết để các mô hình AI của họ có thể hiểu và phản ánh tốt hơn nền văn hóa, ngôn ngữ và các sắc thái đa dạng của cộng đồng người dùng trong khu vực. "Các mô hình AI tạo sinh của chúng tôi được đào tạo trên nhiều loại dữ liệu để có thể hiểu được những sắc thái và sự phức tạp đáng kinh ngạc và đa dạng, tạo nên các cộng đồng châu Âu," Meta viết trong thông báo, nhấn mạnh rằng điều này sẽ giúp hỗ trợ tốt hơn cho hàng triệu người dùng và doanh nghiệp tại đây.

Thực tế, việc sử dụng dữ liệu người dùng công khai để huấn luyện AI không phải là mới đối với Meta. Công ty đã và đang làm điều này với dữ liệu từ hầu hết các khu vực khác trên thế giới trong nhiều năm (một số điều tra cho thấy dữ liệu có thể được thu thập từ các bài đăng công khai từ năm 2007). Châu Âu là một ngoại lệ lớn do có các quy định bảo vệ dữ liệu chặt chẽ như GDPR. Kế hoạch ban đầu của Meta là bắt đầu sử dụng dữ liệu người dùng châu Âu từ tháng 6 năm 2024 nhưng đã phải hoãn lại. Lần này, Meta khẳng định họ "đã đáp ứng nghĩa vụ pháp lý của mình" trước khi triển khai.
Động thái của Meta diễn ra trong bối cảnh các công ty phát triển AI đang đối mặt với "cơn khát" dữ liệu huấn luyện ("đói dữ liệu") ngày càng tăng. Việc tìm kiếm các nguồn dữ liệu mới, chất lượng cao và hợp pháp là một thách thức lớn. Sử dụng dữ liệu công khai từ người dùng trên các nền tảng của mình là một giải pháp rõ ràng, nhưng cũng làm dấy lên những tranh cãi. Trang tin Gizmodo gọi đây là hành động đưa dữ liệu người dùng vào "máy xay nội dung", một cách ngầm tuyên bố rằng nội dung công khai của người dùng thuộc về nền tảng và có thể được sử dụng cho mục đích thương mại của công ty.
Cuối tuần trước, cuộc tranh luận về dữ liệu huấn luyện AI càng nóng lên khi Jack Dorsey, người sáng lập Twitter, kêu gọi "xóa tất cả luật về sở hữu trí tuệ", và nhận được sự đồng tình từ Elon Musk. Đề xuất cực đoan này phản ánh phần nào sự khó khăn của các nhà phát triển AI trong việc tiếp cận các nguồn dữ liệu có bản quyền.
Trong thông báo của mình, Meta cũng không quên khẳng định vị thế về sự minh bạch: "Chúng tôi tự hào cách tiếp cận của mình minh bạch hơn nhiều so với các đối thủ trong ngành". Việc công khai thông báo và cung cấp cơ chế phản đối cho người dùng châu Âu được Meta xem là bằng chứng cho tuyên bố này.
Dù vậy, quyết định của Meta chắc chắn sẽ tiếp tục được các cơ quan quản lý và các nhà hoạt động về quyền riêng tư tại châu Âu theo dõi sát sao. Việc cân bằng giữa nhu cầu phát triển công nghệ AI với quyền kiểm soát dữ liệu cá nhân của người dùng vẫn là một bài toán phức tạp trong kỷ nguyên số.