Cuộc đua ngầm của các Big Tech: mua dữ liệu đào tạo mô hình AI

TienCM · 07/04/2024

Vào thời kỳ đỉnh cao hồi đầu những năm 2000, Photobucket là trang web lưu trữ hình ảnh hàng đầu thế giới. Là trụ cột truyền thông cho các dịch vụ hot một thời như Myspace và Friendster, Photobucket tự hào có 70 triệu người dùng và chiếm gần một nửa thị trường ảnh trực tuyến ở Hoa Kỳ.

Cuộc đua ngầm của các Big Tech: mua dữ liệu đào tạo mô hình AI

Ngày nay, chỉ có 2 triệu người vẫn sử dụng Photobucket, theo công cụ phân tích dữ liệu Similarweb. Nhưng cuộc cách mạng AI có thể mang lại cho trang lưu trữ ảnh này một sức sống mới.
Ted Leonard, giám đốc điều hành của Photobucket, hiện có 40 thành viên ở Edwards, Colorado (Mỹ) nói với Reuters rằng ông đang đàm phán với nhiều công ty công nghệ để cấp phép sử dụng 13 tỷ bức ảnh và video của Photobucket để đào tạo các mô hình AI tạo sinh.
Theo Ted Leonard, mức giá cho mỗi bức ảnh dùng để đào tạo mô hình AI là từ 5 xu đến 1 USD và khoảng hơn 1 USD cho mỗi video. Giá cụ thể tùy thuộc vào người mua và loại hình ảnh được tìm kiếm.
“Chúng tôi đã trao đổi với nhiều, trong đó có công ty nói rằng họ muốn có hơn một tỷ video, nhiều hơn những gì nền tảng Photobucket đang có”, Ted Leonard nói thêm.
Photobucket từ chối tiết lộ danh tính người mua tiềm năng với lý do bảo mật thương mại. Các cuộc đàm phán đang diễn ra, cho thấy công ty có thể nắm giữ nội dung trị giá hàng tỷ đô la và đưa ra cái nhìn thoáng qua về thị trường dữ liệu nhộn nhịp đang phát triển trong cơn sốt AI tạo sinh.
Những gã khổng lồ công nghệ như Google, Meta và OpenAI được Microsoft hậu thuẫn ban đầu sử dụng miễn phí hàng loạt dữ liệu được lấy từ Internet để đào tạo các mô hình AI tạo sinh có thể bắt chước khả năng sáng tạo của con người. Các Big Tech này nói rằng họ làm như vậy vừa hợp pháp vừa có đạo đức, mặc dù phải đối mặt với các vụ kiện từ hàng loạt chủ sở hữu bản quyền về hành vi sử dụng chùa dữ liệu để đào tạo mô hình AI.
Đồng thời với việc lấy dữ liệu miễn phí từ Internet, các Big Tech cũng đang âm thầm trả tiền cho nội dung yêu cầu bản quyền để tiếp cận, dẫn đến hoạt động giao dịch ngầm về mọi thứ, từ nhật ký trò chuyện đến những bức ảnh cá nhân bị lãng quên từ lâu trên các ứng dụng mạng xã hội đã mờ nhạt.
“Các công ty công nghệ lớn hiện đang đổ xô tìm kiếm những người nắm giữ bản quyền các bộ sưu tập nội dung riêng tư không thể thiếu”, Edward Klaris từ công ty luật Klaris Law, cho biết. Công ty luật này cho biết họ đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu đô la để cấp phép tiếp cận các kho phim, ảnh và sách để đào tạo AI.
Reuters cho biết hãng tin này đã nói chuyện với hơn 30 người tham gia các giao dịch dữ liệu AI, bao gồm các giám đốc điều hành hiện tại và trước đây tại các công ty liên quan, luật sư và nhà tư vấn, để cung cấp thông tin khám phá chuyên sâu đầu tiên về thị trường mua bán các dữ liệu để đào tạo AI.
OpenAI, Google, Meta, Microsoft, Apple và Amazon đều từ chối bình luận về các giao dịch và thảo luận dữ liệu cụ thể cho bài viết này, mặc dù Microsoft và Google đã giới thiệu Reuters đến các quy tắc ứng xử của nhà cung cấp bao gồm các điều khoản về quyền riêng tư dữ liệu.
Google nói thêm rằng họ sẽ "có hành động ngay lập tức, lên đến và bao gồm cả việc chấm dứt" thỏa thuận với nhà cung cấp nếu phát hiện ra hành vi vi phạm.
Nhiều công ty nghiên cứu thị trường lớn cho biết họ thậm chí còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI không rõ ràng, nơi các công ty thường không tiết lộ các thỏa thuận. Những nhà nghiên cứu làm như vậy, chẳng hạn như Business Research Insights, ước tính thị trường mua bán dữ liệu để đào tạo mô hình AI hiện ở mức khoảng 2,5 tỷ USD và dự đoán có thể tăng lên gần 30 tỷ USD trong vòng một thập kỷ tới.

Cơn sốt mua bán dữ liệu “làm mồi” cho AI tạo sinh

Để có thể phản hồi các yêu cầu đa dạng từ người dùng, các nền tảng AI tạo sinh phải tổng hợp một lượng dữ liệu khổng lồ để đưa vào hệ thống của mình, một quá trình được gọi là "đào tạo" cho mô hình AI. Càng nhiều dữ liệu để đào tạo thì AI có thể đưa ra các phản hồi càng đa dạng và đầy đủ hơn.

Lâu nay, các công ty công nghệ lớn đều khai thác thông tin miễn phí trên Internet để đào tạo cho các mô hình AI tạo sinh. Tuy nhiên, cách tiếp cận này đã tạo ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà sở hữu nội dung chặn việc thu thập thông tin.
Đối phó với nguy cơ kiện tụng, các nhà sản xuất mô hình AI tạo sinh đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu, thông qua các thỏa thuận với chủ sở hữu nội dung. Vì vậy, ngành công nghiệp môi giới dữ liệu đã xuất hiện để đáp ứng nhu cầu.
Ví dụ, trong những tháng sau khi ChatGPT ra mắt vào cuối năm 2022, các công ty bao gồm Meta, Google, Amazon và Apple đều đạt được thỏa thuận với nhà cung cấp hình ảnh gốc Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và tệp nhạc trong thư viện của hãng này cho mục đích đào tạo, theo một nguồn tin chia sẻ với Reuters.
Giám đốc tài chính của Shutterstock, Jarrod Yahes, nói với Reuters rằng các thỏa thuận với các công ty Big Tech ban đầu dao động từ 25 triệu USD đến 50 triệu USD mỗi công ty, mặc dù hầu hết sau đó đã được mở rộng. Ông nói thêm, những công ty công nghệ nhỏ hơn cũng làm theo, thúc đẩy một "một loạt hoạt động" mới trong hai tháng qua.
Jarrod Yahes từ chối bình luận về các hợp đồng cụ thể. Thỏa thuận của Apple và quy mô của các thỏa thuận khác trước đây chưa được công khai.
Một đối thủ cạnh tranh của Shutterstock, Freepik, nói với Reuters rằng họ đã đạt được thỏa thuận với hai công ty công nghệ lớn để cấp phép tiếp cận phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 đến 4 xu cho mỗi hình ảnh. Giám đốc điều hành Joaquin Cuenca Abela cho biết có thêm 5 giao dịch tương tự đang được thực hiện và từ chối công bố danh tính người mua.
OpenAI, một khách hàng đầu tiên của Shutterstock, cũng đã ký thỏa thuận cấp phép với ít nhất bốn tổ chức tin tức, bao gồm The Associated Press, Axel Springer. Thomson Reuters, chủ sở hữu của Reuters News, cho biết riêng họ đã đạt được thỏa thuận cấp phép nội dung tin tức để giúp đào tạo các mô hình ngôn ngữ lớn AI, nhưng không tiết lộ chi tiết.

Nội dung “có nguồn gốc hợp pháp”

Một ngành công nghiệp gồm các công ty dữ liệu AI chuyên dụng cũng đang nổi lên, đảm bảo bản quyền đối với nội dung trong thế giới thực như podcast, video dạng ngắn và các tương tác với trợ lý kỹ thuật số, đồng thời xây dựng mạng lưới nhân viên hợp đồng ngắn hạn để tạo ra các mẫu hình ảnh và giọng nói tùy chỉnh từ đầu.

Công ty Defined.ai có trụ sở tại Seattle (Mỹ) cấp phép dữ liệu cho một loạt công ty bao gồm Google, Meta, Apple, Amazon và Microsoft, giám đốc điều hành Daniela Braga nói với Reuters.
Giá cả khác nhau tùy theo người mua và loại nội dung, nhưng Daniela Braga cho biết các công ty thường sẵn sàng trả từ 1 đến 2 USD cho mỗi hình ảnh, 2 đến 4 USD cho mỗi video dạng ngắn và 100 đến 300 USD mỗi giờ cho phim dài hơn. Giám đốc này cho biết giá thị trường cho văn bản là 0,001 USD mỗi từ. Những hình ảnh khỏa thân, đòi hỏi phải xử lý nhạy cảm nhất, có giá từ 5 đến 7 USD.
Daniela Braga cho biết, Defined.ai chia những khoản thu nhập đó với các nhà cung cấp nội dung. Defined.ai tiếp thị các tập dữ liệu của mình là "có nguồn gốc hợp pháp" vì nó nhận được sự đồng ý từ những người có dữ liệu mà nó sử dụng và loại bỏ thông tin nhận dạng cá nhân.
Một trong những nhà cung cấp của Defined.ai, một doanh nhân có trụ sở tại Brazil, cho biết ông trả cho chủ sở hữu những bức ảnh, podcast và dữ liệu y tế mà ông cung cấp khoảng 20% đến 30% tổng số tiền giao dịch.
Doanh nhân này cho biết những hình ảnh đắt giá nhất trong danh mục đầu tư của họ là những hình ảnh được sử dụng để đào tạo các hệ thống AI chặn nội dung như hình ảnh bạo lực bị các công ty công nghệ cấm.
Để thực hiện những yêu cầu đó, doanh nhân này thu thập các hình ảnh về hiện trường vụ án, bạo lực xung đột và các cuộc phẫu thuật - chủ yếu từ cảnh sát, phóng viên ảnh tự do và sinh viên y khoa - thường ở những nơi ở Nam Mỹ và Châu Phi. Doanh nhân này cho biết ông đã nhận được hình ảnh từ các nhiếp ảnh gia tự do ở Gaza kể từ khi bắt đầu cuộc chiến ở đó vào tháng 10, cộng với một số hình ảnh từ Israel khi bắt đầu chiến sự.
Công ty của doanh nhân Brazil thuê các y tá đã quen với việc chứng kiến những vết thương bạo lực để ẩn danh và chú thích cho những hình ảnh đó.

Vẫn tồn tại mối lo về quyền riêng tư

Theo nhiều người trong ngành được Reuters phỏng vấn, mặc dù việc cấp phép có thể giải quyết một số vấn đề pháp lý và đạo đức, nhưng việc phục hồi kho lưu trữ của các công ty Internet cũ như Photobucket làm nhiên liệu cho các mô hình AI mới nhất sẽ gây ra những vấn đề khác, đặc biệt là về quyền riêng tư của người dùng.
Các hệ thống AI đã bị phát hiện đang lấy lại các bản sao chính xác của dữ liệu đào tạo của chúng, chẳng hạn như hình mờ Getty Images, các đoạn văn nguyên văn của các bài báo trên New York Times và hình ảnh của người thật. Điều đó có nghĩa là những bức ảnh riêng tư hoặc những suy nghĩ riêng tư của một người được đăng cách đây nhiều thập kỷ có thể xuất hiện trong các kết quả đầu ra của AI mà không cần thông báo hoặc có sự đồng ý rõ ràng.
Giám đốc điều hành Photobucket, Leonard cho biết ông có cơ sở pháp lý vững chắc, trích dẫn bản cập nhật các điều khoản dịch vụ của công ty vào tháng 10, cấp cho công ty "quyền không hạn chế" để bán bất kỳ nội dung nào được tải lên nhằm mục đích đào tạo hệ thống AI. Photobucket coi dữ liệu cấp phép là một giải pháp thay thế cho việc bán quảng cáo.
“Chúng tôi cần thanh toán các hóa đơn của mình và điều này có thể mang lại cho chúng tôi khả năng tiếp tục hỗ trợ các tài khoản miễn phí”, Leonard cho biết.
Braga của Defined.ai cho biết cô tránh mua nội dung từ các công ty "nền tảng" như Photobucket và thích lấy nguồn ảnh trên mạng xã hội từ những người có ảnh hưởng đã tạo ra chúng, những người mà cô cho rằng có yêu cầu rõ ràng hơn về quyền cấp phép.
Braga nói về nội dung nền tảng: “Tôi thấy điều đó rất rủi ro. Nếu có AI nào đó tạo ra thứ gì đó giống với hình ảnh của một người chưa bao giờ chấp nhận thứ đó thì đó là một vấn đề.”
Photobucket không phải là nền tảng duy nhất trong số các nền tảng chấp nhận cấp phép. Công ty mẹ của Tumblr, Automattic, cho biết vào tháng trước rằng họ đang chia sẻ nội dung với "các công ty AI được chọn lọc". Vào tháng 2, Reuters đưa tin Reddit đã đạt được thỏa thuận với Google để cung cấp nội dung của mạng xã hội này cho việc đào tạo các mô hình AI của Google.
Trước đợt chào bán cổ phiếu lần đầu ra công chúng vào tháng 3, Reddit tiết lộ, rằng hoạt động kinh doanh cấp phép dữ liệu của họ là đối tượng của cuộc điều tra của Ủy ban Thương mại Liên bang Hoa Kỳ (FTC) và thừa nhận rằng nó có thể vi phạm các quy định về quyền riêng tư và sở hữu trí tuệ đang phát triển.