Để đánh bại OpenAI trong cuộc chiến AI, Meta sẵn sàng bất chấp tất cả

Hail the Judge · 10:24

Một vụ kiện bản quyền lớn chống lại Meta đã tiết lộ một loạt thông tin liên lạc nội bộ về kế hoạch phát triển mô hình AI nguồn mở Llama của công ty, bao gồm các cuộc thảo luận về việc tránh “báo chí đưa tin cho rằng chúng tôi đã sử dụng một tập dữ liệu mà chúng tôi biết là vi phạm bản quyền”.

Các tin nhắn là một phần của hàng loạt bằng chứng được một tòa án California công bố, cho thấy Meta đã sử dụng dữ liệu có bản quyền khi đào tạo hệ thống AI và cố gắng che giấu. Mục đích chạy đua để đánh bại các đối thủ như OpenAI và Mistral. Một phần của các tin nhắn đã được tiết lộ lần đầu tiên vào tuần trước.

Trong email tháng 10 năm 2023 gửi cho nhà nghiên cứu AI Hugo Touvron của Meta, phó chủ tịch AI tạo sinh Ahmad Al-Dahle của Meta đã viết rằng mục tiêu của công ty “cần phải đánh bại GPT4”, đề cập đến mô hình ngôn ngữ lớn mà OpenAI đã công bố vào tháng 3 năm 2023. Meta đã “phải học cách xây dựng biên giới và giành chiến thắng trong cuộc đua này”, Al-Dahle nói thêm. Những kế hoạch đó rõ ràng liên quan đến trang web vi phạm bản quyền sách Library Genesis (LibGen) để đào tạo hệ thống AI của mình.

Một email không đề ngày từ giám đốc sản phẩm của Meta, Sony Theakanath, gửi cho phó chủ tịch nghiên cứu AI Joelle Pineau, đã cân nhắc xem có nên chỉ sử dụng LibGen nội bộ, cho các điểm chuẩn được bao gồm trong bài đăng trên blog hay để tạo mô hình được đào tạo trên trang web hay không. Trong email, Theakanath viết rằng “GenAI đã được phê duyệt sử dụng LibGen cho Llama3… với một số biện pháp giảm thiểu đã thống nhất” sau khi chuyển nó cho “MZ” - có lẽ là Giám đốc điều hành Meta Mark Zuckerberg. Như đã lưu ý trong email, Theakanath tin rằng “Libgen là điều cần thiết để đáp ứng các con số SOTA [hiện đại nhất]”, đồng thời cho biết thêm “được biết OpenAI và Mistral đang sử dụng thư viện cho các mô hình của họ (qua truyền miệng)”. Mistral và OpenAI chưa tuyên bố liệu họ có sử dụng LibGen hay không. (The Verge đã liên hệ với cả hai để biết thêm thông tin.)

Các tài liệu của tòa án bắt nguồn từ một vụ kiện tập thể mà tác giả Richard Kadrey, diễn viên hài Sarah Silverman và những người khác đã đệ trình chống lại Meta, cáo buộc họ sử dụng nội dung có bản quyền thu được bất hợp pháp để đào tạo các mô hình AI, vi phạm luật sở hữu trí tuệ. Meta giống như các công ty AI khác đã lập luận rằng việc sử dụng tài liệu có bản quyền trong dữ liệu đào tạo nên cấu thành việc sử dụng hợp pháp. The Verge đã liên hệ với Meta với yêu cầu bình luận nhưng không nhận được phản hồi ngay lập tức.

Một số “biện pháp giảm thiểu” khi sử dụng LibGen bao gồm các quy định rằng Meta phải “xóa dữ liệu được đánh dấu rõ ràng là vi phạm bản quyền/bị đánh cắp”, đồng thời tránh trích dẫn bên ngoài “việc sử dụng bất kỳ dữ liệu đào tạo nào” từ trang web. Email của Theakanath cũng cho biết công ty sẽ cần “đội đỏ” các mô hình của công ty “đối với vũ khí sinh học và CBRNE [Hóa học, Sinh học, Phóng xạ, Hạt nhân và Chất nổ]”.

Email này cũng đề cập đến một số “rủi ro chính sách” do việc sử dụng LibGen gây ra, bao gồm cả cách các nhà quản lý có thể phản ứng với các phương tiện truyền thông đưa tin cho thấy Meta sử dụng nội dung vi phạm bản quyền. Email cho biết: “Điều này có thể làm suy yếu vị thế đàm phán của chúng tôi với các cơ quan quản lý về những vấn đề này”. Một cuộc trò chuyện vào tháng 4 năm 2023 giữa nhà nghiên cứu Nikolay Bashlykov của Meta và thành viên nhóm AI David Esiobu cũng cho thấy Bashlykov thừa nhận rằng anh ấy “không chắc chúng tôi có thể sử dụng IP của meta để tải qua torrent [của] nội dung lậu hay không”.

Các tài liệu nội bộ khác cho thấy các biện pháp mà Meta đã thực hiện để che giấu thông tin bản quyền trong dữ liệu đào tạo của LibGen. Một tài liệu có tiêu đề “quan sát về LibGen-SciMag” cho thấy các nhận xét của nhân viên về cách cải thiện tập dữ liệu. Một đề xuất là “xóa thêm tiêu đề bản quyền và mã định danh tài liệu”, bao gồm bất kỳ dòng nào chứa “ISBN”, “Bản quyền”, “Bảo lưu mọi quyền” hoặc ký hiệu bản quyền. Các ghi chú khác đề cập đến việc lấy thêm siêu dữ liệu “để tránh các biến chứng pháp lý tiềm ẩn” cũng như xem xét có nên xóa danh sách tác giả của bài báo hay không “để giảm trách nhiệm pháp lý”.

Vào tháng 6 năm ngoái, tờ New York Times đã đưa tin về cuộc chạy đua điên cuồng bên trong Meta sau khi ChatGPT ra mắt, tiết lộ rằng công ty đã gặp phải một bức tường: họ đã sử dụng gần như mọi cuốn sách, bài báo và bài thơ tiếng Anh có sẵn mà họ có thể tìm thấy trực tuyến. Do rất cần thêm dữ liệu, các giám đốc điều hành được cho là đã thảo luận về việc mua lại hoàn toàn Simon & Schuster và cân nhắc việc thuê các nhà thầu ở Châu Phi để tóm tắt sách mà không được phép.

Trong báo cáo, một số giám đốc điều hành đã biện minh cho cách tiếp cận của họ bằng cách chỉ ra “tiền lệ thị trường” của OpenAI về việc sử dụng các tác phẩm có bản quyền, trong khi những người khác lập luận rằng chiến thắng tại tòa án năm 2015 của Google xác lập quyền quét sách của họ có thể cung cấp vỏ bọc pháp lý. Một giám đốc điều hành cho biết trong một cuộc họp, theo tờ New York Times: “Điều duy nhất cản trở chúng tôi trở nên tốt như ChatGPT theo đúng nghĩa đen chỉ là khối lượng dữ liệu”.

Có thông tin cho rằng các phòng thí nghiệm tiên phong như OpenAI và Anthropic đã gặp phải một bức tường dữ liệu, có nghĩa là họ không có đủ dữ liệu mới để đào tạo các mô hình ngôn ngữ lớn của mình. Nhiều nhà lãnh đạo đã phủ nhận điều này. Giám đốc điều hành OpenAI, Sam Altman, nói thẳng thừng: “Không có bức tường nào cả”. Người đồng sáng lập OpenAI, Ilya Sutskever, người đã rời công ty vào tháng 5 năm ngoái để thành lập một phòng thí nghiệm tiên phong mới, đã thẳng thắn hơn về tiềm năng của một bức tường dữ liệu. Tại một hội nghị AI hàng đầu vào tháng trước, Sutskever cho biết, “Chúng tôi đã đạt đến đỉnh dữ liệu và sẽ không còn nữa. Chúng ta phải xử lý dữ liệu mà chúng ta có. Chỉ có một internet.”

Sự khan hiếm dữ liệu này đã dẫn đến rất nhiều cách mới kỳ lạ để có được dữ liệu duy nhất. Bloomberg đưa tin rằng các phòng thí nghiệm tiên tiến như OpenAI và Google đã trả cho những người tạo nội dung kỹ thuật số từ 1 đến 4 đô la mỗi phút cho các cảnh quay video chưa sử dụng của họ thông qua bên thứ ba để đào tạo LLM (cả hai công ty đó đều có các sản phẩm tạo video AI cạnh tranh).

Với việc các công ty như Meta và OpenAI hy vọng phát triển hệ thống AI của họ càng nhanh càng tốt, mọi thứ chắc chắn sẽ trở nên hơi lộn xộn. Mặc dù một thẩm phán đã bác bỏ một phần vụ kiện tập thể của Kadrey và Silverman vào năm ngoái, nhưng bằng chứng được nêu ở đây có thể củng cố các phần trong vụ án của họ khi vụ án được đưa ra tòa.