OpenAI thừa nhận không thể đào tạo mô hình AI mà không sử dụng các tài liệu có bản quyền

VNR Content · 12/01/2024

OpenAI đã gần đây thông báo với các thành viên của Hạ viện Anh rằng việc huấn luyện các mô hình ngôn ngữ lớn (LLMs) mà không sử dụng tài liệu có bản quyền là “không thể”. Tuyên bố này được đưa ra nhằm đáp lại Ủy ban Chọn lựa về Truyền thông và Kỹ thuật số của Vương quốc Anh, đang tìm hiểu về các vấn đề pháp lý liên quan đến các hệ thống AI hiện tại.
Các ứng dụng tiêu dùng hiện tại như ChatGPT và Dall-E dựa trên GPT-3. Kể từ năm 2018, OpenAI đã huấn luyện mô hình trên hàng tỷ mẫu văn bản, nghệ thuật và hình ảnh, chủ yếu được thu thập từ internet. Vào tháng 3, OpenAI đã phát hành GPT-4, sử dụng một tập dữ liệu của các mẫu văn bản với kích thước khoảng 570GB. Một số ví dụ trong tài liệu huấn luyện bao gồm các trang web và sách, không còn nghi ngờ gì là những tác phẩm được bảo vệ. Tuy nhiên, luật bản quyền đi xa hơn nhiều so với sách và trang web.
“Vì bản quyền hiện nay bao gồm hầu như mọi loại biểu hiện của con người - bao gồm cả blogposts, hình ảnh, bài đăng diễn đàn, đoạn mã phần mềm, và tài liệu chính phủ - nên sẽ không thể huấn luyện các mô hình AI hàng đầu ngày nay mà không sử dụng tài liệu có bản quyền,” tuyên bố của OpenAI gửi đến Hạ viện Anh.
Quả thật, theo luật bản quyền hiện hành, bản quyền không cần phải được đăng ký để được bảo vệ. Bất kỳ tài sản trí tuệ nào đều tự động được bảo hỏa bản quyền khi người tạo đặt nó vào phương tiện vĩnh viễn. Không quan trọng nó là một tệp số, video, sách, bài đăng blog, hay bình luận diễn đàn. Tất cả các luật bản quyền đều áp dụng.

OpenAI thừa nhận không thể đào tạo mô hình AI mà không sử dụng các tài liệu có bản quyền

Vấn đề này không phải là vấn đề lớn trong những năm trước bởi vì nghiên cứu học máy chỉ thuần túy học thuật. Việc huấn luyện được coi là sử dụng hợp lý và không ai làm phiền các nhà nghiên cứu. Tuy nhiên, bây giờ khi LLMs đi vào thương mại, chúng đã bước vào một khu vực mờ mịt của giáo trình sử dụng hợp lý.
Trong một số trường hợp hiếm hoi, ChatGPT “tái tạo” các đoạn có bản quyền, đây là một vi phạm rõ ràng và là một vấn đề mà OpenAI đang nỗ lực loại bỏ. Tuy nhiên, vấn đề đó không liên quan trực tiếp đến những gì xảy ra khi các nhà nghiên cứu huấn luyện một LLM với tài liệu được bảo vệ. Thay vào đó, hệ thống sử dụng các tác phẩm, có bản quyền hay không, để học cách cấu trúc và sử dụng ngôn ngữ để nó có thể tạo ra nội dung gốc mà con người có thể hiểu.
Thật không may, là một biên giới mới, luật bản quyền không có định nghĩa pháp lý về việc huấn luyện AI. Vì vậy, các bên bị cáo buộc vi phạm đã bắt đầu đưa vụ kiện lên tòa án. Các công ty như OpenAI và Microsoft đang nói, “Không. Việc huấn luyện rơi vào sự sử dụng hợp lý như nó luôn luôn có.”
“Việc huấn luyện các mô hình AI sử dụng tài liệu trên internet có sẵn là sử dụng hợp lý, được hỗ trợ bởi các tiền lệ lâu đời và được chấp nhận rộng rãi,” OpenAI đã nói trong một bài đăng trên blog tuần này. “Chúng tôi xem nguyên tắc này là công bằng với các nhà sáng tạo, cần thiết cho các nhà đổi mới, và quan trọng cho sự cạnh tranh của Hoa Kỳ.”

Mặc dù tin rằng giáo trình sử dụng hợp lý bao gồm việc huấn luyện LLM, OpenAI cung cấp một quy trình từ chối đơn giản, mà The New York Times đã sử dụng vào tháng 8 năm ngoái. Công cụ của OpenAI không còn truy cập được vào trang web của NYT, nhưng tờ báo đã nộp đơn kiện vào tháng 12.
“Chúng tôi ủng hộ báo chí, hợp tác với các tổ chức tin tức, [nhưng] tin rằng kiện tụng của The New York Times không có căn cứ,” nó nói.
OpenAI đối mặt với các kiện tụng tương tự từ một số tác giả đã xuất bản, bao gồm nghệ sĩ hài nổi tiếng Sarah Silverman. Đây là một vấn đề mà tòa án không thể giải quyết một mình. Cục Sở hữu trí tuệ và Thương hiệu của Hoa Kỳ, cùng với các nhà lập pháp, cần phải định rõ vai trò của việc huấn luyện AI trong các quy tắc bản quyền.

>>> "Bất lực" vì trẻ quấy khóc? Đã có ứng dụng AI "hiểu" được tiếng khóc của trẻ sơ sinh