OpenAI thừa nhận không thể đào tạo mô hình AI mà không sử dụng các tài liệu có bản quyền

VNR Content · 12/01/2024

OpenAI đã gần đây thông báo với các thành viên của Hạ viện Anh rằng việc huấn luyện các mô hình ngôn ngữ lớn (LLMs) mà không sử dụng tài liệu có bản quyền là “không thể”. Tuyên bố này được đưa ra nhằm đáp lại Ủy ban Chọn lựa về Truyền thông và Kỹ thuật số của Vương quốc Anh, đang tìm hiểu về các vấn đề pháp lý liên quan đến các hệ thống AI hiện tại.
Các ứng dụng tiêu dùng hiện tại như ChatGPT và Dall-E dựa trên GPT-3. Kể từ năm 2018, OpenAI đã huấn luyện mô hình trên hàng tỷ mẫu văn bản, nghệ thuật và hình ảnh, chủ yếu được thu thập từ internet. Vào tháng 3, OpenAI đã phát hành GPT-4, sử dụng một tập dữ liệu của các mẫu văn bản với kích thước khoảng 570GB. Một số ví dụ trong tài liệu huấn luyện bao gồm các trang web và sách, không còn nghi ngờ gì là những tác phẩm được bảo vệ. Tuy nhiên, luật bản quyền đi xa hơn nhiều so với sách và trang web.
“Vì bản quyền hiện nay bao gồm hầu như mọi loại biểu hiện của con người - bao gồm cả blogposts, hình ảnh, bài đăng diễn đàn, đoạn mã phần mềm, và tài liệu chính phủ - nên sẽ không thể huấn luyện các mô hình AI hàng đầu ngày nay mà không sử dụng tài liệu có bản quyền,” tuyên bố của OpenAI gửi đến Hạ viện Anh.
Quả thật, theo luật bản quyền hiện hành, bản quyền không cần phải được đăng ký để được bảo vệ. Bất kỳ tài sản trí tuệ nào đều tự động được bảo hỏa bản quyền khi người tạo đặt nó vào phương tiện vĩnh viễn. Không quan trọng nó là một tệp số, video, sách, bài đăng blog, hay bình luận diễn đàn. Tất cả các luật bản quyền đều áp dụng.

OpenAI thừa nhận không thể đào tạo mô hình AI mà không sử dụng các tài liệu có bản quyền

Vấn đề này không phải là vấn đề lớn trong những năm trước bởi vì nghiên cứu học máy chỉ thuần túy học thuật. Việc huấn luyện được coi là sử dụng hợp lý và không ai làm phiền các nhà nghiên cứu. Tuy nhiên, bây giờ khi LLMs đi vào thương mại, chúng đã bước vào một khu vực mờ mịt của giáo trình sử dụng hợp lý.
Trong một số trường hợp hiếm hoi, ChatGPT “tái tạo” các đoạn có bản quyền, đây là một vi phạm rõ ràng và là một vấn đề mà OpenAI đang nỗ lực loại bỏ. Tuy nhiên, vấn đề đó không liên quan trực tiếp đến những gì xảy ra khi các nhà nghiên cứu huấn luyện một LLM với tài liệu được bảo vệ. Thay vào đó, hệ thống sử dụng các tác phẩm, có bản quyền hay không, để học cách cấu trúc và sử dụng ngôn ngữ để nó có thể tạo ra nội dung gốc mà con người có thể hiểu.
Thật không may, là một biên giới mới, luật bản quyền không có định nghĩa pháp lý về việc huấn luyện AI. Vì vậy, các bên bị cáo buộc vi phạm đã bắt đầu đưa vụ kiện lên tòa án. Các công ty như OpenAI và Microsoft đang nói, “Không. Việc huấn luyện rơi vào sự sử dụng hợp lý như nó luôn luôn có.”
“Việc huấn luyện các mô hình AI sử dụng tài liệu trên internet có sẵn là sử dụng hợp lý, được hỗ trợ bởi các tiền lệ lâu đời và được chấp nhận rộng rãi,” OpenAI đã nói trong một bài đăng trên blog tuần này. “Chúng tôi xem nguyên tắc này là công bằng với các nhà sáng tạo, cần thiết cho các nhà đổi mới, và quan trọng cho sự cạnh tranh của Hoa Kỳ.”

Mặc dù tin rằng giáo trình sử dụng hợp lý bao gồm việc huấn luyện LLM, OpenAI cung cấp một quy trình từ chối đơn giản, mà The New York Times đã sử dụng vào tháng 8 năm ngoái. Công cụ của OpenAI không còn truy cập được vào trang web của NYT, nhưng tờ báo đã nộp đơn kiện vào tháng 12.
“Chúng tôi ủng hộ báo chí, hợp tác với các tổ chức tin tức, [nhưng] tin rằng kiện tụng của The New York Times không có căn cứ,” nó nói.
OpenAI đối mặt với các kiện tụng tương tự từ một số tác giả đã xuất bản, bao gồm nghệ sĩ hài nổi tiếng Sarah Silverman. Đây là một vấn đề mà tòa án không thể giải quyết một mình. Cục Sở hữu trí tuệ và Thương hiệu của Hoa Kỳ, cùng với các nhà lập pháp, cần phải định rõ vai trò của việc huấn luyện AI trong các quy tắc bản quyền.

>>> "Bất lực" vì trẻ quấy khóc? Đã có ứng dụng AI "hiểu" được tiếng khóc của trẻ sơ sinh

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

OpenAI thừa nhận không thể đào tạo mô hình AI mà không sử dụng các tài liệu có bản quyền

VNR Content

Pearl

VNR Content

Vì sao AI đang khiến hacker đi trước doanh nghiệp một bước?

85% người dùng vẫn Google lại sau khi đã hỏi AI. Có chuyện gì vậy?

Anthropic và Lầu Năm Góc đối đầu: Cuộc chiến kiểm soát AI quân sự

Anthropic kiện chính phủ Mỹ, chính phủ Mỹ muốn loại bỏ Claude. Chuyện gì sẽ tiếp theo?

Dell "bắt tay" NVIDIA thương mại hóa siêu máy tính để bàn Dell Pro Max chuyên chạy tác nhân AI tự chủ

Startup tìm giải pháp tối ưu điện năng, chấm dứt lãng phí cho trung tâm dữ liệu AI

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Hàng loạt nền tảng AI phổ biến bị phát hiện lỗ hổng nghiêm trọng

Đánh giá nổi bật