ChatGPT đối mặt với sự hủy diệt? GPT-4 bị tiết lộ đã sao chép nguyên văn văn bản gốc, OpenAI có thể phải bồi thường hàng tỷ USD

Đoàn Thúy Hà · 29/12/2023

OpenAI và Microsoft vừa chính thức bị New York Times kiện! Số tiền yêu cầu lên tới hàng tỷ USD.
Cáo buộc cho rằng OpenAI và Microsoft đã sử dụng hàng triệu bài báo của New York Times để đào tạo các mô hình GPT mà không được phép và tạo ra các sản phẩm AI như ChatGPT và Copilot.
Tập đoàn xuất bản nổi tiếng cũng yêu cầu phá hủy "tất cả GPT hoặc các mô hình và bộ đào tạo ngôn ngữ lớn khác có chứa các tác phẩm của New York Times".
Sau nhiều tháng lập kế hoạch, cuối cùng nó cũng đã đến.
Vụ án này liên quan đến mối quan hệ phức tạp giữa công nghệ AI và luật bản quyền. Sau sự phổ biến của các mô hình lớn, ngành này vẫn chưa thể xây dựng luật rõ ràng để xác định hành vi vi phạm bản quyền của AI.
Vụ án do New York Times đưa ra có thể nói là vụ án lớn nhất, tiêu biểu nhất và giật gân nhất tính đến thời điểm hiện tại. Đây hẳn là một sự kiện quan trọng trong toàn bộ lịch sử của Generative AI, đánh dấu một bước ngoặt trong lĩnh vực trí tuệ nhân tạo và bản quyền.

ChatGPT đối mặt với sự hủy diệt? GPT-4 bị tiết lộ đã sao chép nguyên văn văn bản gốc, OpenAI có thể phải bồi thường hàng tỷ USD

Trong các tài liệu truy tố, một trong những tranh chấp chính của New York Times là trang web thu thập thông tin công cộng Common Crawl, bộ dữ liệu có trọng số đào tạo lớn nhất cho ChatGPT. Trong số đó, trong bản chụp dữ liệu năm 2019, nội dung NYT chiếm 100 triệu token.
Những bằng chứng được New York Times đưa ra khiến OpenAI không nói nên lời.
Bên trái là câu xuất ra của GPT-4, bên phải là văn bản gốc của New York Times, phần màu đỏ là phần chồng chéo. Mức độ đạo văn nguyên văn này đơn giản là ngoạn mục.

GPT-4 bị phát hiện là sao chép văn bản gốc

Bản cáo trạng cáo buộc rõ ràng hành vi vi phạm bản quyền của OpenAI và nhấn mạnh sự tương đồng cao giữa bài báo của New York Times và nội dung đầu ra của ChatGPT.

“Các bị cáo đã cố gắng tận dụng khoản đầu tư khổng lồ của New York Times vào lĩnh vực báo chí, sử dụng miễn phí nội dung của New York Times để tạo ra các lựa chọn thay thế cho nó và đánh cắp độc giả từ nó.”
Trong hồ sơ, NYT đã cung cấp một số thông tin quan trọng. Ví dụ: NYT là tập dữ liệu độc quyền lớn nhất được sử dụng để đào tạo GPT trong Thu thập thông tin chung.
Từ bảng bên dưới, có thể thấy trong số dữ liệu huấn luyện GPT-3 với 175 tỷ tham số, hầu hết các bộ dữ liệu đều đến từ Common Crawl, chiếm tới 60% trọng lượng.

Hình dưới đây là "bản sao web" được cung cấp bởi Common Crawl, một tổ chức phi lợi nhuận 501.
Trong tập hợp con tiếng Anh được lọc của ảnh chụp nhanh Common Crawl 2019, tên miền www.nytimes.com là nguồn độc quyền được đại diện nhiều nhất (xếp thứ ba tổng thể, sau Wikipedia và Cơ sở dữ liệu tài liệu bằng sáng chế của Hoa Kỳ), chiếm 100 triệu mã thông báo.

Cụ thể, bộ dữ liệu Common Crawl bao gồm ít nhất 16 triệu mục từ trang tin tức New York Times (News), chương trình nấu ăn Cooking, trang web đánh giá Wirecutter, trang web tin tức thể thao (The Athletic) và hơn 66 triệu mục từ NYT Content ghi.
Bản thân OpenAl thừa nhận rằng nội dung chất lượng cao, bao gồm cả NYT, quan trọng và có giá trị hơn đối với việc đào tạo mô hình GPT so với nội dung từ các nguồn chất lượng thấp khác.
NYT chỉ ra rằng GPT-4 đưa ra các trường hợp hầu như phù hợp với nội dung của bài báo trên New York Times, điều này đủ để chứng minh rằng OpenAI lạm dụng dữ liệu của chính mình.

Ví dụ, trong trường hợp nêu trên, tờ New York Times đã xuất bản một loạt năm bài báo vào năm 2019 về việc cho vay nặng lãi trong ngành taxi của Thành phố New York và đã giành được Giải Pulitzer.
Cuộc điều tra kéo dài 18 tháng bao gồm 600 cuộc phỏng vấn, hơn 100 yêu cầu tiết lộ, phân tích dữ liệu quy mô lớn và xem xét hàng nghìn trang hồ sơ nội bộ ngân hàng cùng các tài liệu khác.
OpenAI không tham gia vào việc tạo ra những nội dung này mà trực tiếp xuất ra hầu hết nội dung với rất ít lời nhắc.

Ngoài ra còn có báo cáo sau đây, NYT đã liên hệ với hàng trăm giám đốc điều hành hiện tại và trước đây của Apple vào năm 2012, và cuối cùng đã thu được từ hơn 60 người trong nội bộ Apple về việc gia công phần mềm của Apple và các công ty công nghệ khác đã thay đổi nền kinh tế toàn cầu như thế nào.
Một lần nữa, GPT-4 đã sao chép những điều này và có thể đọc thuộc lòng hầu hết chúng nguyên văn.

Có thể thấy, khi ChatGPT trả lời sẽ đưa ra một bản sao hoặc tác phẩm phái sinh của tác phẩm New York Times được ghi nhớ theo mô hình GPT.
Về vấn đề này, NYT suy đoán rằng mô hình GPT chắc chắn đã sử dụng nhiều tác phẩm của chính mình trong quá trình đào tạo để có thể tạo ra nội dung nhất quán như vậy.
Trong ví dụ bên dưới, ChatGPT đã trích dẫn một phần của bài báo New York Times đoạt giải Pulitzer năm 2012 "Tuyết rơi: Trận lở tuyết ở Tunnel Creek".

Microsoft Bing và ChatGPT cũng tiết lộ dữ liệu tương tự khi kết hợp tìm kiếm.
Bing gần như sao chép kết quả của Wirecutter, một trang web thuộc sở hữu của New York Times, nhưng không liên kết với Wirecutter. Theo đơn khiếu nại, điều này sẽ dẫn đến lưu lượng truy cập của Wirecutter giảm và doanh thu giảm mạnh.

Giáo sư Ethan Mollick của Wharton cho biết trong vụ kiện này, chúng ta có thể thấy mối quan hệ giữa dữ liệu đào tạo và đầu ra phức tạp đến mức nào.
Một mặt, bạn có thể khiến ChatGPT nhổ trực tiếp văn bản gốc của New York Times.

Mặt khác, ChatGPT cũng có thể gây ảo giác và sẽ bịa đặt rằng tờ New York Times đã đăng một bài báo vào tháng 1 năm 2020 “Nghiên cứu tìm thấy mối liên hệ có thể có giữa nước cam và bệnh ung thư hạch không Hodgkin”. tồn tại chút nào.

New York Times không nhân nhượng nữa

Mới hôm nay, chính tờ New York Times đã viết một bài báo đưa tin về vấn đề này với tựa đề "The New York Times kiện OpenAI và Microsoft vì sử dụng các tác phẩm có bản quyền".
Một phóng viên của tờ New York Times cho rằng phương tiện truyền thông của chính ông “đã mở ra một mặt trận mới trong cuộc chiến pháp lý ngày càng khốc liệt về việc sử dụng trái phép các tác phẩm đã xuất bản để đào tạo công nghệ AI”.
Quả thực, New York Times là tổ chức truyền thông lớn đầu tiên của Mỹ kiện nền tảng ChatGPT về vấn đề bản quyền.
Nó cũng kêu gọi các công ty này tiêu hủy tất cả các mô hình chatbot và dữ liệu đào tạo sử dụng tài liệu có bản quyền của New York Times.
Ngay từ tháng 4 năm nay, tờ New York Times đã liên hệ với Microsoft và OpenAI để bày tỏ mối lo ngại về việc sử dụng tài sản trí tuệ của họ và khám phá các giải pháp thân thiện nhằm thiết lập các thỏa thuận thương mại và các biện pháp bảo vệ kỹ thuật. Nhưng các cuộc đàm phán không dẫn đến bất kỳ giải pháp nào.
Bản cáo trạng cũng chỉ ra rằng vấn đề bản quyền trí tuệ cũng có thể là nguyên nhân dẫn đến cuộc chiến tại tòa án OpenAI, bởi cựu thành viên hội đồng quản trị Helen Toner đã từng nêu vấn đề này trong một bài báo và Altman sau đó đã tranh chấp với bà về vấn đề này.

Người phát ngôn của OpenAI cho biết công ty đang tiến hành đàm phán với New York Times và rất ngạc nhiên cũng như thất vọng trước vụ kiện.
Chúng tôi tôn trọng quyền của người sáng tạo và chủ sở hữu nội dung, đồng thời cam kết hợp tác với họ để đảm bảo họ được hưởng lợi từ công nghệ AI và các mô hình doanh thu mới.
Chúng tôi hy vọng tìm được sự hợp tác đôi bên cùng có lợi, giống như chúng tôi đã làm với nhiều nhà xuất bản khác.

Cuộc thảo luận sôi nổi của cư dân mạng

Vụ việc đang gây tranh cãi gay gắt vì nhiều công ty AI sáng tạo đào tạo các mô hình trong vùng xám mờ về mức độ sử dụng nội dung có bản quyền.
Một số người cho rằng nghịch lý của sự bất đồng là đào tạo không phải là sao chép mà là học tập. Tiến hành nghiên cứu thống kê mà không vi phạm bản quyền, chẳng hạn như kiểm tra một triệu hình ảnh để tính toán bao nhiêu phần trăm Internet chứa hình ảnh của mèo con.

Một số người phản đối rằng sao chép là một phần của quá trình đào tạo và việc đào tạo rõ ràng liên quan đến việc sao chép.
Tại Hoa Kỳ, có nhiều yếu tố quyết định liệu nội dung có bản quyền có phải là hành vi sử dụng hợp lý hay không. Nghiên cứu thống kê là sử dụng hợp lý, nhưng AI tổng quát thì không.

Vì vậy, ở điểm nào nó nên được xác định là vi phạm?
Có vấn đề gì khi tạo trọng số trong mạng lưới thần kinh không? Hay vấn đề xảy ra với việc sử dụng mạng lưới thần kinh để tạo ra nội dung mới? Nếu làm ở nhà mà không bán thành quả thì có tính là vi phạm không?

Cư dân mạng kết luận rằng nhiều người cho rằng các công ty AI không phải chịu trách nhiệm về việc vi phạm bản quyền của người dùng như các công cụ như Photoshop, điều này hoàn toàn sai lầm.
Một số công ty AI có được sự đồng ý của người sáng tạo, nhưng hầu hết thì không.

Thậm chí, có người còn cho rằng vụ kiện OpenAI của New York Times đã hiểu sai hoàn toàn về cách thức hoạt động của LLM, nếu thẩm phán làm sai sẽ gây thiệt hại rất lớn cho trí tuệ nhân tạo.
Bài học cơ bản: Các mô hình lớn không "lưu trữ" văn bản đào tạo cơ bản. Điều này là không thể về mặt kỹ thuật vì kích thước tham số của GPT-3.5 hoặc GPT-4 không đủ lớn để mã hóa tập huấn luyện một cách dễ dàng.
Nói một cách đơn giản, nguyên tắc hoạt động của mô hình lớn là thu được một lượng lớn dữ liệu huấn luyện văn bản từ toàn bộ Internet, sau đó huấn luyện mô hình chú ý để dự đoán mã thông báo tiếp theo sau văn bản của người dùng nhất định.
Nghĩa là, nếu bạn nói "mặt trời", từ tiếp theo có thể là "là", "tăng" hoặc "gửi". Nếu câu lệnh là "The Sun" của Hemingway, thì có khả năng từ tiếp theo là "cũng".

Trọng số của mô hình chú ý đại khái là phân bố xác suất này. Thủ thuật lớn nhất khi sử dụng LLM/Transformer là hiểu phần nào của văn bản trước hữu ích nhất để dự đoán "chính xác" mã thông báo tiếp theo. Không có văn bản nào được "ghi nhớ" từ Internet.
Nghĩa là, nếu các tham số của mô hình vượt xa lượng dữ liệu huấn luyện (lớn hơn nhiều so với GPT4) và người dùng cung cấp một văn bản duy nhất trước đó và văn bản tiếp theo nhiều lần khớp chính xác với nội dung nào đó trong dữ liệu huấn luyện thì mô hình sẽ có nội dung trong dữ liệu đào tạo có thể được tạo nhiều lần, nghĩa là xác suất của nội dung tiếp theo sẽ đạt tới 1!
Nghĩa là, các mô hình rất lớn thực sự có thể tóm tắt lại văn bản đào tạo, nhưng điều này đòi hỏi các tham số vượt xa dữ liệu đào tạo và văn bản có liên quan. Tuy nhiên, cấp độ GPT hiện tại vẫn chưa đạt được trạng thái này.

Hãy quay lại ví dụ của NYT trong vụ kiện.
Ở đây, GPT gần như đã trích ra đoạn mở đầu của một bài báo “Tuyết rơi” năm 2012 một cách hoàn hảo. Nhưng bài viết này tràn lan trên mạng, bài viết siêu nổi tiếng! Đây là lý do tại sao dự đoán sau của GPT ở đoạn trước lại tốt đến vậy.

Đối với những bài báo ít nổi tiếng hơn, NYT cáo buộc ChatGPT đã truyền bá sự thật sai lệch.
Chủ yếu là vì, nếu một tập hợp các câu trước đó chỉ xuất hiện một lần trong dữ liệu huấn luyện thì văn bản phía sau được dự đoán sẽ không khớp với dữ liệu huấn luyện. Nó sẽ "ảo giác" một cái gì đó giống với văn bản hợp lý.
Ảo giác xảy ra do mô hình lớn hoàn toàn không biết sự thật mà chỉ biết sự phân bố của từ tiếp theo.

Đây là một vấn đề lớn vì nó có thể tạo tiền lệ cho cách tòa án xác định giá trị của nội dung tin tức khi đào tạo các mô hình ngôn ngữ lớn và mức bồi thường phải trả cho việc sử dụng trước đó.

Giữa hành trình nhổ ra "ảnh gốc"?

Không chỉ OpenAI và Microsoft, mà ngay cả công cụ lập bản đồ AI mạnh mẽ nhất Midjourney cũng sẽ phải đối mặt với làn sóng kiện tụng trong tương lai.
Midjourney V6 đã gây chấn động toàn bộ Internet sau khi nâng cấp, nhưng đồng thời, một số người phát hiện ra rằng những hình ảnh mà nó xuất ra hoàn toàn không thể phân biệt được với ảnh tĩnh của Hollywood và các bộ phim khác.

Reid Southen, họa sĩ minh họa và concept phim từng làm việc cho Marvel, cho biết chỉ mất 15 phút để tìm ra bằng chứng vi phạm bản quyền và đạo văn của Midjourney.
Trong hình ảnh bên dưới, bạn có thể thấy rằng hình ảnh được tạo ra rất giống với phim gốc, chỉ có một chút khác biệt về góc máy hoặc tư thế.
Anh ấy cũng đã làm một video cho thấy thí nghiệm đạo văn của mình bằng cách sử dụng Midjourney V6. Southen đã bị đuổi khỏi nhóm Midjourney Discord vì những bình luận mà anh ấy đưa ra.
Theo Southen, phần mềm AI hoàn toàn có thể sao chép tài sản trí tuệ có bản quyền và tạo ra các sản phẩm phái sinh không giới hạn.
Các nghệ sĩ sẽ cạnh tranh với tác phẩm của chính mình trên cùng một thị trường. Khi 50% tác phẩm trực tuyến của Marvel cuối cùng đều là hàng nhái trí tuệ nhân tạo, vấn đề hình ảnh thương hiệu và sự nhầm lẫn của người tiêu dùng sẽ được giải quyết như thế nào?

Đối với những tác phẩm nghệ thuật kinh điển như Mona Lisa, bạn hoàn toàn có thể tái hiện lại hình ảnh gốc chỉ bằng hai từ gợi ý.
Và trong trường hợp này, hành vi này sẽ không bị coi là "đạo văn" về mặt pháp lý vì "Mona Lisa" đã cũ và đã thuộc bản quyền công cộng.

Các cảnh trong bộ phim năm 2019 “Joker” của đạo diễn Todd Phillips cũng đã được Midjourney V6 “sẵn sàng sử dụng”.

Hai bức ảnh này giống nhau đến mức người ta phải nghi ngờ rằng đây dường như là phiên bản sau khi tinh chỉnh dữ liệu huấn luyện.
Sự khác biệt nằm ở ánh sáng và màu sắc.

Keanu trong The Matrix cũng gần như giống hệt phim gốc.

Midjourney V6 thậm chí có thể tái tạo bất kỳ phong cách hoạt hình nào.

Để tối đa hóa hiệu suất, một mô hình mới có thể được huấn luyện lặp đi lặp lại trên cùng một dữ liệu, dẫn đến kết quả đầu ra gần giống với dữ liệu huấn luyện.
Điều này được gọi là "trang bị quá mức" và nghiên cứu trước đây đã chỉ ra rằng điều này có thể xảy ra. ChatGPT cũng có dấu hiệu văn bản quá phù hợp.
Mẫu động cơ V6 mới có thể sẽ là bom tấn. Hiện tại, Midjourney đã vướng vào ít nhất một vụ kiện tụng.
Trong tương lai, không ai có thể phân biệt được những hình ảnh này trên Internet là ảnh động gốc hay do AI tạo ra.
Nguồn:

https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

https://the-decoding.com/midjourneys-v6-model-draws-close-to-copyright-infringement-with-movie-scene-images/

https://twitter.com/x/status/1740109462319644905

https://twitter.com/x/status/1740116230114312264