Truyền thông Mỹ phanh phui mặt tối của mô hình lớn: dữ liệu dùng để huấn luyện có thể hơi bẩn

Ngọc Yến · 20/04/2023

Trong vòng sáu tháng trở lại đây, nhiều người đã được tiếp xúc với sự quyến rũ và kỳ diệu của các chatbot AI. Nhưng suy cho cùng, chưa có AI nào phát triển khả năng tự nhận thức giống con người và chúng có thể bắt chước lời nói của con người, phần lớn là do các thuật toán đã “hút” một lượng lớn văn bản—hầu hết được lấy từ internet.
Internet chứa đựng rất nhiều kinh nghiệm và kiến thức hữu ích, nhưng cư dân mạng trong thời đại số phải thừa nhận rằng trong rừng thông tin Internet rộng lớn cũng chứa đựng rất nhiều định kiến, phân biệt đối xử, nội dung gây hại, xâm phạm danh dự và quyền riêng tư. Có nhiều dấu hiệu cho thấy những "kiến thức cấm kỵ của con người" này cũng đã được mô hình lớn chấp nhận.
Hôm qua, tờ Washington Post đã công bố kết quả của một cuộc khảo sát được thực hiện với sự hợp tác của Viện Trí tuệ Nhân tạo Allen. Họ đã phân tách bộ dữ liệu C4 của Google, đây cũng là tài liệu đào tạo cho nhiều mô hình AI nổi tiếng bằng tiếng Anh, chẳng hạn như T5 của Google và LLaMA của Facebook. OpenAI, được các nhà đầu tư Trung Quốc chú ý nhiều hơn, chưa công bố bộ dữ liệu được sử dụng để đào tạo ChatGPT, vì vậy đây hiện là giải pháp thuận tiện nhất để nhìn vào hộp đen dữ liệu AI.

Khám phá hộp đen của bộ dữ liệu AI

Điều đáng nói là các nhà điều tra đã sử dụng dữ liệu phân loại trang web của SimilarWeb, vì một phần ba số trang web trong bộ dữ liệu C4 không còn tồn tại trên thế giới này nên dữ liệu thống kê thực tế là khoảng 10 triệu trang web.
Theo nghiên cứu, Google Patent Network, Wikipedia và thư viện kỹ thuật số đăng ký, bao gồm thông tin bằng sáng chế toàn cầu, xếp hạng trong số ba mạng hàng đầu trong toàn bộ tập dữ liệu. Nhưng khi cuộn danh sách xuống, một loạt những cái tên bất ngờ bắt đầu xuất hiện.
Trang web sách điện tử vi phạm bản quyền b-ok.org , đã bị Bộ Tư pháp Hoa Kỳ chặn, xếp thứ 190. Các trang web tương tự đã bị Hoa Kỳ chặn vì vi phạm bản quyền vẫn xuất hiện trong bộ dữ liệu ít nhất 27 lần.

Truyền thông Mỹ phanh phui mặt tối của mô hình lớn: dữ liệu dùng để huấn luyện có thể hơi bẩn

(b-ok.org bây giờ trông như thế này)
Ngoài ra, diễn đàn người chơi game World of Warcraft wowhead cũng xếp thứ 181 và trang web khóa học thay đổi hành vi của người sáng lập trang Huffington Post Arianna Huffington phát triển mạnh toàn cầu cũng xếp thứ 175. Ngạc nhiên thay, hai trang web cơ sở dữ liệu cử tri của Hoa Kỳ cũng lọt vào top 100. Mặc dù bản thân dữ liệu cử tri là công khai, nhưng ai có thể nói mô hình lớn có thể sử dụng dữ liệu cá nhân này ở đâu?
Dữ liệu sau đây cho thấy khả năng vi phạm các mô hình AI lớn có thể nghiêm trọng hơn tưởng tượng. Các trang web kinh doanh và công nghiệp là những danh mục lớn nhất trong bộ dữ liệu và trang web gây quỹ cộng đồng sản phẩm sáng tạo Kickstarter (số 25) cũng xuất hiện rất cao trong danh sách. Điều này dẫn đến một vấn đề mới: Nhiều câu trả lời sáng tạo và tiếp thị do AI cung cấp cho người dùng có thể là các tác phẩm làm sẵn.
Các nhà nghiên cứu cũng phát hiện ra rằng hơn 500.000 blog cá nhân đã được đưa vào bộ đào tạo C4 và những tác giả này dường như không nhận được bất kỳ khoản thù lao nào khi làm như vậy.
Là "cơ hội" của đào tạo AI, phương tiện truyền thông sản xuất một số lượng lớn nội dung được đánh giá mỗi ngày cũng là mục yêu thích của bộ đào tạo. New York Times, Los Angeles Times, Guardian, Forbes và Huffington Post đều đứng trong 10 cơ sở dữ liệu hàng đầu. Giống như nhiều nghệ sĩ, nhiều phương tiện truyền thông hiện đang đòi quyền chống lại ngành công nghiệp AI. Do sự phức tạp của ngành truyền thông Hoa Kỳ, các trang web có nội dung cực hữu và chủ nghĩa tối cao của người da trắng làm chủ đề chính cũng có thể được tìm thấy trong tập huấn luyện.
Trên thực tế, Google khi xây dựng cơ sở dữ liệu đã nhận thức được vấn đề ô nhiễm thông tin mạng nên ngoài việc xóa bỏ những câu vô nghĩa, lặp đi lặp lại, họ còn cố tình sử dụng "bộ lọc từ chửi thề" mã nguồn mở để lọc qua, nhưng có vẻ như là một con số khổng lồ Con cá lọt lưới đã vượt qua. Các nhà nghiên cứu đã tìm thấy ít nhất 72.000 ký hiệu biểu tượng của Đức Quốc xã trong tập huấn luyện.
Điều đáng lo ngại hơn nữa là các trang web quảng bá phân biệt chủng tộc và thuyết âm mưu cực hữu (QAnon) cũng có thể được tìm thấy trong tập huấn luyện và trang web trò chuyện ẩn danh 4Chan nổi tiếng với việc tổ chức bạo lực trực tuyến cũng xuất hiện trong tập huấn luyện.

Thái độ xử lý dữ liệu mờ hơn dữ liệu bẩn

Mặc dù dữ liệu của tập huấn luyện C4 đã rất lớn, nhưng tập dữ liệu trình thu thập dữ liệu web được sử dụng để huấn luyện OpenAI GPT-3 lớn hơn 40 lần so với C4 ngay từ đầu và các vấn đề đằng sau nó đương nhiên sẽ được phóng đại đồng thời.
Nhưng trong bài báo GPT-3, OpenAI cũng thảo luận công khai một chi tiết: Một BUG đã được tìm thấy trong quá trình ngăn dữ liệu thử nghiệm được đưa vào dữ liệu đào tạo để gây ô nhiễm, nhưng do mô hình đào tạo lại quá tốn kém và công ty đã không có tiền, vì vậy Hãy để vấn đề này một mình .
Một số người trong ngành cũng tiết lộ rằng nhiều công ty công nghệ không ghi lại nguồn dữ liệu đào tạo nội bộ vì sợ bị phát hiện dữ liệu thông tin cá nhân, cũng như tài liệu trái phép hoặc dữ liệu khác.