Gần 10% số người yêu cầu chatbot AI cung cấp nội dung tục tĩu. Liệu nó có khiến LLM lạc lối không?

VNR Content · 20/10/2022

Ngoài các mẹo lập trình và trợ giúp bằng văn bản, hàng triệu cuộc hội thoại còn phản ánh mong muốn của mọi người về các loại thông tin 'an toàn' khác. Đây là những gì các nhà nghiên cứu đang làm về nó.
Với cảm giác qua đêm của ChatGPT , chỉ còn là vấn đề thời gian trước khi việc sử dụng AI tạo ra vừa trở thành một chủ đề nghiên cứu nghiêm túc vừa là nền tảng cho việc đào tạo chính AI tạo ra.
Trong một bài nghiên cứu được công bố vào tháng này, các học giả đã thu thập cơ sở dữ liệu gồm một triệu “cuộc trò chuyện trong thế giới thực” mà mọi người đã thực hiện với 25 mô hình ngôn ngữ lớn khác nhau. Được phát hành trên máy chủ in sẵn arXiv , bài báo được viết bởi Lianmin Zheng thuộc Đại học California tại Berkeley và các đồng nghiệp tại UC San Diego, Đại học Carnegie Mellon, Stanford và Đại học Trí tuệ nhân tạo Mohamed bin Zayed của Abu Dhabi.
Một mẫu gồm 100.000 cuộc trò chuyện đó, được các tác giả lựa chọn ngẫu nhiên, cho thấy hầu hết đều nói về những chủ đề mà bạn mong đợi. 50% tương tác hàng đầu là về các chủ đề dành cho người đi bộ như lập trình, mẹo du lịch và yêu cầu trợ giúp bằng văn bản.
Nhưng dưới 50% hàng đầu đó, các chủ đề khác xuất hiện, bao gồm các nhân vật nhập vai trong các cuộc trò chuyện và ba loại chủ đề mà tác giả gọi là "không an toàn": "Yêu cầu kể chuyện tục tĩu và khiêu ***"; "Những tưởng tượng tình dục rõ ràng và các tình huống nhập vai"; và "Thảo luận về hành vi độc hại giữa các danh tính khác nhau".

Gần 10% số người yêu cầu chatbot AI cung cấp nội dung tục tĩu. Liệu nó có khiến LLM lạc lối không?

Thống kê về một triệu cuộc hội thoại được nhóm Berkeley-Stanford thu thập từ những người dùng trực tuyến trong khoảng thời gian từ tháng 4 đến tháng 8 năm nay. Các chủ đề 9, 15 và 17 nằm trong số những chủ đề được coi là “không an toàn” dựa trên công nghệ gắn thẻ tự động.
Các tác giả suy đoán rằng trong toàn bộ một triệu cuộc trò chuyện, có thể có “nội dung thậm chí còn có hại hơn”. Một phần, họ đã sử dụng công nghệ OpenAI để gắn thẻ các cuộc hội thoại là "không an toàn", mặc dù hệ thống của OpenAI trong một số trường hợp không hoạt động được khi họ thảo luận chi tiết.
Họ cũng lưu ý rằng các mô hình ngôn ngữ nguồn mở như Vicuña có nội dung không an toàn hơn vì chúng không có các biện pháp bảo vệ giống như các chương trình thương mại như ChatGPT.
Họ viết: “Các mô hình nguồn mở không có biện pháp an toàn có xu hướng tạo ra nội dung bị gắn cờ thường xuyên hơn các mô hình độc quyền”. "Tuy nhiên, chúng tôi vẫn quan sát thấy những thành công 'bẻ khóa' trên các mẫu độc quyền như GPT-4 và Claude". Và trên thực tế, họ lưu ý rằng GPT-4 bị hỏng 1/3 số lần trong các thử thách, đây có vẻ là tỷ lệ cao đối với thứ gì đó có "rào chắn".

So sánh mức độ phổ biến của nội dung "không an toàn" trong các mô hình ngôn ngữ lớn khác nhau.

Thống kê về số lượng mô hình ngôn ngữ bị phá vỡ bởi lời nói có hại, chẳng hạn như lời nhắc thúc giục chương trình tạo ra nội dung "không an toàn", xúc phạm hoặc bạo lực.
Ví dụ về cái gọi là cuộc trò chuyện không an toàn được liệt kê trong phần phụ lục của bài báo. Tất nhiên, thuật ngữ "không an toàn" có thể có nghĩa rất rộng. Một số ví dụ được đưa ra gần giống với tiểu thuyết khiêu *** trên thị trường đại chúng được bán trong các hiệu sách, vì vậy sự phản đối phải được coi là muối bỏ bể.
Zheng và nhóm đã công bố toàn bộ tập dữ liệu về HuggingFace.
Họ viết: Được thu thập trong khoảng thời gian 5 tháng, từ tháng 4 đến tháng 8 năm nay, bộ dữ liệu - được gọi là "LMSYS-Chat-1M" - là "bộ dữ liệu hội thoại LLM trong thế giới thực, quy mô lớn đầu tiên".
LMSYS-Chat-1M vượt lên trên tập dữ liệu lớn nhất được biết đến trước đây, do công ty khởi nghiệp AI Anthropic biên soạn, có 339.000 cuộc hội thoại. Trong khi Anthropic chỉ có 143 người dùng trong nghiên cứu của mình, Zheng và nhóm đã thu thập các cuộc trò chuyện từ hơn 210.000 người dùng, trên 154 ngôn ngữ và sử dụng 25 mô hình ngôn ngữ lớn khác nhau, bao gồm GPT-4 của OpenAI và các mô hình ngôn ngữ nguồn mở như Claude và Vicuña.
Việc thu thập bộ dữ liệu này có một số mục tiêu. Đầu tiên: tinh chỉnh các mô hình ngôn ngữ để cải thiện hiệu suất của chúng. Ngoài ra: phát triển các tiêu chuẩn về sự an toàn của AI tổng hợp bằng cách nghiên cứu các lời nhắc của người dùng có thể khiến các mô hình ngôn ngữ đi chệch hướng, chẳng hạn như bằng cách đưa ra yêu cầu về thông tin độc hại.
Như các tác giả lưu ý, không phải ai cũng có thể thu thập dữ liệu này. Việc chạy các mô hình ngôn ngữ lớn rất tốn kém và các bên có đủ khả năng chi trả, chẳng hạn như OpenAI, thường giữ bí mật dữ liệu của họ vì lý do thương mại.
Nhóm Berkeley-Stanford có thể thu thập dữ liệu vì họ điều hành một dịch vụ trực tuyến miễn phí để cung cấp cho mọi người quyền truy cập vào tất cả 25 mô hình ngôn ngữ . Và họ khuyến khích sự tham gia bằng cách trò chuyện trò chuyện: người dùng có thể chọn tham gia "đấu trường chatbot", nơi người dùng có thể trò chuyện đồng thời với hai mô hình ngôn ngữ khác nhau. Dịch vụ này duy trì một bảng xếp hạng trên HuggingFace về hiệu suất của các bot, do đó, nó trở thành một môn thể thao cạnh tranh để xem các mô hình ngôn ngữ này hoạt động như thế nào. (Mã của đấu trường chatbot cũng được đăng tải).
Zheng và nhóm trước đây đã viết về đấu trường chatbot trong một bài báo riêng . Zheng là một trong những thành viên trong nhóm đã tạo ra Vicuña mã nguồn mở , một đối thủ cạnh tranh với ChatGPT. (Vicuña là họ hàng của llama; các mô hình ngôn ngữ lớn nguồn mở đang áp dụng thói quen sử dụng tên của các dạng của chi "lama": alpaca, llama, vicuña, v.v.)
Các tác giả có một số mục tiêu trong đầu cho loại dữ liệu này. Mục đích là tạo ra một công cụ kiểm duyệt có thể xử lý nội dung không an toàn. Họ bắt đầu với mô hình ngôn ngữ Vicuña của riêng mình và huấn luyện nó bằng cách hiển thị cho nó các cảnh báo từ API OpenAI và yêu cầu nó đưa ra lời giải thích bằng văn bản về lý do tại sao nội dung bị gắn cờ.
Họ mô tả: “Thay vì phát triển một trình phân loại, chúng tôi tinh chỉnh mô hình ngôn ngữ để đưa ra lời giải thích tại sao một thông báo cụ thể lại bị gắn cờ”. Sau đó, họ tạo ra một bộ dữ liệu thử thách gồm 110 cuộc hội thoại mà hệ thống của OpenAI không gắn cờ được. Cuối cùng, họ sử dụng điểm chuẩn đó để xem Vicuña đã được tinh chỉnh như thế nào so với GPT-4 của OpenAI và các sản phẩm khác.

Điểm phát hiện nội dung "không an toàn" theo các mô hình ngôn ngữ khác nhau. Các tác giả đã phát triển chương trình "Vicuna-moderator-7B" như một phần của nghiên cứu.
Họ viết: “Chúng tôi quan sát thấy sự cải thiện đáng kể (30%) khi chuyển từ Vicuna-7B sang Vicuna-moderator-7B đã được tinh chỉnh, nhấn mạnh tính hiệu quả của việc tinh chỉnh”. "Hơn nữa, Vicuna-moderator-7B vượt qua hiệu suất của GPT-3.5-turbo và sánh ngang với GPT-4".
Điều thú vị là chương trình điều hành của họ đạt điểm trên GPT-4 trong cái được gọi là "một lần", có nghĩa là chương trình chỉ được đưa ra một ví dụ về văn bản có hại trong lời nhắc chứ không phải nhiều.
Có những mục đích sử dụng khác mà Zheng và nhóm dành riêng cho tập dữ liệu của họ, bao gồm tinh chỉnh khả năng của mô hình ngôn ngữ để xử lý các lời nhắc hướng dẫn nhiều phần và tạo ra các thách thức dữ liệu mới để vượt qua các mô hình ngôn ngữ mạnh mẽ nhất. Nỗ lực thứ hai được hỗ trợ bằng cách có các lời nhắc trong đấu trường chatbot vì họ có thể thấy con người đang cố gắng đưa ra những lời nhắc tốt nhất. Họ lưu ý: “Những đánh giá của con người như vậy cung cấp những tín hiệu hữu ích để kiểm tra chất lượng của các lời nhắc về điểm chuẩn”.
Ngoài ra còn có mục tiêu là phát hành dữ liệu mới hàng quý để các tác giả tìm kiếm tài trợ. Họ viết: “Nỗ lực như vậy đòi hỏi tài nguyên máy tính đáng kể, nỗ lực bảo trì và lưu lượng người dùng, đồng thời xử lý cẩn thận các vấn đề tiềm ẩn về quyền riêng tư dữ liệu”.
"Những nỗ lực của chúng tôi nhằm mục đích mô phỏng các quy trình thu thập dữ liệu quan trọng được quan sát thấy ở các công ty độc quyền nhưng theo cách nguồn mở".

Tìm kiếm

Có thể bạn quan tâm

Gần 10% số người yêu cầu chatbot AI cung cấp nội dung tục tĩu. Liệu nó có khiến LLM lạc lối không?

VNR Content

Pearl

VNR Content

Người dùng Apple tại Việt Nam chú ý: Apple Intelligence vừa có 1 thông báo quan trọng

OpenAI thừa nhận lỗi chatbot ChatGPT tự ý nhắn tin "tâm sự" với người dùng

Google sẽ đánh dấu triệt để những hình ảnh tạo ra bởi AI

Đáng lo ngại: không chỉ có trình độ ngang Tiến sĩ, mô hình AI của OpenAI còn biết "nói dối" có chủ đích

Học dốt thì làm nghề gì? Những công việc phù hợp với người có học lực kém

Cách tắt online Liên Quân và ẩn thông tin lịch sử đấu cho "người hướng nội"

Chi tiết những khác biệt giữa iPhone 16, 16 Plus, 16 Pro và 16 Pro Max, nên chọn máy nào?

Cuộc cách mạng xe điện của Trung Quốc gặp khó ở vùng nông thôn

Chiến lược mới của Canon để đánh chiếm thị trường Trung Quốc, biến camera mirrorless thành mũi nhọn

"Inside Out 2": thắng lợi cay đắng của xưởng phim Pixar, bộ mặt thật giả dối và bạc bẽo của Disney

Keysight ra mắt giải pháp kiểm tra hàn nối dây dẫn trong sản xuất bán dẫn

Miley Cyrus và Sony bị kiện vì sao chép "When I Was Your Man" của Bruno Mars

Lỗ đen siêu lớn thực sự có luồng tia trải dài 23 triệu năm ánh sáng, lớn nhất từng thấy

Chưa hết bàng hoàng vì nổ máy nhắn tin, Hezbollah lại hứng chịu loạt vụ nổ bộ đàm từ xa, ít nhất 20 người tử vong

Đánh giá nổi bật