Các nhà nghiên cứu AI cho biết không chỉ trong đầu bạn: Hành vi của ChatGPT đang thay đổi

Các nhà nghiên cứu tại Đại học Stanford và Đại học California-Berkeley đã xuất bản một bài báo chưa được đánh giá trên tạp chí truy cập mở arXiv.org, trong đó phát hiện ra rằng “hiệu suất và hành vi” của các mô hình ngôn ngữ lớn ChatGPT của OpenAI (LLM) đã thay đổi từ tháng 3 đến tháng 6 năm 2023.
Các nhà nghiên cứu AI cho biết không chỉ trong đầu bạn: Hành vi của ChatGPT đang thay đổi
Các nhà nghiên cứu kết luận rằng các bài kiểm tra của họ cho thấy “hiệu suất trên một số nhiệm vụ đã trở nên tồi tệ hơn đáng kể theo thời gian.”
James Zou, giáo sư Stanford và là một trong ba tác giả của bài báo nghiên cứu, cho biết: “Toàn bộ động lực cho nghiên cứu này: Chúng tôi đã thấy rất nhiều trải nghiệm giai thoại từ những người dùng ChatGPT rằng hành vi của các mô hình đang thay đổi theo thời gian. Liên doanhBeat. “Một số nhiệm vụ có thể trở nên tốt hơn hoặc các nhiệm vụ khác trở nên tồi tệ hơn. Đây là lý do tại sao chúng tôi muốn làm điều này một cách có hệ thống hơn để đánh giá nó qua các thời điểm khác nhau.”
Thông tin đủ điều kiện
Có một số cảnh báo quan trọng đối với các phát hiện và bài báo, bao gồm cả việc arXiv.org chấp nhận gần như tất cả các bài báo do người dùng tạo tuân thủ các nguyên tắc của nó và rằng bài báo cụ thể này — giống như nhiều bài báo trên trang web — vẫn chưa được bình duyệt, cũng không được công bố trên một tạp chí khoa học có uy tín khác. Tuy nhiên, Zou nói với VentureBeat rằng các tác giả có kế hoạch gửi nó để một tạp chí xem xét và đánh giá.
Trong một tweet để trả lời bài báo và các cuộc thảo luận tiếp theo, Logan Kilpatrick, người ủng hộ nhà phát triển OpenAI, đã gửi lời cảm ơn chung đến những người đã báo cáo trải nghiệm của họ với nền tảng LLM và cho biết họ đang tích cực xem xét các vấn đề đang được chia sẻ. Kilpatrick cũng đã đăng một liên kết tới trang GitHub của OpenAI’s Evals framework được sử dụng để đánh giá các hệ thống LLM và LLM với sổ đăng ký điểm chuẩn mã nguồn mở.
Khi đo cả GPT-3.5 và GPT-4 theo một loạt các yêu cầu khác nhau, nhóm nghiên cứu nhận thấy rằng OpenAI LLM trở nên kém hơn trong việc xác định các số nguyên tố và hiển thị quy trình suy nghĩ “từng bước” của nó cũng như xuất mã được tạo với nhiều định dạng hơn lỗi.
Độ chính xác của câu trả lời đối với nhận dạng số nguyên tố "từng bước" đã giảm đáng kể 95,2% trên GPT-4 trong khoảng thời gian ba tháng được đánh giá, trong khi đó tăng đáng kể ở mức 79,4% đối với GPT-3.5. Một câu hỏi khác được đặt ra để tìm tổng của một dải số nguyên có bộ định tính cũng cho thấy hiệu suất giảm ở cả GPT-4 và GPT-3.5, lần lượt là -42% và 20%.
Các nhà nghiên cứu AI cho biết không chỉ trong đầu bạn: Hành vi của ChatGPT đang thay đổi
“Tỷ lệ thành công của GPT-4 đối với câu hỏi 'Đây có phải là số nguyên tố không? Think step by step’ đã giảm từ 97,6% xuống 2,4% từ tháng 3 đến tháng 6, trong khi GPT-3.5 được cải thiện,” đồng tác giả Matei Zahari đã tweet. “Hành vi đối với các đầu vào nhạy cảm cũng thay đổi. Các nhiệm vụ khác thay đổi ít hơn, nhưng chắc chắn có những thay đổi đáng kể trong hành vi của LLM.”
Phản hồi về những phát hiện và phương pháp luận
Không phải ai cũng tin rằng việc lựa chọn nhiệm vụ từ nhóm của Zaharia đã sử dụng các số liệu phù hợp để đo lường những thay đổi có ý nghĩa để tuyên bố dịch vụ “tệ hơn đáng kể”.
Giáo sư khoa học máy tính và giám đốc Trung tâm Chính sách Công nghệ Thông tin của Đại học Princeton, Arvind Narayanan, đã tweet: “Chúng tôi đã nghiên cứu một bài báo bị hiểu sai khi nói rằng GPT-4 đã trở nên tồi tệ hơn. Bài báo cho thấy sự thay đổi hành vi, không giảm khả năng. Và có một vấn đề với việc đánh giá — trong 1 nhiệm vụ, chúng tôi nghĩ rằng các tác giả đã nhầm lẫn việc bắt chước với lý luận.”
Những người bình luận trên subreddit ChatGPT và YCombinator cũng gặp vấn đề tương tự với các ngưỡng mà các nhà nghiên cứu cho là không đạt, nhưng những người dùng lâu năm khác dường như được an ủi bởi bằng chứng cho thấy những thay đổi nhận thấy trong đầu ra AI tổng quát không chỉ nằm trong đầu họ.
Công việc này làm sáng tỏ một lĩnh vực mới mà các nhà điều hành doanh nghiệp và doanh nghiệp cần lưu ý khi xem xét các sản phẩm AI tổng quát. Các nhà nghiên cứu đã đặt tên cho sự thay đổi trong hành vi là “LLM drift” và coi đó là một cách quan trọng để hiểu cách diễn giải kết quả từ các mô hình AI trò chuyện phổ biến.
Minh bạch và cảnh giác hơn sẽ giúp nâng cao hiểu biết về những thay đổi
Bài báo lưu ý mức độ mờ đục của quan điểm công khai hiện tại đối với các LLM đã đóng và cách chúng phát triển theo thời gian. Các nhà nghiên cứu nói rằng cải thiện giám sát và tính minh bạch là chìa khóa để tránh những cạm bẫy của LLM trôi dạt.
“Chúng tôi không nhận được nhiều thông tin từ OpenAI — hoặc từ các nhà cung cấp và công ty khởi nghiệp khác — về cách các mô hình của họ được cập nhật.” Trâu nói. “Nó nhấn mạnh sự cần thiết phải thực hiện các loại đánh giá bên ngoài liên tục và theo dõi LLM. Chúng tôi chắc chắn có kế hoạch tiếp tục làm điều này.”
Trong một tweet trước đó, Kilpatrick đã tuyên bố rằng API GPT không thay đổi nếu OpenAI không thông báo cho người dùng.
Các doanh nghiệp kết hợp LLM trong các sản phẩm và khả năng nội bộ của họ sẽ cần phải thận trọng để giải quyết các tác động của LLM trôi dạt. “Bởi vì nếu bạn đang dựa vào đầu ra của các mô hình này trong một số loại ngăn xếp phần mềm hoặc quy trình công việc, thì mô hình đột ngột thay đổi hành vi và bạn không biết chuyện gì đang xảy ra, điều này thực sự có thể phá vỡ toàn bộ ngăn xếp của bạn, có thể phá vỡ quy trình , Zou nói.
Tham khảo bài viết gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Gợi ý cộng đồng

Top