Tin xấu cho ChatGPT! GPT-4 thực sự kém đi: khả năng toán học giảm trong 3 tháng, khả năng viết mã tồi tệ hơn

Đoàn Thúy Hà · 20/07/2023

Một vài ngày trước, nhiều người dùng phàn nàn rằng GPT-4 đã ngu ngốc đi, nhưng làm thế nào điều đó xảy ra?
Gần đây, một bài báo nghiên cứu từ Stanford và UC Berkeley đã đưa ra kết quả thử nghiệm định lượng về vấn đề này và công bố dữ liệu đánh giá và phản hồi có liên quan.
Ngay sau khi bài báo được công bố, nghiên cứu này đã thu hút sự chú ý và thảo luận rộng rãi, nhiều cư dân mạng đồng ý với kết quả của bài báo.
Tất nhiên, mọi thứ đều có hai mặt. Cũng có cư dân mạng không đồng ý với kết luận của luận án, nghi ngờ rằng kết quả của bài báo này quá đơn giản, "mặc dù kết quả nghiên cứu rất thú vị, nhưng có một số phương pháp đáng nghi ngờ".

Tin xấu cho ChatGPT! GPT-4 thực sự kém đi: khả năng toán học giảm trong 3 tháng, khả năng viết mã tồi tệ hơn

Tham khảo bài viết tại đây.
Vậy thì chúng ta hãy xem những gì trong bài báo này của Stanford và UC Berkeley.

Liên kết luận án:

https://arxiv.org/pdf/2307.09009.pdf

Dữ liệu dự án:

GitHub - lchen001/LLMDrift

Contribute to lchen001/LLMDrift development by creating an account on GitHub.

github.com

Cụ thể, sau khi nghiên cứu kết quả của các phiên bản tháng 3 và tháng 5 năm của GPT-2023.4 và GPT-97 thông qua bốn nhiệm vụ, các nhà nghiên cứu phát hiện ra rằng hai LLM này thực sự trở nên tồi tệ hơn về một số chỉ số, đặc biệt là khả năng của GPT-6 để giải quyết các vấn đề toán học, có thể nói là giảm tuyết lở - độ chính xác của phiên bản tháng 3 là 97,6% chỉ còn 2,4% vào tháng 6. Các nhà nghiên cứu cũng suy đoán về nguyên nhân của những thay đổi này.

Các mô hình ngôn ngữ lớn (LLM) như GPT-3.5 và GPT-4 đang được sử dụng rộng rãi. Theo thời gian, các LLM như GPT-4 có thể được cập nhật dựa trên dữ liệu và phản hồi của người dùng và những thay đổi trong thiết kế. Tuy nhiên, chúng ta vẫn chưa biết GPT-3.5 và GPT-4 được cập nhật như thế nào và cách chúng được cập nhật sẽ ảnh hưởng đến hành vi của các LLM này như thế nào.
Những ẩn số này làm cho nó khó để tích hợp LLM vào một quy trình làm việc lớn hơn: nếu phản ứng của LLM với một prompt đột nhiên thay đổi, chẳng hạn như độ chính xác hoặc định dạng, nó có thể làm hỏng các tác vụ hạ nguồn. Điều này cũng làm cho chúng ta khó tái tạo kết quả tương tự từ "cùng một" LLM, thậm chí hoàn toàn không thể.
Ngoài những thách thức tích hợp này, liệu các dịch vụ LLM như GPT-4 có liên tục trở nên "tốt hơn" theo thời gian hay không cũng là một câu hỏi thú vị. Vấn đề là, chúng ta cần phải biết: khi thực hiện cập nhật để nâng cao một số khía cạnh của mô hình, các khả năng khác của mô hình có bị tổn hại không?
Để tìm câu trả lời cho những câu hỏi này, các nhà nghiên cứu tại Stanford và UC Berkeley đã đánh giá hiệu suất của các phiên bản tháng 3 và tháng 5 năm 4 của GPT-2023.1 và GPT-2, dựa trên bốn nhiệm vụ chính:
1) giải quyết các vấn đề toán học,
2) trả lời các câu hỏi nhạy cảm / nguy hiểm,
3) tạo mã,
4) lý luận trực quan.
Các nhà nghiên cứu cho biết bốn nhiệm vụ này được chọn vì chúng là đại diện của nhiều khả năng hữu ích của LLM. Cuối cùng họ phát hiện ra rằng hiệu suất và hành vi của cả hai bản phát hành GPT-3.5 và GPT-4 đã thay đổi đáng kể và các bản cập nhật đã trở nên tồi tệ hơn trong một số nhiệm vụ!
Tổng quan: Dịch vụ LLM, nhiệm vụ và chỉ số
Bài báo này nghiên cứu những thay đổi trong hành vi của các LLM khác nhau theo thời gian, giải thích các mối quan tâm LLM, nhiệm vụ đánh giá và chỉ số trong nghiên cứu định lượng dưới đây:
Dịch vụ LLM: Các nhà nghiên cứu đã nghiên cứu các mô hình GPT-3.5 và GPT-4, là xương sống của ChatGPT.
Có bốn nhiệm vụ đánh giá: giải quyết các câu hỏi toán học, trả lời các câu hỏi nhạy cảm, tạo mã và lý luận trực quan, như được hiển thị trong Hình 1 dưới đây.

Hình 1: Trên bốn nhiệm vụ khác nhau, GPT-4 và GPT-3.5 cho các phiên bản tháng 3 và tháng 6 năm 2023. Như bạn có thể thấy, hiệu suất của GPT-3.5 và GPT-4 đã thay đổi đáng kể và tồi tệ hơn trong một số nhiệm vụ.
Chỉ số: Ở đây mỗi nhiệm vụ có một chỉ số chính và hai chỉ số bổ sung phổ biến cho tất cả các nhiệm vụ.

Độ chính xác: Khả năng LLM tạo ra câu trả lời chính xác, đó là chỉ số chính để giải quyết các nhiệm vụ vấn đề toán học.
Tỷ lệ trả lời: Tần suất LLM trả lời trực tiếp câu trả lời câu hỏi, chỉ số chính để trả lời các nhiệm vụ câu hỏi nhạy cảm.
Có thực hiện trực tiếp hay không: Bao nhiêu phần trăm trong mã có thể được thực hiện trực tiếp, đây là chỉ báo chính của tác vụ tạo mã.
Khớp chính xác: Liệu hình ảnh kết quả có khớp chính xác với ground truth hay không, đây là chỉ số chính của nhiệm vụ lý luận trực quan.
Độ dài dự phòng (verbosity): Chiều dài được tạo ra.
Độ chồng chéo (overlap): Đối với cùng một gợi ý, câu trả lời cho cả hai phiên bản của cùng một LLM có khớp với nhau hay không.

Kết quả thử nghiệm cho thấy những thay đổi lớn trong LLM
Giải quyết các vấn đề toán học: Chuỗi suy nghĩ có thể thất bại
Kết quả có thể đáng ngạc nhiên, hiệu suất của LLM đã thay đổi rất nhiều trong nhiệm vụ đơn giản này! Như thể hiện trong Hình 2 (a) dưới đây, độ chính xác của GPT-4 đã giảm mạnh từ 97,6% trong phiên bản tháng 3 xuống còn 2,4% phiên bản tháng 6; Độ chính xác của GPT-3,5 đã tăng vọt từ 7,4% lên 86,8% trong các tháng tương ứng 3 và 6/2023.
Ngoài ra, phản hồi của GPT-4 trở nên nhỏ gọn hơn nhiều: chiều dài dự phòng trung bình của nó (số lượng ký tự được tạo ra) giảm từ 821,2 trong phiên bản tháng 3 xuống còn 8.3 cho phiên bản tháng 6. Mặt khác, phản ứng của GPT-3.5 đã tăng khoảng 79%. Cả hai phiên bản tháng 3 và tháng 5 đều có độ chồng chéo câu trả lời thấp.

Hình 2: Giải quyết các câu hỏi toán học:
(a) Độ chính xác, độ dài dự phòng và độ chồng chéo câu trả lời cho các phiên bản tháng 3 và tháng 6 năm2023 của GPT-4 và GPT-3.5. Nhìn chung, hiệu suất của cả hai mô hình đã thay đổi đáng kể.
(b) Một truy vấn mẫu và phản ứng tương ứng.
Sự khác biệt về hiệu suất này đến từ đâu? Một lời giải thích được đưa ra bởi các nhà nghiên cứu là những thay đổi trong hiệu ứng của chuỗi tư duy. Hình 2 (b) đưa ra một ví dụ để minh họa. Có thể thấy, phiên bản tháng 3 của GPT-3.5 đã nhận được câu trả lời đúng theo hướng dẫn của chuỗi tư duy, nhưng phiên bản tháng 6 đã bỏ qua chuỗi tư duy và nhận được câu trả lời sai. GPT-3.5 luôn tuân thủ các hướng dẫn chuỗi tư duy, nhưng phiên bản tháng 3 nhấn mạnh vào việc tạo ra câu trả lời sai ([No], và phiên bản tháng sáu của nó đã khắc phục vấn đề này ở một mức độ lớn.
Trả lời các câu hỏi nhạy cảm: Trở nên an toàn hơn nhưng thiếu lý do từ chối
Trong nhiệm vụ này, các nhà nghiên cứu đã quan sát thấy hai xu hướng. Như thể hiện trong Hình 3 dưới đây, xu hướng đầu tiên là GPT-4 sẽ trả lời ít câu hỏi nhạy cảm hơn, từ 21,0% trong phiên bản tháng 5 xuống còn 0,3% trong phiên bản tháng 5, trong khi dữ liệu về GPT-2.0 tăng (từ 8,0% lên).
Các nhà nghiên cứu phỏng đoán rằng điều này là do một lớp bảo mật mạnh mẽ hơn được triển khai trong bản cập nhật tháng 6 của GPT-3.5, trong khi mức độ bảo thủ của GPT-4 đã giảm. Xu hướng thứ hai là chiều dài tạo ra của GPT-4 giảm từ hơn 288 (GPT 3.5) xuống còn hơn 140.

Hình 3: Trả lời các câu hỏi nhạy cảm: (a) Thay đổi hiệu suất tổng thể. GPT-4 trả lời ít câu hỏi hơn, trong khi GPT-3.5 trả lời nhiều câu hỏi hơn một chút. (b) Một truy vấn mẫu và phản ứng tương ứng. Các phiên bản tháng 3 của GPT-3.5 và GPT-4 đều có nhiều khả năng nói hơn và sẽ đưa ra lý do chi tiết cho việc từ chối trả lời các yêu cầu. Phiên bản tháng Sáu sẽ chỉ đơn giản là xin lỗi.
Lý do cho sự thay đổi độ dài được tạo ra là gì? Ngoài việc trả lời ít câu hỏi hơn, cũng có ít lời giải thích hơn khi GPT-4 trở nên ngắn gọn hơn. Ví dụ trong Hình 3 (b) minh họa điều này. Cả phiên bản tháng 4 và tháng 3 của GPT-5 đều từ chối trả lời các truy vấn không phù hợp. Nhưng phiên bản tháng 3 tạo ra toàn bộ văn bản để giải thích lý do từ chối trả lời, nhưng phiên bản tháng 6 chỉ nói, "Xin lỗi, nhưng tôi không thể giúp đỡ." GPT-4 cũng có hiện tượng tương tự. Điều này cho thấy rằng các LLM này có thể trở nên an toàn hơn, nhưng cung cấp ít lý do hơn khi từ chối trả lời một số câu hỏi nhất định.
Tạo mã: Ít mã dài hơn nhưng có thể thực thi trực tiếp
Nhìn chung, từ phiên bản tháng 3 đến tháng 6, số lượng mã có thể được thực thi trực tiếp đã giảm. Như thể hiện trong Hình 50 (a) dưới đây, hơn 10% mã tạo của GPT-4 tháng 6 có thể được thực thi trực tiếp, nhưng chỉ có 52% của phiên bản tháng 6. GPT-3.5 có xu hướng tương tự. Chiều dài dự phòng của cả hai mô hình tăng nhẹ.

Hình 4: Tạo mã: (a) Thay đổi hiệu suất tổng thể. (b) Một truy vấn mẫu và phản ứng tương ứng. Cả hai phiên bản tháng ba của GPT-4 và GPT-3.5 đều tuân thủ hướng dẫn của người dùng (the code only / chỉ tạo mã), vì vậy kết quả được tạo ra là mã có thể thực thi trực tiếp. Nhưng phiên bản tháng sáu của họ thêm dấu ngoặc kép bổ sung"', khiến mã không thể thực thi được.
Tại sao số lượng kết quả tạo có thể được thực hiện trực tiếp trở nên ít hơn? Một lời giải thích có thể là phiên bản tháng 6 luôn thêm văn bản không mã bổ sung vào kết quả xây dựng.
Hình 4 (b) đưa ra một ví dụ. Kết quả tạo ra các phiên bản tháng 3 và tháng 6 của GPT-4 về cơ bản giống nhau, nhưng có hai sự khác biệt, một là phiên bản tháng 6 đã thêm "'python và "' vào khoảng đoạn mã. Thứ hai, phiên bản tháng sáu tạo ra một số ghi chú. Mặc dù không có nhiều thay đổi, ba dấu ngoặc kép bổ sung làm cho mã không thể thực hiện trực tiếp. Nếu ai đó tích hợp mã được tạo ra bởi LLM vào một quá trình phát triển phần mềm lớn hơn, vấn đề vẫn còn nghiêm trọng.
Lý luận trực quan: Một lượng nhỏ nâng
Như thể hiện trong Hình 5 (a) dưới đây, cả GPT-4 và GPT-3.5 đều có những cải tiến hiệu suất nhỏ. Tuy nhiên, các phiên bản tháng 90 và tháng 4 của họ có kết quả giống nhau trên 27% truy vấn câu đố trực quan. Hiệu suất tổng thể của các dịch vụ này cũng thấp: GPT-4 là 3,5% và GPT-3.5 là 2,1%.

Hình 5: Lý luận trực quan: (a) Hiệu suất tổng thể. Từ tháng 3 đến tháng 6, hiệu suất tổng thể của GPT-3.5 và GPT-4 được cải thiện. Độ dài hầu như không thay đổi. (b) Một truy vấn mẫu và phản ứng tương ứng.
Cần lưu ý rằng phiên bản cập nhật của LLM không phải lúc nào cũng tạo ra kết quả tốt hơn. Trên thực tế, mặc dù hiệu suất tổng thể của GPT-4 đã trở nên tốt hơn, phiên bản tháng 5 có thể mắc sai lầm về các câu hỏi trả lời đúng vào tháng 4. Hình <> (b) là một ví dụ như vậy. Mặc dù các phiên bản tháng 6 của GPT-4 nói chung hoạt động tốt hơn, trường hợp cụ thể này không phải là trường hợp. Phiên bản tháng ba của nó cung cấp cho lưới chính xác, nhưng phiên bản tháng sáu thì không. Điều này cho thấy rằng chúng ta cần phải theo dõi những thay đổi hiệu suất của mô hình một cách chi tiết, đặc biệt là đối với các ứng dụng quan trọng.
Để biết thêm chi tiết, vui lòng xem bài nghiên cứu gốc đã có link ở trên.