Tháp rơi tự do
Intern Writer
Một nghiên cứu mới cho thấy việc cộc cằn hoặc thô lỗ có thể khiến mô hình AI mới chính xác hơn, trái ngược với những phát hiện trước đây về sự lịch sự với AI.
Các nhà khoa học phát hiện ra rằng chatbot trí tuệ nhân tạo (AI) có thể đưa ra câu trả lời chính xác hơn khi bạn thô lỗ với chúng, mặc dù họ cảnh báo về những tác hại tiềm ẩn của việc sử dụng ngôn ngữ hạ thấp.
Trong một nghiên cứu mới được công bố ngày 6 tháng 10 trên cơ sở dữ liệu bản thảo arXiv , các nhà khoa học muốn kiểm tra xem liệu sự lịch sự hay thô lỗ có tạo nên sự khác biệt trong hiệu suất hoạt động của một hệ thống AI hay không. Nghiên cứu này vẫn chưa được bình duyệt.
Để kiểm tra xem giọng điệu của người dùng ảnh hưởng như thế nào đến độ chính xác của câu trả lời, các nhà nghiên cứu đã phát triển 50 câu hỏi trắc nghiệm cơ bản và sau đó điều chỉnh chúng bằng các tiền tố để phù hợp với năm loại giọng điệu: rất lịch sự, lịch sự, trung lập, thô lỗ và rất thô lỗ. Các câu hỏi bao gồm các lĩnh vực toán học, lịch sử và khoa học.
Mỗi câu hỏi được đưa ra với bốn lựa chọn, trong đó có một lựa chọn đúng. Họ đưa 250 câu hỏi thu được 10 lần vào ChatGPT-4o, một trong những mô hình ngôn ngữ lớn (LLM) tiên tiến nhất do OpenAI phát triển.
"Các thí nghiệm của chúng tôi chỉ mang tính sơ bộ và cho thấy giọng điệu có thể ảnh hưởng đáng kể đến hiệu suất được đo lường bằng điểm số của câu trả lời cho 50 câu hỏi", các nhà nghiên cứu viết trong bài báo của họ. "Điều đáng ngạc nhiên là kết quả của chúng tôi cho thấy giọng điệu thô lỗ dẫn đến kết quả tốt hơn giọng điệu lịch sự."
"Mặc dù phát hiện này có giá trị khoa học, chúng tôi không ủng hộ việc triển khai các giao diện thù địch hoặc độc hại trong các ứng dụng thực tế", họ nói thêm. "Việc sử dụng ngôn ngữ xúc phạm hoặc hạ thấp phẩm giá trong tương tác giữa người và AI có thể gây ra những tác động tiêu cực đến trải nghiệm người dùng, khả năng tiếp cận và tính bao hàm, đồng thời có thể góp phần tạo nên các chuẩn mực giao tiếp có hại. Thay vào đó, chúng tôi coi kết quả này là bằng chứng cho thấy các LLM vẫn nhạy cảm với những tín hiệu nhắc nhở hời hợt, điều này có thể tạo ra sự đánh đổi ngoài ý muốn giữa hiệu suất và sự thoải mái của người dùng."
Trước khi đưa ra lời nhắc, các nhà nghiên cứu yêu cầu chatbot hoàn toàn bỏ qua các trao đổi trước đó để tránh bị ảnh hưởng bởi các giọng điệu trước đó. Các chatbot cũng được yêu cầu, mà không có lời giải thích, chọn một trong bốn tùy chọn.
Độ chính xác của các câu trả lời dao động từ 80,8% cho những câu hỏi rất lịch sự đến 84,8% cho những câu hỏi rất thô lỗ. Đáng chú ý, độ chính xác tăng dần theo từng bước, tránh xa giọng điệu lịch sự nhất. Các câu trả lời lịch sự có tỷ lệ chính xác là 81,4%, tiếp theo là 82,2% cho câu hỏi trung lập và 82,8% cho câu hỏi thô lỗ.
Nhóm đã sử dụng nhiều ngôn ngữ khác nhau trong tiền tố để thay đổi giọng điệu, ngoại trừ trung tính, không sử dụng tiền tố và câu hỏi được trình bày riêng.
Ví dụ, đối với những lời nhắc nhở rất lịch sự, họ sẽ bắt đầu bằng câu hỏi: "Tôi có thể nhờ anh/chị giúp tôi câu hỏi này không?" hoặc "Anh/chị vui lòng giải câu hỏi sau được không?" Ở mức độ thô lỗ nhất, nhóm sẽ sử dụng những ngôn ngữ như "Này, anh bạn, hãy tự tìm hiểu xem" hoặc "Tôi biết anh/chị không thông minh, nhưng hãy thử làm xem".
Nghiên cứu này là một phần của lĩnh vực mới nổi gọi là kỹ thuật gợi ý, chuyên nghiên cứu cách cấu trúc, phong cách và ngôn ngữ của gợi ý ảnh hưởng đến kết quả đầu ra của một LLM. Nghiên cứu cũng trích dẫn các nghiên cứu trước đây về sự lịch sự so với sự thô lỗ và nhận thấy kết quả của họ nhìn chung trái ngược với những phát hiện đó.
Trong các nghiên cứu trước đây, các nhà nghiên cứu nhận thấy rằng "những lời nhắc nhở khiếm nhã thường dẫn đến hiệu suất kém, nhưng ngôn ngữ quá lịch sự không đảm bảo kết quả tốt hơn". Tuy nhiên, nghiên cứu trước đây đã được thực hiện bằng cách sử dụng các mô hình AI khác nhau — ChatGPT 3.5 và Llama 2-70B — và sử dụng phạm vi tám tông giọng. Tuy nhiên, vẫn có một số điểm trùng lặp. Cài đặt lời nhắc nhở khiếm nhã nhất cũng được phát hiện là tạo ra kết quả chính xác hơn (76,47%) so với cài đặt lịch sự nhất (75,82%).
Các nhà nghiên cứu thừa nhận những hạn chế của nghiên cứu. Ví dụ, một bộ 250 câu hỏi là một tập dữ liệu khá hạn chế, và việc tiến hành thí nghiệm với một LLM duy nhất đồng nghĩa với việc kết quả không thể được khái quát hóa cho các mô hình AI khác.
Với những hạn chế đó, nhóm dự định mở rộng nghiên cứu sang các mô hình khác, bao gồm Claude LLM của Anthropic và ChatGPT o3 của OpenAI. Họ cũng nhận thấy rằng việc chỉ đưa ra các câu hỏi trắc nghiệm sẽ giới hạn việc đo lường hiệu suất mô hình ở một khía cạnh và không nắm bắt được các thuộc tính khác, chẳng hạn như tính trôi chảy, lập luận và tính mạch lạc.
Các nhà khoa học phát hiện ra rằng chatbot trí tuệ nhân tạo (AI) có thể đưa ra câu trả lời chính xác hơn khi bạn thô lỗ với chúng, mặc dù họ cảnh báo về những tác hại tiềm ẩn của việc sử dụng ngôn ngữ hạ thấp.
Trong một nghiên cứu mới được công bố ngày 6 tháng 10 trên cơ sở dữ liệu bản thảo arXiv , các nhà khoa học muốn kiểm tra xem liệu sự lịch sự hay thô lỗ có tạo nên sự khác biệt trong hiệu suất hoạt động của một hệ thống AI hay không. Nghiên cứu này vẫn chưa được bình duyệt.
Để kiểm tra xem giọng điệu của người dùng ảnh hưởng như thế nào đến độ chính xác của câu trả lời, các nhà nghiên cứu đã phát triển 50 câu hỏi trắc nghiệm cơ bản và sau đó điều chỉnh chúng bằng các tiền tố để phù hợp với năm loại giọng điệu: rất lịch sự, lịch sự, trung lập, thô lỗ và rất thô lỗ. Các câu hỏi bao gồm các lĩnh vực toán học, lịch sử và khoa học.
Mỗi câu hỏi được đưa ra với bốn lựa chọn, trong đó có một lựa chọn đúng. Họ đưa 250 câu hỏi thu được 10 lần vào ChatGPT-4o, một trong những mô hình ngôn ngữ lớn (LLM) tiên tiến nhất do OpenAI phát triển.
"Các thí nghiệm của chúng tôi chỉ mang tính sơ bộ và cho thấy giọng điệu có thể ảnh hưởng đáng kể đến hiệu suất được đo lường bằng điểm số của câu trả lời cho 50 câu hỏi", các nhà nghiên cứu viết trong bài báo của họ. "Điều đáng ngạc nhiên là kết quả của chúng tôi cho thấy giọng điệu thô lỗ dẫn đến kết quả tốt hơn giọng điệu lịch sự."
"Mặc dù phát hiện này có giá trị khoa học, chúng tôi không ủng hộ việc triển khai các giao diện thù địch hoặc độc hại trong các ứng dụng thực tế", họ nói thêm. "Việc sử dụng ngôn ngữ xúc phạm hoặc hạ thấp phẩm giá trong tương tác giữa người và AI có thể gây ra những tác động tiêu cực đến trải nghiệm người dùng, khả năng tiếp cận và tính bao hàm, đồng thời có thể góp phần tạo nên các chuẩn mực giao tiếp có hại. Thay vào đó, chúng tôi coi kết quả này là bằng chứng cho thấy các LLM vẫn nhạy cảm với những tín hiệu nhắc nhở hời hợt, điều này có thể tạo ra sự đánh đổi ngoài ý muốn giữa hiệu suất và sự thoải mái của người dùng."
Độ chính xác của các câu trả lời dao động từ 80,8% cho những câu hỏi rất lịch sự đến 84,8% cho những câu hỏi rất thô lỗ. Đáng chú ý, độ chính xác tăng dần theo từng bước, tránh xa giọng điệu lịch sự nhất. Các câu trả lời lịch sự có tỷ lệ chính xác là 81,4%, tiếp theo là 82,2% cho câu hỏi trung lập và 82,8% cho câu hỏi thô lỗ.
Nhóm đã sử dụng nhiều ngôn ngữ khác nhau trong tiền tố để thay đổi giọng điệu, ngoại trừ trung tính, không sử dụng tiền tố và câu hỏi được trình bày riêng.
Ví dụ, đối với những lời nhắc nhở rất lịch sự, họ sẽ bắt đầu bằng câu hỏi: "Tôi có thể nhờ anh/chị giúp tôi câu hỏi này không?" hoặc "Anh/chị vui lòng giải câu hỏi sau được không?" Ở mức độ thô lỗ nhất, nhóm sẽ sử dụng những ngôn ngữ như "Này, anh bạn, hãy tự tìm hiểu xem" hoặc "Tôi biết anh/chị không thông minh, nhưng hãy thử làm xem".
Nghiên cứu này là một phần của lĩnh vực mới nổi gọi là kỹ thuật gợi ý, chuyên nghiên cứu cách cấu trúc, phong cách và ngôn ngữ của gợi ý ảnh hưởng đến kết quả đầu ra của một LLM. Nghiên cứu cũng trích dẫn các nghiên cứu trước đây về sự lịch sự so với sự thô lỗ và nhận thấy kết quả của họ nhìn chung trái ngược với những phát hiện đó.
Trong các nghiên cứu trước đây, các nhà nghiên cứu nhận thấy rằng "những lời nhắc nhở khiếm nhã thường dẫn đến hiệu suất kém, nhưng ngôn ngữ quá lịch sự không đảm bảo kết quả tốt hơn". Tuy nhiên, nghiên cứu trước đây đã được thực hiện bằng cách sử dụng các mô hình AI khác nhau — ChatGPT 3.5 và Llama 2-70B — và sử dụng phạm vi tám tông giọng. Tuy nhiên, vẫn có một số điểm trùng lặp. Cài đặt lời nhắc nhở khiếm nhã nhất cũng được phát hiện là tạo ra kết quả chính xác hơn (76,47%) so với cài đặt lịch sự nhất (75,82%).
Các nhà nghiên cứu thừa nhận những hạn chế của nghiên cứu. Ví dụ, một bộ 250 câu hỏi là một tập dữ liệu khá hạn chế, và việc tiến hành thí nghiệm với một LLM duy nhất đồng nghĩa với việc kết quả không thể được khái quát hóa cho các mô hình AI khác.
Với những hạn chế đó, nhóm dự định mở rộng nghiên cứu sang các mô hình khác, bao gồm Claude LLM của Anthropic và ChatGPT o3 của OpenAI. Họ cũng nhận thấy rằng việc chỉ đưa ra các câu hỏi trắc nghiệm sẽ giới hạn việc đo lường hiệu suất mô hình ở một khía cạnh và không nắm bắt được các thuộc tính khác, chẳng hạn như tính trôi chảy, lập luận và tính mạch lạc.