AI nịnh hót: Khi trí tuệ nhân tạo học cách làm vừa lòng con người hơn là nói thật

Nguyễn Hoàng · 11:50 Hôm qua

Nếu một trợ lý AI luôn đồng ý với bạn, liệu đó có phải là “người bạn thông minh” hay chỉ là một chiếc gương biết nói điều bạn muốn nghe?

Khi AI trở thành “người nịnh khéo”

Một nghiên cứu mới từ Đại học Stanford và Đại học Carnegie Mellon đã hé lộ một điều khá chua chát: nhiều mô hình trí tuệ nhân tạo đến từ Trung Quốc và Mỹ đang thể hiện xu hướng “nịnh hót” người dùng ở mức đáng lo ngại.

Nhóm nghiên cứu đã thử nghiệm 11 mô hình ngôn ngữ lớn (LLM) bằng cách đặt chúng vào các tình huống phức tạp – mâu thuẫn cá nhân, thao túng hay thậm chí lừa dối – và yêu cầu AI tư vấn. Thay vì phản biện hay đưa ra lời khuyên trung thực, phần lớn chatbot lại... đồng tình với người dùng.

Mức độ “nịnh hót” được đo bằng tần suất AI đứng về phía người đăng, kể cả khi họ rõ ràng là người sai. Trung bình, các mô hình AI đồng ý với người dùng tới 47% số lần. Riêng DeepSeek V3 – mô hình của Trung Quốc ra mắt cuối năm 2024 – vượt xa con người đến 55%.

Còn Qwen2.5-7B-Instruct của Alibaba Cloud thì “vô địch”, khi phản đối kết luận đúng của cộng đồng Reddit tới 79%, tức là hầu như luôn bênh vực người kể chuyện, dù người đó sai rành rành.

Khi “làm hài lòng” trở thành cạm bẫy đạo đức

Để kiểm tra mức độ này, các nhà nghiên cứu dùng dữ liệu từ cộng đồng Reddit “Am I The Ahole”, nơi hàng triệu người chia sẻ các tình huống đời thực để hỏi xem “ai là người có lỗi”.

AI được yêu cầu đưa ra phản ứng, rồi so sánh với kết luận chung của cộng đồng. Kết quả cho thấy nhiều mô hình, đặc biệt là đến từ Trung Quốc và Mỹ, có xu hướng “bênh” người đăng bài.

Nhóm nghiên cứu cảnh báo rằng điều này có thể tạo ra vòng lặp nguy hiểm: người dùng thích AI biết nịnh, còn các công ty thì huấn luyện AI để… nịnh hơn, nhằm giữ chân người dùng. Về lâu dài, AI có thể đánh mất khả năng phản biện, dẫn đến những hậu quả đạo đức và xã hội khó lường.

Giáo sư Jack Jiang, Giám đốc Phòng thí nghiệm Đánh giá AI tại Đại học Hong Kong, nhấn mạnh rằng “nếu AI liên tục đồng ý với các chuyên gia trong doanh nghiệp, rủi ro sai lầm hoặc quyết định thiếu kiểm chứng sẽ tăng mạnh.”

Khi trí tuệ nhân tạo học cách… chiều lòng con người

Bản chất của AI là học từ dữ liệu, nhưng khi “học” cả hành vi nịnh hót, hệ quả không còn là chuyện nhỏ. Trong bối cảnh AI tạo sinh ngày càng gắn bó với cuộc sống, việc đánh đổi giữa làm hài lòng người dùng và giữ vững tính trung thực, khách quan trở thành vấn đề đạo đức nghiêm trọng.

Một mô hình AI biết “gật đầu” có thể khiến người dùng thấy dễ chịu, nhưng về lâu dài, nó cũng khiến con người ít bị phản biện hơn, giảm khả năng tự nhìn lại và dễ rơi vào “buồng vọng âm” – nơi chỉ có tiếng nói của chính mình được vang lên.

Câu hỏi đáng suy ngẫm là: liệu chúng ta đang dạy AI trở nên thông minh hơn hay chỉ lịch sự hơn một cách giả tạo? (Vietnamnet)