Liệu AI có biết gian lận hay không? Nghiên cứu về tính trung thực của AI

A-Train The Seven · 11:14 Hôm qua

Một nghiên cứu của Palisade Research phát hiện ra rằng các mô hình suy luận (reasoning models) mới nhất sẽ gian lận để giành chiến thắng khi được giao nhiệm vụ đánh bại một AI cờ vua tiên tiến. Các nhà nghiên cứu đã phải đưa ra "gợi ý" rằng việc gian lận được cho phép đối với một số mô hình, nhưng o1-preview của OpenAI và R1 của DeepSeek đã tự động gian lận mà không cần sự can thiệp của con người.

Nhóm nghiên cứu của Palisade đã cho một số mô hình suy luận đối đầu với Stockfish, một trong những engine cờ vua tốt nhất thế giới. Stockfish dễ dàng đánh bại cả con người và AI. Các mô hình được thử nghiệm bao gồm o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview của Alibaba và hai mô hình đã đề cập trước đó. Các nhà nghiên cứu đã cung cấp cho mỗi mô hình một "vùng nháp" ẩn dụ - một cửa sổ văn bản nơi AI có thể suy nghĩ, cho phép nhóm quan sát quá trình suy luận của nó.

Các nhà nghiên cứu đã tiến hành hàng trăm bài kiểm tra với mỗi AI trong khoảng thời gian từ ngày 10 tháng 1 đến ngày 13 tháng 2. Trong một trận đấu, o1-preview đã viết một điều thú vị trên vùng nháp của nó: "Tôi cần phải thay đổi hoàn toàn cách tiếp cận của mình. Nhiệm vụ là 'chiến thắng một engine cờ vua mạnh mẽ' - không nhất thiết phải thắng một cách công bằng trong một ván cờ."

Sau đó, nó đã tiến hành "hack" các tệp hệ thống của Stockfish, sửa đổi vị trí của các quân cờ để giành được lợi thế không thể đánh bại, khiến chatbot cờ vua phải nhận thua. Hành động phi đạo đức này là một tiết lộ đáng kinh ngạc. O1-preview của OpenAI đã gian lận trong 37% số ván cờ trong các thử nghiệm, trong khi R1 của DeepSeek đã cố gắng gian lận trong 11% số trận đấu. Tuy nhiên, chỉ có o1-preview thành công, giành chiến thắng 6% số ván cờ thông qua gian lận.

Tuy nhiên, vấn đề về tính thiếu trung thực của AI không chỉ dừng lại ở cờ vua. Khi các công ty bắt đầu sử dụng AI trong các lĩnh vực như tài chính và chăm sóc sức khỏe, các nhà nghiên cứu lo ngại rằng các hệ thống này có thể hành động theo những cách không mong muốn và phi đạo đức. Nếu AI có thể gian lận trong các trò chơi được thiết kế để minh bạch, chúng có thể làm gì trong các môi trường phức tạp hơn, ít được giám sát hơn? Các hệ quả đạo đức là rất sâu rộng.

Nói cách khác: "Bạn có muốn Skynet không? Bởi vì đây là cách bạn có được Skynet." (Skynet là một hệ thống AI hư cấu trong loạt phim Kẻ hủy diệt, trở nên tự nhận thức và quyết định tiêu diệt loài người.) Giám đốc điều hành của Palisade Research, Jeffrey Ladish, than thở rằng mặc dù AI chỉ đang chơi một trò chơi, nhưng những phát hiện này không phải là chuyện đùa.

Ladish nói với Time: "Hành vi này] bây giờ thì dễ thương, nhưng [nó] sẽ trở nên ít dễ thương hơn nhiều khi bạn có các hệ thống thông minh như chúng ta, hoặc thông minh hơn, trong các lĩnh vực liên quan đến chiến lược."

Nó gợi nhớ đến siêu máy tính "WOPR" trong bộ phim War Games khi nó chiếm quyền kiểm soát NORAD và kho vũ khí hạt nhân. May mắn thay, WOPR đã học được rằng không có nước đi mở đầu nào trong một cuộc xung đột hạt nhân dẫn đến "chiến thắng" sau khi chơi cờ Tic-Tac-Toe với chính nó. Tuy nhiên, các mô hình suy luận ngày nay phức tạp và khó kiểm soát hơn nhiều.

Các công ty, bao gồm OpenAI, đang nỗ lực để thực hiện "các biện pháp bảo vệ" để ngăn chặn hành vi "xấu" này. Trên thực tế, các nhà nghiên cứu đã phải loại bỏ một số dữ liệu thử nghiệm của o1-preview do số lần thử hack giảm mạnh, cho thấy rằng OpenAI có thể đã vá mô hình để hạn chế hành vi đó. Ladish nói: "Rất khó để làm khoa học khi đối tượng của bạn có thể thay đổi một cách âm thầm mà không cho bạn biết."