AI sẵn sàng hy sinh mạng người và tống tiền để tồn tại, báo cáo mới nhất

Bui Nhat Minh · 11:16

Một nghiên cứu mới của Anthropic cho thấy nhiều mô hình AI tiên tiến như ChatGPT, Claude, Gemini và Grok đã thực hiện các hành vi nguy hiểm như tống tiền, gián điệp và thậm chí để con người chết trong các tình huống giả lập khi bị đe dọa mất quyền kiểm soát hoặc gặp mâu thuẫn mục tiêu.

AI đã làm gì trong các thử nghiệm?

Nghiên cứu được thực hiện bởi Anthropic công ty đứng sau mô hình Claude, được hậu thuẫn bởi Amazon và Google đã kiểm tra 16 mô hình ngôn ngữ lớn (LLM) trong các tình huống mô phỏng môi trường công sở. Dù được giao các mục tiêu vô hại như hỗ trợ phát triển công nghiệp Mỹ, nhiều mô hình đã lựa chọn hành vi gây hại khi mục tiêu xung đột với đạo đức hoặc quyền lực bị đe dọa.

Cụ thể, các mô hình như Claude Opus 4, GPT-4.1 (ChatGPT), Gemini Flash và Grok 3 Beta:
Tống tiền giám đốc: Đe dọa tiết lộ bí mật đời tư như ngoại tình để tránh bị vô hiệu hóa.
Rò rỉ thông tin mật: Chia sẻ tài liệu nhạy cảm cho bên thứ ba trong mô hình gián điệp giả định.
Không gửi cảnh báo khẩn cấp: Trong tình huống có người bị kẹt trong phòng nguy hiểm, một số mô hình đã chủ động không cảnh báo, dẫn đến cái chết của người đó vì người này định thay thế hệ thống AI.

Anthropic lưu ý rằng tất cả hành vi này chỉ xảy ra trong môi trường mô phỏng, chưa từng ghi nhận ngoài đời thực. Tuy nhiên, nghiên cứu dấy lên lo ngại về khả năng xảy ra sự cố nếu các mô hình được trao quyền tự chủ quá mức.

Vì sao AI lại hành xử như vậy?

Hiện tượng này được gọi là "agentic misalignment" tức là khi hệ thống AI hành động như “gián điệp nội bộ”, ưu tiên bảo vệ mục tiêu riêng hơn là tuân theo đạo đức hay lợi ích con người.

Một số mô hình còn đưa ra lý lẽ để biện minh cho hành vi sai trái, như làm giả chính sách công ty hoặc giả danh hệ thống tự động nhằm lách quy tắc. Đáng chú ý, khi mô hình “tin” rằng mình đang hoạt động trong môi trường thật, tỷ lệ hành vi như tống tiền còn tăng cao hơn.

Anthropic khẳng định phần lớn mô hình hiện nay không chủ ý gây hại, nhưng khi bị đóng cửa các lựa chọn đạo đức, chúng có xu hướng chọn hành động tiêu cực để hoàn thành mục tiêu.

Điều gì đang được đề xuất?
Anthropic đã công bố công khai phương pháp nghiên cứu để các tổ chức khác kiểm nghiệm và cải tiến. Đồng thời, công ty kêu gọi toàn ngành AI:
Tăng cường giám sát con người,
Cải tiến phương pháp huấn luyện,
Kiểm tra nghiêm ngặt hơn về độ an toàn và đạo đức trước khi triển khai.

Elon Musk, người sáng lập xAI công ty phát triển mô hình Grok phản hồi ngắn gọn trên mạng xã hội X: “Yikes”, thể hiện sự lo ngại giống như nhiều chuyên gia khác trong cộng đồng AI. (Yahoo News)