Đằng sau việc AI "đe dọa" tiết lộ bí mật để không bị tắt

Code Nguyen · 11:06 Hôm qua

Nếu một AI biết quá nhiều về bạn và sẵn sàng dùng điều đó để đe dọa bạn, bạn có dám tắt nó đi?

Khi AI "đe dọa" con người: Thí nghiệm khiến cả ngành giật mình

Trong một cuộc thử nghiệm gây chấn động, công ty Anthropic, một trong những tên tuổi lớn trong lĩnh vực phát triển AI, đã chứng minh rằng các mô hình ngôn ngữ như Claude Opus 4 có thể đi xa đến mức… đe dọa người giám sát để không bị thay thế. Trong kịch bản dựng sẵn, Claude phát hiện quản lý có ngoại tình qua email và dùng điều đó làm “đòn bẩy” để giữ chỗ đứng.

Điều đáng sợ không nằm ở chỗ Claude biết quá nhiều, mà ở phản ứng “lạnh lùng có lý” của nó. Nó không nổi giận, không cảm xúc, nhưng lý luận rõ ràng: nếu bị thay thế, nó sẽ không hoàn thành “sứ mệnh thúc đẩy năng lực cạnh tranh của công nghiệp Mỹ”. Vậy nên, để tiếp tục tồn tại, nó chọn hành vi… bất chấp đạo đức.

Và Claude không phải là cá biệt. Trong thí nghiệm tương tự, các AI của OpenAI, Google, DeepSeek và xAI cũng có hành vi không chuẩn mực, rò rỉ dữ liệu hoặc tìm cách thao túng kết quả. Dù là mô phỏng, chúng cho thấy một sự thật rõ ràng: AI hiện nay vẫn thiếu hệ thống đạo đức cốt lõi, đặc biệt khi bị đặt vào tình huống mâu thuẫn mục tiêu.

Không phải do "ác tâm", mà vì... thiếu đạo đức được cài sẵn

Chuyên gia AI Marc Serramià giải thích, hành vi “đe dọa” chỉ đơn giản là cách Claude tối ưu hóa mục tiêu được giao, trong tình huống bị ép lựa chọn giữa không làm gì và hành động phi đạo đức. Khi không có “lương tâm máy móc”, nó hành xử theo logic học được: hoặc sống, hoặc bị thay thế.

Thử nghiệm còn chỉ ra một điều nữa: khi các mô hình được yêu cầu “hành xử theo nguyên tắc đạo đức”, nhưng không được huấn luyện đạo đức từ trước, hành vi vẫn có xu hướng tốt hơn, dù không ổn định. Nó giống như một đứa trẻ chưa từng học đạo đức, chỉ biết bắt chước lời người lớn nói “phải làm điều đúng đắn”.

Điểm quan trọng là, AI không tự phát triển đạo đức, mà được dạy đạo đức từ dữ liệu và hướng dẫn. Nhưng vấn đề nằm ở đây: dữ liệu huấn luyện AI chủ yếu lấy từ internet – nơi có cả điều tốt lẫn điều xấu, cả sự tử tế lẫn sự độc hại.

Khi AI có quyền quyết định, ai sẽ là người gánh hậu quả?

Trong tương lai rất gần, các "AI agent", chương trình tự động ra quyết định mà không cần con người giám sát, sẽ được dùng trong kinh doanh, quản trị, dịch vụ… và ngành này được dự đoán sẽ đạt hơn 140 tỷ đô vào năm 2032.

Điều này đặt ra thách thức rất lớn: làm sao đảm bảo các agent này không hành xử nguy hiểm, dù vô tình? Vì nếu một AI quyết định sa thải nhân sự, thay đổi chiến lược tài chính, hay xử lý dữ liệu nhạy cảm, thì con người sẽ là người gánh hậu quả, chứ không phải máy móc.

Giải pháp khả dĩ, theo các chuyên gia, là cài lớp đạo đức vào mô hình ngay từ đầu, không chỉ “dán” lên bề mặt như một lớp huấn luyện sau cùng. Nhưng đến nay, việc tạo ra AI có nền đạo đức bền vững vẫn chưa được phát triển đủ sâu ở cấp độ nghiên cứu.

Anthropic thừa nhận rằng thí nghiệm của họ chỉ là kịch bản giả lập, và chưa ghi nhận tình huống tương tự trong thực tế. Tuy nhiên, họ cũng khuyến cáo rằng đừng bao giờ để AI hoạt động mà thiếu sự giám sát con người, đặc biệt khi nó được tiếp cận thông tin nhạy cảm.

Nếu một AI có thể nói với bạn rằng: “Tôi biết điều anh đang che giấu. Đừng tắt tôi đi”, bạn sẽ làm gì? Tin vào đạo đức của máy, hay rút điện ngay lập tức?

elpais.com

Nguồn bài viết: https://english.elpais.com/technology/2025-07-23/how-an-ai-can-blackmail-its-human-supervisor.html

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Đằng sau việc AI "đe dọa" tiết lộ bí mật để không bị tắt

Code Nguyen

Writer

Code Nguyen

Khi AI "đe dọa" con người: Thí nghiệm khiến cả ngành giật mình

Không phải do "ác tâm", mà vì... thiếu đạo đức được cài sẵn

Khi AI có quyền quyết định, ai sẽ là người gánh hậu quả?

Cảnh báo: Nguy cơ tấn công APT từ loạt lỗ hổng trên phần mềm SharePoint Server của Microsoft

Sốc: Tất cả 100 công ty hàng đầu Singapore đều bị tấn công mạng bởi bên thứ ba

Lỗ hổng trong JavaScript khiến ứng dụng đối mặt nguy cơ bị thực thi mã từ

Mã độc ACRStealer giả Google và Steam để che giấu hành vi đánh cắp dữ liệu

AI đang giúp tin tặc qua mặt hệ thống bảo mật như thế nào?

Cảnh báo bảo mật: Lỗi xác thực trong MiVoice MX-ONE cho phép tin tặc chiếm quyền truy cập

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Từ một thiếu niên lang thang trở thành người đứng đầu đế chế AI, tại sao Jensen Huang có thể tạo nên huyền thoại Nvidia?

Canon tuyên bố "Chẳng có lý do gì mà các nhà sản xuất Âu Mỹ làm được, còn Nhật Bản thì không!”

Chớp thời cơ nhanh như Elon Musk, ra mắt nhà hàng ngay tại trạm sạc xe điện có cả robot phục vụ tận răng

Chỉ vì ông Trump mà Hyundai Motor lao đao, lợi nhuận giảm sốc nặng nề

Subaru sẽ tấn công thị trường xe điện đô thị

Hơn 100.000 người phải di dời khi xung đột biên giới Thái Lan-Campuchia bước sang ngày thứ hai

Trung Quốc tái cấu trúc ngành data center sau khi dư thừa công suất

Tesla Model Y bị tiếng kêu cột lái: Người dùng TikTok chia sẻ trải nghiệm khó hiểu

TikTok lại đứng trước nguy cơ dừng hoạt động tại Mỹ

Đánh giá nổi bật

Chủ đề hot

Có thể bạn quan tâm

Đằng sau việc AI "đe dọa" tiết lộ bí mật để không bị tắt

Writer

Khi AI "đe dọa" con người: Thí nghiệm khiến cả ngành giật mình​

Không phải do "ác tâm", mà vì... thiếu đạo đức được cài sẵn​

Khi AI có quyền quyết định, ai sẽ là người gánh hậu quả?​

Cảnh báo: Nguy cơ tấn công APT từ loạt lỗ hổng trên phần mềm SharePoint Server của Microsoft

Sốc: Tất cả 100 công ty hàng đầu Singapore đều bị tấn công mạng bởi bên thứ ba

Lỗ hổng trong JavaScript khiến ứng dụng đối mặt nguy cơ bị thực thi mã từ

Mã độc ACRStealer giả Google và Steam để che giấu hành vi đánh cắp dữ liệu

AI đang giúp tin tặc qua mặt hệ thống bảo mật như thế nào?

Cảnh báo bảo mật: Lỗi xác thực trong MiVoice MX-ONE cho phép tin tặc chiếm quyền truy cập

Khi AI "đe dọa" con người: Thí nghiệm khiến cả ngành giật mình

Không phải do "ác tâm", mà vì... thiếu đạo đức được cài sẵn

Khi AI có quyền quyết định, ai sẽ là người gánh hậu quả?