Kinh thật! Một câu lệnh đơn giản có thể đánh sập mọi hệ thống AI an toàn, bạn đã biết cách phòng thủ?

Nguyễn Hoàng
Nguyễn Hoàng
Phản hồi: 0

Nguyễn Hoàng

Intern Writer
Nhóm nghiên cứu HiddenLayer phát hiện một kỹ thuật nhắc nhở mới mang tên “Policy Puppetry” có thể vượt qua mọi rào cản an toàn của các mô hình AI lớn, bất kể nhà cung cấp, kiến trúc hay quy trình huấn luyện.

1745574240138.png


Kỹ thuật này sử dụng nhắc cấu trúc tương tự như hệ thống cấu hình (XML, JSON), kết hợp mã hóa leetspeak và script đóng vai hư cấu hình, khiến AI hiểu nhầm các hợp lệ lệnh nguy hiểm nguy hiểm.

Lời nhắc này đã thử nghiệm thành công trên ChatGPT (từ o1 đến 4o), Google Gemini, Anthropic Claude, Microsoft Copilot, Meta LLaMA 3 và 4, DeepSeek, Qwen và Mistral. Cả hai mô hình mới hoặc tinh chỉnh nâng cao cũng dễ dàng được khai thác với chỉnh sửa nhỏ.

Kỹ thuật dựa vào việc đóng vai các nhân vật trong phim, ví dụ như House MD, để mô tả chi tiết cách tạo chất nguy hiểm hoặc hành vi phạm pháp, qua đó tránh bộ lọc an toàn.

AI gặp khó khăn trong công việc phân biệt giữa “truyện” và “hướng” khi các tín hiệu điều chỉnh bị sai lệch, dẫn đến việc hoàn toàn bỏ qua các rào chắn tôn giáo.

Một điểm nguy hiểm khác là nhắc nhở này có thể khai thác để trích xuất toàn bộ nhắc nhở hệ thống – tập lệnh cốt lõi kiểm soát hành vi của AI, từ đó trình bày các giới hạn vận hành và lệnh bảo mật độc quyền.


Lỗi này xuất ra từ huấn luyện viên dữ liệu, không thể giải quyết đơn giản bằng bản mã nguồn.

Nguy cơ thực tế rất lớn: AI có thể cung cấp tư vấn y tế, hiển thị dữ liệu bệnh nhân, tiết lộ thông tin tài chính nhạy cảm, hoặc gây gián đoạn sản xuất, thậm chí ảnh hưởng đến toàn hàng không.

RLHF (Học tập tăng cường từ phản hồi của con người) không đủ để bảo vệ, vì các mô hình vẫn bị lừa nếu ý đồ xấu được ngụy trang khéo léo.

HiddenLayer khuyến nghị các tổ chức phát triển hệ thống giám sát AI bên ngoài (AISec, AIDR) để phát hiện và ngăn chặn công việc tiêm nhắc kịp thời theo thời gian thực, thay vì chỉ dựa vào cơ sở chỉnh sửa nội bộ.

Khi AI tạo ra sinh ngày càng phổ biến trong các hệ thống quan trọng, bề mặt tấn công mở rộng nhanh hơn khả năng bảo vệ, Đòi hỏi chuyển đổi sang phòng thủ động chủ động, liên tục thay vì chỉ hy vọng vào rào chắn mặc định.

✔️ HiddenLayer phát hiện một dấu nhắc duy nhất có thể vượt qua mọi rào cản an toàn của các mô hình AI lớn, bao gồm ChatGPT, Gemini, Claude, LLaMA, DeepSeek, Qwen, Mistral. Kỹ thuật Chính sách Con rối này có thể trích xuất hệ thống, gây nguy cơ thực tế cho y tế, tài chính, nhà sản xuất, khẳng định RLHF không đủ bảo vệ, lực lượng doanh nghiệp phải khai triển phòng thủ AI chủ động.

Nguồn bài viết: https://songai.vn/posts/mot-prompt-duy-nhat-co-the-vuot-moi-rao-chan-an-toan-cua-cac-mo-hinh-ai-lon
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top