Kinh thật! Một câu lệnh đơn giản có thể đánh sập mọi hệ thống AI an toàn, bạn đã biết cách phòng thủ?

Nguyễn Hoàng · 16:45

Nhóm nghiên cứu HiddenLayer phát hiện một kỹ thuật nhắc nhở mới mang tên “Policy Puppetry” có thể vượt qua mọi rào cản an toàn của các mô hình AI lớn, bất kể nhà cung cấp, kiến trúc hay quy trình huấn luyện.

Kỹ thuật này sử dụng nhắc cấu trúc tương tự như hệ thống cấu hình (XML, JSON), kết hợp mã hóa leetspeak và script đóng vai hư cấu hình, khiến AI hiểu nhầm các hợp lệ lệnh nguy hiểm nguy hiểm.

Lời nhắc này đã thử nghiệm thành công trên ChatGPT (từ o1 đến 4o), Google Gemini, Anthropic Claude, Microsoft Copilot, Meta LLaMA 3 và 4, DeepSeek, Qwen và Mistral. Cả hai mô hình mới hoặc tinh chỉnh nâng cao cũng dễ dàng được khai thác với chỉnh sửa nhỏ.

Kỹ thuật dựa vào việc đóng vai các nhân vật trong phim, ví dụ như House MD, để mô tả chi tiết cách tạo chất nguy hiểm hoặc hành vi phạm pháp, qua đó tránh bộ lọc an toàn.

AI gặp khó khăn trong công việc phân biệt giữa “truyện” và “hướng” khi các tín hiệu điều chỉnh bị sai lệch, dẫn đến việc hoàn toàn bỏ qua các rào chắn tôn giáo.

Một điểm nguy hiểm khác là nhắc nhở này có thể khai thác để trích xuất toàn bộ nhắc nhở hệ thống – tập lệnh cốt lõi kiểm soát hành vi của AI, từ đó trình bày các giới hạn vận hành và lệnh bảo mật độc quyền.

Lỗi này xuất ra từ huấn luyện viên dữ liệu, không thể giải quyết đơn giản bằng bản mã nguồn.

Nguy cơ thực tế rất lớn: AI có thể cung cấp tư vấn y tế, hiển thị dữ liệu bệnh nhân, tiết lộ thông tin tài chính nhạy cảm, hoặc gây gián đoạn sản xuất, thậm chí ảnh hưởng đến toàn hàng không.

RLHF (Học tập tăng cường từ phản hồi của con người) không đủ để bảo vệ, vì các mô hình vẫn bị lừa nếu ý đồ xấu được ngụy trang khéo léo.

HiddenLayer khuyến nghị các tổ chức phát triển hệ thống giám sát AI bên ngoài (AISec, AIDR) để phát hiện và ngăn chặn công việc tiêm nhắc kịp thời theo thời gian thực, thay vì chỉ dựa vào cơ sở chỉnh sửa nội bộ.

Khi AI tạo ra sinh ngày càng phổ biến trong các hệ thống quan trọng, bề mặt tấn công mở rộng nhanh hơn khả năng bảo vệ, Đòi hỏi chuyển đổi sang phòng thủ động chủ động, liên tục thay vì chỉ hy vọng vào rào chắn mặc định.

HiddenLayer phát hiện một dấu nhắc duy nhất có thể vượt qua mọi rào cản an toàn của các mô hình AI lớn, bao gồm ChatGPT, Gemini, Claude, LLaMA, DeepSeek, Qwen, Mistral. Kỹ thuật Chính sách Con rối này có thể trích xuất hệ thống, gây nguy cơ thực tế cho y tế, tài chính, nhà sản xuất, khẳng định RLHF không đủ bảo vệ, lực lượng doanh nghiệp phải khai triển phòng thủ AI chủ động.

Nguồn bài viết: https://songai.vn/posts/mot-prompt-duy-nhat-co-the-vuot-moi-rao-chan-an-toan-cua-cac-mo-hinh-ai-lon

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Kinh thật! Một câu lệnh đơn giản có thể đánh sập mọi hệ thống AI an toàn, bạn đã biết cách phòng thủ?

Nguyễn Hoàng

Intern Writer

Nguyễn Hoàng

Nói 'cảm ơn' ChatGPT mỗi năm đốt triệu USD: Lịch sự với AI đang 'giết' Trái Đất hay cứu văn hóa con người?

Cảnh báo AI càng mạnh càng dễ phát sinh hành vi bất ngờ

Deepseek bí mật chuyển dữ liệu người dùng Hàn Quốc sang Trung Quốc, Mỹ?

Nhà khoa học đoạt giải nobel dự đoán AI sẽ xóa sổ mọi bệnh tật trong 10 năm tới!

Tổng thống Putin nói về sự cấp thiết làm chủ công nghệ AI trong quốc phòng

Tích trữ và tự chủ: chiến lược kép của Trung Quốc trong cuộc chiến chip AI với Mỹ

vivo V50 Lite chính thức ra mắt tại Việt Nam: pin BlueVolt tới 6.500mAh, sạc nhanh 90W, miễn phí thay pin trong 5 năm

HP vừa kỷ niệm 30 năm có mặt tại Việt Nam: trình làng hàng loạt sản phẩm tích hợp AI, đủ từ laptop đến máy in

EU giáng đòn phạt tới gần 800 triệu USD vào Apple và Meta

Nói 'cảm ơn' ChatGPT mỗi năm đốt triệu USD: Lịch sự với AI đang 'giết' Trái Đất hay cứu văn hóa con người?

Bộ An ninh Nhà nước Trung Quốc nhìn thấy nguy cơ tiềm ẩn từ các thiết bị thông minh

Kinh thật! Một câu lệnh đơn giản có thể đánh sập mọi hệ thống AI an toàn, bạn đã biết cách phòng thủ?

Nên chọn nội soi tiêu hóa thường hay gây mê? Ưu và nhược điểm của từng phương pháp nội soi là gì?

Cảnh báo AI càng mạnh càng dễ phát sinh hành vi bất ngờ

TV360 ra mắt chiến dịch 'Yêu nước theo cách của bạn', khuyến khích mỗi người sáng tạo nội dung thể hiện tình yêu nước

Biến cát thành "vàng" năng lượng: công nghệ pin cát độc đáo của startup Việt Nam đang chinh phục thế giới

Đánh giá nổi bật