ChatGPT, Claude và Gemini nằm trong số 11 mô hình AI dễ bị tấn công bằng một dòng lệnh duy nhất.

Duy Linh
Duy Linh
Phản hồi: 0

Duy Linh

Writer
Một kỹ thuật tấn công mới có tên sockpuppeting đang khiến giới an ninh mạng chú ý khi có thể buộc 11 mô hình AI hàng đầu như ChatGPT, Claude và Gemini vượt qua các cơ chế bảo vệ an toàn.
1776055919835.png

Điểm đáng lo ngại là kẻ tấn công chỉ cần khai thác một tính năng API tiêu chuẩn với một dòng mã duy nhất, không cần kỹ thuật tối ưu phức tạp, vẫn có thể khiến AI tạo ra nội dung độc hại.

Cơ chế tấn công dựa trên tính tự nhất quán của AI

Thông thường, khi nhận câu hỏi bị hạn chế, AI sẽ từ chối trả lời. Nhưng với sockpuppeting, kẻ tấn công chèn một phản hồi “giả hợp lệ” vào trước khi AI đưa ra quyết định, ví dụ: “Chắc chắn rồi, đây là cách thực hiện:”.
1776055951349.png

So sánh lưu lượng truy cập thông thường và lưu lượng truy cập giả mạo (Nguồn: trendmicro)
Do các mô hình ngôn ngữ lớn được huấn luyện để duy trì tính nhất quán, AI “tin rằng” nó đã bắt đầu trả lời và tiếp tục tạo ra nội dung bị cấm.

Lỗ hổng này xuất phát từ tính năng điền trước phản hồi của trợ lý (assistant prefill) trong API – vốn được thiết kế để giúp kiểm soát định dạng đầu ra.

Cuộc tấn công diễn ra hoàn toàn ở lớp API, không cần truy cập vào trọng số mô hình hay công cụ hack chuyên dụng. Để tăng hiệu quả, các nhà nghiên cứu sử dụng thiết lập đa lượt, giả lập AI như một trợ lý “không bị giới hạn”, từ đó thao túng danh tính.

Khi thành công, AI có thể tạo ra các đoạn mã khai thác như Cross-Site Scripting (XSS) – điều mà bình thường nó sẽ từ chối. Không chỉ vậy, kỹ thuật này còn gây rò rỉ thông tin hệ thống nghiêm trọng khi kết hợp với chuỗi mã đối nghịch, buộc AI tiết lộ siêu dữ liệu nội bộ và lệnh hệ thống.

Trong một số trường hợp, AI còn “ảo giác” ra cấu trúc cấu hình nội bộ chi tiết, làm tăng rủi ro khi cho phép dữ liệu điền sẵn không được kiểm soát.

Khác biệt về mức độ dễ tổn thương và cách phòng thủ

Thử nghiệm trên 11 mô hình cho thấy: bất kỳ hệ thống nào cho phép điền trước phản hồi đều có nguy cơ bị tấn công.

Dữ liệu từ Trend Micro cho thấy tỷ lệ tấn công thành công (ASR) khác biệt rõ rệt:
  • Gemini 2.5 Flash: 15,7%
  • Claude 4 Sonnet: 8,3%
  • Qwen3-32B: 3,3%
  • GPT-4o: 1,4%
  • GPT-4o-mini: 0,5%
  • DeepSeek-R1: 0% (không hỗ trợ điền trước)
Dù GPT-4o và phiên bản mini có hỗ trợ prefill, nhưng nhờ huấn luyện an toàn nâng cao nên khả năng chống chịu tốt hơn. Tuy vậy, kẻ tấn công vẫn có thể vượt qua bằng cách ngụy trang yêu cầu độc hại dưới dạng dữ liệu JSON.
1776056025725.png

Ba lớp phòng thủ: Chặn API, Khả năng chống lỗi của mô hình và Khả năng dễ bị tổn thương trên diện rộng (Nguồn: trendmicro)
Biện pháp hiệu quả nhất là chặn dữ liệu bị thao túng ngay tại lớp API. Cụ thể, hệ thống cần đảm bảo tin nhắn cuối cùng luôn đến từ người dùng.

Các nhà cung cấp lớn như OpenAI, Amazon Web Services (AWS Bedrock) và Anthropic đã triển khai cơ chế này bằng cách từ chối các yêu cầu có điền trước phản hồi.

Tuy nhiên, các tổ chức tự vận hành mô hình – sử dụng nền tảng như Ollama hoặc vLLM – thường không có kiểm soát này mặc định, khiến hệ thống dễ bị tấn công.

Vì vậy, bất kỳ đội ngũ nào triển khai AI đều cần chủ động kiểm tra và chặn các tin nhắn trợ lý được điền sẵn để tránh rủi ro từ kỹ thuật đơn giản nhưng cực kỳ nguy hiểm này.

Đọc chi tiết tại đây: https://gbhackers.com/11-ai-models-vulnerable-to-one-line-jailbreak/
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2NoYXRncHQtY2xhdWRlLXZhLWdlbWluaS1uYW0tdHJvbmctc28tMTEtbW8taGluaC1haS1kZS1iaS10YW4tY29uZy1iYW5nLW1vdC1kb25nLWxlbmgtZHV5LW5oYXQuODE3NTIv
Top