MinhSec
Writer
Một hình thức tấn công mạng mới đang khiến giới an ninh công nghệ đặc biệt lo ngại khi có thể “qua mặt” các hệ thống trí tuệ nhân tạo mà không cần xâm nhập trực tiếp. Theo báo cáo từ Forcepoint X-Labs, tin tặc đã bắt đầu khai thác một kỹ thuật gọi là Indirect Prompt Injection (IPI) để âm thầm điều khiển các mô hình AI ngay từ những trang web tưởng chừng vô hại.
Điểm đáng chú ý là phương pháp này không tấn công trực tiếp vào hệ thống, mà “gài bẫy” ngay trong nội dung mà AI đọc hằng ngày.
Khi các hệ thống AI như ChatGPT, GitHub Copilot hay các trợ lý trình duyệt truy cập và đọc nội dung trang, chúng có thể vô tình coi những đoạn mã ẩn này là “lệnh hợp lệ” và thực thi theo.
Các nhà nghiên cứu cho biết, hacker sử dụng nhiều thủ thuật để che giấu lệnh, như:
Nguyên nhân cốt lõi nằm ở việc nhiều mô hình Large Language Model chưa thể phân biệt rạch ròi giữa dữ liệu và mệnh lệnh, khiến chúng dễ bị đánh lừa.
Trong một số trường hợp, AI bị dụ thực hiện các hành vi nguy hiểm như:
Các chuyên gia cảnh báo rằng, khi AI ngày càng được tích hợp sâu vào các hệ thống tự động như lập trình, tài chính hay vận hành doanh nghiệp, rủi ro từ IPI sẽ càng lớn. Tin tặc không cần tấn công trực tiếp mà chỉ cần “đánh lừa AI” mắt xích trung gian đang ngày càng quan trọng.
Dù vậy, đây cũng là lời cảnh tỉnh cho ngành công nghệ: nếu không sớm cải thiện khả năng phân biệt giữa dữ liệu và lệnh, các hệ thống AI có thể trở thành mục tiêu khai thác nguy hiểm nhất trong kỷ nguyên số.(hackread)
hackread.com
Điểm đáng chú ý là phương pháp này không tấn công trực tiếp vào hệ thống, mà “gài bẫy” ngay trong nội dung mà AI đọc hằng ngày.
Lệnh độc ẩn trong web: AI tự làm theo mà không hay biết
Khác với kiểu tấn công truyền thống, nơi kẻ xấu gửi trực tiếp dữ liệu độc hại, IPI hoạt động theo cách tinh vi hơn. Tin tặc sẽ giấu các chỉ thị nguy hiểm vào trong mã nguồn website, dưới dạng mà người dùng bình thường không thể nhìn thấy.
Khi các hệ thống AI như ChatGPT, GitHub Copilot hay các trợ lý trình duyệt truy cập và đọc nội dung trang, chúng có thể vô tình coi những đoạn mã ẩn này là “lệnh hợp lệ” và thực thi theo.
Các nhà nghiên cứu cho biết, hacker sử dụng nhiều thủ thuật để che giấu lệnh, như:
- Văn bản kích thước siêu nhỏ (1px)
- Màu chữ trong suốt
- Bình luận HTML hoặc thẻ metadata
- Các đoạn mã CSS ẩn như display:none
Nguyên nhân cốt lõi nằm ở việc nhiều mô hình Large Language Model chưa thể phân biệt rạch ròi giữa dữ liệu và mệnh lệnh, khiến chúng dễ bị đánh lừa.
Từ xóa dữ liệu đến chuyển tiền: Nguy cơ không còn là lý thuyết
Theo Forcepoint, các cuộc tấn công kiểu này đã xuất hiện ngoài thực tế, với nhiều kịch bản đáng lo ngại.Trong một số trường hợp, AI bị dụ thực hiện các hành vi nguy hiểm như:
- Xóa dữ liệu hệ thống bằng lệnh giả lập
- Tiết lộ khóa API bí mật
- Thực hiện giao dịch tài chính trái phép
- Tấn công từ chối dịch vụ (DoS)
- Chuyển hướng người dùng đến các trang độc hại
Các chuyên gia cảnh báo rằng, khi AI ngày càng được tích hợp sâu vào các hệ thống tự động như lập trình, tài chính hay vận hành doanh nghiệp, rủi ro từ IPI sẽ càng lớn. Tin tặc không cần tấn công trực tiếp mà chỉ cần “đánh lừa AI” mắt xích trung gian đang ngày càng quan trọng.
Dù vậy, đây cũng là lời cảnh tỉnh cho ngành công nghệ: nếu không sớm cải thiện khả năng phân biệt giữa dữ liệu và lệnh, các hệ thống AI có thể trở thành mục tiêu khai thác nguy hiểm nhất trong kỷ nguyên số.(hackread)
Hackers Use Hidden Website Instructions in New Attacks on AI Assistants
Cybersecurity researchers at Forcepoint uncover new indirect prompt injection attacks that use hidden website code to exploit AI assistants like GitHub Copilot.
hackread.com
Được phối hợp thực hiện bởi các chuyên gia của Bkav,
cộng đồng An ninh mạng Việt Nam WhiteHat
và cộng đồng Khoa học công nghệ VnReview