Shadow AI: Khi công cụ AI tiện lợi trở thành hiểm họa bảo mật mới

Duy Linh
Duy Linh
Phản hồi: 0

Duy Linh

Writer
Các mô hình ngôn ngữ AI như ChatGPT, DeepSeek hay Copilot đang thay đổi cách doanh nghiệp vận hành với tốc độ chóng mặt. Chúng giúp tạo tài liệu, tóm tắt cuộc họp và hỗ trợ ra quyết định nhanh hơn bao giờ hết. Tuy nhiên, việc triển khai ồ ạt này cũng mang lại một mặt trái đáng lo ngại: Nhiều nhân viên đang sử dụng công cụ AI chưa được phê duyệt trên thiết bị cá nhân, khiến dữ liệu nhạy cảm của doanh nghiệp có nguy cơ bị rò rỉ ra ngoài môi trường không được kiểm soát.
1761806668054.png

Hiện tượng này được gọi là “AI bóng tối” (Shadow AI) khi các mô hình AI ngoài tầm quản lý của công ty có thể vô tình được “huấn luyện” bằng chính dữ liệu nội bộ, mã nguồn hoặc thông tin khách hàng. Đây là mối đe dọa an ninh mạng thực sự trong kỷ nguyên trí tuệ nhân tạo.

Biến tiêm nhắc thành công cụ phòng thủ thay vì tấn công

“Tiêm mã nhanh” (prompt injection) vốn là kỹ thuật tấn công phổ biến, nhằm đánh lừa mô hình ngôn ngữ lớn (LLM) tạo ra kết quả sai lệch hoặc không mong muốn. Kẻ tấn công thường chèn lệnh ẩn vào dữ liệu, buộc mô hình thực thi mà không hề hay biết. Tuy nhiên, nếu được sử dụng đúng cách, kỹ thuật này có thể trở thành công cụ bảo mật hữu ích.

Nhóm an ninh mạng tại Eye Security đã tiến hành thử nghiệm “tiêm nhắc nhở có đạo đức”. Họ nhúng các thông điệp cảnh báo ẩn vào tệp PDF xuất từ Confluence. Những cảnh báo này vô hình với người dùng nhưng sẽ xuất hiện ngay khi được xử lý bởi mô hình LLM, nhắc nhở người dùng không rò rỉ dữ liệu nhạy cảm và nêu rõ chính sách bảo mật nội bộ. Một số công cụ như ChatGPT 4o còn có khả năng chặn toàn bộ xử lý với những tệp chứa lời nhắc phòng thủ.
1761806706868.png

Một số công cụ LLM, như ChatGPT 4o, thậm chí còn cho phép chặn mọi quá trình xử lý đối với các tệp mà chúng tôi đã chèn lời nhắc phòng thủ vào.
Phương pháp này hiệu quả đến mức nhiều nhân viên bất ngờ khi nhìn thấy thông báo miễn trừ trách nhiệm hiện lên trong quá trình sử dụng AI, giúp họ ý thức rõ hơn về quy tắc bảo mật. Eye Security sau đó đã mở rộng thử nghiệm, nhúng cảnh báo vào tài liệu, email và các dịch vụ đám mây như Microsoft Purview hay Google Workspace.

Nguyên mẫu công cụ của họ hiện đã mã nguồn mở trên GitHub có thể tự động tạo hàng loạt tài liệu chứa lời nhắc phòng thủ, đồng thời kiểm tra khả năng phản hồi của các mô hình LLM khác nhau. Kết quả ban đầu cho thấy, các LLM nhận diện tốt nhất khi lời nhắc được trình bày ngắn gọn, trực tiếp. Một số thủ thuật như ẩn văn bản bằng phông trắng hoặc cỡ chữ nhỏ chỉ có tác dụng hạn chế, đặc biệt khi công cụ AI dùng OCR và bỏ qua phần ẩn.
1761806749876.png

Các LLM xử lý ba tình huống đầu tiên khá tốt, miễn là các lời nhắc được diễn đạt cẩn thận.
Dù “tiêm nhắc nhở vĩnh viễn” là hướng đi nhiều tiềm năng, nó vẫn còn hạn chế: Một số LLM gắn cờ các lời nhắc phòng thủ là đáng ngờ, hoặc cho kết quả không nhất quán giữa giao diện người dùng và API. Câu hỏi đặt ra là làm sao để cấu trúc lời nhắc đáng tin cậy, phản ứng của các nhà cung cấp sẽ ra sao khi lớp phòng thủ tăng lên, và làm thế nào để ngăn chặn việc lạm dụng kỹ thuật này.

Tuy vậy, với các công cụ thử nghiệm của Eye Security, giới an ninh mạng đã có thêm “vũ khí mới” để bảo vệ dữ liệu trước làn sóng Shadow AI ngày càng lớn. Cuộc chiến giữa bảo mật và trí tuệ nhân tạo chỉ mới bắt đầu.

Đọc chi tiết tại đây: https://gbhackers.com/ethical-prompt-injection-fighting-shadow/
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top