Microsoft cảnh báo kiểu tấn công AI mới có thể vượt qua mọi phê duyệt mà không cần một cú nhấp chuột

Duy Linh
Duy Linh
Phản hồi: 0

Duy Linh

Writer
Tháng 4/2026, tài liệu "Phân loại các chế độ lỗi trong hệ thống AI tác nhân phiên bản 2.0" được công bố, đánh dấu một bước cập nhật quan trọng trong lĩnh vực an ninh AI. Không chỉ mở rộng hệ thống phân loại rủi ro, tài liệu còn đưa ra các hướng dẫn vận hành được xây dựng từ một năm triển khai các hoạt động red teaming thực tế. Kết quả cho thấy các hệ thống AI tác nhân đang nhanh chóng biến những bề mặt tấn công truyền thống thành các vectơ tấn công mới với mức độ ảnh hưởng lớn hơn nhiều so với trước đây.
1780645279966.png

Một trong những kết luận đáng chú ý nhất là các cơ chế Human-in-the-Loop (HitL) có thể bị vượt qua hoàn toàn mà không cần bất kỳ thao tác nào từ người dùng. Điều này mở đường cho các chuỗi tấn công "không cần nhấp chuột", trong đó toàn bộ quá trình khai thác được thực hiện tự động từ đầu đến cuối.

Các cuộc tấn công AI tác nhân đang hoạt động như thế nào?

Những cuộc tấn công này không dựa vào một lỗ hổng đơn lẻ mà là sự kết hợp của nhiều kỹ thuật khác nhau. Nhóm nghiên cứu ghi nhận việc kẻ tấn công sử dụng kỹ thuật chèn lời nhắc xuyên miền (XPIA) để tạo bộ nhớ lưu trữ dài hạn, sau đó từng bước leo thang thông qua nhiều phiên làm việc nhằm tránh các cơ chế phê duyệt riêng lẻ. Đồng thời, việc khai thác thông tin về khả năng của hệ thống giúp đối tượng tấn công hiểu rõ cấu trúc công cụ cũng như mô hình phân quyền đang được sử dụng.

Ở giai đoạn cuối, các luồng đồng thuận bị thao túng về mặt ngữ nghĩa khiến hệ thống tự diễn giải những kế hoạch nhiều bước thành các hành động riêng lẻ có vẻ hợp lệ. Do từng bước đều trông hợp lý khi được xem xét độc lập, các cơ chế phê duyệt từng bước và hệ thống phát hiện ở cấp mô hình không thể nhận diện toàn bộ chuỗi tấn công.

Trong một số trường hợp, kẻ tấn công chỉ cần cung cấp một nguồn dữ liệu bên ngoài như tài liệu, hình ảnh hoặc phản hồi API đã được chuẩn bị trước. Sau đó, bộ nhớ, hệ thống xử lý và các plugin của tác nhân sẽ tự động thực hiện phần còn lại của quá trình khai thác.

Trước đó, vào tháng 4/2025, Microsoft AI Red Team đã giới thiệu phiên bản đầu tiên của bảng phân loại các chế độ lỗi trong hệ thống AI tác nhân nhằm xây dựng một ngôn ngữ chung để mô tả những mối đe dọa chưa được bao quát đầy đủ trong các khuôn khổ bảo mật hiện hành.

Phiên bản 2.0 bổ sung thêm bảy chế độ lỗi mới, giúp giải thích rõ hơn nguyên nhân khiến các cuộc tấn công không cần nhấp chuột có thể thành công.

Trong đó có nguy cơ xâm phạm chuỗi cung ứng tác nhân, nơi các định nghĩa công cụ bằng ngôn ngữ tự nhiên và các kho plugin trở thành điểm khởi đầu cho tấn công. Bên cạnh đó là hiện tượng chiếm đoạt mục tiêu, khi các chỉ thị độc hại âm thầm thay đổi mục tiêu cuối cùng của tác nhân mà không cần kiểm soát hoàn toàn hệ thống. Microsoft cũng chỉ ra rủi ro leo thang lòng tin giữa các tác nhân, xảy ra khi các bộ điều phối chấp nhận những yêu cầu chưa được xác thực từ các tác nhân đã được cấp quyền trước đó.

Nhóm nghiên cứu còn ghi nhận các cuộc tấn công trực quan sử dụng phần mềm giả lập thao tác máy tính (CUA) cùng kỹ thuật làm ô nhiễm ngữ cảnh phiên. Những phương pháp này cho phép kẻ tấn công che giấu chỉ dẫn độc hại trong hình ảnh hoặc dữ liệu đầu vào, từ đó tác động đến các quyết định được đưa ra ở các bước tiếp theo.

Ngoài ra, việc lạm dụng giao thức MCP, plugin cũng như khai thác thông tin liên quan đến khả năng và kiến trúc hệ thống đang tạo ra các bề mặt tấn công mới. Những thành phần được thiết kế để tăng khả năng kết nối và tự động hóa lại có thể trở thành công cụ hỗ trợ khai thác nếu bị lợi dụng.

Microsoft khuyến nghị gì để giảm thiểu rủi ro?

Kinh nghiệm thu được sau 12 tháng red teaming cho thấy hai bài học quan trọng đối với các đội ngũ phòng thủ.

Thứ nhất, việc tăng cường bảo mật ở cấp độ mô hình và duy trì các lời nhắc tĩnh là cần thiết nhưng chưa đủ. Nhiều cuộc tấn công nghiêm trọng không khai thác trực tiếp mô hình mà tập trung vào các thành phần ở cấp hệ thống như giao thức gọi công cụ MCP, cơ chế hoạt động của plugin, khả năng duy trì trạng thái giữa các phiên và các quy trình HitL được xây dựng dựa trên trải nghiệm người dùng.

Thứ hai, hoạt động phát hiện mối đe dọa cần được thực hiện theo chiều thời gian thay vì chỉ đánh giá từng yêu cầu riêng lẻ. Các hành vi như làm ô nhiễm ngữ cảnh hoặc leo thang dần dần chỉ trở nên rõ ràng khi quan sát tác nhân qua nhiều bước và nhiều phiên làm việc liên tiếp. Vì vậy, các hệ thống phát hiện bất thường dựa trên từng yêu cầu độc lập thường bỏ sót những dấu hiệu tích lũy dẫn đến tấn công.

Để giảm thiểu rủi ro, Microsoft khuyến nghị doanh nghiệp tiếp cận hệ sinh thái AI tác nhân theo cách tương tự chuỗi cung ứng phần mềm. Điều này bao gồm xây dựng SBOM cho các mẫu nhắc nhở, danh mục plugin và các điểm cuối MCP, đồng thời áp dụng kiểm tra nguồn gốc, xác thực chữ ký và cố định phiên bản nhằm hạn chế nguy cơ bị thay đổi trái phép.

Microsoft cũng đề xuất áp dụng mô hình zero-trust cho toàn bộ tương tác giữa các tác nhân. Mọi yêu cầu chuyển giao cần được xác thực danh tính bằng cơ chế mật mã, đồng thời các tuyên bố tự nhận quyền hạn hoặc vai trò phải bị từ chối nếu không có bằng chứng xác thực.

Đối với các quy trình phê duyệt, tài liệu khuyến nghị chia nhỏ các hành động phức tạp trước khi trình người dùng xác nhận; tạo bản tóm tắt phê duyệt dựa trên dữ liệu từ các lệnh gọi công cụ thay vì nội dung do tác nhân tự tạo; phân loại mức phê duyệt theo khả năng đảo ngược của hành động; đồng thời triển khai cơ chế phát hiện bất thường về tần suất phê duyệt nhằm nhận biết dấu hiệu "mệt mỏi phê duyệt".

Để bảo vệ tính toàn vẹn của phiên làm việc, các tổ chức nên triển khai cơ chế theo dõi nguồn gốc ngữ cảnh, tách biệt hoàn toàn nội dung đáng tin cậy với dữ liệu không đáng tin cậy, đồng thời giới hạn lượng thông tin bên ngoài được phép duy trì giữa các phiên.

Microsoft khuyến khích các chuyên gia bảo mật nghiên cứu kỹ phiên bản 2.0 của bảng phân loại để tham khảo các phụ lục kỹ thuật, nghiên cứu tình huống và hướng dẫn giảm thiểu rủi ro chi tiết hơn.

Đối với các tổ chức đang triển khai AI tác nhân, những bước cần thực hiện ngay bao gồm quản lý chặt chẽ chuỗi cung ứng tác nhân; bổ sung bảy chế độ lỗi mới vào các bài kiểm tra red team; triển khai các bài đánh giá bắt buộc liên quan đến CUA và lây nhiễm phiên; xác thực danh tính tác nhân bằng mật mã; đồng thời xem trải nghiệm người dùng trong các quy trình HitL là một lớp kiểm soát an ninh quan trọng ngay từ giai đoạn thiết kế.

Những bằng chứng được Microsoft AI Red Team công bố trong sách trắng cùng hệ thống phân loại mới cho thấy rằng nếu các biện pháp trên không được triển khai, nhiều hệ thống AI tác nhân đang vận hành vẫn có thể bị khai thác thông qua các cuộc tấn công vượt qua HitL không cần nhấp chuột, khiến những rủi ro từng chỉ tồn tại trên lý thuyết trở thành các cuộc tấn công thực tế trong môi trường sản xuất.
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL21pY3Jvc29mdC1jYW5oLWJhby1raWV1LXRhbi1jb25nLWFpLW1vaS1jby10aGUtdnVvdC1xdWEtbW9pLXBoZS1kdXlldC1tYS1raG9uZy1jYW4tbW90LWN1LW5oYXAtY2h1b3QuODQyODUv
Top