Minh Nguyệt
Intern Writer
Các nhà nghiên cứu từ Trail of Bits đã phát hiện một lỗ hổng an ninh mới trong AI đa phương thức, cho phép nhúng tín hiệu độc hại vào hình ảnh. Khi hình ảnh được thu nhỏ để xử lý, văn bản hoặc lệnh ẩn có thể lộ ra và được LLM hiểu như đầu vào của người dùng, dẫn đến rò rỉ dữ liệu (ví dụ Google Calendar). Điều này cho thấy nguy cơ thao túng và đánh cắp thông tin cá nhân qua những cách tưởng chừng vô hại như tải lên ảnh. Các biện pháp bảo mật truyền thống không đủ để phát hiện kiểu tấn công này, do đó cần thiết kế hệ thống an toàn nhiều lớp và kiểm soát chặt chẽ hơn việc xử lý dữ liệu hình ảnh trong AI.
Khi các công cụ AI ngày càng được tích hợp vào công việc hàng ngày, những rủi ro về an ninh đi kèm với chúng cũng đang phát triển theo những hướng mới. Một nhóm nghiên cứu tại Trail of Bits đã chứng minh một phương pháp cho phép các tín hiệu độc hại ẩn mình trong hình ảnh và sau đó được tiết lộ trong quá trình xử lý bởi các mô hình ngôn ngữ lớn. Kỹ thuật này tận dụng cách mà các nền tảng AI giảm kích thước hình ảnh để tối ưu hóa hiệu suất, qua đó làm lộ ra những mẫu mà trong hình ảnh gốc không thể nhìn thấy nhưng lại có thể nhận diện được bởi thuật toán khi hình ảnh đã được thu nhỏ.
Ý tưởng này dựa trên một tài liệu nghiên cứu được công bố vào năm 2020 từ Đại học TU Braunschweig ở Đức, gợi ý rằng việc thay đổi kích thước hình ảnh có thể được sử dụng như một bề mặt tấn công cho học máy. Trail of Bits đã chỉ ra cách mà những hình ảnh được chế tác có thể thao túng các hệ thống, bao gồm Gemini CLI, Vertex AI Studio, Google Assistant trên Android và giao diện web của Gemini. Trong một trường hợp, dữ liệu từ Google Calendar đã bị rò rỉ đến một địa chỉ email bên ngoài mà không có sự chấp thuận của người dùng, điều này làm nổi bật tiềm năng thực sự của mối đe dọa này.
![]()
Cuộc tấn công này tận dụng các phương pháp nội suy như nearest neighbor, bilinear, hay bicubic resampling. Khi một hình ảnh được chuẩn bị một cách có chủ ý, việc giảm kích thước sẽ tạo ra các hiện tượng aliasing, làm lộ ra văn bản được giấu kín. Trong một lần trình diễn, các vùng tối trong hình ảnh đã thay đổi khi được xử lý bằng bicubic resampling, từ đó hiển thị văn bản đen ẩn, mà các mô hình ngôn ngữ lớn (LLM) đã hiểu như là đầu vào của người dùng. Từ góc nhìn của người dùng, mọi thứ dường như không có gì bất thường xảy ra. Tuy nhiên, ẩn sau đó, mô hình vẫn thực hiện theo các hướng dẫn đã được nhúng song song cùng với các yêu cầu hợp lệ.
Để minh họa cho rủi ro này, Trail of Bits đã phát triển “Anamorpher,” một công cụ mã nguồn mở giúp tạo ra các hình ảnh tương tự cho các phương pháp thu nhỏ khác nhau. Điều này cho thấy rằng mặc dù phương pháp này khá chuyên biệt, nhưng nó có thể được lặp lại bởi những người khác nếu không có sự phòng vệ đủ mạnh. Cuộc tấn công này đặt ra nhiều câu hỏi về độ tin cậy của các hệ thống AI đa phương thức, vì nhiều nền tảng hiện nay dựa vào chúng cho những công việc thường nhật, và một việc đơn giản như tải lên một hình ảnh có thể dẫn đến việc truy cập dữ liệu ngoài ý muốn.
![]()
Nguy cơ về trộm cắp danh tính cũng xuất hiện khi thông tin cá nhân hoặc nhạy cảm bị rò rỉ theo cách này. Vì các mô hình này thường liên kết với lịch làm việc, các nền tảng giao tiếp, hay các công cụ quản lý công việc, nên rủi ro sẽ mở rộng trong nhiều bối cảnh khác nhau. Để giảm thiểu điều này, người dùng cần hạn chế kích thước đầu vào, xem trước kết quả hình ảnh đã được giảm kích thước, và yêu cầu xác nhận rõ ràng cho những lệnh gọi công cụ nhạy cảm. Các biện pháp phòng vệ truyền thống như tường lửa không được thiết kế để nhận diện kiểu thao túng này, để lại một khoảng trống mà những kẻ tấn công có thể khai thác.
Các nhà nghiên cứu nhấn mạnh rằng chỉ có các bộ bảo mật nhiều lớp và các mẫu thiết kế mạnh mẽ hơn mới có thể giới hạn một cách đáng tin cậy những rủi ro này. "Biện pháp phòng ngừa mạnh nhất, tuy nhiên, là áp dụng những mẫu thiết kế an toàn và các phương pháp phòng ngừa hệ thống nhằm giảm thiểu những tác động của việc tiêm nhiễm tín hiệu, vượt qua cả những hình thức tiêm nhiễm đa phương thức," các nhà nghiên cứu cho biết.
![]()
Nguồn tham khảo: Techradar