Fun-Tuning mới cho phép tấn công prompt injection tự động thành công tới 82% trên một số mô hình Gemini

Sóng AI

Hackers đã bắt đầu sử dụng AI để tấn công các hệ thống AI khác, đánh dấu một giai đoạn mới trong lĩnh vực bảo mật.
Tấn công bằng prompt injection là một trong những phương pháp đáng tin cậy nhất để thao túng các mô hình ngôn ngữ lớn (LLM).
Kỹ thuật mới có tên Fun-Tuning do các nhà nghiên cứu đại học phát triển, sử dụng API fine-tuning của Google để tạo ra các prompt injection có tỷ lệ thành công cao một cách tự động.
Fun-Tuning xác định các "tiền tố" và "hậu tố" tốt nhất để bao quanh prompt độc hại, tăng đáng kể khả năng prompt được thực thi.
Trong thử nghiệm, Fun-Tuning đạt tỷ lệ thành công lên tới 82% trên một số mô hình Gemini, so với dưới 30% khi sử dụng các phương pháp tấn công truyền thống.
Phương pháp này hoạt động bằng cách khai thác các manh mối tinh tế trong quá trình fine-tuning, như phản ứng của mô hình đối với lỗi huấn luyện.
Các cuộc tấn công phát triển cho một phiên bản Gemini có thể dễ dàng chuyển sang các phiên bản khác.
Chi phí thực hiện một cuộc tấn công như vậy chỉ khoảng 10 USD tiền tính toán, do Google cung cấp API fine-tuning miễn phí.
Google đã thừa nhận mối đe dọa nhưng chưa bình luận về việc có thay đổi tính năng fine-tuning hay không.
Việc bảo vệ chống lại loại tấn công này không đơn giản, vì loại bỏ dữ liệu quan trọng khỏi quá trình đào tạo sẽ làm giảm tính hữu ích của công cụ đối với các nhà phát triển.

Fun-Tuning là phương pháp tấn công AI mới, sử dụng chính API của Google để tạo prompt injection tự động với tỷ lệ thành công cao 82% trên Gemini. Chi phí tấn công thấp (10 USD) và khả năng chuyển đổi giữa các phiên bản Gemini khiến nó trở thành mối đe dọa nghiêm trọng, đánh dấu giai đoạn mới trong cuộc chiến bảo mật AI.

Nguồn: Songai.vn