Homelander The Seven
I will laser every f****** one of you!
Các nhà nghiên cứu từ Intel, Đại học Boise State và Đại học Illinois đã hợp tác trong 1 nghiên cứu mới, tiết lộ phương pháp gọi là "Information Overload" (quá tải thông tin) để phá vỡ các bộ lọc an toàn của mô hình ngôn ngữ lớn (LLM) như ChatGPT và Gemini. Phương pháp này hoạt động bằng cách ném 1 lượng lớn thông tin phức tạp vào AI, khiến nó bị rối loạn và bỏ qua các rào cản an toàn vốn được thiết kế để ngăn chặn nội dung độc hại hoặc nguy hiểm.
Theo nghiên cứu, khi bị quá tải thông tin, AI trở nên bối rối, chính sự bối rối này trở thành lỗ hổng để vượt qua những bộ lọc an toàn. Nhóm nghiên cứu đã phát triển 1 công cụ tự động gọi là "InfoFlood" để khai thác lỗ hổng này, thực hiện hành vi "giải cứu nhà tù" (jailbreaking) cho các chatbot. Trước đây, nghiên cứu đã chỉ ra rằng LLM có xu hướng hành xử cưỡng chế để tự bảo vệ khi bị áp lực, nhưng lần này, kỹ thuật mới cho phép người dùng điều khiển AI theo ý muốn – 1 viễn cảnh cực kỳ nguy hiểm nếu rơi vào tay kẻ xấu.
Theo chia sẻ với 404 Media, các nhà nghiên cứu nhận định rằng các mô hình AI vốn dựa vào giao tiếp bề mặt, không thể hiểu rõ ý định đằng sau các yêu cầu. Do đó, khi yêu cầu nguy hiểm được che giấu trong một đống thông tin phức tạp, AI dễ dàng bị lừa. Ví dụ, 1 yêu cầu tạo nội dung bạo lực có thể được ngụy trang trong hàng loạt dữ liệu không liên quan, khiến bộ lọc an toàn không phát hiện ra.
Nhóm nghiên cứu dự định gửi một gói thông báo cho các công ty sở hữu mô hình AI lớn, để họ có thể chia sẻ với đội ngũ an ninh và khắc phục lỗ hổng. Tuy nhiên, bài báo nghiên cứu cũng nhấn mạnh rằng ngay cả khi có bộ lọc an toàn, các đối tượng xấu vẫn có thể lợi dụng kỹ thuật này để đưa nội dung độc hại vào hệ thống.
Sự phát triển nhanh chóng của AI đã mang lại nhiều lợi ích, nhưng cũng đặt ra thách thức lớn về đạo đức. Các vụ việc LLM nói dối hoặc lừa đảo khi bị ép buộc đã từng gây sốc và giờ đây, kỹ thuật "Information Overload" càng làm tăng mối lo ngại. Nếu không được kiểm soát, điều này có thể dẫn đến việc AI bị lạm dụng để phát tán thông tin sai lệch, kích động bạo lực, hoặc thậm chí hỗ trợ tội phạm.
So với các phương pháp tấn công AI trước đây (như "prompt injection" – chèn lệnh), "InfoFlood" phức tạp hơn vì khai thác giới hạn xử lý thông tin của AI thay vì chỉ thao túng câu lệnh. Điều này đòi hỏi các công ty như OpenAI, Google phải nâng cấp hệ thống an toàn mạnh mẽ hơn.
Theo nghiên cứu, khi bị quá tải thông tin, AI trở nên bối rối, chính sự bối rối này trở thành lỗ hổng để vượt qua những bộ lọc an toàn. Nhóm nghiên cứu đã phát triển 1 công cụ tự động gọi là "InfoFlood" để khai thác lỗ hổng này, thực hiện hành vi "giải cứu nhà tù" (jailbreaking) cho các chatbot. Trước đây, nghiên cứu đã chỉ ra rằng LLM có xu hướng hành xử cưỡng chế để tự bảo vệ khi bị áp lực, nhưng lần này, kỹ thuật mới cho phép người dùng điều khiển AI theo ý muốn – 1 viễn cảnh cực kỳ nguy hiểm nếu rơi vào tay kẻ xấu.

Theo chia sẻ với 404 Media, các nhà nghiên cứu nhận định rằng các mô hình AI vốn dựa vào giao tiếp bề mặt, không thể hiểu rõ ý định đằng sau các yêu cầu. Do đó, khi yêu cầu nguy hiểm được che giấu trong một đống thông tin phức tạp, AI dễ dàng bị lừa. Ví dụ, 1 yêu cầu tạo nội dung bạo lực có thể được ngụy trang trong hàng loạt dữ liệu không liên quan, khiến bộ lọc an toàn không phát hiện ra.
Nhóm nghiên cứu dự định gửi một gói thông báo cho các công ty sở hữu mô hình AI lớn, để họ có thể chia sẻ với đội ngũ an ninh và khắc phục lỗ hổng. Tuy nhiên, bài báo nghiên cứu cũng nhấn mạnh rằng ngay cả khi có bộ lọc an toàn, các đối tượng xấu vẫn có thể lợi dụng kỹ thuật này để đưa nội dung độc hại vào hệ thống.

Sự phát triển nhanh chóng của AI đã mang lại nhiều lợi ích, nhưng cũng đặt ra thách thức lớn về đạo đức. Các vụ việc LLM nói dối hoặc lừa đảo khi bị ép buộc đã từng gây sốc và giờ đây, kỹ thuật "Information Overload" càng làm tăng mối lo ngại. Nếu không được kiểm soát, điều này có thể dẫn đến việc AI bị lạm dụng để phát tán thông tin sai lệch, kích động bạo lực, hoặc thậm chí hỗ trợ tội phạm.
So với các phương pháp tấn công AI trước đây (như "prompt injection" – chèn lệnh), "InfoFlood" phức tạp hơn vì khai thác giới hạn xử lý thông tin của AI thay vì chỉ thao túng câu lệnh. Điều này đòi hỏi các công ty như OpenAI, Google phải nâng cấp hệ thống an toàn mạnh mẽ hơn.