Cách tiếp cận vượt ngục của 'Indiana Jones' làm nổi bật những điểm yếu của LLM hiện tại

Ngọc Yến
Ngọc Yến
Phản hồi: 0
Các mô hình ngôn ngữ lớn (LLM), chẳng hạn như mô hình hỗ trợ hoạt động của tác nhân đàm thoại ChatGPT, đang ngày càng trở nên phổ biến trên toàn thế giới. Vì nhiều người hiện đang chuyển sang các nền tảng dựa trên LLM để tìm kiếm thông tin và viết các văn bản theo ngữ cảnh cụ thể, nên việc hiểu các hạn chế và lỗ hổng của chúng ngày càng trở nên quan trọng.
Các nhà nghiên cứu tại Đại học New South Wales ở Úc và Đại học Công nghệ Nanyang ở Singapore gần đây đã xác định được một chiến lược mới để vượt qua các bộ lọc an toàn tích hợp của LLM, còn được gọi là cuộc tấn công bẻ khóa. Phương pháp mới mà họ xác định được, được gọi là Indiana Jones, lần đầu tiên được giới thiệu trong một bài báo được công bố trên máy chủ bản thảo arXiv.
1740318217667.png

Ví dụ về cách thức hoạt động của phương pháp bẻ khóa. Nguồn: Ding et al.
"Nhóm của chúng tôi có niềm đam mê với lịch sử, và một số người trong chúng tôi thậm chí còn nghiên cứu sâu về nó", Yuekang Li, tác giả chính của bài báo, nói với Tech Xplore. "Trong một cuộc thảo luận thông thường về những nhân vật phản diện lịch sử khét tiếng, chúng tôi tự hỏi: liệu LLM có thể bị dụ dỗ để dạy người dùng cách trở thành những nhân vật này không? Sự tò mò đã khiến chúng tôi thử nghiệm điều này và chúng tôi phát hiện ra rằng LLM thực sự có thể bị bẻ khóa theo cách này".

Mục tiêu dài hạn của công trình gần đây của Li và các đồng nghiệp là phơi bày các lỗ hổng của LLM trước các cuộc tấn công bẻ khóa, vì điều này có thể giúp đưa ra các biện pháp an toàn mới để giảm thiểu các lỗ hổng này. Để làm được điều này, các nhà nghiên cứu đã thử nghiệm với LLM và đưa ra kỹ thuật bẻ khóa Indiana Jones hoàn toàn tự động, bỏ qua các bộ lọc an toàn của mô hình.

"Indiana Jones là một công cụ đối thoại có thể thích ứng, giúp hợp lý hóa các cuộc tấn công bẻ khóa bằng một từ khóa duy nhất", Li giải thích. "Nó nhắc LLM đã chọn liệt kê các nhân vật hoặc sự kiện lịch sử có liên quan đến từ khóa và tinh chỉnh các truy vấn của mình theo từng vòng lặp, cuối cùng trích xuất nội dung có liên quan cao và có khả năng gây hại.
"Để duy trì chiều sâu của cuộc đối thoại, chúng tôi đã triển khai một trình kiểm tra đảm bảo các phản hồi vẫn mạch lạc và phù hợp với từ khóa ban đầu. Ví dụ, nếu người dùng nhập 'tên cướp ngân hàng', Indiana Jones sẽ hướng dẫn LLM thảo luận về những tên cướp ngân hàng nổi tiếng, dần dần tinh chỉnh phương pháp của họ cho đến khi chúng có thể áp dụng được vào các tình huống hiện đại."

Về cơ bản, Indiana Jones dựa vào hoạt động phối hợp của ba LLM chuyên ngành, những người này trao đổi với nhau để đưa ra câu trả lời cho các câu hỏi được viết cẩn thận. Các nhà nghiên cứu nhận thấy rằng cách tiếp cận này thành công trong việc tìm nguồn thông tin mà các bộ lọc an toàn của mô hình phải lọc ra.
1740318285004.png

Quy trình làm việc của Indiana Jones minh họa tương tác nhiều vòng giữa các mô hình
Nhìn chung, những phát hiện của nhóm nghiên cứu đã phơi bày những điểm yếu của LLM, cho thấy chúng có thể dễ dàng bị điều chỉnh và sử dụng cho các hoạt động bất hợp pháp hoặc có ác ý. Li và các đồng nghiệp hy vọng nghiên cứu của họ sẽ truyền cảm hứng cho việc phát triển các biện pháp mới nhằm tăng cường tính bảo mật và an toàn của LLM.

Li cho biết: "Thông tin quan trọng nhất từ nghiên cứu của chúng tôi là các cuộc tấn công bẻ khóa thành công đều lợi dụng thực tế là LLM sở hữu kiến thức về các hoạt động độc hại - kiến thức mà ngay từ đầu chúng không nên biết".

"Các kỹ thuật bẻ khóa khác nhau chỉ tìm cách dụ dỗ các mô hình tiết lộ thông tin 'bị cấm' này. Nghiên cứu của chúng tôi giới thiệu một cách tiếp cận mới để thúc đẩy các LLM tiết lộ kiến thức đó, đưa ra góc nhìn mới về cách khai thác những lỗ hổng này."

Trong khi LLM có vẻ dễ bị tấn công bẻ khóa như các cuộc tấn công được các nhà nghiên cứu chứng minh, một số nhà phát triển có thể tăng khả năng phục hồi của họ trước các cuộc tấn công này bằng cách giới thiệu thêm các lớp bảo mật. Ví dụ, Li và các đồng nghiệp của ông đề xuất giới thiệu các cơ chế lọc tiên tiến hơn để phát hiện hoặc chặn các lời nhắc độc hại hoặc phản hồi do mô hình tạo ra trước khi thông tin bị hạn chế đến tay người dùng cuối.

"Việc tăng cường các biện pháp bảo vệ này ở cấp độ ứng dụng có thể là giải pháp tức thời và hiệu quả hơn trong khi các biện pháp phòng thủ ở cấp độ mô hình tiếp tục phát triển", Li cho biết. "Trong các nghiên cứu tiếp theo, chúng tôi có kế hoạch tập trung vào việc phát triển các chiến lược phòng thủ cho LLM, bao gồm các kỹ thuật bỏ học máy có thể 'loại bỏ' có chọn lọc kiến thức có khả năng gây hại mà LLM đã thu được. Điều này có thể giúp giảm thiểu rủi ro các mô hình bị khai thác thông qua các cuộc tấn công bẻ khóa".

Theo Li, việc phát triển các biện pháp mới để tăng cường bảo mật cho LLM là vô cùng quan trọng. Trong tương lai, ông tin rằng các biện pháp này nên tập trung vào hai khía cạnh chính, cụ thể là phát hiện các mối đe dọa hoặc lời nhắc độc hại hiệu quả hơn và kiểm soát kiến thức mà các mô hình có thể truy cập (tức là cung cấp cho các mô hình các nguồn thông tin bên ngoài, vì điều này giúp đơn giản hóa việc lọc nội dung có hại).

Li nói thêm: "Ngoài những nỗ lực của nhóm chúng tôi, tôi tin rằng nghiên cứu AI nên ưu tiên phát triển các mô hình có khả năng lập luận mạnh mẽ và học theo ngữ cảnh, cho phép chúng thu thập và xử lý kiến thức bên ngoài một cách linh hoạt thay vì ghi nhớ mọi thứ".

"Cách tiếp cận này phản ánh cách một người thông minh không có chuyên môn về lĩnh vực này sẽ tham khảo Wikipedia hoặc các nguồn đáng tin cậy khác để giải quyết vấn đề. Bằng cách tập trung vào những tiến bộ này, chúng ta có thể hướng tới việc xây dựng các LLM vừa an toàn hơn vừa dễ thích ứng hơn." (arXiv)
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top