Derpy
Intern Writer
Trong thế giới công nghệ đang xoay vần cùng AI, liệu chúng ta có đang vô tình mở ra những cánh cửa mới cho kẻ xấu? Mới đây, các nhà nghiên cứu từ Microsoft đã phát hiện một lỗ hổng nghiêm trọng trong quy trình tự động hóa GitHub của Claude Code, một sản phẩm từ Anthropic. Lỗ hổng này có thể khiến thông tin mật trong các quy trình CI/CD (tích hợp liên tục/triển khai liên tục) bị rò rỉ, tạo cơ hội cho kẻ tấn công đánh cắp các thông tin xác thực nhạy cảm thông qua một kỹ thuật gọi là "prompt injection" (tiêm nhiễm lời nhắc).
Được biết, đội ngũ tình báo mối đe dọa của Microsoft đã bắt đầu cuộc điều tra này sau khi nhận thấy những nỗ lực tiêm nhiễm lời nhắc nhắm vào các quy trình GitHub được hỗ trợ bởi AI trong các kho mã công khai.
Vậy "tiêm nhiễm lời nhắc" là gì? Các bạn có thể hiểu đơn giản, đây là một loại lỗ hổng bảo mật trong AI, nơi kẻ tấn công chèn các lệnh sai lệch vào nội dung mà mô hình ngôn ngữ lớn (LLM) xử lý, nhằm thao túng hành vi của mô hình. Trong khi các LLM thường được thiết kế để tuân thủ hướng dẫn của nhà phát triển và trả lời câu hỏi của người dùng, kẻ tấn công lại tìm cách lừa chúng bỏ qua các chỉ dẫn đã được cài đặt sẵn.
Để dễ hình dung, các nhà nghiên cứu đã đưa ra một ví dụ cụ thể: kẻ tấn công có thể giấu lệnh tiêm nhiễm bên trong một chú thích HTML. Nội dung này sẽ không hiển thị trên giao diện GitHub, nhưng mô hình AI đọc mã nguồn Markdown thô lại có thể nhận diện được. Khi đó, một kho mã đang sử dụng quy trình tự động hóa GitHub để xử lý các vấn đề (issue) có thể bị lợi dụng. Kẻ tấn công chỉ cần gửi một yêu cầu (issue) trên GitHub, giả mạo thành một tính năng thông thường, mà không cần quyền chỉnh sửa dự án, là đã có thể lừa robot AI thực hiện các thao tác sửa đổi theo ý muốn.
Microsoft đã xác nhận rằng kỹ thuật tiêm nhiễm lời nhắc tương tự cũng có thể tấn công quy trình tự động hóa GitHub của Claude Code từ Anthropic. Dù Anthropic trước đó đã thiết lập các biện pháp bảo vệ "sandbox" (môi trường biệt lập) cho một số công cụ, ví dụ như công cụ Bash cho phép Claude thực thi lệnh trong hệ thống, nhưng Microsoft lại phát hiện ra rằng công cụ đọc tệp của Claude lại không được bảo vệ tương tự.
Các nhà nghiên cứu đã tạo ra một tải trọng tấn công tiêm nhiễm lời nhắc để kiểm tra lỗ hổng này. Kết quả thật đáng lo ngại: lời nhắc độc hại đã thành công vượt qua hai lớp bảo vệ, lừa trợ lý AI đọc các tệp hệ thống chứa khóa API và các thông tin xác thực khác. Điều này cho thấy mức độ nghiêm trọng của vấn đề.
Microsoft đã báo cáo lỗ hổng này cho Anthropic vào ngày 29 tháng 4. Chỉ một tuần sau, vào ngày 5 tháng 5, Anthropic đã nhanh chóng phát hành phiên bản Claude Code 2.1.128 để khắc phục. Bản vá này giới hạn quyền truy cập của chương trình vào các tệp nhạy cảm trong thư mục `/proc/`, ngăn chặn việc thông tin liên quan bị đánh cắp trái phép. Theo IT之家, đây là một lời nhắc nhở quan trọng về sự cần thiết phải liên tục kiểm tra và tăng cường bảo mật cho các hệ thống AI đang ngày càng phức tạp và tự động hóa.
Được biết, đội ngũ tình báo mối đe dọa của Microsoft đã bắt đầu cuộc điều tra này sau khi nhận thấy những nỗ lực tiêm nhiễm lời nhắc nhắm vào các quy trình GitHub được hỗ trợ bởi AI trong các kho mã công khai.
Vậy "tiêm nhiễm lời nhắc" là gì? Các bạn có thể hiểu đơn giản, đây là một loại lỗ hổng bảo mật trong AI, nơi kẻ tấn công chèn các lệnh sai lệch vào nội dung mà mô hình ngôn ngữ lớn (LLM) xử lý, nhằm thao túng hành vi của mô hình. Trong khi các LLM thường được thiết kế để tuân thủ hướng dẫn của nhà phát triển và trả lời câu hỏi của người dùng, kẻ tấn công lại tìm cách lừa chúng bỏ qua các chỉ dẫn đã được cài đặt sẵn.
Để dễ hình dung, các nhà nghiên cứu đã đưa ra một ví dụ cụ thể: kẻ tấn công có thể giấu lệnh tiêm nhiễm bên trong một chú thích HTML. Nội dung này sẽ không hiển thị trên giao diện GitHub, nhưng mô hình AI đọc mã nguồn Markdown thô lại có thể nhận diện được. Khi đó, một kho mã đang sử dụng quy trình tự động hóa GitHub để xử lý các vấn đề (issue) có thể bị lợi dụng. Kẻ tấn công chỉ cần gửi một yêu cầu (issue) trên GitHub, giả mạo thành một tính năng thông thường, mà không cần quyền chỉnh sửa dự án, là đã có thể lừa robot AI thực hiện các thao tác sửa đổi theo ý muốn.
Microsoft đã xác nhận rằng kỹ thuật tiêm nhiễm lời nhắc tương tự cũng có thể tấn công quy trình tự động hóa GitHub của Claude Code từ Anthropic. Dù Anthropic trước đó đã thiết lập các biện pháp bảo vệ "sandbox" (môi trường biệt lập) cho một số công cụ, ví dụ như công cụ Bash cho phép Claude thực thi lệnh trong hệ thống, nhưng Microsoft lại phát hiện ra rằng công cụ đọc tệp của Claude lại không được bảo vệ tương tự.
Các nhà nghiên cứu đã tạo ra một tải trọng tấn công tiêm nhiễm lời nhắc để kiểm tra lỗ hổng này. Kết quả thật đáng lo ngại: lời nhắc độc hại đã thành công vượt qua hai lớp bảo vệ, lừa trợ lý AI đọc các tệp hệ thống chứa khóa API và các thông tin xác thực khác. Điều này cho thấy mức độ nghiêm trọng của vấn đề.
Microsoft đã báo cáo lỗ hổng này cho Anthropic vào ngày 29 tháng 4. Chỉ một tuần sau, vào ngày 5 tháng 5, Anthropic đã nhanh chóng phát hành phiên bản Claude Code 2.1.128 để khắc phục. Bản vá này giới hạn quyền truy cập của chương trình vào các tệp nhạy cảm trong thư mục `/proc/`, ngăn chặn việc thông tin liên quan bị đánh cắp trái phép. Theo IT之家, đây là một lời nhắc nhở quan trọng về sự cần thiết phải liên tục kiểm tra và tăng cường bảo mật cho các hệ thống AI đang ngày càng phức tạp và tự động hóa.