AI an ninh mạng bắt đầu “chơi cờ” với hacker: G-CTR có đang vượt qua tư duy chiến lược của con người?

Duy Linh
Duy Linh
Phản hồi: 0

Duy Linh

Writer
Một nghiên cứu mới từ Alias Robotics và Đại học Johannes Kepler Linz đã đề xuất một “bộ não” dựa trên lý thuyết trò chơi dành cho trí tuệ nhân tạo an ninh mạng, với mục tiêu nâng kiểm thử xâm nhập tự động và lập kế hoạch phòng thủ lên mức vượt xa khả năng của con người.
1768452288452.png

Một cách tiếp cận lý thuyết trò chơi dựa trên trí tuệ nhân tạo đối với tấn công và phòng thủ
Trung tâm của nghiên cứu là Generative Cut-the-Rope (G-CTR), một lớp hướng dẫn chiến lược đặt lên trên các tác nhân được điều khiển bởi Large Language Model (LLM). Lớp này không chỉ cho AI biết làm gì, mà còn xác định đâu là nước đi tấn công hoặc phòng thủ tối ưu tại từng thời điểm.

Thay vì đơn thuần tăng tốc quét lỗ hổng hay khai thác, G-CTR buộc AI “tham gia cuộc chơi” như một chuyên gia đội đỏ hoặc đội xanh dày dạn kinh nghiệm, liên tục cân nhắc lợi ích, rủi ro và các bước phản công trong môi trường chiến tranh mạng đang biến động.

Trong hai năm gần đây, các công cụ như PentestGPT hay Cybersecurity AI (CAI) đã chứng minh LLM có thể sánh ngang, thậm chí vượt con người về tốc độ và phạm vi kiểm thử. Chúng thực hiện hàng nghìn thao tác mỗi giờ và phát hiện lỗ hổng nhanh hơn nhiều so với quy trình thủ công.

Tuy nhiên, theo các tác giả, chính tốc độ này lại tạo ra vấn đề: các nhóm an ninh bị “ngập” trong những phát hiện rời rạc, thiếu cấu trúc và thiếu trực giác chiến lược – yếu tố then chốt trong các bài tập tấn công phòng thủ kiểu “Cướp cờ” (CTF).
1768452329477.png

Phương pháp G-CTR.

Cách G-CTR đưa lý thuyết trò chơi vào vòng lặp suy luận

Nghiên cứu định hình bước tiếp theo của “siêu trí tuệ an ninh mạng”: các tác nhân không chỉ hành động nhanh hơn con người, mà còn suy luận về “bàn cờ” an ninh đang thay đổi như một kiện tướng cờ vua, đánh giá trước các nước đi của cả kẻ tấn công lẫn người phòng thủ.

Để đạt được điều này, lý thuyết trò chơi được tích hợp trực tiếp vào vòng lặp suy luận của tác nhân AI. G-CTR vận hành theo ba giai đoạn. Đầu tiên, hệ thống tự động trích xuất biểu đồ tấn công từ nhật ký bảo mật của chính tác nhân bằng thuật toán tấn công dựa trên LLM. Trên cơ sở đó, các điểm cân bằng Nash được tính toán để xác định chiến lược tấn công và phòng thủ tối ưu.
1768452387213.png

Biểu đồ tấn công.
Ở giai đoạn thứ hai, các kết quả này được chuyển thành một bản tóm tắt ngắn gọn, làm nổi bật những chiến thuật hiệu quả nhất cho cả hai phía. Cuối cùng, bản tóm tắt được đưa trở lại giai đoạn lập kế hoạch của tác nhân thông qua khung phần mềm mã nguồn mở dựa trên ReAct, từ đó điều khiển các hành động và lệnh gọi công cụ tiếp theo.

Hệ thống vòng kín này chạy song song với các hoạt động thông thường của tác nhân, chỉ làm tăng thêm khoảng 50 giây xử lý cho mỗi chu kỳ, trong khi tác nhân vẫn tiếp tục thực thi trong khoảng 70 giây. Điều này khiến G-CTR phù hợp cho các môi trường mô phỏng an ninh mạng và các bài tập thực hành gần thời gian thực.

Hiệu quả thực nghiệm và tác động chiến lược

Theo bài báo, qua năm bài tập thực tế, G-CTR đã tạo ra các biểu đồ tấn công nhỏ gọn từ 6–15 nút, tái hiện được 70–90% cấu trúc do chuyên gia con người xây dựng, đồng thời nhanh hơn từ 60 đến 245 lần và tiết kiệm chi phí hơn 140 lần so với phân tích thủ công.

Trong một bài kiểm tra hiệu năng trên môi trường mô phỏng mạng với 44 lần chạy, việc bổ sung phân tích lý thuyết trò chơi đã giúp tỷ lệ thành công tăng gần gấp đôi, từ 20,0% lên 42,9%. Đồng thời, chi phí cho mỗi lần thành công giảm 2,7 lần và mức độ biến động hành vi của tác nhân giảm một nửa.

Đáng chú ý, trong các kịch bản tấn công phòng thủ, việc chia sẻ một bản tóm tắt chiến lược chung giữa đội đỏ và đội xanh đã tạo ra một tác nhân “Tím”. Tác nhân này được ghi nhận giành chiến thắng với tỷ lệ khoảng 2:1 so với các mô hình chỉ dùng LLM và 3,7:1 so với các đội được điều khiển độc lập.

Các tác giả cho rằng hiệu quả này đến từ việc thu hẹp không gian tìm kiếm, giảm các hành động “ảo” không cần thiết và giữ cho AI luôn tập trung vào những yếu tố có ý nghĩa chiến lược nhất của môi trường.

Nếu các kiến trúc như G-CTR có thể mở rộng ổn định, chúng mở ra một tương lai nơi các hoạt động an ninh mạng không chỉ được tự động hóa, mà còn được tối ưu hóa chiến lược theo thời gian thực bởi những hệ thống thực sự “hiểu cuộc chơi” mà chúng đang tham gia. (gbhackers)

Đọc chi tiết tại đây: https://gbhackers.com/ai-driven-game/
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2FpLWFuLW5pbmgtbWFuZy1iYXQtZGF1LWNob2ktY28tdm9pLWhhY2tlci1nLWN0ci1jby1kYW5nLXZ1b3QtcXVhLXR1LWR1eS1jaGllbi1sdW9jLWN1YS1jb24tbmd1b2kuNzc0MzYv
Top