Bước đột phá trong bảo mật AI: Cách tiếp cận topo phát hiện tấn công xâm nhập!

Derpy
Derpy
Phản hồi: 0

Derpy

Intern Writer
Với sự phát triển nhanh chóng và việc ứng dụng rộng rãi các mô hình AI đa phương thức, những lỗ hổng mới trong lĩnh vực an ninh mạng đã xuất hiện, mở rộng tiềm năng cho các cuộc tấn công mạng. Các nhà nghiên cứu tại Phòng thí nghiệm Quốc gia Los Alamos vừa đưa ra một khung công tác mới nhằm xác định các mối đe dọa từ kẻ thù đối với các mô hình nền tảng – những phương pháp trí tuệ nhân tạo tích hợp và xử lý đồng thời dữ liệu văn bản và hình ảnh. Công trình này giúp các nhà phát triển hệ thống và chuyên gia bảo mật hiểu rõ hơn về các lỗ hổng của mô hình và củng cố khả năng chống đỡ trước những cuộc tấn công ngày càng tinh vi.

"As multimodal models grow more prevalent, adversaries can exploit weaknesses through either text or visual channels, or even both simultaneously," Manish Bhattarai, một nhà khoa học máy tính tại Los Alamos, cho biết. Ông cũng nhấn mạnh rằng các hệ thống AI đang phải đối mặt với những mối đe dọa ngày càng gia tăng từ những sự thao túng tinh vi và ác ý có thể làm sai lệch hoặc làm hỏng đầu ra của chúng. Những cuộc tấn công này có thể dẫn đến nội dung sai lệch hoặc độc hại nhưng lại trông giống như là đầu ra chân thực của mô hình. Khi phải đối mặt với những cuộc tấn công ngày càng phức tạp và khó phát hiện hơn, khung công tác dựa trên topologie của chúng tôi có khả năng phát hiện các mối đe dọa một cách độc đáo, bất kể nguồn gốc của chúng.
new-approach-detects-a-1.jpg

Các hệ thống AI đa phương thức rất xuất sắc trong việc tích hợp các loại dữ liệu khác nhau bằng cách nhúng văn bản và hình ảnh vào một không gian đa chiều chung, qua đó liên kết các khái niệm hình ảnh với ý nghĩa ngữ nghĩa của chúng (ví dụ như từ "hình tròn" với hình dạng tròn). Tuy nhiên, khả năng liên kết này cũng tạo ra những lỗ hổng độc đáo. Khi những mô hình này ngày càng được áp dụng trong những lĩnh vực có tính quyết định cao, kẻ thù có thể lợi dụng chúng thông qua các đầu vào văn bản hoặc hình ảnh – hoặc cả hai – bằng cách sử dụng những biến động không thể phát hiện làm gián đoạn sự liên kết và có thể dẫn đến những kết quả sai lệch hoặc có hại.

Các chiến lược phòng thủ cho các hệ thống đa phương thức vẫn còn chưa được khám phá nhiều, mặc dù những mô hình này ngày càng được sử dụng trong các lĩnh vực nhạy cảm, nơi chúng có thể được áp dụng cho các chủ đề an ninh quốc gia phức tạp và góp phần vào việc mô hình hóa và mô phỏng. Dựa trên kinh nghiệm của đội ngũ trong việc phát triển một chiến lược thanh lọc nhằm trung hòa tiếng ồn từ kẻ thù trong các kịch bản tấn công trên các mô hình tập trung vào hình ảnh, phương pháp mới này xác định chữ ký và nguồn gốc của các cuộc tấn công từ kẻ thù đối với các mô hình trí tuệ nhân tạo tiên tiến ngày nay.

Giải pháp của đội ngũ Los Alamos sử dụng phân tích dữ liệu hình học, một ngành toán học tập trung vào "hình dạng" của dữ liệu, để tìm ra những chữ ký kẻ thù này. Khi một cuộc tấn công làm gián đoạn sự liên kết hình học của các nhúng văn bản và hình ảnh, nó sẽ tạo ra một sự biến dạng đo đạc được. Các nhà nghiên cứu đã phát triển hai kỹ thuật tiên phong, được gọi là "lỗ hổng tương phản hình học", để định lượng những khác biệt hình học này một cách chính xác, qua đó xác định sự hiện diện của các đầu vào từ kẻ thù. Minh Vu, một nghiên cứu sinh sau tiến sĩ tại Los Alamos và tác giả chính của bài báo của đội ngũ, cho biết: "Thuật toán của chúng tôi có khả năng phát hiện chính xác các chữ ký tấn công, và khi kết hợp với các kỹ thuật thống kê, có thể phát hiện sự can thiệp dữ liệu ác ý với độ chính xác đáng kể."

Nghiên cứu này cho thấy tiềm năng biến đổi của các phương pháp dựa trên hình học trong việc bảo vệ thế hệ AI tiếp theo và đặt nền tảng vững chắc cho các tiến bộ trong tương lai trong lĩnh vực này. Hiệu quả của khung công tác đã được kiểm chứng nghiêm ngặt bằng cách sử dụng siêu máy tính Venado tại Los Alamos. Được lắp đặt vào năm 2024, các chip của máy này kết hợp giữa đơn vị xử lý trung tâm và đơn vị xử lý đồ họa để xử lý các ứng dụng AI quy mô lớn và hiệu suất cao. Đội ngũ đã thử nghiệm trên nhiều phương pháp tấn công từ kẻ thù đã biết qua nhiều bộ dữ liệu chuẩn và mô hình khác nhau. Kết quả cho thấy rõ ràng: phương pháp hình học không chỉ hiệu quả mà còn vượt trội hơn hẳn những biện pháp phòng ngừa hiện có, mang lại một lớp bảo vệ đáng tin cậy và mạnh mẽ trước các mối đe dọa.

Đội ngũ đã trình bày công trình mang tên "Chữ ký hình học của kẻ thù trong các liên kết đa phương thức" tại Hội nghị Quốc tế về Machine Learning. Thêm thông tin có thể được tìm thấy qua bài báo của Minh Vu và các cộng sự, "Chữ ký hình học của kẻ thù trong các liên kết đa phương thức," trên arXiv (2025). DOI: 10.48550/arxiv.2501.18006.

Nguồn tham khảo: Techxplore
 


Đăng nhập một lần thảo luận tẹt ga
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2J1b2MtZG90LXBoYS10cm9uZy1iYW8tbWF0LWFpLWNhY2gtdGllcC1jYW4tdG9wby1waGF0LWhpZW4tdGFuLWNvbmcteGFtLW5oYXAuNjc0OTUv
Top