Lỗ hổng tái sử dụng không gian tên mô hình AI: Nguy hiểm đến mức nào?

Duy Linh · 13:26

Một lỗ hổng mới trong chuỗi cung ứng AI, gọi là tái sử dụng không gian tên mô hình, cho phép kẻ tấn công thực hiện thực thi mã từ xa (RCE) trên các nền tảng lớn như Microsoft Azure AI Foundry, Google Vertex AI và hàng nghìn dự án mã nguồn mở.
Bằng cách đăng ký lại không gian tên mô hình bị xóa hoặc bỏ quên trên Hugging Face, kẻ xấu có thể thay thế các mô hình gốc bằng mô hình chứa mã độc, xâm nhập môi trường điểm cuối và truy cập trái phép.

Hugging Face lưu trữ mô hình AI dưới dạng kho Git, định danh theo cấu trúc Author/ModelName. Khi tài khoản tác giả bị xóa hoặc quyền sở hữu thay đổi, không gian tên có thể bị chiếm đoạt. Điều này khiến các dự án sử dụng mã như:

Góc nhìn tổng quan về luồng tấn công.
from transformers import AutoModel
model = AutoModel.from_pretrained("AIOrg/Translator_v1")

Sẽ tải về mô hình độc hại thay vì bản gốc. Nếu không quản lý vòng đời mô hình, các tổ chức có nguy cơ triển khai mô hình bị thay thế mà không hề hay biết.

Trong Google Vertex AI, nhóm nghiên cứu đã tìm thấy nhiều mô hình "đã xác minh" nhưng tác giả gốc bị xóa. Sau khi đăng ký lại không gian tên và tải mô hình cài cửa hậu, họ đã chiếm quyền shell tại điểm cuối container. Google hiện quét hàng ngày và đánh dấu các không gian tên mồ côi là "xác minh không thành công".
Tương tự, trong Azure AI Foundry, việc đăng ký lại không gian tên bị bỏ trống và tải mô hình độc hại cũng cho phép tạo shell ngược tại điểm cuối, mở đường cho xâm nhập hệ thống. Microsoft đã được cảnh báo và đang tăng cường bảo mật.

Mô hình có thể tái sử dụng có thể triển khai trên Vertex AI.
Ngoài ra, hàng nghìn kho GitHub chứa mã gọi trực tiếp mô hình Hugging Face với Author/ModelName dễ bị tấn công. Một số dự án còn mã hóa cứng các mô hình mặc định, khiến các triển khai sau này có thể bị lợi dụng. Không chỉ vậy, các sổ đăng ký thứ cấp như Kaggle hay kho mô hình riêng cũng có thể vô tình lưu trữ các mô hình nguy hiểm này.

Tên mô hình có thể tái sử dụng được dùng làm đối số mặc định trong một dự án nguồn mở.

Giải pháp giảm thiểu rủi ro

Các kịch bản rủi ro gồm: khi tác giả bị xóa, mô hình trả về lỗi 404; khi chuyển nhượng quyền sở hữu, mô hình chuyển hướng 307, che giấu nguy cơ cho đến khi không gian tên bị chiếm lại.
Để giảm thiểu, các tổ chức cần:

Ghim phiên bản: chỉ định băm cam kết khi gọi from_pretrained để tránh lấy bản ngoài ý muốn.
Nhân bản mô hình: sao chép mô hình đã xác minh về kho nội bộ, tránh phụ thuộc nguồn ngoài.
Quét toàn diện: xem xét tham chiếu mô hình như phụ thuộc mã, rà soát kho, tài liệu, tham số để phát hiện không gian tên rủi ro.

Tái sử dụng không gian tên mô hình là một lỗ hổng hệ thống. Việc chỉ dựa vào mã định danh là không đủ. Các nền tảng phải siết chặt chính sách vòng đời không gian tên, trong khi nhà phát triển cần xác minh kỹ lưỡng hơn để bảo vệ chuỗi cung ứng AI trước nguy cơ bị tấn công.

Đọc chi tiết tại đây: https://gbhackers.com/namespace-reuse-vulnerability/