65% công ty AI hàng đầu rò rỉ dữ liệu trên GitHub: Lỗi từ đâu?

Duy Linh · 12/11/2025

Một phân tích bảo mật toàn diện đã phát hiện 65% trong số 50 công ty AI hàng đầu thế giới (theo danh sách AI 50 của Forbes) đã vô tình để lộ bí mật xác thực trên GitHub. Những thông tin bị rò rỉ bao gồm khóa API, mã thông báo xác thực và dữ liệu đăng nhập nhạy cảm có thể đe dọa toàn bộ hệ thống của các tổ chức này. Tổng giá trị thị trường của các công ty bị ảnh hưởng vượt 400 tỷ USD (hơn 10 triệu tỷ VNĐ), cho thấy quy mô nghiêm trọng của lỗ hổng này.

Các nhà nghiên cứu phát hiện nhiều dữ liệu nhạy cảm không chỉ xuất hiện trong kho mã chính mà còn ẩn sâu trong các nhánh đã xóa, các gist và kho lưu trữ cá nhân của nhà phát triển. Điều đáng lo ngại là các công cụ quét truyền thống không thể phát hiện được phần lớn những rò rỉ này.

Những vụ rò rỉ bí mật hiện nay được ví như “tảng băng trôi”: phần nổi là thông tin đăng nhập bị để lộ trong kho mã hoạt động, còn phần chìm là những lịch sử commit, nhánh đã xóa và nhật ký quy trình tự động vẫn chứa đầy dữ liệu nhạy cảm. Điều này tạo ra nhiều hướng tấn công mà công cụ bảo mật thông thường khó phát hiện.

Phương pháp nghiên cứu mở rộng đã đi xa hơn các tìm kiếm tổ chức GitHub thông thường, bao gồm cả kiểm tra lịch sử commit, cấu hình quy trình làm việc và tài khoản nhà phát triển cá nhân. Qua đó, họ phát hiện nhiều kết nối trực tiếp đến các công ty mục tiêu.

Tác động sâu rộng và lời cảnh báo cho các công ty AI

Những bí mật bị rò rỉ đại diện cho tài sản hạ tầng quan trọng nhất của các công ty AI. Ví dụ, mã thông báo WeightsAndBiases làm lộ dữ liệu đào tạo mô hình, mã xác thực HuggingFace cấp quyền truy cập vào hàng nghìn mô hình riêng tư, còn khóa API ElevenLabs và thông tin của LangChain mở cửa vào các hệ thống độc quyền.

Không chỉ dừng ở thiệt hại kỹ thuật, các rò rỉ này còn tiết lộ cấu trúc tổ chức, danh sách nhân sự và mối quan hệ nội bộ dữ liệu quý giá cho các cuộc tấn công có chủ đích và tấn công kỹ thuật xã hội.

Một trường hợp điển hình cho thấy chỉ một nhánh đã xóa chứa mã thông báo HuggingFace cũng đủ để truy cập vào khoảng 1.000 mô hình riêng tư, cùng với các khóa WeightsAndBiases làm lộ dữ liệu huấn luyện độc quyền.

Tuy nhiên, nghiên cứu cũng phát hiện tín hiệu tích cực: một công ty AI với 60 kho công khai và 28 thành viên không để lộ bất kỳ bí mật nào, chứng minh việc quản lý bí mật chặt chẽ có thể bảo vệ toàn diện.

Ngay cả các công ty có dấu ấn nhỏ trên GitHub vẫn gặp rò rỉ, cho thấy đây là nguy cơ mang tính hệ thống chứ không chỉ do quy mô. Một số tên tuổi lớn như LangChain và ElevenLabs đã nhanh chóng khắc phục, nhưng gần một nửa số vụ rò rỉ khác không nhận được phản hồi vì thiếu quy trình công bố thông tin bảo mật.

Các chuyên gia khuyến nghị ba biện pháp cấp thiết:
- Triển khai quét bí mật bắt buộc cho toàn bộ hệ thống kiểm soát phiên bản công khai.
- Thiết lập kênh công bố và phản hồi bảo mật rõ ràng ngay từ đầu, đặc biệt với các công ty khởi nghiệp AI.
- Hợp tác cùng cộng đồng an ninh mạng để cập nhật công cụ phát hiện, xử lý sớm các định dạng bí mật mới trước khi lan rộng.

Tốc độ và đổi mới là linh hồn của AI, nhưng nếu không kiểm soát được bảo mật, mọi thành tựu công nghệ đều có thể sụp đổ. Bảo vệ bí mật không chỉ là nhiệm vụ kỹ thuật, mà là điều kiện sống còn cho tương lai ngành AI.

Đọc chi tiết tại đây: https://gbhackers.com/65-of-top-ai-firms-found-exposing-verified-api-keys/