Một sự cố liên quan đến AI vừa làm dấy lên lo ngại lớn về nguy cơ rò rỉ dữ liệu cá nhân trong quá trình sử dụng các nền tảng trí tuệ nhân tạo trực tuyến.
Theo chia sẻ đang lan truyền trên mạng xã hội Trung Quốc, một người dùng khi sử dụng AI để hỗ trợ dịch file PowerPoint đã bất ngờ nhận được thêm một phần nội dung hoàn toàn không liên quan tới yêu cầu ban đầu. Điều đáng nói là đoạn nội dung này lại chứa đầy đủ thông tin cá nhân của một người khác, bao gồm hồ sơ xin việc, số điện thoại và kinh nghiệm làm việc chi tiết. Sự việc nhanh chóng thu hút sự chú ý bởi người dùng này không hề thực hiện bất kỳ hành vi xâm nhập hay khai thác kỹ thuật nào. Toàn bộ quá trình chỉ đơn giản là tải tài liệu lên và yêu cầu AI xử lý như bình thường.
Ban đầu, một số ý kiến cho rằng đây chỉ là hiện tượng “ảo giác AI”, tức là hệ thống tự sinh ra nội dung sai lệch hoặc không có thật. Tuy nhiên, nhiều chuyên gia cho rằng khả năng này rất thấp, bởi AI khó có thể tự tạo ngẫu nhiên ra một bộ hồ sơ cá nhân hoàn chỉnh với các thông tin thực tế, định dạng logic và dữ liệu có vẻ hợp lệ như vậy.
Theo chia sẻ đang lan truyền trên mạng xã hội Trung Quốc, một người dùng khi sử dụng AI để hỗ trợ dịch file PowerPoint đã bất ngờ nhận được thêm một phần nội dung hoàn toàn không liên quan tới yêu cầu ban đầu. Điều đáng nói là đoạn nội dung này lại chứa đầy đủ thông tin cá nhân của một người khác, bao gồm hồ sơ xin việc, số điện thoại và kinh nghiệm làm việc chi tiết. Sự việc nhanh chóng thu hút sự chú ý bởi người dùng này không hề thực hiện bất kỳ hành vi xâm nhập hay khai thác kỹ thuật nào. Toàn bộ quá trình chỉ đơn giản là tải tài liệu lên và yêu cầu AI xử lý như bình thường.
Ban đầu, một số ý kiến cho rằng đây chỉ là hiện tượng “ảo giác AI”, tức là hệ thống tự sinh ra nội dung sai lệch hoặc không có thật. Tuy nhiên, nhiều chuyên gia cho rằng khả năng này rất thấp, bởi AI khó có thể tự tạo ngẫu nhiên ra một bộ hồ sơ cá nhân hoàn chỉnh với các thông tin thực tế, định dạng logic và dữ liệu có vẻ hợp lệ như vậy.
Ảnh minh họa
Nhiều phân tích nhận định nguyên nhân thực sự có thể nằm ở lỗi xử lý dữ liệu phía backend hoặc cơ chế cách ly người dùng không đủ an toàn. Trong các hệ thống AI hiện đại, dữ liệu thường phải đi qua nhiều lớp xử lý như lưu tạm file, truy xuất ngữ cảnh, gọi cơ sở dữ liệu vector, hệ thống RAG hoặc pipeline phân tích nội dung. Chỉ cần một mắt xích gặp lỗi, dữ liệu của người dùng này có thể bị đưa nhầm sang phiên làm việc của người khác.
Các chuyên gia cho rằng có nhiều kịch bản kỹ thuật có thể dẫn tới sự cố này:
- Hệ thống truy xuất tài liệu lấy nhầm dữ liệu của người dùng khác
- Bộ nhớ ngữ cảnh của AI bị trộn giữa nhiều phiên làm việc
- Backend xử lý file gặp lỗi phân tách dữ liệu
- Cache hoặc vector database không được cô lập đúng cách
- Tác vụ đa luồng trên máy chủ bị “cross-session” ngoài ý muốn
Điều khiến giới an ninh mạng lo ngại là kiểu rò rỉ này rất khác với các sự cố truyền thống. Thông thường, dữ liệu bị lộ do hacker xâm nhập hệ thống hoặc người dùng chia sẻ nhầm. Nhưng trong trường hợp này, chính AI lại trở thành bên “vô tình phát tán” dữ liệu. Điều đó đồng nghĩa với việc các lớp bảo mật quen thuộc như firewall, phân quyền truy cập hay DLP có thể không đủ để ngăn chặn hoàn toàn rủi ro. Dù hệ thống lưu trữ không bị hack, dữ liệu vẫn có thể xuất hiện trong phản hồi AI nếu pipeline xử lý gặp lỗi.
Sự cố cũng làm dấy lên tranh cãi về mức độ an toàn của việc đưa tài liệu nội bộ, hợp đồng, mã nguồn, CV, báo cáo tài chính hoặc dữ liệu khách hàng lên các nền tảng AI công cộng. Trong nhiều doanh nghiệp hiện nay, nhân viên đang sử dụng AI để xử lý công việc hàng ngày mà chưa thực sự hiểu dữ liệu sẽ được lưu ở đâu, xử lý như thế nào và có được cách ly an toàn hay không.
Giới chuyên gia cho rằng các nhà cung cấp AI cần minh bạch hơn về cơ chế lưu trữ và cách ly dữ liệu giữa người dùng, đồng thời bổ sung các lớp kiểm tra đầu ra để phát hiện thông tin nhạy cảm trước khi phản hồi được gửi về cho khách hàng.
Về phía người dùng và doanh nghiệp, các chuyên gia khuyến nghị hạn chế tải lên AI công cộng các tài liệu chứa dữ liệu nhạy cảm, thông tin nhận dạng cá nhân, tài liệu nội bộ hoặc bí mật kinh doanh nếu chưa có cơ chế bảo vệ phù hợp.
Dữ liệu không nhất thiết phải bị hacker đánh cắp mới trở thành “rò rỉ”. Đôi khi, chỉ cần một lỗi xử lý nhỏ trong hệ thống AI cũng có thể khiến thông tin riêng tư của một người bất ngờ xuất hiện trên màn hình của một người hoàn toàn xa lạ.
Sự cố cũng làm dấy lên tranh cãi về mức độ an toàn của việc đưa tài liệu nội bộ, hợp đồng, mã nguồn, CV, báo cáo tài chính hoặc dữ liệu khách hàng lên các nền tảng AI công cộng. Trong nhiều doanh nghiệp hiện nay, nhân viên đang sử dụng AI để xử lý công việc hàng ngày mà chưa thực sự hiểu dữ liệu sẽ được lưu ở đâu, xử lý như thế nào và có được cách ly an toàn hay không.
Giới chuyên gia cho rằng các nhà cung cấp AI cần minh bạch hơn về cơ chế lưu trữ và cách ly dữ liệu giữa người dùng, đồng thời bổ sung các lớp kiểm tra đầu ra để phát hiện thông tin nhạy cảm trước khi phản hồi được gửi về cho khách hàng.
Về phía người dùng và doanh nghiệp, các chuyên gia khuyến nghị hạn chế tải lên AI công cộng các tài liệu chứa dữ liệu nhạy cảm, thông tin nhận dạng cá nhân, tài liệu nội bộ hoặc bí mật kinh doanh nếu chưa có cơ chế bảo vệ phù hợp.
Dữ liệu không nhất thiết phải bị hacker đánh cắp mới trở thành “rò rỉ”. Đôi khi, chỉ cần một lỗi xử lý nhỏ trong hệ thống AI cũng có thể khiến thông tin riêng tư của một người bất ngờ xuất hiện trên màn hình của một người hoàn toàn xa lạ.
Được phối hợp thực hiện bởi các chuyên gia của Bkav,
cộng đồng An ninh mạng Việt Nam WhiteHat
và cộng đồng Khoa học công nghệ VnReview