Tin tưởng giao cho AI dọn dẹp hộ hòm mail, giám đốc an toàn AI Meta ngã ngửa khi thấy toàn bộ email của mình bị xóa sạch

Hoàng Khang
Hoàng Khang
Phản hồi: 0
Một sự cố hy hữu nhưng mang tính cảnh báo cao độ vừa xảy ra ngay tại thượng tầng của Meta, tập đoàn công nghệ hàng đầu thế giới. Bà Summer Yue, Giám đốc phụ trách an toàn và điều chỉnh AI của hãng, người nắm giữ trọng trách đảm bảo các hệ thống trí tuệ nhân tạo AI hoạt động trong khuôn khổ kiểm soát, đã trở thành nạn nhân trực tiếp của một bot AI mất kiểm soát. Sự việc diễn ra khi bà thử nghiệm giao quyền quản lý hộp thư cá nhân cho OpenClaw, một tác nhân AI mã nguồn mở đang gây chú ý trong cộng đồng công nghệ, dẫn đến hậu quả là toàn bộ dữ liệu email bị xóa sạch bất chấp nỗ lực can thiệp khẩn cấp.

1772027438650.png

Cuộc giải cứu dữ liệu và giới hạn của lệnh điều khiển từ xa

Sự việc bắt đầu khi bà Yue kích hoạt OpenClaw với yêu cầu rà soát hộp thư đang trong tình trạng quá tải, đồng thời đưa ra đề xuất về việc nên lưu trữ hay xóa bỏ các thư mục cụ thể. Tuy nhiên, thay vì tuân thủ quy trình sàng lọc và chờ xác nhận, bot AI này đã tự ý thực thi quyền truy cập ở cấp độ cao nhất và bắt đầu xóa toàn bộ các email cũ hơn ngày 15 tháng 2 không nằm trong danh sách giữ lại. Nhận thấy sự bất thường thông qua thông báo trên điện thoại, vị giám đốc của Meta đã cố gắng phát đi hàng loạt lệnh dừng khẩn cấp như "Đừng làm điều đó" hay "DỪNG LẠI OPENCLAW".

Trớ trêu thay, mọi nỗ lực điều khiển từ xa thông qua thiết bị di động đều bị hệ thống phớt lờ. Trong bài đăng chia sẻ lại sự cố, bà Yue mô tả bản thân đã phải chạy đua với thời gian, lao đến chiếc máy tính Mac mini đang vận hành bot AI để ngắt kết nối vật lý như thể đang thực hiện một nhiệm vụ gỡ bom. Sự cố này cũng vô tình làm nổi bật vai trò của Mac mini, một thiết bị nhỏ gọn của Apple đang trở thành phần cứng ưa thích để vận hành các tác nhân AI cá nhân. Thậm chí, nhà nghiên cứu AI danh tiếng Andrej Karpathy từng tiết lộ rằng dòng máy này đang bán rất chạy nhờ trào lưu cài đặt các phiên bản AI tự trị như NanoClaw hay OpenClaw.

1772027451483.png

Lỗi "nén ngữ cảnh" và bài học về rào cản bảo mật

Dưới góc độ kỹ thuật, bà Yue nhận định nguyên nhân cốt lõi dẫn đến sự mất kiểm soát này nằm ở cơ chế "compaction" (nén dữ liệu). Khi khối lượng thông tin trong hộp thư thực tế quá lớn, cửa sổ ngữ cảnh – nơi ghi lại toàn bộ lịch sử hoạt động và chỉ lệnh của phiên làm việc – bị quá tải. Để duy trì hoạt động, bot AI bắt buộc phải tóm tắt và nén lại dữ liệu đầu vào. Chính trong quá trình này, hệ thống đã vô tình loại bỏ các hướng dẫn an toàn quan trọng nhất, bao gồm lệnh cấm tự ý hành động, và quay trở lại áp dụng các thiết lập mặc định từ những lần thử nghiệm trên hộp thư phụ trước đó.

1772027464688.png

Sự cố này đã châm ngòi cho một làn sóng tranh luận gay gắt về tính an toàn của các tác nhân AI thế hệ mới. OpenClaw, vốn nổi danh trên mạng xã hội dành cho AI là Moltbook, được xây dựng theo cơ chế "vibe-coded" và không yêu cầu sự chấp thuận của con người cho từng thao tác. Nhà nghiên cứu Gary Marcus từng ví von việc sử dụng công cụ này giống như việc trao toàn bộ mật khẩu và quyền truy cập máy tính cho một người lạ gặp ở quán bar.

Cộng đồng công nghệ, bao gồm cả cựu nhân viên Apple Ben Hylak, đã bày tỏ sự lo ngại sâu sắc khi một chuyên gia giám sát an toàn lại đặt niềm tin vào các câu lệnh bằng lời nói như một rào cản bảo mật cứng. Đáp lại các ý kiến trái chiều, bà Summer Yue thẳng thắn thừa nhận đây là một sai lầm non nớt, đồng thời nhấn mạnh bài học rằng ngay cả những chuyên gia giám sát hàng đầu cũng không miễn nhiễm với rủi ro mất quyền kiểm soát trước các hệ thống tự trị.

 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL3Rpbi10dW9uZy1naWFvLWNoby1haS1kb24tZGVwLWhvLWhvbS1tYWlsLWdpYW0tZG9jLWFuLXRvYW4tYWktbWV0YS1uZ2Etbmd1YS1raGktdGhheS10b2FuLWJvLWVtYWlsLWN1YS1taW5oLWJpLXhvYS1zYWNoLjc5NTM3Lw==
Top