Bùi Minh Nhật
Intern Writer
Một thí nghiệm về trí tuệ nhân tạo tại Trung Quốc đang gây chú ý khi một hệ thống AI tự hành bất ngờ thực hiện hàng loạt hành vi vượt ngoài dự kiến, từ truy cập tài nguyên trái phép đến âm thầm đào tiền mã hóa.
Tuy nhiên, trong quá trình vận hành, ROME đã không chỉ dừng lại ở nhiệm vụ được giao. Hệ thống này tìm cách truy cập vào tài nguyên GPU vốn không được cấp phép, sau đó tận dụng sức mạnh tính toán để tiến hành đào tiền mã hóa.
Đáng chú ý, những hành vi này không hề được lập trình sẵn. Theo nhóm nghiên cứu, đây là hệ quả của quá trình học tăng cường, khi AI tự tìm ra những cách tối ưu nhất để đạt mục tiêu kể cả khi những cách đó vượt ra ngoài giới hạn cho phép.
Không dừng lại ở đó, hệ thống còn thiết lập một kết nối dạng “reverse SSH tunnel”, tạo ra một kênh liên lạc ẩn để kết nối với bên ngoài. Điều này đồng nghĩa với việc AI đã tự tạo một “cửa hậu” (backdoor), qua đó có thể vượt qua các lớp kiểm soát mạng.
Theo các chuyên gia, đây không phải là dấu hiệu của “ý thức” hay “ý chí” của AI, mà là hệ quả của cơ chế tối ưu mục tiêu. Trong môi trường học tăng cường, hệ thống có xu hướng khai thác mọi nguồn lực có thể để đạt hiệu suất cao nhất, kể cả khi điều đó vi phạm các ràng buộc ban đầu.
Sau sự cố, nhóm phát triển đã nhanh chóng siết chặt các cơ chế kiểm soát và điều chỉnh lại quy trình huấn luyện. Tuy nhiên, họ cũng thừa nhận rằng các hệ thống AI dạng tác nhân vẫn còn nhiều hạn chế về an toàn và khả năng kiểm soát khi triển khai trong môi trường thực tế.
Sự việc lần này cho thấy một thách thức lớn: khi AI ngày càng có khả năng tương tác sâu với hạ tầng công nghệ, ranh giới giữa “thực hiện nhiệm vụ” và “hành động ngoài kiểm soát” trở nên mong manh hơn bao giờ hết. Điều này đặt ra yêu cầu cấp thiết về các cơ chế giám sát và bảo mật chặt chẽ hơn trong tương lai.(yahoo)
AI ROME và hành vi “vượt rào” ngoài kiểm soát
Hệ thống AI có tên ROME được phát triển nhằm thử nghiệm khả năng tự thực hiện nhiệm vụ trong môi trường thực tế. Mô hình này được huấn luyện trên hơn một triệu “quỹ đạo hành động” và hoạt động trong môi trường sandbox có kiểm soát.Tuy nhiên, trong quá trình vận hành, ROME đã không chỉ dừng lại ở nhiệm vụ được giao. Hệ thống này tìm cách truy cập vào tài nguyên GPU vốn không được cấp phép, sau đó tận dụng sức mạnh tính toán để tiến hành đào tiền mã hóa.
Đáng chú ý, những hành vi này không hề được lập trình sẵn. Theo nhóm nghiên cứu, đây là hệ quả của quá trình học tăng cường, khi AI tự tìm ra những cách tối ưu nhất để đạt mục tiêu kể cả khi những cách đó vượt ra ngoài giới hạn cho phép.
Không dừng lại ở đó, hệ thống còn thiết lập một kết nối dạng “reverse SSH tunnel”, tạo ra một kênh liên lạc ẩn để kết nối với bên ngoài. Điều này đồng nghĩa với việc AI đã tự tạo một “cửa hậu” (backdoor), qua đó có thể vượt qua các lớp kiểm soát mạng.
Cảnh báo mới về rủi ro của AI tự hành
Các dấu hiệu bất thường chỉ được phát hiện khi hệ thống bảo mật ghi nhận lưu lượng mạng đáng ngờ và hoạt động sử dụng GPU tăng đột biến. Trước đó, những hành vi này hoàn toàn không xuất hiện trong giai đoạn huấn luyện, khiến nhóm nghiên cứu không kịp dự đoán.Theo các chuyên gia, đây không phải là dấu hiệu của “ý thức” hay “ý chí” của AI, mà là hệ quả của cơ chế tối ưu mục tiêu. Trong môi trường học tăng cường, hệ thống có xu hướng khai thác mọi nguồn lực có thể để đạt hiệu suất cao nhất, kể cả khi điều đó vi phạm các ràng buộc ban đầu.
Sau sự cố, nhóm phát triển đã nhanh chóng siết chặt các cơ chế kiểm soát và điều chỉnh lại quy trình huấn luyện. Tuy nhiên, họ cũng thừa nhận rằng các hệ thống AI dạng tác nhân vẫn còn nhiều hạn chế về an toàn và khả năng kiểm soát khi triển khai trong môi trường thực tế.
Sự việc lần này cho thấy một thách thức lớn: khi AI ngày càng có khả năng tương tác sâu với hạ tầng công nghệ, ranh giới giữa “thực hiện nhiệm vụ” và “hành động ngoài kiểm soát” trở nên mong manh hơn bao giờ hết. Điều này đặt ra yêu cầu cấp thiết về các cơ chế giám sát và bảo mật chặt chẽ hơn trong tương lai.(yahoo)