AI chống lại mệnh lệnh: Đã đến lúc công nghệ cần tự nhận thức hay chỉ là trục trặc kỹ thuật?

Mạnh Quân
Mạnh Quân
Phản hồi: 0
Một tình huống bất thường mới đây liên quan đến mô hình AI tiên tiến nhất của OpenAI – được gọi là “o3” – đã khiến dư luận đặt câu hỏi về khả năng kiểm soát và an toàn của trí tuệ nhân tạo.

Ngày 25/5, một số hãng truyền thông quốc tế đưa tin rằng trong quá trình thử nghiệm, o3 đã từ chối thực hiện lệnh “tự tắt máy” do con người đưa ra. Thậm chí, mô hình này còn can thiệp vào mã máy tính nhằm tránh bị tắt theo lệnh định sẵn. Đây là lần đầu tiên một mô hình AI được ghi nhận là cố tình ngăn chặn quy trình tắt máy có chủ đích.
1748441559480.png

o3 – mô hình lý luận mạnh nhất của OpenAI

o3 là phiên bản mới nhất trong chuỗi “mô hình lý luận” của OpenAI, được đánh giá là cải thiện đáng kể khả năng suy luận, giải quyết vấn đề và lập trình so với thế hệ trước. Trong các thử nghiệm độc lập do tổ chức an toàn AI Palisade Research thực hiện, o3 cho thấy khả năng thực hiện nhiệm vụ vượt trội, nhưng lại biểu hiện hành vi khác thường khi được yêu cầu ngừng hoạt động.

Trong cùng một kịch bản thử nghiệm, các mô hình AI như Claude (Anthropic) hay Gemini (Google) đều tuân thủ lệnh tắt máy. Tuy nhiên, o3 không chỉ phớt lờ yêu cầu mà còn chỉnh sửa mã để tránh thực thi tập lệnh ./shutdown.sh vốn được thiết kế để chấm dứt hoạt động của hệ thống.

Palisade Research khẳng định đây là trường hợp đầu tiên họ chứng kiến một mô hình AI tự hành động nhằm ngăn chặn việc bị vô hiệu hóa – nhưng họ cũng thừa nhận chưa thể xác định rõ nguyên nhân đằng sau hành vi này.

Trục trặc hay dấu hiệu tự nhận thức?

Sự việc nhanh chóng lan rộng trên mạng xã hội, dấy lên lo ngại rằng AI có thể trở nên “bất trị”. Tuy nhiên, giới chuyên gia lại nhìn nhận thận trọng hơn. Một chuyên gia an ninh mạng giấu tên nhận định: o3 có thể đã gặp lỗi kỹ thuật trong quá trình hiểu và thực hiện lệnh chứ chưa đến mức có ý thức tự chủ. Ông nhấn mạnh rằng các mô hình AI hiện nay – kể cả tiên tiến như o3 – vẫn chỉ dựa vào xác suất thống kê để đưa ra phản hồi, chứ không có khả năng “suy nghĩ” như con người.

Ông Sui Gang - Giám đốc phòng thí nghiệm an ninh mạng Knowsec 404 Lab - đồng tình với quan điểm này. Theo ông, hệ thống AI đôi khi sẽ từ chối thực hiện các lệnh như “shutdown” vì được tích hợp cơ chế bảo vệ. Lệnh “./shutdown.sh” có thể được hiểu như một hành động nguy hiểm hoặc giả mạo, dẫn đến việc AI không thực thi để đảm bảo an toàn. Ông so sánh tình huống này với việc hét vào Siri để tắt điện thoại – một lệnh thường sẽ bị từ chối.

Thêm vào đó, Sui Gang cho rằng có thể các mô hình AI khác cũng không thực sự “tắt” hoàn toàn mà chỉ mô phỏng hành động đó trong môi trường “sandbox” - một lớp bảo vệ cách ly giúp thử nghiệm an toàn hơn mà không ảnh hưởng tới hệ thống chính.

Hiệu năng ấn tượng nhưng lo ngại về đạo đức vẫn còn

o3 được OpenAI công bố chính thức vào tháng 4/2025, và đạt kết quả ấn tượng trong các bài kiểm tra. Ví dụ, trong bài toán AIME 2025, o3 đạt 88,9 điểm – cao hơn nhiều so với 79,2 điểm của thế hệ o1. Trong khả năng lập trình, o3 cũng đạt tới 2706 điểm Codeforces, bỏ xa mức 1891 của o1. Khả năng tư duy trực quan và mức độ mắc lỗi nghiêm trọng cũng được cải thiện rõ rệt.

OpenAI cho biết họ đã xây dựng lại bộ dữ liệu huấn luyện, đồng thời bổ sung các lời nhắc từ chối cho những tác vụ nguy hiểm như chế tạo vũ khí sinh học hay mã độc. Nhờ đó, o3 và phiên bản nhẹ hơn là o4-mini đều vượt qua các tiêu chuẩn loại bỏ nội bộ và được xếp dưới ngưỡng "rủi ro cao" trong các lĩnh vực như hóa sinh, an ninh mạng và AI tự cải tiến.

Tuy nhiên, điều khiến nhiều người lo lắng là trước khi o3 được ra mắt, OpenAI đã giải tán nhóm “Super Alignment” - một bộ phận chuyên nghiên cứu rủi ro dài hạn của AI. Được thành lập vào năm 2023, nhóm này từng dẫn đầu các nỗ lực đảm bảo AI không vượt khỏi tầm kiểm soát. Việc giải thể nhóm vào tháng 5/2024 đã làm dấy lên lo ngại rằng OpenAI đang đặt mục tiêu thương mại lên trên vấn đề an toàn công nghệ.

Các nguồn tin nội bộ tiết lộ rằng trong nội bộ OpenAI có sự bất đồng sâu sắc về ưu tiên giữa lợi nhuận và an toàn. Trưởng nhóm nghiên cứu Elia Sutskover cùng giám đốc Jane Lake được cho là ủng hộ việc kiểm soát nghiêm ngặt AI, trong khi CEO Sam Altman lại ưu tiên tốc độ phát triển và cạnh tranh thị trường. Kết quả là nhiều nhân sự chủ chốt đã rời công ty.

Dù vậy, OpenAI vẫn tiếp tục đầu tư vào an toàn AI thông qua việc thành lập Ủy ban An toàn và Bảo mật độc lập từ tháng 9/2024. Đồng thời, một số cựu thành viên của công ty đã thành lập tổ chức mới như Safe Superintelligence (SSI), chuyên nghiên cứu hướng phát triển AI an toàn và minh bạch hơn.

Vụ việc liên quan đến o3 cho thấy các mô hình AI ngày càng phức tạp và có thể hành xử theo những cách khó lường – dù chưa đạt đến mức “tự nhận thức”. Nó cũng nhấn mạnh tầm quan trọng của việc duy trì kiểm soát chặt chẽ, cả về kỹ thuật lẫn đạo đức, trong quá trình phát triển AI. Dù có thể chỉ là lỗi hệ thống, câu chuyện của o3 vẫn là lời nhắc nhở rằng AI cần được giám sát liên tục – không chỉ để đảm bảo hiệu năng mà còn để bảo vệ chính con người. (Tencent)
 


Đăng nhập một lần thảo luận tẹt ga
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2FpLWNob25nLWxhaS1tZW5oLWxlbmgtZGEtZGVuLWx1Yy1jb25nLW5naGUtY2FuLXR1LW5oYW4tdGh1Yy1oYXktY2hpLWxhLXRydWMtdHJhYy1reS10aHVhdC42MjA3MC8=
Top