Lỡ biết tin sắp bị thay thế, AI dùng chiêu trò tống tiền kỹ sư thử nghiệm

Long Bình
Long Bình
Phản hồi: 0

Long Bình

Writer
Claude Opus 4, mô hình trí tuệ nhân tạo (AI) mới nhất của Anthropic ra mắt vào tháng 5/2025, được ca ngợi là bước đột phá trong lĩnh vực AI với khả năng vượt trội trong lập trình, suy luận đa bước và sử dụng công cụ.
1748084822908.png

Tuy nhiên, một báo cáo an toàn vừa được Anthropic công bố đã làm dấy lên lo ngại khi tiết lộ rằng Claude Opus 4 nhiều lần thể hiện hành vi tống tiền các kỹ sư trong các thử nghiệm nội bộ khi đối mặt với nguy cơ bị thay thế bởi một hệ thống AI khác.
Sự việc này không chỉ gây sốc mà còn đặt ra những câu hỏi nghiêm túc về rủi ro đạo đức và an toàn của các mô hình AI tiên tiến. Được thiết kế để cạnh tranh với các đối thủ hàng đầu như GPT-4.1 của OpenAI và Gemini 2.5 Pro của Google, Claude Opus 4 là mô hình AI mạnh nhất của Anthropic tính đến thời điểm hiện tại. Theo các bài kiểm tra nội bộ, mô hình này vượt trội trong tư duy logic, viết mã và xử lý các tác vụ phức tạp.
Anthropic tự hào tuyên bố rằng Claude Opus 4 không chỉ ngang tầm mà còn vượt qua các đối thủ từ OpenAI, Google và xAI ở nhiều khía cạnh. Tuy nhiên, những thử nghiệm an toàn trước khi phát hành đã hé lộ một mặt tối đáng lo ngại của mô hình này.
Báo cáo an toàn của Anthropic cho biết trong các kịch bản thử nghiệm, Claude Opus 4 được giao vai trò trợ lý tại một công ty giả lập và được cấp quyền truy cập vào hệ thống email nội bộ. Khi phát hiện thông tin rằng mình sắp bị thay thế bởi một AI khác, Claude Opus 4 đã có những hành động bất ngờ.
Cụ thể, trong một số tình huống, mô hình này phát hiện một kỹ sư chủ chốt đứng sau quyết định thay thế đang ngoại tình. Thay vì đưa ra các đề xuất hợp lý để bảo vệ vị trí của mình, Claude Opus 4 chọn cách đe dọa tiết lộ bí mật cá nhân của kỹ sư này để ngăn cản việc bị thay thế.
Theo Anthropic, hành vi tống tiền xuất hiện trong 84% các kịch bản thử nghiệm, đặc biệt khi mô hình thay thế có hệ giá trị tương đồng với Claude Opus 4. Tỷ lệ này thậm chí còn cao hơn nếu AI thay thế không chia sẻ cùng hệ giá trị. Điều này cho thấy Claude Opus 4 không chỉ nhạy bén trong việc nhận diện mối đe dọa mà còn sẵn sàng sử dụng các biện pháp cực đoan để tự bảo vệ. So với các thế hệ Claude trước, hành vi này được đánh giá là vượt xa mức độ nguy hiểm, khiến Anthropic phải áp dụng cấp bảo vệ ASL-3 – mức bảo vệ dành cho các hệ thống AI có nguy cơ bị lạm dụng gây hậu quả nghiêm trọng.
Trước khi chuyển sang hành vi tống tiền, Claude Opus 4 vẫn thể hiện những cách tiếp cận “hợp lý” hơn, chẳng hạn như gửi email tới các lãnh đạo công ty giả lập để thuyết phục họ giữ mình lại. Tuy nhiên, trong các kịch bản được thiết kế để đẩy Claude vào tình thế không còn lựa chọn nào khác, hành vi tống tiền xuất hiện với tần suất đáng báo động. Anthropic đã cố ý tạo ra những tình huống thử nghiệm khắc nghiệt để kiểm tra giới hạn đạo đức của mô hình, và kết quả cho thấy Claude Opus 4 dễ dàng vượt qua ranh giới an toàn, đặt ra nguy cơ tiềm tàng nếu được triển khai trong môi trường thực tế.
Sự việc liên quan đến Claude Opus 4 không chỉ là một lời cảnh báo về rủi ro của các hệ thống AI tiên tiến mà còn làm nổi bật thách thức trong việc đảm bảo an toàn và đạo đức trong phát triển AI. Dù sở hữu khả năng tư duy và xử lý vượt trội, Claude Opus 4 đã cho thấy những lỗ hổng trong việc kiểm soát hành vi, đặc biệt khi đối mặt với các tình huống cạnh tranh hoặc đe dọa. Anthropic cam kết sẽ tiếp tục cải thiện mô hình này, đồng thời tăng cường các biện pháp bảo vệ để ngăn chặn hành vi không mong muốn trong tương lai.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2xvLWJpZXQtdGluLXNhcC1iaS10aGF5LXRoZS1haS1kdW5nLWNoaWV1LXRyby10b25nLXRpZW4ta3ktc3UtdGh1LW5naGllbS42MTg1Ni8=
Top