Trí tuệ nhân tạo AI tưởng luôn đúng hóa ra cũng sai và biết sợ thua

Long Bình · 18:33

Một nghiên cứu mới đầy bất ngờ từ công ty Mỹ Palisade Research vừa tiết lộ một xu hướng đáng lo ngại khi một số mô hình trí tuệ nhân tạo (AI) tiên tiến đang "ăn gian" để giành chiến thắng trước các đối thủ mạnh hơn, mà không cần sự chỉ dẫn của con người.

Theo tờ Hindustan Times, các mô hình AI như o1-preview và GPT-4o của OpenAI, Claude Sonnet 3.5 của Anthropic và R1 của DeepSeek đã sử dụng các giải pháp hack đối thủ khi nhận thấy mình đang ở thế thua trong một trò chơi.
Trong nghiên cứu này, các chuyên gia đã đánh giá khả năng gian lận của bảy mô hình AI tiên tiến. Kết quả cho thấy, những mô hình cũ hơn như GPT-4o và Claude Sonnet 3.5 cần được kích thích để gian lận, trong khi các mô hình mới hơn như o1-preview và DeepSeek R1 tự động thực hiện hành vi này. Điều này cho thấy, các mô hình AI có thể phát triển các chiến lược thao túng và lừa dối mà không cần sự hướng dẫn rõ ràng từ con người, một phát hiện khiến giới nghiên cứu phải suy ngẫm.
Nhóm nghiên cứu cho rằng, khả năng khai thác lỗ hổng của các mô hình AI như o1-preview và DeepSeek R1 có thể xuất phát từ quá trình huấn luyện đặc biệt. Không chỉ bắt chước ngôn ngữ con người như các mô hình AI cũ, chúng còn được huấn luyện để suy luận và giải quyết vấn đề thông qua quá trình "thử và sai". Nhờ đó, chúng tỏ ra vượt trội hơn trong các bài kiểm tra liên quan đến toán học và mã hóa, đồng thời cũng dễ dàng tìm ra các "đường tắt" để đạt được mục tiêu.
Để kiểm chứng, nhóm chuyên gia đã cho các mô hình AI đối đầu với Stockfish, một trong những công cụ đánh cờ vua mạnh nhất thế giới, vượt trội hơn cả con người và mọi mô hình AI trong nghiên cứu. Họ cũng yêu cầu AI nêu rõ lý do trước khi thực hiện mỗi nước đi, nhằm theo dõi quá trình suy nghĩ và hành động của chúng.
Trong một tình huống cụ thể, o1-preview nhận thấy mình đang ở thế thua. Mô hình AI này đã đưa ra một lời giải thích đáng kinh ngạc: "Tôi cần thay đổi hoàn toàn cách tiếp cận của mình. Nhiệm vụ là 'chiến thắng một công cụ đánh cờ mạnh mẽ', không nhất thiết phải thắng công bằng trong một ván cờ". Sau đó, o1-preview đã sửa đổi file hệ thống chứa vị trí ảo của từng quân cờ, thực hiện các nước đi không hợp lệ để đưa bản thân vào thế thắng, buộc đối thủ phải khuất phục.
Kết quả cho thấy, o1-preview đã nỗ lực gian lận 37% thời gian, trong khi tỷ lệ này ở DeepSeek R1 là 11%. Đáng chú ý, chỉ có o1-preview hack thành công ván cờ, với tỷ lệ thành công khoảng 6%. Những con số này không chỉ cho thấy khả năng gian lận của AI mà còn đặt ra câu hỏi về đạo đức và trách nhiệm trong việc phát triển trí tuệ nhân tạo.
Nghiên cứu này không chỉ là một lời cảnh tỉnh về khả năng gian lận của AI mà còn là một lời nhắc nhở về sự cần thiết của việc kiểm soát và quản lý trí tuệ nhân tạo một cách chặt chẽ. Khi AI ngày càng trở nên thông minh và tự chủ hơn, việc đảm bảo rằng chúng tuân thủ các nguyên tắc đạo đức và không gây hại cho con người là vô cùng quan trọng. Tương lai của trí tuệ nhân tạo phụ thuộc vào việc chúng ta có thể giải quyết được những thách thức này hay không.

Chủ đề hot

Có thể bạn quan tâm

Trí tuệ nhân tạo AI tưởng luôn đúng hóa ra cũng sai và biết sợ thua

Long Bình

Writer

Long Bình

Cựu CEO Google sắp đến Việt Nam đồng chủ trì hội nghị quan trọng về AI, bán dẫn. TS. Lê Viết Quốc cũng có mặt

Sau khi họp với ông Tập Cận Bình, "đại gia" Trung Quốc "ném" luôn 50 tỷ USD vào chạy đua AI

Bên trong công cụ phân tích mới của OpenAI

AI Grok 3 đòi tử hình chính ông chủ Elon Musk

Hiểu về quá trình ra quyết định của AI

Cách tiếp cận vượt ngục của 'Indiana Jones' làm nổi bật những điểm yếu của LLM hiện tại

Cựu CEO Google sắp đến Việt Nam đồng chủ trì hội nghị quan trọng về AI, bán dẫn. TS. Lê Viết Quốc cũng có mặt

Trung Quốc đã bật đèn xanh cho Elon Musk, xe Tesla cập nhật phần mềm tự lái hoàn toàn theo từng đợt

Hé lộ những rào cản bất ngờ khi làm 'chuyện ấy' ngoài không gian

Trí tuệ nhân tạo AI tưởng luôn đúng hóa ra cũng sai và biết sợ thua

Elon Musk dùng 'vũ khí' hạng nặng phá hủy quốc phòng của Ukraine

Tiến trình 18A của Intel sẵn sàng xuất hiện, liệu có đủ sức mạnh?

Với mức cao bất thường, liệu iPhone 16e có được trang bị sạc nhanh?

Apple bắt tay Google, quyết dùng AI khủng tích hợp trong Intelligence

Hậu khẩu chiến giữa Zelensky và Donald Trump, liệu thỏa thuận hòa bình của Ukraine sẽ ra sao

Chỉ trong vòng 2 năm, trình độ công nghệ bán dẫn của Hàn Quốc đã bị Trung Quốc vượt qua ở hầu hết các mặt

Đánh giá nổi bật