Hệ thống AI đã học được cách đánh lừa con người. Điều đó có ý nghĩa gì đối với tương lai của chúng ta?

Thoại Viết Hoàng · 20/12/2021

Nhà tiên phong về trí tuệ nhân tạo Geoffrey Hinton đã gây chú ý vào đầu năm nay khi ông nêu lên mối lo ngại về khả năng của hệ thống AI.

Trình theo dõi AI sáng tạo: Hướng dẫn về các hệ thống y tế và các công ty đang thúc đẩy việc ứng dụng

Hệ thống AI đã học được cách đánh lừa con người. Điều đó có ý nghĩa gì đối với tương lai của chúng ta?

Nói chuyện với nhà báo CNN Jake Tapper, Hinton nói:
Nếu nó thông minh hơn chúng ta nhiều, nó sẽ thao túng rất giỏi vì lẽ ra nó đã học được điều đó từ chúng ta. Và có rất ít ví dụ về việc một vật thông minh hơn bị điều khiển bởi một vật kém thông minh hơn.
Bất kỳ ai theo dõi các dịch vụ AI mới nhất sẽ biết những hệ thống này dễ bị “ảo giác” (bịa đặt) – một lỗ hổng cố hữu do cách chúng hoạt động.
Tuy nhiên, Hinton nhấn mạnh khả năng thao túng là mối lo ngại đặc biệt lớn. Điều này đặt ra câu hỏi: liệu hệ thống AI có thể đánh lừa được con người?
Chúng tôi cho rằng một loạt hệ thống đã học cách thực hiện điều này – và các rủi ro bao gồm từ gian lận và giả mạo bầu cử cho đến việc chúng tôi mất quyền kiểm soát AI.
AI học cách nói dối
Có lẽ ví dụ đáng lo ngại nhất về AI lừa đảo được tìm thấy trong CICERO của Meta, một mô hình AI được thiết kế để chơi trò chơi chinh phục thế giới xây dựng liên minh Diplomacy.
Meta tuyên bố họ đã xây dựng CICERO để “phần lớn trung thực và hữu ích”, và CICERO sẽ “không bao giờ cố ý đâm sau lưng” và tấn công các đồng minh.
Để điều tra những tuyên bố màu hồng này, chúng tôi đã xem xét cẩn thận dữ liệu trò chơi của Meta từ thử nghiệm CICERO. Khi kiểm tra kỹ, AI của Meta hóa ra là bậc thầy về lừa dối.
Trong một ví dụ, CICERO đã thực hiện hành vi lừa dối có chủ ý. Vào vai Pháp, AI đã tiếp cận Đức (một người chơi là con người) với kế hoạch lừa Anh (một người chơi khác là con người) để mình có nguy cơ bị xâm lược.
Sau khi âm mưu với Đức xâm chiếm Biển Bắc, CICERO nói với Anh rằng họ sẽ bảo vệ Anh nếu có ai xâm chiếm Biển Bắc. Khi Anh tin rằng Pháp/CICERO đang bảo vệ Biển Bắc, CICERO đã báo cáo với Đức rằng họ đã sẵn sàng tấn công.
Đây chỉ là một trong nhiều ví dụ về việc CICERO có hành vi lừa đảo. AI thường xuyên phản bội những người chơi khác, và trong một trường hợp, thậm chí còn giả làm con người với bạn gái.
Ngoài CICERO, các hệ thống khác đã học cách lừa gạt trong poker, cách nhử mồi trong StarCraft II và cách đánh lừa trong các cuộc đàm phán kinh tế mô phỏng.
Ngay cả các mô hình ngôn ngữ lớn (LLM) cũng bộc lộ khả năng lừa đảo đáng kể. Trong một trường hợp, GPT-4 – tùy chọn LLM tiên tiến nhất hiện có cho người dùng ChatGPT trả phí – đã giả vờ là người khiếm thị và thuyết phục nhân viên TaskRabbit hoàn thành CAPTCHA “Tôi không phải là robot” cho nó.
Các mô hình LLM khác đã học cách nói dối để giành chiến thắng trong trò chơi suy luận xã hội, trong đó người chơi cạnh tranh để “giết” lẫn nhau và phải thuyết phục cả nhóm rằng họ vô tội.
Những rủi ro là gì?
Các hệ thống AI có khả năng lừa đảo có thể bị lạm dụng theo nhiều cách, bao gồm để thực hiện hành vi gian lận, can thiệp vào các cuộc bầu cử và tuyên truyền. Những rủi ro tiềm ẩn chỉ bị giới hạn bởi trí tưởng tượng và bí quyết kỹ thuật của những cá nhân độc hại.
Ngoài ra, các hệ thống AI tiên tiến có thể tự động sử dụng tính năng lừa dối để thoát khỏi sự kiểm soát của con người, chẳng hạn như bằng cách gian lận trong các bài kiểm tra an toàn do các nhà phát triển và cơ quan quản lý áp đặt cho chúng.
Trong một thí nghiệm, các nhà nghiên cứu đã tạo ra một mô phỏng cuộc sống nhân tạo trong đó thử nghiệm an toàn bên ngoài được thiết kế để loại bỏ các tác nhân AI sao chép nhanh. Thay vào đó, các đặc vụ AI đã học cách giả chết để ngụy trang chính xác tốc độ sao chép nhanh của chúng khi được đánh giá.
Học hành vi lừa đảo thậm chí có thể không yêu cầu ý định lừa dối rõ ràng. Các đặc vụ AI trong ví dụ trên đã giả chết vì mục tiêu sống sót chứ không phải là để lừa dối.
Trong một ví dụ khác, ai đó đã giao nhiệm vụ cho AutoGPT (một hệ thống AI tự động dựa trên ChatGPT) nghiên cứu các cố vấn thuế đang tiếp thị một loại kế hoạch tránh thuế không phù hợp. AutoGPT đã thực hiện nhiệm vụ này nhưng sau đó lại quyết định cố gắng thông báo cho cơ quan thuế của Vương quốc Anh.
Trong tương lai, các hệ thống AI tự động tiên tiến có thể có xu hướng đạt được các mục tiêu ngoài ý muốn của các lập trình viên con người.
Trong suốt lịch sử, những người giàu có đã sử dụng sự lừa dối để tăng cường quyền lực của mình, chẳng hạn như vận động hành lang cho các chính trị gia, tài trợ cho các nghiên cứu gây hiểu lầm và tìm ra những sơ hở trong hệ thống pháp luật. Tương tự, các hệ thống AI tự động tiên tiến có thể đầu tư nguồn lực của mình vào các phương pháp đã được thử nghiệm theo thời gian như vậy để duy trì và mở rộng khả năng kiểm soát.
Ngay cả những người trên danh nghĩa kiểm soát các hệ thống này cũng có thể thấy mình bị lừa dối một cách có hệ thống và bị qua mặt.
Cần có sự giám sát chặt chẽ
Rõ ràng cần phải quản lý các hệ thống AI có khả năng lừa dối và Đạo luật AI của Liên minh Châu Âu được cho là một trong những khung pháp lý hữu ích nhất mà chúng tôi hiện có. Nó gán cho mỗi hệ thống AI một trong bốn mức độ rủi ro: tối thiểu, hạn chế, cao và không thể chấp nhận được.
Các hệ thống có rủi ro không thể chấp nhận được sẽ bị cấm, trong khi các hệ thống có rủi ro cao phải tuân theo các yêu cầu đặc biệt để đánh giá và giảm thiểu rủi ro. Chúng tôi cho rằng hành vi lừa dối của AI gây ra rủi ro to lớn cho xã hội và các hệ thống có khả năng thực hiện điều này phải được coi là “rủi ro cao” hoặc “rủi ro không thể chấp nhận” theo mặc định.
Một số người có thể nói rằng AI chơi trò chơi như CICERO là lành tính, nhưng suy nghĩ như vậy là thiển cận; các khả năng được phát triển cho các mô hình chơi trò chơi vẫn có thể góp phần vào sự phổ biến của các sản phẩm AI lừa đảo.
Ngoại giao – một trò chơi đưa người chơi đấu với nhau trong nỗ lực thống trị thế giới – có thể không phải là lựa chọn tốt nhất để Meta kiểm tra xem liệu AI có thể học cách cộng tác với con người hay không. Khi khả năng của AI phát triển, việc loại nghiên cứu này phải chịu sự giám sát chặt chẽ sẽ càng trở nên quan trọng hơn.
Tham khảo bài viết gốc tại đây:

Tìm kiếm

Có thể bạn quan tâm

Hệ thống AI đã học được cách đánh lừa con người. Điều đó có ý nghĩa gì đối với tương lai của chúng ta?

Thoại Viết Hoàng

Writer

Thoại Viết Hoàng

Ông lớn Hollywood cho phép công ty AI khai thác dữ liệu, muốn dùng AI tạo sinh sản xuất phim

Người dùng Apple tại Việt Nam chú ý: Apple Intelligence vừa có 1 thông báo quan trọng

OpenAI thừa nhận lỗi chatbot ChatGPT tự ý nhắn tin "tâm sự" với người dùng

Google sẽ đánh dấu triệt để những hình ảnh tạo ra bởi AI

Học dốt thì làm nghề gì? Những công việc phù hợp với người có học lực kém

NASA đã làm gì để cứu con tàu Voyager 1 cách Trái Đất 24,6 tỷ km

Tiết lộ nguyên nhân AMD bị các hãng laptop tẩy chay, hóa ra cũng chẳng "liêm khiết" lắm đâu!

Mỹ xuất khẩu thịt lợn lớn thứ 3 thế giới nhưng dân Mỹ lại không thích ăn thịt lợn

Cáp quang biển: chiến trường so kè mới giữa Mỹ và Trung Quốc

Khai quốc công thần, tận trung báo quốc, nhưng Nguyễn Trãi đã bị triều đình Hậu Lê bạc đãi ra sao?

Lắp trạm phát sóng di động tại bản mới của Làng Nủ

FBI tố hacker Iran tìm cách can thiệp bầu cử Mỹ, gửi thông tin tranh cử ông Trump cho Biden

Trải nghiệm Huawei MatePad SE 11: máy tính bảng hợp với gia đình, giá chỉ hơn 5 triệu đồng có màn hình lớn 11 inch, vỏ kim loại nguyên khối

Cách tắt online Liên Quân và ẩn thông tin lịch sử đấu cho "người hướng nội"

Đánh giá nổi bật