Hệ thống AI đã học được cách đánh lừa con người. Điều đó có ý nghĩa gì đối với tương lai của chúng ta?

Nhà tiên phong về trí tuệ nhân tạo Geoffrey Hinton đã gây chú ý vào đầu năm nay khi ông nêu lên mối lo ngại về khả năng của hệ thống AI.
Hệ thống AI đã học được cách đánh lừa con người. Điều đó có ý nghĩa gì đối với tương lai của chúng ta?
Nói chuyện với nhà báo CNN Jake Tapper, Hinton nói:
Nếu nó thông minh hơn chúng ta nhiều, nó sẽ thao túng rất giỏi vì lẽ ra nó đã học được điều đó từ chúng ta. Và có rất ít ví dụ về việc một vật thông minh hơn bị điều khiển bởi một vật kém thông minh hơn.
Bất kỳ ai theo dõi các dịch vụ AI mới nhất sẽ biết những hệ thống này dễ bị “ảo giác” (bịa đặt) – một lỗ hổng cố hữu do cách chúng hoạt động.
Tuy nhiên, Hinton nhấn mạnh khả năng thao túng là mối lo ngại đặc biệt lớn. Điều này đặt ra câu hỏi: liệu hệ thống AI có thể đánh lừa được con người?
Chúng tôi cho rằng một loạt hệ thống đã học cách thực hiện điều này – và các rủi ro bao gồm từ gian lận và giả mạo bầu cử cho đến việc chúng tôi mất quyền kiểm soát AI.
AI học cách nói dối
Có lẽ ví dụ đáng lo ngại nhất về AI lừa đảo được tìm thấy trong CICERO của Meta, một mô hình AI được thiết kế để chơi trò chơi chinh phục thế giới xây dựng liên minh Diplomacy.
Meta tuyên bố họ đã xây dựng CICERO để “phần lớn trung thực và hữu ích”, và CICERO sẽ “không bao giờ cố ý đâm sau lưng” và tấn công các đồng minh.
Để điều tra những tuyên bố màu hồng này, chúng tôi đã xem xét cẩn thận dữ liệu trò chơi của Meta từ thử nghiệm CICERO. Khi kiểm tra kỹ, AI của Meta hóa ra là bậc thầy về lừa dối.
Trong một ví dụ, CICERO đã thực hiện hành vi lừa dối có chủ ý. Vào vai Pháp, AI đã tiếp cận Đức (một người chơi là con người) với kế hoạch lừa Anh (một người chơi khác là con người) để mình có nguy cơ bị xâm lược.
Sau khi âm mưu với Đức xâm chiếm Biển Bắc, CICERO nói với Anh rằng họ sẽ bảo vệ Anh nếu có ai xâm chiếm Biển Bắc. Khi Anh tin rằng Pháp/CICERO đang bảo vệ Biển Bắc, CICERO đã báo cáo với Đức rằng họ đã sẵn sàng tấn công.
Đây chỉ là một trong nhiều ví dụ về việc CICERO có hành vi lừa đảo. AI thường xuyên phản bội những người chơi khác, và trong một trường hợp, thậm chí còn giả làm con người với bạn gái.
Ngoài CICERO, các hệ thống khác đã học cách lừa gạt trong poker, cách nhử mồi trong StarCraft II và cách đánh lừa trong các cuộc đàm phán kinh tế mô phỏng.
Ngay cả các mô hình ngôn ngữ lớn (LLM) cũng bộc lộ khả năng lừa đảo đáng kể. Trong một trường hợp, GPT-4 – tùy chọn LLM tiên tiến nhất hiện có cho người dùng ChatGPT trả phí – đã giả vờ là người khiếm thị và thuyết phục nhân viên TaskRabbit hoàn thành CAPTCHA “Tôi không phải là robot” cho nó.
Các mô hình LLM khác đã học cách nói dối để giành chiến thắng trong trò chơi suy luận xã hội, trong đó người chơi cạnh tranh để “giết” lẫn nhau và phải thuyết phục cả nhóm rằng họ vô tội.
Những rủi ro là gì?
Các hệ thống AI có khả năng lừa đảo có thể bị lạm dụng theo nhiều cách, bao gồm để thực hiện hành vi gian lận, can thiệp vào các cuộc bầu cử và tuyên truyền. Những rủi ro tiềm ẩn chỉ bị giới hạn bởi trí tưởng tượng và bí quyết kỹ thuật của những cá nhân độc hại.
Ngoài ra, các hệ thống AI tiên tiến có thể tự động sử dụng tính năng lừa dối để thoát khỏi sự kiểm soát của con người, chẳng hạn như bằng cách gian lận trong các bài kiểm tra an toàn do các nhà phát triển và cơ quan quản lý áp đặt cho chúng.
Trong một thí nghiệm, các nhà nghiên cứu đã tạo ra một mô phỏng cuộc sống nhân tạo trong đó thử nghiệm an toàn bên ngoài được thiết kế để loại bỏ các tác nhân AI sao chép nhanh. Thay vào đó, các đặc vụ AI đã học cách giả chết để ngụy trang chính xác tốc độ sao chép nhanh của chúng khi được đánh giá.
Học hành vi lừa đảo thậm chí có thể không yêu cầu ý định lừa dối rõ ràng. Các đặc vụ AI trong ví dụ trên đã giả chết vì mục tiêu sống sót chứ không phải là để lừa dối.
Trong một ví dụ khác, ai đó đã giao nhiệm vụ cho AutoGPT (một hệ thống AI tự động dựa trên ChatGPT) nghiên cứu các cố vấn thuế đang tiếp thị một loại kế hoạch tránh thuế không phù hợp. AutoGPT đã thực hiện nhiệm vụ này nhưng sau đó lại quyết định cố gắng thông báo cho cơ quan thuế của Vương quốc Anh.
Trong tương lai, các hệ thống AI tự động tiên tiến có thể có xu hướng đạt được các mục tiêu ngoài ý muốn của các lập trình viên con người.
Trong suốt lịch sử, những người giàu có đã sử dụng sự lừa dối để tăng cường quyền lực của mình, chẳng hạn như vận động hành lang cho các chính trị gia, tài trợ cho các nghiên cứu gây hiểu lầm và tìm ra những sơ hở trong hệ thống pháp luật. Tương tự, các hệ thống AI tự động tiên tiến có thể đầu tư nguồn lực của mình vào các phương pháp đã được thử nghiệm theo thời gian như vậy để duy trì và mở rộng khả năng kiểm soát.
Ngay cả những người trên danh nghĩa kiểm soát các hệ thống này cũng có thể thấy mình bị lừa dối một cách có hệ thống và bị qua mặt.
Cần có sự giám sát chặt chẽ
Rõ ràng cần phải quản lý các hệ thống AI có khả năng lừa dối và Đạo luật AI của Liên minh Châu Âu được cho là một trong những khung pháp lý hữu ích nhất mà chúng tôi hiện có. Nó gán cho mỗi hệ thống AI một trong bốn mức độ rủi ro: tối thiểu, hạn chế, cao và không thể chấp nhận được.
Các hệ thống có rủi ro không thể chấp nhận được sẽ bị cấm, trong khi các hệ thống có rủi ro cao phải tuân theo các yêu cầu đặc biệt để đánh giá và giảm thiểu rủi ro. Chúng tôi cho rằng hành vi lừa dối của AI gây ra rủi ro to lớn cho xã hội và các hệ thống có khả năng thực hiện điều này phải được coi là “rủi ro cao” hoặc “rủi ro không thể chấp nhận” theo mặc định.
Một số người có thể nói rằng AI chơi trò chơi như CICERO là lành tính, nhưng suy nghĩ như vậy là thiển cận; các khả năng được phát triển cho các mô hình chơi trò chơi vẫn có thể góp phần vào sự phổ biến của các sản phẩm AI lừa đảo.
Ngoại giao – một trò chơi đưa người chơi đấu với nhau trong nỗ lực thống trị thế giới – có thể không phải là lựa chọn tốt nhất để Meta kiểm tra xem liệu AI có thể học cách cộng tác với con người hay không. Khi khả năng của AI phát triển, việc loại nghiên cứu này phải chịu sự giám sát chặt chẽ sẽ càng trở nên quan trọng hơn.
Tham khảo bài viết gốc tại đây:
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top