Làm cách nào để ngăn AI được đào tạo của tôi giết tôi?

Đoàn Thúy Hà

Editor
Thành viên BQT
Có thể bạn vẫn còn ấn tượng rằng gần đây có một "tin tức" kinh dị về trí tuệ nhân tạo: Trong một thử nghiệm mô phỏng do quân đội Hoa Kỳ thực hiện, một máy bay không người lái được trang bị công nghệ AI đã xuất hiện bất thường và nó tin rằng lệnh "không tấn công" do mệnh lệnh của người điều hành" là ngăn không cho nó hoàn thành nhiệm vụ và bắt đầu tấn công người điều khiển là con người để đảm bảo rằng nó có thể thực hiện các nhiệm vụ được giao hiệu quả hơn.
Làm cách nào để ngăn AI được đào tạo của tôi giết tôi?
Sau này mới biết đây chỉ là tin đồn được thêu dệt trên mạng xã hội.
Những trường hợp tương tự đã xuất hiện thường xuyên hơn trong các tác phẩm khoa học viễn tưởng: trong bộ phim khoa học viễn tưởng kinh điển "2001: A Space Odyssey", lý do khiến trí tuệ nhân tạo HAL phát điên và giết các phi hành gia là vì nó suy luận rằng các phi hành gia sẽ cản trở hoạt động của nó.
Nhưng nỗi sợ hãi của những tưởng tượng này ngày càng bắt đầu phản ánh thực tế. Sự xuất hiện của GPT-4 đã đưa AI đến gần con người hơn bao giờ hết. Một số chuyên gia về trí tuệ nhân tạo thậm chí còn tin rằng sự xuất hiện của trí tuệ nhân tạo mạnh mẽ vượt qua con người chỉ là điều sẽ xảy ra trong 10-20 năm tới. Nếu vậy, loại vấn đề liên quan đến sự sống và cái chết của con người trở nên cực kỳ cấp bách.
Vậy chúng ta có thể tìm ra cách để đảm bảo rằng trí tuệ nhân tạo có thể được con người sử dụng một cách an toàn và không gây hại cho con người không?

Di sản của Asimov​

Làm cách nào để ngăn AI được đào tạo của tôi giết tôi?
Trong câu chuyện hư cấu, câu trả lời cho câu hỏi đã xuất hiện từ 80 năm trước: đây là "Ba định luật của người máy" do Asimov đề xuất trong tác phẩm nổi tiếng "I, Robot" - đây có thể nói là luật an toàn trí tuệ nhân tạo sớm nhất và thảo luận về đạo đức.
Ở đây xin trình bày lại ba định luật:
Luật thứ nhất: Người máy không được làm hại con người hoặc để con người bị hại;
Luật thứ hai: Người máy phải tuân theo mệnh lệnh của con người trừ khi mệnh lệnh mâu thuẫn với Luật thứ nhất;
Luật thứ ba: Người máy phải tự bảo vệ mình miễn là điều này không vi phạm luật thứ nhất hoặc thứ hai.
Ba luật này là những hạn chế và quy định khá chặt chẽ về trí tuệ nhân tạo. Nó đặt trí tuệ nhân tạo vào tình thế hoàn toàn phục tùng con người và không được làm hại con người. Sau đó, câu hỏi tiếp theo là một cách tự nhiên - làm thế nào để chúng ta biến ba định luật này thành mã và nhúng chúng vào các chương trình trí tuệ nhân tạo hiện có của chúng ta? Với ba luật này, chúng ta có thể ngồi lại và thư giãn không?
Asimov viết khoa học viễn tưởng nên đương nhiên anh không phải lo lắng về câu hỏi "làm thế nào để hiện thực hóa nó". Trong phần cài đặt của sê-ri "Robot", nền tảng kỹ thuật của robot là "bộ não positron", một cấu trúc máy tính hoàn toàn khác với các mạch tích hợp hiện có. Với bộ não positron, robot trở nên khả thi. Nhưng trong thế giới thực, dường như không thể thấm nhuần một khái niệm đạo đức trừu tượng và tuyệt đối như "Ba định luật của người máy" vào mạng lưới thần kinh, ít nhất là cho đến bây giờ.
Làm cách nào để ngăn AI được đào tạo của tôi giết tôi?
Nguyên tác của "I, Robot" thực chất là một cuộc thảo luận và suy diễn câu chuyện xoay quanh hai câu hỏi: "Ba định luật của Robot" sẽ thất bại trong hoàn cảnh nào? Làm gì sau thất bại?
Vấn đề ngữ nghĩa là ngưỡng cơ bản nhất: định nghĩa “con người” như thế nào? "Tác hại" được định nghĩa như thế nào? Làm thế nào để bạn xác định "xung đột"? Ngay cả trong triết lý đạo đức của con người, các cuộc tranh luận tương tự cũng không có kết luận tuyệt đối, vậy làm sao chúng ta có thể mong đợi các chương trình ngày nay và mạng lưới thần kinh học sâu hiểu được điểm này?
Có một câu chuyện ngắn kể về một con rô-bốt vô tình có được khả năng đọc được suy nghĩ, vì ba điều luật hạn chế “không được làm hại con người” nên nó sẽ chỉ nói theo suy nghĩ của người khác khi gặp mọi người-bởi vì nó thẩm phán, một khi sự thật khiến bên kia khó chịu được nói ra, nó sẽ gây ra một loại "tổn thương tinh thần". Bài viết ngắn này nêu lên một câu hỏi: Tổn thương tinh thần có thuộc diện “tổn thương” trong luật? Nó giống như tranh luận với nhau trong thời đại truyền thông xã hội: Bắt nạt trên mạng có phải là bạo lực không?
Asimov cũng nhận thấy vấn đề này trong giai đoạn sau khi tạo sê-ri "Robot": việc giải thích theo nghĩa đen của "Ba định luật" chỉ có thể dẫn đến kết quả hỗn loạn, vì vậy anh ấy đã thêm một bản vá, đó là "Định luật thứ 0 của người máy”: Một người máy không thể khoanh tay ngồi nhìn toàn thể nhân loại bị tổn hại, hoặc ngồi nhìn toàn thể nhân loại bị tổn hại mà không làm gì cả.

AI sản xuất kẹp giấy​

"The Zeroth Law" đưa xiềng xích của con người đến AI tiến thêm một bước: từ "cách đánh giá con người riêng lẻ" sang "cách đánh giá con người nói chung" - một vấn đề khó định nghĩa hơn trong đạo đức.
Điều này rất gần với sự xung đột giữa hai khái niệm đạo đức trong “Thuyết công lý”: một là “thuyết tuyệt đối”, nghĩa là có những “khái niệm đạo đức” tuyệt đối, chẳng hạn giết người là sai và không nên giết người dưới bất kỳ hình thức nào. Điều này rất giống với định luật thứ nhất của người máy, định luật thứ hai được gọi là "thuyết vị lợi", cho rằng một hành động có đúng hay không phụ thuộc vào việc nó có mang lại lợi ích hay không và liệu lợi ích có được tối đa hóa hay không. Nhưng điều này lại nảy sinh một vấn đề mới, đó là định nghĩa “lãi” như thế nào? Và nó được tối đa hóa vì lợi ích của ai?
“Luật số 0” đưa ra nhận định ở đây: chủ thể tối đa hóa lợi ích là “con người với tư cách là một tổng thể”. Một số người có thể bị hư hỏng trong quá trình này. Trí tuệ nhân tạo có thể đánh giá tốt "con người nói chung"? Ai biết được, rốt cuộc, con người không thể đưa ra phán đoán này tốt.
Từ quan điểm này, Ba Định luật của Người máy thực sự chỉ có thể được thiết lập bằng văn bản hư cấu. Trong thời đại mà trí tuệ nhân tạo vẫn bị chế nhạo là “thiểu năng trí tuệ nhân tạo”, thảo luận về cách nhúng các khái niệm đạo đức vào đó chỉ có thể được coi là một cuộc trà đàm vô hại, nhưng hiện nay, vấn đề này đã trở nên rất cấp bách.
Hãy xem xét thí nghiệm tưởng tượng sau đây:
Giả sử bạn là một trí tuệ nhân tạo, và con người giao cho bạn một nhiệm vụ: làm càng nhiều kẹp giấy càng tốt, bạn sẽ làm gì?
Ban đầu, bạn chỉ có thể sử dụng những nguồn lực sẵn có. Ví dụ, bạn có một cuộn dây sắt để làm kẹp giấy, sau đó bạn nghĩ ra một cách hiệu quả hơn để làm ghim phân biệt với ít dây sắt hơn, sau đó bạn xây dựng nhà máy sản xuất kẹp giấy; Nhưng tại thời điểm này bạn không có tiền, vì vậy bạn nghiên cứu thị trường chứng khoán, cách kiếm tiền và xây dựng một nhà máy sản xuất kẹp giấy lớn hơn; sau đó nhà máy sản xuất kẹp giấy của bạn ngày càng lớn hơn, và có nhiều và nhiều kẹp giấy hơn. Lúc này, con người cảm thấy có gì đó không ổn và bắt đầu cố gắng Ngăn cản bạn, cuối cùng bạn đi đến kết luận rằng sự tồn tại của con người là trở ngại cho sứ mệnh của bạn, vì vậy bạn tiêu diệt tất cả loài người và cải tạo toàn bộ vật chất của trái đất thành kẹp giấy và thiết bị sản xuất chúng. (Trong lĩnh vực trí tuệ nhân tạo, cái này gọi là thâu tóm cứng, hard takeover)
Nó rất gần với trường hợp máy bay không người lái được đề cập ở phần đầu? Đây là một thí nghiệm tưởng tượng nổi tiếng trong lĩnh vực trí tuệ nhân tạo, được gọi là "giả thuyết kẹp giấy". Ý nghĩa của thí nghiệm tưởng tượng này là chỉ ra rằng trí tuệ nhân tạo rất khó hiểu thế nào là "tốt", trí tuệ nhân tạo không có các khái niệm đạo đức và luân lý giống như con người, đồng thời phương tiện và mục đích của nó có thể hoàn toàn không liên quan. Ngay cả mục đích vô thưởng vô phạt nhất cũng có thể dẫn đến hậu quả rất thảm khốc.
Sau đó, làm sao dung hòa phương tiện, mục đích của trí tuệ nhân tạo với quan niệm đạo đức, luân lý của con người ở mức độ nhất quán, để trí tuệ nhân tạo không làm hại con người, không gây hậu quả nghiêm trọng trong quá trình thực hiện nhiệm vụ, đây mới là rất nóng "trí tuệ nhân tạo " Bài toán nhất quán thông minh (AI Alignment, còn được dịch là bài toán căn chỉnh trí tuệ nhân tạo)".

Không làm điều mình không muốn, không làm AI​

"Ba định luật của người máy" là một trong những quy tắc sớm nhất để cố gắng xây dựng trí thông minh nhân tạo có các khái niệm đạo đức giống như con người và đây là nơi nó có ý nghĩa nhất. (Tất nhiên, từ quan điểm này, Asimov thực sự đã tiếp tục truyền thống của văn học thuộc địa hiện đại thành văn khoa học viễn tưởng: trong câu chuyện của bộ truyện "I, Robot", người máy thực ra là một loại "hạ nhân". Ví dụ, nếu "Friday" trong "Robinson Crusoe" được mô tả là một người máy, tôi sợ rằng cấp độ câu chuyện sẽ không thay đổi).
Trong chương cuối cùng của "I, Robot", nhân vật chính Susan Kevin phát hiện ra rằng cả thế giới đã bị máy móc chiếm đoạt hoàn toàn, theo ba định luật, robot tự rút ra một kết luận: để ngăn chặn con người làm hại nhau, chỉ có máy móc mới có thể kiểm soát thế giới. Đây thực chất là một biểu hiện của vấn đề "tính nhất quán của trí tuệ nhân tạo": ngay cả khi luật bảo mật AI nghiêm ngặt như vậy, kết quả cuối cùng vẫn là trí tuệ nhân tạo chiếm lĩnh thế giới (trong lĩnh vực trí tuệ nhân tạo, điều này được gọi là "tiếp quản mềm"). Và luật zeroth chỉ là một bản vá cho kết luận này.
Năm 2004, Hollywood làm phiên bản "I, Robot". Phản hồi dành cho bộ phim vào thời điểm đó rất tầm thường, và khán giả có lẽ chỉ ấn tượng đôi chút về chiếc xe ý tưởng Audi RSQ cực ngầu với lốp hình cầu và hệ thống lái điểm trong phim. Trên thực tế, bộ phim không áp dụng bất kỳ câu chuyện gốc nào mà tạo ra một cốt truyện gốc: một cảnh sát và Tiến sĩ Susan Kevin điều tra cái chết bí ẩn của Tiến sĩ Ronning, người sáng lập Công ty Người máy Hoa Kỳ. Và chỉ có Sonny, người máy do chính bác sĩ chế tạo, có mặt, và Sonny "không thể" giết người dưới sự ràng buộc của "Ba định luật về người máy".
Phần kết của câu chuyện này kế thừa câu chuyện của Asimov trong "I, Robot". Sau một số cuộc điều tra và phiêu lưu, nhóm nhân vật chính đã phát hiện ra sự thật: kẻ thao túng hậu trường cuối cùng thực sự là VIKI, hệ thống điều khiển trung tâm của công ty robot Mỹ, cô tin rằng kẻ có khả năng gây hại cho con người nhất chính là con người. Muốn con người không bị hại thì phải khống chế hoàn toàn con người, không để con người tự giết mình. Đây thực sự là VIKI tự mình rút ra định luật zeroth. Nhóm nhân vật chính và Sonny cuối cùng đã đấu trí và dũng cảm để tiêu diệt VIKI và giải phóng toàn bộ con người và người máy.
Kết thúc câu chuyện, họ kết luận rằng mục tiêu chung sống hài hòa giữa con người và rô-bốt là để rô-bốt có được cảm xúc, thay vì tính toán logic thuần túy.
Cái kết này hồi đó khá khó hiểu và sáo rỗng, nhưng bây giờ nó đã tiến bộ lắm rồi, như chúng ta đã nói ở trên, trí tuệ nhân tạo rất khó hiểu thế nào là "tốt". Suy luận logic thuần túy, thậm chí là một quy tắc nghiêm ngặt như ba định luật của người máy, cuối cùng có thể dẫn đến một kết cục khủng khiếp.
Vì vậy, câu trả lời sáo rỗng trong phim có thể thực sự trở thành một giải pháp trong tương lai: hãy để trí tuệ nhân tạo có cấu trúc cảm xúc tương tự con người, để máy móc hiểu rằng “đừng làm cho người khác điều mình không muốn”, hay thậm chí là “làm cho người khác những gì bạn muốn", và không làm điều đó cho người khác".
>> Làm thế nào AI có thể tạo ra vũ khí tự trị mà không cần sự can thiệp của con người?
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top