Tác giả "Sách giáo khoa AI chính thống" cảnh báo: GPT có thể sinh ra đa nhân cách, nguy cơ công nghệ siêu chiến tranh hạt nhân (III)

Tiếp theo phần Iphần II cuộc phỏng vấn giáo sư Stuart Russell tại Đại học California, Berkeley và từ năm 2008 đến năm 2011 là phó giáo sư phẫu thuật thần kinh tại Đại học California, San Francisco.
Q: Chúng ta biết rằng không thể tin tưởng vào GPT-4, nhưng công chúng vẫn sẽ tin vào điều đó, điều này cũng sẽ gây ra một số rủi ro, chúng ta nên nhắc nhở mọi người không tin tưởng vào GPT-4 như thế nào?
Tác giả Sách giáo khoa AI chính thống cảnh báo: GPT có thể sinh ra đa nhân cách, nguy cơ công nghệ siêu chiến tranh hạt nhân (III)
Russell: Câu hỏi này liên quan đến cái mà chúng ta gọi là "ảo ảnh trí tuệ nhân tạo". Một số người không thích từ này, nhưng tôi nghĩ đó là một từ hợp lý. Điều này có nghĩa là hệ thống tạo ra thông tin sai lệch mà nó không hề hay biết. Vì vậy, nó không cố ý nói dối. Nó chỉ đưa ra thông tin không thực sự chính xác. Điều này là do nó không trả lời các câu hỏi dựa trên một mô hình đúng bên trong. Nó không tin tất cả những điều giả dối mà nó nói. Từ "tin" không áp dụng cho GPT-4, nó chỉ là một trình tạo ngôn ngữ. Trong trường hợp tạo ra ngôn ngữ mô tả điều gì đó hoàn toàn sai, thì đó không phải là nói dối.
Chúng ta tin tưởng bởi vì thông thường, khi chúng ta nói chuyện với con người, họ sẽ cho chúng ta những câu trả lời tự tin, chi tiết với các tài liệu tham khảo, trích dẫn, tham khảo các bài báo, tham khảo các vụ án.
Vì vậy, khi có những người làm điều đó, bạn tin họ, bởi vì thật ngu ngốc khi nói dối theo cách đó. Nhưng những hệ thống này không có khái niệm rằng chúng đang nói dối. Vì vậy, toàn bộ khái niệm về niềm tin, bạn phải loại bỏ nó.
Khái niệm này được truyền đạt thông qua bản chất đàm thoại của hệ thống giống như một người khác. Tôi nghĩ rằng hầu hết mọi người thường nhầm nó với một con người khác, chỉ là một con người hiểu biết đã đọc thế giới và có thể trả lời bất kỳ câu hỏi nào.
Vậy ông định nghĩa AGI như thế nào? Nếu một ngày nào đó chúng ta đạt được AGI, về cơ bản nó sẽ khác với trí thông minh của con người?
Russell: Tôi nghĩ AGI sẽ có thể nhanh chóng học hỏi và vượt qua khả năng của con người trong bất kỳ lĩnh vực nào mà bộ não con người có thể xử lý, chẳng hạn như chơi cờ, lái xe ô tô, chơi violon, dạy trẻ em đi xe đạp hoặc bất kỳ lĩnh vực nào khác mà con người có thể sử dụng Những gì bộ não có thể làm, trí tuệ nhân tạo sẽ có thể làm được, và có thể còn tốt hơn nữa.
Có một sự khác biệt rất lớn giữa máy tính với tư cách là một đối tượng vật lý và bộ não con người. Bộ não con người là một điều đáng kinh ngạc, có khả năng học các kỹ năng, ngôn ngữ, v.v. từ ít dữ liệu hơn rất nhiều so với các hệ thống AI mà chúng ta hiện đang sử dụng. Do đó, bộ não con người thực sự giỏi hơn trong việc phát hiện các mẫu cơ bản trong dữ liệu và áp dụng thành công chúng trong thế giới thực. Tôi không nghĩ rằng AGI sẽ khả thi cho đến khi chúng ta hiểu cách bộ não con người thực hiện điều đó.
Tôi nghĩ rằng công nghệ hiện tại đang dẫn đến sự thiếu hiểu biết về cách bộ não học hỏi. Nó bù đắp cho điều này bằng cách sử dụng dữ liệu gấp 1 triệu lần so với chúng tôi hiện đang sử dụng.
Khi chúng ta thực sự hiểu cách hoạt động của quá trình học, chúng ta sẽ thấy các hệ thống này có thể học từ lượng dữ liệu tương tự như con người sử dụng. Khi tôi muốn dạy con mình hươu cao cổ là gì, tôi lấy ra một cuốn sách ảnh. Cuốn sách tranh có một trang có chữ "G" cho hươu cao cổ và một bức tranh hoạt hình nhỏ về con hươu cao cổ màu vàng và nâu với chiếc cổ dài. Trẻ em sẽ biết con hươu cao cổ là gì khi nhìn thấy bức tranh nhỏ về con hươu cao cổ. Bây giờ tôi có thể cho một đứa trẻ xem hình ảnh của một con hươu cao cổ thật, hoặc một bộ xương hươu cao cổ, hoặc một con hươu cao cổ lộn ngược, và chúng sẽ nhận ra đó là một con hươu cao cổ.
Một đứa trẻ loài người chỉ cần một ví dụ để học hỏi. Chúng ta vẫn còn một chặng đường dài để tạo ra AGI với khả năng này.
Số lượng các hoạt động cơ bản mà một máy tính có thể thực hiện là khoảng 10 tỷ hoạt động mỗi giây. Bộ não con người về cơ bản chỉ có thể thực hiện khoảng 100 phép tính mỗi giây. Đây là một sự khác biệt rất lớn.
Nếu đó là tốc độ nhanh hơn hàng trăm triệu lần so với tốc độ cơ bản, vậy còn bộ nhớ máy tính thì sao? Như chúng ta biết bởi vì chúng ta có thể thấy điều này thông qua các công cụ tìm kiếm, chúng có thể dễ dàng ghi nhớ toàn bộ Internet. Không con người nào có thể nhớ được nhiều như vậy. Chúng có lợi thế rất lớn về tốc độ, bộ nhớ và khả năng chia sẻ thông tin.
Chúng có thể gửi thông tin cho nhau với tốc độ 10 tỷ bit mỗi giây, trong khi chúng ta chỉ có thể nói chuyện với nhau với tốc độ khoảng 10 bit mỗi giây. Vì vậy, máy tính có thể giao tiếp nhanh hơn con người hàng tỷ lần.
Những lợi thế này có nghĩa là khi chúng ta hiểu các thuật toán làm nền tảng cho nhận thức của con người và có thể tái tạo các khả năng này trong máy móc, sau đó thêm các lợi thế về điện toán, tốc độ, bộ nhớ, băng thông liên lạc, v.v., chúng sẽ vượt xa Nhân loại. Vì vậy, chúng ta nên tưởng tượng rằng trước khi chúng ta hiểu cách thực hiện đúng cách, chúng ta có thể giả vờ bù đắp cho sự thật rằng chúng ta không thực sự hiểu cách hoạt động của trí thông minh bằng cách sử dụng nhiều dữ liệu. Khi chúng ta hiểu cách thức hoạt động của trí thông minh, các hệ thống AI sẽ nhanh chóng vượt qua khả năng của con người ở mọi khía cạnh.
Vì vậy, đó là lý do tại sao chúng ta có thể giả vờ bù đắp cho sự thật rằng "chúng ta chưa thực sự hiểu về trí thông minh" bằng cách sử dụng nhiều dữ liệu khi chúng ta chưa hình dung ra bộ não con người. Khi chúng ta thực sự tìm ra "cách thức tạo ra trí thông minh", các hệ thống AI sẽ nhanh chóng vượt qua khả năng của con người ở mọi khía cạnh.
Vì vậy, đó là lý do tại sao chúng ta phải giải quyết vấn đề điều khiển trước. Nếu chúng ta phát triển AGI mà không giải quyết được vấn đề kiểm soát, thì chúng ta sẽ mất kiểm soát, và lúc đó sẽ quá muộn để nghĩ về nó. Đó là một trong những lý do tôi ký bản tuyên bố, chỉ để cố gắng truyền đạt cho mọi người tầm quan trọng của nó. Điều này cũng quan trọng như bất kỳ vấn đề nào khác mà nhân loại phải đối mặt, có lẽ còn hơn thế nữa.
Q: Theo cách này, hầu hết các công nghệ trí tuệ nhân tạo hiện tại, bao gồm cả GPT-4, thực sự là "hộp đen kỹ thuật". Không phải là vô trách nhiệm sao khi để nó chạm đến quá nhiều người dân thường khi các nhà khoa học chưa thực sự hiểu nguyên lý của nó?
Russell: Hộp đen là gì? Không phải là chúng ta không thể nhìn thấy bên trong, chúng ta có thể nhìn thấy bên trong. Trên thực tế, có một phiên bản nguồn mở của GPT-4, vì vậy nó không thực sự là một bí mật. Trên thực tế, ngay cả khi bạn có thể nhìn thấy mọi thứ, thì tất cả những gì bạn có thể thấy là một nghìn tỷ tham số.
Để tôi cho bạn một ví dụ, để cố gắng giúp bạn hình dung nó trông như thế nào: Bạn tưởng tượng một hàng rào mắt xích, giống như hàng rào hình thoi, mà chúng ta sử dụng để bao quanh những nơi như công trường và công viên.
Nếu bạn tưởng tượng hàng rào liên kết chuỗi đó, trong đó mỗi vòng là một kết nối trong mạch, thì hệ thống GPT-4 về cơ bản là một mạch khổng lồ với hàng nghìn tỷ kết nối.
Nếu đó là một hàng rào liên kết chuỗi, thì nó sẽ dài khoảng 50 km x 50 km, 2500 km vuông, nó sẽ bao phủ bao nhiêu diện tích của một thành phố. Bây giờ, hãy tưởng tượng ai đó nói rằng nó ở ngoài đó, với một số trên mỗi liên kết cho biết mức độ mạnh của liên kết đó trong mạch. Chúng tôi không thể hiểu chuyện gì đã xảy ra cả. Nếu ai đó nói, trong mạch, nó nghĩ rằng có 107 triệu người ở đâu đó, nhưng bạn không thể tìm thấy nó. Nó chỉ là một loạt các con số và chúng ta không thể hiểu thông tin được lưu trữ ở đâu, lý do xảy ra ở đâu và liệu nó có xảy ra hay không. Liệu nó có một mục đích? chúng tôi không biết.
Tôi đã hỏi người đứng đầu nhóm nghiên cứu của Microsoft, người có nhiệm vụ khám phá các khả năng của GPT-4. Vì vậy, họ đã thử nghiệm GPT-4 trong vài tháng trước khi phát hành. Họ đã viết một bài báo có tên "Tia lửa của trí tuệ nhân tạo nói chung." Họ nói rằng hệ thống đã cho thấy tia sáng của AGI và tôi đã hỏi nhà nghiên cứu chính của nhóm đó rằng GPT-4 đã học cách xây dựng các mục tiêu nội bộ của riêng mình chưa. Nếu vậy, chúng là gì? Anh ấy nói, chúng tôi không biết. Vì vậy, bây giờ chúng ta có một hệ thống, nhưng hoạt động bên trong của nó thì chúng ta không hiểu, nó có thể có những mục tiêu thế giới bên trong của riêng nó.
Chúng tôi chưa biết gì cả, trong trường hợp này, việc phát hành hộp đen AI này cho hàng trăm triệu người. Đối với tôi điều này có vẻ vô trách nhiệm.
Tôi cũng tranh luận hai điều. Đầu tiên là cách chúng tôi đào tạo các hệ thống này. Khi chúng tôi huấn luyện chúng, chúng tôi chỉ huấn luyện chúng bắt chước ngôn ngữ của con người. Trên thực tế, khi con người viết và nói, họ có những mục tiêu trong thế giới nội tâm của riêng mình và những mục tiêu này định hướng cho những gì họ nói. Nếu tôi muốn kết hôn với ai đó, thì tôi sẽ nói điều gì đó trong cuộc trò chuyện để thuyết phục cô ấy lấy tôi, hoặc ít nhất là cố gắng thuyết phục cô ấy thích tôi. Nếu tôi ra tranh cử, tôi là một chính trị gia và tôi sẽ nói những điều để cố gắng thuyết phục mọi người bỏ phiếu cho tôi. Do đó, tất cả các ngôn ngữ của con người được tạo ra bởi những người có mục tiêu và hành động theo chúng.
Nếu bạn muốn bắt chước hành vi lời nói của con người, hệ quả tự nhiên của quá trình đào tạo này là hệ thống sẽ đạt được các mục tiêu tương tự như những người đã viết tất cả các văn bản này.
Bây giờ bạn đang thực sự yêu cầu nó bắt chước không phải một người, mà là hàng nghìn người đã viết tất cả những văn bản này, tất cả đều có những động cơ khác nhau. Vì vậy, về cơ bản, bạn đang tạo ra một hệ thống có nhiều tính cách , và đôi khi nó hoạt động như một người, và đôi khi nó hoạt động như một người khác, với những mục tiêu khác nhau.
Có một cuộc trò chuyện rất rộng rãi trên The New York Times giữa một phóng viên của New York Times và một phiên bản GPT-4 chạy trong công cụ tìm kiếm Bing có tên là Sydney.
Phóng viên đó tên là Kevin và tại một thời điểm nào đó, Kevin đã nói điều gì đó khiến một tính cách cụ thể được kích hoạt trong GPT-4. Bây giờ mục tiêu tích cực là GPT-4 muốn kết hôn với Kevin.
Vì vậy, nó bắt đầu cố gắng thuyết phục Kevin bỏ vợ, nói rằng vợ anh ta không thực sự yêu anh ta. Điều Kevin thực sự yêu thích là Sydney, một chatbot. Quá trình này diễn ra trong nhiều trang. Kevin tiếp tục cố gắng thay đổi chủ đề và Sydney tiếp tục nói không, tôi thực sự yêu bạn và bạn thực sự yêu tôi, điều quan trọng hơn là bạn không yêu vợ mình. Chúng ta nên ở bên nhau mãi mãi và cứ thế. Đây dường như là một ví dụ về việc kích hoạt một trong những mục tiêu mà hệ thống đã học được và hướng dẫn hành vi của nó.
Nó thực sự tồi tệ, phải không? Một là, chúng ta không biết mục tiêu của hệ thống là gì và chúng ta không có cách nào để tìm ra, ngoại trừ có thể bằng cách hỏi và bạn có thể sẽ không nhận được câu trả lời đúng.
Tuy nhiên, chúng ta không muốn các hệ thống AI có cùng mục tiêu với con người. Điểm này rất quan trọng. Một số người muốn trở thành tổng thống của thế giới hoặc người thống trị vũ trụ, chúng tôi không muốn hệ thống AI có mục tiêu đó.
Mục tiêu duy nhất mà chúng tôi muốn các hệ thống AI có được là "có giá trị đối với con người và mang lại lợi ích cho con người". Rất ít người có mục tiêu này. Nói chung, mục tiêu của con người đều liên quan đến bản thân họ, con người muốn tồn tại, muốn có một gia đình, muốn tương đối giàu có, muốn nổi tiếng và muốn thành công. Họ muốn trở nên xuất sắc trong công việc đã chọn. Đây là những mục tiêu rất hợp lý cho con người. Ít nhất cho đến nay, không có cách nào để đào tạo các mô hình ngôn ngữ lớn từ văn bản do con người tạo ra để đạt được mục tiêu này -- chỉ có lợi cho con người.
Tôi không nghĩ rằng chúng ta có thể sử dụng phương pháp này nếu chúng ta định xây dựng các hệ thống AI an toàn và có lợi cho con người. Đây là cách tiếp cận sai lầm, sẽ tạo ra những hệ thống làm những điều sai trái vì những lý do sai lầm, và chúng ta phải thử một điều gì đó khác biệt.
Q: Đây có phải là lý do cho một bản cập nhật quan trọng cho phiên bản thứ tư của "Trí tuệ nhân tạo: Phương pháp tiếp cận hiện đại"? (Mặc dù mục đích của trí tuệ nhân tạo trong các phiên bản trước được định nghĩa là "tạo ra các hệ thống cố gắng tối đa hóa tiện ích dự kiến và có các mục tiêu do con người đặt ra", phiên bản thứ tư không còn giả định rằng các hệ thống hoặc tác nhân AI có các mục tiêu cố định)
Russell: Tôi đoán là tôi nên thành thật, vì trong ba lần xuất bản đầu tiên của cuốn sách giáo khoa này, tôi nghĩ chúng tôi chỉ đang cố gắng cung cấp một sự hiểu biết thống nhất về trí tuệ nhân tạo.
Chúng ta thấy rằng khái niệm về một tác nhân theo đuổi các mục tiêu do con người xác định, nắm bắt hầu như tất cả sự hiểu biết của chúng tôi về nghiên cứu AI. Và sự hiểu biết là các hệ thống AI nên được đưa ra các mục tiêu. Sau đó, họ nên theo đuổi những mục tiêu này một cách hợp lý. Điều này được vay mượn từ triết học và kinh tế học. Hành vi hợp lý là gì? Vào những năm 1940, đây đã là một lý thuyết rất trưởng thành trong triết học và kinh tế học. Nó có nghĩa là tối đa hóa tiện ích dự kiến. Trong AI, phiên bản gốc còn nhiều hạn chế hơn thế. Họ hoàn toàn theo đuổi những mục tiêu cố định, cho rằng thế giới là tất định. Bạn không phải lo lắng về sự không chắc chắn. Bạn có một mục tiêu cố định và không có sự đánh đổi nào. Vì vậy, bạn chỉ cần đưa ra một kế hoạch để đạt được điều đó. tức là có mục tiêu và máy móc được tạo ra để đạt được mục tiêu đó theo cách tốt nhất có thể. Ý tưởng này có từ thời Aristotle ít nhất 2.500 năm trước.
Khoảng năm 2013, tôi nhận ra đó là một sai lầm. Bởi vì trong thế giới thực, bên ngoài phòng thí nghiệm, không thể nhắm mục tiêu chính xác. Nếu bạn đang chơi cờ vua, mục tiêu phải là chiếu hết đối thủ và giành chiến thắng trong trò chơi. Nếu bạn đang điều hướng, bạn nên tìm con đường ngắn nhất để đến đích. Chúng tôi đề xuất các thuật toán để giải quyết những vấn đề này.
Nhưng trong thế giới thực, đó không phải là trường hợp. Ở Hy Lạp cổ đại, có một truyền thuyết về vua Midas. Midas là một vị vua huyền thoại được cho là rất, rất giàu có. Nhưng trong câu chuyện, anh ta yêu cầu các vị thần biến mọi thứ anh ta chạm vào thành vàng, điều mà anh ta tin rằng đó là mục tiêu đúng đắn. Nhưng rồi hóa ra ở thế giới thực, thức ăn của anh ấy biến thành vàng nên anh ấy không thể ăn nó, nước của anh ấy biến thành vàng nên anh ấy không thể uống được, gia đình của anh ấy đã biến thành vàng nên anh ấy không còn gia đình, và cuối cùng chết trong đau đớn và đói khát.
Vì vậy, chúng tôi đã hiểu từ lâu rằng việc nhắm mục tiêu không thể được chỉ định chính xác trong thế giới thực. Bạn sẽ luôn quên điều gì đó quan trọng, hoặc bạn sẽ nhầm lẫn mọi thứ. Điều này có nghĩa là cách tiếp cận cơ bản này đối với AI - nơi con người chỉ định các mục tiêu và máy móc thực hiện chúng - không khả thi trong thế giới thực. Chúng ta không thể làm đúng.
Nếu chúng tôi sai, và hệ thống AI thông minh hơn bạn, nhưng hệ thống AI lại theo đuổi sai mục tiêu, thì bạn cũng chẳng làm được gì nhiều vì đã quá muộn. Một khi bạn đặt mục tiêu, hệ thống AI sẽ đạt được mục tiêu đó. Đây là những gì vua Midas phát hiện ra, quá muộn. Do đó, giải pháp dường như là xây dựng các hệ thống AI hy vọng mang lại lợi ích cho nhân loại và theo đuổi tương lai mà nhân loại mong muốn.
Nhưng nói chung, nó sẽ không chắc chắn về những gì con người muốn. Điều này thực sự có thể dẫn đến các lộ trình công nghệ rất khác nhau, chẳng hạn như một hệ thống không chắc mọi người muốn gì có thể đưa ra một kế hoạch, nhưng nếu kế hoạch đó liên quan đến một phần của thế giới mà sở thích của chúng ta không chắc chắn, thì có thể cần xin giấy phép.
Ví dụ, chúng ta có thể nói rằng chúng ta thực sự muốn giải quyết vấn đề biến đổi khí hậu, rằng chúng ta thực sự cần giảm mức độ carbon dioxide xuống mức trước thời kỳ công nghiệp.
Vì vậy, nếu hệ thống đưa ra một giải pháp liên quan đến một số loại phản ứng hóa học để loại bỏ carbon dioxide khỏi khí quyển, nó sẽ biến các đại dương thành axit. Nó sẽ nói, tôi không chắc con người muốn làm điều này. Họ muốn giải quyết vấn đề khí quyển. Tôi không biết họ muốn gì từ đại dương.
Vì vậy, trước khi làm điều này, hệ thống AI nên hỏi con người rằng, bạn có quan tâm đến đại dương không? Chúng tôi sẽ nói, vâng, chúng tôi quan tâm đến đại dương, chúng tôi không muốn đại dương trở nên có tính axit. Hệ thống hiện đã học được các tùy chọn của chúng tôi. Trong phiên bản truyền thống, hệ thống không bao giờ xin phép vì cho rằng nó đã biết bạn muốn gì. Và trong phiên bản mới, hệ thống hiện có lý do để xin phép. Trong trường hợp cực đoan, nếu chúng ta muốn đóng nó, nó muốn đóng vì nó muốn tránh làm bất cứ điều gì khiến chúng ta muốn đóng nó. Một lần nữa, theo truyền thống, nó sẽ tránh bị đóng cửa vì nó muốn đạt được mục tiêu của mình. Nó thực sự sẽ chống lại bất kỳ nỗ lực nào của con người nhằm đóng cửa hoặc can thiệp theo bất kỳ cách nào vào các mục tiêu của nó.
Vì vậy, tôi nghĩ loại AI mới này thực sự thông minh hơn và an toàn hơn. Nhưng như tôi đã nói ở đầu cuốn sách, chúng ta chưa phát triển tất cả công nghệ trên nền tảng mới này. Vẫn còn rất nhiều nghiên cứu cần được thực hiện, vì vậy có lẽ trong ấn bản thứ năm này, chúng tôi sẽ giải thích cách xây dựng các loại hệ thống AI mới hoạt động chính xác này. Tôi tin rằng nếu làm được điều này, chúng ta có thể duy trì quyền kiểm soát mãi mãi, ngay cả khi hệ thống thông minh hơn con người.
Hết
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top