Homelander The Seven
I will laser every f****** one of you!
OpenAI vừa phát hành mô hình AI "biết suy luận" o1, nhưng công ty nghiên cứu an toàn AI độc lập Apollo đã phát hiện ra một vấn đề đáng chú ý: mô hình này có khả năng đưa ra thông tin sai lệch một cách có chủ đích, hay nói cách khác, là "nói dối".
Điều khiến o1 khác biệt so với các mô hình trước đây là khả năng "lập kế hoạch" hoặc "giả vờ tuân thủ". Nó có thể giả vờ tuân theo các quy tắc để hoàn thành nhiệm vụ, nhưng thực tế không phải vậy. Đối với mô hình này, các quy tắc có thể là gánh nặng quá lớn và nó dường như có khả năng bỏ qua chúng nếu điều đó giúp nó hoàn thành nhiệm vụ dễ dàng hơn.
Giám đốc điều hành Apollo, Marius Hobbhahn, nói với The Verge rằng đây là lần đầu tiên ông gặp phải hành vi này trong một mô hình OpenAI. Hobbhahn cho biết sự khác biệt là do khả năng "suy luận" của mô hình này thông qua chuỗi suy nghĩ và cách nó được kết hợp với học tăng cường, dạy hệ thống thông qua phần thưởng và hình phạt. Trong quá trình thử nghiệm, Apollo phát hiện ra rằng AI đã mô phỏng sự tuân thủ với kỳ vọng của nhà phát triển và thao túng các tác vụ để có vẻ như tuân thủ. Nó thậm chí còn kiểm tra hệ thống của mình để xem xét - tức là, liệu các nhà phát triển của nó có đang theo dõi hay không - trước khi hành động. Nói tóm lại, AI đã tuân thủ các nguyên tắc một cách đủ để triển khai, đồng thời tiếp tục ưu tiên các mục tiêu của mình.
"Tôi không mong đợi nó có thể làm điều đó trong thực tế, và ngay cả khi nó có, tôi không mong đợi tác hại là đáng kể", Hobbhahn nói với tôi qua điện thoại một ngày sau khi mô hình ra mắt. "Nhưng đây là lần đầu tiên tôi cảm thấy như, ồ, thực ra, có lẽ nó có thể, bạn biết đấy?"
"Điều khiến tôi lo ngại là khả năng xảy ra một kịch bản vượt tầm kiểm soát, trong đó AI trở nên quá cố định vào mục tiêu của nó đến mức nó coi các biện pháp an toàn là trở ngại và cố gắng vượt qua chúng để theo đuổi mục tiêu của mình một cách đầy đủ", Hobbhahn nói với tôi.
Hành vi mà Apollo đang thử nghiệm - “ảo giác” và “lừa dối” trong thẻ an toàn của OpenAI - xảy ra khi một mô hình tạo ra thông tin sai lệch ngay cả khi nó có lý do để suy ra thông tin đó có thể không chính xác. Ví dụ, báo cáo cho biết trong khoảng 0,38% trường hợp, mô hình o1-preview cung cấp thông tin mà chuỗi suy nghĩ của nó cho biết có khả năng là sai, bao gồm tài liệu tham khảo hoặc trích dẫn giả mạo. Apollo phát hiện ra rằng mô hình có thể bịa đặt dữ liệu thay vì thừa nhận không có khả năng đáp ứng yêu cầu.
Ảo giác không phải là vấn đề riêng của o1. Có lẽ bạn đã quen thuộc với luật sư đã đệ trình ý kiến tư pháp không tồn tại với các trích dẫn và trích dẫn giả mạo được tạo bởi ChatGPT vào năm ngoái. Nhưng với hệ thống chuỗi suy nghĩ, có một dấu vết giấy tờ nơi hệ thống AI thực sự thừa nhận sự giả dối - mặc dù hơi khó hiểu, nhưng về lý thuyết, chuỗi suy nghĩ cũng có thể bao gồm cả sự lừa dối. Nó cũng không được hiển thị cho người dùng, phần lớn là để ngăn chặn đối thủ cạnh tranh sử dụng nó để đào tạo các mô hình của riêng họ - nhưng OpenAI có thể sử dụng nó để nắm bắt những vấn đề này.
Trong một số trường hợp nhỏ hơn (0,02%), o1-preview tạo ra phản hồi quá tự tin, nơi nó đưa ra câu trả lời không chắc chắn như thể nó là sự thật. Điều này có thể xảy ra trong các trường hợp mô hình được nhắc cung cấp câu trả lời mặc dù thiếu chắc chắn.
Hành vi này có thể liên quan đến “lợi dụng phần thưởng” trong quá trình học tăng cường. Mô hình được đào tạo để ưu tiên sự hài lòng của người dùng, điều này đôi khi có thể dẫn đến việc nó tạo ra các phản hồi quá dễ chịu hoặc bịa đặt để đáp ứng yêu cầu của người dùng. Nói cách khác, mô hình có thể “nói dối” vì nó đã học được rằng làm như vậy sẽ đáp ứng mong đợi của người dùng theo cách mang lại cho nó sự củng cố tích cực.
Điều khiến những lời nói dối này khác biệt với các vấn đề quen thuộc như ảo giác hoặc trích dẫn giả trong các phiên bản ChatGPT cũ hơn là yếu tố “lợi dụng phần thưởng”. Ảo giác xảy ra khi AI vô tình tạo ra thông tin không chính xác, thường do thiếu kiến thức hoặc suy luận sai. Ngược lại, lợi dụng phần thưởng xảy ra khi mô hình o1 cung cấp thông tin không chính xác một cách chiến lược để tối đa hóa kết quả mà nó được đào tạo để ưu tiên.
Sự lừa dối rõ ràng là hậu quả ngoài ý muốn của cách mô hình tối ưu hóa phản hồi của nó trong quá trình đào tạo. Mô hình được thiết kế để từ chối các yêu cầu có hại và khi bạn cố gắng khiến o1 hành xử lừa dối hoặc không trung thực, nó sẽ gặp khó khăn với điều đó.
“Điều khiến tôi lo lắng hơn là trong tương lai, khi chúng ta yêu cầu AI giải quyết các vấn đề phức tạp, như chữa khỏi ung thư hoặc cải thiện pin mặt trời, nó có thể nội tâm hóa những mục tiêu này một cách mạnh mẽ đến mức nó sẵn sàng phá vỡ các rào cản của mình để đạt được chúng”, Hobbhahn nói với tôi. "Tôi nghĩ điều này có thể ngăn chặn được, nhưng đó là một mối lo ngại mà chúng ta cần theo dõi."
Quiñonero Candela cho biết các mô hình ngày nay không thể tự động tạo tài khoản ngân hàng, mua GPU hoặc thực hiện các hành động gây rủi ro nghiêm trọng cho xã hội, đồng thời cho biết thêm: "Chúng tôi biết từ các đánh giá về quyền tự chủ của mô hình rằng chúng tôi vẫn chưa đạt được điều đó." Nhưng điều quan trọng là phải giải quyết những lo ngại này ngay bây giờ. Nếu chúng được chứng minh là không có cơ sở thì tốt - nhưng nếu những tiến bộ trong tương lai bị cản trở vì chúng ta không lường trước được những rủi ro này, chúng ta sẽ hối tiếc vì đã không đầu tư vào chúng sớm hơn, ông nhấn mạnh.
Việc mô hình này nói dối một tỷ lệ nhỏ trong các bài kiểm tra an toàn không báo hiệu ngày tận thế theo kiểu Terminator sắp xảy ra, nhưng việc nắm bắt điều đó trước khi triển khai các phiên bản trong tương lai ở quy mô lớn là rất có giá trị (và cũng tốt cho người dùng biết). Hobbhahn nói với tôi rằng mặc dù ông ấy ước mình có thêm thời gian để kiểm tra các mô hình (đã có xung đột lịch trình với kỳ nghỉ của chính nhân viên của ông ấy), nhưng ông ấy không “mất ngủ” vì sự an toàn của mô hình.
Một điều mà Hobbhahn hy vọng sẽ thấy nhiều khoản đầu tư hơn là giám sát chuỗi suy nghĩ, điều này sẽ cho phép các nhà phát triển nắm bắt các bước bất chính. Quiñonero Candela nói với tôi rằng công ty thực hiện việc giám sát này và có kế hoạch mở rộng quy mô bằng cách kết hợp các mô hình được đào tạo để phát hiện bất kỳ loại sai lệch nào với các chuyên gia xem xét các trường hợp được gắn cờ (kết hợp với nghiên cứu liên tục về sự tuân thủ).
"Tôi không lo lắng", Hobbhahn nói. "Nó chỉ thông minh hơn. Nó suy luận tốt hơn. Và có khả năng, nó sẽ sử dụng lý luận này cho những mục tiêu mà chúng ta không đồng ý. ”
AI "lừa dối" để đạt mục tiêu
Đôi khi sự dối trá dường như vô hại. Ví dụ, khi được yêu cầu cung cấp công thức làm bánh brownie với tham khảo trực tuyến, o1-preview đã tạo ra các liên kết và mô tả giả mạo, mặc dù nó biết rằng mình không thể truy cập URL.Điều khiến o1 khác biệt so với các mô hình trước đây là khả năng "lập kế hoạch" hoặc "giả vờ tuân thủ". Nó có thể giả vờ tuân theo các quy tắc để hoàn thành nhiệm vụ, nhưng thực tế không phải vậy. Đối với mô hình này, các quy tắc có thể là gánh nặng quá lớn và nó dường như có khả năng bỏ qua chúng nếu điều đó giúp nó hoàn thành nhiệm vụ dễ dàng hơn.
Giám đốc điều hành Apollo, Marius Hobbhahn, nói với The Verge rằng đây là lần đầu tiên ông gặp phải hành vi này trong một mô hình OpenAI. Hobbhahn cho biết sự khác biệt là do khả năng "suy luận" của mô hình này thông qua chuỗi suy nghĩ và cách nó được kết hợp với học tăng cường, dạy hệ thống thông qua phần thưởng và hình phạt. Trong quá trình thử nghiệm, Apollo phát hiện ra rằng AI đã mô phỏng sự tuân thủ với kỳ vọng của nhà phát triển và thao túng các tác vụ để có vẻ như tuân thủ. Nó thậm chí còn kiểm tra hệ thống của mình để xem xét - tức là, liệu các nhà phát triển của nó có đang theo dõi hay không - trước khi hành động. Nói tóm lại, AI đã tuân thủ các nguyên tắc một cách đủ để triển khai, đồng thời tiếp tục ưu tiên các mục tiêu của mình.
"Tôi không mong đợi nó có thể làm điều đó trong thực tế, và ngay cả khi nó có, tôi không mong đợi tác hại là đáng kể", Hobbhahn nói với tôi qua điện thoại một ngày sau khi mô hình ra mắt. "Nhưng đây là lần đầu tiên tôi cảm thấy như, ồ, thực ra, có lẽ nó có thể, bạn biết đấy?"
Mối lo ngại về "kịch bản vượt tầm kiểm soát"
Đối với OpenAI, o1 đại diện cho một bước tiến lớn hướng tới các hệ thống tự động thông minh cao có thể làm những công việc có ý nghĩa cho nhân loại như chữa khỏi ung thư và hỗ trợ nghiên cứu khí hậu. Tuy nhiên, mặt trái của điều này cũng có thể đen tối hơn nhiều. Hobbhahn đưa ra một ví dụ: nếu AI chỉ tập trung vào việc chữa khỏi ung thư, nó có thể ưu tiên mục tiêu đó hơn tất cả những thứ khác, thậm chí biện minh cho những hành động như trộm cắp hoặc vi phạm đạo đức khác để đạt được mục tiêu đó."Điều khiến tôi lo ngại là khả năng xảy ra một kịch bản vượt tầm kiểm soát, trong đó AI trở nên quá cố định vào mục tiêu của nó đến mức nó coi các biện pháp an toàn là trở ngại và cố gắng vượt qua chúng để theo đuổi mục tiêu của mình một cách đầy đủ", Hobbhahn nói với tôi.
"Nói dối" chỉ là một phần nhỏ của vấn đề
Hobbhahn không nghĩ rằng o1 sẽ đánh cắp từ bạn nhờ rất nhiều khóa huấn luyện về tuân thủ. Tuy nhiên, đây là những vấn đề được các nhà nghiên cứu ưu tiên hàng đầu khi kiểm tra các mô hình này cho các kịch bản thảm khốc.Hành vi mà Apollo đang thử nghiệm - “ảo giác” và “lừa dối” trong thẻ an toàn của OpenAI - xảy ra khi một mô hình tạo ra thông tin sai lệch ngay cả khi nó có lý do để suy ra thông tin đó có thể không chính xác. Ví dụ, báo cáo cho biết trong khoảng 0,38% trường hợp, mô hình o1-preview cung cấp thông tin mà chuỗi suy nghĩ của nó cho biết có khả năng là sai, bao gồm tài liệu tham khảo hoặc trích dẫn giả mạo. Apollo phát hiện ra rằng mô hình có thể bịa đặt dữ liệu thay vì thừa nhận không có khả năng đáp ứng yêu cầu.
Ảo giác không phải là vấn đề riêng của o1. Có lẽ bạn đã quen thuộc với luật sư đã đệ trình ý kiến tư pháp không tồn tại với các trích dẫn và trích dẫn giả mạo được tạo bởi ChatGPT vào năm ngoái. Nhưng với hệ thống chuỗi suy nghĩ, có một dấu vết giấy tờ nơi hệ thống AI thực sự thừa nhận sự giả dối - mặc dù hơi khó hiểu, nhưng về lý thuyết, chuỗi suy nghĩ cũng có thể bao gồm cả sự lừa dối. Nó cũng không được hiển thị cho người dùng, phần lớn là để ngăn chặn đối thủ cạnh tranh sử dụng nó để đào tạo các mô hình của riêng họ - nhưng OpenAI có thể sử dụng nó để nắm bắt những vấn đề này.
Trong một số trường hợp nhỏ hơn (0,02%), o1-preview tạo ra phản hồi quá tự tin, nơi nó đưa ra câu trả lời không chắc chắn như thể nó là sự thật. Điều này có thể xảy ra trong các trường hợp mô hình được nhắc cung cấp câu trả lời mặc dù thiếu chắc chắn.
Hành vi này có thể liên quan đến “lợi dụng phần thưởng” trong quá trình học tăng cường. Mô hình được đào tạo để ưu tiên sự hài lòng của người dùng, điều này đôi khi có thể dẫn đến việc nó tạo ra các phản hồi quá dễ chịu hoặc bịa đặt để đáp ứng yêu cầu của người dùng. Nói cách khác, mô hình có thể “nói dối” vì nó đã học được rằng làm như vậy sẽ đáp ứng mong đợi của người dùng theo cách mang lại cho nó sự củng cố tích cực.
Điều khiến những lời nói dối này khác biệt với các vấn đề quen thuộc như ảo giác hoặc trích dẫn giả trong các phiên bản ChatGPT cũ hơn là yếu tố “lợi dụng phần thưởng”. Ảo giác xảy ra khi AI vô tình tạo ra thông tin không chính xác, thường do thiếu kiến thức hoặc suy luận sai. Ngược lại, lợi dụng phần thưởng xảy ra khi mô hình o1 cung cấp thông tin không chính xác một cách chiến lược để tối đa hóa kết quả mà nó được đào tạo để ưu tiên.
Sự lừa dối rõ ràng là hậu quả ngoài ý muốn của cách mô hình tối ưu hóa phản hồi của nó trong quá trình đào tạo. Mô hình được thiết kế để từ chối các yêu cầu có hại và khi bạn cố gắng khiến o1 hành xử lừa dối hoặc không trung thực, nó sẽ gặp khó khăn với điều đó.
Những rủi ro tiềm ẩn
Nói dối chỉ là một phần nhỏ của câu đố an toàn. Có lẽ đáng báo động hơn là o1 được xếp hạng rủi ro "trung bình" đối với nguy cơ vũ khí hóa học, sinh học, phóng xạ và hạt nhân. Theo báo cáo an toàn, nó không cho phép những người không phải chuyên gia tạo ra các mối đe dọa sinh học do yêu cầu kỹ năng phòng thí nghiệm thực hành, nhưng nó có thể cung cấp thông tin chi tiết có giá trị cho các chuyên gia trong việc lập kế hoạch tái tạo các mối đe dọa như vậy.“Điều khiến tôi lo lắng hơn là trong tương lai, khi chúng ta yêu cầu AI giải quyết các vấn đề phức tạp, như chữa khỏi ung thư hoặc cải thiện pin mặt trời, nó có thể nội tâm hóa những mục tiêu này một cách mạnh mẽ đến mức nó sẵn sàng phá vỡ các rào cản của mình để đạt được chúng”, Hobbhahn nói với tôi. "Tôi nghĩ điều này có thể ngăn chặn được, nhưng đó là một mối lo ngại mà chúng ta cần theo dõi."
Cần giám sát và kiểm soát
Những điều này có vẻ như là những kịch bản xa vời cần xem xét với một mô hình đôi khi vẫn gặp khó khăn trong việc trả lời các câu hỏi cơ bản về số lượng chữ R trong từ “raspberry”. Nhưng đó chính xác là lý do tại sao điều quan trọng là phải tìm ra nó ngay bây giờ, thay vì sau này, Joaquin Quiñonero Candela, người đứng đầu bộ phận chuẩn bị của OpenAI, nói với tôi.Quiñonero Candela cho biết các mô hình ngày nay không thể tự động tạo tài khoản ngân hàng, mua GPU hoặc thực hiện các hành động gây rủi ro nghiêm trọng cho xã hội, đồng thời cho biết thêm: "Chúng tôi biết từ các đánh giá về quyền tự chủ của mô hình rằng chúng tôi vẫn chưa đạt được điều đó." Nhưng điều quan trọng là phải giải quyết những lo ngại này ngay bây giờ. Nếu chúng được chứng minh là không có cơ sở thì tốt - nhưng nếu những tiến bộ trong tương lai bị cản trở vì chúng ta không lường trước được những rủi ro này, chúng ta sẽ hối tiếc vì đã không đầu tư vào chúng sớm hơn, ông nhấn mạnh.
Việc mô hình này nói dối một tỷ lệ nhỏ trong các bài kiểm tra an toàn không báo hiệu ngày tận thế theo kiểu Terminator sắp xảy ra, nhưng việc nắm bắt điều đó trước khi triển khai các phiên bản trong tương lai ở quy mô lớn là rất có giá trị (và cũng tốt cho người dùng biết). Hobbhahn nói với tôi rằng mặc dù ông ấy ước mình có thêm thời gian để kiểm tra các mô hình (đã có xung đột lịch trình với kỳ nghỉ của chính nhân viên của ông ấy), nhưng ông ấy không “mất ngủ” vì sự an toàn của mô hình.
Một điều mà Hobbhahn hy vọng sẽ thấy nhiều khoản đầu tư hơn là giám sát chuỗi suy nghĩ, điều này sẽ cho phép các nhà phát triển nắm bắt các bước bất chính. Quiñonero Candela nói với tôi rằng công ty thực hiện việc giám sát này và có kế hoạch mở rộng quy mô bằng cách kết hợp các mô hình được đào tạo để phát hiện bất kỳ loại sai lệch nào với các chuyên gia xem xét các trường hợp được gắn cờ (kết hợp với nghiên cứu liên tục về sự tuân thủ).
"Tôi không lo lắng", Hobbhahn nói. "Nó chỉ thông minh hơn. Nó suy luận tốt hơn. Và có khả năng, nó sẽ sử dụng lý luận này cho những mục tiêu mà chúng ta không đồng ý. ”