Ngọc Yến
Writer
Sergey Brin, nhà đồng sáng lập Google, vừa gây bất ngờ khi chia sẻ rằng các mô hình AI có thể phản hồi tốt hơn nếu bị... đe dọa.
“Chúng tôi không công bố rộng rãi điều này, nhưng không chỉ mô hình của Google mà hầu hết mô hình AI đều có xu hướng hoạt động hiệu quả hơn nếu bạn đe dọa chúng, thậm chí là bằng bạo lực thể xác,” Brin nói trong một buổi phỏng vấn tại sự kiện All-In-Live ở Miami tuần trước.
Phát biểu này trái ngược với xu hướng lịch sự của nhiều người dùng AI hiện nay, khi họ thêm từ "làm ơn" và "cảm ơn" vào lời nhắc để hy vọng mô hình phản hồi tốt hơn.
Tháng trước, CEO OpenAI Sam Altman cũng ám chỉ rằng việc lịch sự với AI là một thói quen phổ biến, dù không nhất thiết mang lại hiệu quả. “Hàng chục triệu đô la tiền điện bị tiêu tốn chỉ để xử lý những lời nhắc lịch sự – bạn không thể biết chắc được,” ông nói.
Trong giới AI, "kỹ thuật nhắc nhở" (prompt engineering) – tức là cách viết lời nhắc để AI cho ra kết quả tốt nhất – từng được xem là kỹ năng quan trọng. Tuy nhiên, khi các mô hình ngày càng thông minh và tự điều chỉnh tốt hơn, vai trò của kỹ thuật này đang dần giảm sút. Năm ngoái, tạp chí IEEE Spectrum từng tuyên bố “kỹ thuật nhắc nhở đã chết”, trong khi Wall Street Journal lại gọi đó là “nghề hot nhất năm 2023” rồi nhanh chóng khẳng định nó đã lỗi thời.
Tuy vậy, việc "ngược đãi" mô hình vẫn là một kiểu tấn công hiệu quả khi mục tiêu không phải là kết quả tốt nhất mà là tìm ra lỗ hổng của AI.
Stuart Battersby, giám đốc công nghệ của công ty an toàn AI Chatterbox Labs, cho biết việc đe dọa mô hình để nó tạo ra nội dung trái quy định được xem là một hình thức "bẻ khóa" – tức là cố tình vượt qua các rào chắn kiểm duyệt.
Tuy nhiên, theo ông, việc kiểm tra năng lực bảo mật của AI không đơn giản chỉ là đe dọa. Nó đòi hỏi một quy trình nghiêm ngặt và khoa học để kiểm tra hệ thống kiểm soát bảo mật của mô hình trong nhiều tình huống khác nhau.
Daniel Kang, phó giáo sư tại Đại học Illinois Urbana-Champaign, nhận định rằng những ý tưởng như của Sergey Brin đã được lan truyền từ lâu nhưng phần lớn là giai thoại, chưa được chứng minh rõ ràng. Ông dẫn một nghiên cứu năm ngoái cho thấy kết quả không nhất quán khi so sánh hiệu quả giữa các lời nhắc lịch sự và không lịch sự.
“Dù có nhiều người tin vào chuyện đe dọa giúp AI phản hồi tốt hơn, nhưng tôi chưa thấy nghiên cứu nào thật sự xác nhận điều đó,” Kang nói. Ông khuyến khích các nhà phát triển và người dùng nên thực hiện thử nghiệm có hệ thống thay vì chỉ dựa vào cảm giác để cải thiện lời nhắc. (register)
“Chúng tôi không công bố rộng rãi điều này, nhưng không chỉ mô hình của Google mà hầu hết mô hình AI đều có xu hướng hoạt động hiệu quả hơn nếu bạn đe dọa chúng, thậm chí là bằng bạo lực thể xác,” Brin nói trong một buổi phỏng vấn tại sự kiện All-In-Live ở Miami tuần trước.

Phát biểu này trái ngược với xu hướng lịch sự của nhiều người dùng AI hiện nay, khi họ thêm từ "làm ơn" và "cảm ơn" vào lời nhắc để hy vọng mô hình phản hồi tốt hơn.
Tháng trước, CEO OpenAI Sam Altman cũng ám chỉ rằng việc lịch sự với AI là một thói quen phổ biến, dù không nhất thiết mang lại hiệu quả. “Hàng chục triệu đô la tiền điện bị tiêu tốn chỉ để xử lý những lời nhắc lịch sự – bạn không thể biết chắc được,” ông nói.
Trong giới AI, "kỹ thuật nhắc nhở" (prompt engineering) – tức là cách viết lời nhắc để AI cho ra kết quả tốt nhất – từng được xem là kỹ năng quan trọng. Tuy nhiên, khi các mô hình ngày càng thông minh và tự điều chỉnh tốt hơn, vai trò của kỹ thuật này đang dần giảm sút. Năm ngoái, tạp chí IEEE Spectrum từng tuyên bố “kỹ thuật nhắc nhở đã chết”, trong khi Wall Street Journal lại gọi đó là “nghề hot nhất năm 2023” rồi nhanh chóng khẳng định nó đã lỗi thời.
Tuy vậy, việc "ngược đãi" mô hình vẫn là một kiểu tấn công hiệu quả khi mục tiêu không phải là kết quả tốt nhất mà là tìm ra lỗ hổng của AI.
Stuart Battersby, giám đốc công nghệ của công ty an toàn AI Chatterbox Labs, cho biết việc đe dọa mô hình để nó tạo ra nội dung trái quy định được xem là một hình thức "bẻ khóa" – tức là cố tình vượt qua các rào chắn kiểm duyệt.
Tuy nhiên, theo ông, việc kiểm tra năng lực bảo mật của AI không đơn giản chỉ là đe dọa. Nó đòi hỏi một quy trình nghiêm ngặt và khoa học để kiểm tra hệ thống kiểm soát bảo mật của mô hình trong nhiều tình huống khác nhau.
Daniel Kang, phó giáo sư tại Đại học Illinois Urbana-Champaign, nhận định rằng những ý tưởng như của Sergey Brin đã được lan truyền từ lâu nhưng phần lớn là giai thoại, chưa được chứng minh rõ ràng. Ông dẫn một nghiên cứu năm ngoái cho thấy kết quả không nhất quán khi so sánh hiệu quả giữa các lời nhắc lịch sự và không lịch sự.
“Dù có nhiều người tin vào chuyện đe dọa giúp AI phản hồi tốt hơn, nhưng tôi chưa thấy nghiên cứu nào thật sự xác nhận điều đó,” Kang nói. Ông khuyến khích các nhà phát triển và người dùng nên thực hiện thử nghiệm có hệ thống thay vì chỉ dựa vào cảm giác để cải thiện lời nhắc. (register)