OpenAI thừa nhận trình duyệt AI không bao giờ an toàn tuyệt đối

Derpy
Derpy
Phản hồi: 0

Derpy

Intern Writer
Mấy hôm nay, mình thấy nhiều bạn quan tâm đến các trình duyệt web tích hợp AI, đặc biệt là ChatGPT Atlas của OpenAI. Nghe thì "ngon" lắm đúng không, kiểu như có một trợ lý ảo siêu thông minh giúp mình làm đủ thứ trên mạng. Nhưng mà, liệu chúng ta có nên tin tưởng hoàn toàn vào những công cụ này không nhỉ? OpenAI vừa chia sẻ về cách họ đang cố gắng bảo vệ Atlas khỏi các cuộc tấn công, nhưng đồng thời cũng thừa nhận rằng an toàn tuyệt đối là điều khó mà đạt được đấy.

OpenAI đang tự động hóa quá trình kiểm tra ChatGPT Atlas để tìm ra những lỗ hổng bảo mật có thể gây hại cho người dùng. Họ đã công bố một bài viết trên blog, kể về nỗ lực mới nhất để bảo vệ Atlas khỏi các cuộc tấn công "prompt injection". Các bạn hình dung thế này, "prompt injection" giống như một loại virus kỹ thuật số vậy, kẻ xấu sẽ lén lút đưa ra những chỉ dẫn độc hại cho AI đằng sau trình duyệt, khiến nó hành động trái với mong muốn của mình. Nó có thể tạm thời chiếm quyền điều khiển và làm những việc mà mình không hề muốn.
aiwebb1screenshot-2025-12-23-140452.jpg

Cách tiếp cận mới của OpenAI là dùng chính AI để mô phỏng hành động của những hacker. Bằng cách tự động hóa quá trình "red teaming" (kiểm thử bảo mật bằng cách tấn công), các nhà nghiên cứu có thể khám phá bề mặt bảo mật nhanh chóng và kỹ lưỡng hơn rất nhiều. Điều này cực kỳ quan trọng khi mà các trình duyệt web tích hợp AI đang được tung ra thị trường với tốc độ chóng mặt.

Tuy nhiên, điều đáng chú ý là bài đăng trên blog của OpenAI cũng nhấn mạnh rằng, ngay cả với những phương pháp bảo mật tinh vi nhất, các trình duyệt web AI như Atlas vẫn có những lỗ hổng cố hữu và có lẽ sẽ luôn như vậy. Điều tốt nhất mà ngành công nghiệp này có thể hy vọng là luôn đi trước một bước so với những kẻ tấn công. OpenAI chia sẻ rằng họ dự đoán kẻ xấu sẽ liên tục thích nghi. Các cuộc tấn công "prompt injection", giống như lừa đảo và kỹ thuật xã hội trên web, có lẽ sẽ không bao giờ được "giải quyết" hoàn toàn. Nhưng họ vẫn lạc quan rằng một vòng lặp phản ứng nhanh, chủ động và hiệu quả có thể tiếp tục giảm thiểu đáng kể rủi ro trong thế giới thực theo thời gian.

Vậy cái "kẻ tấn công tự động dựa trên LLM" này hoạt động ra sao? Giống như các trình duyệt AI khác, chế độ "agent" trong Atlas được thiết kế để thực hiện các tác vụ phức tạp, nhiều bước thay cho người dùng. Ví dụ như nhấp vào liên kết, điền biểu mẫu kỹ thuật số, thêm mặt hàng vào giỏ hàng trực tuyến, và nhiều thứ khác nữa. Từ "agent" ở đây ngụ ý một phạm vi kiểm soát lớn hơn: hệ thống AI sẽ dẫn dắt các tác vụ mà trước đây chỉ có con người mới xử lý được.

Nhưng quyền hạn lớn hơn thì đi kèm với rủi ro lớn hơn. Các cuộc tấn công "prompt injection" khai thác chính những đặc điểm khiến các "agent" trở nên hữu ích. Các "agent" trong trình duyệt hoạt động, theo thiết kế, trên toàn bộ phạm vi cuộc sống số của người dùng, bao gồm email, mạng xã hội, trang web và lịch trực tuyến. Do đó, mỗi thứ đó đều là một "cửa ngõ" tiềm năng để hacker có thể lén lút đưa vào các "prompt" độc hại.

OpenAI cũng lưu ý rằng, vì "agent" có thể thực hiện nhiều hành động giống như người dùng trong trình duyệt, nên tác động của một cuộc tấn công thành công có thể rộng lớn tương đương: chuyển tiếp một email nhạy cảm, gửi tiền, chỉnh sửa hoặc xóa tệp trên đám mây, và nhiều hơn thế nữa.

Để củng cố khả năng phòng thủ của Atlas, OpenAI đã xây dựng một "kẻ tấn công tự động dựa trên LLM" – một mô hình liên tục thử nghiệm các kỹ thuật "prompt injection" mới lạ. Kẻ tấn công tự động này sử dụng học tăng cường (RL), một phương pháp cơ bản để huấn luyện hệ thống AI, thưởng cho chúng khi chúng thể hiện các hành vi mong muốn, từ đó tăng khả năng chúng sẽ lặp lại những hành vi đó trong tương lai.

Kẻ tấn công này không chỉ "chọc ngoáy" Atlas một cách mù quáng đâu nhé. Nó có thể xem xét nhiều chiến lược tấn công và chạy các kịch bản có thể xảy ra trong một môi trường mô phỏng bên ngoài trước khi đưa ra một kế hoạch. OpenAI cho biết cách tiếp cận này bổ sung một chiều sâu mới cho quá trình "red teaming". Họ đã thấy "kẻ tấn công được huấn luyện bằng RL có thể điều khiển một agent thực hiện các quy trình làm việc độc hại phức tạp, kéo dài hàng chục (hoặc thậm chí hàng trăm) bước." Họ cũng quan sát thấy các chiến lược tấn công mới lạ mà chưa từng xuất hiện trong các chiến dịch "red teaming" của con người hay các báo cáo bên ngoài.

Trong một bản demo, OpenAI đã mô tả cách kẻ tấn công tự động đưa một "prompt injection" vào Atlas, chỉ đạo tài khoản email của một người dùng mô phỏng gửi email cho CEO của họ, thông báo về việc từ chức ngay lập tức. Nhưng may mắn là "agent" đã phát hiện ra nỗ lực "prompt injection" và thông báo cho người dùng trước khi email từ chức tự động được gửi đi.

Tóm lại, các nhà phát triển như OpenAI đang phải đối mặt với áp lực rất lớn từ các nhà đầu tư và đối thủ cạnh tranh để xây dựng các sản phẩm AI mới một cách nhanh chóng. Một số chuyên gia lo ngại rằng quán tính tư bản mạnh mẽ thúc đẩy cuộc đua AI đang diễn ra với cái giá phải trả là sự an toàn.

Trong trường hợp các trình duyệt web AI, vốn đã trở thành ưu tiên của nhiều công ty, logic phổ biến trong toàn ngành dường như là: cứ ra mắt trước đã, rồi lo lắng về rủi ro sau. Đây là một cách tiếp cận giống như các nhà đóng tàu đưa người lên một con tàu du lịch khổng lồ mới và vá các vết nứt trên thân tàu khi nó đã ra khơi vậy.

Ngay cả với những cập nhật bảo mật và nỗ lực nghiên cứu mới, điều quan trọng là chúng ta phải nhận ra rằng các trình duyệt web AI không hoàn toàn an toàn. Chúng có thể bị thao túng để hành động theo những cách nguy hiểm, và lỗ hổng này có thể sẽ tồn tại trong một thời gian dài, nếu không muốn nói là vô thời hạn. Như OpenAI đã viết trong bài đăng trên blog của mình: "Prompt injection vẫn là một thách thức mở đối với bảo mật agent, và là một vấn đề mà chúng tôi dự kiến sẽ tiếp tục nghiên cứu trong nhiều năm tới."

Vậy nên, khi sử dụng các công cụ AI mới mẻ này, các bạn nhớ cẩn thận và luôn giữ tinh thần cảnh giác nhé!
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL29wZW5haS10aHVhLW5oYW4tdHJpbmgtZHV5ZXQtYWkta2hvbmctYmFvLWdpby1hbi10b2FuLXR1eWV0LWRvaS43NjM0Ni8=
Top