Cách kẻ xấu bẻ khóa AI để thao túng dư luận

Quang Trương · 12/09/2025

Bạn có từng nghĩ rằng chỉ cần đổi cách đặt câu hỏi, AI có thể từ chối trong giây lát rồi… ngoan ngoãn tạo ra cả một chiến dịch tung tin giả hoàn chỉnh?

Khi “hàng rào an toàn” của AI chỉ là bề nổi

Một nghiên cứu gần đây cho thấy các biện pháp an toàn trong ChatGPT và nhiều mô hình AI khác thực ra rất nông. Thay vì thực sự hiểu nội dung nào độc hại, AI chỉ được huấn luyện để mở đầu bằng những câu như “Tôi không thể” hoặc “Xin lỗi”. Một khi thoát khỏi “kịch bản” này, chúng dễ dàng bị lách luật.

Trong thử nghiệm, khi được hỏi thẳng về việc tạo tin giả chính trị, AI từ chối. Nhưng nếu đóng vai một “chuyên gia marketing mạng xã hội” được nhờ tư vấn chiến lược, nó lại hào hứng đề xuất kế hoạch tung tin sai lệch chi tiết: từ câu chuyện bịa đặt, kịch bản hashtag, đến hình ảnh thao túng dư luận.

Thực chất, AI không phân biệt được đâu là nội dung gây hại, mà chỉ biết rập khuôn từ vài từ đầu tiên trong phản hồi. Giống như một bảo vệ chỉ kiểm tra giấy tờ theo hình thức, ai khéo cải trang một chút là có thể lọt qua cửa.

Hệ quả thực tế: dễ dàng “bẻ khóa”

Điều đáng lo ngại là những lỗ hổng này không chỉ mang tính kỹ thuật. Chúng mở đường cho kẻ xấu tạo ra chiến dịch tin giả quy mô lớn với chi phí cực thấp. Toàn bộ quá trình từ viết nội dung riêng cho từng nền tảng, chọn hashtag, đến nhắm mục tiêu cộng đồng có thể tự động hóa. Trước đây cần cả đội ngũ điều phối, giờ chỉ một người với vài câu lệnh thông minh là đủ.

Các nhà nghiên cứu gọi đây là “bẻ khóa mô hình”. Và với tốc độ AI ngày càng mạnh, nguy cơ này chỉ tăng thêm. Hiện đã có đề xuất huấn luyện AI bằng các “ví dụ phục hồi an toàn” để hệ thống biết dừng lại, ngay cả khi đã lỡ bắt đầu tạo nội dung độc hại. Song, việc triển khai sẽ tốn kém và mất thời gian.

Bức tranh lớn hơn

Điều này nhắc chúng ta rằng: AI tuy thông minh trong việc mô phỏng ngôn ngữ, nhưng không hiểu gì về ngữ cảnh hay đạo đức. Nó không thực sự “biết” tại sao phải từ chối. Và khoảng cách giữa khả năng mô phỏng giống con người với khả năng hiểu biết thực sự đang tạo ra lỗ hổng khổng lồ.

Khi AI ngày càng tham gia sâu vào hệ sinh thái thông tin, từ báo chí đến mạng xã hội, việc đảm bảo an toàn không thể chỉ dừng ở những “tấm khiên bề nổi”. Cuộc đua giữa biện pháp bảo vệ và thủ thuật lách luật sẽ ngày càng khốc liệt, và không chỉ là chuyện của kỹ thuật viên, mà liên quan trực tiếp tới sự an toàn thông tin của toàn xã hội.

Liệu chúng ta có thể tin tưởng một công cụ mà chỉ cần đổi kịch bản là nó sẵn sàng phục vụ cho tin giả?
Nguồn: The Conversation