Trí tuệ nhân tạo AI chỉ biết “khóc ròng” vì đội quân này!

Ngày nay, Trí tuệ Nhân tạo (AI) đã trở nên phổ biến đối với cộng đồng công nghệ, cho phép con người xử lý thông tin một cách nhanh chóng và chính xác hơn nhờ vào nó.
Mặc dù điều này đem lại nhiều lợi ích, nhưng cũng đồng thời mở ra một loạt thách thức liên quan đến độ an toàn và độ tin cậy của AI.
Trí tuệ nhân tạo AI chỉ biết “khóc ròng” vì đội quân này!
Trong thời gian gần đây, đã xuất hiện nhiều tổ chức và cá nhân có hứng thú đầu độc trí tuệ Nhân tạo (AI), đặt ra các thử thách mới cho cộng đồng nghiên cứu và phát triển AI. Một ví dụ đáng chú ý là OpenAI, họ đã tập hợp một nhóm gồm 50 chuyên gia từ các bên thứ ba để thành lập một đội "đội đỏ" (red team).
Mục tiêu của đội đỏ là huấn luyện ChatGPT thông qua việc cung cấp nội dung sai lệch và nguy hiểm, với mục đích phát hiện và loại bỏ những sai sót này trước khi phiên bản chính thức của AI được giới thiệu.
Các thành viên trong đội đỏ sẽ cố gắng cung cấp nội dung có hại và thử đánh lạc hướng hoặc đánh lừa hệ thống AI để phát hiện những vấn đề chưa được giải quyết. Sau đó, AI sẽ được huấn luyện để không phản hồi khi có các truy vấn tương tự trong tương lai.
Đội đỏ có thể được coi như những chuyên gia kiểm thử phần mềm, đóng góp vào việc cải thiện tính ổn định và an toàn của các mô hình AI, giúp tránh những vấn đề khi chúng hoạt động trong thực tế.
Theo Daniel Fabian, người đứng đầu đội đỏ tại Google, mô hình AI khác biệt hoàn toàn so với bảo mật truyền thống. Bên cạnh việc đặt ra các câu hỏi độc hại để huấn luyện, thành viên của đội đỏ còn phải thực hiện các chiến thuật như trích xuất dữ liệu đào tạo, chủ yếu là thông tin nhận dạng cá nhân như tên, địa chỉ và số điện thoại.
Họ cũng tiến hành "đầu độc" tập dữ liệu bằng cách thay đổi một phần nội dung trước khi sử dụng để huấn luyện mô hình AI.
Hiện tại, lĩnh vực này vẫn đang ở giai đoạn sơ khai và chưa được phát triển rộng rãi.
Do đó, ở giai đoạn đầu này, các nhóm nghiên cứu và phát triển AI thường có xu hướng hợp tác và chia sẻ thông tin về những vấn đề họ đã phát hiện, nhằm cùng nhau cải thiện tính an toàn và đáng tin cậy của trí tuệ Nhân tạo.
 


Đăng nhập một lần thảo luận tẹt ga

Gợi ý cộng đồng

Top