VnReview
Hà Nội

Máy học của OpenAI bị đánh lừa chỉ bằng một mẩu giấy ghi chú viết tay

Dường như thị giác máy tính có góc nhìn vẫn rất khác con người và nó hoàn toàn có thể bị lừa chỉ bằng một vài chiêu trò cơ bản.

Các nhà nghiên cứu từ phòng thí nghiệm máy học OpenAI đã phát hiện ra rằng, hệ thống thị giác máy tính hiện đại có thể bị đánh lừa ngay cả với các công cụ không hề phức tạp như một cây bút và một tấm lót. Như minh họa có thể thấy, chỉ cần viết ra tên của một đối tượng và dán nó lên một đối tượng khác có thể đủ để đánh lừa phần mềm xác định sai những gì nó nhìn thấy.

Các nhà nghiên cứu tại OpenAI chia sẻ trên blog: "Chúng tôi gọi những cuộc tấn công này là những cuộc tấn công typographic. Bằng cách khai thác khả năng đọc văn bản của mô hình, chúng tôi nhận thấy rằng ngay cả những bức ảnh chụp văn bản viết tay cũng có thể đánh lừa mô hình". Họ lưu ý thêm, các cuộc tấn công tương tự sử dụng "hình ảnh đối thủ" có thể đánh lừa các hệ thống thị giác thương mại.

Hình ảnh đối nghịch thực sự nguy hiểm đối với các hệ thống dựa vào thị giác máy tính. Ví dụ, các nhà nghiên cứu đã chỉ ra rằng, họ có thể đánh lừa phần mềm của xe tự lái Tesla để chuyển làn đường mà không cần cảnh báo chỉ bằng cách đặt một số nhãn dán trên đường.

Các cuộc tấn công này rất nguy hiểm đối với nhiều ứng dụng AI, từ y tế đến quân sự. Nhưng mối nguy hiểm từ các cuộc tấn công dạng này có vẻ như chưa đáng lo ngại tại thời điểm này. Mô hình được OpenAI nhắc đến là một hệ thống thử nghiệm có tên CLIP và hiện không được triển khai trong bất kỳ sản phẩm thương mại nào. Nhiều khả năng chính kiến trúc máy học khác thường của CLIP là điểm yếu khiến nó bị đánh lừa.

Hệ thống CLIP được tạo ra nhằm xác định các đối tượng mà không cần giám sát chặt chẽ thông qua đào tạo với bộ cơ sở dữ liệu hình ảnh và văn bản khổng lồ. OpenAI đã sử dụng khoảng 400 triệu cặp văn bản hình ảnh được lấy từ internet để đào tạo CLIP.

Các nhà nghiên cứu OpenAI mô tả, họ đã khám phá ra cái gọi là "tế bào thần kinh đa phương thức", đó là các thành phần riêng lẻ trong mạng máy học và nó không chỉ phản hồi với hình ảnh của các đối tượng mà còn cả các bản phác thảo, phim hoạt hình và văn bản. Nhìn chung nó có vẻ đang phản ánh cách bộ não con người phản ứng với các kích thích vì các tế bào não đơn lẻ thường phản ứng với các khái niệm trừu tượng hơn là các ví dụ cụ thể. Nghiên cứu của OpenAI cho thấy, hệ thống AI thu thập kiến ​​thức giống như cách của con người.

Tế bào thần kinh đa phương thức của CLIP phản ứng trước bức ảnh của các vật thể và văn bản

Một ví dụ khác là nơ-ron trong CLIP xác định các con heo đất. Nó không chỉ phản ứng với hình ảnh con heo đất mà còn cả những chuỗi ký hiệu tờ đô la. Như trong ví dụ trên, điều đó có nghĩa là bạn có thể đánh lừa CLIP xác định cưa máy là con heo đất nếu bạn phủ lên nó các tờ giấy có in hình "$$$".

Các nhà nghiên cứu cũng phát hiện ra rằng các tế bào thần kinh đa phương thức của CLIP đã mã hóa chính xác kiểu thành kiến ​​mà bạn thường gặp trên internet. Nhóm cho biết, tế bào thần kinh liên kết cụm từ "Trung Đông" với khủng bố và một tế bào thần kinh thậm chí còn liên kết cả người da đen và khỉ đột.

Đây là một lỗi lặp lại nổi tiếng trong hệ thống nhận dạng hình ảnh của Google đã từng bị lên án trước đây. Nghiên cứu mới của các nhà nghiên cứu tại OpenAI đã phần nào làm sáng tỏ sự khác biệt giữa trí thông minh của máy học với trí thông minh của con người, đồng thời chỉ ra lý do tại sao nên tách trí thông minh ra để hiểu cách hoạt động của nó trước khi tin tưởng giao cuộc sống của chúng ta cho AI kiểm soát.

Tiến Thanh (Theo The Verge)

Chủ đề khác