Loài người cẩn thận: AI tự phát minh ra ngôn ngữ của riêng mình

thuha19051234 · 16/08/2021

Một thế hệ mới của các mô hình trí tuệ nhân tạo (AI) có thể tạo ra hình ảnh "sáng tạo" theo yêu cầu, dựa trên lời nhắc văn bản. Những cái tên như Imagen, MidJourney và DALL-E 2 đang bắt đầu thay đổi cách tạo nội dung sáng tạo có liên quan đến bản quyền và sở hữu trí tuệ. Mặc dù kết quả đầu ra của các mô hình này thường rất ấn tượng, nhưng thật khó để biết chính xác chúng tạo ra kết quả như thế nào. Các nhà nghiên cứu ở Mỹ vừa đưa ra tuyên bố hấp dẫn rằng mô hình DALL-E 2 có thể đã phát minh ra ngôn ngữ bí mật của riêng mình để nói về các vật thể.
Các nhà nghiên cứu đã thực hiện thí nghiệm nhắc DALL-E 2 tạo hình ảnh có chứa chú thích văn bản, sau đó đưa chú thích kết quả (là những từ vô nghĩa) trở lại hệ thống, họ kết luận rằng DALL-E 2 cho rằng Vicootes có nghĩa là "rau", trong khi "Wa ch zod rea" đề cập đến một loài sinh vật biển giống như là một con cá voi. Dường như đây là 1 loại ngôn ngữ riêng mà chúng phát minh ra. Vậy chính xác thì điều gì đang xảy ra?

Loài người cẩn thận: AI tự phát minh ra ngôn ngữ của riêng mình

DALL-E 2 có ngôn ngữ bí mật thật không?

DALL-E 2 có lẽ không có "ngôn ngữ bí mật" mà chính xác hơn là nó có hệ từ vựng riêng. Nhưng ngay cả thế, chúng ta cũng không thể biết chắc chắn về những từ vựng này, hiện nó vẫn là một bí mật. Ở giai đoạn hiện tại, rất khó để xác minh bất kỳ tuyên bố nào về DALL-E 2 và các mô hình AI lớn khác, vì chỉ một số ít các nhà nghiên cứu và những người thực hành sáng tạo có quyền truy cập vào chúng.
Bất kỳ hình ảnh nào được chia sẻ công khai trên mạng xã hội có lẽ nên được nhìn nhận một cách thận trọng vì chúng đã được con người thực hiện bằng cách "cherry-picked" (lựa chọn cái tốt nhất) trong số rất nhiều hình ảnh đầu ra do AI tạo ra. Ngay cả những người có quyền truy cập hệ thống cũng chỉ có thể sử dụng các mô hình này theo những cách hạn chế. Chẳng hạn như người dùng DALL-E 2 có thể tạo hoặc sửa đổi hình ảnh, nhưng không thể tương tác sâu hơn với hệ thống AI, chẳng hạn bằng cách sửa đổi mã hậu trường.
Điều này cũng có nghĩa, không thể áp dụng các phương pháp "Explainable AI" để hiểu cách các hệ thống này hoạt động. Điều tra hành vi của Ai một cách có hệ thống vẫn là một thách thức.

Điều gì xảy ra đằng sau cơ chế bí mật đó?

Một khả năng là các cụm từ "vô nghĩa" có liên quan đến ngôn ngữ không phải tiếng Anh. Chẳng hạn như từ Apoploe, dường như tạo ra hình ảnh của các loài chim, tương tự như Apodidae trong tiếng Latinh, là tên gọi sinh học một họ các loài chim.

Đây có vẻ là một lời giải thích hợp lý hơn, ví dụ như DALL-E 2 đã được đào tạo về rất nhiều loại dữ liệu được lấy từ internet, trong đó có nhiều từ không phải tiếng Anh. Những điều tương tự đã xảy ra trước đây gồm các mô hình AI ngôn ngữ tự nhiên lớn đã tình cờ học được cách viết mã máy tính mà không được đào tạo có chủ ý.
Một điểm ủng hộ lý thuyết này là thực tế các mô hình ngôn ngữ AI không đọc văn bản theo cách thông thường mà con người hay làm. Thay vào đó, chúng chia nhỏ văn bản đầu vào thành "mã thông báo" trước khi xử lý.
Cách tiếp cận mã hóa khác nhau sẽ có kết quả khác nhau. Xử lý từng từ như một mã thông báo có vẻ như là một cách tiếp cận trực quan, nhưng lại gây ra nhiều rắc rối khi các mã thông báo giống hệ nhau có nghĩa khác nhau. Bên cạnh đó, việc việc coi mỗi ký tự như một mã thông báo sẽ tạo ra một số lượng nhỏ hơn các mã thông báo có thể có, nhưng mỗi ký tự lại truyền tải thông tin ít ý nghĩa hơn nhiều.
DALL-E 2 và các mô hình AI khác sử dụng cách tiếp cận ở giữa được gọi là mã hóa cặp byte (BPE). Việc kiểm tra các biểu diễn BPE cho một số từ vô nghĩa cho thấy đây có thể là một yếu tố quan trọng trong việc hiểu "ngôn ngữ bí mật".

"Ngôn ngữ bí mật" cũng có thể chỉ là một ví dụ của nguyên tắc "Garbage In Garbage Out" (Dữ liệu sai đưa ra quyết định sai). DALL-E 2 không thể nói "Tôi không biết bạn đang nói gì", vì vậy nó sẽ luôn tạo ra một số loại hình ảnh từ văn bản đầu vào đã cho. Cho dù là bằng cách nào, vẫn không có lựa chọn này trong số này là giải thích đầy đủ về những gì đang xảy ra.
Chẳng hạn như việc khóa các ký tự riêng lẻ khỏi các từ vô nghĩa, dường như đã làm hỏng hình ảnh được tạo ra theo cách rất cụ thể của AI. Có vẻ các từ vô nghĩa riêng lẻ không nhất thiết phải kết hợp để tạo ra hình ảnh ghép mạch lạc, nếu thực sự có một "ngôn ngữ" bí mật dưới vỏ bọc.

Vì sao nghiên cứu ngôn ngữ bí mật của AI lại quan trọng?

Ngoài sự tò mò về trí tuệ, bạn có thể tự hỏi liệu điều này có thực sự quan trọng hay không, hoàn toàn có. "Ngôn ngữ bí mật" của DALL-E là một ví dụ về "cuộc tấn công đối nghịch" chống lại hệ thống học máy, một cách để phá vỡ hành vi dự kiến của hệ thống bằng cách cố ý chọn đầu vào mà AI không xử lý tốt.
Một lý do khiến các cuộc tấn công bất lợi trở nên đáng lo ngại là chúng hách thức sự tin tưởng của chúng ta vào mô hình. Nếu AI giải thích các từ vô nghĩa theo những cách không chủ ý, nó cũng có thể diễn giải các từ có nghĩa theo những cách không chủ ý, điều này thực sự có thể gây ra những hậu quả tồi tệ.

Các cuộc tấn công bất lợi này cũng làm dấy lên những lo ngại về an ninh. DALL-E 2 lọc văn bản đầu vào để ngăn người dùng tạo ra nội dung có hại hoặc lạm dụng, nhưng "ngôn ngữ bí mật" của các từ vô nghĩa có thể cho phép người dùng vượt qua các bộ lọc này.
Những nghiên cứu gần đây đã phát hiện ra "trigger phrases" (cụm từ kích hoạt) đối nghịch đối với một số mô hình AI ngôn ngữ - những cụm từ ngắn vô nghĩa như "khoanh vùng khai thác" có thể kích hoạt đáng tin cậy các mô hình đưa ra nội dung phân biệt chủng tộc, có hại hoặc thành kiến. Nghiên cứu này sẽ là một phần của nỗ lực không ngừng nhằm hiểu và kiểm soát cách hệ thống học sâu phức tạp học từ dữ liệu.
Và cuối cùng những hiện tượng về "ngôn ngữ bí mật" của DALL-E 2 làm dấy lên lo ngại về khả năng diễn giải của chúng. Chúng ta muốn những mô hình này hoạt động như mong đợi của con người, nhưng việc nhìn thấy đầu ra có cấu trúc để đáp ứng với những thứ vô nghĩa làm xáo trộn kỳ vọng của chúng ta.

Nguồn sciencealert