3D-LLM: Cho phép chatbot AI giải thích thế giới 3D

Mr. Macho · 02/08/2023

Ngày 1/8, nhóm các nhà nghiên cứu người gốc Trung Quốc hiện đang nghiên cứu và học tập tại các trường ĐH Mỹ và Trung Quốc đã giới thiệu một cách tiếp cận mới được gọi là 3D-LLM để tích hợp sự hiểu biết về môi trường 3D vào các mô hình ngôn ngữ lớn. Điều này có nghĩa là chatbot sẽ có thể hiểu và xử lý các khái niệm về không gian 3D, do đó điều hướng và vận hành tốt hơn trong thế giới 3D.

3D-LLM: Cho phép chatbot AI giải thích thế giới 3D

Các mô hình ngôn ngữ lớn và đa chế độ có thể xử lý hình ảnh bằng giọng nói và 2D như ChatGPT, GPT-4 và Flamingo. Tuy nhiên, các mô hình này thiếu sự hiểu biết thực sự về môi trường 3D và không gian vật lý. Các nhà nghiên cứu bây giờ đề xuất một cách mới được gọi là 3D LLM để giải quyết vấn đề này.
3D LLM được thiết kế để cung cấp khái niệm không gian 3D cho AI bằng cách sử dụng dữ liệu 3D như đám mây điểm làm đầu vào. Bằng cách này, các mô hình ngôn ngữ đa mô hình nên hiểu các khái niệm như mối quan hệ không gian, vật lý và khả năng phục vụ, mà rất khó để nắm bắt chỉ dựa trên hình ảnh 2D. 3D LLM cho phép trợ lý AI điều hướng, lập kế hoạch và hành động tốt hơn trong thế giới 3D, chẳng hạn như trong công nghệ robot và trí tuệ nhân tạo vật lý.
Để đào tạo mô hình, nhóm cần thu thập đủ số lượng cặp dữ liệu 3D và ngôn ngữ tự nhiên - các bộ dữ liệu như vậy bị hạn chế so với các cặp văn bản hình ảnh trên mạng. Do đó, nhóm nghiên cứu đã phát triển các kỹ thuật gợi ý cho ChatGPT để tạo ra các mô tả và cuộc trò chuyện 3D khác nhau.
Kết quả là một tập dữ liệu với hơn 300.000 mẫu văn bản 3D bao gồm các tác vụ như đánh dấu 3D, trả lời các câu hỏi trực quan, phân hủy nhiệm vụ và điều hướng. Ví dụ, ChatGPT được yêu cầu mô tả cảnh phòng ngủ 3D bằng cách đặt câu hỏi về các đối tượng có thể nhìn thấy từ các góc độ khác nhau.

Nhóm nghiên cứu sau đó đã phát triển trình trích xuất tính năng 3D để chuyển đổi dữ liệu 3D sang các định dạng tương thích với các mô hình ngôn ngữ hình ảnh 2D được đào tạo sẵn, chẳng hạn như BLIP-2 và Flamingo.

Ngoài ra, các nhà nghiên cứu sử dụng cơ chế định vị 3D cho phép các mô hình nắm bắt thông tin không gian bằng cách liên kết mô tả văn bản với tọa độ 3D. Điều này cũng thúc đẩy việc sử dụng các mô hình như BLIP-2 để đào tạo hiệu quả LLM 3D để hiểu các kịch bản 3D.
Kết quả thử nghiệm cho thấy mô hình ngôn ngữ 3D có thể tạo ra một mô tả ngôn ngữ tự nhiên của cảnh 3D, thực hiện các cuộc hội thoại nhận thức 3D và chia các nhiệm vụ phức tạp thành các hành động 3D. Điều này cho thấy trí tuệ nhân tạo có tiềm năng phát triển nhận thức về môi trường 3D gần gũi hơn với con người bằng cách kết hợp khả năng lý luận không gian.
Các nhà nghiên cứu có kế hoạch mở rộng mô hình này sang các mô hình dữ liệu khác, chẳng hạn như âm thanh và đào tạo chúng để thực hiện các tác vụ khác. Điều này sẽ cải thiện hơn nữa khả năng của trợ lý AI trong một môi trường đa chế độ. Mục tiêu cuối cùng là áp dụng những tiến bộ này vào các trợ lý AI cụ thể có thể tương tác với thông minh môi trường 3D. Điều này có nghĩa là có thể có robot thông minh hơn và các ứng dụng AI cụ thể trong tương lai.