Robot tích hợp AI có thể dọn bếp thay con người, cùng nhau dọn dẹp vệ sinh nhà cửa

The Storm Riders
The Storm Riders
Phản hồi: 0
Công ty Figure AI đã trình diễn khả năng của mô hình thị giác-ngôn ngữ-hành động (visual-language-action - VLA) Helix trong một nhiệm vụ gia đình đơn giản: cất đồ tạp hóa. Được khởi động chỉ bằng một lời nhắc duy nhất từ con người, các robot trong video của công ty đã đánh giá trực quan khung cảnh và sau đó hợp tác để xác định từng vật thể và di chuyển chúng đến vị trí thích hợp trong nhà bếp.

Có một vài điểm đáng chú ý từ video: Đầu tiên, các robot làm việc độc lập với các món đồ đặt trước mặt chúng, cho đến khi rõ ràng một robot cần chuyển giao một vài món đồ đến vị trí trong tầm với của robot kia.

Thứ hai, các robot không giao tiếp bằng lời nói, nhưng có những khoảng dừng đáng chú ý trong tương tác của chúng, nơi chúng nhìn chằm chằm vào nhau trong một tương tác "thần giao cách cảm" (telepathic) kỳ lạ. Figure cho biết kiến trúc AI giám sát chia mục tiêu tổng thể thành các nhiệm vụ phụ nhỏ hơn đồng thời điều khiển từng robot một cách độc lập.

Đây là một trong những lần đầu tiên chúng ta thấy hai robot hình người làm việc cộng tác với nhau.


Để hoàn thành nhiệm vụ được yêu cầu, các robot đã đóng ngăn kéo, đóng cửa tủ lạnh và đặt một cái bát vào bên cạnh quầy. Đây là những nhiệm vụ phụ vốn trực quan đối với con người, nhưng chúng không được chỉ định trong yêu cầu. Figure cho biết điều này đã chứng minh tính đầy đủ của các hành động huấn luyện. Trong bài viết blog riêng biệt, công ty đã giải thích kiến trúc cho hệ thống Helix giám sát dành cho các robot trong bản demo. Trái tim của hệ thống Helix là mô hình VLA, mà công ty cho biết đang nổi lên như một công nghệ chủ chốt cho tất cả các nhà sản xuất robot hình người.

The Robot Report đã chứng kiến buổi trình diễn đầu tiên về việc robot được hướng dẫn dựa trên Mô hình Ngôn ngữ Lớn (LLM) trên sân khấu tại sự kiện RoboBusiness 2023 ở Santa Clara, Calif. Trong bài phát biểu chính, Pras Velagapudi, giám đốc công nghệ tại Agility Robotics, đã làm khán giả kinh ngạc với một video cho thấy robot hình người Digit dọn dẹp một căn phòng bừa bộn bằng cách phản hồi một lệnh thoại đơn giản "Dọn dẹp phòng đi.”

Buổi trình diễn Figure Helix này không kém phần ấn tượng sau một năm rưỡi bởi vì giờ đây nó đang chạy trực tiếp trên robot (onboard), và vì VLA đã được mã hóa và thử nghiệm đầy đủ. Figure cho biết họ đã tạo ra VLA bằng cách thu thập khoảng 500 giờ dữ liệu chất lượng cao, đa robot, đa người vận hành về các hành vi điều khiển từ xa đa dạng.

1743577841600.png


Để tạo ra các cặp huấn luyện dựa trên điều kiện ngôn ngữ tự nhiên, công ty đã sử dụng một VLA tự động gán nhãn (auto-labeling) để tạo ra các hướng dẫn nhìn lại (hindsight instructions). VLA đã xử lý các đoạn video được phân đoạn từ camera trên robot và được gợi ý bằng câu hỏi: "Bạn sẽ đưa ra hướng dẫn nào cho robot để thực hiện hành động được thấy trong video này?"

Mô hình Helix VLA của Figure đại diện cho một tiến bộ đáng kể trong lĩnh vực robot và AI, đặc biệt là ở cách nó khác biệt so với các mô hình VLA trước đây. Dưới đây là phân tích các điểm khác biệt chính của nó:

  1. Kiểm soát toàn bộ phần thân trên
    • Sự khéo léo: Figure đã chứng minh mô hình Helix VLA cung cấp khả năng kiểm soát liên tục, tốc độ cao đối với toàn bộ phần thân trên của robot hình người. Điều này bao gồm thân, đầu, cổ tay và các ngón tay riêng lẻ, tự hào có 35 bậc tự do (DoF). Mức độ khéo léo này dường như cho phép thao tác các vật thể phức tạp và tinh tế hơn so với các mô hình trước đây.
    • Chuyển động giống người: Khả năng kiểm soát toàn bộ phần thân trên cho phép Helix thực hiện các nhiệm vụ với chuyển động và sự phối hợp giống người hơn. Ví dụ, nó có thể dùng đầu theo dõi tay để căn chỉnh thị giác và điều chỉnh thân mình để tối ưu tầm với trong khi vẫn duy trì các chuyển động ngón tay chính xác để cầm nắm.
  2. Cộng tác đa robot
    • Nhiệm vụ hợp tác: Figure đã trình diễn Helix hoạt động đồng thời trên hai robot, cho phép chúng cộng tác trong các nhiệm vụ chung. Điều này mở ra khả năng cho các hành động phức tạp và phối hợp hơn, chẳng hạn như hai robot cùng nhau cất đồ tạp hóa hoặc lắp ráp một món đồ nội thất.
    • Khả năng khái quát hóa không cần mẫu (Zero-shot generalization): Dựa trên thiết lập của buổi trình diễn, các robot cộng tác trong các nhiệm vụ liên quan đến các vật thể mà chúng chưa bao giờ (được cho là) gặp phải trước đây. Nếu robot chưa từng thấy những vật thể này, thì điều đó chứng tỏ khả năng của mô hình trong việc khái quát hóa và thích ứng với các tình huống mới.
  3. Khả năng 'nhặt mọi thứ'
    • Nhận dạng đối tượng chung: Buổi trình diễn cho thấy Helix cho phép robot hình người của Figure xác định và thao tác với một loạt các vật dụng gia đình. Việc sử dụng VLA là một cải tiến so với các mô hình trước đây thường yêu cầu huấn luyện cụ thể cho từng đối tượng.
    • Lời nhắc bằng ngôn ngữ tự nhiên: Robot đã chứng minh khả năng hiểu và phản hồi các lệnh bằng ngôn ngữ tự nhiên, cho phép người dùng hướng dẫn nó "nhặt món tráng miệng" (“pick up the desert item”) hoặc "đưa túi bánh quy cho robot bên phải bạn" (“hand the bag of cookies to the robot on your right”) mà không cần cung cấp hướng dẫn chi tiết.
  4. Mạng nơ-ron thống nhất
    • Một mô hình duy nhất cho mọi hành vi: Không giống như các phương pháp trước đây thường yêu cầu các mô hình riêng biệt cho các nhiệm vụ khác nhau, Helix dường như sử dụng một bộ trọng số mạng nơ-ron duy nhất để xử lý tất cả các hành vi. Điều này đơn giản hóa mô hình và làm cho nó hiệu quả hơn.
    • Không cần tinh chỉnh theo nhiệm vụ cụ thể: Helix có thể thực hiện một loạt các nhiệm vụ mà không cần phải tinh chỉnh (fine-tune) cho từng nhiệm vụ cụ thể. Điều này làm cho nó dễ thích ứng và dễ sử dụng hơn trong các môi trường khác nhau, Figure cho biết.
  5. Sẵn sàng thương mại hóa
    • Xử lý trên bo mạch (Onboard processing): Helix chạy hoàn toàn trên các GPU nhúng trong robot hình người Figure 02 với mức tiêu thụ điện năng thấp, làm cho nó phù hợp để triển khai trong thế giới thực mà không cần dựa vào tài nguyên máy tính bên ngoài. Đây là một bước quan trọng để đưa robot hình người trở nên khả thi về mặt thương mại để sử dụng trong gia đình và các môi trường khác.
    • Giảm độ trễ: Việc xử lý trên bo mạch giúp giảm độ trễ, cho phép robot phản ứng nhanh với các lệnh và tương tác với môi trường của nó trong thời gian thực.
1743577855973.png


Figure đã công bố vào cuối năm 2024 rằng robot của họ đang chuyển từ giai đoạn phát triển và thử nghiệm sang sử dụng thương mại và đã giao hệ thống Figure 02 cho một khách hàng trả tiền.

Figure AI đã giành được giải thưởng RBR50 năm 2024 cho tốc độ đổi mới nhanh chóng của mình. Kể từ khi ra mắt công chúng (emerging from stealth) vào tháng 1 năm 2023, công ty có trụ sở tại Sunnyvale, Calif. đã xây dựng và lặp lại trên một robot hình người hoạt động và thử nghiệm robot của mình trên dây chuyền sản xuất.

Tháng trước, Figure cho biết họ có kế hoạch chứng nhận pin, hệ thống điều khiển an toàn chức năng và hệ thống điện của robot theo các tiêu chuẩn an toàn công nghiệp. Công ty cũng khẳng định rằng họ dự định xuất xưởng 100.000 robot hình người trong bốn năm tới và được cho là đang đàm phán để huy động 1,5 tỷ USD.

#robothìnhngười
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top