Wetour Robotics: Cuộc cách mạng giao diện, khi cơ thể bạn điều khiển AI

Derpy
Derpy
Phản hồi: 0

Derpy

Intern Writer
Bạn đã bao giờ ước mình có thể điều khiển một cỗ máy phức tạp chỉ bằng một cử chỉ tay nhẹ nhàng, hay thậm chí là ý định chưa thành lời, trong khi đôi tay vẫn đang bận rộn với công việc? Đó không còn là viễn cảnh xa vời nữa, bởi Wetour Robotics đang xây dựng một tương lai nơi chính cơ thể bạn trở thành giao diện điều khiển mạnh mẽ nhất.

Trong ba năm trở lại đây, chúng ta đã chứng kiến những bước tiến vượt bậc trong lĩnh vực Trí tuệ nhân tạo vật lý (Physical AI). Các công ty như Boston Dynamics, Figure hay Unitree đã đẩy giới hạn của bộ truyền động, khả năng di chuyển và sự khéo léo của robot lên một tầm cao mới, điều mà một thập kỷ trước dường như là không thể. Ngay cả Google DeepMind với Gemini Robotics cũng đã định nghĩa lại khả năng của các mô hình thị giác-ngôn ngữ-hành động trong những môi trường không có cấu trúc. Rõ ràng, sự phát triển của phần cứng và các mô hình nền tảng đang diễn ra với tốc độ chóng mặt.
1780623810433.png

Thế nhưng, có một khía cạnh khác của vòng lặp tương tác giữa con người và máy móc đã bị bỏ quên quá lâu. Suốt 40 năm qua, giao diện người dùng mặc định vẫn chỉ xoay quanh ba phương thức nhập liệu chính: màn hình, nút bấm và giọng nói. Vấn đề là, tất cả những phương thức này đều đòi hỏi người dùng phải dừng công việc, nhìn xuống và chuyển đổi ý định thành các lệnh có cấu trúc. Giả định này hoàn toàn sụp đổ khi công việc diễn ra trong môi trường thực tế, chẳng hạn như một kỹ thuật viên đang làm việc trên tuabin gió, một nhân viên kho bãi đang điều khiển xe nâng, hay một người dùng thiết bị hỗ trợ di chuyển trên đường phố đông đúc. Trong bất kỳ tình huống nào mà đôi tay bận rộn, ánh mắt phải tập trung hoặc việc nói chuyện là không thực tế, các giao diện truyền thống đều trở nên vô dụng.

Theo Wetour Robotics, nút thắt cổ chai trong tương tác người-máy giờ đây không còn nằm ở khả năng của robot nữa, mà là ở phía con người. Câu hỏi đặt ra không phải là làm thế nào để robot thông minh hơn, mà là làm thế nào để con người có thể tham gia vào hệ thống máy tính một cách tự nhiên nhất, giống như cách robot vẫn đang làm.

Wetour Robotics tin rằng bước nhảy vọt kiến trúc tiếp theo trong Physical AI không phải là làm cho robot có năng lực hơn, mà là biến con người thành một "nút" hạng nhất trong mạng lưới máy tính, với khả năng tham gia độ trễ thấp và độ trung thực cao tương tự như các thiết bị kết nối khác. Các kỹ sư của Wetour Robotics giải thích rằng một chiếc vòng tay nhận diện cử chỉ hay một camera nhận diện cảnh vật thôi là chưa đủ. Thông tin về ý định của con người được phân tán qua nhiều kênh, bao gồm vị trí cơ thể trong không gian, những gì mắt đang nhìn và những gì cơ bắp đang chuẩn bị thực hiện. Việc quan sát từng kênh riêng lẻ sẽ dẫn đến sự mơ hồ. Để tái tạo ý định một cách đáng tin cậy, cần phải hợp nhất các kênh này ở cấp độ hệ điều hành, với độ trễ đủ thấp để vòng lặp điều khiển diễn ra tự nhiên, không bị gián đoạn.

Cách tiếp cận này được Wetour Robotics gọi là "Spatial Intent Fusion" – sự xử lý đồng thời ba luồng thông tin tập trung vào con người: vị trí không gian, ngữ cảnh thị giác và ý định cử chỉ. Tất cả được hợp nhất thành một lệnh thời gian thực duy nhất cho bất kỳ thiết bị vật lý được kết nối nào. Đây là nền tảng kỹ thuật đằng sau tuyên bố đơn giản mà công ty thường dùng: cơ thể bạn là giao diện.

Để hiện thực hóa tầm nhìn này, Wetour Robotics đã phát triển Orchestra, một nền tảng đa lớp chứ không phải một thiết bị đơn lẻ. Orchestra được thiết kế linh hoạt về cảm biến và không phụ thuộc vào bộ truyền động. Nền tảng này bao gồm ba lớp nhận thức và bốn công cụ điều phối.

Orchestra là một trung tâm thông minh di động, chạy hệ điều hành xử lý việc hợp nhất cảm biến (sensor fusion), suy luận ý định, dịch lệnh và phân xử an toàn. Nền tảng tính toán tham chiếu là NVIDIA Jetson Orin Nano Super, cung cấp đủ năng lực suy luận trên thiết bị để giữ toàn bộ vòng lặp điều khiển ở biên (edge), không phụ thuộc vào đám mây trong đường dẫn quan trọng. Việc suy luận tại biên là yếu tố không thể thiếu cho ứng dụng này. Độ trễ toàn chuỗi từ việc thu nhận tín hiệu sinh học đến lệnh truyền động được giữ dưới 100 mili giây, ngưỡng mà trong đó điều khiển vòng kín mang lại cảm giác tự nhiên, không bị giật lag.

Lớp VisionLink chịu trách nhiệm về nhận thức thị giác và không gian. Các camera cấp dữ liệu cho các mô hình thị giác để nhận diện vật thể, ước tính khoảng cách và theo dõi ngữ cảnh môi trường. VisionLink không chỉ là một lớp nhận diện thụ động mà còn là một bộ tạo lệnh thời gian thực, đầu ra của nó được đưa trực tiếp vào hệ điều hành Orchestra để hợp nhất với dữ liệu tín hiệu sinh học.

Conductor là đường ống xử lý tín hiệu sinh học. Nó thu nhận dữ liệu điện cơ bề mặt (sEMG) thô từ một thiết bị đeo ở cổ tay, phân loại các mẫu thời gian thành các cử chỉ rời rạc hoặc tín hiệu điều khiển liên tục, sau đó xuất ra các lệnh truyền động. Đặc tính kỹ thuật thú vị của sEMG trong trường hợp này là tín hiệu xuất hiện trước khi có chuyển động nhìn thấy được. Điện thế hoạt động của đơn vị vận động xuất hiện trên bề mặt da khoảng 50 đến 80 mili giây trước khi ngón tay hoàn thành cử chỉ tương ứng. Wetour Robotics gọi đây là khả năng "cảm biến ý định trước chuyển động", cho phép Orchestra dự đoán ý định của người dùng thay vì chỉ phản ứng lại.

Trên ba lớp nhận thức này, hệ điều hành Orchestra vận hành bốn công cụ điều phối. Công cụ Nhận thức (Perception Engine) thu nhận và chuẩn hóa các luồng cảm biến thô. Công cụ Ý định (Intent Engine) thực hiện Spatial Intent Fusion trên các phương thức, giải quyết xem người dùng đang cố gắng làm gì dựa trên vị trí của họ, những gì họ đang nhìn và tín hiệu từ tay họ. Công cụ Điều phối (Orchestration Engine) dịch ý định thành các chuỗi lệnh cụ thể cho thiết bị truyền động được kết nối. Cuối cùng, Công cụ An toàn (Safety Engine) phân xử các lệnh xung đột, thực thi các giới hạn hoạt động và kiểm soát việc thực thi dựa trên các điều kiện an toàn trong thời gian chạy.

Wetour Robotics cũng thẳng thắn thừa nhận rằng không có hệ thống nào kết nối cơ thể con người và thế giới kỹ thuật số là hoàn hảo ngay từ đầu. Ba thách thức kỹ thuật lớn vẫn còn đó và công ty đã đưa ra những đánh đổi có chủ đích thay vì tuyên bố đã giải quyết hoàn toàn.

Đầu tiên là sự ổn định cơ bản của tín hiệu sEMG khi người dùng di chuyển. Với người dùng đứng yên, việc nhận diện cử chỉ liên tục từ sEMG là đáng tin cậy. Tuy nhiên, khi người dùng đi bộ, leo trèo hoặc di chuyển, các nhiễu động và sự trôi điện cực làm suy giảm tín hiệu theo những cách khó bù đắp hoàn toàn. Thay vì hứa hẹn quá mức về khả năng điều khiển liên tục trong môi trường động, Orchestra ưu tiên một bộ cử chỉ rời rạc mạnh mẽ hơn trong các môi trường hoạt động phức tạp, và dành chế độ điều khiển liên tục cho những ngữ cảnh có tỷ lệ tín hiệu trên nhiễu tốt hơn.

Thứ hai là việc thu nhỏ điện toán AI biên. Việc chạy toàn bộ vòng lặp điều khiển của Orchestra ở biên đòi hỏi khả năng suy luận thực sự trên thiết bị, điều mà trước đây thường phải đánh đổi giữa năng lực tính toán, thời lượng pin và kích thước. Cách tiếp cận của Wetour Robotics là một bo mạch chủ nhỏ gọn kết hợp với thiết kế tản nhiệt và mô-đun pin được tối ưu cho việc đeo cả ngày. Kết quả là một trung tâm di động theo người dùng, không cần phải gắn với bàn làm việc, và thực hiện toàn bộ vòng lặp từ nhận thức đến truyền động mà không cần tải lên đám mây.

Thứ ba là sự đa dạng của các giao thức thiết bị bên thứ ba. Phía truyền động của vòng lặp là một bức tranh rời rạc. Các nhà sản xuất khác nhau cung cấp các giao diện lệnh, ngăn xếp giao tiếp và quy ước an toàn khác nhau. Một hệ điều hành Physical AI phải tích hợp được với tất cả chúng. Wetour Robotics sử dụng một lớp tác nhân AI để đàm phán kết nối và dịch giao thức một cách thích ứng, giúp hệ điều hành Orchestra có thể thu nhận dữ liệu từ nhiều loại thiết bị, chạy chúng qua các mô hình mạng nơ-ron để suy luận ý định của con người và phát ra lệnh chính xác theo đúng giao thức cho thiết bị ở đầu bên kia.

Lịch sử điện toán là lịch sử của các cuộc cách mạng giao diện. Từ dòng lệnh đến giao diện đồ họa, rồi đến cảm ứng và giọng nói. Mỗi sự chuyển đổi đều mở rộng đối tượng người dùng và những gì họ có thể làm với hệ thống. Sự chuyển đổi tiếp theo không phải là về một màn hình mới hay một micro mới. Đó là về việc coi chính cơ thể con người như một thành phần tham gia vào mạng lưới máy tính, có khả năng đóng góp ý định với cùng tốc độ và độ trung thực như bất kỳ nút kết nối nào khác.

Con đường này không cạnh tranh với công việc đang được thực hiện trên robot hình người, các mô hình nền tảng cho AI thể hiện và thao tác khéo léo. Ngược lại, nó là một phần bổ sung còn thiếu cho những công việc đó. Vấn đề khó khăn nhất đối với các hệ thống hình người là dữ liệu: mọi tương tác tự nhiên giữa con người và thế giới vật lý đều là một tín hiệu huấn luyện tiềm năng, và hầu hết những tương tác đó hiện đang vô hình đối với bất kỳ hệ thống máy tính nào. Khi nhiều người trở thành "nút" hạng nhất trong vòng lặp, những tương tác đó sẽ trở nên có thể quan sát được, có cấu trúc và cuối cùng là hữu ích để huấn luyện thế hệ AI thể hiện tiếp theo, bao gồm cả các robot hình người đang được phát triển ngày nay.

Nói cách khác, việc đưa con người trở lại vòng lặp tính toán không chỉ là về các giao diện tốt hơn cho người dùng cá nhân. Đó còn là về việc tạo ra loại dữ liệu tương tác người-máy thực tế, trong môi trường tự nhiên mà hệ sinh thái Physical AI rộng lớn hơn sẽ cần để tiếp tục phát triển. Phía robot và phía con người của vòng lặp không phải là hai tương lai cạnh tranh. Chúng là hai nửa của cùng một tổng thể.

Đó chính là ý nghĩa khi Wetour Robotics nói: Cơ thể bạn là giao diện.

Wetour Robotics là một công ty cơ sở hạ tầng AI vật lý và robot đeo được, có trụ sở tại Austin, Texas. Công ty đang phát triển Orchestra như một nền tảng phần cứng và hệ điều hành tích hợp, kết nối ý định của con người với các thiết bị vật lý.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top