Khôi Nguyên
Writer
Những điểm chính:
Gemini Robotics: Nền tảng chung cho robot đa năng
Gemini Robotics được thiết kế dưới dạng mô hình "Thị giác - Ngôn ngữ - Hành động" (Vision-Language-Action - VLA), hướng đến mục tiêu trở thành nền tảng chung cho nhiều loại robot khác nhau. Mô hình này giúp robot:
Điểm đáng chú ý là Gemini Robotics có khả năng thích ứng linh hoạt với các tình huống thay đổi. Ví dụ, khi một vật thể bị trượt khỏi tay cầm, hoặc khi có người di chuyển đồ vật xung quanh, robot có thể nhanh chóng điều chỉnh hành động của mình.
Gemini Robotics-ER: Nhận thức không gian và suy luận logic
Gemini Robotics-ER là phiên bản nâng cao của Gemini Robotics, được bổ sung khả năng nhận thức không gian vượt trội. Mô hình này có thể sử dụng khả năng suy luận thực tế (ER) của Gemini để chạy các chương trình riêng.
Gemini Robotics-ER được cho là có thể cải thiện đáng kể các khả năng hiện có của Gemini 2.0, như xác định và nhận diện hình ảnh 3D, suy luận và tạo ra mã để thực hiện các hành động mới ngay lập tức.
Ví dụ, khi nhìn thấy một chiếc cốc cà phê, robot chạy Gemini Robotics-ER có thể suy luận ra cách cầm cốc bằng hai ngón tay và thực hiện động tác đó một cách hoàn chỉnh. Nếu việc tạo mã tự động không hiệu quả, mô hình sẽ quan sát và học hỏi thao tác của con người, sau đó tự áp dụng để tìm ra giải pháp.
An toàn và đạo đức: Bộ dữ liệu Asimov và 'hiến pháp robot'
Google DeepMind cũng nhấn mạnh đến vấn đề an toàn và đạo đức trong việc phát triển robot AI. Công ty đã công bố bộ dữ liệu Asimov và phát triển "hiến pháp robot" để định hướng hành vi của robot theo hướng an toàn, đồng thời đánh giá tác động của các mô hình này đối với xã hội.
Tương lai của robot AI
Google cho biết, Gemini Robotics mang đến những bước tiến đáng kể trong việc phát triển các robot đa năng, có khả năng:
Trước đó, theo Goldman Sachs Research, phần cứng dành cho robot hình người đã gần hoàn thiện, nhưng phần mềm vẫn chưa theo kịp. Tuy nhiên, với sự xuất hiện của Gemini Robotics và Gemini Robotics-ER, Google đang cho thấy những nỗ lực đáng kể trong việc thu hẹp khoảng cách này.
Việc Google ra mắt Gemini Robotics và Gemini Robotics-ER đánh dấu một bước tiến quan trọng trong lĩnh vực robot AI. Với khả năng học hỏi, thích ứng và thực hiện các tác vụ phức tạp, các mô hình AI này hứa hẹn sẽ mở ra một tương lai mới, nơi robot có thể hỗ trợ con người trong nhiều lĩnh vực của cuộc sống.
- Google DeepMind ra mắt hai mô hình AI mới: Gemini Robotics và Gemini Robotics-ER.
- Gemini Robotics là mô hình "Thị giác - Ngôn ngữ - Hành động" (VLA), giúp robot tương tác với đồ vật, di chuyển và thực hiện nhiều tác vụ.
- Gemini Robotics-ER có khả năng nhận thức không gian vượt trội, có thể suy luận và tạo mã để thực hiện hành động mới.
- Cả hai mô hình đều có khả năng thích ứng linh hoạt với các tình huống thay đổi.
- Google DeepMind cũng công bố bộ dữ liệu Asimov và "hiến pháp robot" để đảm bảo an toàn.

Gemini Robotics: Nền tảng chung cho robot đa năng
Gemini Robotics được thiết kế dưới dạng mô hình "Thị giác - Ngôn ngữ - Hành động" (Vision-Language-Action - VLA), hướng đến mục tiêu trở thành nền tảng chung cho nhiều loại robot khác nhau. Mô hình này giúp robot:
- Tương tác với đồ vật: Nhận biết và thao tác với các đồ vật trong môi trường.
- Di chuyển: Điều hướng và di chuyển trong môi trường thực tế.
- Thực hiện nhiều tác vụ: Thực hiện các tác vụ đa dạng theo yêu cầu của người dùng.
Điểm đáng chú ý là Gemini Robotics có khả năng thích ứng linh hoạt với các tình huống thay đổi. Ví dụ, khi một vật thể bị trượt khỏi tay cầm, hoặc khi có người di chuyển đồ vật xung quanh, robot có thể nhanh chóng điều chỉnh hành động của mình.
Gemini Robotics-ER: Nhận thức không gian và suy luận logic
Gemini Robotics-ER là phiên bản nâng cao của Gemini Robotics, được bổ sung khả năng nhận thức không gian vượt trội. Mô hình này có thể sử dụng khả năng suy luận thực tế (ER) của Gemini để chạy các chương trình riêng.
Gemini Robotics-ER được cho là có thể cải thiện đáng kể các khả năng hiện có của Gemini 2.0, như xác định và nhận diện hình ảnh 3D, suy luận và tạo ra mã để thực hiện các hành động mới ngay lập tức.
Ví dụ, khi nhìn thấy một chiếc cốc cà phê, robot chạy Gemini Robotics-ER có thể suy luận ra cách cầm cốc bằng hai ngón tay và thực hiện động tác đó một cách hoàn chỉnh. Nếu việc tạo mã tự động không hiệu quả, mô hình sẽ quan sát và học hỏi thao tác của con người, sau đó tự áp dụng để tìm ra giải pháp.

An toàn và đạo đức: Bộ dữ liệu Asimov và 'hiến pháp robot'
Google DeepMind cũng nhấn mạnh đến vấn đề an toàn và đạo đức trong việc phát triển robot AI. Công ty đã công bố bộ dữ liệu Asimov và phát triển "hiến pháp robot" để định hướng hành vi của robot theo hướng an toàn, đồng thời đánh giá tác động của các mô hình này đối với xã hội.
Tương lai của robot AI
Google cho biết, Gemini Robotics mang đến những bước tiến đáng kể trong việc phát triển các robot đa năng, có khả năng:
- Linh hoạt: Thích ứng với nhiều tình huống khác nhau.
- Tương tác: Hiểu và phản hồi nhanh chóng trước các lệnh hoặc thay đổi.
- Khéo léo: Thực hiện các thao tác mà con người thường làm bằng tay và ngón tay.

Trước đó, theo Goldman Sachs Research, phần cứng dành cho robot hình người đã gần hoàn thiện, nhưng phần mềm vẫn chưa theo kịp. Tuy nhiên, với sự xuất hiện của Gemini Robotics và Gemini Robotics-ER, Google đang cho thấy những nỗ lực đáng kể trong việc thu hẹp khoảng cách này.
Việc Google ra mắt Gemini Robotics và Gemini Robotics-ER đánh dấu một bước tiến quan trọng trong lĩnh vực robot AI. Với khả năng học hỏi, thích ứng và thực hiện các tác vụ phức tạp, các mô hình AI này hứa hẹn sẽ mở ra một tương lai mới, nơi robot có thể hỗ trợ con người trong nhiều lĩnh vực của cuộc sống.