Cuộc đua AI lại nóng: Google ra mắt Gemini 2.0 siêu mạnh, thách thức OpenAI

The Storm Riders · 12/12/2024

Google vừa công bố video demo Project Mariner, một AI agent dựa trên mô hình Gemini 2.0, chuyên về tìm kiếm và thu thập thông tin. Project Mariner tự động hóa các tác vụ nghiên cứu, ví dụ như trích xuất địa chỉ email của nhân viên bán hàng từ trang web của nhiều công ty chỉ trong tích tắc.

Google cũng giới thiệu Project Astra, AI agent tương tác thời gian thực thông qua kính thông minh.

Các AI agent của các công ty công nghệ lớn đang phát triển nhanh chóng. Chúng không chỉ xử lý văn bản mà còn có khả năng đa phương thức (multimodal), hiểu và phản hồi đầu vào hình ảnh, âm thanh và video. Chúng sử dụng các dịch vụ cốt lõi như tìm kiếm và bản đồ như con người. Microsoft và Amazon đã giới thiệu AI agent cho sử dụng nội bộ, và OpenAI dự kiến sẽ ra mắt Operator.

Google cũng công bố Gemini 2.0, nền tảng cho AI agent điều khiển điện thoại và ứng dụng. Gemini 2.0 cải tiến so với Gemini 1.5 (ra mắt tháng 12/2023) về tốc độ phản hồi, khả năng tạo hình ảnh và âm thanh AI. Gemini 2.0 Flash sẽ được cung cấp cho tất cả người dùng Gemini từ ngày hôm nay. Người dùng Gemini Advanced sẽ có công cụ Deep Research, AI agent thực hiện nghiên cứu trên internet và tạo báo cáo.

Deep Research, mặc dù là một AI agent, nhưng Google cho biết các nhà phát triển khác cũng đang tích hợp AI agent vào ứng dụng của họ. Google đã giới thiệu khả năng của Gemini 2.0 trong việc tạo, đánh giá, hợp nhất và thực thi mã. Công ty cũng trình diễn khả năng của Gemini 2.0 trong việc tương tác với game di động của Supercell.

Project Astra của Google DeepMind, tương tự Gemini Live nhưng có khả năng xử lý hình ảnh và tương tác tốt hơn, cho phép hội thoại tự nhiên, ghi nhớ cuộc trò chuyện và tích hợp với Google Search, Google Lens và Google Maps. Tuy nhiên, chưa có thông tin về thời điểm ra mắt.

Deep Research tạo kế hoạch nghiên cứu, tìm kiếm thông tin trên web và tạo báo cáo đa trang, bao gồm bảng biểu và đồ thị. Tuy nhiên, độ chính xác của thông tin cần được kiểm tra lại. Công cụ này hiện chỉ có trên máy tính và bằng tiếng Anh. Mặc dù Google cho biết thời gian tạo báo cáo là "vài phút", nhưng thực tế mất nhiều giờ.

Sự phát triển nhanh chóng của AI agent đang thay đổi cách con người tương tác với công nghệ. Tuy nhiên, vẫn còn nhiều thách thức về độ chính xác, an toàn và đạo đức cần được giải quyết.