Google Gemini: Những gì chúng tôi biết cho đến nay

Thoại Viết Hoàng · 17/05/2021

Dựa trên các cuộc phỏng vấn và báo cáo mới nhất, đây là những gì chúng ta biết cho đến nay về Gemini, hệ thống AI sắp ra mắt của Google nhằm cạnh tranh với OpenAI.

Báo cáo Công nghệ Toàn cầu thường niên: AI vượt quá mong đợi của 75% giám đốc điều hành

Google Gemini: Những gì chúng tôi biết cho đến nay

Tại hội nghị nhà phát triển Google I/O vào tháng 5 năm 2023, Giám đốc điều hành Sundar Pichai đã công bố hệ thống trí tuệ nhân tạo (AI) sắp ra mắt của công ty, Gemini.
Mô hình ngôn ngữ lớn (LLM) đang được phát triển bởi bộ phận Google DeepMind (Brain Team + DeepMind). Nó có thể cạnh tranh với các hệ thống AI như ChatGPT của OpenAI và có thể hoạt động tốt hơn chúng.
Mặc dù thông tin chi tiết vẫn còn khan hiếm nhưng đây là những gì chúng ta có thể tổng hợp lại được từ các cuộc phỏng vấn và báo cáo mới nhất về Google Gemini.
Google Gemini sẽ đa phương thức
Pichai tuyên bố rằng Gemini kết hợp các điểm mạnh của hệ thống AlphaGo của DeepMind, được biết đến với khả năng thành thạo trò chơi cờ vây phức tạp, với khả năng mô hình hóa ngôn ngữ mở rộng.
Ông cho biết nó được thiết kế ngay từ đầu để trở thành đa phương thức, tích hợp văn bản, hình ảnh và các loại dữ liệu khác. Điều này có thể cho phép khả năng đàm thoại tự nhiên hơn.
Pichai cũng gợi ý về các khả năng trong tương lai như trí nhớ và lập kế hoạch có thể hỗ trợ các nhiệm vụ đòi hỏi khả năng suy luận.
Song Tử có thể sử dụng các công cụ và API
Trong bản cập nhật tiểu sử chuyên môn của mình vào mùa hè, Nhà khoa học trưởng Jeffrey Dean của Google cho biết Gemini là một trong những “mô hình đa phương thức thế hệ tiếp theo” mà ông đang đồng lãnh đạo.
Ông cho biết họ sẽ sử dụng Pathways, cơ sở hạ tầng AI mới của Google, để cho phép mở rộng quy mô đào tạo trên các bộ dữ liệu đa dạng.
Điều này gợi ý rằng Gemini có khả năng trở thành mô hình ngôn ngữ lớn nhất được tạo ra cho đến nay, có khả năng vượt quá kích thước của GPT-3 với hơn 175 tỷ tham số.
Nó sẽ đi kèm với nhiều kích cỡ và khả năng khác nhau
Thông tin chi tiết bổ sung đến từ Demis Hassabis, Giám đốc điều hành của DeepMind.
Vào tháng 6, anh ấy nói với Wired rằng các kỹ thuật của AlphaGo, như học tăng cường và tìm kiếm trên cây, có thể mang lại cho Song Tử những khả năng mới như lý luận và giải quyết vấn đề
Hassabis cho biết Gemini là một “loạt mẫu” sẽ được cung cấp với nhiều kích cỡ và khả năng khác nhau.
Ông cũng cho biết Gemini có thể sử dụng trí nhớ, kiểm tra tính xác thực dựa trên các nguồn như Google Tìm kiếm và cải thiện khả năng học tăng cường để nâng cao độ chính xác và giảm nội dung gây ảo giác nguy hiểm.
Kết quả sớm của Song Tử đầy hứa hẹn
Trong một cuộc phỏng vấn với Time vào tháng 9, Hassabis nhắc lại rằng Gemini đặt mục tiêu kết hợp quy mô và sự đổi mới.
Ông cho biết việc kết hợp việc lập kế hoạch và trí nhớ đang ở giai đoạn đầu khám phá.
Hassabis cũng cho biết Gemini có thể sử dụng các phương pháp truy xuất để xuất ra toàn bộ khối thông tin, thay vì tạo từng từ một, để cải thiện tính nhất quán của thực tế.
Anh ấy tiết lộ rằng Gemini xây dựng dựa trên công việc đa phương thức của DeepMind giống như hệ thống chú thích hình ảnh Flamingo.Nhìn chung, Hassabis cho biết Gemini đang cho thấy “những kết quả ban đầu rất hứa hẹn”.
Chatbots nâng cao là trợ lý cá nhân phổ quát
Trong một cuộc phỏng vấn với Wired, được xuất bản vài ngày sau đó, Pichai đã đưa ra dấu hiệu rõ ràng nhất về việc Gemini phù hợp với lộ trình sản phẩm của Google như thế nào.
Ông cho biết các hệ thống AI đàm thoại như Bard “không phải là trạng thái kết thúc” mà là điểm dừng dẫn đến các chatbot tiên tiến hơn.
Pichai cho biết Gemini và những phiên bản tương lai cuối cùng sẽ trở thành “trợ lý cá nhân phổ quát đáng kinh ngạc” được tích hợp trong cuộc sống hàng ngày của mọi người trong các lĩnh vực như du lịch, công việc và giải trí.
Ông nhắc lại rằng Gemini sẽ kết hợp các điểm mạnh của văn bản và hình ảnh, đồng thời nói rằng các chatbot ngày nay sẽ “trông tầm thường” nếu so sánh trong vòng một vài năm tới.
Các đối thủ quan tâm đến hiệu suất của Song Tử
Giám đốc điều hành OpenAI đã tweet những gì dường như là phản hồi cho một bài báo có tường phí báo cáo rằng Google Gemini có thể hoạt động tốt hơn GPT-4.

Không có câu trả lời chính thức nào cho câu hỏi tiếp theo của Elon Musk về việc liệu những con số do SemiAnalysis cung cấp có chính xác hay không.
Meta làm việc trên LLM để cạnh tranh với OpenAI
Mặc dù tin tức về Gemini cho đến nay vẫn đầy hứa hẹn nhưng Google không phải là công ty duy nhất được cho là sẵn sàng tung ra LLM mới để cạnh tranh với OpenAI.
Meta gần đây nhất đã công bố phát hành Llama 2, một mô hình AI nguồn mở, hợp tác với Microsoft. Công ty dường như tận tâm tạo ra AI một cách có trách nhiệm để dễ tiếp cận hơn.
Đếm ngược tới Google Gemini
Những gì chúng ta biết cho đến nay cho thấy Gemini có thể đại diện cho một tiến bộ đáng kể trong xử lý ngôn ngữ tự nhiên.
Sự kết hợp giữa nghiên cứu AI mới nhất của DeepMind với nguồn tài nguyên tính toán khổng lồ của Google khiến cho tác động tiềm tàng khó có thể bị phóng đại.
Nếu Gemini đáp ứng được kỳ vọng, nó có thể thúc đẩy sự thay đổi trong AI tương tác, phù hợp với tham vọng của Google là “đưa AI đến với hàng tỷ người theo những cách có trách nhiệm”.
Tin tức mới nhất từ Meta và Google xuất hiện vài ngày sau Diễn đàn AI Insight đầu tiên, nơi các CEO công nghệ gặp riêng với một bộ phận Thượng viện Hoa Kỳ để thảo luận về tương lai của AI.
Tham khảo bài viết gốc tại đây: