Những công bố đáng chú ý nhất tại Google I/O 2024: Gemini, Project Astra, và hơn thế nữa

Mẫn Nhi

Admin xinh gái
Thành viên BQT
Sử dụng chức năng
  1. Mục lục Xem nhanh
  2. Nút xem thêm với bài dài
Google đã có một năm đầy biến động, đổi tên chatbot AI từ Bard thành Gemini và tung ra nhiều mô hình AI mới. Tại hội nghị nhà phát triển Google I/O năm nay, công ty đã đưa ra thêm một số thông báo liên quan đến AI và cách tích hợp công nghệ này vào các ứng dụng và dịch vụ khác nhau của mình.

Đúng như dự đoán, AI đóng vai trò trung tâm tại sự kiện, với việc công nghệ này được tích hợp vào hầu hết các sản phẩm của Google, từ Tìm kiếm, vốn hầu như không thay đổi trong nhiều thập kỷ, đến Android 15 và tất nhiên là Gemini. Đây là bản tóm tắt mọi thông báo quan trọng được đưa ra tại sự kiện cho đến nay. Hãy theo dõi để cập nhật thông tin mới nhất.

Gemini​


Sẽ không phải là một sự kiện dành cho nhà phát triển của Google nếu công ty không tiết lộ ít nhất một mô hình ngôn ngữ lớn (LLM) mới, và năm nay, mô hình mới đó là Gemini 1.5 Flash. Điểm hấp dẫn của mô hình này là nó là mô hình Gemini nhanh nhất được phục vụ trong API và là một giải pháp thay thế tiết kiệm chi phí hơn so với Gemini 1.5 Pro trong khi vẫn có trí thông minh cao. Gemini 1.5 Flash có sẵn trong bản public preview trong studio AI của Google và Vertex AI bắt đầu từ hôm nay.

1715733715967.png


Mặc dù Gemini 1.5 Pro mới được ra mắt vào tháng 2, nhưng nó đã được nâng cấp để cung cấp các phản hồi chất lượng tốt hơn trong nhiều lĩnh vực khác nhau, bao gồm dịch thuật, lý luận, lập trình, v.v. Google chia sẻ rằng phiên bản mới nhất đã đạt được những cải tiến mạnh mẽ trên một số điểm chuẩn, bao gồm MMMU, MathVista, ChartQA, DocVQA, InfographicVQA, v.v.

Hơn nữa, Gemini 1.5 Pro, với cửa sổ ngữ cảnh 1 triệu, sẽ có sẵn cho người tiêu dùng trong Gemini Advanced. Điều này rất quan trọng vì nó sẽ cho phép người tiêu dùng nhận được hỗ trợ AI trên khối lượng công việc lớn, chẳng hạn như tệp PDF dài 1.500 trang.

Như thể cửa sổ ngữ cảnh đó vẫn chưa đủ lớn, Google đang cho preview cửa sổ ngữ cảnh 2 triệu trong Gemini 1.5 Pro và Gemini 1.5 Flash cho các nhà phát triển thông qua danh sách chờ trong Google AI Studio.

Gemini Nano, mô hình của Google được thiết kế để chạy trên điện thoại thông minh, đã được mở rộng để bao gồm cả hình ảnh ngoài văn bản. Google chia sẻ rằng bắt đầu với Pixel, các ứng dụng sử dụng Gemini Nano với Multimodality sẽ có thể hiểu được thị giác, âm thanh và ngôn ngữ nói.

1715733726126.png



Họ mô hình chị em của Gemini, Gemma, cũng đang được nâng cấp lớn với việc ra mắt Gemma 2 vào tháng 6. Thế hệ tiếp theo của Gemma đã được tối ưu hóa cho TPU và GPU và đang ra mắt ở mức 27 tỷ tham số. Cuối cùng, PaliGemma, mô hình ngôn ngữ hình ảnh đầu tiên của Google, cũng đang được thêm vào họ mô hình Gemma.

Google Search​

Nếu bạn đã chọn tham gia Trải nghiệm Tạo sinh Tìm kiếm (SGE) thông qua Phòng thí nghiệm Tìm kiếm, bạn sẽ quen thuộc với tính năng tổng quan AI, cung cấp thông tin chi tiết về AI ở đầu kết quả tìm kiếm để cung cấp cho người dùng câu trả lời đàm thoại, rút gọn cho các truy vấn tìm kiếm của họ.

1715733800447.png


Bây giờ, việc sử dụng tính năng đó sẽ không còn giới hạn trong Phòng thí nghiệm Tìm kiếm nữa, vì tính năng này sẽ được cung cấp cho mọi người ở Hoa Kỳ bắt đầu từ hôm nay. Tính năng này được thực hiện nhờ một mô hình Gemini mới, được tùy chỉnh cho Google Tìm kiếm.

Theo Google, kể từ khi tổng quan AI được cung cấp thông qua Phòng thí nghiệm Tìm kiếm, tính năng này đã được sử dụng hàng tỷ lần và khiến mọi người sử dụng Tìm kiếm nhiều hơn và hài lòng hơn với kết quả của họ. Việc triển khai vào Google Tìm kiếm nhằm mục đích mang lại trải nghiệm tích cực cho người dùng và chỉ xuất hiện khi có thể thêm vào kết quả Tìm kiếm.

Một thay đổi quan trọng khác sắp tới với Tìm kiếm là trang kết quả được tổ chức bằng AI sử dụng AI để tạo tiêu đề duy nhất phù hợp hơn với nhu cầu tìm kiếm của người dùng. Theo Google, tìm kiếm được tổ chức bằng AI sẽ bắt đầu được triển khai cho các tìm kiếm bằng tiếng Anh ở Hoa Kỳ liên quan đến cảm hứng, bắt đầu với ăn uống và công thức nấu ăn, sau đó là phim ảnh, âm nhạc, sách, khách sạn, mua sắm, v.v.

Google cũng đang tung ra các tính năng Tìm kiếm mới, trước tiên sẽ được ra mắt trong Phòng thí nghiệm Tìm kiếm. Ví dụ: trong Phòng thí nghiệm Tìm kiếm, người dùng sẽ sớm có thể điều chỉnh tổng quan AI của mình để phù hợp nhất với sở thích của họ, với các tùy chọn để phân tích thêm thông tin hoặc đơn giản hóa ngôn ngữ, theo Google.

Người dùng cũng sẽ có thể sử dụng video để tìm kiếm, đưa tìm kiếm trực quan lên một tầm cao mới. Tính năng này sẽ sớm có sẵn trong Phòng thí nghiệm Tìm kiếm bằng tiếng Anh. Cuối cùng, Tìm kiếm có thể lên kế hoạch cho bữa ăn và chuyến đi với bạn bắt đầu từ hôm nay trong Phòng thí nghiệm Tìm kiếm, bằng tiếng Anh, tại Hoa Kỳ.

Veo - công cụ cạnh tranh trực tiếp với Sora của OpenAI​

Google không còn xa lạ với các mô hình AI chuyển đổi văn bản thành video, khi vừa chia sẻ một nghiên cứu về mô hình Lumiere vào tháng Một. Hiện tại, công ty đang tiết lộ mô hình mạnh mẽ nhất từ trước đến nay của mình, Veo, có thể tạo ra video chất lượng cao với độ phân giải 1080p và độ dài hơn một phút.

Theo Google, mô hình này có thể hiểu rõ hơn ngôn ngữ tự nhiên để tạo ra video thể hiện gần hơn tầm nhìn của người dùng. Nó cũng hiểu các thuật ngữ điện ảnh như "timelapse" để tạo video theo nhiều phong cách khác nhau và cung cấp cho người dùng quyền kiểm soát nhiều hơn đối với sản phẩm cuối cùng.

Google chia sẻ rằng họ đã xây dựng dựa trên nhiều năm làm việc về video tạo sinh, bao gồm Lumiere và các mô hình phổ biến khác như Imagen-Video, VideoPoet, v.v. Mô hình này chưa có sẵn cho người dùng; tuy nhiên, nó có sẵn cho một số nhà sáng tạo được chọn dưới dạng bản xem trước riêng tư bên trong VideoFX và công chúng được mời tham gia danh sách chờ.

Công cụ tạo video này dường như là câu trả lời của Google cho mô hình chuyển đổi văn bản thành hình ảnh của Open AI, Sora, cũng chưa được phổ biến rộng rãi và đang trong giai đoạn xem trước riêng tư cho những người thử nghiệm và một số nhà sáng tạo được chọn.

Imagen 3​

Google cũng đã tiết lộ công cụ tạo hình ảnh từ văn bản thế hệ tiếp theo của mình, Imagen 3. Theo Google, mô hình này tạo ra những hình ảnh có chất lượng cao nhất từ trước đến nay, với nhiều chi tiết hơn và ít tạo tác hơn trong hình ảnh để giúp tạo ra những hình ảnh chân thực hơn.

Giống như Veo, Imagen 3 đã cải thiện khả năng ngôn ngữ tự nhiên để hiểu rõ hơn lời nhắc của người dùng và ý định đằng sau chúng. Mô hình này có thể giải quyết một trong những thách thức lớn nhất đối với các trình tạo hình ảnh AI, văn bản, với Google cho biết Imagen 3 là tốt nhất để kết xuất nó.

Imagen 3 vẫn chưa được phổ biến rộng rãi, hiện có sẵn trong bản xem trước riêng tư bên trong Image FX cho một số nhà sáng tạo được chọn. Mô hình này sẽ sớm có sẵn trong Vertex AI và công chúng có thể đăng ký tham gia danh sách chờ.

Ask Photos​

Nếu bạn đã từng mất hàng giờ cuộn qua nguồn cấp dữ liệu của mình để tìm kiếm một bức ảnh cụ thể, Google đã tiết lộ một giải pháp AI cho vấn đề của bạn. Sử dụng Gemini, người dùng có thể sử dụng prompt trong Google Photos để tìm hình ảnh họ đang tìm kiếm.

1715734367070.png



Trong ví dụ mà Google đưa ra, một người dùng muốn xem sự tiến bộ của con gái mình trong vai trò một vận động viên bơi lội theo thời gian, vì vậy họ hỏi Google Photos câu hỏi đó và nó sẽ tự động gói gọn những điểm nổi bật cho họ. Tính năng này được gọi là Ask Photos, và Google chia sẻ rằng họ sẽ tung ra nó vào cuối mùa hè này với nhiều khả năng hơn sắp tới.

Nâng cấp Gemini Advanced​

Hồi tháng 2, Google đã tung ra gói dịch vụ cao cấp dành cho chatbot của mình, Gemini Advanced, cho phép người dùng được tận hưởng những đặc quyền như quyền truy cập vào các mô hình AI mới nhất, mạnh nhất,... Và giờ đây, Google đã nâng cấp gói dịch vụ này với những đặc quyền còn độc đáo hơn nữa.

Đầu tiên, như đã đề cập ở trên, là quyền truy cập vào Gemini 1.5 Pro, cho phép người dùng truy cập vào cửa sổ ngữ cảnh lớn hơn nhiều với một triệu token, mà Google cho biết là lớn nhất trong số các chatbot tiêu dùng phổ biến trên thị trường. Cửa sổ lớn hơn đó có thể được tận dụng để tải lên các tài liệu lớn hơn, chẳng hạn như tài liệu dài tới 1.500 trang hoặc 100 email. Chẳng bao lâu nữa, nó sẽ có thể xử lý một giờ video và codebases với tối đa 30.000 dòng.

1715734355861.png


Tiếp theo, một trong những tính năng ấn tượng nhất của toàn bộ lần ra mắt này là Gemini Live của Google, một trải nghiệm di động mới, trong đó người dùng có thể trò chuyện đầy đủ với Gemini, chọn từ nhiều giọng nói tự nhiên khác nhau và ngắt lời giữa cuộc trò chuyện.

Cuối năm nay, người dùng cũng sẽ có thể sử dụng máy ảnh của họ với Live, cung cấp cho Gemini bối cảnh về thế giới xung quanh họ cho những cuộc trò chuyện đó. Gemini sử dụng khả năng hiểu video từ Project Astra, một dự án của Google DeepMind nhằm định hình lại tương lai của trợ lý AI. Ví dụ: bản demo Astra cho thấy một người dùng chỉ ra ngoài cửa sổ và hỏi Gemini họ có thể đang ở khu phố nào từ những gì họ nhìn thấy.

Gemini Live về cơ bản là phiên bản của Google đối với Chế độ Giọng nói mới của OpenAI trong ChatGPT, mà công ty đã công bố tại sự kiện Cập nhật Mùa xuân ngày hôm qua, thông qua đó người dùng cũng có thể thực hiện các cuộc trò chuyện toàn diện với ChatGPT, ngắt lời giữa câu, thay đổi giọng điệu của chatbot, và sử dụng máy ảnh của người dùng làm ngữ cảnh.

Lấy một trang khác từ cuốn sách của OpenAI, Google đang giới thiệu Gems cho Gemini, hoàn thành mục tiêu tương tự như GPTs của ChatGPT. Với Gems, người dùng có thể tạo các phiên bản tùy chỉnh của Gemini cho phù hợp với các mục đích khác nhau. Tất cả những gì người dùng cần làm là chia sẻ hướng dẫn về nhiệm vụ mà họ muốn chatbot thực hiện và Gemini sẽ tạo ra một Gem phù hợp với mục đích đó.

Trong những tháng tới, Gemini Advanced cũng sẽ bao gồm trải nghiệm lập kế hoạch mới có thể giúp người dùng có được kế hoạch chi tiết có tính đến sở thích của riêng họ, vượt ra ngoài việc chỉ tạo hành trình.

Ví dụ: với trải nghiệm này, Google cho biết Gemini Advanced có thể tạo một hành trình phù hợp với lời nhắc nhiều bước, "Tôi và gia đình sẽ đến Miami vào Ngày Lao động. Con trai tôi thích nghệ thuật, và chồng tôi thực sự muốn hải sản tươi sống. Bạn có thể lấy thông tin chuyến bay và khách sạn của tôi từ Gmail và giúp tôi lên kế hoạch cho cuối tuần không?"

Cuối cùng, người dùng sẽ sớm có thể kết nối nhiều Tiện ích mở rộng hơn vào Gemini, bao gồm Google Calendar, Tasks và Keep, cho phép Gemini thực hiện các tác vụ trong mỗi ứng dụng đó, chẳng hạn như chụp ảnh công thức bạn đã chụp và thêm nó vào Keep dưới dạng danh sách mua sắm, theo Google.

AI cho Android​

Đầu tiên, Circle to Search, cho phép người dùng thực hiện tìm kiếm Google bằng cách khoanh tròn hình ảnh, video và văn bản trên màn hình điện thoại của họ, giờ đây có thể "giúp học sinh làm bài tập về nhà" (tức là giờ đây nó có thể hướng dẫn bạn giải các phương trình và bài toán khi bạn khoanh tròn chúng). Google cho biết tính năng này sẽ hoạt động với các chủ đề khác nhau, từ toán học đến vật lý, và cuối cùng sẽ có thể xử lý các vấn đề phức tạp như công thức ký hiệu, sơ đồ, v.v.

Gemini cũng sẽ thay thế Google Assistant, trở thành trợ lý AI mặc định trên điện thoại Android và có thể truy cập bằng cách nhấn và giữ nút nguồn. Cuối cùng, Gemini sẽ được phủ lên trên các dịch vụ và ứng dụng khác nhau, cung cấp hỗ trợ đa phương thức khi được yêu cầu. Khả năng đa phương thức của Gemini Nano cũng sẽ được tận dụng thông qua tính năng TalkBack của Android, cung cấp phản hồi mô tả chi tiết hơn cho người dùng bị mù hoặc thị lực kém.Cuối cùng, nếu bạn vô tình nhận một cuộc gọi spam, Gemini Nano có thể nghe và phát hiện các mẫu hội thoại đáng ngờ và thông báo cho bạn "Bỏ qua & tiếp tục" hoặc "Kết thúc cuộc gọi". Tính năng này có thể được chọn tham gia vào cuối năm nay.

#GoogleIO
 


Đăng nhập một lần thảo luận tẹt ga

Gợi ý cộng đồng

Top