Chuyên gia đánh giá Google Gemini: Chỉ là cải tiến nhỏ, không phải bước nhảy vọt

Đoàn Thúy Hà · 07/12/2023

"Gemini là đỉnh cao của làn sóng AI sáng tạo này, nhưng nó không phải là khởi đầu cho đỉnh cao tiếp theo".

Chuyên gia đánh giá Google Gemini: Chỉ là cải tiến nhỏ, không phải bước nhảy vọt

Vào tối ngày 6 tháng 12, Google DeepMind đã ra mắt “mô hình mạnh mẽ và linh hoạt nhất cho đến nay” Gemini. Một nhà quan sát cho biết Gemini là một "cỗ máy có thể làm được mọi việc" tốt nhất về mọi mặt. Sundar Pichai, Giám đốc điều hành của Google và công ty mẹ Alphabet, cũng cho biết trong một cuộc phỏng vấn: “Đây là một bước tiến lớn đối với chúng tôi”.
Đúng vậy, đối với Google, Gemini là một sự cải tiến so với Bard bị chỉ trích trước đó, nhưng nó có thể không phải là một bước nhảy vọt lớn đối với toàn bộ lĩnh vực AI.
Đáp lại ChatGPT-4 của OpenAI, Google DeepMind tuyên bố rằng Gemini vượt trội hơn ChatGPT-4 ở 30 trong số 32 chỉ số hiệu suất tiêu chuẩn. Tuy nhiên, sự khác biệt giữa chúng thực sự rất nhỏ. Những gì Google DeepMind làm thực ra chỉ là tích hợp những khả năng tốt nhất của trí tuệ nhân tạo vào một gói phần mềm mạnh mẽ. Đánh giá từ bản demo, nó làm tốt rất nhiều thứ, nhưng có rất ít thứ mà chúng ta chưa từng thấy trước đây.
Gemini có thể là dấu hiệu cho thấy chúng ta đã đạt đến đỉnh cao của sự cường điệu về AI. Ít nhất đó là trường hợp bây giờ.
Chirag Shah, giáo sư chuyên về tìm kiếm trực tuyến tại Đại học Washington, đã so sánh việc ra mắt iPhone với những chiếc iPhone mới được Apple giới thiệu trong những năm gần đây. “Có lẽ bây giờ chúng ta đang tiến tới một ngưỡng khác mà điều này không gây ấn tượng nhiều vì chúng ta đã thấy quá nhiều (sản phẩm và tính năng tương tự)”, ông nói.
Giống như ChatGPT-4, Gemini là đa phương thức, nghĩa là nó được đào tạo để xử lý nhiều loại đầu vào: văn bản, hình ảnh, âm thanh. Nó có thể kết hợp các định dạng khác nhau này để trả lời các câu hỏi từ công việc gia đình đến toán đại học đến kinh tế.
Trong bản demo dành cho các phóng viên ngày hôm qua, Google đã cho thấy khả năng của Gemini trong việc chụp ảnh màn hình các biểu đồ hiện có, phân tích hàng trăm trang báo cáo nghiên cứu và dữ liệu mới, sau đó cập nhật biểu đồ dựa trên thông tin mới. Trong một bản demo khác, Gemini hiển thị hình ảnh món trứng tráng đang nấu trong chảo và hỏi (sử dụng lời nói thay vì văn bản) xem món trứng tráng đã chín chưa. Gemini cũng có thể trả lời chính xác: “Chưa chín vì nước trứng còn lỏng”.
Hiện tại, Gemini chưa hoàn toàn trực tuyến. Phiên bản ra mắt hôm nay là phiên bản phụ trợ cho Bard, chatbot tìm kiếm dựa trên văn bản của Google. Việc phát hành đầy đủ của Gemini sẽ diễn ra theo từng giai đoạn trong những tháng tới. Bard mới được tăng cường bởi Gemini ban đầu sẽ có sẵn bằng tiếng Anh ở hơn 170 quốc gia (không bao gồm EU và Vương quốc Anh). Bà Sissie Hsiao, phó chủ tịch Google phụ trách Bard, cho biết điều này nhằm cho phép công ty "tham gia" với các cơ quan quản lý địa phương.

Cụ thể, Gemini có ba bản: Ultra, Pro và Nano. Trong số đó, Ultra là phiên bản đầy đủ sức mạnh; Pro và Nano được thiết kế riêng cho các ứng dụng có tài nguyên tính toán hạn chế. Nano được thiết kế để chạy trên các thiết bị như điện thoại Pixel mới của Google. Các nhà phát triển và doanh nghiệp sẽ có quyền truy cập vào GeminiPro bắt đầu từ ngày 13 tháng 12. Gemini Ultra là thông số kỹ thuật mạnh mẽ nhất và sẽ được ra mắt vào đầu năm tới sau khi "kiểm tra độ tin cậy và an toàn trên diện rộng".
Pichai nói: “Tôi nghĩ những người mẫu lớn đã đạt đến kỷ nguyên Song Tử. "Đây là cách Google DeepMind được xây dựng và phát triển trong lĩnh vực trí tuệ nhân tạo. Nó sẽ luôn đại diện cho sự tiến bộ hàng đầu của chúng tôi trong công nghệ trí tuệ nhân tạo".

Lớn hơn, tốt hơn, nhanh hơn, mạnh hơn?

Mô hình mạnh mẽ nhất của OpenAI, ChatGPT-4, được coi là tiêu chuẩn vàng trong ngành. Trong khi Google khoe khoang rằng Gemini mạnh hơn mô hình trước đó của OpenAI, ChatGPT3.5, các giám đốc điều hành của công ty đã bỏ qua các câu hỏi về việc mô hình này tốt hơn ChatGPT-4 đến mức nào.
Khi so sánh nó với các mô hình lớn tương tự, Google đã nêu bật một điểm chuẩn được gọi là MMLU (Hiểu ngôn ngữ đa tác vụ lớn). Đây là một bộ bài kiểm tra được thiết kế để đo lường hiệu suất của mô hình trong các nhiệm vụ liên quan đến văn bản và hình ảnh, bao gồm các bài kiểm tra trắc nghiệm về đọc hiểu, toán đại học và vật lý, kinh tế và khoa học xã hội. Pichai cho biết, đối với các câu hỏi chỉ có văn bản, Gemni đạt 90% thời gian, các chuyên gia về con người đạt khoảng 89% thời gian và GPT-4 đạt 86% thời gian cho những câu hỏi như vậy. Về vấn đề đa phương thức, Gemini đạt 59%, trong khi GPT-4 đạt 57%. Pichai nói: “Đây là mô hình đầu tiên vượt qua ngưỡng đó.

Quả thực, về mặt dữ liệu, kết quả của Gemini tốt hơn GPT-4, nhưng thực sự là không nhiều.
Melanie Mitchell, nhà nghiên cứu trí tuệ nhân tạo tại Viện Santa Fe ở New Mexico, cho biết: “Rõ ràng, Gemini là một hệ thống trí tuệ nhân tạo rất phức tạp”. Nhưng “Theo tôi, khả năng của Gemini thực sự không vượt quá đáng kể so với GPT-4”, cô ấy nói thêm.
Ngoài ra, Percy Liang, giám đốc Trung tâm nghiên cứu mô hình cơ bản tại Đại học Stanford, cũng cho biết, mặc dù mô hình có điểm chuẩn tốt nhưng rất khó diễn giải dữ liệu vì chúng ta không biết nội dung của dữ liệu huấn luyện.
Mitchell cũng chỉ ra rằng hiệu suất của Gemini trên các tiêu chuẩn khác nhau không ổn định và hiệu suất của nó về ngôn ngữ và mã tốt hơn nhiều so với hiệu suất về hình ảnh và video. Bà nói: “Vẫn còn một chặng đường dài trước khi các mô hình nền tảng đa phương thức có thể phổ biến và hiệu quả trong nhiều nhiệm vụ”.
Có thông tin cho rằng Google DeepMind đã sử dụng phản hồi từ những người thử nghiệm là con người để đào tạo Gemini để nó có thể phản ánh chính xác sự thật, đưa ra ghi nhận khi được hỏi và tránh những câu hỏi không thể trả lời thay vì nói những điều vô nghĩa. Google cho biết điều này có thể làm giảm bớt vấn đề ảo giác. Nhưng nếu không có sự cải tiến lớn về công nghệ cơ bản, các mô hình ngôn ngữ quy mô lớn sẽ tiếp tục trở nên vô nghĩa.
Các chuyên gia cho biết không rõ liệu các điểm chuẩn mà Google sử dụng để đo lường hiệu suất của Gemini có cung cấp nhiều thông tin chi tiết như vậy hay không và rất khó để xác minh các tuyên bố của Google nếu không minh bạch.
Emily Bender, giáo sư ngôn ngữ học máy tính tại Đại học Washington, cho biết: "Google quảng bá Gemini như một cỗ máy vạn năng - một mô hình chung có thể được sử dụng cho nhiều mục đích khác nhau". được sử dụng cho những mục đích sử dụng khác nhau. “Điều đó có nghĩa là nó thực sự không thể được đánh giá kỹ lưỡng”, cô nói.
Cuối cùng, Shah cho biết, những cải tiến so với các mẫu máy cạnh tranh có thể không tạo ra nhiều khác biệt đối với người dùng bình thường. Ông nói: “Nó thiên về sự thuận tiện, nhận diện thương hiệu và tích hợp hiện có hơn là mọi người thực sự nghĩ ‘Ồ, cái này tốt hơn’”.

Tích lũy lâu và chậm

Gemini đã tồn tại từ lâu. Vào tháng 4 năm 2023, Google thông báo sẽ hợp nhất đơn vị nghiên cứu trí tuệ nhân tạo Google Brain với phòng thí nghiệm nghiên cứu trí tuệ nhân tạo DeepMind có trụ sở tại London của Alphabet. Vì vậy, Google đã dành gần một năm để phát triển câu trả lời cho mô hình ngôn ngữ lớn hiện đại nhất của OpenAI, GPT-4.
Google đã phải chịu áp lực rất lớn trong việc cho các nhà đầu tư thấy rằng họ có thể sánh ngang hoặc vượt qua các đối thủ về trí tuệ nhân tạo. Mặc dù Google đã phát triển và sử dụng các mô hình trí tuệ nhân tạo mạnh mẽ trong nhiều năm nhưng hãng vẫn do dự trong việc tung ra các công cụ mà công chúng có thể sử dụng do lo ngại về tổn hại danh tiếng và lo ngại về bảo mật.
Vào tháng 4 năm nay, Geoffrey Hinton đã nói khi rời Google: "Google đã rất cẩn thận khi tung ra những thứ này ra công chúng". "Có quá nhiều điều tồi tệ có thể xảy ra và Google không muốn hủy hoại danh tiếng của mình. Đối mặt với công nghệ có vẻ không đáng tin cậy hoặc không thể bán được trên thị trường, Google đã thực hiện một cách tiếp cận an toàn -- cho đến khi rủi ro lớn hơn trở thành cơ hội bị bỏ lỡ.
Google đã học được rằng việc tung ra một sản phẩm có khiếm khuyết có thể gây phản tác dụng. Vào tháng 2 năm nay, Google đã ra mắt Bard, đối thủ cạnh tranh của ChatGPT, nhưng các nhà khoa học đã sớm phát hiện ra sai sót thực tế trong quảng cáo của chính công ty dành cho chatbot, sự cố này cũng khiến Google mất 100 tỷ USD giá trị thị trường.
Vào tháng 5, Google đã công bố triển khai Generative AI trong hầu hết các sản phẩm của mình, từ email đến phần mềm năng suất. Nhưng kết quả thật đáng kinh ngạc: Ví dụ: chatbot đã đề cập đến những email không tồn tại.
Đây là một vấn đề nhất quán với các mô hình ngôn ngữ lớn. Các hệ thống AI sáng tạo, mặc dù giỏi tạo ra văn bản nghe giống như được viết bởi con người, nhưng lại thường bịa ra. Họ cũng dễ bị hack và đầy thành kiến.
Google chưa giải quyết được những vấn đề này cũng như vấn đề ảo giác. Giải pháp của Google cho vấn đề thứ hai là yêu cầu mọi người kiểm tra kỹ câu trả lời của chatbot bằng Google Tìm kiếm, nhưng điều này phụ thuộc vào độ chính xác của chính kết quả tìm kiếm trực tuyến.
Song Tử có thể là đỉnh cao của làn sóng AI sáng tạo này. Nhưng trí tuệ nhân tạo dựa trên các mô hình ngôn ngữ quy mô lớn sẽ đi đến đâu tiếp theo vẫn chưa rõ ràng. Một số nhà nghiên cứu tin rằng đây có thể chỉ là một trạng thái ổn định chứ không phải là sự khởi đầu của đỉnh cao tiếp theo.
Tuy nhiên, Pichai không bi quan về tương lai. Ông nói: "Trong tương lai, chúng tôi thấy có rất nhiều cơ hội để phát triển. Tôi nghĩ đa phương thức sẽ là một vấn đề lớn. Khi chúng tôi dạy những mô hình này ngày càng lý luận nhiều hơn, sẽ có những bước đột phá ngày càng lớn hơn. Và sâu hơn. Mức độ đột phá vẫn còn ở phía trước ”. “Nhìn vào bức tranh tổng thể, tôi thực sự cảm thấy rằng chúng ta đang ở giai đoạn đầu".
Nguồn: MIT Technology Review, tác giả: Melissa Heikkilä, Will Douglas Heaven