Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Mr. Darcy · 07/12/2023

Một động thái lớn mà Google đã chờ đợi bấy lâu nay, mẫu Gemini cuối cùng cũng được ra mắt! Một hình ảnh và một video là bắt mắt nhất:
Trong hình bên dưới, trong bài kiểm tra tập dữ liệu hiểu ngôn ngữ đa tác vụ MMLU, Gemini Ultra không chỉ vượt qua ChatGPT-4 mà thậm chí còn vượt qua cả các chuyên gia con người.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Trong video này, AI bình luận và phàn nàn về các hình vẽ bậy và cử chỉ của con người trong thời gian thực, nó mượt mà và hài hước, gần giống nhất với một tập phim của Jarvis.

Tuy nhiên, khi mọi người bình tĩnh lại vì ngạc nhiên và đọc kỹ bản báo cáo kỹ thuật dài 60 trang được phát hành sau đó, họ đã phát hiện ra có điều gì đó không ổn.
Trong bài kiểm tra MMLU, dòng chữ nhỏ màu xám bên dưới kết quả của Gemini có tên danh nghĩa là CoT@32. Khi được mở rộng, điều đó có nghĩa là kỹ thuật nhắc nhở chuỗi suy nghĩ đã được sử dụng và đã thực hiện 32 lần thử để chọn ra kết quả tốt nhất.
Để so sánh, ChatGPT-4 không có kỹ thuật nhắc lời (promt engineering) và chỉ thử 5 lần, theo tiêu chuẩn này, Gemini Ultra thực sự không tốt bằng ChatGPT-4.

Tỷ lệ của ảnh gốc cũng hơi không công bằng, chỉ có một chút khác biệt giữa 90,0% và điểm chuẩn của con người là 89,8%, nhưng nó lại nằm xa hơn trên trục y.
Giám đốc kỹ thuật HuggingFace Philipp Schmid đã sửa hình ảnh này bằng cách sử dụng dữ liệu được tiết lộ trong báo cáo kỹ thuật để công bằng và phù hợp hơn:

Mỗi lần như thế này, anh chàng làm biểu tượng cảm xúc lại lao ra" chiến trường":

Nhưng may mắn thay, khi sử dụng kỹ thuật nhắc nhở chuỗi tư duy tương tự + 32 lần thử, Gemini Ultra đã vượt qua GPT-4.

Jeff Dean đã trả lời câu hỏi này trong một cuộc thảo luận, nhưng mọi người đều không tin.

Ngoài ra, liên quan đến video đó, một số người cũng nhận thấy có vấn đề trong phần văn bản từ chối trách nhiệm ở phần đầu.
Giảng viên máy học Santiago Valdarrama tin rằng tuyên bố này có thể ám chỉ rằng màn hình hiển thị là một kết quả tốt được lựa chọn cẩn thận và nó không được ghi lại trong thời gian thực mà đã được chỉnh sửa.

Sau đó, Google giải thích quy trình tương tác đa phương thức trong một bài đăng trên blog, gần như thừa nhận rằng việc sử dụng hình ảnh tĩnh và nhiều từ nhắc nhở có thể đạt được hiệu quả như vậy.

Nhưng dù thế nào đi nữa, việc phát hành Google Gemini vẫn mang lại cho các nhóm khác rất nhiều niềm tin, ChatGPT-4 không còn là duy nhất và không thể đạt được.
Như Aravind Srinivas, người sáng lập sản phẩm tìm kiếm AI PerplexityAI, tóm tắt:
1. Gemini chứng minh rằng các nhóm bên ngoài OpenAI có thể tạo ra các mô hình vượt qua ChatGPT-4
2. Một mô hình dày đặc được đào tạo tốt có thể vượt qua kiến trúc mô hình thưa thớt của ChatGPT-4
Hệ quả: Chắt lọc các mô hình dày đặc quy mô nhỏ từ mô hình giáo viên lớn sẽ trở thành xu hướng trong tương lai để đạt được sự kết hợp tốt nhất giữa hiệu quả và năng lực.

Chủ đề được cư dân mạng quan tâm hơn là có cần tiếp tục trả 20 USD/tháng cho ChatGPT Plus hay không?
Hiện tại, phiên bản Gemini Pro đã được cập nhật cho robot trò chuyện Google Bard, trình độ có tốt như quảng cáo hay không, bạn có thể phải xem tình hình thực tế để tự đánh giá.

Gemini có thực sự vượt qua ChatGPT?

Trước hết, hãy làm rõ rằng những gì mọi người hiện có thể chơi là phiên bản Gemini Pro, đây là phiên bản cốc trung bình và được so sánh với GPT-3.5.
Gemini Ultra, phiên bản lớn của GPT-4, phải đến năm sau mới được phát hành.
Ngoài ra, Gemini hiện chỉ hỗ trợ tiếng Anh, tiếng Việt và các ngôn ngữ khác sẽ được phát hành sau.
Mặc dù Gemini Ultra hiện chưa có sẵn nhưng Dimitris Papailiopoulos, phó giáo sư tại Đại học Wisconsin-Madison, đã tìm ra một cách hay:
Các câu hỏi ban đầu hiển thị khi Gemini được phát hành đã được gửi đến ChatGPT-4 để so sánh. Trong số 14 câu hỏi, ChatGPT-4 đạt xấp xỉ 12 điểm.

Có 2 câu hỏi vì ảnh chụp màn hình không thể rõ ràng hơn nên ChatGPT-4 được thưởng 0,5 điểm.

Ngoài ra còn có một câu toán ChatGPT-4 làm sai, các câu khác về cơ bản là bằng nhau.

Tiếp theo, có thể nói rằng cách tốt nhất để thể hiện khả năng toàn diện của một mô hình lớn là viết mã.
Theo kết quả kiểm tra của mọi người, trình độ lập trình của Gemini vẫn được đảm bảo.
Một số nhà phát triển đã thử nghiệm sử dụng Pytorch để triển khai mạng CNN đơn giản, Gemini chỉ mất 2 giây và chất lượng mã cao hơn.
Tất nhiên, tốc độ nhanh có thể là do kích thước nhỏ hơn của Gemini Pro do Bard trang bị, chúng ta đều biết ChatGPT-4 hiện nay chậm đến mức nào. Nhưng đối với nhiệm vụ tiếp theo là viết câu lệnh SQL, nhà phát triển cảm thấy hiệu suất của Gemini không được tốt cho lắm.
Có một tin tốt cho các nhà phát triển: Gemini là một cải tiến vượt bậc so với trước khi nâng cấp Bard.

Tìm kiếm

Có thể bạn quan tâm

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Mr. Darcy

Editor

Mr. Darcy

Gemini có thực sự vượt qua ChatGPT?

Google Vids có thể viết kịch bản, edit video, tìm tài liệu…

Với ChatGPT, giáo viên dạy ngoại ngữ sẽ trở nên "dư thừa"?

Trí tuệ nhân tạo có đáng sợ như người ta đang nói không? Hãy cùng nhìn vào OpenAI

CEO Nguyễn Tử Quảng cho rằng ChatGPT và các công nghệ AI hiện nay mới chỉ biết thống kê

"Ngôi sao về tự cung bán dẫn Trung Quốc" bị hủy niêm yết khỏi sàn chứng khoán, giới đầu tư đại lục chấn động

Tay cầm chơi game Red Magic Phantom Blade có tần số quét 1.000Hz, thiết kế cực ngầu

Insta360 GO 3S ra mắt: camera quay video 4K cực nhỏ gọn, gắn được cho cả boss lẫn sen

Google Vids có thể viết kịch bản, edit video, tìm tài liệu…

Giám đốc TikTok Việt Nam khẳng định: gian lận thương mại trên TikTok Shop là rất thấp

Mẫu iPhone không nên mua mới lúc này

Xe đạp điện bốc cháy thiêu rụi 1 sở cảnh sát, gây thiệt hại nhiều triệu USD

Trung Quốc đột phá công nghệ dò tìm từ trường, có thể tạo ra đầu dò tầu ngầm siêu chính xác

Thiết bị dò thần kinh lên tới 1.024 kênh của Trung Quốc

Đánh giá nổi bật

Gợi ý cộng đồng

Có thể bạn quan tâm

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Editor

Gemini có thực sự vượt qua ChatGPT?​

Google Vids có thể viết kịch bản, edit video, tìm tài liệu…

Với ChatGPT, giáo viên dạy ngoại ngữ sẽ trở nên "dư thừa"?

Trí tuệ nhân tạo có đáng sợ như người ta đang nói không? Hãy cùng nhìn vào OpenAI

CEO Nguyễn Tử Quảng cho rằng ChatGPT và các công nghệ AI hiện nay mới chỉ biết thống kê

Gợi ý cộng đồng

Gemini có thực sự vượt qua ChatGPT?