Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Mr. Darcy

Editor
Thành viên BQT
Một động thái lớn mà Google đã chờ đợi bấy lâu nay, mẫu Gemini cuối cùng cũng được ra mắt! Một hình ảnh và một video là bắt mắt nhất:
Trong hình bên dưới, trong bài kiểm tra tập dữ liệu hiểu ngôn ngữ đa tác vụ MMLU, Gemini Ultra không chỉ vượt qua ChatGPT-4 mà thậm chí còn vượt qua cả các chuyên gia con người.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Trong video này, AI bình luận và phàn nàn về các hình vẽ bậy và cử chỉ của con người trong thời gian thực, nó mượt mà và hài hước, gần giống nhất với một tập phim của Jarvis.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Tuy nhiên, khi mọi người bình tĩnh lại vì ngạc nhiên và đọc kỹ bản báo cáo kỹ thuật dài 60 trang được phát hành sau đó, họ đã phát hiện ra có điều gì đó không ổn.
Trong bài kiểm tra MMLU, dòng chữ nhỏ màu xám bên dưới kết quả của Gemini có tên danh nghĩa là CoT@32. Khi được mở rộng, điều đó có nghĩa là kỹ thuật nhắc nhở chuỗi suy nghĩ đã được sử dụng và đã thực hiện 32 lần thử để chọn ra kết quả tốt nhất.
Để so sánh, ChatGPT-4 không có kỹ thuật nhắc lời (promt engineering) và chỉ thử 5 lần, theo tiêu chuẩn này, Gemini Ultra thực sự không tốt bằng ChatGPT-4.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Tỷ lệ của ảnh gốc cũng hơi không công bằng, chỉ có một chút khác biệt giữa 90,0% và điểm chuẩn của con người là 89,8%, nhưng nó lại nằm xa hơn trên trục y.
Giám đốc kỹ thuật HuggingFace Philipp Schmid đã sửa hình ảnh này bằng cách sử dụng dữ liệu được tiết lộ trong báo cáo kỹ thuật để công bằng và phù hợp hơn:
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Mỗi lần như thế này, anh chàng làm biểu tượng cảm xúc lại lao ra" chiến trường":
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Nhưng may mắn thay, khi sử dụng kỹ thuật nhắc nhở chuỗi tư duy tương tự + 32 lần thử, Gemini Ultra đã vượt qua GPT-4.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Jeff Dean đã trả lời câu hỏi này trong một cuộc thảo luận, nhưng mọi người đều không tin.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Ngoài ra, liên quan đến video đó, một số người cũng nhận thấy có vấn đề trong phần văn bản từ chối trách nhiệm ở phần đầu.
Giảng viên máy học Santiago Valdarrama tin rằng tuyên bố này có thể ám chỉ rằng màn hình hiển thị là một kết quả tốt được lựa chọn cẩn thận và nó không được ghi lại trong thời gian thực mà đã được chỉnh sửa.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Sau đó, Google giải thích quy trình tương tác đa phương thức trong một bài đăng trên blog, gần như thừa nhận rằng việc sử dụng hình ảnh tĩnh và nhiều từ nhắc nhở có thể đạt được hiệu quả như vậy.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Nhưng dù thế nào đi nữa, việc phát hành Google Gemini vẫn mang lại cho các nhóm khác rất nhiều niềm tin, ChatGPT-4 không còn là duy nhất và không thể đạt được.
Như Aravind Srinivas, người sáng lập sản phẩm tìm kiếm AI PerplexityAI, tóm tắt:
1. Gemini chứng minh rằng các nhóm bên ngoài OpenAI có thể tạo ra các mô hình vượt qua ChatGPT-4
2. Một mô hình dày đặc được đào tạo tốt có thể vượt qua kiến trúc mô hình thưa thớt của ChatGPT-4
Hệ quả: Chắt lọc các mô hình dày đặc quy mô nhỏ từ mô hình giáo viên lớn sẽ trở thành xu hướng trong tương lai để đạt được sự kết hợp tốt nhất giữa hiệu quả và năng lực.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Chủ đề được cư dân mạng quan tâm hơn là có cần tiếp tục trả 20 USD/tháng cho ChatGPT Plus hay không?
Hiện tại, phiên bản Gemini Pro đã được cập nhật cho robot trò chuyện Google Bard, trình độ có tốt như quảng cáo hay không, bạn có thể phải xem tình hình thực tế để tự đánh giá.

Gemini có thực sự vượt qua ChatGPT?​

Trước hết, hãy làm rõ rằng những gì mọi người hiện có thể chơi là phiên bản Gemini Pro, đây là phiên bản cốc trung bình và được so sánh với GPT-3.5.
Gemini Ultra, phiên bản lớn của GPT-4, phải đến năm sau mới được phát hành.
Ngoài ra, Gemini hiện chỉ hỗ trợ tiếng Anh, tiếng Việt và các ngôn ngữ khác sẽ được phát hành sau.
Mặc dù Gemini Ultra hiện chưa có sẵn nhưng Dimitris Papailiopoulos, phó giáo sư tại Đại học Wisconsin-Madison, đã tìm ra một cách hay:
Các câu hỏi ban đầu hiển thị khi Gemini được phát hành đã được gửi đến ChatGPT-4 để so sánh. Trong số 14 câu hỏi, ChatGPT-4 đạt xấp xỉ 12 điểm.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Có 2 câu hỏi vì ảnh chụp màn hình không thể rõ ràng hơn nên ChatGPT-4 được thưởng 0,5 điểm.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Ngoài ra còn có một câu toán ChatGPT-4 làm sai, các câu khác về cơ bản là bằng nhau.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Tiếp theo, có thể nói rằng cách tốt nhất để thể hiện khả năng toàn diện của một mô hình lớn là viết mã.
Theo kết quả kiểm tra của mọi người, trình độ lập trình của Gemini vẫn được đảm bảo.
Một số nhà phát triển đã thử nghiệm sử dụng Pytorch để triển khai mạng CNN đơn giản, Gemini chỉ mất 2 giây và chất lượng mã cao hơn.
Tất nhiên, tốc độ nhanh có thể là do kích thước nhỏ hơn của Gemini Pro do Bard trang bị, chúng ta đều biết ChatGPT-4 hiện nay chậm đến mức nào. Nhưng đối với nhiệm vụ tiếp theo là viết câu lệnh SQL, nhà phát triển cảm thấy hiệu suất của Gemini không được tốt cho lắm.
Có một tin tốt cho các nhà phát triển: Gemini là một cải tiến vượt bậc so với trước khi nâng cấp Bard.
 


Đăng nhập một lần thảo luận tẹt ga
Top