Đây là những gì cần biết về Gemini, "sát thủ" ChatGPT-4 của Google

Mr. Macho · 07/12/2023

Mô hình ngôn ngữ lớn được chờ đợi từ lâu của Google - Google Gemini - đã chính thức ra mắt vào sáng 6/12 theo giờ Mỹ. CEO Google Sundar Pichai (sinh năm 1972, người gốc Ấn Độ) cho biết Gemini 1.0 là mô hình trí tuệ nhân tạo tổng hợp mạnh mẽ nhất của Google tính đến thời điểm hiện tại.

Đây là những gì cần biết về Gemini, sát thủ ChatGPT-4 của Google

Sundar Pichai
"Gemini vốn là đa phương thức và là bước đầu tiên của Google hướng tới kỷ nguyên mô hình Gemini", Pichai nói trong một tuyên bố ngày hôm qua.
Gemini 1.0 do Google phát hành cùng ngày được chia thành 3 phiên bản: Ultra, Pro và Nano.
Ultra có khả năng mạnh nhất và độ phức tạp cao nhất, có thể xử lý được những tác vụ khó nhất.
Pro có khả năng yếu hơn một chút và có thể dùng để xử lý đa tác vụ, trong khi
Nano có khả năng mạnh nhất và độ phức tạp cao nhất, tập trung nhiều hơn vào khả năng xử lý end-side.
Hiện tại, robot đối thoại ngôn ngữ trí tuệ nhân tạo Bard của Google, dựa trên mô hình ngôn ngữ lớn và điểm chuẩn ChatGPT, đã kích hoạt Gemini Pro làm trình điều khiển mô hình lớn cơ bản, có thể đạt được các khả năng lý luận, lập kế hoạch, hiểu biết và các khả năng khác nâng cao hơn so với những khả năng được điều khiển của mô hình Palm lớn trước đây. Tất cả đều miễn phí. Google dự kiến sẽ ra mắt "Bard Advanced" vào đầu năm sau và có kế hoạch sử dụng phiên bản mạnh nhất của Gemini là Ultra.

Tập trung vào ba "tính năng sát thủ" chính, khả năng của nó vượt ChatGPT-4

Trong một bài đăng trên blog được xuất bản ngày hôm đó, Google cho biết họ đã kiểm tra nghiêm ngặt các mô hình Gemini và đánh giá hiệu suất của chúng trong nhiều nhiệm vụ khác nhau.
Từ khả năng hiểu hình ảnh, âm thanh và video tự nhiên đến lý luận toán học và các nhiệm vụ khác, Gemini Ultra đã hoạt động tốt hơn kết quả SOTA hiện tại trong 32 bộ bài kiểm tra điểm chuẩn học thuật được sử dụng rộng rãi trong phát triển mô hình ngôn ngữ quy mô lớn.
Ngoài ra, Gemini Ultra đã đạt được số điểm 90,0% trong MMLU (bộ dữ liệu hiểu ngôn ngữ đa tác vụ quy mô lớn), lần đầu tiên vượt qua các chuyên gia con người. Bộ dữ liệu MMLU chứa 57 môn học bao gồm toán học, vật lý, lịch sử, luật, y học và đạo đức và được sử dụng để kiểm tra khả năng dự trữ kiến
thức và khả năng giải quyết vấn đề của các mô hình ngôn ngữ lớn.

Cách tiếp cận mới đối với bộ bài kiểm tra MMLU cho phép Gemini sử dụng khả năng suy luận để suy nghĩ cẩn thận hơn trước khi trả lời các câu hỏi khó, dẫn đến sự cải thiện đáng kể về hiệu suất so với việc chỉ trả lời dựa trên ấn tượng đầu tiên về câu hỏi.
Google cũng đặc biệt công bố so sánh với mô hình ngôn ngữ lớn mạnh nhất hiện nay ChatGPT-4 của OnpeAI ở nhiều khía cạnh, kết quả cho thấy về mặt xử lý văn bản, ngoài điểm MMLU vượt trội 90% so với 86,4% của GPT-4, điểm của Gemini Ultra ở lý luận, toán học, mã hóa và các khía cạnh khác đều cao hơn GPT-4.

Về đa phương thức, Gemini cũng vượt trội hơn khả năng của GPT-4 về mọi mặt bao gồm hình ảnh, video, âm thanh, v.v.
Theo Jeff Dean, nhà khoa học trưởng và người đứng đầu bộ phận trí tuệ nhân tạo tại Google, mô hình Gemini đã đạt đến mức đáng kinh ngạc về khả năng suy luận mô hình đa phương thức.

Trong ví dụ trên, khi người dùng đưa ra lời nhắc viết tay của một học sinh về việc tính tốc độ của một vận động viên trượt tuyết trượt xuống núi, Gemini có thể hiểu câu hỏi và chỉ ra đáp án chính xác. Dean nói rằng khả năng của các mô hình đa phương thức chỉ riêng trong giáo dục là rất thú vị và những khả năng đa phương thức như vậy có thể đóng một vai trò to lớn trong nhiều lĩnh vực khác nhau.
Về kiến trúc mô hình, Gemini vẫn sử dụng kiến trúc Transformer, áp dụng cơ chế Chú ý hiệu quả và hỗ trợ độ dài ngữ cảnh là 32k.

Trong bản phát hành ngày hôm qua, Google không tiết lộ kích thước thông số cụ thể của Gemini Ultra và Gemini Pro, nhưng nêu rõ thông số của Gemini Nano nhỏ nhất lần lượt là 1,8 tỷ (Nano-1) và 3,25 tỷ (Nano-2).
Hiện tại có tin đồn rằng quy mô tham số của Gemini Ultra đã lên tới hàng nghìn tỷ và sức mạnh tính toán dùng để đào tạo gấp hơn 5 lần so với ChatGPT-4.
Trong báo cáo kỹ thuật của Gemini phát hành cùng ngày, Google cho biết quá trình đào tạo của Gemini đã sử dụng tài nguyên TPU quy mô lớn, sử dụng TPU-v5e và TPU v4 để đào tạo. Khóa đào tạo đã sử dụng một số lượng lớn TPU v4 trên nhiều trung tâm dữ liệu. Ở một mức độ nào đó, nó xác nhận rằng thang đo tham số đào tạo của Gemini là rất lớn, thang đo tham số đào tạo trước đây của PaLM của Google là 340 tỷ.

Tính năng sát thủ đầu tiên của Google Gemini là nó được xây dựng dưới dạng “đa phương thức gốc”, khác với các mô hình đa phương thức chính thống hiện nay, hầu hết đều được huấn luyện bởi các thành phần khác nhau và cuối cùng được ghép lại với nhau, gọi là "đa phương thức".
Do đó, mặc dù mô hình đa phương thức "ghép" có thể hoàn thành một số tác vụ cụ thể, chẳng hạn như nhận dạng hình ảnh, nhưng nó có thể không thực hiện được các tác vụ đa phương thức phức tạp hơn.
Tuy nhiên, Gemini đa phương thức bản địa của Google được đào tạo trước bằng cách sử dụng các phương thức khác nhau và liên tục được tinh chỉnh. Google cho biết phương pháp đào tạo như vậy giúp Gemini hiểu và suy luận một cách liền mạch về các đầu vào khác nhau từ đầu, vượt xa các mô hình đa phương thức hiện có và khả năng của nó là công nghệ tiên tiến trong hầu hết mọi lĩnh vực.
Tính năng sát thủ lớn thứ hai của Gemini là nó sử dụng v4 và v5e của Bộ xử lý Tensor (TPU) được thiết kế và tối ưu hóa cho việc đào tạo trí tuệ nhân tạo. Google cho biết họ đã thiết kế TPU của mình để ổn định nhất, có thể mở rộng và tốt nhất.
Google cho biết, Gemini hiện chạy trên TPU và chạy nhanh hơn các mẫu ngày càng nhỏ hơn trước đây. Các bộ tăng tốc AI tùy chỉnh này là các sản phẩm AI của Google thúc đẩy tìm kiếm, Youtube, Gmail và Google cho hàng tỷ người dùng. TPU cũng cho phép các doanh nghiệp đào tạo các mô hình AI quy mô lớn theo cách tiết kiệm chi phí hơn.
Cùng ngày, Google cũng công bố hệ thống TPU mạnh mẽ, hiệu quả và có khả năng mở rộng nhất cho đến nay - Cloud TPU v5p, được thiết kế để đào tạo các mô hình trí tuệ nhân tạo tiên tiến. Thế hệ TPU mới sẽ đẩy nhanh sự phát triển của Gemini, giúp các nhà phát triển và khách hàng doanh nghiệp đào tạo các mô hình AI tổng hợp quy mô lớn nhanh hơn, đồng thời cho phép các sản phẩm và tính năng mới đáp ứng khách hàng nhanh hơn.

Tính năng sát thủ thứ ba của Google Gemini nằm ở khả năng tích hợp với hệ sinh thái của Google. Ngoài việc phát hành Gemini, cùng ngày Google cũng nhấn mạnh rằng Gemini sẽ được quảng bá tới hàng tỷ người dùng thông qua các sản phẩm của Google.
Người đầu tiên lên mạng là Bard, trợ lý ngôn ngữ trí tuệ nhân tạo của Google cạnh tranh trực tiếp với ChatGPT. Google thông báo rằng Bard hiện sẽ được điều khiển bởi một phiên bản tinh chỉnh của Gemini Pro. Google cho biết đây là bản nâng cấp lớn nhất kể từ khi Bard ra đời.
Google cũng đã xem xét việc chạy các mô hình lớn trực tiếp trên thiết bị. Phiên bản Gemini Nano ra mắt đồng thời vào ngày hôm đó là phiên bản mô hình ngôn ngữ lớn phù hợp với Google Pixel 8 sẽ là điện thoại thông minh đầu tiên chạy Gemini trực tiếp trên thiết bị di động.
Ngoài ra, Google cũng có kế hoạch dần dần đẩy mạnh khả năng trí tuệ nhân tạo cơ bản của Gemini lên toàn bộ các sản phẩm của mình trong tương lai, bao gồm quảng cáo kinh doanh cốt lõi, tìm kiếm, trình duyệt Chrome, v.v.
Google cho biết họ hiện đang thử nghiệm các tìm kiếm do Gemini cung cấp, điều này đã giúp giảm 40% độ trễ của các tìm kiếm Serach Generative Experience (SGE) bằng tiếng Anh Mỹ và cải thiện chất lượng tìm kiếm.

Ngành công nghiệp phản ứng nhiệt tình và sự cạnh tranh với OpenAI trở nên khốc liệt

Việc Google phát hành Gemini ngày hôm đó có phần khiến thế giới bên ngoài ngạc nhiên. Tại hội nghị nhà phát triển của Google vào tháng 5 năm nay, Google đã công bố mô hình ngôn ngữ lớn thế hệ tiếp theo Gemini một cách nổi bật, khơi dậy những kỳ vọng rất lớn từ thế giới bên ngoài. Theo kế hoạch ban đầu, Google sẽ chính thức phát hành Gemini vào tháng 12, nhưng tuần trước có thông tin cho rằng Google sẽ hoãn phát hành Gemini đến tháng 1 năm sau. Lý do được Google đưa ra là "hiệu suất kém ở một số tác vụ không phải tiếng Anh”, ở một mức độ nhất định đã dẫn đến suy đoán rằng Google đã gặp phải khó khăn và phản kháng trong quá trình nghiên cứu và phát triển của Gemini.
Có lẽ do áp lực và kỳ vọng từ thế giới bên ngoài nên Google cuối cùng đã cho ra mắt Gemini vào ngày 6/12/2023 như dự kiến ban đầu. Sau khi Gemini được ra mắt, nó đã thu hút sự chú ý và thảo luận rộng rãi trong và ngoài ngành, trong đó sự chú ý tập trung nhất là việc vượt qua GPT-4 một cách toàn diện nhờ khả năng của mô hình do Gemini công bố.

Không còn nghi ngờ gì nữa, trong hơn một năm kể từ khi ChatGPT ra đời vào cuối năm ngoái, đã có một làn sóng nhiệt tình khác trong ngành lấy trí tuệ nhân tạo tổng hợp làm cốt lõi. OpenAI, công ty đứng sau ChatGPT, đã trở thành công ty dẫn đầu trong đợt bùng nổ trí tuệ nhân tạo này, sự hợp tác sâu rộng với Microsoft cũng khiến Google, vốn vốn là công ty dẫn đầu trong lĩnh vực trí tuệ nhân tạo, rơi vào khủng hoảng.
Để chống lại liên minh mạnh mẽ giữa OpenAI và Microsoft, Google đã nhanh chóng có những điều chỉnh nội bộ, trong đó có việc sáp nhập bộ phận trí tuệ nhân tạo với bộ phận Google Brain, tập trung nguồn lực vượt trội vào nghiên cứu phát triển trong lĩnh vực mô hình lớn và nâng cấp toàn diện sản phẩm.

Điều đáng nói là vào ngày Gemini ra mắt, người ký tên vào bài đăng trên blog là CEO Google Pichai và người sáng lập kiêm CEO Deep Mind Demis Hassabis, còn trong phần giới thiệu chi tiết về Gemini, Hassabis đã được ký riêng. Công việc nghiên cứu và phát triển của Gemini chủ yếu do Deep Mind chỉ đạo và Deep Mind, thuộc sở hữu của Google, là công ty đứng sau sự ra mắt của Alpha Go đã gây chấn động thế giới và đánh bại những kỳ thủ hàng đầu của con người trong thế giới cờ vây.
Cách đây không lâu, OpenAI vừa trải qua một cuộc "xung đột nội bộ hội đồng quản trị" hết sức kịch tính. CEO Sam Altman bất ngờ bị hội đồng quản trị sa thải nhưng cuối cùng lại nhanh chóng quay trở lại. Sau tai nạn này, nhiều bất ổn mới nảy sinh trong quá trình phát triển của OpenAI trong tương lai. Điều này gây bất ngờ cũng như mang lại cho các đối thủ trong các ngành khác, bao gồm cả Google, nhiều thời gian và cơ hội hơn để bắt kịp.
Gemini do Google phát hành đã cố tình so sánh trực tiếp nhiều khả năng với ChatGPT-4, chứng tỏ rằng sự cạnh tranh giữa Google và OpenAI trong lĩnh vực mô hình ngôn ngữ lớn đã lên đến đỉnh điểm.
Không còn nghi ngờ gì nữa, OpenAI cũng đang rất chú ý đến hành động của Google và có phản hồi phù hợp. Tại hội nghị nhà phát triển đầu tiên trong lịch sử OpenAI vào tháng trước, OpenAI đã công bố một loạt bản cập nhật, bao gồm cả mẫu GPT-4 và phiên bản nâng cấp, cũng như khả năng tạo GPT độc quyền cho từng người dùng, việc mở kho ứng dụng GPT trong tương lai, v.v. Trọng tâm mở đầu hiện tại của OpenAI là GPT-5 thế hệ tiếp theo, bởi vì Gemini của Google đã cho thấy rằng nó phù hợp với nhiều khả năng của GPT-4. đã hoàn toàn vượt qua GPT-4, thế giới bên ngoài cũng đặt nhiều kỳ vọng hơn vào GPT-5.

Tìm kiếm

Có thể bạn quan tâm

Đây là những gì cần biết về Gemini, "sát thủ" ChatGPT-4 của Google

Mr. Macho

Writer

Mr. Macho

Tập trung vào ba "tính năng sát thủ" chính, khả năng của nó vượt ChatGPT-4

Ngành công nghiệp phản ứng nhiệt tình và sự cạnh tranh với OpenAI trở nên khốc liệt

Thiếu hụt GPU, các công ty Trung Quốc đối phó như thế nào với kìm kẹp của Mỹ để đào tạo mô hình AI?

Những công cụ như ChatGPT làm xói mòn sự độc đáo của con người

Đối thủ OpenAI ra mắt AI tạo video, giới quay phim kỹ xảo thở dài "mất việc sớm hơn dự kiến"

Nhật Bản tuyên bố sẽ giúp các nước Đông Nam Á đào tạo mô hình ngôn ngữ lớn

FPT Software dành cú ăn ba tại giải thưởng Globee uy tín về công nghệ

Vì sao "chuột máy tính" lại dùng tên của chuột chứ không phải loài nào khác?

Từng được kỳ vọng sẽ thay thế OLED, giờ đây microLED lại là nỗi hụt hẫng lớn: Apple đầu hàng, LG và Samsung cũng “nản chí”

Chip quang học sử dụng ánh sáng để phá nút thắt cổ chai máy tính như thế nào

Xiaomi Mi 15 "chống nước chống bụi cao nhất", đã đạt cấp độ IP69!

Trải nghiệm Edufun: app học tiếng Anh vui nhộn dành cho học sinh từ tiểu học đến phổ thông

Khi nào Vinfast sản xuất ô tô pin thể rắn?

Có gì bên dưới lớp băng Nam Cực?

Asus giới thiệu router tích hợp sẵn phần mềm VPN

Đánh giá nổi bật

Gợi ý cộng đồng

Có thể bạn quan tâm

Đây là những gì cần biết về Gemini, "sát thủ" ChatGPT-4 của Google

Writer

Tập trung vào ba "tính năng sát thủ" chính, khả năng của nó vượt ChatGPT-4​

Ngành công nghiệp phản ứng nhiệt tình và sự cạnh tranh với OpenAI trở nên khốc liệt​

Thiếu hụt GPU, các công ty Trung Quốc đối phó như thế nào với kìm kẹp của Mỹ để đào tạo mô hình AI?

Những công cụ như ChatGPT làm xói mòn sự độc đáo của con người

Đối thủ OpenAI ra mắt AI tạo video, giới quay phim kỹ xảo thở dài "mất việc sớm hơn dự kiến"

Nhật Bản tuyên bố sẽ giúp các nước Đông Nam Á đào tạo mô hình ngôn ngữ lớn

Gợi ý cộng đồng

Tập trung vào ba "tính năng sát thủ" chính, khả năng của nó vượt ChatGPT-4

Ngành công nghiệp phản ứng nhiệt tình và sự cạnh tranh với OpenAI trở nên khốc liệt