Grok 3 có đúng là "AI thông minh nhất Trái Đất" như Elon Musk tuyên bố? So sánh Grok 3 và O3-mini

Hail the Judge
Hail the Judge
Phản hồi: 0

Hail the Judge

Ta chơi xong không trả tiền, vậy đâu có gọi là bán
Trong thế giới trí tuệ nhân tạo (AI) không ngừng phát triển, hai đối thủ mới đã bước vào võ đài sẵn sàng "so găng" để giành lấy vị trí tối cao. Một bên là Grok 3, đứa con tinh thần mới nhất của xAI do Elon Musk sáng lập với tuyên bố là "AI thông minh nhất Trái Đất". Bên còn lại là O3-mini, mô hình xử lý tinh gọn và mạnh mẽ của OpenAI, đang gây ấn tượng mạnh mẽ với hiệu suất vượt trội trên các bài kiểm tra tiêu chuẩn. Hãy cùng "mổ xẻ" cuộc chiến "cơ bắp số" này và xem hai "gã khổng lồ" AI này "cân tài cân sức" ra sao.

1739952974271.png


O3-mini: Kẻ "vượt thành tích"

O3-mini đang "nghiền nát" các bài kiểm tra điểm chuẩn như một "mọt toán" chích steroid:
  • AIME: O3-mini-high đạt điểm số đáng kinh ngạc 87,3%.
  • GPQA Diamond: Đạt 79,7% lấp lánh.
  • Codeforces (ELO): Đạt mức 2130 cao ngất ngưởng, khiến các đại kiện tướng cờ vua phải lo lắng.
Grok 3: Kẻ thách thức bí ẩn

Trong khi đó, Grok 3 lại "giấu bài" khá kỹ. Những kết quả ban đầu cho thấy nó không hề "tầm thường":
  • Đạt hơn 1400 ELO trên LMSYS Arena khi "làm thêm" dưới bí danh "chocolate".
  • xAI mạnh dạn tuyên bố rằng Grok 3 đánh bại GPT-4o trên các bài kiểm tra, bao gồm cả AIME.
Sau đây là từng kèo đọ sức giữa 2 mô hình mới nhất thông qua 4 bài kiểm tra:

1. Suy luận (Reasoning):

  • Thử thách: Thiết kế một trò chơi kết hợp giữa Tetris và Bejeweled bằng Pygame.
  • Grok 3: Mất nhiều thời gian hơn để phản hồi, nhưng đưa ra câu trả lời chi tiết. Nó hoạt động như một "ninja lập trình" và tạo ra mã mạnh mẽ bao gồm từng điểm từ đầu đến cuối.
  • o3-mini: Phản hồi nhanh, nhưng thiếu chiều sâu cần thiết cho nhiệm vụ. Nỗ lực của nó có vẻ nửa vời, không có logic kết thúc trò chơi hoặc tuân thủ trọng lực của các khối rơi.
  • Kết luận: Grok 3 thắng thế về khả năng suy luận và lập trình phức tạp.

2. Lập trình (Coding):

  • Thử thách: Tạo mã cho một biểu đồ 3D động mô phỏng quá trình phóng từ Trái đất, hạ cánh trên Sao Hỏa và quay trở lại Trái đất vào thời điểm phóng tiếp theo.
  • Grok 3: Suy nghĩ trong 114 giây, so với 7 giây của o3-mini. Grok 3 vượt trội trong việc suy luận đằng sau việc xác định chuyển động quỹ đạo của tàu vũ trụ xung quanh các hành tinh. Và mã tiếp theo của nó đã tạo ra một hình ảnh động 3D hoàn hảo!
  • o3-mini: Giữ mọi thứ đơn giản và không tính đến chuyển động quỹ đạo cũng như không bao gồm tàu vũ trụ hoặc mặt trời trong mã của nó.
  • Kết luận: Grok 3 một lần nữa thể hiện khả năng vượt trội trong việc giải quyết các bài toán lập trình phức tạp, đòi hỏi kiến thức vật lý và toán học.

3. Nghiên cứu (Research):

  • Thử thách: "Khi nào tàu Starship tiếp theo phóng?" (When is the next Starship launch?)
  • Grok 3 (Chế độ Deep Search): Đưa ra ngày không sớm hơn ngày 25 tháng 2. Phản hồi dài dòng.
  • o3-mini (Chế độ Thinking): Ước tính vào khoảng tháng 3 năm 2025. Phản hồi ngắn gọn, liên quan hơn.
  • Kết luận: O3-mini có vẻ hiệu quả hơn trong việc cung cấp thông tin nhanh chóng và có tính liên kết cao, trong khi Grok 3 mất nhiều thời gian hơn và có thể đưa ra thông tin không cần thiết.

4. Đa phương thức (Multimodality) - Tạo ảnh:

1739953006884.png

Sản phẩm do Grok 3 tạo ra

1739953031051.png

Sản phẩm do o3-mini tạo ra

  • Thử thách: "Tạo một SVG (Scalable Vector Graphics) về một con bồ nông đang cưỡi xe đạp."
  • Grok 3: Vẫn đang trong quá trình học hỏi. Hình ảnh được tạo ra có cảm giác nghiệp dư, thiếu nét nghệ thuật.
  • o3-mini: Hình ảnh có chi tiết và nắm bắt được bản chất thực sự của bồ nông và xe đạp.
  • Kết luận: O3-mini vượt trội về khả năng tạo hình ảnh.

Kết luận​

Như vậy, Grok 3 chiếm ưu thế về kĩ năng lập trình và suy luận, trong khi o3-mini có lợi thế ở sáng tạo, sàng lọc và xử lý thông tin. Hiện tại, chưa có mô hình nào thực sự áp đảo đối thủ 1 cách toàn diện các mặt. Tùy vào nhu cầu công việc của bạn mà lựa chọn mô hình phù hợp. Ví dụ, coder chắc chắn nên ưu tiên Grok 3, còn dân media thì dùng o3-mini là hợp lý.


#Grok3
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top