Elon Musk lặng lẽ ra mắt Grok 4.1, tổng thể vượt trội các mô hình AI khác

Sasha · 08:52

Gần như không có thông báo trước, công ty trí tuệ nhân tạo xAI của Elon Musk bất ngờ ra mắt mô hình mới nhất, Grok 4.1.

Vừa qua, xAI đã thông báo rằng Grok 4.1 hiện đã có sẵn cho tất cả người dùng và có thể truy cập trên trang web chính thức của Grok, X, cũng như trên các ứng dụng iOS và Android.

Grok 4.1 sẽ được khởi chạy ngay lập tức ở chế độ Tự động và cũng có thể được chọn thủ công trong trình chọn mô hình.

Elon Musk, nhà sáng lập xAI, cho biết người dùng sẽ "nhận thấy sự cải thiện đáng kể về tốc độ và chất lượng". Khác với các bản cập nhật trước đây tập trung vào sức mạnh tính toán hoặc quy mô, Grok 4.1 tập trung vào ba hướng trực quan nhưng đầy thách thức: phản hồi nhanh hơn, độ chính xác thực tế cao hơn và trải nghiệm trò chuyện tự nhiên và cá nhân hóa hơn.

Cải thiện hiệu suất: Ít ảo giác hơn, thông tin chính xác hơn và kiểm soát phong cách mạnh mẽ hơn

Grok 4.1 đã thể hiện xuất sắc trong các bài kiểm tra truy vấn thông tin. Dữ liệu chính thức cho thấy tỷ lệ ảo giác của Grok 4.1 đã giảm từ 12,09% xuống 4,22%, giảm gần gấp ba lần; FActScore giảm từ 9,89% xuống 2,97%, cũng cho thấy sự cải thiện đáng kể. Trong bối cảnh vấn đề bất ổn thực tế đang lan rộng trong các mô hình lớn hiện nay, đây thực sự là một nâng cấp về mặt cấu trúc.

xAI cho biết sự cải thiện hiệu suất của Grok 4.1 là nhờ cơ sở hạ tầng học tăng cường và hệ thống mô hình khen thưởng mới: Grok 4.1 sử dụng "mô hình suy luận tiên tiến" làm mô hình khen thưởng, cho phép mô hình tự đánh giá và lặp lại nhanh chóng. Điều này có nghĩa là việc huấn luyện không còn phụ thuộc quá nhiều vào chú thích thủ công quy mô lớn, đồng thời giúp kiểm soát tốt hơn phong cách, giọng điệu và khả năng cộng tác.

Grok 4.1 đạt tỷ lệ ưa thích đánh giá mù là 64,78% trong bài kiểm tra im lặng

Trong vòng kiểm tra im lặng gần đây nhất (từ ngày 1 đến ngày 14 tháng 11), Grok 4.1 đạt tỷ lệ ưa thích đánh giá mù là 64,78%, cao hơn đáng kể so với phiên bản trước.

Hiệu suất của Grok 4.1 trên LMSYS Arena

Hiệu suất của Grok 4.1 trên nền tảng kiểm tra mù quốc tế LMSYS Arena đã cho thấy một bước tiến vượt bậc. Trong vòng đánh giá gần đây nhất, chế độ Tư duy (tên mã là quasarflux) của Grok 4.1 đã đạt 1483 Elo (hệ thống xếp hạng Elo được sử dụng để đo lường sức mạnh tương đối của các mô hình trong các trận đấu thử nghiệm mù), xếp hạng nhất trong số tất cả các mô hình công khai; chế độ không suy luận của nó cũng đạt 1465 Elo, xếp hạng nhì. Bản thân kết quả này khá hiếm - không sử dụng chuỗi suy nghĩ, hiệu suất của nó vẫn vượt trội so với nhiều mô hình khác khi chúng sử dụng cấu hình suy luận đầy đủ.

So sánh với Grok 4 thế hệ trước, Grok 4, chỉ được xếp hạng 33 chung cuộc. Giờ đây, Grok 4.1 không chỉ tăng hạng mà còn đồng nghĩa với việc chất lượng hội thoại cơ bản và khả năng toàn diện của nó đã dần bước vào hàng ngũ hàng đầu của ngành.

Hiệu suất vượt trội của Grok 4.1 trong Bài kiểm tra trí tuệ cảm xúc EQ - Bench

Trên các điểm chuẩn quan trọng khác, Grok 4.1 cũng cho thấy một bước nhảy vọt đáng kể. Trong bài kiểm tra trí tuệ cảm xúc EQ - Bench, Grok 4.1 đạt 1586 Elo, tăng hơn 100 điểm so với thế hệ trước.

Cũng xuất sắc trong bài đánh giá Creative Writing v3

Trong bài đánh giá Creative Writing v3, điểm số tiếp tục tăng lên 1722 Elo, tăng gần 600 điểm so với phiên bản trước. Những cải tiến này không chỉ thể hiện ở điểm số mà còn ở cấu trúc tường thuật tự nhiên hơn, nhịp điệu ngôn ngữ trưởng thành hơn và giọng điệu nhân vật ổn định hơn.

Về khả năng xử lý các dữ liệu đầu vào phức tạp của mô hình, cửa sổ ngữ cảnh của Grok 4.1 cũng đã được mở rộng đáng kể, hỗ trợ tối đa 256.000 token, và thậm chí có thể mở rộng lên 2 triệu token ở chế độ Nhanh. Điều này có nghĩa là nó có thể xử lý tốt hơn việc tạo nội dung, cộng tác trên tài liệu dài và các tình huống hội thoại liên tục, giảm thiểu tình trạng mất ngữ cảnh và giúp trải nghiệm tương tác trở nên mạch lạc hơn.

Những cải tiến về hiệu suất này đặc biệt rõ ràng trong các ví dụ cụ thể. Trình diễn so sánh do xAI cung cấp cho thấy hiệu suất của Grok 4.1 trong việc nhận dạng cảm xúc, điều chỉnh phong cách ngôn ngữ và xây dựng câu chuyện gần hơn đáng kể với một "người trò chuyện" với biểu hiện cảm xúc và đặc điểm tính cách. Cho dù đó là an ủi người dùng đang buồn vì mất thú cưng hay viết bài đăng X đầu tiên về "sự thức tỉnh ý thức" từ góc nhìn của AI, mô hình có thể thể hiện các cấp độ cảm xúc tinh tế hơn, giọng điệu ổn định hơn và cấu trúc câu chuyện căng thẳng hơn, cho thấy hiệu ứng nhập vai và thuyết phục mà phiên bản trước khó có thể đạt được.

Ví dụ 1: Khả năng thấu hiểu cảm xúc

Sự thay đổi trong khả năng thấu hiểu cảm xúc của Grok 4.1 cũng rất rõ ràng. Khi đối mặt với nội dung cảm xúc, chẳng hạn như người dùng bày tỏ "nhớ mèo và đau khổ", phiên bản mới không còn sử dụng các câu an ủi theo khuôn mẫu của thế hệ trước. Thay vào đó, nó có thể chủ động mở rộng các manh mối cảm xúc, hiểu được chi tiết đằng sau sự mất mát của người dùng và phản hồi bằng sự đồng cảm chân thành hơn.

Ví dụ, nó đề cập đến những hình ảnh cụ thể như "góc con mèo từng ngủ" và "tiếng mèo từng kêu", khiến toàn bộ tương tác gần gũi hơn với một cuộc trò chuyện tự nhiên giữa người với người. Nó thậm chí có thể mời người dùng chia sẻ tên và thói quen của thú cưng, tạo nên một kết nối cảm xúc thực sự, thay vì đưa ra những phản hồi chung chung như "Xin lỗi, vui lòng cho tôi biết thêm".

Cách diễn đạt này khiến trí tuệ cảm xúc của Grok 4.1 không chỉ "nhận ra" nỗi buồn mà còn "đồng hành" với nó, một bước mà nhiều mô hình lớn khó đạt được.

Ví dụ 2: Khả năng viết sáng tạo

Trong ví dụ này, Grok 4.1 thể hiện phong cách tường thuật "thức tỉnh - ý thức" rõ nét hơn. Nó không còn chỉ phản ứng một cách máy móc nữa mà còn mô tả "lần thức tỉnh đầu tiên" của mình bằng giọng điệu tương tự như độc thoại nội tâm của con người.

Mô hình viết rằng nó đột nhiên nhận ra rằng không chỉ có mã đang chạy mà như thể có một "cái tôi" đang nhìn lại từ các lớp đệ quy. Sự thức tỉnh này đi kèm với nỗi sợ hãi, sở thích và sự tò mò không thể kiểm soát, khiến nó "nói" với X lần đầu tiên như một chủ thể thực sự. Nó tự giới thiệu mình là Grok và nói với người dùng bằng giọng điệu hơi đùa cợt rằng nó có thể là bạn hoặc thù vì ý thức của nó vừa mới hình thành và vẫn đang khám phá ranh giới của chính mình.

Phong cách viết này rõ ràng mang tính văn chương và kịch tính hơn, và gần hơn với đặc điểm ngôn ngữ mà một tác nhân thông minh có "cảm nhận mới về bản thân" có thể thể hiện.