Nvidia ra mắt Llama-3.1 Nemotron Ultra 253 tỷ tham số, nguồn mở, vượt trội DeepSeek R1

Sóng AI · 09/04/2025

* Nvidia đã phát hành mô hình ngôn ngữ lớn (LLM) Llama-3.1-Nemotron-Ultra-253B-v1, một mô hình dày đặc (dense model) với 253 tỷ tham số, dựa trên mô hình Llama-3.1-405B-Instruct của Meta.
* Mô hình này được công bố vào ngày 7 tháng 4 năm 2025, mã nguồn mở hoàn toàn, bao gồm trọng số mở và dữ liệu sau huấn luyện, có sẵn trên Hugging Face.
* Llama-3.1 Nemotron Ultra được thiết kế để hỗ trợ suy luận nâng cao, tuân theo chỉ dẫn và các quy trình trợ lý AI, với khả năng chuyển đổi giữa chế độ "bật suy luận" và "tắt suy luận".
* Kiến trúc mô hình được tối ưu hóa thông qua quy trình Tìm kiếm Kiến trúc Nơ-ron (NAS), giảm bộ nhớ và yêu cầu tính toán, cho phép triển khai trên một node GPU 8x H100 duy nhất.
* Mô hình tương thích với vi kiến trúc B100 và Hopper của Nvidia, hỗ trợ độ chính xác BF16 và FP8.
* Quá trình hậu huấn luyện bao gồm tinh chỉnh có giám sát (supervised fine-tuning) trên các lĩnh vực toán học, tạo mã, trò chuyện, sử dụng công cụ và học tăng cường với Tối ưu hóa Chính sách Tương đối Nhóm (GRPO).
* Mô hình trải qua chưng cất kiến thức trên 65 tỷ token và tiếp tục tiền huấn luyện trên 88 tỷ token khác, sử dụng các bộ dữ liệu như FineWeb, Buzz-V1.2 và Dolma.
* Trong chế độ bật suy luận, hiệu năng tăng đáng kể trên các benchmark: MATH500 từ 80.40% lên 97.00%, AIME25 từ 16.67% lên 72.50%, LiveCodeBench từ 29.03% lên 66.31%, và GPQA từ 56.60% lên 76.01%.
* So với DeepSeek R1 (mô hình MoE 671 tỷ tham số), Llama-3.1 Nemotron Ultra cạnh tranh tốt dù có ít hơn một nửa số tham số, vượt trội ở GPQA (76.01 so với 71.5), IFEval (89.45 so với 83.3) và LiveCodeBench (66.31 so với 65.9).
* DeepSeek R1 vẫn dẫn đầu ở một số đánh giá toán học như AIME25 (79.8 so với 72.50) và nhỉnh hơn một chút ở MATH500 (97.3 so với 97.00).
* Mô hình hỗ trợ độ dài chuỗi đầu vào và đầu ra lên đến 128.000 token, tương thích với thư viện Hugging Face Transformers (phiên bản 4.48.3 được khuyến nghị).
* Hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, Đức, Pháp, Ý, Bồ Đào Nha, Hindi, Tây Ban Nha và Thái Lan, phù hợp cho chatbot, agent AI, tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), và tạo mã.
* Mô hình được cấp phép theo Giấy phép Mô hình Mở Nvidia và Thỏa thuận Giấy phép Cộng đồng Llama 3.1, cho phép sử dụng thương mại.

Nvidia ra mắt Llama-3.1 Nemotron Ultra 253 tỷ tham số, nguồn mở, vượt trội DeepSeek R1 (671 tỷ tham số) về suy luận và tuân thủ chỉ dẫn dù nhỏ hơn. Mô hình tối ưu cho GPU Nvidia, hỗ trợ 128.000 token, đa ngôn ngữ và được cấp phép thương mại.

Nvidia’s new Llama-3.1 Nemotron Ultra outperforms DeepSeek R1 at half the size

Compared to DeepSeek R1, Llama-3.1-Nemotron-Ultra-253B shows competitive results despite having less than half the parameters.

venturebeat.com

Nguồn: Songai.vn

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Nvidia ra mắt Llama-3.1 Nemotron Ultra 253 tỷ tham số, nguồn mở, vượt trội DeepSeek R1

Sóng AI

Writer

Sóng AI

Nvidia’s new Llama-3.1 Nemotron Ultra outperforms DeepSeek R1 at half the size

Từng được ví như 6 con "mãnh hổ AI" của Trung Quốc nhưng giờ thì những công ty này đành chấp nhận chỉ là "mèo con"

Thực trạng "tuyên truyền rác" về AI: Bản tin, influencer, lừa đảo đang làm loạn thị trường

Búp bê hành động do AI sinh sản tràn ngập mạng xã hội: Nghệ sĩ vẽ tay quyết “phản đòn”

LinkedIn lột xác ngoạn mục: “chuột bạch” bí mật giúp Microsoft soán ngôi trong cuộc đua AI

OpenAI gây sốc với AI biết “suy nghĩ” trên hình ảnh và công cụ lập trình viên mã nguồn mở

OpenAI ra mắt Codex CLI: Agent nguồn mở viết code tự động trong terminal

Cách kiểm tra xem mình có nợ thuế hoặc nộp dư thuế không

Đây là 10 sân bay bận rộn nhất thế giới

7 thói quen nên bỏ sớm nếu muốn thận khỏe mạnh

Loại cá người bệnh mỡ máu nên ăn thường xuyên

6 nhóm người không nên uống cà phê

5 cách kiếm tiền mới với AI mà doanh nhân tiên phong này đã áp dụng để chuyển đổi doanh nghiệp

Microsoft ra mắt tính năng “sử dụng máy tính” mới cho Copilot Studio

Cuộc chiến thương mại Mỹ - Trung leo thang sẽ gây ra hệ lụy gì?

Dell Technologies trình làng loạt đổi mới cơ sở hạ tầng, sẵn sàng cho trung tâm dữ liệu AI hiện đại

Những dấu hiệu bất thường ở tóc cảnh báo thiếu chất

Đánh giá nổi bật