Nvidia ra mắt Llama-3.1 Nemotron Ultra 253 tỷ tham số, nguồn mở, vượt trội DeepSeek R1

Sóng AI
Sóng AI
Phản hồi: 0

Sóng AI

Writer
9bRUJ3y3Bm9HXir3vIYP.webp


* Nvidia đã phát hành mô hình ngôn ngữ lớn (LLM) Llama-3.1-Nemotron-Ultra-253B-v1, một mô hình dày đặc (dense model) với 253 tỷ tham số, dựa trên mô hình Llama-3.1-405B-Instruct của Meta.
* Mô hình này được công bố vào ngày 7 tháng 4 năm 2025, mã nguồn mở hoàn toàn, bao gồm trọng số mở và dữ liệu sau huấn luyện, có sẵn trên Hugging Face.
* Llama-3.1 Nemotron Ultra được thiết kế để hỗ trợ suy luận nâng cao, tuân theo chỉ dẫn và các quy trình trợ lý AI, với khả năng chuyển đổi giữa chế độ "bật suy luận" và "tắt suy luận".
* Kiến trúc mô hình được tối ưu hóa thông qua quy trình Tìm kiếm Kiến trúc Nơ-ron (NAS), giảm bộ nhớ và yêu cầu tính toán, cho phép triển khai trên một node GPU 8x H100 duy nhất.
* Mô hình tương thích với vi kiến trúc B100 và Hopper của Nvidia, hỗ trợ độ chính xác BF16 và FP8.
* Quá trình hậu huấn luyện bao gồm tinh chỉnh có giám sát (supervised fine-tuning) trên các lĩnh vực toán học, tạo mã, trò chuyện, sử dụng công cụ và học tăng cường với Tối ưu hóa Chính sách Tương đối Nhóm (GRPO).
* Mô hình trải qua chưng cất kiến thức trên 65 tỷ token và tiếp tục tiền huấn luyện trên 88 tỷ token khác, sử dụng các bộ dữ liệu như FineWeb, Buzz-V1.2 và Dolma.
* Trong chế độ bật suy luận, hiệu năng tăng đáng kể trên các benchmark: MATH500 từ 80.40% lên 97.00%, AIME25 từ 16.67% lên 72.50%, LiveCodeBench từ 29.03% lên 66.31%, và GPQA từ 56.60% lên 76.01%.
* So với DeepSeek R1 (mô hình MoE 671 tỷ tham số), Llama-3.1 Nemotron Ultra cạnh tranh tốt dù có ít hơn một nửa số tham số, vượt trội ở GPQA (76.01 so với 71.5), IFEval (89.45 so với 83.3) và LiveCodeBench (66.31 so với 65.9).
* DeepSeek R1 vẫn dẫn đầu ở một số đánh giá toán học như AIME25 (79.8 so với 72.50) và nhỉnh hơn một chút ở MATH500 (97.3 so với 97.00).
* Mô hình hỗ trợ độ dài chuỗi đầu vào và đầu ra lên đến 128.000 token, tương thích với thư viện Hugging Face Transformers (phiên bản 4.48.3 được khuyến nghị).
* Hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, Đức, Pháp, Ý, Bồ Đào Nha, Hindi, Tây Ban Nha và Thái Lan, phù hợp cho chatbot, agent AI, tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), và tạo mã.
* Mô hình được cấp phép theo Giấy phép Mô hình Mở Nvidia và Thỏa thuận Giấy phép Cộng đồng Llama 3.1, cho phép sử dụng thương mại.

📌 Nvidia ra mắt Llama-3.1 Nemotron Ultra 253 tỷ tham số, nguồn mở, vượt trội DeepSeek R1 (671 tỷ tham số) về suy luận và tuân thủ chỉ dẫn dù nhỏ hơn. Mô hình tối ưu cho GPU Nvidia, hỗ trợ 128.000 token, đa ngôn ngữ và được cấp phép thương mại.




Nguồn: Songai.vn
 


Đăng nhập một lần thảo luận tẹt ga
Top