Sóng AI
Writer

* Nvidia đã phát hành mô hình ngôn ngữ lớn (LLM) Llama-3.1-Nemotron-Ultra-253B-v1, một mô hình dày đặc (dense model) với 253 tỷ tham số, dựa trên mô hình Llama-3.1-405B-Instruct của Meta.
* Mô hình này được công bố vào ngày 7 tháng 4 năm 2025, mã nguồn mở hoàn toàn, bao gồm trọng số mở và dữ liệu sau huấn luyện, có sẵn trên Hugging Face.
* Llama-3.1 Nemotron Ultra được thiết kế để hỗ trợ suy luận nâng cao, tuân theo chỉ dẫn và các quy trình trợ lý AI, với khả năng chuyển đổi giữa chế độ "bật suy luận" và "tắt suy luận".
* Kiến trúc mô hình được tối ưu hóa thông qua quy trình Tìm kiếm Kiến trúc Nơ-ron (NAS), giảm bộ nhớ và yêu cầu tính toán, cho phép triển khai trên một node GPU 8x H100 duy nhất.
* Mô hình tương thích với vi kiến trúc B100 và Hopper của Nvidia, hỗ trợ độ chính xác BF16 và FP8.
* Quá trình hậu huấn luyện bao gồm tinh chỉnh có giám sát (supervised fine-tuning) trên các lĩnh vực toán học, tạo mã, trò chuyện, sử dụng công cụ và học tăng cường với Tối ưu hóa Chính sách Tương đối Nhóm (GRPO).
* Mô hình trải qua chưng cất kiến thức trên 65 tỷ token và tiếp tục tiền huấn luyện trên 88 tỷ token khác, sử dụng các bộ dữ liệu như FineWeb, Buzz-V1.2 và Dolma.
* Trong chế độ bật suy luận, hiệu năng tăng đáng kể trên các benchmark: MATH500 từ 80.40% lên 97.00%, AIME25 từ 16.67% lên 72.50%, LiveCodeBench từ 29.03% lên 66.31%, và GPQA từ 56.60% lên 76.01%.
* So với DeepSeek R1 (mô hình MoE 671 tỷ tham số), Llama-3.1 Nemotron Ultra cạnh tranh tốt dù có ít hơn một nửa số tham số, vượt trội ở GPQA (76.01 so với 71.5), IFEval (89.45 so với 83.3) và LiveCodeBench (66.31 so với 65.9).
* DeepSeek R1 vẫn dẫn đầu ở một số đánh giá toán học như AIME25 (79.8 so với 72.50) và nhỉnh hơn một chút ở MATH500 (97.3 so với 97.00).
* Mô hình hỗ trợ độ dài chuỗi đầu vào và đầu ra lên đến 128.000 token, tương thích với thư viện Hugging Face Transformers (phiên bản 4.48.3 được khuyến nghị).
* Hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, Đức, Pháp, Ý, Bồ Đào Nha, Hindi, Tây Ban Nha và Thái Lan, phù hợp cho chatbot, agent AI, tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), và tạo mã.
* Mô hình được cấp phép theo Giấy phép Mô hình Mở Nvidia và Thỏa thuận Giấy phép Cộng đồng Llama 3.1, cho phép sử dụng thương mại.

Nvidia’s new Llama-3.1 Nemotron Ultra outperforms DeepSeek R1 at half the size
Compared to DeepSeek R1, Llama-3.1-Nemotron-Ultra-253B shows competitive results despite having less than half the parameters.
Nguồn: Songai.vn