The Storm Riders
Writer
Ngày 6/4/2025, Meta chính thức công bố hai mô hình đầu tiên trong series Llama 4 – Llama 4 Scout và Llama 4 Maverick – đánh dấu bước ngoặt trong việc triển khai kiến trúc đa phương thức (multimodal) hoàn toàn mới. Đây là lần đầu tiên Meta áp dụng thiết kế Mixture-of-Experts (MoE) cho dòng Llama, hứa hẹn mang lại hiệu quả tính toán vượt trội và khả năng xử lý đồng thời văn bản lẫn hình ảnh.
Quá trình huấn luyện Behemoth sử dụng hơn 30 nghìn tỷ token dữ liệu (gấp đôi Llama 3), kết hợp FP8 precision và 32K GPU, đạt hiệu suất tính toán 390 TFLOPs/GPU. Scout và Maverick thừa hưởng những cải tiến này, với hậu huấn luyện bao gồm tinh chỉnh có giám sát (loại bỏ hơn 50% dữ liệu dễ đối với Maverick và 95% với Behemoth), học tăng cường trực tuyến, và tối ưu hóa ưu tiên trực tiếp (DPO) để tập trung vào các tác vụ khó.
Llama 4: Kiến trúc MoE và khả năng đa phương thức
Cả Scout và Maverick đều sử dụng kiến trúc MoE, trong đó chỉ một phần nhỏ tham số được kích hoạt cho mỗi đầu vào, giảm tải tính toán đáng kể. MoE hoạt động như một hệ thống gồm nhiều “chuyên gia” (experts), mỗi chuyên gia đảm nhận một khía cạnh cụ thể của nhiệm vụ, từ đó nâng cao hiệu suất mà không cần huy động toàn bộ mô hình. Theo Meta, đây là các mô hình Llama đầu tiên tích hợp xử lý văn bản và hình ảnh trong cùng một kiến trúc, được huấn luyện trên dữ liệu đa dạng gồm văn bản, hình ảnh và video. Trong giai đoạn tiền huấn luyện, hệ thống xử lý tới 48 hình ảnh cùng lúc, và sau huấn luyện, nó chứng minh khả năng nhận diện tối đa 8 hình ảnh đầu vào với hiệu suất ấn tượng.
- Llama 4 Scout: Với 17 tỷ tham số hoạt động (trong tổng số 109 tỷ) phân bố trên 16 chuyên gia, Scout được tối ưu để chạy trên một GPU Nvidia H100 duy nhất. Mô hình này nổi bật với cửa sổ ngữ cảnh 10 triệu token – tương đương 5 triệu từ hoặc khoảng 15.000 trang sách – lớn nhất trong ngành hiện nay. Scout phù hợp cho các tác vụ dài hơi như tóm tắt tài liệu lớn, phân tích mã nguồn, hoặc trả lời câu hỏi dựa trên hình ảnh. Tuy nhiên, Meta chưa chứng minh hiệu quả của nó với các truy vấn phức tạp vượt ngoài tìm kiếm đơn giản, và cửa sổ 10 triệu token thực chất là kết quả tổng quát hóa từ huấn luyện 256K token, chứ không phải huấn luyện trực tiếp.
- Llama 4 Maverick: Cũng có 17 tỷ tham số hoạt động nhưng sở hữu 400 tỷ tham số tổng cộng trên 128 chuyên gia, Maverick đòi hỏi một máy chủ Nvidia DGX H100 (8 GPU) để triển khai. Với cửa sổ ngữ cảnh 1 triệu token, nó được định vị là “ngựa thồ” cho các ứng dụng trợ lý và trò chuyện, vượt trội hơn GPT-4o của OpenAI và Gemini 2.0 Flash của Google trên nhiều chuẩn đo. Maverick đạt điểm 1417 trên bảng xếp hạng LMArena ELO, và có kết quả ngang ngửa DeepSeek V3 trong suy luận và lập trình, dù dùng ít tham số hơn.

Behemoth: “Người thầy” 2 nghìn tỷ tham số
Scout và Maverick được “chắt lọc” từ Llama 4 Behemoth – một mô hình nội bộ khổng lồ với 288 tỷ tham số hoạt động và gần 2 nghìn tỷ tham số tổng, phân bố trên 16 chuyên gia. Behemoth, vẫn đang trong quá trình huấn luyện, đóng vai trò “giáo viên” để nâng cao chất lượng các mô hình nhỏ hơn thông qua kỹ thuật co-distillation (chưng cất đồng thời). Meta tuyên bố Behemoth vượt qua GPT-4.5, Claude Sonnet 3.7 và Gemini 2.0 Pro trên các chuẩn đo STEM như toán học và khoa học, nhưng chưa so sánh với Gemini 2.5 Pro – mô hình dẫn đầu về suy luận hiện nay. Behemoth dự kiến ra mắt sau, cùng với một phiên bản Llama chuyên về suy luận mà Mark Zuckerberg hé lộ sẽ xuất hiện trong tháng tới.Quá trình huấn luyện Behemoth sử dụng hơn 30 nghìn tỷ token dữ liệu (gấp đôi Llama 3), kết hợp FP8 precision và 32K GPU, đạt hiệu suất tính toán 390 TFLOPs/GPU. Scout và Maverick thừa hưởng những cải tiến này, với hậu huấn luyện bao gồm tinh chỉnh có giám sát (loại bỏ hơn 50% dữ liệu dễ đối với Maverick và 95% với Behemoth), học tăng cường trực tuyến, và tối ưu hóa ưu tiên trực tiếp (DPO) để tập trung vào các tác vụ khó.


