Llama 4 với cửa sổ ngữ cảnh khổng lồ 10 triệu token: Liệu có thực sự "giết chết" RAG?

Sóng AI
Sóng AI
Phản hồi: 0

Sóng AI

Writer
1OW3UA5TATYBj3Jf8GGU.webp


- Khi Meta công bố Llama 4, mô hình nguồn mở thế hệ tiếp theo, nhiều cuộc tranh luận đã nổ ra trên mạng xã hội về việc liệu đây có phải là dấu chấm hết cho tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) do mô hình có cửa sổ ngữ cảnh lên tới 10 triệu token.

- Cửa sổ ngữ cảnh khổng lồ cho phép Llama 4 xử lý lượng thông tin lớn trong một lần truy vấn, giảm nhu cầu sử dụng nguồn bên ngoài khi xử lý dữ liệu tĩnh, nhưng nhiều chuyên gia khẳng định điều này không đồng nghĩa với việc RAG sẽ biến mất.

- Marco D'Alia, kiến trúc sư phần mềm, chỉ ra rằng việc đưa 10 triệu token vào cửa sổ ngữ cảnh sẽ tốn kém, vượt quá 1 đô la mỗi truy vấn và mất "hàng chục giây" để tạo phản hồi.

- Jamie Voynow, kỹ sư học máy, nhấn mạnh: "RAG không phải để giải quyết vấn đề cửa sổ ngữ cảnh hữu hạn, mà để lọc tín hiệu từ tập dữ liệu nhiễu. Dù cửa sổ ngữ cảnh lớn và mạnh đến đâu, việc loại bỏ dữ liệu rác khỏi đầu vào sẽ luôn cải thiện hiệu suất."

- Gokul JS, kỹ sư sáng lập của Aerotime, đưa ra phép so sánh đơn giản: "Hãy tưởng tượng đưa cho ai đó một trang văn bản dày đặc, lấy lại, rồi đặt câu hỏi. Họ sẽ chỉ nhớ được một phần, không phải tất cả."

- Skylar Payne, cựu kỹ sư hệ thống ML tại Google và LinkedIn, chỉ ra rằng hầu hết doanh nghiệp có hàng terabyte tài liệu và "không cửa sổ ngữ cảnh nào có thể chứa 50.000+ bài nghiên cứu và hàng thập kỷ hồ sơ quy định của một công ty dược phẩm."

- Các mô hình AI có giới hạn kiến thức, không thể trả lời các truy vấn phụ thuộc vào thông tin thời gian thực mới nhất trừ khi được truy xuất động, điều này đòi hỏi sử dụng RAG.

- Các nhà cung cấp suy luận như Groq hoặc Together AI cung cấp giới hạn ngữ cảnh thấp hơn nhiều so với 10 triệu. Groq cung cấp khoảng 130.000 token cho cả Llama 4 Scout và Maverick, trong khi Together AI cung cấp khoảng 300.000 token cho Llama 4 Scout và 520.000 token cho Llama 4 Maverick.

- Một nghiên cứu cho thấy sau 30.000 token trong ngữ cảnh, hiệu suất của các mô hình LLM suy giảm. Tại mức 32.000 token, 10/12 mô hình AI được kiểm tra có hiệu suất dưới một nửa so với cơ sở ngữ cảnh ngắn của chúng.

- Trên tiêu chuẩn MMLU-Pro, Llama 4 Maverick đạt 80%, ngang bằng với Claude 3.7 Sonnet (80%) và OpenAI's o3-mini (79%). Trên tiêu chuẩn GPQA Diamond, Llama 4 Maverick đạt 60%, thấp hơn Gemini 2.0 Flash (60%) và DeepSeek V3 (66%).

📌 Mặc dù Llama 4 với cửa sổ ngữ cảnh 10 triệu token là bước tiến lớn trong AI nguồn mở, RAG vẫn cần thiết cho việc lọc dữ liệu nhiễu, xử lý thông tin thời gian thực và quản lý khối lượng dữ liệu doanh nghiệp lớn vượt quá khả năng của bất kỳ cửa sổ ngữ cảnh nào.




Nguồn: Songai.vn
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top