Nhai kỹ sống chậm
Writer
Deepseek vừa chia sẻ trên X như sau:
Giới thiệu NSA: Cơ chế Sparse Attention được liên kết với phần cứng và có thể đào tạo gốc để đào tạo & suy luận ngữ cảnh dài cực nhanh!
Các thành phần cốt lõi của NSA:
• Chiến lược thưa thớt phân cấp động
• Nén mã thông báo thô
• Lựa chọn mã thông báo chi tiết
Với thiết kế được tối ưu hóa cho phần cứng hiện đại, NSA tăng tốc suy luận trong khi giảm chi phí đào tạo trước—mà không ảnh hưởng đến hiệu suất. Nó phù hợp hoặc vượt trội hơn các mô hình Full Attention về các điểm chuẩn chung, tác vụ ngữ cảnh dài và lý luận dựa trên hướng dẫn.
Điều này có nghĩa là Deepseek không cần đến phần cứng mạnh nhất!
NSA (có thể là một kiến trúc hoặc mô hình AI mới) sử dụng cơ chế Sparse Attention để tối ưu hóa việc huấn luyện và suy luận trên các ngữ cảnh dài.
Cụ thể, NSA có ba thành phần chính:

Các thành phần cốt lõi của NSA:
• Chiến lược thưa thớt phân cấp động
• Nén mã thông báo thô
• Lựa chọn mã thông báo chi tiết






Điều này có nghĩa là Deepseek không cần đến phần cứng mạnh nhất!
NSA (có thể là một kiến trúc hoặc mô hình AI mới) sử dụng cơ chế Sparse Attention để tối ưu hóa việc huấn luyện và suy luận trên các ngữ cảnh dài.
Cụ thể, NSA có ba thành phần chính:
- Chiến lược thưa thớt phân cấp động: Có thể hiểu là cơ chế lựa chọn thông tin quan trọng theo từng cấp độ, giúp giảm bớt lượng dữ liệu cần xử lý.
- Nén mã thông báo thô: Giảm số lượng token đầu vào nhưng vẫn giữ nguyên ý nghĩa, giúp mô hình chạy nhanh hơn.
- Lựa chọn mã thông báo chi tiết: Xác định những phần quan trọng nhất trong câu để tập trung tài nguyên tính toán vào đó.