Elon Musk vừa khoe Grok 3 mạnh nhất thế giới, Deepseek công bố NSA mới tiết kiệm tài nguyên, tăng tốc độ

Nhai kỹ sống chậm
Nhai kỹ sống chậm
Phản hồi: 0
Deepseek vừa chia sẻ trên X như sau:
🚀 Giới thiệu NSA: Cơ chế Sparse Attention được liên kết với phần cứng và có thể đào tạo gốc để đào tạo & suy luận ngữ cảnh dài cực nhanh!
Các thành phần cốt lõi của NSA:
• Chiến lược thưa thớt phân cấp động
• Nén mã thông báo thô
• Lựa chọn mã thông báo chi tiết
1739868506517.png

💡 Với thiết kế được tối ưu hóa cho phần cứng hiện đại, NSA tăng tốc suy luận trong khi giảm chi phí đào tạo trước—mà không ảnh hưởng đến hiệu suất. Nó phù hợp hoặc vượt trội hơn các mô hình Full Attention về các điểm chuẩn chung, tác vụ ngữ cảnh dài và lý luận dựa trên hướng dẫn.
1739868880419.png

1739868898347.png

1739868917796.png


1739868928178.png


Điều này có nghĩa là Deepseek không cần đến phần cứng mạnh nhất!
NSA (có thể là một kiến trúc hoặc mô hình AI mới) sử dụng cơ chế Sparse Attention để tối ưu hóa việc huấn luyện và suy luận trên các ngữ cảnh dài.
Cụ thể, NSA có ba thành phần chính:
  • Chiến lược thưa thớt phân cấp động: Có thể hiểu là cơ chế lựa chọn thông tin quan trọng theo từng cấp độ, giúp giảm bớt lượng dữ liệu cần xử lý.
  • Nén mã thông báo thô: Giảm số lượng token đầu vào nhưng vẫn giữ nguyên ý nghĩa, giúp mô hình chạy nhanh hơn.
  • Lựa chọn mã thông báo chi tiết: Xác định những phần quan trọng nhất trong câu để tập trung tài nguyên tính toán vào đó.
Điểm nổi bật của NSA là được thiết kế tối ưu cho phần cứng hiện đại, giúp tăng tốc suy luận, giảm chi phí huấn luyện mà vẫn đạt hoặc vượt hiệu suất so với Full Attention. Điều này có ý nghĩa quan trọng khi xử lý các tác vụ yêu cầu hiểu văn bản dài hoặc suy luận theo hướng dẫn—những lĩnh vực có thể liên quan đến các tài liệu pháp luật mà bạn quan tâm. #Grok3
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top