Elon Musk vừa khoe Grok 3 mạnh nhất thế giới, Deepseek công bố NSA mới tiết kiệm tài nguyên, tăng tốc độ

Nhai kỹ sống chậm · 15:49, Thứ 3

Deepseek vừa chia sẻ trên X như sau:

Giới thiệu NSA: Cơ chế Sparse Attention được liên kết với phần cứng và có thể đào tạo gốc để đào tạo & suy luận ngữ cảnh dài cực nhanh!
Các thành phần cốt lõi của NSA:
• Chiến lược thưa thớt phân cấp động
• Nén mã thông báo thô
• Lựa chọn mã thông báo chi tiết

Với thiết kế được tối ưu hóa cho phần cứng hiện đại, NSA tăng tốc suy luận trong khi giảm chi phí đào tạo trước—mà không ảnh hưởng đến hiệu suất. Nó phù hợp hoặc vượt trội hơn các mô hình Full Attention về các điểm chuẩn chung, tác vụ ngữ cảnh dài và lý luận dựa trên hướng dẫn.

Điều này có nghĩa là Deepseek không cần đến phần cứng mạnh nhất!
NSA (có thể là một kiến trúc hoặc mô hình AI mới) sử dụng cơ chế Sparse Attention để tối ưu hóa việc huấn luyện và suy luận trên các ngữ cảnh dài.
Cụ thể, NSA có ba thành phần chính:

Chiến lược thưa thớt phân cấp động: Có thể hiểu là cơ chế lựa chọn thông tin quan trọng theo từng cấp độ, giúp giảm bớt lượng dữ liệu cần xử lý.
Nén mã thông báo thô: Giảm số lượng token đầu vào nhưng vẫn giữ nguyên ý nghĩa, giúp mô hình chạy nhanh hơn.
Lựa chọn mã thông báo chi tiết: Xác định những phần quan trọng nhất trong câu để tập trung tài nguyên tính toán vào đó.

Điểm nổi bật của NSA là được thiết kế tối ưu cho phần cứng hiện đại, giúp tăng tốc suy luận, giảm chi phí huấn luyện mà vẫn đạt hoặc vượt hiệu suất so với Full Attention. Điều này có ý nghĩa quan trọng khi xử lý các tác vụ yêu cầu hiểu văn bản dài hoặc suy luận theo hướng dẫn—những lĩnh vực có thể liên quan đến các tài liệu pháp luật mà bạn quan tâm. #Grok3

Chủ đề hot

Có thể bạn quan tâm

Elon Musk vừa khoe Grok 3 mạnh nhất thế giới, Deepseek công bố NSA mới tiết kiệm tài nguyên, tăng tốc độ

Nhai kỹ sống chậm

Writer

Nhai kỹ sống chậm

AI đang giúp các nhà nghiên cứu tìm ra các giả thuyết mới và chúng hữu ích thực sự

Thiết bị AI được kì vọng sẽ thay thế smartphone bây giờ ra sao?

Grok 3 là gì? Làm sao để sử dụng Grok 3? Grok 3 có rẻ hơn đối thủ o3-mini hay không?

Grok 3 có đúng là "AI thông minh nhất Trái Đất" như Elon Musk tuyên bố? So sánh Grok 3 và O3-mini

Chân dung "Sam Altman Trung Quốc" và đội ngũ kỹ sư trẻ đứng sau "cơn địa chấn" DeepSeek

Grok 3 và Deepseek không chung đường

DJI RS 4 Mini ra mắt tại Việt Nam: Gimbal "nhỏ mà có võ", tối ưu cho dân sáng tạo nội dung, giá từ 6,9 triệu đồng

OPPO Find N5 ra mắt toàn cầu: smartphone gập mỏng nhất, mạnh nhất hiện nay, hàng loạt tính năng AI

HUAWEI MatePad 11.5 Mới trình làng tại Việt Nam: Màn Hình PaperMatte 120 Hz, bàn phím rời kèm sẵn cùng bộ ứng dụng văn phòng WPS như PC

App Pi Network sập, nhiều người hoảng loạn

Chúng ta đã hiểu sai một định luật vật lý quan trọng trong gần 300 năm

Cách dọn dẹp bộ nhớ Zalo, "sát thủ tiêu diệt bộ nhớ" trên máy tính

Kioxia ra mắt bộ nhớ flash NAND 332 lớp, định nghĩa lại tốc độ và hiệu quả

Cách thay đổi trang phục cho ảnh bằng app AI đang sốt xình xịch trên mạng

Thị trấn vùng sâu đứng sau thành công của đế chế xe điện khổng lồ BYD

Ăn trứng chưa chín lòng đỏ vẫn chảy ra có an toàn không?

Đánh giá nổi bật