Thách thức Mỹ, DeepSeek "tát" thẳng vào lệnh cấm với thuật toán đẩy hiệu năng GPU Nvidia lên gấp 8 lần

Hail the Judge
Hail the Judge
Phản hồi: 0

Hail the Judge

Ta chơi xong không trả tiền, vậy đâu có gọi là bán
Trung Quốc được cho là đã tìm ra một giải pháp thay thế cho các bộ tăng tốc AI "cắt giảm" của NVIDIA, khi dự án mới nhất của DeepSeek đã mang lại hiệu suất TFLOPS (teraflops - nghìn tỷ phép tính dấu phẩy động mỗi giây) gấp 8 lần so với bộ tăng tốc AI Hopper H800.

Có vẻ Trung Quốc không phụ thuộc vào bất kỳ ai để mở rộng quy mô về khả năng phần cứng, vì các công ty trong nước, đặc biệt là DeepSeek, đang tận dụng sức mạnh của phần mềm để tìm ra giải pháp thay thế với các thiết bị mà họ có sẵn. Những phát triển mới nhất của DeepSeek là một trong những điều "hoang dã" nhất mà chúng ta từng thấy trên thị trường, vì theo công ty, họ đã tìm cách "vắt kiệt" hiệu suất đáng kể từ GPU Hopper H800 "cắt giảm" của NVIDIA bằng cách tối ưu hóa mức tiêu thụ bộ nhớ và phân bổ tài nguyên trên các yêu cầu suy luận.

1740626992060.png


Nói nhanh gọn: DeepSeek đang tổ chức một tuần "Nguồn mở", nơi công ty có kế hoạch tiết lộ các công nghệ và công cụ sẽ dễ dàng có sẵn cho công chúng thông qua các kho lưu trữ Github. Ngày đầu tiên có vẻ là một khởi đầu tuyệt vời, vì công ty đã tiết lộ FlashMLA, một "nhân giải mã" (decoding kernel) được thiết kế đặc biệt cho GPU Hopper của NVIDIA. Trước khi chúng ta đi sâu vào cách thức hoạt động của nó, hãy xem nhanh những cải tiến mà nó đã mang lại cho thị trường, và chúng chắc chắn là mang tính cách mạng.

DeepSeek tuyên bố rằng họ đã tìm cách "vắt kiệt" 580 TFLOPS cho phép nhân ma trận BF16 trên Hopper H800, cao hơn khoảng 8 lần so với định mức tiêu chuẩn của ngành. Không chỉ vậy, với việc sử dụng bộ nhớ hiệu quả, FlashMLA cho phép băng thông bộ nhớ lên tới 3000 GB/s, gần gấp đôi mức đỉnh lý thuyết của H800. Điểm quan trọng ở đây là tất cả những điều này trở nên khả thi đơn giản thông qua các dòng mã thay vì cải tiến phần cứng.

1740627002895.png


FlashMLA của DeepSeek thực hiện "nén khóa-giá trị hạng thấp", mà nói một cách dễ hiểu, phân tách các khối dữ liệu thành các phần nhỏ hơn, cho phép xử lý nhanh hơn, cùng với việc giảm mức tiêu thụ bộ nhớ lên đến 40%-60%. Một điểm thú vị khác là việc sử dụng hệ thống phân trang dựa trên khối, phân bổ bộ nhớ một cách linh hoạt tùy thuộc vào cường độ của tác vụ, thay vì một giá trị cố định. Điều này giúp các mô hình xử lý các chuỗi có độ dài thay đổi hiệu quả hơn nhiều, cuối cùng là nâng cao hiệu suất.

Sự phát triển của DeepSeek cho thấy thế giới điện toán AI không phụ thuộc vào một yếu tố duy nhất.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top