Vạch trần toàn bộ sức mạnh DeepSeek: Dùng bao nhiêu GPU Nvidia? Tốn bao nhiêu tiền đào tạo mô hình AI?

The Storm Riders
The Storm Riders
Phản hồi: 0
Đối với những ai theo dõi sát sao lĩnh vực AI, sự phấn khích gần đây xung quanh startup AI DeepSeek đến từ Trung Quốc có lẽ không phải là một tin tức quá mới mẻ. Giới chuyên gia trong ngành đã biết đến DeepSeek từ nhiều tháng nay, ghi nhận tài năng đáng nể của họ. Tuy nhiên, cơn sốt bùng nổ hiện tại có vẻ như là một hiệu ứng phóng đại trên internet, hơn là phản ánh một bước ngoặt công nghệ thực sự đột phá.

Tuần này, câu chuyện về DeepSeek đã đảo ngược hoàn toàn so với tháng trước. Khi đó, người ta tranh cãi về việc "luật mở rộng quy mô bị phá vỡ" - một lầm tưởng mà SemiAnalysis đã nhanh chóng bác bỏ. Giờ đây, luận điệu đã chuyển sang hướng khác: tiến bộ thuật toán đang diễn ra quá nhanh. Điều này lại được xem là tin xấu cho Nvidia và thị trường GPU. Câu chuyện mới nổi lên cho rằng các mô hình của DeepSeek quá hiệu quả, đến mức chúng ta không còn cần nhiều sức mạnh tính toán nữa. Tình trạng dư thừa công suất tính toán trở nên phổ biến do những cải tiến trong mô hình. Mặc dù nghịch lý Jevons (hiệu quả tăng lại thúc đẩy tiêu thụ tăng) thường bị thổi phồng, nó lại gần với thực tế hơn so với luận điệu mới này. Thực tế, chúng ta đang chứng kiến những tiến bộ thuật toán thúc đẩy nhu cầu tăng lên, với những tác động hữu hình đến giá cả của GPU H100 và H200 của Nvidia.

DeepSeek là gì?​


Để hiểu rõ hơn về sự trỗi dậy của DeepSeek, chúng ta cần nhìn lại nguồn gốc của họ. DeepSeek không phải là một dự án nghiên cứu mới nổi mà là một công ty con được tách ra từ High-Flyer, một quỹ đầu tư mạo hiểm Trung Quốc tiên phong ứng dụng AI vào thuật toán giao dịch. High-Flyer đã sớm nhận ra tiềm năng to lớn của AI không chỉ trong lĩnh vực tài chính mà còn ở nhiều lĩnh vực khác, cũng như tầm quan trọng của việc mở rộng quy mô tính toán. Kết quả, họ liên tục tăng cường nguồn cung GPU của mình. Trước khi các hạn chế xuất khẩu có hiệu lực, họ đã đầu tư mạnh vào một cụm GPU A100 khổng lồ gồm 10.000 đơn vị vào năm 2021 - một bước đi đã mang lại lợi nhuận lớn. Khi năng lực AI của High-Flyer ngày càng hoàn thiện, họ nhận ra đã đến lúc tách DeepSeek ra vào tháng 5 năm 2023, thành lập một công ty chuyên biệt tập trung vào phát triển AI chuyên sâu hơn. Điều quan trọng là High-Flyer đã tự tài trợ cho DeepSeek vì các nhà đầu tư bên ngoài vẫn còn hoài nghi về tính khả thi thương mại của AI vào thời điểm đó, chủ yếu do thiếu các mô hình kinh doanh rõ ràng. Cho đến ngày nay, High-Flyer và DeepSeek vẫn thường xuyên chia sẻ nguồn lực cả về nhân lực lẫn năng lực tính toán.

1738403125505.png


DeepSeek hiện đã phát triển thành một tổ chức quy mô lớn, hoạt động bài bản, chứ không phải là một "dự án phụ" như nhiều phương tiện truyền thông mô tả. SemiAnalysis tin rằng các khoản đầu tư GPU của họ đã vượt quá 500 triệu đô la Mỹ ngay cả khi đã bị kiềm chế bởi quy định kiểm soát xuất khẩu. SemiAnalysis ước tính họ có quyền truy cập vào khoảng 50.000 GPU kiến trúc Hopper. Điều quan trọng cần làm rõ là con số này không phải là 50.000 H100 như một số nguồn tin đã tuyên bố, mà là sự kết hợp của các biến thể Hopper bao gồm H800 và H20, những dòng chip mà Nvidia thiết kế riêng để tuân thủ các quy định xuất khẩu khác nhau. Mặc dù H800 có sức mạnh tính toán tương đương H100 nhưng băng thông mạng của nó lại thấp hơn - một điểm khác biệt tinh tế nhưng quan trọng. Phân tích của SemiAnalysis cho thấy DeepSeek sở hữu khoảng 10.000 H800 và 10.000 H100, và đã đặt hàng thêm nhiều GPU H20 hơn nữa. Để so sánh, Nvidia đã sản xuất hơn một triệu GPU dành riêng cho Trung Quốc này chỉ trong 9 tháng qua. Các GPU này được chia sẻ giữa High-Flyer và DeepSeek, được phân bổ theo khu vực địa lý ở một mức độ nhất định. Chúng được sử dụng cho giao dịch, suy luận, đào tạo và nghiên cứu. SemiAnalysis ước tính tổng chi phí vốn (CapEx) máy chủ của DeepSeek vào khoảng 1,6 tỷ đô la Mỹ, chi phí vận hành các cụm máy chủ khổng lồ này lên tới 944 triệu đô la Mỹ mỗi năm. Điều đáng chú ý là hầu hết các phòng thí nghiệm AI và các công ty Hyperscaler đều duy trì lượng GPU dự trữ vượt quá nhu cầu của từng đợt đào tạo riêng lẻ, phần lớn là do những thách thức về mặt hậu cần trong việc tập trung hóa nguồn lực. Về mặt này, X.AI nổi bật như một trường hợp ngoại lệ, khi họ tập trung tất cả GPU của mình ở một địa điểm duy nhất.

DeepSeek đã xây dựng được một đội ngũ nhân tài độc đáo tập trung tuyển dụng từ Trung Quốc, không quá coi trọng bằng cấp mà chú trọng vào năng lực thực tế và sự ham học hỏi. DeepSeek thường xuyên tổ chức các sự kiện tuyển dụng tại các trường đại học hàng đầu Trung Quốc như Đại học Bắc Kinh (PKU) và Đại học Chiết Giang, nơi nhiều nhân viên của họ tốt nghiệp. Các vai trò không nhất thiết phải được xác định trước và nhân viên mới được trao quyền linh hoạt trong công việc. Các tin tuyển dụng của họ thậm chí còn tự hào tuyên bố về khả năng tiếp cận "hàng chục nghìn GPU mà không có giới hạn sử dụng", một sức hút mạnh mẽ đối với các nhà nghiên cứu AI đầy tham vọng. Họ hoạt động cực kỳ cạnh tranh và được cho là đưa ra mức lương hơn 1,3 triệu đô la Mỹ cho các ứng viên tiềm năng – cao hơn đáng kể so với các công ty công nghệ lớn và các phòng thí nghiệm AI khác của Trung Quốc như Moonshot. Mặc dù hiện tại chỉ có khoảng 150 nhân viên, nhưng DeepSeek đang phát triển với tốc độ chóng mặt.

1738403138398.png


Lịch sử đã nhiều lần chứng minh rằng một startup nhỏ, được đầu tư bài bản, tập trung cao độ thường có thể đạt được những đột phá mà các tổ chức lớn hơn, quan liêu hơn phải vật lộn để đạt được. DeepSeek không bị gánh nặng bởi bộ máy hành chính cồng kềnh như Google và quan trọng hơn, được tự chủ về tài chính, cho phép đưa ra quyết định nhanh chóng và linh hoạt. Hơn nữa, giống như Google, DeepSeek phần lớn tự vận hành các trung tâm dữ liệu của riêng mình tránh phụ thuộc vào các nhà cung cấp dịch vụ đám mây bên ngoài. Sự tích hợp dọc này mang lại cho họ sự linh hoạt cao hơn để thử nghiệm và đổi mới trên toàn bộ ngăn xếp AI. Theo đánh giá của SemiAnalysis, DeepSeek hiện là phòng thí nghiệm "mã nguồn mở" tốt nhất vượt qua cả những nỗ lực đáng kể của dự án Llama của Meta, Mistral và các dự án khác.

Chi phí đào tạo bao nhiêu?​


Sự cường điệu hóa gần đây về DeepSeek V3 phần lớn bắt nguồn từ những tuyên bố về chi phí đào tạo cực kỳ thấp, chỉ "6 triệu đô la Mỹ". Tuy nhiên, con số này là một sự hiểu lầm tai hại. Nó giống việc chỉ ra chi phí của một chiếc lốp xe trong bảng kê vật liệu và quy chụp đó là tổng chi phí sản xuất của chiếc xe. Chi phí đào tạo trước được báo cáo chỉ là một phần rất nhỏ trong tổng chi phí thực tế của mô hình. SemiAnalysis tin rằng chi phí phần cứng thực tế của DeepSeek lớn hơn nhiều so với con số 6 triệu đô la Mỹ được công bố, dễ dàng vượt quá 500 triệu đô la Mỹ trong lịch sử công ty. Để phát triển các kiến trúc AI thực sự đột phá, cần có sự đầu tư đáng kể và liên tục vào R&D – một chu trình thử nghiệm liên tục, kiểm tra các khái niệm mới, các kiến trúc cải tiến và thực hiện các nghiên cứu loại bỏ dần. Multi-Head Latent Attention (MLA), một cải tiến kiến trúc quan trọng của DeepSeek, được cho là đã tiêu tốn nhiều tháng nỗ lực của đội ngũ kỹ sư chuyên biệt, tiêu thụ vô số giờ GPU trong quá trình phát triển.

1738403147634.png


Con số 6 triệu đô la Mỹ được trích dẫn trong báo cáo của DeepSeek chỉ đề cập đến chi phí GPU của đợt đào tạo trước cuối cùng. Nó bỏ qua các thành phần quan trọng của phương trình chi phí tổng thể, bao gồm chi phí R&D và Tổng chi phí sở hữu (TCO) của chính phần cứng. Để tham khảo, chi phí đào tạo Claude 3.5 Sonnet lên tới hàng chục triệu đô la Mỹ. Nếu con số đó thực sự đại diện cho tổng chi phí mà Anthropic cần, họ đã không cần phải huy động hàng tỷ đô la từ Google và hàng chục tỷ đô la từ Amazon. Thực tế là, phát triển các mô hình AI tiên tiến đòi hỏi sự đầu tư khổng lồ và đa dạng vào thử nghiệm, thiết kế kiến trúc mới, thu thập và làm sạch dữ liệu quy mô lớn, trả lương cạnh tranh cho nhân viên và một loạt các chi phí hoạt động phức tạp khác.

Vậy làm thế nào DeepSeek có thể tập hợp được một cụm GPU hùng hậu như vậy, dường như bất chấp các quy định kiểm soát xuất khẩu ngày càng nghiêm ngặt? Câu trả lời nằm ở độ trễ vốn có trong việc thực thi các biện pháp kiểm soát xuất khẩu, một điểm mà chúng ta sẽ khám phá chi tiết hơn trong phần về kiểm soát xuất khẩu bên dưới.

Mặc dù DeepSeek V3 chắc chắn là một mô hình ấn tượng, nhưng điều quan trọng là phải đặt hiệu suất của nó trong bối cảnh rộng lớn hơn của lĩnh vực AI. Nhiều so sánh trực tiếp đặt V3 đối đầu với GPT-4o, nhấn mạnh hiệu suất vượt trội của V3. Mặc dù đúng về mặt kỹ thuật trên một số điểm chuẩn, nhưng sự so sánh này có phần gây hiểu lầm. GPT-4o được phát hành vào tháng 5 năm 2024 – một kỷ nguyên xa xưa trong thế giới AI phát triển với tốc độ chóng mặt. Với tốc độ tiến bộ thuật toán theo cấp số nhân, việc đạt được khả năng tương đương hoặc thậm chí vượt trội với mức tiêu thụ điện toán ít hơn trong một khung thời gian tương đối ngắn không phải điều hoàn toàn bất ngờ. Chi phí suy luận giảm nhanh chóng là một đặc điểm nổi bật của sự tiến bộ trong AI.

1738403160073.png


Hãy xem xét ví dụ dễ thấy về các mô hình nhỏ hơn, hiện có khả năng chạy hiệu quả trên máy tính xách tay tiêu dùng, đạt được các chỉ số hiệu suất sánh ngang với GPT-3. Chỉ vài năm trước đây, GPT-3 đòi hỏi cơ sở hạ tầng cấp siêu máy tính để đào tạo và nhiều GPU cao cấp cho suy luận. Những cải tiến thuật toán liên tục cho phép phát triển các mô hình ngày càng mạnh mẽ với yêu cầu tính toán ngày càng nhỏ hơn. Thành tựu của DeepSeek, mặc dù đáng chú ý, chỉ đơn giản là sự thể hiện mới nhất của xu hướng đang diễn ra này. Sự chú ý tăng cao mà họ nhận được hiện nay phần lớn là do nguồn gốc Trung Quốc của DeepSeek, tạo thêm một câu chuyện hấp dẫn về một kẻ thách thức đang trỗi dậy trong cuộc đua AI toàn cầu.

Những gì chúng ta đã chứng kiến cho đến nay với xu hướng này là các phòng thí nghiệm AI liên tục chi tiêu nhiều hơn về giá trị tuyệt đối đô la cho nghiên cứu và phát triển AI, nhưng thu được "trí tuệ trên mỗi đô la" theo cấp số nhân để đổi lại. Các ước tính cho thấy tiến bộ thuật toán đang tiến triển với tốc độ khoảng 4 lần mỗi năm – có nghĩa là mỗi năm trôi qua, cần ít hơn khoảng 4 lần sức mạnh tính toán để đạt được khả năng tương đương. Dario Amodei, CEO của Anthropic thậm chí còn đưa ra tốc độ nhanh hơn, lập luận rằng những cải tiến thuật toán có thể mang lại mức cải thiện gấp 10 lần về hiệu quả. Giá suy luận cho các mô hình chất lượng GPT-3 đã giảm đáng kinh ngạc 1200 lần. Khi nghiên cứu chi phí cho GPT-4, chúng ta thấy mức giảm chi phí tương tự, mặc dù ở phần đầu của đường cong. Trong khi sự khác biệt chi phí giảm dần theo thời gian có thể được giải thích là do không còn giữ khả năng ổn định như biểu đồ trên. Trong trường hợp này, chúng ta thấy những cải tiến và tối ưu hóa thuật toán tạo ra mức giảm chi phí gấp 10 lần cùng với sự gia tăng đáng kể về khả năng tổng thể.

Để hoàn toàn rõ ràng, DeepSeek là duy nhất ở chỗ họ đạt được mức chi phí và khả năng này trước tiên. Họ là duy nhất ở chỗ đã phát hành mã nguồn mở, nhưng các mô hình Mistral và Llama trước đó cũng đã làm điều này trong quá khứ. DeepSeek đã đạt được mức chi phí này, nhưng đừng ngạc nhiên nếu chi phí giảm thêm 5 lần nữa vào cuối năm nay.

1738403167927.png


Khả năng suy luận đến đâu?​


Mặt khác, mô hình R1 của DeepSeek đạt được kết quả tương đương với mô hình o1 của OpenAI, một mô hình mới chỉ được công bố vào tháng 9 năm 2024. Làm thế nào DeepSeek có thể thu hẹp khoảng cách này nhanh chóng như vậy? Câu trả lời là lý luận đại diện cho một mô hình mới trong phát triển AI, đặc trưng bởi tốc độ lặp lại nhanh hơn và những thành quả dễ dàng đạt được hơn với chi phí điện toán nhỏ hơn so với mô hình trước đó. Như đã trình bày trong báo cáo về luật mở rộng quy mô của chúng tôi, mô hình trước đây phụ thuộc nhiều vào quá trình đào tạo trước, và điều đó đang trở nên tốn kém hơn và khó đạt được những lợi ích mạnh mẽ hơn.

Mô hình mới tập trung vào khả năng lý luận thông qua việc tạo dữ liệu tổng hợp và RL trong quá trình hậu đào tạo trên một mô hình hiện có, cho phép đạt được những lợi ích nhanh hơn với chi phí thấp hơn. Rào cản gia nhập thấp hơn kết hợp với khả năng tối ưu hóa dễ dàng có nghĩa DeepSeek có thể sao chép các phương pháp o1 nhanh hơn bình thường. Khi các công ty tìm ra cách mở rộng quy mô hơn nữa trong mô hình mới này, SemiAnalysis kỳ vọng khoảng cách thời gian giữa các khả năng phù hợp sẽ tăng lên.

Cần lưu ý rằng bài báo về R1 không đề cập đến điện toán đã sử dụng. Đây không phải là một tai nạn – cần một lượng điện toán đáng kể để tạo dữ liệu tổng hợp cho quá trình hậu đào tạo R1. Đó là chưa kể đến RL. R1 là một mô hình rất tốt, chúng tôi không tranh cãi về điều này, và việc bắt kịp lợi thế về lý luận nhanh chóng như vậy là điều ấn tượng một cách khách quan. Việc DeepSeek là một công ty Trung Quốc và bắt kịp với ít nguồn lực hơn khiến điều đó càng thêm ấn tượng.

1738403174898.png


Nhưng một số điểm chuẩn mà R1 đề cập cũng gây hiểu lầm. So sánh R1 với o1 rất khó, vì R1 đặc biệt không đề cập đến các điểm chuẩn mà họ không dẫn đầu. Và mặc dù R1 phù hợp về hiệu suất lý luận, nhưng nó không phải là người chiến thắng rõ ràng trong mọi chỉ số và trong nhiều trường hợp, nó còn kém hơn o1. Và chúng ta vẫn chưa đề cập đến o3. o3 có khả năng cao hơn đáng kể so với cả R1 hoặc o1. Trên thực tế, OpenAI gần đây đã chia sẻ kết quả của o3 và việc mở rộng điểm chuẩn là theo chiều dọc. "Học sâu đã chạm tường", nhưng là một loại tường khác.

Trong khi có một cơn sốt cường điệu hóa cho R1, một công ty trị giá 2,5 nghìn tỷ đô la Mỹ đã phát hành một mô hình lý luận rẻ hơn một tháng trước: Gemini Flash 2.0 Thinking của Google. Mô hình này có sẵn để sử dụng và rẻ hơn đáng kể so với R1, ngay cả với độ dài ngữ cảnh lớn hơn nhiều cho mô hình thông qua API.

Trên các điểm chuẩn được báo cáo, Flash 2.0 Thinking đánh bại R1, mặc dù các điểm chuẩn không nói lên toàn bộ câu chuyện. Google chỉ phát hành 3 điểm chuẩn nên đó là một bức tranh không đầy đủ. Tuy nhiên, SemiAnalysis nghĩ rằng mô hình của Google mạnh mẽ, vượt trội hơn R1 về nhiều mặt trong khi không nhận được bất kỳ sự cường điệu hóa nào. Điều này có thể là do chiến lược tiếp cận thị trường thiếu hiệu quả và trải nghiệm người dùng kém của Google, mà còn có thể là do R1 là một bất ngờ đến từ Trung Quốc.

1738403187908.png


Để rõ ràng, không điều nào trong số này làm giảm đi những thành tựu đáng chú ý của DeepSeek. Cấu trúc của DeepSeek với tư cách là một startup nhanh nhẹn, được tài trợ tốt, thông minh và tập trung cao độ là lý do tại sao nó đánh bại những gã khổng lồ như Meta trong việc phát hành một mô hình lý luận, và điều đó rất đáng khen ngợi.

Thành tựu kỹ thuật​


DeepSeek đã giải mã được mật mã và mở khóa những đổi mới mà các phòng thí nghiệm hàng đầu vẫn chưa thể đạt được. Chúng tôi kỳ vọng rằng bất kỳ cải tiến đã xuất bản nào của DeepSeek sẽ được các phòng thí nghiệm phương Tây sao chép gần như ngay lập tức. Những cải tiến này là gì? Hầu hết các thành tựu kiến trúc đều liên quan cụ thể đến V3, vốn cũng là mô hình cơ sở cho R1. Hãy trình bày chi tiết những đổi mới này.

DeepSeek V3 sử dụng Dự đoán đa token (MTP) ở quy mô chưa từng thấy trước đây, và đây là các mô-đun chú ý được thêm vào để dự đoán một vài token tiếp theo thay vì một token đơn lẻ. Điều này cải thiện hiệu suất mô hình trong quá trình đào tạo và có thể bị loại bỏ trong quá trình suy luận. Đây là một ví dụ về sự đổi mới thuật toán cho phép cải thiện hiệu suất với chi phí điện toán thấp hơn. Có những cân nhắc khác như thực hiện độ chính xác FP8 trong quá trình đào tạo, nhưng các phòng thí nghiệm hàng đầu của Hoa Kỳ đã thực hiện đào tạo FP8 trong một thời gian.

1738403219108.png


DeepSeek v3 cũng là một mô hình kết hợp các chuyên gia, đây là một mô hình lớn bao gồm nhiều chuyên gia nhỏ hơn khác chuyên về các lĩnh vực khác nhau, một hành vi mới nổi. Một khó khăn mà các mô hình MoE gặp phải là làm thế nào để xác định mã thông báo nào đi đến mô hình con hoặc "chuyên gia" nào. DeepSeek đã triển khai một "mạng cổng" định tuyến các token đến đúng chuyên gia một cách cân bằng mà không làm giảm hiệu suất mô hình. Điều này có nghĩa là định tuyến rất hiệu quả và chỉ một vài tham số được thay đổi trong quá trình đào tạo trên mỗi token so với kích thước tổng thể của mô hình. Điều này làm tăng hiệu quả đào tạo và giảm chi phí suy luận.

Bất chấp những lo ngại rằng lợi ích hiệu quả của Mô hình kết hợp các chuyên gia (MoE) có thể làm giảm đầu tư, Dario chỉ ra rằng lợi ích kinh tế của các mô hình AI có khả năng hơn là rất đáng kể đến mức bất kỳ khoản tiết kiệm chi phí nào đều được tái đầu tư nhanh chóng vào việc xây dựng các mô hình thậm chí còn lớn hơn. Thay vì giảm đầu tư tổng thể, hiệu quả được cải thiện của MoE sẽ đẩy nhanh nỗ lực mở rộng quy mô AI. Các công ty đang tập trung cao độ vào việc mở rộng quy mô mô hình sang điện toán nhiều hơn và làm cho chúng hiệu quả hơn về mặt thuật toán.

Về R1, nó được hưởng lợi rất nhiều từ việc có một mô hình cơ sở mạnh mẽ (v3). Điều này một phần là do Học tăng cường (RL). Có hai trọng tâm trong RL: định dạng (để đảm bảo nó cung cấp đầu ra mạch lạc) và sự hữu ích và vô hại (để đảm bảo mô hình hữu ích). Khả năng lý luận nổi lên trong quá trình tinh chỉnh mô hình trên một tập dữ liệu tổng hợp. Điều này, như đã đề cập trong bài viết về luật mở rộng quy mô của chúng tôi, là những gì đã xảy ra với o1. Cần lưu ý rằng trong bài báo về R1, không có điện toán nào được đề cập, điều này là do việc đề cập đến lượng điện toán đã sử dụng sẽ cho thấy rằng họ có nhiều GPU hơn so với những gì họ kể. RL ở quy mô này đòi hỏi một lượng điện toán đáng kể, đặc biệt là để tạo dữ liệu tổng hợp.

1738403227049.png


Ngoài ra, một phần dữ liệu mà DeepSeek sử dụng dường như là dữ liệu từ các mô hình của OpenAI, và chúng tôi tin rằng điều đó sẽ có tác động đến chính sách về việc chắt lọc từ đầu ra. Điều này vốn đã là bất hợp pháp theo điều khoản dịch vụ, nhưng trong tương lai, một xu hướng mới có thể là một hình thức KYC (Nhận biết khách hàng của bạn) để ngăn chặn việc chắt lọc.

Và nói về việc chắt lọc, có lẽ phần thú vị nhất trong bài báo về R1 là khả năng biến các mô hình nhỏ hơn không có khả năng lý luận thành các mô hình có khả năng lý luận thông qua việc tinh chỉnh chúng bằng đầu ra từ một mô hình lý luận. Việc quản lý tập dữ liệu chứa tổng cộng 800 nghìn mẫu và giờ đây bất kỳ ai cũng có thể sử dụng đầu ra CoT của R1 để tạo tập dữ liệu của riêng họ và tạo ra các mô hình lý luận với sự trợ giúp của các đầu ra đó. Chúng ta có thể thấy nhiều mô hình nhỏ hơn thể hiện khả năng lý luận, củng cố hiệu suất của các mô hình nhỏ.

Multi-Head Latent Attention (MLA)​


MLA là một đổi mới quan trọng chịu trách nhiệm giảm đáng kể giá suy luận cho DeepSeek. Lý do là MLA giảm lượng Bộ nhớ đệm KV cần thiết cho mỗi truy vấn khoảng 93,3% so với sự chú ý tiêu chuẩn. Bộ nhớ đệm KV là một cơ chế bộ nhớ trong các mô hình biến đổi lưu trữ dữ liệu đại diện cho ngữ cảnh của cuộc trò chuyện, giảm tính toán không cần thiết.

Như đã thảo luận trong bài viết về luật mở rộng quy mô của SemiAnalysis, Bộ nhớ đệm KV tăng lên khi ngữ cảnh của cuộc trò chuyện tăng lên và tạo ra những hạn chế đáng kể về bộ nhớ. Việc giảm đáng kể lượng Bộ nhớ đệm KV cần thiết cho mỗi truy vấn làm giảm lượng phần cứng cần thiết cho mỗi truy vấn, từ đó giảm chi phí. Tuy nhiên, SemiAnalysis nghĩ rằng DeepSeek đang cung cấp suy luận ngang bằng chi phí để giành thị phần và thực sự không kiếm được tiền. Google Gemini Flash 2 Thinking vẫn rẻ hơn và Google khó có thể cung cấp mức giá đó ngang bằng chi phí. MLA đặc biệt thu hút sự chú ý của nhiều phòng thí nghiệm hàng đầu của Hoa Kỳ. MLA đã được phát hành trong DeepSeek V2 phát hành vào tháng 5 năm 2024. DeepSeek cũng được hưởng lợi từ hiệu quả cao hơn cho khối lượng công việc suy luận với H20 do băng thông và dung lượng bộ nhớ cao hơn so với H100. Họ đã công bố quan hệ đối tác với Huawei nhưng cho đến nay vẫn chưa thực hiện được gì nhiều với điện toán Ascend.

#DeepSeek
 


Đăng nhập một lần thảo luận tẹt ga
Top