Chip NVIDIA AI truyền hai tín hiệu mới

Trung Đào · 17/11/2023

Vào ngày 13/11 theo giờ Mỹ, tại Hội nghị Siêu máy tính Toàn cầu 2023 (SC23), Nvidia đã ra mắt GPU H200 thế hệ mới. Vào ngày hôm đó, giá cổ phiếu của Nvidia đã tăng 0,6% lên 486,2 USD tính đến thời điểm đóng cửa, dữ liệu cho thấy Nvidia đã lập kỷ lục về mức tăng liên tiếp dài nhất trong 7 năm qua. Lần này, Nvidia đã định hướng phát triển chip AI hướng tới khả năng lưu trữ và suy luận.
Các sản phẩm mới của NVIDIA lặp lại kế hoạch phát hành chip AI được Intel và AMD tiết lộ trước đó. Chip AI đang phát triển từ một cuộc cạnh tranh tập trung vào sức mạnh tính toán sang một cuộc cạnh tranh đa dạng hơn.

Trọng tâm của cuộc cạnh tranh chip AI có chuyển sang lưu trữ không?

So với H100 thế hệ trước, hiệu năng của H200 đã được cải thiện từ 60%-90%, tuy nhiên chỉ xét riêng chỉ số sức mạnh tính toán thì sức mạnh tính toán của H200 về cơ bản tương đương với H100. Bảng thông số kỹ thuật sản phẩm của cả hai dưới đây cho thấy điểm mấu chốt cho bước nhảy vọt về hiệu suất là bộ nhớ.

So sánh thông số kỹ thuật giữa H100 và H200
Khi NVIDIA ra mắt H200, họ đã tuyên bố rằng sản phẩm này là GPU đầu tiên trên thế giới được trang bị HBM3e, trong khi HBM3 vẫn được sử dụng trong H100. Điều này được hiểu rằng HBM3e có thể cung cấp cho H200 bộ nhớ video 141GB với tốc độ truyền 4,8TB/giây. So với người tiền nhiệm A100, vốn thường được các đối thủ khác coi là "đơn vị đo lường", dung lượng đã tăng gần gấp đôi và băng thông cũng tăng gấp 2,4 lần.

AMD sẽ phát hành MI300X
Trên thực tế, AMD, đối thủ của Nvidia trong lĩnh vực chip AI, đã nhấn mạnh tầm quan trọng của dung lượng lưu trữ chip AI cách đây vài tháng. Giám đốc điều hành AMD Su Zifeng cho biết sản phẩm GPU thuần Instinct MI300X của AMD sẽ ra mắt vào tháng 12 năm nay sử dụng HBM3 với bộ nhớ video 192GB và băng thông 5,2GB/giây. Điều đáng chú ý là sản phẩm của AMD có 8 ngăn xếp bộ nhớ HBM3, trong khi sản phẩm của Nvidia chỉ có 6. Đồng thời, sản phẩm tăng tốc AI đầu tiên MI300A của AMD còn có tới 13 chip nhỏ, chứa tổng cộng 146 tỷ bóng bán dẫn, được trang bị bộ nhớ HBM3 128GB, so với MI250 thế hệ trước thì hiệu năng của MI300A được tăng lên 8 lần và hiệu quả tăng lên 5 lần.
Về phía Intel, Giám đốc điều hành Intel Pat Gelsinger đã công bố lộ trình cho chip Intel AI tại Hội nghị thượng đỉnh đổi mới công nghệ Intel diễn ra vào tháng 9: Đến năm 2024, Intel sẽ ra mắt Gaudi3 sử dụng tiến trình 5nm, là thế hệ AI tiếp theo Gaudi2 được ra mắt vào năm 2022. Đánh giá từ thông số kỹ thuật của sản phẩm, Gaudi2 sử dụng 6 ngăn xếp HBM2 với tổng dung lượng 96GB. Intel cho biết sức mạnh tính toán của Guadi3 sẽ gấp đôi sản phẩm Gaudi2 thế hệ trước, đồng thời băng thông mạng và dung lượng HBM sẽ gấp 1,5 lần so với Gaudi2.

Thông số kỹ thuật Intel Gaudi2
Có thể thấy rằng, được thúc đẩy bởi nhiều hãng chip khác nhau, cuộc cạnh tranh về chip AI đang mở rộng từ sự cạnh tranh ban đầu về các chỉ số sức mạnh tính toán cho đến lĩnh vực lưu trữ, HBM (lưu trữ băng thông cao) gần như đã trở thành thứ bắt buộc phải có và phải thắng trong số đó. Ian Buck, phó chủ tịch phụ trách điện toán siêu quy mô và hiệu năng cao tại NVIDIA, cho biết: “Nếu bạn muốn tạo ra trí thông minh thông qua các ứng dụng AI và HPC tổng hợp, bạn phải sử dụng bộ nhớ GPU lớn, nhanh để xử lý lượng dữ liệu khổng lồ ở tốc độ và hiệu quả cao".
Chuyên gia ngành bán dẫn Sheng Linghai nói với phóng viên của China Electronics News: "Từ góc độ kỹ thuật, hiệu suất lưu trữ là điểm nghẽn trong việc cải thiện khả năng đào tạo AI. Nếu khả năng lưu trữ không thể theo kịp sức mạnh tính toán, việc đào tạo toàn bộ mô hình sẽ bị hủy bỏ" khó vận hành hiệu quả; từ góc độ doanh nghiệp, phát triển hiệu suất lưu trữ cũng là một trong những cách tương đối tiết kiệm chi phí". Điều này được hiểu rằng HBM3e, bộ nhớ băng thông cao có thông số kỹ thuật cao nhất hiện nay, chủ yếu được cung cấp bởi SK Hynix, Samsung và Micron.

Suy luận có phải là yếu tố có giá trị nhất trong việc cải thiện hiệu suất chip AI?

Hiệu suất và hiệu quả của việc đào tạo và suy luận mô hình lớn là những chỉ số quan trọng để đo lường hiệu suất GPU. Các nhà sản xuất lớn cũng không ngừng cải thiện khả năng của họ xung quanh việc đào tạo và suy luận mô hình lớn.

So sánh hiệu năng suy luận giữa H200 và H100
Dữ liệu cải thiện hiệu suất của H200 chủ yếu được phản ánh trong suy luận mô hình. Nvidia cho biết tốc độ suy luận của H200 trên mô hình ngôn ngữ lớn 70 tỷ tham số Llama2 gần gấp đôi so với H100 và mức tiêu thụ điện năng sẽ giảm 50%. Đồng thời, do NVIDIA H200 và H100 đều dựa trên kiến trúc Hopper nên chúng có khả năng tương thích mạnh mẽ với nhau và có thể được thay thế ở một mức độ nhất định, đồng thời NVIDIA tiết lộ rằng GPU B100 thế hệ tiếp theo sử dụng kiến trúc mới kiến trúc cũng sẽ được ra mắt vào năm 2024 để tăng cường hơn nữa hiệu suất đào tạo và suy luận.
Để đáp ứng nhu cầu đào tạo, các nhà sản xuất chất bán dẫn đã đưa ra giải pháp kết nối đa chip để hỗ trợ đào tạo mô hình với thông số lớn hơn. GAUDI 2 HLBA-225 của Intel hỗ trợ 8 chip Gaudi2 chạy cùng nhau; nền tảng Instinct của AMD cũng được trang bị 8 MI300X, mà Su Zifeng gọi là "giải pháp tối ưu cho lý luận và đào tạo trí tuệ nhân tạo"; NVIDIA dựa vào NVLink và NV Switch High- công nghệ kết nối tốc độ cao, ra mắt bo mạch chủ máy chủ HGXH200. Nvidia cho biết khách hàng có thể chọn cài đặt 4 hoặc 8 H200 và chip Grace Hopper có thể mang lại hiệu suất cao nhất cho nhiều khối lượng công việc ứng dụng khác nhau, bao gồm đào tạo và suy luận LLM cho các mô hình rất lớn với hơn 175 tỷ tham số.
“Từ góc độ đào tạo, mặc dù có cái thường được gọi là ‘trận chiến của hàng trăm mô hình’ nhưng các thông số và độ chính xác của nó cần phải được tối ưu hóa hơn nữa. Đồng thời, độ trưởng thành của các mô hình lớn chuyên nghiệp cũng không được tốt như vậy, nên nhu cầu chính hiện nay vẫn là đào tạo mô hình lớn", Sheng Linghai nói: "Đồng thời, nhu cầu suy luận sẽ tăng dần trong tương lai, bởi vì việc ứng dụng trí tuệ nhân tạo cuối cùng phụ thuộc vào khả năng suy luận".

Tìm kiếm

Có thể bạn quan tâm

Chip NVIDIA AI truyền hai tín hiệu mới

Trung Đào

Writer

Trung Đào

Trọng tâm của cuộc cạnh tranh chip AI có chuyển sang lưu trữ không?

Suy luận có phải là yếu tố có giá trị nhất trong việc cải thiện hiệu suất chip AI?

Đối thủ OpenAI ra mắt AI tạo video, giới quay phim kỹ xảo thở dài "mất việc sớm hơn dự kiến"

Ứng dụng ChatGPT trên Mac dính lỗ hổng bảo mật nghiêm trọng: cho phép hacker dễ dàng xem được mọi nội dung mà người dùng đã nhập

Trình tạo video AI mới khiến Sora của OpenAI trở nên lỗi thời, xử lý chuyển động cực mượt, độ nét cao

“Thua đứt đuôi” về AI, Apple phải nhờ cậy cả máy chủ Google với số lượng lớn

Bị lừa cài ứng dụng bảo hiểm xã hội VssID giả mạo, một phụ nữ ở Hà Nội mất trắng tới gần 1 tỷ đồng

Ford Transit 2024 thế hệ mới ra mắt thị trường Việt Nam: 3 phiên bản, mức giá từ 905 triệu đồng

Những công cụ như ChatGPT làm xói mòn sự độc đáo của con người

“Cha đẻ” Genshin Impact tung ra game mới Zenless Zone Zero: phong cách ARPG ảo tưởng đô thị, hoàn toàn miễn phí

Vì sao nước đun sôi vẫn không bị tràn ra như sữa?

Xe điện Trung Quốc "làm mưa làm gió" ở châu Âu

Các “pháp sư Trung Hoa” vừa có thêm đối thủ đáng gờm cho Apple Vision Pro: màn hình micro-OLED 8K kép, chạy chip Snapdragon, đối tác với IMAX

Không cần bằng Đại học vẫn có thể làm việc tại NASA, nộp CV thôi bạn ơi!

Quyết định 2345 của Ngân hàng Nhà nước là để làm sạch tài khoản, bảo vệ khách hàng

Đánh giá nổi bật

Gợi ý cộng đồng

Có thể bạn quan tâm

Chip NVIDIA AI truyền hai tín hiệu mới

Writer

Trọng tâm của cuộc cạnh tranh chip AI có chuyển sang lưu trữ không?​

Suy luận có phải là yếu tố có giá trị nhất trong việc cải thiện hiệu suất chip AI?​

Đối thủ OpenAI ra mắt AI tạo video, giới quay phim kỹ xảo thở dài "mất việc sớm hơn dự kiến"

Ứng dụng ChatGPT trên Mac dính lỗ hổng bảo mật nghiêm trọng: cho phép hacker dễ dàng xem được mọi nội dung mà người dùng đã nhập

Trình tạo video AI mới khiến Sora của OpenAI trở nên lỗi thời, xử lý chuyển động cực mượt, độ nét cao

“Thua đứt đuôi” về AI, Apple phải nhờ cậy cả máy chủ Google với số lượng lớn

Gợi ý cộng đồng

Trọng tâm của cuộc cạnh tranh chip AI có chuyển sang lưu trữ không?

Suy luận có phải là yếu tố có giá trị nhất trong việc cải thiện hiệu suất chip AI?