VNR Content
Pearl
Vào thứ Hai (13/11/2023 giờ Mỹ), Nvidia đã công bố GPU HGX H200 Tensor Core, sử dụng kiến trúc Hopper để tăng tốc các ứng dụng AI. Đây là phiên bản tiếp theo của GPU H100 được phát hành năm ngoái và là chip GPU AI mạnh nhất của Nvidia cho đến thời điểm hiện tại. Nếu được triển khai rộng rãi, nó có thể tạo ra các mô hình AI mạnh mẽ hơn nhiều và thời gian phản hồi nhanh hơn cho các mô hình hiện có như ChatGPT trong tương lai gần.
Theo các chuyên gia, việc thiếu sức mạnh tính toán (thường được gọi là "điện toán") là trở ngại lớn cho tiến trình AI trong năm qua, cản trở việc triển khai các mô hình AI hiện có và làm chậm quá trình phát triển các mô hình AI mới. Nguyên nhân phần lớn là do sự thiếu hụt GPU mạnh mẽ giúp tăng tốc các mô hình AI. Một cách để giảm bớt nút thắt cổ chai điện toán là tạo ra nhiều chip hơn, nhưng bạn cũng có thể làm cho chip AI mạnh hơn. Cách tiếp cận thứ hai đó có thể khiến H200 trở thành một sản phẩm hấp dẫn đối với các nhà cung cấp dịch vụ đám mây.
Mặc dù có chữ "G" trong tên "GPU", các GPU trung tâm dữ liệu như thế này thường không dành cho đồ họa. GPU rất lý tưởng cho các ứng dụng AI vì chúng thực hiện số lượng lớn phép nhân ma trận song song, cần thiết để mạng thần kinh hoạt động. Chúng rất cần thiết trong phần đào tạo xây dựng mô hình AI và phần "suy luận", nơi mọi người đưa thông tin đầu vào vào mô hình AI và nó trả về kết quả.
Ian Buck, phó chủ tịch hyperscale và HPC tại Nvidia cho biết: “Để tạo ra trí thông minh bằng các ứng dụng AI và HPC tổng hợp, một lượng lớn dữ liệu phải được xử lý hiệu quả ở tốc độ cao bằng bộ nhớ GPU lớn và nhanh. Với Nvidia H200, nền tảng siêu máy tính AI toàn diện hàng đầu trong ngành sẽ nhanh hơn để giải quyết một số thách thức quan trọng nhất của thế giới”.
NVIDIA mô tả sức mạnh của GPU họ cung cấp cho ChatGPT 3 tăng như thế nào.
Ví dụ: OpenAI đã nhiều lần cho biết hãng thiếu tài nguyên GPU và điều đó gây ra tình trạng chậm lại với ChatGPT. Công ty phải dựa vào giới hạn tỷ lệ để cung cấp bất kỳ dịch vụ nào. Về mặt giả thuyết, việc sử dụng H200 có thể mang lại cho các mô hình ngôn ngữ AI hiện có chạy ChatGPT nhiều không gian hơn để phục vụ nhiều khách hàng hơn.
Theo Nvidia, H200 là GPU đầu tiên cung cấp bộ nhớ HBM3e. Nhờ HBM3e, H200 cung cấp bộ nhớ 141GB và băng thông 4,8 terabyte mỗi giây, mà Nvidia cho biết là gấp 2,4 lần Nvidia A100 ra mắt vào năm 2020. (Mặc dù A100 đã cũ nhưng nó vẫn có nhu cầu cao do thiếu nhiều chip mạnh mẽ).
Nvidia sẽ cung cấp H200 ở nhiều dạng thức khác nhau. Điều này bao gồm các bo mạch máy chủ Nvidia HGX H200 với cấu hình bốn và tám chiều, tương thích với cả phần cứng và phần mềm của hệ thống HGX H100. Nó cũng sẽ có sẵn trong Siêu chip Nvidia GH200 Grace Hopper, kết hợp CPU và GPU thành một gói để tăng cường sức mạnh AI hơn nữa (đó là thuật ngữ kỹ thuật).
Amazon Web Services, Google Cloud, Microsoft Azure và Cơ sở hạ tầng đám mây Oracle sẽ là những nhà cung cấp dịch vụ đám mây đầu tiên triển khai các phiên bản dựa trên H200 bắt đầu từ năm tới và Nvidia cho biết H200 sẽ có sẵn "từ các nhà sản xuất hệ thống toàn cầu và nhà cung cấp dịch vụ đám mây" bắt đầu từ vào quý 2 năm 2024.
Trong khi đó, Nvidia đang chơi trò mèo vờn chuột với chính phủ Mỹ về các hạn chế xuất khẩu các GPU mạnh mẽ sang Trung Quốc. Năm ngoái, Bộ Thương mại Mỹ công bố các hạn chế nhằm “giữ các công nghệ tiên tiến không rơi vào tay kẻ xấu” như Trung Quốc và Nga. Nvidia đáp trả bằng cách tạo ra những con chip mới để vượt qua những rào cản đó, nhưng gần đây Mỹ cũng đã cấm những con chip đó.
Tuần trước, Reuters đưa tin Nvidia lại tiếp tục hoạt động khi giới thiệu ba chip AI thu nhỏ mới (HGX H20, L20 PCIe và L2 PCIe) cho thị trường Trung Quốc, chiếm 1/4 doanh thu chip trung tâm dữ liệu của Nvidia. Hai trong số các con chip nằm dưới mức hạn chế của Hoa Kỳ và con chip thứ ba nằm trong "vùng xám" có thể được giấy phép cho phép. Dự kiến sẽ có nhiều động thái qua lại giữa Mỹ và Nvidia trong những tháng tới.
Theo các chuyên gia, việc thiếu sức mạnh tính toán (thường được gọi là "điện toán") là trở ngại lớn cho tiến trình AI trong năm qua, cản trở việc triển khai các mô hình AI hiện có và làm chậm quá trình phát triển các mô hình AI mới. Nguyên nhân phần lớn là do sự thiếu hụt GPU mạnh mẽ giúp tăng tốc các mô hình AI. Một cách để giảm bớt nút thắt cổ chai điện toán là tạo ra nhiều chip hơn, nhưng bạn cũng có thể làm cho chip AI mạnh hơn. Cách tiếp cận thứ hai đó có thể khiến H200 trở thành một sản phẩm hấp dẫn đối với các nhà cung cấp dịch vụ đám mây.
H200 có tác dụng gì?
Ian Buck, phó chủ tịch hyperscale và HPC tại Nvidia cho biết: “Để tạo ra trí thông minh bằng các ứng dụng AI và HPC tổng hợp, một lượng lớn dữ liệu phải được xử lý hiệu quả ở tốc độ cao bằng bộ nhớ GPU lớn và nhanh. Với Nvidia H200, nền tảng siêu máy tính AI toàn diện hàng đầu trong ngành sẽ nhanh hơn để giải quyết một số thách thức quan trọng nhất của thế giới”.
Ví dụ: OpenAI đã nhiều lần cho biết hãng thiếu tài nguyên GPU và điều đó gây ra tình trạng chậm lại với ChatGPT. Công ty phải dựa vào giới hạn tỷ lệ để cung cấp bất kỳ dịch vụ nào. Về mặt giả thuyết, việc sử dụng H200 có thể mang lại cho các mô hình ngôn ngữ AI hiện có chạy ChatGPT nhiều không gian hơn để phục vụ nhiều khách hàng hơn.
Băng thông 4,8 terabyte/giây
Nvidia sẽ cung cấp H200 ở nhiều dạng thức khác nhau. Điều này bao gồm các bo mạch máy chủ Nvidia HGX H200 với cấu hình bốn và tám chiều, tương thích với cả phần cứng và phần mềm của hệ thống HGX H100. Nó cũng sẽ có sẵn trong Siêu chip Nvidia GH200 Grace Hopper, kết hợp CPU và GPU thành một gói để tăng cường sức mạnh AI hơn nữa (đó là thuật ngữ kỹ thuật).
Amazon Web Services, Google Cloud, Microsoft Azure và Cơ sở hạ tầng đám mây Oracle sẽ là những nhà cung cấp dịch vụ đám mây đầu tiên triển khai các phiên bản dựa trên H200 bắt đầu từ năm tới và Nvidia cho biết H200 sẽ có sẵn "từ các nhà sản xuất hệ thống toàn cầu và nhà cung cấp dịch vụ đám mây" bắt đầu từ vào quý 2 năm 2024.
Trong khi đó, Nvidia đang chơi trò mèo vờn chuột với chính phủ Mỹ về các hạn chế xuất khẩu các GPU mạnh mẽ sang Trung Quốc. Năm ngoái, Bộ Thương mại Mỹ công bố các hạn chế nhằm “giữ các công nghệ tiên tiến không rơi vào tay kẻ xấu” như Trung Quốc và Nga. Nvidia đáp trả bằng cách tạo ra những con chip mới để vượt qua những rào cản đó, nhưng gần đây Mỹ cũng đã cấm những con chip đó.
Tuần trước, Reuters đưa tin Nvidia lại tiếp tục hoạt động khi giới thiệu ba chip AI thu nhỏ mới (HGX H20, L20 PCIe và L2 PCIe) cho thị trường Trung Quốc, chiếm 1/4 doanh thu chip trung tâm dữ liệu của Nvidia. Hai trong số các con chip nằm dưới mức hạn chế của Hoa Kỳ và con chip thứ ba nằm trong "vùng xám" có thể được giấy phép cho phép. Dự kiến sẽ có nhiều động thái qua lại giữa Mỹ và Nvidia trong những tháng tới.