Nvidia vừa đưa ra 1 tin xấu với toàn ngành công nghiệp trí tuệ nhân tạo, liên quan đến cả TSMC

A-Train The Seven

...'cause for once, I didn't hate myself.
Nvidia đang đối mặt với vấn đề lớn trong việc sản xuất dòng chip AI Blackwell với số lượng lớn. Điều này ảnh hưởng nghiêm trọng đến kế hoạch sản xuất quý 3, quý 4 năm 2024 và nửa đầu năm 2025, kéo theo doanh thu và sản lượng của Nvidia bị sụt giảm. Để bù đắp phần nào, Nvidia sẽ kéo dài vòng đời và tăng cường sản xuất dòng chip Hopper. Lịch ra mắt dòng Blackwell sẽ bị lùi lại, nhưng sản lượng mới là vấn đề đáng lo ngại hơn.

Khó khăn kỹ thuật cũng buộc Nvidia phải phát triển hệ thống mới, gây xáo trộn lớn cho hàng loạt nhà cung cấp. Bài viết này sẽ phân tích những thách thức kỹ thuật mà Nvidia đang gặp phải, lịch trình mới của hãng, kiến trúc hệ thống mới (bao gồm cả MGX GB200A Ultra NVL36) và tác động của sự việc đến toàn bộ chuỗi cung ứng, từ khách hàng, OEM/ODM đến các nhà cung cấp linh kiện cho Nvidia.

Vấn đề cốt lõi: Công nghệ đóng gói CoWoS-L của TSMC​


Nvidia đang áp dụng những công nghệ tiên tiến nhất cho dòng chip Blackwell, đặc biệt là chip GB200. Tuy nhiên, hệ thống 72 GPU với mật độ năng lượng ~125 kW/rack (vượt xa tiêu chuẩn trung tâm dữ liệu là ~12kW đến ~20kW/rack) lại gây ra nhiều vấn đề liên quan đến cung cấp điện, quá nhiệt, rò rỉ nước làm mát và độ phức tạp của bo mạch.

1722841188388.png


Tuy nhiên, đây chỉ là những vấn đề nhỏ. Nguyên nhân chính khiến sản lượng chip Blackwell bị hạn chế nằm ở công nghệ đóng gói CoWoS-L của TSMC. CoWoS-L sử dụng lớp nền RDL với các kết nối silicon cục bộ (LSI) và chip cầu nối được nhúng để kết nối các đơn vị tính toán và bộ nhớ trên chip. So với CoWoS-S (lớp silicon lớn), CoWoS-L phức tạp hơn nhiều. Mặc dù CoWoS-L là công nghệ của tương lai, nhưng việc Nvidia và TSMC đặt mục tiêu sản xuất hơn một triệu chip mỗi quý đã tạo ra nhiều vấn đề.

Thứ nhất, việc nhúng nhiều chip cầu nối với mật độ chân chip cao vào lớp nền hữu cơ có thể gây ra sự không tương thích về hệ số giãn nở nhiệt (CTE) giữa các chip silicon, chip cầu nối, lớp nền hữu cơ và đế, dẫn đến cong vênh.

Thứ hai, TSMC thiếu năng lực sản xuất CoWoS-L. Việc Nvidia chuyển sang CoWoS-L khiến TSMC phải gấp rút xây dựng nhà máy mới (AP6) và chuyển đổi nhà máy hiện tại (AP3) từ CoWoS-S sang CoWoS-L, dẫn đến tiến độ sản xuất không ổn định.

Giải pháp tình thế: Chip B200A và hệ thống MGX GB200A Ultra NVL36​

1722841223249.png

1722841231809.png

Để giải quyết tình trạng thiếu hụt chip Blackwell, Nvidia đã đưa ra một số thay đổi:
  • Tập trung sản xuất hệ thống GB200 NVL 36x2 và NVL72: Các hệ thống HGX sử dụng chip B100 và B200 sẽ bị hủy bỏ (trừ một số lượng nhỏ ban đầu).
  • Giới thiệu chip B200A: Sử dụng chip B102 đơn khối với 4 chồng HBM, cho phép đóng gói bằng CoWoS-S (thay vì CoWoS-L) bởi các nhà cung cấp như Amkor, ASE SPIL và Samsung. B200A sẽ thay thế B100 và B200 trong hệ thống HGX 8-GPU, phục vụ phân khúc AI tầm trung và thấp.
  • Ra mắt hệ thống MGX GB200A Ultra NVL36: Hệ thống làm mát bằng không khí với 36 GPU B200A, công suất 40kW/rack, dễ triển khai hơn GB200 NVL72.

Tác động đến chuỗi cung ứng​


Sự thay đổi chiến lược của Nvidia sẽ ảnh hưởng lớn đến các OEM, ODM và nhà cung cấp linh kiện. Cụ thể:
  • Giảm đơn hàng và doanh thu: Doanh số GB200 NVL72/36x2 và HGX B100/B200 giảm, trong khi Hopper được bán chạy hơn trong quý 4 năm 2024 và quý 1 năm 2025.
  • Chuyển đổi đơn hàng: Đơn hàng HGX Blackwell và GB200 NVL36x2 sẽ chuyển sang MGX GB200A NVL36.
  • Ảnh hưởng đến nhà cung cấp: Các nhà cung cấp linh kiện như hệ thống làm mát, PCB, đế, kết nối, cáp, BMC, nguồn... sẽ bị ảnh hưởng.

Thách thức với MGX GB200A NVL36​

1722841250803.png


Dù MGX GB200A NVL36 là giải pháp tình thế, nhưng bản thân hệ thống này cũng đối mặt với nhiều thách thức:
  • Thiết kế nhiệt phức tạp: Làm mát bằng không khí cho hệ thống 40kW/rack đòi hỏi giải pháp tản nhiệt đặc biệt, có thể ảnh hưởng đến hiệu suất.
  • Hạn chế về NIC: Khó khăn trong việc sử dụng NIC backend tùy chỉnh do giới hạn về tản nhiệt.
  • Hạn chế về CPU: Phiên bản x86 + B200A NVL36 có thể gặp thách thức về tản nhiệt do CPU x86 tiêu thụ nhiều điện năng hơn.

Kết luận​

Vấn đề sản xuất chip Blackwell của Nvidia là tin xấu cho toàn ngành AI. Việc chuyển sang sản xuất hệ thống MGX GB200A NVL36 là giải pháp tình thế, nhưng cũng tạo ra nhiều thách thức mới. Tác động của sự việc này đến chuỗi cung ứng là rất lớn, đòi hỏi các bên liên quan phải thích ứng nhanh chóng.
 
  • 1722841229906.png
    1722841229906.png
    117 KB · Lượt xem: 59


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top