CEO Nvidia thừa nhận lỗi thiết kế trên chip AI Blackwell, nhưng TSMC đã kịp thời "cứu nguy"

A-Train The Seven

...'cause for once, I didn't hate myself.
Hôm thứ 4 vừa qua, CEO Jensen Huang của Nvidia đã xác nhận với Reuters về những vấn đề liên quan đến thiết kế của GPU Blackwell - dòng chip AI thế hệ mới dành cho trung tâm dữ liệu. Lỗi thiết kế này đã gây ra khó khăn trong quá trình sản xuất, nhưng may mắn là mọi việc đã được giải quyết nhờ sự hỗ trợ kịp thời từ TSMC.

Nvidia đã giới thiệu Blackwell vào tháng 3, tự tin tuyên bố đây là GPU AI mạnh nhất thế giới với 208 tỷ bóng bán dẫn, được sản xuất trên tiến trình 4nm của TSMC. Chip gồm 2 die silicon kích thước lớn kết nối bằng cầu nối 10TB/s, tạo nên một GPU có kích thước cực lớn. Ban đầu, Nvidia dự kiến Blackwell sẽ được bán ra vào quý II năm 2024, nhưng sau đó đã phải dời lịch sang quý IV, ảnh hưởng đến nhiều khách hàng lớn như Meta, Alphabet và Microsoft.

Mới đây, CEO Jensen Huang cho biết: "Chúng tôi đã phát hiện ra một lỗi thiết kế trên chip Blackwell. Chip vẫn hoạt động, nhưng lỗi này ảnh hưởng đến tỷ lệ chip đạt tiêu chuẩn trong quá trình sản xuất. Đây hoàn toàn là lỗi của Nvidia. Để tạo ra Blackwell và đưa nó vào hoạt động, 7 loại chip xử lý khác nhau phải được thiết kế từ đầu và sản xuất ngay lập tức để đáp ứng nhu cầu thị trường.

1729828567128.png


Điều mà TSMC đã làm là giúp chúng tôi cải thiện tỷ lệ chip đạt tiêu chuẩn, giải quyết các vấn đề liên quan đến thiết kế chip và nhanh chóng đưa quy trình sản xuất die bán dẫn cho Blackwell trở lại đúng tiến độ."
Ông Huang cũng bác bỏ “tin đồn” rằng những vấn đề liên quan đến thiết kế của Blackwell đã làm xấu đi mối quan hệ hợp tác giữa Nvidia và TSMC.

Về mặt kỹ thuật, GPU B200 kiến trúc Blackwell sở hữu 104 tỷ bóng bán dẫn trên mỗi die GPU, tổng cộng 2 die MCM là 208 tỷ bóng bán dẫn, chia thành 160 Stream Multiprocessor, tương đương 20480 nhân CUDA. Con chip này được sản xuất bởi TSMC với sự hợp tác của Synopsys, ứng dụng công nghệ và thư viện phần mềm CuLitho của Nvidia, tận dụng sức mạnh của máy tính để tăng tốc quá trình nghiên cứu và phát triển chip. So với Hopper, B200 có số lượng bóng bán dẫn nhiều hơn H200 tới 128 tỷ. Khả năng xử lý số thực dấu phẩy động FP8 và FP6 của B200 nhanh gấp 2,5 lần, xử lý FP4 nhanh gấp 5 lần so với H200.

Trên bề mặt chip là 8 stack chip nhớ HBM3e, dung lượng tối đa 192GB, tốc độ 8TB/s, chạy trên giao diện bus 8192-bit. Công suất tiêu thụ điện tối đa của chip lên tới 700W, tương đương với H100 và H200 hiện có trên thị trường, được trang bị trong các hệ thống trung tâm dữ liệu phục vụ cho các mô hình AI của các tập đoàn lớn. GB200 cho phép tạo ra một trung tâm dữ liệu quy mô khổng lồ với 32 nghìn GPU, 13 petabyte RAM HBM3e, sức mạnh xử lý 645 exaflop, hiệu năng xử lý dữ liệu mạng cũng được tính bằng đơn vị petaflop.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top