Nói là làm, làm là nhanh: Elon Musk khai trương siêu máy tính đào tạo AI mạnh nhất hành tinh chỉ sau 4 tháng

A-Train The Seven

...'cause for once, I didn't hate myself.
Elon Musk và X (trước đây là Twitter) đã đưa hệ thống đào tạo AI mạnh nhất thế giới đi vào hoạt động. Siêu máy tính Colossus sử dụng tới 100.000 GPU Nvidia H100 để đào tạo và dự kiến sẽ được mở rộng thêm 50.000 GPU Nvidia H100 và H200 trong những tháng tới.
"Cuối tuần này, nhóm xAI đã đưa cụm đào tạo Colossus 100K H100 của chúng tôi hoạt động trực tuyến", Elon Musk viết trong một bài đăng trên X. "Từ đầu đến cuối, nó đã được hoàn thành trong 122 ngày. Colossus là hệ thống đào tạo AI mạnh nhất trên thế giới. Hơn nữa, nó sẽ tăng gấp đôi kích thước lên 200K (50K H200) trong vài tháng tới."
Theo Michael Dell, người đứng đầu gã khổng lồ công nghệ cao, Dell đã phát triển và lắp ráp hệ thống Colossus một cách nhanh chóng. Điều này cho thấy nhà sản xuất máy chủ đã tích lũy được kinh nghiệm đáng kể trong việc triển khai máy chủ AI trong thời kỳ bùng nổ AI trong vài năm qua.
Elon Musk và các công ty của ông gần đây đã bận rộn đưa ra những thông báo liên quan đến siêu máy tính. Vào cuối tháng 8, Tesla đã công bố cụm AI Cortex của mình với 50.000 GPU Nvidia H100 và 20.000 chip Dojo AI cỡ wafer của Tesla. Thậm chí trước đó, vào cuối tháng 7, X đã khởi động đào tạo AI trên Memphis Supercluster, bao gồm 100.000 GPU H100 được làm mát bằng chất lỏng. Siêu máy tính này phải tiêu thụ ít nhất 150 MW điện năng, vì 100.000 GPU H100 tiêu thụ khoảng 70 MW.

1725508639504.png


1725508646511.png


Mặc dù tất cả các cụm này đều chính thức hoạt động và thậm chí đang đào tạo các mô hình AI, nhưng hoàn toàn không rõ có bao nhiêu cụm thực sự trực tuyến ngày hôm nay. Đầu tiên, phải mất một thời gian để gỡ lỗi và tối ưu hóa cài đặt của những siêu cụm đó. Thứ hai, X cần đảm bảo rằng họ nhận đủ năng lượng và trong khi công ty của Elon Musk đã sử dụng 14 máy phát điện diesel để cung cấp năng lượng cho siêu máy tính Memphis của mình, chúng vẫn chưa đủ để cung cấp năng lượng cho tất cả 100.000 GPU H100.
Việc đào tạo mô hình ngôn ngữ lớn (LLM) Grok phiên bản 2 của xAI yêu cầu tới 20.000 GPU Nvidia H100 và Musk dự đoán rằng các phiên bản trong tương lai, chẳng hạn như Grok 3, sẽ cần nhiều tài nguyên hơn, có khả năng khoảng 100.000 bộ xử lý Nvidia H100 để đào tạo. Vì vậy, xAI cần các trung tâm dữ liệu rộng lớn của mình để đào tạo Grok 3 và sau đó chạy suy luận trên mô hình này.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top