Nói là làm, làm là nhanh: Elon Musk khai trương siêu máy tính đào tạo AI mạnh nhất hành tinh chỉ sau 4 tháng

A-Train The Seven · 05/09/2024

Elon Musk và X (trước đây là Twitter) đã đưa hệ thống đào tạo AI mạnh nhất thế giới đi vào hoạt động. Siêu máy tính Colossus sử dụng tới 100.000 GPU Nvidia H100 để đào tạo và dự kiến sẽ được mở rộng thêm 50.000 GPU Nvidia H100 và H200 trong những tháng tới.
"Cuối tuần này, nhóm xAI đã đưa cụm đào tạo Colossus 100K H100 của chúng tôi hoạt động trực tuyến", Elon Musk viết trong một bài đăng trên X. "Từ đầu đến cuối, nó đã được hoàn thành trong 122 ngày. Colossus là hệ thống đào tạo AI mạnh nhất trên thế giới. Hơn nữa, nó sẽ tăng gấp đôi kích thước lên 200K (50K H200) trong vài tháng tới."
Theo Michael Dell, người đứng đầu gã khổng lồ công nghệ cao, Dell đã phát triển và lắp ráp hệ thống Colossus một cách nhanh chóng. Điều này cho thấy nhà sản xuất máy chủ đã tích lũy được kinh nghiệm đáng kể trong việc triển khai máy chủ AI trong thời kỳ bùng nổ AI trong vài năm qua.
Elon Musk và các công ty của ông gần đây đã bận rộn đưa ra những thông báo liên quan đến siêu máy tính. Vào cuối tháng 8, Tesla đã công bố cụm AI Cortex của mình với 50.000 GPU Nvidia H100 và 20.000 chip Dojo AI cỡ wafer của Tesla. Thậm chí trước đó, vào cuối tháng 7, X đã khởi động đào tạo AI trên Memphis Supercluster, bao gồm 100.000 GPU H100 được làm mát bằng chất lỏng. Siêu máy tính này phải tiêu thụ ít nhất 150 MW điện năng, vì 100.000 GPU H100 tiêu thụ khoảng 70 MW.

Mặc dù tất cả các cụm này đều chính thức hoạt động và thậm chí đang đào tạo các mô hình AI, nhưng hoàn toàn không rõ có bao nhiêu cụm thực sự trực tuyến ngày hôm nay. Đầu tiên, phải mất một thời gian để gỡ lỗi và tối ưu hóa cài đặt của những siêu cụm đó. Thứ hai, X cần đảm bảo rằng họ nhận đủ năng lượng và trong khi công ty của Elon Musk đã sử dụng 14 máy phát điện diesel để cung cấp năng lượng cho siêu máy tính Memphis của mình, chúng vẫn chưa đủ để cung cấp năng lượng cho tất cả 100.000 GPU H100.
Việc đào tạo mô hình ngôn ngữ lớn (LLM) Grok phiên bản 2 của xAI yêu cầu tới 20.000 GPU Nvidia H100 và Musk dự đoán rằng các phiên bản trong tương lai, chẳng hạn như Grok 3, sẽ cần nhiều tài nguyên hơn, có khả năng khoảng 100.000 bộ xử lý Nvidia H100 để đào tạo. Vì vậy, xAI cần các trung tâm dữ liệu rộng lớn của mình để đào tạo Grok 3 và sau đó chạy suy luận trên mô hình này.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Nói là làm, làm là nhanh: Elon Musk khai trương siêu máy tính đào tạo AI mạnh nhất hành tinh chỉ sau 4 tháng

A-Train The Seven

...'cause for once, I didn't hate myself.

A-Train The Seven

Con gái và con trai của CEO NVIDIA xuất hiện trước công chúng, hổ phụ sinh hổ tử quả là không sai

Điều gì xảy ra nếu con người ngừng suy nghĩ vì đã có AI làm thay?

“Biết dùng AI” không chỉ là biết gõ prompt !

California ban hành luật mới để bảo vệ trẻ em khỏi rủi ro từ chatbot AI

ChatGPT sắp nới lỏng kiểm duyệt nội dung người lớn

OpenAI đang kiếm tiền tỷ nhưng cũng đối mặt với thách thức lớn nào?

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Đi ngược lại triết lý của Steve Jobs, Apple chuẩn bị ra mắt MacBook màn hình cảm ứng đầu tiên

Đánh giá HONOR Magic V5: Lằn ranh mờ nhòa giữa điện thoại gập và điện thoại thanh

Viettel mở rộng kinh doanh logistics tại Lào

Copeland ra mắt máy bơm nhiệt Sensi Hydro dùng cho nước sinh hoạt

Tất cả cách lưu video YouTube về máy tính thời điểm hiện tại không cần dùng app, có miễn phí

Đánh giá nổi bật