Siêu máy tính nhanh nhất thế giới của Mỹ lỗi liên tục, hiệu suất dưới kì vọng

Xây dựng siêu máy tính luôn là một thách thức. Việc tạo ra hệ thống cấp độ exascale đầu tiên trong ngành có thể tạo ra những vấn đề lớn đến bất ngờ, đòi hỏi nhiều công việc với phần cứng và phần mềm. Đáng tiếc, điều này lại diễn ra với siêu máy tính Frontier của Phòng thí nghiệm Quốc gia Oak Ridge (ORNL).
Ngày nào cũng lỗi, không ngày nào không phát sinh lỗi.
Siêu máy tính nhanh nhất thế giới của Mỹ lỗi liên tục, hiệu suất dưới kì vọng
Frontier của ORNL là hệ thống đầu tiên trong ngành được thiết kế đẻ mang đến hiệu năng cao nhất, lên đến 1,685 ExaFLOPS FP64 bằng cách sử dụng bộ xử lý EPYC Trento 64 nhân, các GPU tính toán Instinct MI250X của AMD cũng như liên kết HPE Slingshot với công suất 21MW. HPE đã xây dựng hệ thống này, sử dụng kiến trúc Cray EX được thiết kế cho các ứng dụng mở rộng quy mô, chủ yếu dành cho những siêu máy tính cực nhanh.
Dẫu về mặt lý thuyết, siêu máy tính Frontier trông khá tốt, nhưng có vẻ những vấn đề về phần cứng vẫn tiếp tục đeo bám chiếc máy tính máy này. Nó chỉ có thể mang đến hiệu năng khoảng 1 ExaFLOPS FP64 cho các nhà nghiên cứu, khiến nhiều người tỏ ra thất vọng.
Trong bài phỏng vấn với InsideHPC, Justin Whitt, giám đốc chương trình tại Oak Ridge Leadership Computing Facility (OLCF): “Chúng tôi đang giải quyết "núi" vấn đề đối với phần cứng. Bạn sẽ gặp thất bại ở quy mô này. Thời gian trung bình phát sinh sự cố trên hệ thống này là hàng giờ, không phải ngày.”
Siêu máy tính nhanh nhất thế giới của Mỹ lỗi liên tục, hiệu suất dưới kì vọng
Tin đồn về các lỗi phần cứng tiềm ẩn của Frontier đã nổi lên trong một thời gian khá dài. Theo thông tin khác từ InsideHPC, một số người tiết lộ, hệ thống đã gặp sự cố với kết nối Slingshot. Ngoài ra, những người khác chỉ ra rằng GPU tính toán Instinct MI250X của AMD không đáng tin cậy như mong đợi. Hãy nhớ rằng phiên bản X, với số lượng bộ xử lý luồng lớn hơn cúng xung nhịp cao hơn, chỉ có sẵn cho một số khách hàng được chọn.
Ông Whitt không xác nhận hệ thống gặp phải bất kỳ vấn đề nào với Instinct hoặc Slingshot, nhưng ông nhấn mạnh cỗ máy gặp phải nhiều vấn đề về phần cứng.
Người đứng đầu OLCF cho biết: “Rất nhiều thách thức tập trung vào những GPU đó, nhưng đó không phải là phần lớn thách thức mà chúng tôi nhận thấy. Tôi không nghĩ rằng tại thời điểm này chúng tôi có nhiều mối quan tâm về các sản phẩm của AMD.”
Siêu máy tính nhanh nhất thế giới của Mỹ lỗi liên tục, hiệu suất dưới kì vọng
Cho đến nay, siêu máy tính Frontier của Phòng thí nghiệm Quốc gia Oak Ridge không phải là hệ thống duy nhất sử dụng kiến trúc Cray EX của HPE với liên kết Slingshot, CPU AMD EPYC cũng như GPU tính toán AMD Instinct. Ví dụ, siêu máy tính Lumi của Phần Lan (vốn được trang bị Cray EX, EPYC Milan và những GPU tính toán Instinct MI250X) mang đến hiệu năng cao nhất ở mức 550 PetaFLOPS và chính thức được xếp hạng là siêu máy tính mạnh thứ 3 trên thế giới. Nói chung, hoàn toàn có thể hiểu được khi một cỗ máy sử dụng tổng cộng 60 triệu bộ phận gặp những vấn đề như vậy.
Hiện vẫn chưa rõ liệu siêu máy tính Frontier có thể vận hành đúng vào năm 2023 như dự định ban đầu hay không. Hiện tại, nó vẫn chưa được triển khai chính thức.

>>> Cách dùng ứng dụng Windows HDR Calibration mới của Microsoft

Nguồn: Tom’s Hardware
 


Đăng nhập một lần thảo luận tẹt ga

Gợi ý cộng đồng

Top