Frontier, siêu máy tính nhanh nhất thế giới liên tục gặp lỗi phần cứng sau vài giờ vận hành

Giám đốc chương trình xác nhận hệ thống bị lỗi liên tục sau vài giờ vận hành và khẳng định đây là chuyển quá bình thường trên một hệ thống lớn.

Frontier là một lớp học của riêng nó. Nó có 9.408 bộ máy HPE Cray EX235a, mỗi bộ được trang bị CPU 64 lõi AMD Trento 7A53 Epyc, 512 GB DDR4 và bốn GPU / bộ tăng tốc AMD Instinct MI250X và được trang bị 128 GB HBM2e. Tổng cộng, hệ thống có tổng cộng 602.112 lõi CPU và 8.138.240 lõi GPU, và 4,6 PB của cả DDR4 và HBM2e.

Frontier, siêu máy tính nhanh nhất thế giới liên tục gặp lỗi phần cứng sau vài giờ vận hạnh

Vào tháng 5, Frontier được xếp hạng TOP500 siêu máy tính đầu tiên trên thế giới, do Bộ Năng lượng Mỹ chế tạo đã truất ngôi hệ thống Fugaku tại Trung tâm Khoa học Tính toán Riken của Nhật Bản sau hai năm để trở thành siêu máy tính mạnh nhất thế giới. Kể từ đó, Phòng thí nghiệm Quốc gia Oak Ridge ở Tennessee, nơi quản lý siêu máy tính, đã sẵn sàng cho nghiên cứu khoa học dự kiến ​​bắt đầu vào tháng 1.

Tuy nhiên, nhiều thông tin cho rằng hệ thống Frontier liên tục gặp lỗi cứ sau vài giờ vận hành, hiệu năng thấp hơn thiết kế. Trong cuộc phỏng vấn, Justin Whitt, giám đốc chương trình tại Oak Ridge Leadership Computing Facility (OLCF) xác nhận Frontier liên tục gặp lỗi hệ thống, nhưng khẳng định đó là điều không thể tránh khỏi trong một hệ thống lớn như vậy. Whitt cho biết:

“Frontier có thể vận hành quá một ngày mà không gặp vấn đề là việc "rất xuất sắc bởi mục tiêu hiện tại của nhóm nghiên cứu là vận hành hệ thống này theo giờ."

Có tin đồn rằng nguyên nhân dẫn khiến hệ thống gặp lỗi liên tục là do phần cứng AMD Instinct MI250X, tuy nhiên Whitt đã bác bỏ thông tin trên. MI250X là GPU / bộ tăng tốc mạnh nhất của AMD và hãng chỉ bán nó cho một số đối tác nhất định. Nó có 220 CU chứa 14.080 lõi tốc độ 1700 MHz trong gói 500 W.

Frontier, siêu máy tính nhanh nhất thế giới liên tục gặp lỗi phần cứng sau vài giờ vận hạnh

Whitt thừa nhận rằng lỗi phần cứng trên Frontier sẽ khiến việc triển khai chính thức của hệ thống trở nên "khó khăn hơn một chút" nhưng ông cũng cho biết sẽ cho thiết bị vận hạnh theo theo đúng lịch trình đặt ra từ năm 2018-19 bất chấp sự chậm trễ do đại dịch gây ra. Dự kiến Frontier sẽ được vận hành chính thức vào năm 2023. 

 

 

Bài viết liên quan

Bài viết đọc nhiều nhất

Lên đầu trang