Aurora超級計算機安裝完畢：2個ExaFLOPS 數万個CPU和GPU 鎖定Top 500榜首

2023-06-23 Comments 0 Comment

阿貢國家實驗室和英特爾週四表示，他們已經為Aurora超級計算機安裝了所有10624個刀片，這台機器早在2015年就宣布搭建，但其過程特別坎坷。該系統可提供超過2 FP64 ExaFLOPS的峰值理論計算性能，使用其數以萬計的Xeon Max ‘Sapphire Rapids’CPU陣列，以及數據中心GPU Max ‘Ponte Vecchio’ 計算GPU。該系統將在今年晚些時候上線。

Intel-Argonne-installation-3.jpg_678x452.jpg

“Aurora是英特爾Max系列GPU的首次部署，是最大的基於Xeon Max CPU的系統，也是世界上最大的GPU集群，”英特爾公司副總裁兼超級計算組總經理Jeff McVeigh說。

Aurora超級計算機看起來相當令人印象深刻，即使從數字上看也是如此。該機器由21248個通用處理器提供動力，包含超過110萬個內核，用於需要傳統CPU馬力的工作負載，還有63744個計算GPU，將用於人工智能和HPC工作負載。在內存方面，Aurora提供了1.36PB的封裝HBM2E內存和19.9PB的DDR5內存，這些內存被CPU使用，以及Ponte Vecchi計算GPU攜帶的8.16PB的HBM2E。

Aurora機器佔用166個機架，每個機架容納66個刀片。它橫跨八列，佔據的空間相當於兩個籃球場，這還不算Aurora的存儲子系統，後者採用了1024個全閃存存儲節點，提供220TB的存儲容量，總帶寬為31TB/s。目前，阿貢國家實驗室沒有公佈Aurora或其存儲子系統的官方耗電數字。

這台超級計算機將用於各種工作負載，從核聚變模擬到是否預測，從空氣動力學到醫學研究，它採用HPE的Shasta超級計算機架構和Slingshot互連。同時，在該系統通過ANL的驗收測試之前，它將被用於大規模科學生成性AI模型。

阿貢國家實驗室副主任里克-史蒂文斯說：”在我們努力實現驗收測試的同時，我們將使用Aurora來訓練一些大規模的開源科學生成性人工智能模型。Aurora擁有超過6萬個英特爾Max GPU，一個非常快的I/O系統和一個全固態大容量存儲系統，是訓練這些模型的完美環境。”

儘管Aurora刀片已經安裝完畢，這台超級計算機仍需進行並通過一系列驗收測試，這是超級計算機的一個常見程序。一旦它成功通過這些測試並在今年晚些時候上線，預計它的理論性能將超過2 ExaFLOPS（每秒20億次浮點運算）。憑藉巨大的性能，它有望確保在Top500榜單中佔據榜首位置。

Aurora超級計算機的安裝標誌著幾個里程碑：它是業界第一台性能超過2 ExaFLOPS的超級計算機和第一台基於英特爾的ExaFLOPS級機器。

Aurora最初於2015年亮相，最初打算由英特爾的Xeon Phi協處理器提供動力，預計在2018年提供約180 PetaFLOPS。然而，英特爾決定放棄Xeon Phi，改用計算型GPU，導致需要與阿貢國家實驗室重新談判協議，在2021年之前提供一個EaaFLOPS系統。

由於英特爾7納米（現在稱為英特爾4）生產節點的延遲，以及必須為台積電的N5（5納米級）工藝技術重新設計計算模組，該系統的交付被進一步推遲，因為Ponte Vecchio的複雜情況。英特爾終於在去年年底推出了數據中心GPU Max產品，現在已經向ANL運送了超過6萬個這種計算GPU。

WONGCW 網誌

記錄生活經驗與點滴

Aurora超級計算機安裝完畢：2個ExaFLOPS 數万個CPU和GPU 鎖定Top 500榜首

2023-06-23 Comments 0 Comment

相關

發表迴響取消回覆

2023 年 6 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

分享此文：

相關

發表迴響取消回覆