3.6萬CPU核心、1550萬GPU核心:AMD+NVIDIA打造世界第一AI超算
為了衝擊百億億次計算,美國官方準備了三套不同系統,分別由Intel、AMD、AMD+NVIDIA聯合打造。 現在看起來,AMD+NVIDIA的聯合方案進展最快。 這套名為”Polaris「(北極星)的超算,隸屬於美國能源部阿貢國家實驗室ALCF(阿貢領先計算設施),主要為使用者的演算法和科學領域的超級規模的研究和探索提供支援,並對學術界、政府機構、行業研究人員開放使用。
它基於Cray Slingshot 10高性能可擴展互連架構,惠與(HPE)負責建造,共有560個節點,每個節點配備兩顆AMD EPYC 7532處理器、四塊NVIDIA A100計算卡,合計1120顆處理器、2240塊計算卡。
EPYC 7532擁有32核心64線程(Zen2機構),A100計算卡則有6912個CUDA核心(Ampere架構),因此這套超算總共有多達35840個CPU核心、15482880個GPU核心,只是不知道A100這裡的顯存是40GB還是80GB。
整套系統的FP64雙精度浮點峰值性能將達44PFlops(44千萬億次每秒),在當今全球超算TOP500榜單上可以排在第十位。
不過,它的理論AI性能可以高達驚人的1.4EFlops(140億億次每秒),通過處理數據密集型和AI高性能計算工作負載,將類比和機器學習相結合。
Polaris超算將在今年年內上線,明年3月份升級為Slingshot 11架構,處理器更換為Zen3架構的EPYC 7543,仍是32核心,但性能將再上一個台階。
AMD為美國能源部橡樹嶺國家實驗室(ORNL)打造的百億億次超算名為”Frontier“,配備Zen4架構下代EPYC處理器、Instinct計算卡,合同價值6億美元。
Intel中標的超算名為”Aurora“,基於其下代Sapphire Rapids至強處理器、Xe HPC Ponte Vecchio計算卡。
不過,AMD、Intel的新平臺都尚未發佈,大部分都要到明年才會完成,超算系統也順應延期,預計會在2022-2023年才會陸續上線。