國產新一代超算「天河星逸」發表:1,597.44萬核心 峰值表現達620PFLOPS?
據金羊網報道,本月6日,以「超智融合,算啟新篇」為主題的2023年超算創新應用大會在廣州盛大召開。在此次大會上,國家超算廣州中心正式發布了中心的新一代國產超級運算系統—「天河星逸」。
根據國家超算廣州中心主任盧宇彤介紹,「天河星逸」以應用為中心,採用國產先進運算架構、高效能多核心處理器、高速互連網路、大規模儲存等關鍵技術建構。在通用CPU運算能力、網路能力、儲存能力以及應用服務能力等多方面較「天河二號」實現倍增,支援高效能運算、AI大模型訓練以及大數據分析等多種應用場景的需求。將進一步提升國家超算廣州中心的多領域應用服務能力,為廣州市、廣東省和粵港澳大灣區的前沿科技突破、戰略工程建設、產業升級轉型提供強勁的高端算力與平台支撐,有力提升廣州市作為國家中心城市和綜合門戶城市的核心科技創新實力,支持區域科技經濟社會高品質發展。國家超算廣州中心副主任陳志廣表示,「天河星逸」採用了最先進的超算技術,相比原有系統,在通用算力上提升了5倍,並且強調了應用能力的提升,應用軟體存在進一步發展的空間。超算網路最終目標是實現全國連網,下一步計畫與深圳超算、無錫超算實現連網。天河星逸通用算力提升了5倍資料顯示,「天河二號」部署在國家超算廣州中心,它使用了Intel Xeon E5-2692 12核處理器及Xeon Phi 31S1P加速卡,總計擁有312萬個核心,整機功率也達到了17808千瓦,理論性能是54.9PFLOPS(5.49億億次),Linpack峰值性能33.86PTFLOPS,從2013年6月份到2016年6月份它的性能都沒有變化,連任了六次TOP500冠軍。天河二號原本有後期升級計劃,但是2015年美國政府頒布禁令,嚴禁Intel等公司向中國四家超算中心出口高性能運算晶片,這樣使用Intel Xeon Phi加速卡的天河二號就不能再使用美國公司的高性能晶片了。2017年9月份,廣州超算中心宣布2017年底前升級天河二號超算系統,使用國產加速器Matrix 2000取代原本的Intel Xeon Phi加速器。據了解,Matrix 2000的整數架構應該是ARM,但是向量單元是國內自訂的256bit VFU向量單元。每個Matrix 2000由128個核心組成,頻率為1.2GHz,每週期可執行16個雙精度運算,處理器峰值效能為2.45TFLOPS。升級後的天河二號被稱為天河2A,峰值性能從之前的54.9PFLOPS提升到了100PFLOPS左右。根據官方的說法,「天河星逸」的通用性能相比原有系統(升級後的“天河二號”,即天河2A),在通用算力上提升了5倍,也就是說,“天河星逸」的峰值算力應該達到了約600 PFlop/s(每秒50億億次)。值得注意的是,在今年11月10日在北京舉行的「ChinaSC2023第五屆中國超級算力大會」上,發布了2023中國高效能電腦效能TOP100排行榜,其中就揭露了排名第一的於2023年在超算中心安裝的「超算中心主機系統異質眾核處理器」效能參數。其CPU核數達到15974400核,峰值性能達620PFLOPS,超過了神威·太湖之光。顯然,這個數據符合前面關於「天河星逸」算力的說法。今年8月12日,國防科技大學公佈的《國產天河新一代超級電腦智慧運算節點機時服務單一來源談判公告(2023-YKJSJY-F5027)》顯示,「擬採購國產天河新一代超級電腦智慧運算節點36萬節點小時的機時服務,用於測試驗證動態風場計算軟體的功能和性能。擬合作供應商:國家超級計算天津中心。”
對於選擇國家超級計算天津中心為單一供應商的理由為:「因專案需在具備MT3000處理器的國產高效能運算系統上測試驗證動態風場運算軟體環境,需購買36萬節點小時的國產高效能運算系統機時服務。天津超算主機系統是天河一號系統(TH-1A)和天河新一代系統(含E級驗證系統)。其中,天河新一代系統具備基於MT3000處理器的運算節點,能夠滿足專案需求,且目前國內僅有天津超算能提供基於MT3000處理器的國產高效能運算環境。因此,本次採購擬採用單一來源的方式進行。 」2018年7月,新華社曾報道稱,由天津超算中心研發的「國產新一代百億億次超級電腦-「天河三號」E級原型機完成研製部署,並順利通過分項驗收。該原型機系統採用了三種國產自主高效能運算和通訊晶片。 」隨後在2019年,進一步的報告顯示,「我國百億億次超算『天河三號』原型機已為30餘家單位完成大規模並行應用測試並逐步開放服務」。結合上述資訊來看,傳聞中的具備E級算力的「天河三號」採用的正是國產的MT3000處理器。而此次廣州超算中心發表的「天河星逸」很可能也是基於MT3000處理器,當然也有可能是基於傳聞的Matrix 2000+。目前尚未有關於MT3000處理器的更進一步信息,不過可以肯定的是,其性能相比上一代的MT2000將會帶來大幅的提升。國產E級超算神威·海洋之光另外,值得一提的是,相較於天河2A性能更為強大的「神威·太湖之光」超級電腦系統,採用了40960個中國自主研發的“申威26010”眾核處理器。該眾核處理器採用64位元自主申威指令系統,核心工作頻率1.45GHz,峰值效能3.168兆次每秒。神威·太湖之光裡安裝有40960個這樣的處理器,整體的峰值性能可達12.5億億次/秒,持續性能為9.3億億次/秒。而傳聞中的新一代神威超算——神威·海洋之光(Sunway Oceanlite)將採用全新的申威 SW26010-Pro 處理器,預計將帶來更強大的性能。今年11月舉行的SC23 (International Conference for High Performance Computing, Networking, Storage, and Analysis,是高效能運算、體系結構領域頂級會議)大會上,我國科學家向世界展示了全新的申威SW26010-Pro 處理器,性能比上一代提高了四倍。這是我國採用自主指令集(以 Alpha 為基礎進行擴充),具有完全自主智慧財產權的處理器系列產品。根據PPT資料顯示,SW26010 pro是SW26010改良型,擁有6個核心模組和1 個協定處理單元(PPU)構成,每個模組有1個管理Linux執行緒的核心(MPE)和64個運算核心,總計384個內核,相較之下上一代的SW26010 只有4 個核心組,說明SW26010 pro單晶片應該有50%的性能提升。SW26010 Pro處理器的64個(8 x 8)運算核心網路是一個具有256KB L2高速緩存的運算處理單元(CPE)。每個CPE有四個邏輯塊,可以在一對上支援FP64和FP32,在另一對上則可以支援FP16和BF16。SW26010 Pro中的每個核心模組上都有一個DDR4-3200內存控制器和16 GB內存,內存頻寬為51.4 GB/秒,因此整個處理器有96 GB主內存(相比SW26010 的32 GB 實現了顯著提升)和307.2 GB/s頻寬。六個CPE透過環形互連連接,並有兩個網路接口,使用專有互連將它們連接到外部。 SW26010 Pro晶片的FP64或FP32精度為14.03 PB,BF16或FP16精度為55.3 PB。另外,SW26010 Pro的MPE核心運作在2.1 GHz(前代產品僅1.45 GHz),CPW核心運作在2.25 GHz,再加上全新64 位元RISC 微架構和系統架構的改進,其FP64 運算吞吐量也增加了四倍以上。據介紹,神威·海洋之光最大的配置超過100000個節點,共有超過4100萬個核心,分佈在大約105個機櫃中,峰值半精度(FP16)性能超過5 Exaflop/s,FP64的理論峰值性能為1.5 exaflops,僅次於美國Frontier超級電腦。據The next platform先前報導稱,如果將神威·海洋之光的規模擴大到120個機櫃,在FP64 pervision下的峰值將達到1.72 Exaflops,這將超過美國橡樹嶺國家實驗室的1.68 Exaflops的“Frontier”超級電腦。在160個機櫃的條件下,在FP64的峰值性能將接近2.3 Exaflops,將有望擊敗已經安裝完成的美國能源部阿貢國家實驗室的基於英特爾CPU及GPU的新一代超級電腦“Aurora”,以及正在建造的美國勞倫斯·利弗莫爾國家實驗室基於AMD MI300晶片的“El Capitan”超級計算機,後兩者的FP64性能都將達到2 Exaflops以上。