全球TOP10超級計算機8台都選英偉達的三大原因
本週,又是一年一度的高性能計算大會ISC。今天,是超級計算機TOP500榜單更新的時間。根據TOP500剛剛發布的超算TOP500榜單,中國部署了226台位列第一,美國部署了114台名列第二,日本以30台位居第三。
2020年6月更新的TOP500超算系統排名
細看這份最新的榜單,可以發現TOP10的超級計算機中有8台採用了英偉達GPU、InfiniBand網絡技術,或同時採用了兩種技術。TOP500榜單的系統中,有333套(三分之二)採用了英偉達的技術。
TOP500超算系統採用NVIDIA GPU、Mellanox網絡技術,或同時採用了這兩種技術數量
三年前的2017年6月,TOP500榜單使用英偉達和Mellanox(被英偉達以69億美元收購)的系統為203套,不到TOP500個超算系統的一半。為什麼在超算領域英偉達能進展如此迅猛?TOP100超算為何要選英偉達?
高速數據互聯技術普及
英偉達願意以高價收購Mellanox的重要原因是高速數據互聯在大數據時代變得越來越重要,在超算系統裡尤為明顯。自2019年11月以來,TOP500榜單上使用HDR InfiniBand的系統數量幾乎增加了一倍。共有141台超級計算機使用了InfiniBand,自2019年6月以來增長了12%。
如今,TOP500榜單上有將近四分之三(74%)的全新InfiniBand系統採用了NVIDIA Mellanox HDR 200G InfiniBand,這是智能高速數據互聯技術迅速普及的一個體現。另外,在TOP500超級計算機中,有305套系統使用了NVIDIA Mellanox InfiniBand和Ethernet網絡(佔61%)。
InfiniBand為排名前10的超級計算機中的7台提速
ISC期間,英偉達又宣布推出Mellanox UFM Cyber-AI平台,新的平台運用AI分析技術檢測安全威脅和運行問題並預測網絡故障,能夠大幅減少InfiniBand數據中心的停機時間。
收購Mellanox和智能高速數據互聯迅速普及是讓英偉達的產品在TOP500榜單中比例迅速提升的一個關鍵,但作為超算系統,性能更為關鍵。
超高性能係統像積木一樣搭建
特別是,當下AI和分析已成為科學計算中的新需求,全球各地的研究者都正在使用深度學習和數據分析預測各種最具潛力的領域,進而開展實驗。GTC2020上,英偉達就表示位於美國阿貢國家實驗室的研究者使用24台NVIDIA DGX A100系統組成的集群對數十億種藥物進行掃描,以尋找COVID-19的治療方法。
英偉達最新發布的安培(Ampere)架構GPU A100正是推動超算系統選用英偉達產品的關鍵之一。在一台6U服務器中集成了8顆A100 GPU以及NVIDIA Mellanox HDR InfiniBand網絡技術的NVIDIA DGX A100 AI系統單節點性能達到了創紀錄的5 petaflops。由140台DGXA100系統組成的新一代DGX SuperPOD的AI算力更是高達700 Petaflop。
這對於競爭已經到了百萬兆級超算而言,意義重大,並且,這個系統具有很好的擴展性。英偉達表示, DGX SuperPOD架構設計展示瞭如何像搭積木一樣使用高性能NVIDIA Mellanox InfiniBand交換機連接20台DGX A100系統。4名操作人員僅需不到1個小時,就能組裝起一套由20台系統組成的DGX A100集群,創建出一套性能可以達到2-petaflops的系統。
據悉,通過添加NVIDIA Mellanox InfiniBand交換機層,英偉達工程師將14套分別配置有20台DGX A100系統的模塊組的相連接,打造出了Selene。Selene系統具有:
- 280台DGX A100系統
- 2240顆NVIDIA A100 GPU
- 494台NVIDIA Mellanox Quantum 200G InfiniBand交換機
- 56 TB/s的網絡架構
- 7PB的高性能全閃存
Selene最重要的性能規格之一是可以提供超過1 exaflops的AI性能。並且,在TPCx-BB關鍵數據分析基準測試中,使用了16台DGX A100系統就創造了新紀錄,性能表現高出其他系統20倍。
在ISC 2020期間,英偉達還宣布推出PCIe版本的A100,為的是補充上月發布的四卡和八卡NVIDIA HGX A100配置,這樣,服務器製造商就能夠提供從內置單個A100 GPU的系統到內置10個或10個以上GPU的服務器,進一步更好地滿足超算系統構建需求。
除了性能,TOP500超算系統也非常關注能耗,這也是英偉達能吸引超算系統製造商的另一大原因。
能效平均提升2.8倍
根據英偉達的說法,在能效方面,TOP500超算使用英偉達GPU的系統與不使用的相比,能效(以gigaflops/watt為單位)平均高出2.8倍。最能證明這個優勢的是上面提到的英偉達內部研究集群新成員Selene。
據悉,Selene在Linpack基準測試中以27.5 petaflops的性能表現,在最新Green500榜單中排名第二,TOP500榜單中排名第七。Selene的功耗為20.5 gigaflops/watt,與Green500榜單上的第一名相差不大,但排名第一的MN-3系統體積更小,性能表現排在第394位。
NVIDIA GPU平均提高TOP500超級計算機能效2.8倍
值得一提的是,Selene是TOP100系統中唯一突破20 20 gigaflops/watt能效表現大關的系統,也是全球性能排名第二的工業超級計算機,僅次於意大利能源巨頭Eni SpA的No. 6 系統。
而Selene的能效比TOP500系統的平均表現比未使用英偉達GPU的超算系統高出了6.8倍。這種性能和能效是歸功於A100 GPU中的第三代Tensor Core核心,最新一代Tensor Core可以為傳統的64位數學模擬及精度較低的AI工作提供加速。
高性能計算處理器是一家公司產品性能領導力的體現,更是生態實力的體現。英偉達在ISC 2020期間宣布,今年夏天預計有30款搭載A100的服務器上市,年底還會有20多款系統上市。包括華碩、Atos、思科、DELL Technologies、富士通、技嘉科技、HPE、浪潮、聯想、One Stop Systems、Quanta/QCT和Supermicro。
黃仁勳在GTC2020上強調,DGX A100系統可以實現高利用率和低總擁有成本。當以高售價廣為人知的英偉達高性能GPU開始強調總體擁有成本和能效時,對於市場時的其他競爭者而言無疑是一個壞消息,這也正是吸引更多超算系統使用英偉達產品的關鍵因素。
並且,英偉達也推出了為安培架構和A100優化的軟件支持,包括CUDA 11、50多個CUDA-X庫的新版本; 多模式對話式AI服務框架NVIDIA Jarvis;深度推薦應用框架NVIDIA Merlin; RAPIDS開源數據科學軟件庫套件;NVIDIA HPC SDK。
正在通過軟硬件產品幫助開發者構建並加速HPC、基因組學、5G、數據科學、機器人學等領域的應用的英偉達,未來重點的提升方向會在哪?