CUDA支持ARM是實現百萬兆級超算的新途徑還是NVIDIA和ARM的好機會?
超級計算機(Supercomputer)通常簡稱超算,在科學界常被視作一個國家技術領軍能力的指標,因為它能夠為AI、空氣動力、大氣科學、能源科學等重要技術的研究提供算力支撐。如今強國之間的競爭已經進入到了百萬兆級超算的時代,這就需要更強大的處理器。目前,X86、Power作為超算CPU計算節點的主要架構,那麼Nvidia宣布CUDA支持Arm誰將是最大的贏家?
超算競爭進入百萬兆級時代
去年六月,美國能源部公佈了世界上最快的超級計算機——Summit,反超中國超算太湖之光重奪超算Top 500第一的位置,並且美國表示他們預計在2021年建造一台每秒運算數十億億次計算機“極光(Aurora)”,甚至會打造更高效能的計算機。
2019超算Top 500
當然,中國也在建立一個百萬兆級超級計算機系統,有消息稱它基於已構建的三種原型系統:曙光、天河和神威。日本和歐洲也不甘落後,日本希望在2021年有一台百萬兆級的超級計算機,歐洲人則在希望在2023年實現這一目標。顯然,超級計算機的競賽跨入了Exascale計算(百萬兆級的計算,也可稱E級超算)時代。
用一個不精確的說法來解釋百萬兆級計算,一個百萬兆級計算機一瞬間進行的計算,相當於地球上的所有人每天每秒都不停地計算四年。這樣強大的計算能力需要更加複雜的系統。與普通計算機一樣,超算同樣由硬件和軟件系統組成,但超算僅硬件部分就由高速運算系統、高速互連通信網絡系統、存儲系統、維護監控系統、電源系統、冷卻系統和結構組裝設計等部分組成。
其中,高速運算系統負責邏輯複雜的調度和串行任務和並行度高的任務,可採用同構計算(純CPU組成計算節點),也可以採用異構計算(CPU+加速器組成計算節點)的方式。
實現百萬兆級超算的新途徑
根據國際組織TOP500編制的超級計算機榜單,從2019年度ISC國際超算大會上公佈的超算性能500強榜單中,我們不難發現IBM Power、Nvidia Volta/Tesla、Intel Xeon顯然是超算計算節點的重要組成。
2019年度ISC國際超算大會上公佈的超算Green500
但是,隨著算力的進一步增強,超算產生的熱量不僅會造成更多的資源消耗,冷卻系統的設計同樣面臨更大的挑戰,因此沒瓦特性能也十分重要。TOP500也編制了一個Green500的超算排行榜,這個排行榜比拼的不是性能,而是比拼每瓦性能,所以,即便某個超算在TOP500榜單中墊底,在Green500中卻獲得好名次。
根據最新的Green500排行榜,在全球最節能的25款超級計算機中,有22款都得益於Nvidia的支持。
這其中的關鍵之一就是採用了異構計算的方式,讓x86或者Power架構的CPU與Nvidia GPU協同,把繁重的處理作業卸載至更為節能的並行處理CUDA GPU之上。不過在CPU市場,Arm架構也不可忽略,那麼在超算的百萬兆級競爭中,Arm CPU是否也能發揮優勢?
現在下結論還為時尚早,但英偉達並不打算錯過這個可能的機會。6月17日,2019年度ISC國際超算大會上,Nvidia宣布將於年底前向Arm生態系統提供全堆棧的AI和HPC軟件,該堆棧為600多個HPC應用程序和所有AI框架提供加速,其中包括了所有Nvidia CUDA-X AI和HPC庫、GPU加速的AI框架和軟件開發工具,如支持OpenACC的PGI編譯器和性能分析器。
這也就意味著,在Nvidia的堆棧優化完成之後,Nvidia將為所有主要CPU架構提供加速,包括x86、Power和Arm。
對於新的宣布,Nvidia創始人兼首席執行官黃仁勳表示:“超級計算機是促進科學發現的重要工具,建立百萬兆級超級計算將能夠極大地擴展人類知識的邊界。隨著傳統計算規模擴展步伐的停止,功率也將成為所有超級計算機的限制因素。Nvidia CUDA加速的計算和Arm的高能效CPU架構的相結合,將助力HPC社區實現大幅提升,以達到百萬兆級。”
Nvidia的好生意
從百萬兆級超算建造者的角度看,Arm CPU+Nvidia GPU是一個新選擇,但從Nvidia的角度看,CUDA支持Arm不是一個簡單的宣布,而是資源的投入。讓Nvidia有動力進行這樣的投入,是各國和巨頭公司們的需求和投入。
僅美國方面,下一代超算技術的研發總投入將達到4.3億多美元,美國能源部部長里克⋅佩里就表示,這些資金劍指“下階段研發百億億次系統的全球競賽”。顯然,百萬兆級超算的構建少不了Nvidia的GPU,特別是AI技術蓬勃發展並且越來越重要的當下。此時Nvidia又聯合Arm為構建百萬兆級超算提供了新的途徑,自然能讓其從超算市場獲得更多的營收。
Nvidia的在超算市場的努力不止CUDA支持Arm,Nvidia在2019年度ISC國際超算大會上還宣布了全球速度排名第22位的超級計算機——DGX SuperPOD。根據Nvidia的說法,該超級計算機系統採用了96台NvidiaDGX-2H超級計算機,內含1536顆Nvidia V100 Tensor Core GPU,由Nvidia NVSwitch及Mellanox網絡結構相聯接。其處理能力高達9.4 petaflops,能夠用於訓練安全自動駕駛汽車所需要的海量深度神經網絡。
對比來看,具備同等性能的其他TOP500超級計算機系統需要由數千台服務器構建,而DGX SuperPOD佔地面積更少,體積比同等系統小400倍左右。部署方面,其他同等規模的系統通常需要6-9個月才能完成部署畢,DGX SuperPOD在工程師採用經過驗證的規範性方法情況下,僅需3個星期。
Nvidia DGX系統已經服務於眾多對大規模計算有需求的企業機構,例如寶馬、Continental、福特與Zenuity等汽車公司,還有Facebook、微軟與富士膠片等公司,還有研究領域的日本理化學研究所與美國能源部實驗室等。
Nvidia希望還沒有部署人工智能的數據中心的企業機構使用Nvidia SuperPOD架構。這可以讓雙方都從中獲益,不止於此,Nvidia還能通過構建這樣的超級計算機,可以學會如何設計面向大規模人工智能機器的系統。
顯然,超算特別是百萬兆超算對Nvidia是可以多贏的好生意。
Arm的好機會
對於Arm而言,百萬兆級超算市場則是一個好機會。在移動市場佔據領導地位的Arm遇到市場增長放緩時,同樣也希望能夠將其架構拓展到新的市場帶來增長,近年來也在努力聯合合作夥伴推動Arm服務器的發展,不過情況並不理想。
但在超算市場,特別是CUDA支持Arm之後,Arm能夠迎來了好機會。Atos高級執行副總裁、大數據和網絡安全部門負責人Pierre Barnabé表示:“憑藉萬寶龍項目,以及為百萬兆級超級計算機BullSequana X所做的Arm計算刀片設計,Atos成為了ARM生態系統中的先驅者。”
全球重要的超算提供商Cray總裁兼首席執行官Peter Ungaro表示:“我們的Cray系統管理和編程環境(編譯器、庫和工具)已經能夠在XC和未來的Shasta超級計算機上支持Arm處理器,將CUDA和CUDA-X HPC和AI軟件堆棧用於Arm平台,並將其與Cray系統管理和編程環境緊密集成,能夠助力我們的超級計算機實現我們的願景。”
另外,Ampere Computing、CSC、EPI、HPE、Jülich超算中心、Marvell等都表達了對於CUDA支持Arm的期待。同時還要看到,CUDA支持Arm能夠建造百萬兆級超算,同樣也能讓服務器廠商更便捷地製造Arm服務器,所以,Arm的好機會是讓其能夠更好的拓展架構優勢。
小結
百萬兆級超算系統是各國努力正在打造的新一代超算,此時,英偉達CUDA支持Arm給正在打造新一代超算的國家以及對算力有更高需求的企業一個新的選擇,這既是英偉達能夠多贏的好生意,更是Arm進入超算市場的好機會。現在有眾多的支持者表態支持這一新路徑,我們雖然對此也保持積極的態度,但結果仍需通過實際的百萬兆級的超算系統來得出。創新不會百分之百成功,但創新才是推動革新的最大動力。