展望2021:英特爾或為Aurora超算提供雙路CPU+六GPU節點
近年來,超算界一直在努力探討“exascale”(10^18)的算力願景,其有望奠定未來十年的發展基調。英特爾與阿貢國家實驗室合作打造的Aurora超級計算機,亦正在向著這個目標挺進。據悉,兩家公司簽訂合同已有一段時間,但隨著市場的變化、以及硬件製造商的挫折,項目進展並不是很順利。
![1.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2019/1118/2e04ed134910031.jpg?w=640&ssl=1)
(題圖via AnandTech)
Aurora超算的硬件部分,原本希望Argonne、Cray和英特爾能夠在2020年實現交付。其圍繞著英特爾的Xeon Phi平台構建,可通過Intel的AVX-512指令和10nm Knights Hill架構來提高吞吐量和加速。
遺憾的是,上述計劃是在人工智能(AI)加速革命之前所製訂的。英特爾隨後在其服務器處理器中添加了AVX-512 支持,並終結至強融核平台(短命的Knights Mill)。
基於此,英特爾不得不重新考慮Aurora 要如何構建,以及如何融入自家的CPU 和Xe GPU 。作為今日公告的一部分,英特爾披露了Aurora 超算的一些基礎信息。
![2.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2019/1118/49875365f60be07.jpg?w=640&ssl=1)
雖未透露架構的核心數量、內存類型等信息,但至少可知標準節點將包含雙路下一代CPU 和六路下一代GPU 硬件,且其通過全新的連接標准進行協作。
計劃採用的Sapphire Rapids CPU,是英特爾繼Ice Lake 至強處理器之後的第二代10 納米服務器處理器。今日公告重申了該處理器有望在2021 年下半年推出,同時Ice Lake 將在2020 年末實現量產。
參數方面,每顆Sapphire Rapids 處理器支持8 通道內存,且具有足夠連接至三路GPU 的I/O 。在單個Aurora 計算節點中,雙路Sapphire Rapids 處理器可協同工作,並支持下一代傲騰DCPMM 持久性存儲。
![3.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2019/1118/7162fdba55f9ffd.jpg?w=640&ssl=1)
另有消息人士稱,Sapphire Rapids 或許支持DDR5,但尚未得到英特爾方面的證實。GPU 方面,每個Aurora 節點將支持六卡協作(英特爾7nm Ponte Vecchio Xe GPU)。
其基於Xe 架構的微體系架構打造,採用英特爾大量的關鍵封裝技術,如Foveros 芯片堆疊、嵌入式多芯片互連橋(EMIB)、以及高帶寬現存(HBM)等。
功能方面,英特爾僅聲稱PV 將具有矢量矩陣單元和高雙精度性能,這可能是Argonne 進行的研究所必需的。
![4.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2019/1118/792ee15ce7a7b42.jpg?w=640&ssl=1)
Aurora 節點中的另一項核心技術,就是採用了全新的CXL 連接標準。其允許CPU 和GPU 直接連接在一起,並在統一的內存空間中工作。
每個Aurora 節點將具有8 個Fabric 端點,從而提供了大量的拓撲連接選項。隨著Cray 部分的構建加入,連接系統將成為其Slingshot 網絡體系結構的一個版本。
同時,該體系結構也將用於其它2020 年代初期的美國超算項目。英特爾表示,Slingshot 將為Aurora 提供大約200 個機架的連接,共有10 PB 內存和230 PB 的存儲。
![5.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2019/1118/8ac930fbbc21ecf.jpg?w=640&ssl=1)
綜上所述,可簡單估計Aurora 超算有如下特點:
支持200 個機架協同工作;
每個機架可能都採用標準的42U 配置;
每個Aurora 節點都是一個標準的2U 配置;
系統或總共有200 個機架;
每個機架支持6U 和聯網特性;
其中1/3 可用於存儲和其它系統;
四捨五入可得2400 個Aurora 超算節點(2394)。
若真如此,整個Aurora 超算系統將只採用5000 顆英特爾Sapphire Rapids CPU 和15000 個Ponte Vecchio GPU 。
假設將ExaFLOP 均攤到15000 個子單元商,則每個GPU 的平均算力為66.6 TeraFLOP 。不過當前的GPU,其FP32 性能僅在14 TeraFlops 左右。
若英特爾能夠將HPC 的單GPU 性能提升約5 倍,這樣的提升也是相當驚人的(假設不考慮功耗限制的話)。