展望2021：英特爾或為Aurora超算提供雙路CPU+六GPU節點

近年來，超算界一直在努力探討“exascale”（10^18）的算力願景，其有望奠定未來十年的發展基調。英特爾與阿貢國家實驗室合作打造的Aurora超級計算機，亦正在向著這個目標挺進。據悉，兩家公司簽訂合同已有一段時間，但隨著市場的變化、以及硬件製造商的挫折，項目進展並不是很順利。

（題圖via AnandTech）

Aurora超算的硬件部分，原本希望Argonne、Cray和英特爾能夠在2020年實現交付。其圍繞著英特爾的Xeon Phi平台構建，可通過Intel的AVX-512指令和10nm Knights Hill架構來提高吞吐量和加速。

遺憾的是，上述計劃是在人工智能（AI）加速革命之前所製訂的。英特爾隨後在其服務器處理器中添加了AVX-512 支持，並終結至強融核平台（短命的Knights Mill）。

基於此，英特爾不得不重新考慮Aurora 要如何構建，以及如何融入自家的CPU 和Xe GPU 。作為今日公告的一部分，英特爾披露了Aurora 超算的一些基礎信息。

雖未透露架構的核心數量、內存類型等信息，但至少可知標準節點將包含雙路下一代CPU 和六路下一代GPU 硬件，且其通過全新的連接標准進行協作。

計劃採用的Sapphire Rapids CPU，是英特爾繼Ice Lake 至強處理器之後的第二代10 納米服務器處理器。今日公告重申了該處理器有望在2021 年下半年推出，同時Ice Lake 將在2020 年末實現量產。

參數方面，每顆Sapphire Rapids 處理器支持8 通道內存，且具有足夠連接至三路GPU 的I/O 。在單個Aurora 計算節點中，雙路Sapphire Rapids 處理器可協同工作，並支持下一代傲騰DCPMM 持久性存儲。

另有消息人士稱，Sapphire Rapids 或許支持DDR5，但尚未得到英特爾方面的證實。GPU 方面，每個Aurora 節點將支持六卡協作（英特爾7nm Ponte Vecchio Xe GPU）。

其基於Xe 架構的微體系架構打造，採用英特爾大量的關鍵封裝技術，如Foveros 芯片堆疊、嵌入式多芯片互連橋（EMIB）、以及高帶寬現存（HBM）等。

功能方面，英特爾僅聲稱PV 將具有矢量矩陣單元和高雙精度性能，這可能是Argonne 進行的研究所必需的。

Aurora 節點中的另一項核心技術，就是採用了全新的CXL 連接標準。其允許CPU 和GPU 直接連接在一起，並在統一的內存空間中工作。

每個Aurora 節點將具有8 個Fabric 端點，從而提供了大量的拓撲連接選項。隨著Cray 部分的構建加入，連接系統將成為其Slingshot 網絡體系結構的一個版本。

同時，該體系結構也將用於其它2020 年代初期的美國超算項目。英特爾表示，Slingshot 將為Aurora 提供大約200 個機架的連接，共有10 PB 內存和230 PB 的存儲。

綜上所述，可簡單估計Aurora 超算有如下特點：

支持200 個機架協同工作；
每個機架可能都採用標準的42U 配置；
每個Aurora 節點都是一個標準的2U 配置；
系統或總共有200 個機架；
每個機架支持6U 和聯網特性；
其中1/3 可用於存儲和其它系統；
四捨五入可得2400 個Aurora 超算節點（2394）。

若真如此，整個Aurora 超算系統將只採用5000 顆英特爾Sapphire Rapids CPU 和15000 個Ponte Vecchio GPU 。

假設將ExaFLOP 均攤到15000 個子單元商，則每個GPU 的平均算力為66.6 TeraFLOP 。不過當前的GPU，其FP32 性能僅在14 TeraFlops 左右。

若英特爾能夠將HPC 的單GPU 性能提升約5 倍，這樣的提升也是相當驚人的（假設不考慮功耗限制的話）。

WONGCW 網誌