英特爾SPR處理器配備64GB HBM2e、Ponte Vecchio擁有408MB L2緩存
在一年一度的超算大會上,高性能計算行業的許多參與者都在積極討論硬體、安裝、以及設計等方面的最新進展。 期間,晶元巨頭英特爾也展示了自家的硬體,並披露了有關下一代 Aurora Exascale 超算的諸多細節。 起初,Aurora 計劃採用英特爾的 10nm 至強(Xeon)融核(Phi)平臺,但隨著技術的飛速發展,後續該專案也經歷了多次推倒重來。
幾年前最終敲定的方案,為 Aurora 選用了英特爾 Sapphire Rapids 處理器,特點是配備 HBM2e 高頻寬緩存。 以及 Ponte Vecchio 架構的 Xe-HPC GPU 加速器,可擴展數百 PetaFLOP 到 ExaFLOP 級別的算力。
早些時候,英特爾新任CEO派特·基辛格透露,Ponte Vecchio加速器實現了性能的翻番,可讓建成後的 Aurora 成為一台”2+ EF”級別的超級計算機。
該公司預計將在 2022 年之前交付機器的其餘部分,並於第一季度增加主流使用者的硬體生產,以便在上半年有更廣泛的發佈。
處理器方面,Aurora 為每個單元都配備了兩塊 Sapphire Rapids CPU(簡稱 SPR)。 其具有四個計算塊、DDR5、PCIe 5.0、CXL 1.1(而不是 CXL.mem),並大量借用 EMIB 技術來實現連接。
至於自帶的高頻寬記憶體(HBM),可知英特爾為該系列 SPR 處理器選用了 8-Hi 堆棧,以提供高達 64GB 的 HBM2e 記憶體。 (據說英特爾打算使用四個 16GB HBM2e 堆棧來組成 64GB 記憶體)
考慮到英特爾與美光之間的特殊關係,我們發現Micron HBM2e的物理尺寸,正巧與Intel材料中給出的標示一致(而不是三星或SK海力士)。
當前美光提供了兩種帶有硬體 ECC 的 16GB HBM2e 產品,一種為每引腳 2.8 Gbps(每堆棧 358 GB/s)、另一種為每引腳 3.2 Gbps(每堆棧 410 GB/s)。
取決於英特爾使用的版本,其峰值總頻寬可介於1.432 ~ 1.64 TB/s之間。 不過 SPR HBM 版本還會額外使用四個 Tile,並將每個 HBM 堆疊連接到一個小晶片。
由圖可知,儘管 Intel 表示 SPR+HBM 版本與普通 SPR SKU 共用插槽,但明顯還是存在不相容的地方。 這也能是一個實例,即 Aurora 超算上使用了專門的調整設計。
至於 Ponte Vecchio(Xe HPC 2-Tile / PVC),英特爾披露單個 Aurora 伺服器里的每兩塊 SPR 處理器,將搭配六塊 PVC 加速器。
每個加速器都將使用內置的新 Xe-Link 全拓撲互連協定,儘管全連接模式下支援 8 路,但 Aurora 還是相對節制了一下。
儘管英特爾尚未披露 PVC 是如何與 SPR 處理器連接的,但至少 CPU / GPU 之間採用了統一記憶體架構設計。
英特爾補充道,每個 Ponte Vecchio 雙棧部署將具有總共 64 MB 的 L1 快取和 408 MB 的 L2 快取(每個堆疊具有 204 MB L2),並由 HBM2e 提供支援。
作為比較,英偉達 A100 方案具有 40MB L2 快取、AMD Navi 21 配備了 128MB 無限快取(Infinity Cache / 有效 L3)。
至於 AMD 為 Frontier 超算提供的 CDNA2 MI250X 加速卡,則配備了每堆棧 8MB L2 緩存(總共 16MB)。
(圖 via AnandTech)
無論採用何種方式進行切片,英特爾都在努力為PVC提供正確的緩存層次結構。 由圖表的 4 個 HBM2e 晶片設計來看,每個 PVC 雙堆疊或具有高達 128GB 的 HBM2e 記憶體。
更重要的是,我們還正式獲悉 Aurora 將用到多少塊 Ponte Vecchio GPU 加速卡和 Sapphire Rapids(+HBM)處理器。
早在 2019 年 11 月,當 Aurora 還僅規劃了 1 EF 算力時,就有基於 200 個機架佈局的猜想 —— 簡單換算是 5000 顆 CPU + 15000 塊 GPU 加速卡,且每個 PVC 大約 66.6 TF 性能。
當時英特爾在早期晶元上展示了每張卡 40 TF 的性能,而 Aurora 2 EF 的官方參數則是 54000+ GPU / 18000+ CPU,意味每個 PVC 僅 37 TeraFlops(完全未將 CPU 性能算進去的話)。
至於 PVC 的功率,可參考額定功率為 60 MW 的 FP64 Vector(2 ExaFlops),那樣系統為每張卡分配的功率或為 1053 W 。 若 Frontier 與 Aurora 的開銷類似,預計每個 PVC 的功率在 615 W。
最終 37 TF 的 PVC 功率為 615 W,而 MI250X 的 47.9 FP 功率僅為 560 W 。 不過這裡並未深入每張卡的原始性能,及其在特定用例中的特定功能