英特爾詳細介紹Ponte Vecchio 性能可達英偉達A100平台的2.5倍
在Hot Chips 34 大會期間,英特爾再次詳細介紹了Sapphire Rapids HBM 處理器+ Ponte Vecchio(2-Stack)GPU 平台的潛力,稱該服務器平台的性能可達英偉達A100 競品的2.5 倍。英特爾首席GPU 計算架構師Hong Jiang 在演講中指出,Ponte Vecchio 具有三種配置。
(通過WCCFTech)
從單一OAM、到配備Xe Links 的x4 子系統,Ponte Vecchio GPU 不僅能夠單獨運行、也可部署於Sapphire Rapids 雙路服務器平台之上。
其中OAM 支持4 GPU 和8 GPU 平台的all-to-all 拓撲,輔以英特爾oneAPI 軟件堆棧。
作為一個零級(Level Zero)API,其為跨架構編程支持提供了低層級的硬件接口。
oneAPI 主要特性如下:
● 提供面向其它工具和加速器設備的接口;
● 支持精細的增益控制、以及低延遲的加速器特性;
● 具有多線程設計;
● 將GPU 作為驅動程序的一部分而提供。
性能指標方面,2-Stack Ponte Vecchio GPU 配置(如單一OAM 上的配置),可提供高達52 TFLOP 的FP64 / FP32 算力。
另有419 TFLOP 的TF32(XMX Float 32)、839 TFLOP 的BF16 / FP16,以及1678 TFLOPs 的INT8 算力。
英特爾還詳細說明了Ponte Vecchio 的緩存大小/ 峰值帶寬—— 比如GPU 上的寄存器為64 MB,提供419 TB/s 的帶寬。
L1 緩存也為64 MB,帶寬105 TB/s(4:1)。L2 緩存為408 MB,帶寬13 TB/s(8:1)。HBM 內存池高達128 GB,輔以4.2 TB/s(4:1)的帶寬。
以下是英特爾為Ponte Vecchio 配備的系列計算效率(compute efficiency)技術。
Register File(寄存器文件):
● Register Caching(寄存器緩存)
● Accumulators(累加器)
L1 / L2緩存:
● 直寫(直寫)
● Write Back(回寫)
● Write Streaming(流式寫入)
● Uncached(不緩存)
Prefetch(預取):
● 支持L1 和(或)L2 緩存的軟件(指令)預取;
● 支持到L2 獲取指令和數據的Command Streamer 預取。
英特爾解釋稱,更大的L2 緩存,可為2D-FFT 和DNN 等工作負載帶來巨大的效益,並且分享了完整Ponte Vecchio GPU 和80 / 32 MB 模塊之間的一些性能比較。
此外英特爾搬出了運行CUDA 和SYCL 的英偉達Ampere A100,與使用SYCL 的Ponte Vecchio GPU 平台展開了性能橫比。
在miniBUDE(一種可預測配體與目標結合能的計算工作負載)中,Ponte Vecchio GPU 模擬測試結果的速度,更是Ampere A100 的2 倍。
另外在ExaSMR 核反應堆設計仿真設計中,英特爾Ponte Vecchio GPU 也以1.5 倍領先於英偉達競品方案。
不過需要指出的是,英偉達早已向市場投放了性能更加強悍的Hopper H100,所以英特爾這裡拿Ampere A100 進行比較還是相當投機取巧的。
言歸正傳,英特爾概述了Ponte Vecchio 旗艦數據中心GPU 的一些關鍵特性,例如128 個Xe 內核、128 個光追(RT)單元、HBM2e 顯存、以及連接到一起的8 個Xe-HPC GPU 。
該芯片在兩個獨立的堆棧中提供了高達408 MB 的L2 緩存、之間通過EMIB 互連,且各部分芯片混用了Intel 7 和台積電N7 / N5 等多個工藝節點。
由兩塊(2 Tiles)組成的每個堆棧有16 裸片,最大的active die 尺寸為41 m㎡、Compute Tile 則是650 m㎡ 。
以下是Ponte Vecchio GPU 的完整小芯片/ 工藝節點描述:
● 英特爾7nm
● 台積電7nm
● Foveros 3D 封裝
● EMIB 互連
● 10nm 增強型Super Fin
● 蘭博緩存
● HBM2 高帶寬顯存
以下是英特爾Ponte Vecchio 芯片的47 塊(Tiles)組成:
● 16 個Xe HPC(內/外部)
● 8 個Rambo Cache(內部)
● 2 個Xe Base(內部)
● 11 個EMIB(內部)
● 2 個Xe Link(外部)
● 8 個HBM(外部)
Ponte Vecchio GPU 使用了8 個HBM 8-Hi 堆棧,總共包含11 個EMIB 互連,完整封裝尺寸為4843.75 m㎡ 。
設計中還提到了高密度3D Forveos 封裝的Meteor Lake CPU,可知其bump pitch 的間距為36u 。
【總結】Ponte Vecchio GPU 不是一個單獨的芯片,而是由47 個不同工藝製程的小芯片“組合”得來。
遺憾的是,受英特爾多次跳票的影響,使用Ponte Vecchio GPU 和Sapphire Rapids CPU 的Aurora 超級計算機項目也被迫推遲。
即便如此,英特爾還是透露了下一代Rialto Bridge GPU 。可知作為Ponte Vecchio GPU 的繼任者,其有望於2023 年開始提供樣品。