英特爾Ponte Vecchio早期晶片或以1.37GHz頻率達成45 TFLOPs性能
2021 架構日活動期間,英特爾披露了 Xe HPC”Ponte Vecchio”加速卡的諸多技術細節,並且分享了基於 A0 原型的一些初步性能數據。 通過簡單的數學計算,TechPowerUp 推測原型卡的運行頻率在 1.37GHz 左右。 但在 Sapphire Rapids 至強處理器平臺上,單個 Ponte Vecchio OAM(雙堆棧 MCM)還是實現了至少 45 TFLOPs 的 FP32 輸送量。
(圖 via TechPowerUp)
如此耀眼的成績,已經超越了英偉達 Ampere A100 Tensor Core 40GB 競品所宣傳的 19.5 TFLOPs,此外AMD Instinct MI100 計算卡也僅提供了 23.1 TFLOPs 的 FP32 性能。
“A0″版本應該是首批從代工廠流片回來的 Ponte Vecchio 原型,且英特爾內部應該正在通過嚴格的 NDA 協定,來下發給 ISV 與行業合作夥伴。
通常情況下,晶元製造商只會將時鐘速率明顯低於最終性能的原型交付給ISV,以便其充分測試相關功能和開發特定的軟體。
參考英特爾在演示文稿中提到的數據,OAM 封裝的每時鐘週期 FP32 輸送量為 32768 ops,且單個封裝中的兩個堆棧相當於 128 個 Xe 核心。
每個 Xe HPC 的核心向量引擎,可在單個時鐘週期內提供 256 次 FP32 操作,那樣單封裝(雙堆棧)的總和為 32468 FP32 ops/clock,約等於 1373MHz 。
不過隨著後續的生產反覆運算,我們有望看到更高的始終速率、以及輸送量的線性擴展。 不過考慮到晶元的龐大尺寸和功率消耗(傳聞為 600W),最終運行頻率卡在 1.37GHz 也不是不可能。
在用功耗換性能的情況下,英特爾甚至會要求廠商為 OAM 搭配高性能的水冷散熱方案。 至於其能否在 HPC 市場獲得充分的認可,仍有待時間去檢驗。