60億參數AI模型測試：Intel 2.4倍領先唯一可替代NVIDIA

MLCommons官方公佈針對60億參數大語言模型及計算機視覺與自然語言處理模型GPT-J的MLPerf推理v3.1的性能基準測試結果，Intel CPU處理器、AI加速器表現亮眼，在AI推理方面相當有競爭力。

此前6月份披露的MLCommons AI訓練結果、Hugging Face性能基準測試成績表明，Intel Gaudi2 AI加速器在先進的視覺語言模型上，表現完全可以超越NVIDIA H100 股加速器，堪稱可唯一替代NVIDIA H100/A100的可行方案，最新結果再次驗證了這一點。

GPT-J模型上，Intel Gaudi2加速器的GPT-J-99、GPT-J-99.9服務器查詢和離線樣本的推理性能分別為78.58次/秒、84.08 次/秒。

對比競品，H100相較於Gaudi2只有1.09 倍（服務器）、1.28 倍（離線）的性能領先優勢，Gaudi2對比A100的優勢則可達2.4倍（服務器）、2倍（離線）的性能。

值得一提的是，Gaudi2提交的結果採用FP8數據類型，準確率達到99.9％。

Gaudi2軟件每6-8週就會更新一次，將繼續提升MLPerf基準測試性能，並擴大模型覆蓋範圍。

同時，Intel提交了基於Sapphire Rapids第四代至強可擴展處理器的7個推理基準測試，其中就包括GPT-J模型。

結果顯示，包括視覺、語言處理、語音和音頻翻譯模型，以及更大的DLRM v2深度學習推薦模型、ChatGPT-J模型在內，四代至強在處理通用AI負載時性能非常出色。

截至目前，Intel仍是唯一一家使用行業標準的深度學習生態系統軟件提交公開CPU結果的廠商。

根據最新結果，使用GPT-J對大約1000-1500字新聞稿進行100字總結的任務，四代至強在離線模式下每秒完成兩段，實時服務器模式下則可完成每秒一段。

此外，Intel首次提交了至強CPU Max處理器的MLPerf測試結果，其集成最多64GB HBM3高帶寬內存，對於GPT-J而言是唯一能夠達到99.9％準確度的CPU，非常適合精度要求極高的應用。

WONGCW 網誌