唯一可靠替代NVIDIA Intel至強CPU、Gaudi2加速器AI組合做到了
機器學習與人工智能開放產業聯盟MLCommons公佈了AI性能基準測試MLPerf Training 3.0的結果,Intel旗下的Habana Gaudi2深度學習加速器、第四代至強可擴展處理器聯合,展現出了優秀的性能。可以說,Intel這套組合已經成為唯一能夠可靠取代NVIDIA GPU的方案。
MLPerf是目前最具信服力的AI性能測試基準,能夠在各種解決方案之間進行公平、可重複的性能比較。
目前,Intel已經擁有超過100次的MLPerf性能測試結果,而且是唯一一個使用行業標準的深度學習生態系統軟件,並公開提交CPU結果的廠商。
根據業內當前的普遍觀點,生成式AI和大語言模型(LLM)只適合在高性能GPU上運行,但最新數據顯示,基於Intel CPU、加速器的組合方案,同樣有著極高的效率,而且是開放生態環境,效率與規模不受限制,從而為客戶提供極具競爭力的選擇。
其中,第四代可擴展至強內置的各種加速器,使其成為在通用CPU處理器上運行大量AI工作負載的理想解決方案,Gaudi則在生成式AI、LLM方面有著優秀的性能,此外Intel還提供了經過優化的、易於編程的開放軟件,降低AI部署門檻。
Habana Gaudi2夾層卡
最新的MLPerf 3.0測試結果顯示,面對要求極為苛刻的、1750億參數的GPT-3模型,Habana Gaudi2的性能非常出色,可擴展性也非常靈活:
1、384個加速器上的訓練時間僅為311.9分鐘——512個NVIDIA H100加速器需要64.3分鐘。
2、256個加速器到384個加速器,性能擴展95%,接近線性提升。
3、在計算機視覺模型ResNet-50(8個加速器)和Unet3D(8個加速器),以及自然語言處理模型BERT(8個和64個加速器)上,都取得了優異的訓練結果。
4、與去年11月提交的數據相比,BERT和ResNet模型的性能分別提高了10%、4%。
5、支持“開箱即用”,客戶在本地或在雲端使用Gaudi2時,可以獲得與本次測試相當的性能結果。
值得一提的是,Gaudi2是僅有的兩個向GPT-3大模型訓練基準提交性能結果的解決方案之一。
軟件層面,本次提交的GPT-3模型基於PyTorch,並採用了當前流行的、隸屬微軟大規模AI的DeepSpeed優化庫,而非定制軟件。
DeepSpeed能夠同時支持Data、Tensor、Pipeline的三維並行,進一步優化了大語言模型的擴展性能效率。
本次MLPerf 3.0的Gaudi2結果以BF16數據類型提交,在四種不同模型上的性能均優於NVIDIA A100,價格更便宜。
第三季度還會發布對FP8數據類型的軟件支持與新功能,預計屆時Gaudi2的性能將有明顯飛躍,預計性價比將超越NVIDIA H100。
Intel可擴展至強則是向MLPerf 3.0提交的眾多解決方案中,唯一基於CPU通用處理器的,也支持“開箱即用”,即在通用系統上部署AI。
MLPerf 3.0四代可擴展至強測試的亮點有:
1、在封閉區,47.93分鐘的訓練時間即可完成BERT模型,88.17分鐘即可完成ResNet-50模型。
2、多節點擴展可以實現幾乎線性的性能提升,可達97-100%。
3、BERT模型的開放區擴展至16個節點時,31.06分鐘即可完成模型訓練。
4、對於較大的RetinaNet模型,16個節點上的訓練時間僅為232分鐘。
5、基於Intel AMX高級矩陣擴展,可提供顯著的“開箱即用”性能提升,覆蓋多個框架、端到端數據科學工具,以及廣泛的智能解決方案生態系統。
Intel還對比了至強鉑金8480+、NVIDIA A100使用不同數據集完成HuggingFace Distilbert模型的結果,分別只需3.61分鐘、0.7分鐘。
雖然相比對手的1.49分鐘、0.45分鐘還有差距,但速度已經相當快,尤其是作為通用CPU對比專用GPU達到如此程度,實屬不易,這都得益於Intel良好、深入的系統優化。