Intel為中國帶來Gaudi2 AI加速器唯一替代NVIDIA GPU
Intel在中國舉辦了Intel AI產品戰略暨Gaudi2新品發布會,正式面向中國市場推出第二代深度學習加速器——Habana Gaudi2。Intel Gaudi2加速器不但擁有極高的深度學習性能、效率,最大優勢就是極高的性價比,對於中國用戶來說堪稱大規模部署AI的上佳之選。
Intel執行副總裁兼數據中心與人工智能事業部總經理Sandra Rivera在發布會上表示:“Intel致力於通過為客戶提供廣泛的硬件選擇,並支持開放的軟件環境,加速AI技術的發展。憑藉包括至強可擴展處理器、Gaudi2深度學習加速器在內的產品組合,Intel正在降低AI的准入門檻,並強化客戶在雲端通過網絡和智能邊緣部署這一關鍵業務技術的能力,從而幫助構建中國AI的未來。”
Habana Labs成立於2016年,致力於研發世界一流的AI加速器,滿足人工智能、深度學習計算快速發展的需求,創業初期就得到了Intel的投資,2019年12月被Intel正式收購。
Habana的第二代加速器Gaudi2採用台積電7nm工藝製造,集成24個可編程的Tenor張量核心(TPC)、48MB SRAM緩存、21個10萬兆內部互連以太網接口(ROCEv2 RDMA)、96GB HBM2E高帶寬內存(總帶寬2.4TB/s)、多媒體引擎等,支持PCIe 4.0 x16,最高功耗800W。
基於Gaudi2加速器芯片,Intel還設計了夾層卡HL-225B,採用標準的OAM封裝接口,方便客戶部署與使用。
憑藉高性能和高效擴展性,Gaudi2加速器可以滿足大規模語言模型、生成式AI模型的強算力需求。
↑↑↑Gaudi2加速器正面實拍
↑↑↑Gaudi2加速器背面實拍(這個角度不多見吧)
Gaudi系列加速器優異的深度學習訓練吞吐量、推理速度性能,已經得到了業界領先機構、客戶的普遍認可。
比如,正是在第一代Gaudi加速器的加持下,亞馬遜EC2 DL1實例相比於在AWS雲上運行NVIDIA GPU的同類實例,性價比高出多達40%。
↑↑↑Gaudi2加速器現場演示多語言算法編程
機器學習與人工智能開放產業聯盟MLCommons在六月底公佈的AI性能基準測試MLPerf Training 3.0的最新結果,更是進一步凸顯了Gaudi2加速器的高性能、高性價比,聯合Intel第四代至強可擴展處理器,已經成為唯一能夠可靠取代NVIDIA GPU的方案。
截止2023年6月,Gaudi2是除了NVIDIA H100 GPU以外,向GPT-3大模型訓練基準提交性能結果的解決方案。
測試結果顯示,面對要求極為苛刻的、1750億參數的GPT-3模型,384個Gaudi2加速器上的訓練時間僅為311.9分鐘,而且從256個加速器到384個加速器,性能擴展幅度達95%,非常接近理想的線性提升。
Stable Diffusion訓練上,Gaudi2加速器從1張卡到64張卡,擴展性更是達到了驚人的99%。
此外,在計算機視覺模型ResNet-50(8個加速器)和Unet3D(8個加速器),以及自然語言處理模型BERT(8個和64個加速器)上,Gaudi2都取得了優異的訓練結果。
與去年11月提交的數據相比,BERT和ResNet模型的性能分別提高了10%、4%。
值得一提的是,本次MLPerf 3.0的Gaudi2結果以BF16數據類型提交,在四種不同模型上的性能均優於NVIDIA A100,價格更便宜。
第三季度還會發布對FP8數據類型的軟件支持與新功能,預計屆時Gaudi2的性能將有明顯飛躍,預計性價比將超越NVIDIA H100。
Gaudi2加速器還得到了AI與機器學習開源軟件供應商Hugging Face的採納。
其測試結果顯示,從預訓練BERT (NLP模型)到穩定擴散(流行的多模態模型)推理,再到1760億參數的大型開源聊天模BLOOMZ的推理,Gaudi2的表現都領先於NVIDIA A100 GPU。
工欲善其事,必先利其器。為了充分發揮Gaudi2加速器的性能潛力,滿足日益增長的生成式AI、大語言模型需求,Intel一直在同步打造高效、成熟的軟件支持。
比如說SynapseAI軟件套件,針對Gaudi平台深度學習業務進行了優化,可以大大簡化模型的開發與遷移,能夠將當前基於GPU的模型業務和系統,快速遷移到基於全新Gaudi2的服務器
SynapseAI集成了對TensorFlow、PyTorch框架的支持,並提供眾多流行的計算機視覺和自然語言參考模型,能夠滿足深度學習開發者的多樣化需求
生態合作方面,Intel Gaudi2加速器也正在遍地開花。
本次發布會上,美團、百度智能雲、浪潮信息均分享了其基於Intel軟硬件產品組合的多樣化智能業務進展。
比如百度智能雲,集成AMX加速引擎的Intel第四代至強可擴展處理器,為ERNIE-Tiny模型帶來了多倍的性能優化。
比如浪潮信息,正式發布了全新的AI服務器NF5698G7,6U高度,上層集成八顆Gaudi2加速器,互連總帶寬達4.2Tb/s,下層雙路56核心第四代至強可擴展MAX處理器,支持AMX、DSA等AI加速器。
整體為全互聯拓撲結構,支持業界主流AI框架、開發工具、大模型算法,可滿足大模型訓練張量並行數百GB/s的通信需求。
該服務器還有極高的擴展性,節點間互連帶寬最高達4800Gbps,支持RDMA網絡計算和存儲通信,並提供多達32條DDR5內存插槽、12條PCIe 5.0 x16擴展插槽。
此外,新華三、超聚變等也都是Intel Gaudi在中國的合作夥伴,生態規模正藝逐步擴大。
↑↑↑可安裝八顆Gaudi2加速器
↑↑↑雙路四代至強處理器