碾壓H100!英偉達GH200超級芯片首秀性能躍升17%
傳說中的英偉達GH200在MLPerf 3.1中驚艷亮相,性能直接碾壓H100,領先了17%。繼4月份加入LLM訓練測試後,MLPerf再次迎來重磅更新!剛剛,MLCommons發布了MLPerf v3.1版本更新,並加入了兩個全新基準:LLM推理測試MLPerf Inference v3.1,以及存儲性能測試MLPerf Storage v0.5。
而這,這也是英偉達GH200測試成績的首次亮相!
相比於單張H100配合英特爾CPU,GH200的Grace CPU+H100 GPU的組合,在各個項目上都有15%左右的提升。
英偉達GH200超級芯片首秀
毫無疑問,英偉達的GPU在MLPerf Inference 3.1基準測試中表現是最亮眼的。
其中,最新發布的GH200 Grace Hopper超級芯片,也是首次在MLPerf Inference 3.1上亮相。
Grace Hopper超級芯片將英偉達的Grace CPU與H100 GPU集成在一起,通過超高的帶寬連接,從而比單個H100配合其他的CPU能提供更強的性能表現。
“Grace Hopper首次展示了非常強勁的性能,與我們的H100 GPU提交相比,性能提高了17%,我們已經全面領先,”英偉達人工智能總監Dave Salvator在新聞發布會上表示。
性能大幅增長
具體來說,它將一個H100 GPU和Grace CPU集成在一起,通過900GB/s的NVLink-C2C連接。
而CPU和GPU分別配備了480GB的LPDDR5X內存和96GB的HBM3或者144GB的HBM3e的內存,集成了高達576GB以上的高速訪問內存。
英偉達GH200 Grace Hopper超級芯片專為計算密集型工作負載而設計,能夠滿足各種嚴苛的要求和各項功能。
比如訓練和運行數万億參數的大型Transformer模型,或者是運行具有數TB大小的嵌入表的推薦系統和向量數據庫。
GH200 Grace Hopper超級芯片還在MLPerf Inference測試中有著非常優異的表現,刷新了英偉達單個H100 SXM在每個項目中創下的最佳成績。
NVIDIA Grace Hopper MLPerf Inference數據中心性能與DGX H100 SXM的對比結果,每個數值都是GH200的性能領先幅度
GH200 Grace Hopper超級芯片集成了96 GB的HBM3,並提供高達4 TB/s的HBM3內存帶寬,而H100 SXM分別為80 GB和3.35 TB/s。
與H100 SXM相比,更大的內存容量和更大的內存帶寬使得在NVIDIA GH200 Grace Hopper超級芯片上使用更大的批處理大小來處理工作負載。
例如,在服務器場景中,RetinaNet和DLRMv2的批處理大小都增加了一倍,在離線場景中,批處理大小增加了50%。
GH200 Grace Hopper超級芯片在Hopper GPU和Grace CPU之間的高帶寬NVLink-C2C連接可以實現CPU和GPU之間的快速通信,從而有助於提高性能。
例如,在MLPerf DLRMv2中,在H100 SXM上通過PCIe傳輸一批張量(Tensor)大約需要22%的批處理推理時間。
使用了NVLink-C2C的GH200 Grace Hopper超級芯片僅使用3%的推理時間就完成了相同的傳輸。
由於具有更高的內存帶寬和更大的內存容量,與MLPerf Inference v3.1的H100 GPU相比,Grace Hopper超級芯片的單芯片性能優勢高達17%。
推理和訓練全面領先
在MLPerf的首秀中,GH200 Grace Hopper Superchip在封閉類別(Closed Division)的所有工作負載和場景上都表現出卓越的性能。
而在主流的服務器應用中,L4 GPU能夠提供一個低功耗,緊湊型的算力解決方案,與CPU解決方案相比的性能也有了大幅的提升。
Salvator表示,“與測試中最好的x86 CPU相比,L4的性能也非常強勁,提高了6倍”。
對於其他的AI應用和機器人應用,Jetson AGX Orin和Jetson Orin NX模塊實現了出色的性能。
未來的軟件優化有助於進一步釋放強大的英偉達Orin SoC在這些模塊中的潛力。
在目前非常流行的目標檢測AI網絡——RetinaNet上,英偉達的產品的性能提高了高達84%。
英偉達開放部分(Open Division)的結果,展示了通過模型優化可以在保持極高精度的同時大幅提高推理性能的潛力。
全新MLPerf 3.1基準測試
當然,這並不是MLCommons第一次嘗試對大語言模型的性能進行基準測試。
早在今年6月,MLPerf v3.0就首次加入了LLM訓練的基準測試。不過,LLM的訓練和推理任務,區別很大。
推理工作負載對計算要求高,而且種類繁多,這就要求平台能夠快速處理各種類型的數據預測,並能在各種AI模型上進行推理。
對於希望部署AI系統的企業來說,需要一種方法來客觀評估基礎設施在各種工作負載、環境和部署場景中的性能。
所以對於訓練和推理的基準測試都是很重要的。
MLPerf Inference v3.1包括了兩項重要更新,來更好地反映現在AI實際的使用情況:
首先,增加了基於GPT-J的大型語言模型(LLM)推理的測試。GPT-J是一個開源的6B參數LLM,對CNN/每日郵報數據集進行文本總結。
除了GPT-J之外,這次還更新了DLRM測試。
針對MLPerf Training v3.0中引入的DLRM,採用了新的模型架構和更大的數據集,更好地反映了推薦系統的規模和復雜性。
MLCommons創始人兼執行董事David Kanter表示,訓練基準側重於更大規模的基礎模型,而推理基準執行的實際任務,則代表了更廣泛的用例,大部分組織都可以進行部署。
在這方面,為了能夠對各種推理平台和用例進行有代表性的測試,MLPerf定義了四種不同的場景。
每個基準都由數據集和質量目標定義。
每個基準都需要以下場景:
在MLPerf v3.1基準測試中,有超過13,500個結果,其中不少提交者的性能比3.0基準提高了20%,甚至更多。
其他提交者包括華碩,Azure,cTuning,Connect Tech,戴爾,富士通,Giga Computing,Google,H3C,HPE,IEI,英特爾,Intel Habana Labs,Krai,聯想,墨芯,Neural Magic,Nutanix,甲骨文,高通, Quanta Cloud Technology,SiMA,Supermicro,TTA和xFusion等。