AMD發表Instinct MI325X:八卡2TB HBM3E、FP8效能超每秒2億億次
在Advancing AI 2024大會上,AMD正式發表了新款GPU加速卡「Instinct MI325X」。它在大獲成功的MI300X基礎上再進一步,主要是增強了HBM記憶體部分。
【硬體規格、性能篇】
MI325X配備了多達256GB HBM3E內存,相比於MI300X又增加了64GB,還是八顆,但單顆容量從24GB增至32GB。
同時,頻寬從5.3TB/s來到了6TB/s,同樣增加了大約13%,Infinity Fabric匯流排的頻寬則還是896GB/s。
性能方面倒是沒啥變化,還是FP16 1.3 PFlops(每秒1300萬億次)、FP8 2.6 PFlops。
很自然的,核心規格也是原封不動:5nm XCD模組搭配6nm IOD模組,3.5D封裝,1530億個電晶體,304個計算單元。
不過,AMD透露MI325X的功耗達到了1000W,相比MI320X增加了750W。
MI325X也支援八塊並行組成一個平台,這就有多達2TB HBM3E、48TB/s頻寬,總的效能高達FP16 10.4 PFlops(每秒1.04億億次)、FP8 20.8 PFlops(每秒2.08億億次)億億次)、FP8 20.8 PFlops(每秒2.08億億次)億億次)、FP8 20.8 PFlops(每秒2.08億億次)億億次)、FP8 20.8 PFlops(每秒2.08億億次)億億次)、FP8 20.8 PFlops(每秒2.08億億次)億億。
這個規模對比NVIDIA H200 HGX,分別有80%、30%、30%的優勢。
對比NVIDIA H200,無論單卡或八卡平台,不同大模型推理的表現都可以領先20-40%。
訓練表現方面,單卡可領先H200 10%,八卡平台則持平。
MI325X加速卡和平台將在第四季度內投產,而合作夥伴的整機系統、基礎架構解決方案,將從明年第一季起連續推出。
【生態夥伴、軟體篇】
GPU加速器這樣的產品要成功,不但要有強大的硬體規格與效能,甚至更重要的還有兩點,一是生態合作,二是軟體支援。
生態方面,AMD Instinct系列的「朋友圈」不斷壯大,領先的OEM整機廠商、雲端服務廠商、AI方案廠商都選擇了AMD,那些我們熟悉的產業巨頭名字都在這份越來越長的名單中。
尤其是微軟、OpenAI、Meta,都在部署越來越多的Instinct平台。
軟體方面,AMD ROCm開發平台是一套完整的AI軟體堆疊,硬體之上,運行時、編譯器、開發工具、函式庫、AI框架、AI模型與演算法一應俱全。
AMD ROCm的演化速度也在加快,新特性新功能不斷加入進來,不但已經支持全部重要的AI框架與模型,還在不斷優化對生成式AI的支持,包括新的演算法、新的函式庫等等,對開發者也越來越友善。
ROCm開發平台的效能也不斷優化提升,最新的6.2版本比較6.0版本,不同大模型的訓練效能提升了1.7-1.9倍,平均約1.8倍;推理效能更是提升了1.9-2.8倍,平均約2.4倍。
這些都是無需升級硬件,完全靠軟體優化得來的,可以說是「白撿」。
同時,AMD與開發者社群一直保持著良好、深度的合作,也是最大的貢獻者之一,尤其是在PyTorch機器學習庫、Triton程式語言和編譯器上提供了及時、全面的支援。
AMD一直堅持開放開源的原則,不僅自己的許多技術對外公開,還全力支持開源社區,不斷壯大開源的力量。
以MI300X為例,上機無需任何調試適配,就能支援超過100萬個生成式AI模型,尤其是第一時間支援Llama 3.1/3.2等領先大模型的最新版本。
好的支援當然不只是能用,更是好用,例如Llama 3 405B大機型上,MIX300X的延遲相比NVIDIA H100有著1.2倍的領先。
順帶一提,AMD近期還以6.65億美元的價格,完成了對歐洲最大的私人AI實驗室Silo AI的收購,獲得了全面的端到端AI解決方案、約300名AI專家,勢必會大大增強AMD在歐洲的AI業務實力,分析師認為有望超越NVIDIA。
附MI325X官方精美圖賞——