AMD MI300加速器深度揭秘:八路並行破億億次全面超越NVIDIA
今年6月份,AMD在美國舊金山宣布了新一代AI/HPC加速器Instinct MI300系列,包括全球首款APU加速器MI300A、新一代GPU加速器MI300X。當時,AMD隻公佈了一部分技術細節,對於CPU/GPU核心數量、效能/功耗/能源效率等指標均未提及,也缺乏足夠多的應用案例。現在,魔術師終於揭曉了他全部的秘密。
北京時間12月7日凌晨,美國加州聖荷西,AMD Advancing AI大會上,AMD正式公佈了Instinct MI300系列加速器的詳細規格與性能,以及眾多的應用部署案例,將AI人工智慧、HPC高效能運算提升到了新的層次。
AI人工智慧概念的誕生已經有將近70年歷史了,歷經長期演化,已經深入人們工作生活的各個角落,只是很多時候感知性並沒有那麼強,更多時候人們是透過一些節點性時間感受AI的威力。
早期像是IBM深藍超級電腦戰勝西洋棋大師卡斯帕羅夫,近期像是AlphaGo與李世石和柯潔的圍棋大戰,最近最火爆的當然是ChatGPT引發的大語言模型、生成式AI浪潮。
坦白說,大語言模型眼下似乎有些過熱,但從技術和前景的角度而言,AI絕對是未來,不管它以什麼形勢體現,這都是大勢所趨,也是一個龐大的市場,尤其是對算力的需求空前高漲。
一年前,AMD內部估計全球資料中心AI加速器市場在2023年的規模可達約300億美元,今後每年的複合成長率都能超過50%,到2027年將形成超過1,500億美元的價值,不可限量。
如今看來,這個數據太保守了,AMD已經將2023年、2027年的資料中心AI加速器市場規模預期分別調高到400億美元、4,500億美元,年複合成長率超過70%。
AMD作為擁有最全解決方案的廠商,可以從各個角度滿足AI尤其是生成式AI對於超強算力、廣泛應用的需求:
GPU方面有世界領先的EPYC處理器,GPU方面有不斷壯大的Instinct加速器,網路方面則有Alveo、Pensando等技術,軟體方面還有ROCm開發平台,從而形成一個有機的、完整的解決方案。
AMD早期的運算加速器底層技術都來自和遊戲顯示卡相同的RDNA架構,顯然缺乏針對性,於是誕生了專門針對運算的CDNA架構。
第一代產品Instinct MI100系列是AMD首個可為FP32/FP64 HPC負載提供加速的專用GPU,第二代產品Instinct MI200系列則快速進化,在眾多超算系統中佔據了一些之地。
第三代的Instinct MI300系列基於CDNA3架構,分為資料中心APU、專用GPU兩條路線,重點提升了統一記憶體、AI效能、節點網路等的表現,再加上先進封裝、更高能效,以滿足生成式AI的強勁需求。
Instinct MI300X:1920億電晶體怪獸完勝NVIDIA H100
Instinct MI300X屬於傳統的GPU加速器方案,純粹的GPU設計,以最新一代CDNA3運算架構為基礎。
它整合了八個XCD加速計算模組(Accelerator Compute Die),每個XCD擁有38個CU計算單元,總計304個單元。
每兩個XCD為一組,在它們底部放置一個IOD模組,負責輸入輸出與通訊連接,總共四個IOD提供了多達七條滿血的第四代Infinity Fabric連接通道,總頻寬最高896GB/s,還有多達256MB Infinity Cache無限快取。
XCD、IOD外圍則是八顆HBM3高頻寬內存,總容量多達192GB,可提供約5.3TB/s的超高頻寬。
AI/HPC時代,HBM無疑是提供高速支撐的最佳記憶體方案,AMD也是最早推動HBM應用和普及的。
以上所有模組,都透過2.5D矽中介層、3D混合鍵結等技術,整合封裝在一起,AMD稱之為3.5D封裝技術。
總計電晶體數量多達1530億個,其中XCD計算核心部分是5nm工藝,負責中介、互連的部分則是6nm工藝。
順帶一提,結構示意圖中位於HBM內存間的小號矽片,共八顆,並無實際運算與傳輸作用,而是用於機械支撐、確保整體結構穩定。
MI300X的各項性能指標都可以勝出NVIDIA H100(H200已宣布但要到明年二季度才會上市所以暫時無法對比),還有獨特的優勢。
HPC方面,MI300X FP64雙精度浮點矩陣、向量性能分別高達163.4TFlops(每秒163.4兆次計算)、81.7TFlops,FP32單精度浮點性能則都是163.4TFlops,分別是H100的2.4倍、無限倍、2.4倍、2.4倍-H100並不支援FP32矩陣運算。
AI方面,MI300X TF32浮點效能為653.7TFlops,FP16半精度浮點、BF16浮點效能可達1307.4TFlops,FP8浮點、INT8整數效能可達2614.9TFlops,它們全都是H100的1.3倍。
TF32即Tensor Float 32,一種新的浮點精度標準,一方面保持與FP16同樣的精度,尾數位都是10位,另一方面保持與FP32同樣的動態範圍(指數位都是8位)。
BF16即Bloat Float 16,專為深度學習而最佳化的浮點格式。
另外,同樣適用HBM3高頻寬內存,MI300X無論容量還是頻寬都完勝H100,而整體功耗控制在750W,相比H100 700W高了一點點。
更進一步,AMD也打造了MI300X平台,由八片MI300X並聯組成,相容於任何OCP開放運算標準平台。
這樣一來,在單一伺服器空間內,就總共擁有2432個運算單元、1.5TB HBM3記憶體、42.4TB/s記憶體頻寬。
效能更是直接飛升,BF16/FP16浮點效能甚至突破了10PFlops,也就是超過1億億次運算每秒,堪比中型規模的超級電腦。
對比同樣八顆H100組成的運算平台H100 HXG,它在運算效能、HBM3容量上也有不少的優勢,而在頻寬、網路方面處於相當的水平。
尤其是每顆GPU可運作的大模型規模直接翻倍,可以大幅提升運算效率、降低部署成本。
實際應用效能表現方面,看看AMD官方提供的一些數據,比較對像都是H100。
通用大語言模型,無論是中等或大型內核,都可以領先10-20%。
推理性能,都是八路並聯的整套伺服器,1760億參數模型Bloom的算力可領先多達60%,700億參數模型Llama 2的延遲可領先40%。
訓練性能,同樣是八路伺服器,300億參數MPT模型的算力不相上下。
總的來說,無論是AI推理還是AI訓練,MI300X平台都有比H100平台更好的效能,很多情況下可以輕鬆翻倍。
產品強大也離不開合作夥伴的支持,MI300X已經贏得了多家OEM廠商和解決方案廠商的支持,包括大家耳熟能詳的慧與(HPE)、戴爾、聯想、超微、技嘉、鴻佰(鴻海旗下/富士康同門)、英業達、廣達、緯創、緯穎。
其中,戴爾的PowerEdge XE9680伺服器擁有八台MI300X,聯想的產品2024年上半年登場,超微的H13加速器採用第四代EPYC處理器、MI300X加速器的組合。
在基礎架構中引進MI300X的合作夥伴也相當不少,包括:Aligned、Arkon Engergy、Cirrascale、Crusoe、Denvr Dataworks、TensorWare,等等。
客戶方案方面,例如微軟的Azure ND MI300X v5系列虛擬機,例如甲骨文雲的bare metal(裸金屬) AI實例,例如Meta(Facebook)資料中心引入以及對於ROCm 6 Llama 2大模型優化的高度認可,等等。
Instinct MI300A:全球首個融合運算APU 衝擊二百億億次
如果說MI300X是傳統GPU加速器的進化,MI300A就是一場革命了,CPU、GPU真正融合的方案目前只有AMD可以做到。
相較之下,NVIDIA Grace Hopper雖然也是CPU、GPU合體,但彼此是獨立晶片,需要透過外部連接,放在一塊PCB板上,層級上還差了一個檔位。
Intel規劃的融合方案Falcon Shores因為各方面原因已經暫時取消,短期內還是純GPU,未來再衝擊融合。
MI300A是全球首款面向AI、HPC的APU加速器,同時將Zen3 CPU、CDNA3 GPU整合在了一顆晶片之內,統一使用HBM3內存,彼此全部使用Infinity Fabric高速總線互聯,從而大大簡化了整體結構和程式應用。
這種統一架構有著多方面的突出優勢:
一是統一內存,CPU、GPU彼此共享,無需重複拷貝傳輸數據,無需分開儲存、處理。
二是共享無限緩存,資料傳輸更加簡單、有效率。
第三是動態功耗均衡,不論算力上專注CPU或GPU,都可以即時調整,更有針對性,能源效率也更高。
四是簡化編程,可以將CPU、GPU納入統一編程體系,進行協同加速,無需單獨進行編程呼叫。
MI300A有六個XCD模組,總計228個計算單元,另外兩個在MI300X上屬於XCD的位置換成了三個CCD,總計24個CPU核心,後者和第四代EPYC 9004系列的CCD一模一樣,直接復用。
四個IOD、256MB無限快取、八顆HBM3記憶體、3.5D封裝則都是和MI300X完全一致,唯一差別就是HBM3記憶體從12H堆疊降至8H堆疊,單顆容量從24GB降至16GB,總容量為128GB,但這不影響頻寬是相同的5.3TB/s。
電晶體總量1460億個,其中XCD、CCD製程都是5nm,中介、互連部分還是6nm,對外為獨立的Socket封裝介面。
效能方面,MI300A FP64矩陣/向量、FP32向量表現都是HJ100的1.8倍(都不支援FP32矩陣),TF32、FP16、BF16、FP8、INT8則都是旗鼓相當。
其中,FP64矩陣、FP32/向量效能都是122.6TFlops,FP64向量效能則是61.3TFlops,都相當於MI300X的75%。
TF32效能493.0TFlops,FP16、BF16效能980.6TFlops,FP8、INT8效能1961.2TFlops,同樣也是MI300X的75%。
為什麼都是75%?因為XCD模組少了1/4,GPU核心自然就減少了1/4,換言這裡都是GPU效能,沒有包含CPU部分。
MI300A的整體耗電量在550-760W範圍內,具體看頻率的不同規格設定。
對比H100,MI300A只需550W功耗就能在OpenFOAM高效能運算測試中取得多達4倍的優勢,不同實際應用中可領先10-20%。
比較最新的GH200,MI300A 760W峰值功耗下的能源效率優勢,更可以達到2倍。
MI300A已經在美國勞倫斯利弗莫爾國家實驗室的新一代超級電腦El Capitan中安裝。
它的設計目標是成為全球第一套200億億次超算,這也是第二套基於AMD平台的百億億次級超算。
MI300A的OEM和方案夥伴陣容也不斷擴大,目前已有慧與、Eviden(隸屬法國Atos)、技嘉、超微。
其中,慧與EX255a是首個基於MI300A的超算加速器刀鋒伺服器,將於2024年初上市。
目前,AMD Instinct系列加速器已經在眾多企業、高校、科研機構得到應用,尤其是在超級電腦領域初露崢嶸, 11月份發布的最新一期超算500排行榜上拿下了前25名的5個席位,例如第一名的美國橡樹嶺國家實驗室Frontier、第五名的芬蘭LUMI,都應用了MI250X。
同時,Instinct加速器也佔據了綠色超算500排行榜上前10名中的7個席位,包括6個MI250X、1個MI210,其中Frontier TDS第二、LUMI第三,足可見其高能效。
這也是AMD 30×25目標的重要節點-AMD致力於在2020-2025年間將伺服器處理器、AI/HPC加速器的能源效率提升多達30倍。
軟體生態:ROCm 6全面進化軟硬結合提速8倍
好馬配好鞍,一如遊戲顯示卡必須有驅動程式配合才能釋放性能潛力,AI/HPC加速器的發揮也離不開開發平台和工具的全力輔佐。
AMD ROCm就是這樣的一套開放軟體平台,如今來到了全新一代ROCm 6。
它重點在於大語言模型額和生成式AI進行最佳化和提升,以及強化支持開放開源、拓展生態支援、加入更多AI庫等等。
例如在大語言模型最佳化方面,支援開源大模型推理加速框架vLLM,並優化推理庫,延遲效能提升可達2.6倍;
支援的高效能圖形分析與學習框架HIP Graph,優化運行時,延遲效能可提升1.4倍;
支援高效記憶體的注意力演算法Flash Attention,優化內核,延遲效能可提升1.3倍。
新一代硬體加新一代開發平台的威力是相當猛的,例如MI300X、ROCm 6的組合相比於MI250X、ROCm 5,運行270億參數Llama 2大模型推理,延遲效能可改善多達8倍!
當然,ROCm 6平台也會陸續支援舊平台硬件,進一步挖掘潛力。
而對標競品,例如130億參數的Llama 2大模型,MI300X的延遲效能相比H100可以領先20%。
生態支援方面,ROCm 6也在快速拓展,尤其是基於AMD一貫以來的開放開源路線,一方面積極為開源社群貢獻自己的開發庫,另一方面可以充分利用各種開放開源的AI模型、演算法和框架,包括Hugging Face、PyTorch、TensorFlow、Jax、OAI Triton、ONNX,等等。
其中,OpenAI會在即將發布的Triton 3.0版本中正式支援AMD GPU,未來和你對話的ChatGPT背後可能是AMD Instinct在驅動。
總的來看,AMD新一代Instinct MI300X/MI300A加速器在硬體上有著藝術級的精妙設計和世界領先的運算效能、能效,尤其是真正融合的APU走在了產業的最前列,開拓了全新的可能。
再加上EPYC CPU處理器、網路方案的配合,為生成式AI推理、訓練和應用提供了強大的算力平台基礎。
在軟體開發、生態合作上,AMD同樣積極與時俱進,開放擁抱社群、擁抱產業,簡化開發與應用流程,大大增強了自身競爭力,前途無量,值得期待。