AI掀起“算力革命”:英偉達之後AMD也要放大招
與英偉達GH200超級芯片類似,AMD在2023下半年即將推出的MI300也將採用CPU+GPU架構,同樣發力於AI訓練市場。英偉達的高算力GPU一直是AI訓練的首選,但隨著GoogleTPU、AMD MI300及雲廠商自研芯片等的強勢湧入,AI訓練的市場格局變化苗頭漸生。
千呼萬喚始出來,DGX GH200超級計算系統助力新一代大AI模型,與英偉達GH200超級芯片類似,AMD在2023下半年即將推出的MI300也將採用CPU +GPU架構,同樣發力於AI訓練市場。
英偉達在2023 COMPUTEX大會上更新了多款AI算力產品。當中焦點落在DGX GH200 超級計算系統上。該系統是通過NVLink 互連技術及NVLink Switch System,串聯32台由8塊GH200 超級芯片(總計256 塊)合併而成的單一超級計算系統,存儲器容量高達144 TB,大規模的共享內存能解決AI大模型訓練的關鍵瓶頸,將為生成式AI語言應用、推薦系統和數據分析工作負載的大模型增添動力。英偉達宣布Google Cloud、Meta 與微軟將是其首批用戶。
核心觀點
先進的加速計算+網絡技術,為吞吐量和可擴展性迎來新突破
DGX GH200集成了英偉達最先進的加速計算和網絡技術,為提供最大的吞吐量和可擴展性而設計。NVIDIA NVLink-C2C將CPU與GPU相連組成GH200超級芯片,它們再通過NVLink Switch System組成高帶寬的多GPU系統,每個Grace Hopper 超級芯片還配有一個NVIDIA ConnectX-7 網絡適配器和一個NVIDIA BlueField-3 NIC。從具體參數上看DGX GH200性能優異,DGX GH200可提供高達1 exaFLOPS=1000 petaFLOPS的算力。在2023年底,結合Quantum-2 InfiniBand技術與4台DGX GH200的AI 超級計算機NVIDIA Helios(含1024=4*256個GH200超級芯片)將會推出,或標誌英偉達在AI和數據分析工作負載加速計算的又一突破。
英偉達GH200 vs AMD MI300,互聯和生態圈或是AMD破局的主要障礙
英偉達的Grace Hopper 與AMD的MI300 同為CPU+GPU架構。我們認為,該架構已成為AI芯片的趨勢,鑑於AI的最終目標是模仿人類大腦的操作,AI芯片也應仿生人腦結構,並順應多模態模型的發展。CPU更像左腦,負責對信息的邏輯處理,如串行運算、數字和算術、分析思維、理解、整理等,而GPU更像右腦,負責並行計算、創造性思維和想像等。在面對不同模態的推理時,CPU與GPU的分工也各有不同。例如,在處理語音、語言和文本時,計算有序,因此或更適合使用CPU;但在處理圖像、視頻等推理時,需要大規模並行運算,或更適宜GPU。此前,英特爾也曾準備發布同類產品Falcon Shores。
AI訓練多方入局苗頭初生,AI推理百花齊放難決勝負
英偉達的高算力GPU一直是AI訓練的首選,但隨著GoogleTPU、AMD MI300 及雲廠商自研芯片等的強勢湧入,AI 訓練的市場格局變化苗頭漸生。Google的TPU 是少數能與英偉GPU匹敵的芯片,但面臨著通用性的局限;AMD MI300 在製程、架構及算力等多方面雖向英偉達GPU看齊,但仍存在軟件生態和互聯的突圍障礙。在TCO、研發可控性及集成生態圈等因素下,微軟、Google及亞馬遜等頭部雲廠商推進自研芯片乃大勢所趨。在算力要求比訓練低的推理端,各類芯片百花齊放,主要根據不同AI 工作負載來選擇,或不會演變出像訓練端一家獨大的競爭局面。總體而言,AI訓練和推理的TAM雖在不斷變大,但英偉達在當中的增速能否跟上是支撐公司發展的關鍵。
從Spectrum-X網絡平台到超算系統,英偉達為AI計算全面加速
除了GH200芯片及DGX GH200超算系統的重磅發布,CEO黃仁勳在本次2023 COMPUTEX還宣布了多款新品全面加速AI計算:專門用於提高以太網AI 雲性能和效率的網絡平台Spectrum-X及用於創建加速服務器的模塊化參考架構NVIDIA MGX,為AI及HPC的客戶提供多元化選擇。
DGX GH200超級計算系統為新一代大AI模型而設
Grace Hopper超級芯片宣布全面投產。嚴格意義上來說,GH200並不是一款“全新”的芯片,因為早在2022年的GTC 大會,英偉達就已經公佈了由首款數據中心CPU Grace+新一代高性能計算GPU Hopper打造而成的Grace Hopper Superchip並透露其使用了NVLink-C2C 技術,具有高達900 GB/s 的一致性接口速率;在2023年的GTC大會上,英偉達CEO黃仁勳先生也曾手持這款超級芯片進行首次實物展示。距離Grace Hopper首次發布14個月後的COMPUTEX 2023上,GH200 Grace Hopper超級芯片被正式宣布已經全面投產,將為大規模HPC和AI應用帶來突破性的加速計算。
Grace Hopper超級芯片:NVLink-C2C技術賦能芯粒互聯。NVIDIA NVLink-C2C是一種超快速的芯片到芯片、裸片到裸片的互連技術,它從PCB 級集成、多芯片模塊(MCM)、矽中介層或晶圓級連接實現擴展,是Grace Hopper超級芯片異構集成的關鍵。通過NVLink-C2C技術,Grace CPU 與Hopper H100 GPU構成一個完整的系統,並實現內存相互訪問,從而無需沿循“CPU-內存-主板-顯存-GPU”基於主板PCIe的迂迴路線,減少了CPU計算損耗,並大幅提升功耗效率、延時和帶寬。值得注意的是,NVLink-C2C 技術不僅止於CPU+GPU,而是支持定制裸片與NVIDIA GPU、CPU、DPU、NIC 和SoC 等多種芯片之間的一致互連,將為數據中心帶來全新的系統級集成芯產品。
DGX GH200超級計算機:Grace Hopper超級芯片+NVIDIA NVLink Switch System,專為新一代大規模AI模型而設。DGX GH200超算是第一款將Grace Hopper超級芯片與NVIDIA NVLink Switch System配對使用的超級計算機,它通過NVLink 互連技術及NVLink Switch System串聯32 台由8 塊GH200 超級芯片組成的系統,將總計256 塊GH200 Superchip合併成單一超級計算機,提供了1 exaFLOPS=1000 petaFLOPS 算力與144 TB 的內存。這種大規模共享內存解決了大規模AI的關鍵瓶頸,將為生成式AI語言應用、推薦系統和數據分析工作負載的巨型模型增添動力。Google Cloud、Meta 與微軟將是DGX GH200的首批用戶。
先進的加速計算+網絡技術,為吞吐量和可擴展性迎來新突破。DGX GH200集成了英偉達最先進的加速計算和網絡技術,為提供最大的吞吐量和可擴展性而設計。NVIDIA NVLink-C2C將CPU與GPU相連組成GH200超級芯片,它們再通過NVLink Switch System組成高帶寬的多GPU系統,每個Grace Hopper 超級芯片還配有一個NVIDIA ConnectX-7 網絡適配器和一個NVIDIA BlueField-3 NIC。從具體參數上看DGX GH200性能優異,DGX GH200可提供高達1 exaFLOPS的算力,標誌著GPU 在AI和數據分析工作負載加速計算的又一突破。
英偉達GH200 vs AMD MI300
與英偉達GH200超級芯片類似,AMD在2023下半年即將推出的MI300也將採用CPU +GPU架構,同樣發力於AI訓練市場。AMD於CES 2023介紹了新一代Instinct MI300加速器,結合CPU與GPU,重點發力數據中心的HPC及AI領域,對標英偉達Grace Hopper(Grace CPU + Hopper H100 GPU),一改過去AMD的GPU產品主要應用在圖像處理及AI推理領域的局限。公司早前在22Q4財報電話會裡提及,MI300已開始送樣給重要客戶,而正式推出將會在下半年,2024年將看到明顯貢獻。我們認為,MI300雖然目前可能在網絡互聯技術和生態圈較為受限,但在突出的性能和高性價比下或將成為AMD在AI競爭的關鍵拐點?
我們將從芯片架構和製程、算力、內存帶寬、價格和軟件生態對AMD MI300和英偉達GH200兩者競爭優勢展開對比:
1)芯片架構:CPU+GPU仿生人腦結構,製程看齊英偉達。MI300是AMD首款結合了Zen 4 CPU與CNDA 3 GPU的產品,也是市場上首款“CPU+GPU+內存”一體化產品。MI300採用3D堆疊技術和Chiplet設計,配備了9個基於5nm製程的芯片組(據PCgamers推測,包括3個CPU和6個GPU),置於4個基於6nm製程的芯片組之上。因此在製程上,MI300屬台積電5nm,相較MI200系列的6nm實現了躍遷,並與英偉達Grace Hopper的4nm製程(屬台積電5nm體系)看齊。MI300晶體管數量達到1460億,多於英偉達H100的800億,以及前代MI250X的582億晶體管數量。CDNA 3架構是MI300的核心DNA,MI300配備了24個Zen 4數據中心CPU核心和128 GB HBM3內存,並以8192位寬總線配置運行。
2)算力:MI300的性能逼近英偉達Grace Hopper。AMD上代MI250X(發佈於2021年11月)FP32算力達47.9 TFLOPS,雖已超越英偉達A100的19.5TFLOPS(發佈於2020年6月),但其發佈時間在英偉達之後。AMD暫時未公佈MI300與英偉達Grace Hopper在算力上的對比,但相較上一代的MI250X,MI300在AI上的算力(TFLOPS)預計能提升8倍,能耗性能(TFLOPS/watt)將優化5倍。因此,此次MI300的性能提升後有望逼近Grace Hopper水平。另外,Grace Hopper支持8位浮點精度,而MI250X僅支持16位及以上,但MI300或將在AI訓練中支持4位和8位浮點精度,可進一步節省算力。
3)內存帶寬:MI300通過“統一內存架構”(UnifiedMemory)便利GPU-CPU間數據傳輸,效果類比英偉達NVLinkC2C技術。MI300的3D Chiplet架構使其內部CPU和GPU可共享同一內存空間,針對相同數據同時展開計算,實現“zero-copy”(即CPU執行計算時無需先將數據從某處內存複製到另一個特定內存區域),便利單節點內GPU-CPU之間的數據傳輸,減少內存帶寬的佔用。而英偉達Grace Hopper則通過NVLink-C2C實現GPU-CPU高速互聯,雙方作為內存共享對等體可以直接訪問對方的對應內存空間,支持900GB/s的互聯速度。儘管AMD暫未公佈MI300的傳輸帶寬,但其創新的統一內存架構實現了GPU-CPU在物理意義上真正的內存統一。AMD雖未公佈MI300 HBM的更多信息,但最新代HBM3內存帶寬約為819GB/s,與英偉達NVLink C2C 900GB/s帶寬相差不大。因此MI300內GPU-CPU的統一架構可繞過傳統連接協議速度的障礙,突破GPU-CPU之間的數據傳輸速度限制,滿足未來AI訓練和推理中由模型大小和參數提升帶來的海量數據計算和傳輸需要。但值得一提的是,英偉達還可以通過NVLink Switch、Quantum-2 InfiniBand等技術實現更多層次的互聯,實現帶寬內存幾個數量級的提升,有效解決GPU大規模並行運算中“單節點本地內存不足”的痛點,MI300的相關技術信息尚未發布。
4)價格:高性價比策略或為AMD在與英偉達的競爭中再添一碼。儘管AMD尚未公佈MI300定價,管理層在FY23Q1財報電話會中表示數據中心產品將延續往日的高性價比定價風格,重點關注先把市場打開。成本效益乃云廠商的重中之重,加上單一依賴一個廠商也並非他們所願。公司預計MI300將於今年底前推出,並將搭載於勞倫斯利弗莫爾國家實驗室的百億級超級計算機EI Capitan及其他大型雲端客戶AI模型中。公司預計MI300營收將在23Q4開始放量,24年持續爬升。
5)軟件生態:對比英偉達的CUDA(Compute Unified Device Architecture)生態圈,AMD的ROCm(Radeon Open Compute Ecosystem)或是其打破英偉達獨大局勢的一大障礙。英偉達於2007年發布CUDA生態系統,開發人員可以通過CUDA部署GPU進行通用計算(GPGPU)。通過先發優勢和長期耕耘,CUDA生態圈已較為成熟,為英偉達GPU開發、優化和部署多種行業應用提供了獨特的護城河。AMD的ROCm發展目標是去建立可替代CUDA的生態。而ROCm於2016年4月發布,相比2007年發布的CUDA起步較晚。全球CUDA開發者2020年達200萬,2023年已達400萬,包括Adobe等大型企業客戶,而ROCm的客戶主要為研究機構,多應用於HPC。對任何一種計算平台和編程模型來說,軟件開發人員、學術機構和其他開發者與其學習、磨合和建立生態圈都需要時間,更多的開發者意味著不斷迭代的工具和更廣泛的多行業應用,進一步為選擇CUDA提供了更為充分的理由,正向循環、不斷完善的生態也將進一步提高其用戶粘性。
針對這樣的現狀,AMD在豐富其軟件生態也持續有積極動作。雖然目前僅有部分SKU支持Windows系統,但主流Radeon顯卡用戶可以開始試用過去僅專業顯卡才能使用的AMD ROCm (5.6.0 Alpha)。23Q1公司宣布其ROCm系統融入PyTorch 2.0框架,目前TensorFlow和Caffe深度學習框架也已加入第五代ROCm。ROCm也能對應到CUDA的部分內容,例如ROCm的HIP對應CUDA API,只需要替換源碼中的CUDA為HPI就可以完全移植。
人腦神經網絡的運作模式始終是人工智能追求的終極形態,CPU+GPU類比人類左右腦協同工作,或將成為AI芯片的主流技術方向。早在2011年,AMD產品構想中就以CPU和GPU分別類比人類左右腦,並基於此提出了CPU+GPU的異構產品策略。類比人腦,AMD認為左腦更像CPU,負責對信息的邏輯處理,如串行運算、數字和算術、分析思維、理解、分類、整理等,而右腦更像GPU,負責並行計算、多模態、創造性思維和想像等。GPU的算力高,並針對並行計算,但須由CPU進行控制調用,發布指令。在AI訓練端,CPU可負責控制及發出指令,指示GPU處理數據和完成複雜的浮點運算(如矩陣運算)。
從Spectrum-X網絡平台到超算系統,英偉達全面加速AI計算
除了GH200超級芯片及DGX GH200超算系統的重磅發布,黃仁勳在本次2023 COMPUTEX大會還宣布了多款新品全面加速AI計算:
NVIDIA Spectrum-X是全球首個面向AI的以太網網絡平台。Spectrum-X基於網絡創新,將英偉達Spectrum-4以太網交換機與英偉達BlueField-3 DPU緊密耦合,實現了相比傳統以太網結構1.7倍的整體AI性能和能效提升,並通過性能隔離增強了多租戶功能,在多租戶環境中保持一致、可預測的性能。Spectrum-X具有高度通用性,可為人工智能、機器學習和自然語言處理等多元應用提升雲端效能。它使用完全基於標準的以太網,並可與基於以太網的堆棧互操作。目前,全球領先的雲計算提供商正在採用Spectrum-X平台擴展生成式AI服務。Spectrum-X、Spectrum-4交換機、BlueField-3 DPU等現已在戴爾、聯想、超微等系統製造商處提供。
NVIDIA MGX是提供加速服務器的模塊化架構,滿足全球數據中心多樣化的加速運算需求。NVIDIA MGX是介於DGX和HGX之間的模塊化靈活組合,它為系統製造商提供了一個模塊化參考架構,以快速、經濟高效地製造100 多種服務器機型,適用於廣泛的AI、高性能計算和元宇宙應用。英偉達表示,ASRock Rack、ASUS、GIGABYTE、Pegatron、QCT 和Supermicro 將採用MGX,它可將開發成本削減四分之三,並將開發時間縮短三分之二至僅6 個月。
AI超級計算機NVIDIA Helios:DGX GH200+Quantum-2 InfiniBand,將於2023年底推出。NVIDIA還將進一步升級網絡技術,推出通過NVIDIA Quantum-2 InfiniBand串連4台DGX GH200系統而成的超級計算機,並將其命名為Helios。該超級計算機內含1024(4*256)個GH200超級芯片,內存進一步升級為576TB HBM內存,用於提高訓練大型AI模型的數據吞吐量,預計將在今年底上線。
本文作者:何翩翩S0570523020002 | ASI353,來源:華泰證券研究所(ID:huataiyjs),原文標題:《華泰| 海外科技:英偉達GH200 vs AMD MI300》