爭奪AI核心算力市場國產GPU進化得怎麼樣了?
GPT-4的發布以及全面植入微軟Office全家桶,正在全球掀起新一輪人工智能(AI)風暴。作為目前應用最廣的AI芯片,GPU獲得廣泛關注。中國工程院院士、清華大學計算機系教授鄭緯民日前表示,ChatGPT需要三萬多片英偉達A100GPU,初始投入成本約8億美元。
華安證券研究所所長尹沿技認為,2012 年以來,AI訓練任務中的算力增長(所需算力每3.5月翻一倍)已經超越芯片產業長期存在的摩爾定律(晶體管數量每18月翻一倍)。
AI時代漸近,GPU需求的高速增長幾乎毋庸置疑,在美國禁售高速GPU的背景下,國內GPU企業當自強。如今GPU的國產化進程如何?國產廠商又將面臨哪些機遇和挑戰?
GPU:CPU的協處理器
GPU,Graphic Processing Unit,即圖形處理單元,是計算機顯卡的核心。
與CPU相比,GPU的邏輯運算單元較少,單個運算單元(ALU)處理能力更弱,但能夠實現多個ALU並行計算。同樣運行3000次的簡單運算,CPU由於串行計算,需要3000個時鐘週期,而配有3000個ALU的GPU運行只需要1個時鐘週期。
不過,GPU處理並行計算並不是作為一個獨立的計算平台,而是與CPU通過PCIe總線連接在一起來協同工作,可視為CPU的協處理器。
作為計算機的圖形處理以及並行計算內核,GPU最基本的功能是圖形顯示和分擔CPU的計算量,主要可以分為圖形圖像渲染計算GPU和運算協作處理器GPGPU(通用計算圖形處理器),後者去掉或減弱GPU的圖形顯示能力,將其餘部分全部投入通用計算,實現處理人工智能、專業計算等加速應用。
應用於人工智能場景的服務器通常搭載GPU、FPGA、ASIC等加速芯片,加速芯片和CPU結合能夠支撐高吞吐量的運算需求,為圖形視覺處理、語音交互等場景提供算力支持。GPU在架構設計上擅長進行大量數據運算,被廣泛應用於AI場景中。
此外,智能汽車領域,自動駕駛和智慧座艙需要大量使用GPU;遊戲作為GPU的傳統應用領域,需要GPU對遊戲畫面進行3D渲染。
根據Verified Market Research數據,2020年,全球GPU市場規模為254.1億美元(約合人民幣1717.2億元)。隨著需求的不斷增長,預計到2028年,這一數字將達到2465.1億美元(約合人民幣1.67萬億元),年復合增長率(CAGR)為32.82%。
英偉達CEO黃仁勳稱,英偉達的GPU在過去10年中將AI處理性能提高了不低於100萬倍,在接下來的10年裡,希望通過新芯片、新互連、新系統、新操作系統、新分佈式計算算法和新AI算法,並與開發人員合作開發新模型,“將人工智能再加速100萬倍”。
推動GPU發展的兩大巨頭:英偉達與AMD
“目前國際的GPU行業市場主要由英偉達和AMD(美國超威半導體)兩家佔據。近些年,國外GPU技術快速發展,已經大大超出了其傳統功能的範疇。”華安嘉業相關負責人告訴第一財經。
英偉達靠遊戲業務發家,近年來在數據中心AI、汽車、元宇宙領域持續發力。2007年,英偉達首次推出通用並行計算架構CUDA(Compute Unified Device Architecture,統一計算設備架構),使GPU成為通用並行數據處理加速器,即GPGPU。CUDA 支持Windows、Linux、MacOS 三種主流操作系統,支持CUDA C語言和OpenCL及CUDA Fortran語言。
CUDA 架構不用再像過去GPU架構那樣將通用計算映射到圖形API(應用程序編程接口)中,大大降低了CUDA 的開發門檻。因此,CUDA推出後發展迅速,廣泛應用於石油勘測、天文計算、流體力學模擬、分子動力學仿真、生物計算、圖像處理、音視頻編解碼等領域。
這為英偉達拿下GPU過半市場份額奠定了基礎——CUDA生態為英偉達GPU打造了深厚的護城河。此後,英偉達通用計算架構持續升級迭代,2010年發布Fermi架構,2012年發布Kepler架構,GPU在通用計算中逐漸成為主角。
2017年,英偉達發布專為數據中心和高性能計算打造的Tesla V100 GPU,採用Volta架構,有超過210億個晶體管,是上代Tesla P100的1.37倍,其數據中心AI業務自此開始快速增長。
AMD在2006年收購著名顯示芯片廠商ATI,後者一度與英偉達在GPU市場平分秋色。2019年,AMD發布RDNA架構產品Radeon RX 5700,其採用7nm工藝、GDDR6顯存、PCI-e 4.0總線,使得其性能跑分超過英偉達的GeForce GTX 1080;2020年發布AMDRDNA 2架構,實現性能提升1倍、能效提升至少50%、完整支持DX12U和光線追踪等目標。RDNA 3架構也於2022年11月推出。
3D Center數據顯示,2022年二季度,英偉達在獨立GPU的市場份額為79%,AMD則佔20%的市場份額,合計99%。Intel憑藉在PC端的優勢佔據剩下1% 的市場份額。
“如果未來十年如黃仁勳所說,AI會再產生100萬倍需求,我覺得算力是一個非常吸引人的投資環節。英偉達在美股Forward 12個月的PE遠遠高於平均水平,約50倍,其他半導體公司在20倍左右,這正是源於AI帶來的快速增長。就像10多年前看智能手機,四、五年前看電動車一樣,人工智能將給半導體產業帶來巨大的推動作用,這是信息革命。” 某基金製造業分析師對第一財經表示。
GPGPU:AI時代的算力核心
AI的實現包括訓練和推理兩個環節,前者是指通過大量標記過的大數據訓練出一個複雜的神經網絡模型,使其能夠適應特定的功能;後者指利用訓練好的模型,使用新數據推理出各種結論。
如上文所述,GPGPU將部分或全部圖形顯示能力投入通用計算,可應用於AI等加速領域和高性能計算。英偉達推出的CUDA架構大幅加速了GPGPU的發展,目前GPGPU被視為AI時代的算力核心。
中信證券預計,2021年中國GPGPU市場規模為149.8億元,其中人工智能推理、人工智能訓練、高性能計算市場分別為93.5億/47.1億/9.1億元。
市場研究機構Verified Market Research預測,到2025年,中國GPGPU芯片闆卡的市場規模將達到458億元,是2019年86億元的5倍多,2019-2025年CAGR為32%。其中,人工智能推理/人工智能訓練/高性能計算需求分別為286億/144億/28億元,佔比分別為62.4%/31.4%/6.1%。
英偉達在中國加速芯片領域佔據絕對優勢。根據天數智芯數據,2021年英偉達在中國雲端AI訓練芯片市場的份額達到90%。IDC數據顯示,2021年,中國加速卡出貨量超過80萬片,其中英偉達佔據超過80%市場份額。
華安嘉業上述負責人告訴第一財經,GPU的核心競爭力在於架構等因素決定的性能先進性和計算生態壁壘。
一方面,性能先進性體現在高精度浮點計算能力。訓練需要密集的計算得到模型,沒有訓練,就不可能會有推理。而訓練需要更高的精度,一般來說需要float型,如FP32,32位的浮點型來處理數據。
另一方面,生態也是GPGPU發展需要解決的問題。英偉達早在CUDA問世之初就開始生態建設,AMD和Intel也推出了自研生態ROCm和one API,但CUDA憑藉先發優勢早已站穩腳跟。為解決應用問題,AMD和Intel通過工具將CUDA代碼轉換成自己的編程模型,從而實現針對CUDA 環境的代碼編譯。
但中信證券表示,由於CUDA的閉源特性,以及快速的更新,後來者很難通過指令翻譯等方式完美兼容,即使部分兼容也會有較大的性能損失,導致在性價比上持續落後英偉達。同時,CUDA畢竟是英偉達的專屬軟件棧,包含了許多英偉達GPU硬件的專有特性,這部分在其他廠商的芯片上並不能得到體現。
這也是國內廠商面臨的困境。當前國內GPU廠商紛紛大力投入研發迭代架構,謀求構建自主軟硬件生態。
上述負責人認為,國產GPU業應採取開放合作的心態,學會站在巨人的肩膀上,善於利用現有架構和生態,設計契合市場需求的優秀產品,打造全球化設計水平的開發團隊。在他看來,國產GPU在起步階段兼容現有生態更容易發展,先求生存;長期還是要擺脫兼容思路,站穩腳跟後再求發展自有的核心技術。
國產GPU迎來黃金發展期
IDC數據顯示,2021年,全球AI服務器市場規模達156億美元,同比增長39.1%,預計2025年將達317.9億美元,CAGR為19%。
2021年,中國加速服務器市場規模達到53.9億美元(約合人民幣350.3億元),同比增長68.6%。其中GPU服務器以91.9%的份額佔國內加速服務器市場的主導地位;神經網絡處理器(NPU)、ASIC和FPGA等非GPU加速服務器佔比8.1%。預計2024年中國GPU服務器市場規模將達到64億美元。
儘管市場空間巨大,但相比英偉達和AMD,國內GPU廠商的營收規模較小。財報顯示,國內GPU龍頭企業景嘉微(300474.SZ)2022年前三季度營收為7.29億元,而英偉達2023財年第四財季營收就超過60 億美元。
“國產GPU在信創方面已經實現逐步替代,AI&數據中心、智能汽車、遊戲等應用領域的國產GPU需求量也有極大的提升,國產GPU迎來發展黃金期,我們看好國產GPU公司的發展與投資機遇。”上述負責人稱。
目前景嘉微已成功研發JM7200和JM9系列GPU芯片,應用於台式機、筆記本、一體機、服務器、工控機、自助終端等設備。
海光信息(688041.SH)的DCU也屬於GPGPU的一種,其DCU協處理器全面兼容ROCm GPU計算生態。據悉,ROCm和CUDA在生態、編程環境等方面高度相似,CUDA用戶可以以較低代價快速遷移至ROCm平台,因此ROCm也被稱為“類CUDA”,主要部署在服務器集群或數據中心,為應用程序提供高性能、高能效比的算力,支撐高複雜度和高吞吐量的數據處理任務。
半導體初創企業中,芯瞳半導體、芯動科技、摩爾線程、天數智芯、壁仞科技等均已陸續推出產品。據悉,2020年開始,國內GPU行業融資環境有較大改善,初創公司遍地開花。
摩爾線程告訴第一財經,目前公司已推出的產品包括基於MUSA架構打造的兩顆全功能GPU芯片——“蘇堤”和“春曉”;面向信創市場的桌面級顯卡MTT S10、MTT S30和MTT S50;中國首張國產遊戲顯卡MTT S80;為數據中心打造的全功能GPU產品MTT S2000和MTT S3000、首個元宇宙計算平台MTVESRSE、GPU物理引擎AlphaCore、DIGITALME數字人解決方案和AIGC內容生成平台等。
沐曦集成電路產品涉及MXN AI推理芯片、MXC GPGPU、MXG圖形渲染GPU等,第一財經了解到,2023年公司或將有第一款產品發布。
篳路藍縷,以啟山林
需要承認的是,國產GPU產品走向高端還有較遠的距離。
“國內GPU芯片的研製雖然可滿足目前大多數圖形應用需求,但在科學計算、人工智能及新型的圖形渲染技術方面仍然和國外領先水平存在不小差距。”上述負責人表示。
此前在2022年8月31日,美國政府要求英偉達的A100、H100系列和AMD的MI 250系列及未來的高端GPU產品,是否可以售賣給中國客戶,需要獲得美國政府的許可。據中信證券,這幾款芯片均為用於通用計算的高端GPGPU,通常應用在人工智能計算的雲端訓練和推理場景以及超級計算機中,國內客戶多為雲計算廠商及高校、科研院所。
上述負責人稱,國內GPU實現自主可控面臨的首要問題是核心IP差距。
由於IP研發難度大、開發週期長,目前中國GPU開發者大多使用國外廠家提供的IP,導致核心電路專利無法控制,後續更新無法進行。此外,國內GPU底層技術空白點較多,產品前端穩定性不理想,目前又很難在主線中高端電子產品上得到普及化應用,還需多年沈淀才能具有一定替代性。
“作為一個有著數十年發展歷程且相當成熟的細分行業,很多基礎問題已經有了定式和最優解,並且形成了可供授權的眾多專利IP,繞開這些已有IP,既不現實也不划算。”上述負責人表示,所以,相對於“芯片裡用誰的IP”這種問題,我們真正需要關注的是這些企業怎樣更有效地利用現有商業化IP,快速完成產品迭代和團隊磨合。“需要指出的是,外購IP並不意味著無法自主可控,但對GPU企業的能力會要求很高。”
作為國內核心IP廠商,芯原股份(688521.SH)2016年通過收購圖芯美國,獲得了GPU IP,並在此基礎上自主開發出了NPU IP。
目前,芯原股份擁有用於集成電路設計的GPU、NPU、VPU、DSP、ISP、Displayprocessor六大類處理器IP,以及1400多個數模混合IP和射頻IP,均為公司團隊自主研發的核心技術成果。
除了技術差距,國內GPU企業的發展還面臨著落地壓力和資金壓力。
“在落地應用中分析,不難看出很多的國產GPU都是應用在軍事、政府等部門,這僅僅是國產化的開始。”上述負責人補充道,另一方面,新創企業不僅面臨原材料和製造能力的供應緊張問題,還必須承受來自國內外同業的競爭壓力。對於GPU創企而言,巨大的研發費用和資本開支是必需,但長期、持續的利潤支撐才是GPU跨代發展的強勁驅動力。
“國產GPU的未來關鍵不在於個人消費市場,而是以自動駕駛、AI智能等領域為主的商用及工業市場,這些市場恰恰是目前國內的強勢區,憑藉在新能源汽車及相關領域的突破及份額提升,國產GPU或許會走出一條與英偉達、AMD截然不同的發展道路。”上述負責人稱。