後摩爾時代的關鍵詞:GPU與Chiplet
AI芯片領域當之無愧的領導者英偉達連續兩個季度強勁無比的業績以及極度樂觀的業績預期,很大程度上表明今年第二季度是全球AI技術全面發展與擴張的開端階段,而不是圍繞科技股的泡沫炒作熱潮。更重要的是英偉達以強勁的業績向世界宣布:全球正式踏進AI時代,以及“算力為王”趨勢所主導的全新技術篇章拉開帷幕。
隨著近期AI技術突破,以及AI與應用融合趨於完善,全球各企業競相佈局以人工智能為代表的先進技術,幫助企業實現賦能新業務,以及優化決策流程和經營效率,從而催生出對人工智能更多元的定制化需求。IDC最新數據顯示,2022年全球人工智能IT總投資規模為1288億美元,預計2027年增至4236億美元,五年復合增長率(CAGR)約為26.9%。
隨著全球邁入AI時代以及萬物互聯進程加速,意味著全球算力需求迎來爆炸式增長, 尤其是基於AI訓練與推理的各項AI細分任務涉及大量的矩陣運算、神經網絡的前向和反向傳播等對硬件性能要求極高的計算密集型高強度操作。然而,這些難題遠非享受摩爾定律紅利多年的CPU所能夠解決。哪怕大量CPU也無法解決這一問題,畢竟CPU設計初衷是在多種常規任務之間進行通用型計算,而不是處理天量級別的並行化計算模式以及高計算密度的矩陣運算。
更重要的是,隨著全球芯片領域的創新與發展步入“後摩爾時代”(Post-Moore Era),作為曾推動人類社會發展主力軍的CPU已經無法實現像22nm-10nm那樣在不到5年間實現“闊nm”級別的快速突破,後續nm級別突破面臨量子隧穿等重重阻礙,這也使得CPU性能升級和優化層面面臨極大限制。
因此,擁有大量計算核心、能夠同時執行多個高密集型AI任務,並且極度擅長處理並行計算的GPU近年來成為芯片領域的最核心硬件。GPU在AI訓練/推理等高性能計算領域有著其他類型芯片難以企及的巨大優勢,這對於那些極其複雜的AI任務非常重要,比如圖像識別、自然語言處理和大量矩陣運算等。現代GPU架構更是經過AI針對性優化,適用於深度學習等AI任務。例如,英偉達Tensor Cores 可以加速矩陣乘法和卷積計算等非常關鍵的高強度操作,從而提高計算效能。
AI時代越來越龐大的算力需求必然使得終端對於芯片性能和處理效率要求越來越高,這就要求晶圓製造商們不斷縮減柵長—人們所熟知的22nm-10nm跨越指的是柵長越來越短。
然而,隨著摩爾定律逼近極限,5nm以下製程突破面臨重重阻礙,“Chiplet”先進封裝技術正是在這樣的背景下橫空出世。在Chiplet思路下, 芯片被分割成較小的功能塊或核心,然後將這些“ chiplet 芯片粒”以先進封裝技術集成在一起以構建性能更強、更複雜化的芯片系統。這種思路可以提高設計和封裝靈活性,使不同類型的芯片塊可以分別進行優化和製造,然後再通過先進封裝技術集成在一起,以實現更高的性能和效率。
AI最核心基建——GPU
算力需求激增,GPU憑藉其強大的並行計算能力,在這個算力需求爆炸的全新篇章一躍成為整個芯片領域的C位。
以ChatGPT為代表的生成式AI,以及支撐其運作的GPT-4大語言模型橫空出世以來,全球幾乎所有大型科技公司均參與這波佈局AI的熱潮,其中包括微軟、谷歌、亞馬遜、甲骨文以及來自中國的百度、騰訊、阿里巴巴等等科技巨頭。GPT-4等大語言模型的開發背後基於“數據轟炸般”的AI訓練和推理,而這一切都離不開最核心的基礎設施——AI加速芯片,英偉達A100/H100 GPU則是AI訓練和推理領域目前的首選硬件方案。
GPU強勢崛起,體現出在AI熱潮下,GPU和享受摩爾定律紅利多年的通用型處理器(CPU)之間的地位徹底反轉。從上世紀PC步入千家萬戶開始,CPU一直是摩爾定律最大受益者兼芯片製造技術領導者,其輝煌從PC時代延續到了雲計算CPU時代,同時也推動了PC、智能手機芯片等領域的技術發展。然而自ChatGPT問世以來,隨著AI對於全球高科技行業和技術發展的影響力度越來越大,專注於單線程性能與通用型計算的CPU仍是芯片領域不可或缺的一環,但其在芯片領域的地位和重要程度已遠不及GPU。
從理論層面來看,摩爾定律所預言的性能指數級增長趨勢近幾年來並沒有消失,而是從CPU轉到了基於大量核心的GPU。近年來GPU性能仍在遵循性能指數增長規律,大約2.2年性能就會翻倍。相比之下,英特爾CPU GFLOPs仍呈增長趨勢,但是與GPU GFLOPs相比似乎成了一條直線。
近年來,GPU能夠延續指數級增長,主要因在人工智能(AI)和深度學習方面,通常需要大規模的並行計算,其中深度學習模型的訓練和推理更是涉及大量矩陣操作,這是GPU強項,CPU可謂沒有抗衡之力。GPU的設計在於支持大量的計算核心,這使得它們能夠同時處理多個任務,從而在並行計算方面表現極其出色。相比之下,通用型CPU設計更注重單個任務的處理性能,這在處理並行任務時受到的限制非常大。
此外,現代GPU架構針對並行計算進行了優化,如英偉達NVIDIA CUDA架構和AMD的RDNA架構。這些優化使GPU能夠更高效地執行矩陣計算和卷積計算等與AI相關的任務。
目前全球性能最佳且最普及的AI服務器系統使用多達8個英偉達GPU和1個AMD或英特爾CPU。英偉達目前在人工智能GPU市場佔據絕對的主導地位。“因此,CPU數量將大幅度減少,而不是數以百萬計的CPU,但它們將與數以百萬計的GPU相連。”黃仁勳表示。
英偉達CEO黃仁勳多次強調,為了充分發揮人工智能的潛力,客戶越來越多地轉向加速計算GPU,比如英偉達旗下的GPU產品。“引爆點(flashpoint)是生成式人工智能。”英偉達CEO黃仁勳曾表示。“我們知道CPU的算力擴展速度已經放緩,我們還知道加速計算是前進的道路,然後需要更高算力的殺手級應用程序出現了。”
黃仁勳強調,全球向人工智能的轉變現在才剛剛開始。他認為,通過將特定任務分解成更小的部分並且進行並行處理來加速特定任務的加速計算正在佔據主導地位。他在英偉達8月業績會議中表示:“最重要的主題在於,全球計算機數據中心正在向一種新的模式過渡,從通用計算轉向GPU加速主導的計算模式。”這位英偉達聯合創始人認為,全球價值一萬億美元的數據中心基礎設施必須做出這種改變。
從市場規模預期來看,知名市場研究機構Mordor Intelligence最新研究顯示,預計GPU市場規模(涵蓋PC、服務器、高性能計算、自動駕駛等應用端GPU)預計將從2023年的418.2億美元大幅擴張至2028年的1720.8億美元,預測期內(2023-2028年)複合增速(CAGR)高達32.70%。Mordor Intelligence表示,GPU硬件不僅用於渲染圖像、動畫和電子遊戲,還用於一般性的計算目的,幾乎部署在全球所有計算型設備中。個人電腦、筆記本電腦和新興應用(例如AR/VR、高性能計算、人工智能、機器學習、區塊鏈、加密貨幣挖掘、自動駕駛和高精度導航(車輛、機器人)的積極部署趨勢,尤其是人工智能領域,未來將極大力度推動GPU需求。
相比之下,Mordor Intelligence預測數據顯示,涵蓋眾多應用端的CPU處理器2023-2028年復合增速僅僅為5.73%。CPU市場規模擴張同樣是蹭到了AI熱度,該機構表示,基於雲計算平台的軟件和數據中心日益採用服務器CPU,以及AI帶來的輔助算力需求為主要推動因素。研究機構Acumen Research and Consulting則表示,預計到2030年CPU市場規模將達到1638 億美元,2022年至2030年復合年增長率僅僅為4.5% 。
摩爾定律逼近極限,Chiplet先進封裝來“救場”
在我們所處的“後摩爾時代”(Post-Moore Era),芯片先進製程突破面臨極大難度(如量子隧穿效應),加之人類社會步入AI時代以及萬物互聯趨勢愈發明顯,多種任務帶來的算力需求可能暴增,比如深度學習任務,以及機器學習、推理、AI驅動的圖像渲染、識別等。每種任務對硬件的性能要求都非常高,這意味著像PC那樣單獨集成的CPU或GPU已經無法滿足算力需求。
因此,Chiplet先進封裝技術應運而生,該技術允許將不同的“芯片處理單元”,即將不同的“chiplet芯粒”集成在一起,滿足多樣性的計算需求,從而更好地優化性能。此外,由於AI應用的多樣性,往往需要針對特定任務進行硬件優化。不同的處理單元芯片可以專門用於特定類型的計算,如圖像處理、語音識別、自然語言處理等,基於Chiplet思路的模塊化設計使得能夠針對每種任務選擇最佳的處理單元。
基於Chiplet先進封裝技術,能夠集成更多的GPU或者其他類型芯片來滿足越來越大規模的算力需求。許多AI任務涉及大規模並行計算,如神經網絡系統訓練和推理。GPU等處理器在並行計算方面表現優異,而Chiplet封裝技術可以使不同的GPU模塊,或者CPU、FPGA、ASIC芯片等在同一個芯片系統中協同工作,以提供更大規模的並行計算能力。
英偉達所依賴的台積電CoWoS封裝技術正是基於Chiplet思路的先進封裝技術。從H100加速系統的拆解圖來看,H100利用台積電CoWoS封裝技術集成了SK海力士HBM高性能存儲。H100 GPU 芯片系統將台積電4nm工藝和Chiplet封裝技術融合。英偉達通過Chiplet 技術將HBM3子系統集成到芯片系統,提供高達3TB/s超高顯存帶寬,是上一代產品帶寬的近兩倍。同時藉台積電4nm製程,無論是性能還是數據傳輸和存儲容量,相較於上一代A100 GPU 芯片都有大幅度提升。
Chiplet封裝技術似乎已經成為芯片製造商們的新戰場,英特爾、三星電子和台積電紛紛斥巨資投入這一技術板塊。從芯片產業鏈的角度來看,隨著Chiplet封裝技術越來越普及,將給整個產業鏈帶來一次革新,尤其是芯片製造設備商將開拓全新的業務方向,為Chiplet封裝提供創新性的製造商支撐。比如,台積電等芯片製造商的上游設備商——全球芯片設備巨頭應用材料近日公佈了有關晶圓Hybrid Bonding、矽通孔(Through Silicon Via)的兩大新技術,有助於小芯片2.5D、 3D Chiplet封裝工藝的提升,新的解決方案擴展了應用材料異構集成技術(HI)範圍。
目前,英特爾正在馬來西亞檳城興建最新的封裝廠,強化2.5D/3D封裝佈局。這將是繼英特爾新墨西哥州及奧勒岡工廠之後,首座在美國之外採用英特爾Foveros先進封裝架構的3D封裝廠。英特爾表示,其規劃到2025年3D Foveros封裝的產能將達到當前水平的四倍。通過多年研究探索,英特爾目前壓注的主要是2.5D EMIB、3D Foveros等多種先進封裝,力圖通過2.5D、3D和埋入式等HI技術形式實現互連帶寬倍增與功耗減半的目標。
有媒體報導稱,三星電子第四代HBM以及封裝服務已經通過AMD測試。AMD的Instinct MI300系列AI芯片系統計劃採用三星HBM3及chiplet封裝服務,該芯片將集成中央處理器(CPU)、圖形處理器(GPU)及HBM3,預計今年第四季發布。為了爭奪未來chiplet封裝市場份額,三星正在開發更先進的I-cube 和X-cube 封裝技術。三星電子近日更是宣布,將在2025年推出全球首款使用GAA製程的3D先進封裝,提供客戶從代工生產到先進封裝的配套完整解決方案。目前,芯片代工行業尚未嘗試結合GAA製程與3D先進封裝,兩種技術的複雜性非常高。
台積電當前憑藉其領先業界的先進封裝技術吃下大量的高端芯片封裝訂單,並且先進封裝產能已跟不上需求,英偉達H100無法滿足需求正是受限於CoWoS先進封裝產能。研究機構TrendForce預計,下半年CoWoS封裝產能仍然較緊迫,強勁需求將延續至2024年。
英偉達和AMD的旗艦產品都離不開台積電製造以及先進封裝技術的支持。台積電正在研究其新的Chip-On-Wafer-On-Substrate-L (CoWoS-L) 封裝技術,該技術將使其能夠構建更大的超級載體中介層。針對大約2025年前後的需求,台積電下一代CoWoS 技術將使中介層達到台積電最大標線片(reticle)的六倍,高於其當前中介層的3.3倍。有業內人士表示,這種技術級別的系統級封裝(SiP) 旨在供應對性能要求極高的數據中心和HPC 芯片。
知名研究機構YOLE Group最新研究報告顯示,chiplet先進封裝正變得越來越重要,預2022年至2028年間,先進封裝市場複合年增長率將達到10.6%,至786億美元超越傳統封裝市場。相比之下,隨著chiplet先進封裝愈發普及,預計2022 年至2028 年傳統封測市場的複合增速放緩至僅僅3.2%,期末市場價值約為575億美元,預計將全面落後於先進封裝規模。