AI晶片新戰役:ASIC登場,GPU失色
談到AI晶片,大眾首先映入腦海的往往是GPU的身影。 GPU在訓練和運行大AI模型方面一直佔據主導地位,其強大的平行處理能力讓它在處理複雜運算任務時游刃有餘。然而由於一些原因,炙手可熱的GPU正在面臨一些挑戰與局限性,使其「AI寵兒」的地位逐漸受到動搖。
風口上的GPU
關於GPU市場格局變動的原因,可歸結為以下三大要素:
第一點,GPU已成為AI晶片領域競爭的核心焦點。目前,英偉達所產出的GPU主要被各大科技巨頭所壟斷。
近日,LessWrong網站上發表了一篇博客,根據公開數據對英偉達晶片的產量、各個AI巨頭的GPU/TPU數量進行了估計。
其中微軟目前擁有75萬至90萬塊H100 GPU,預計到2025年這一數字將飆升至250萬至310萬塊。 Google的表現同樣強勢,現階段掌握了100萬至150萬塊H100,明年預計增加到350萬至420萬塊。 Meta擁有55萬至65萬塊GPU,預計未來一年將成長至190萬至250萬塊。此外,亞馬遜目前擁有25萬至40萬塊GPU,預計2025年達到130萬至160萬塊。而新興公司xAI也迅速崛起,預計從10萬塊H100成長至55萬至100萬塊。
這些數據充分反映出大型企業對AI算力的競爭已趨於白熱化,尤其是微軟和Google。
此外,Melius Research的分析師Ben Reitzes的報告顯示,這些巨頭正在特別購買英偉達的GB200晶片,其中微軟下單量在70萬至140萬塊之間,Google為40萬塊,亞馬遜則購買了36萬塊,OpenAI也不甘示弱,至少擁有40萬塊GB200晶片。
科技巨頭包辦英偉達GPU的同時,直接導致了中小型企業在取得GPU資源上面臨嚴峻挑戰。
第二點,GPU價格的飆升使得這些科技巨頭在購買晶片時需要支付更高的成本。
根據投行Raymond James的分析師估計,H100售價為25,000至3萬美元。 就算是價格、訂購數量都依照區間的低端來計算,微軟也需要花費超過180億美元購買GPU。
微軟、亞馬遜、Google等科技巨頭正在全球加速佈局AI算力,以維持其市場競爭力。據報道,這些公司在AI相關項目和數據中心的投資已超過400億美元,並預計未來十年的支出將達到1兆美元。
在眾多花錢的項目中,購買GPU便是各家的當務之急。
日前,馬斯克的人工智慧新創公司xAI已經向英偉達成功下單,訂購了價值10.8億美元的GB200 AI晶片,並憑藉這筆巨額交易獲得了優先交付的權利。
高昂的售價讓科技巨頭們壓力倍增,叫苦不迭。
第三點,從另一個角度來看,即便科技巨頭暫且將成本因素置於次要地位,英偉達本身的供應不足狀況仍使這些科技巨頭憂心不已。
目前,英偉達的GPU壟斷了約80%的AI半導體,製造在台積電進行。在後續的流程中,會利用CoWoS進行封裝,但CoWoS的產量目前是一個瓶頸。
另外,在CoWoS中,GPU周圍放置了多個HBM(高頻寬記憶體),這些HBM是堆疊的DRAM,也被認為是瓶頸之一。
在產能不足、巨頭哄搶、售價高昂的背景下,大大小小眾多企業開始積極探尋英偉達GPU 的替代品,試圖破解AI晶片市場的一家獨大的現狀。
AMD執行長蘇姿豐(Lisa Su)也在前不久表示,隨著業界將精力集中於更加標準化的模型設計,將有機會構建更多在可編程性和靈活性方面要求不那麼高的定制晶片.這種晶片將更加節能、體積更小、成本更低。
「目前,GPU是大語言模型的首選架構,因為GPU在平行處理方面非常高效,但在可程式化方面有所欠缺,」蘇姿豐說。 “五年多後它還會是首選架構嗎?我認為情況會改變。”
蘇姿豐預計,五年或七年時間內GPU還不會失勢,但會出現GPU以外的新勢力。
那麼,除了GPU,還有哪些類型的晶片能夠勝任AI運算的任務呢?
AI晶片的另外兩種主流選擇
在近兩年的科技浪潮中,另外兩種晶片──FPGA與ASIC,也逐漸走進了大眾的視野。
FPGA(Field Programmable Gate Array,現場可程式閘陣列),是一種半客製化晶片。使用者可以根據自身的需求進行重複編程。 FPGA 的優點是既解決了客製化電路的不足,也克服了原有可程式元件閘電路數有限的缺點,對晶片硬體層可以靈活編譯,功耗小於CPU、GPU;缺點是硬體程式語言較難,開發門檻較高,晶片成本、價格較高。 FPGA 比GPU、CPU 更快是因為其具有客製化的結構。
ASIC(Application Specific Integrated Circuit特定用途積體電路)根據產品的需求進行特定設計和製造的積體電路,其客製化程度與GPU 和FPGA 相比更高。 ASIC 算力水準一般高於GPU、FPGA,但初始投入大,專業性強烈縮減了其通用性,演算法一旦改變,運算能力會大幅下降,需要重新自訂。
從成本角度看,GPU、FPGA、ASIC 三種硬體從左到右,從軟體到硬件,通用性逐漸降低、越專用,可客製化逐漸提高,相應的設計、開發成本逐漸提高,但是單位成本理論性能越高。
從運算速度來看,由於GPU架構固定,硬體原生支援的指令也固定。而FPGA和ASIC則是可編程的,因此,GPU的運算速度要遜於FPGA和ASIC。
從功耗和延遲角度來看,GPU的功耗遠大於FPGA和ASIC。 GPU時延也高於FPGA、ASIC。
FPGA與ASIC的適用場景也不盡相同,就邊緣AI而言,FPGA確實展現出了更高的適用性;ASIC的主要優勢在於其針對特定任務的高度優化,這通常會導致更高的性能和更低的功耗(大量生產時),也正因此,在AI運算應用中,業界對於ASIC的呼聲似乎要略高於FPGA。
多家機構,看好ASIC
12月,博通的客製化ASIC和英偉達GPU引起廣泛討論。
摩根士丹利12月15日發布研報《AI ASIC 2.0:潛在贏家》,認為ASIC憑藉著針對性優化和成本優勢,可望逐步從英偉達GPU手中爭取更多市場份額。
隨著生成式AI應用的快速發展,全球AI運算需求呈現爆炸性成長。報告預計,到2027年,雲端AI半導體市場規模將達到2,380億美元,在樂觀情境下甚至可能達到4,050億美元。
摩根士丹利預計,AI ASIC市場規模將從2024年的120億美元成長至2027年的300億美元,年複合成長率達34%。
儘管英偉達的AI GPU效能卓越,但摩根士丹利認為,雲端服務供應商如Google、亞馬遜和微軟,仍在積極推動ASIC設計。這背後的驅動力主要有兩個。
首先,是優化內部工作負載。透過開發自訂晶片,CSP可以更有效率地滿足其內部AI推理和訓練需求。
其次,是更好的性價比。報告指出,雖然英偉達的GPU具備強大的運算效能,但其硬體價格高昂,特別是在AI訓練過程中。相比之下,ASIC的單位成本較低,尤其是在大規模使用後。
巴克萊的另一份報告則預計,AI推理計算需求將快速提升,預計將佔通用人工智慧總計算需求的70%以上,推理計算的需求甚至可以超過訓練計算需求,達到後者的4.5倍。英偉達GPU目前在推理市場中市佔率約80%,但隨著大型科技公司客製化ASIC晶片不斷湧現,這一比例可望在2028年下降至50%左右。
國際龍頭,各自佈局
博通,是AI市場的“新任寵兒”
截至12月13日收盤,美股又一家萬億美元市值晶片公司誕生。當天博通股價大漲超過24%,市值首度突破1兆美元大關,也成為繼英偉達和台積電之後,全球第三家市值過兆美元的半導體產業公司。
博通股價大漲是在公司公佈了好於預期財報之後。博通全年業績顯示,2024財年,全年營收達516億美元,年增44%,其中AI和VMware兩大業務板塊成為核心成長引擎。
ASIC客製化服務是博通半導體業務的重要收入來源,特別是在AI的驅動之下,博通來自與AI相關的ASIC客製化服務營收正快速成長。
博通CEO陳福陽在近日的財報電話會上預測稱,目前的三大科技客戶將在2027財年花費600億至900億美元購買博通供應的人工智慧組件。
業界分析,博通ASIC晶片的大客戶包括Google、Meta;近期市場消息顯示,蘋果也有計畫開發AI伺服器晶片,合作方很有可能也是博通。
不僅如此,從美國目前對中國的禁售條款來看,ASIC晶片似乎始終被排除在外,博通也因此持續受益。
隨著博通為雲端運算廠商客製化更多AI晶片,這些廠商可能減少對英偉達晶片的依賴,有市場投資者擔心英偉達未來的晶片需求可能有所緩解。
Marvell受到追捧
與博通業務模式類似的Marvell也在近日受到資本市場追捧。
12月初,Marvell已經發布了2025財年第三財季財報,期內公司實現營業收入15.16億美元,較去年同期成長7%、季增19%。其中資料中心相關營收年增98%、較上季成長25%,這是公司旗下所有業務中唯一實現年比營收成長的業務類型。
Marvell總裁兼CEO Matt Murphy指出,這主要來自於AI客製化晶片需求支撐,此外還有雲端服務客戶對於連網產品的持續性需求。預計此趨勢將延續到2026財年(約指2025公曆年份)。
光是12月,Marvell先是官方宣布與亞馬遜雲端(AWS)擴大策略合作,宣布一項為期五年、跨代際產品的合作計劃,涵蓋Marvell旗下客製化AI晶片、DSP、資料中心互聯光模組、以太網交換器解決方案等多種類型,以支援AWS推進在資料中心運算、網路和儲存等方面強化產品能力。不久也宣布推出業界首款3nm高速(1.6Tbps)互聯平台。
博通和Marvell有類似的產業定位,並不聚焦於GPU這類通用的大規模平行運算晶片設計研發,而是更專注於幫助有晶片客製化需求的主流雲端服務廠商進行產品設計。這也是ASIC晶片相關業績高速成長的原因。
Google,自研TPU
Google 早在2013 年就秘密研發專注AI機器學習演算法晶片,並用於雲端運算資料中心,取代英偉達GPU。
這款TPU自研晶片2016年公開,為深度學習模型執行大規模矩陣運算,如自然語言處理、電腦視覺和推薦系統模型。 Google 其實在2020 年的資料中心便建構AI 晶片TPU v4,直到2023 年4 月才首次公開細節。
值得注意的是TPU是一種客製化的ASIC 晶片,它由Google從頭設計,並專門用於機器學習工作負載。
2023年12月6日,Google官宣了全新的多模態大模型Gemini,丟出了另一個重磅炸彈——全新的自研晶片TPU v5p,它也是迄今為止功能最強大的TPU。
隨後在今年5月,Google又宣布了第六代資料中心AI 晶片Tensor 處理器單元–Trillium。
據悉,除了英偉達所佔的80%市場,其餘20%的絕大部分由各種版本的GoogleTPU所控制。 Google本身不出售晶片,而是透過其雲端運算平台租用存取權限。
微軟:推出基於Arm架構的通用型晶片Cobalt、ASIC晶片Maia 100
2023年11月,微軟在Ignite技術大會上發表了首款自家研發的AI晶片Azure Maia 100,以及應用於雲端軟體服務的晶片Azure Cobalt。兩款晶片將由台積電代工,採用5nm製程技術。
Cobalt是基於Arm架構的通用型晶片,具有128個核心,Maia 100是一款專為Azure 雲端服務和AI 工作負載設計的ASIC 晶片,用於雲端訓練和推理的,晶體管數量達到1050億個。這兩款晶片將導入微軟Azure資料中心,支援OpenAI、Copilot等服務。
負責Azure晶片部門的副總裁Rani Borkar表示,微軟已開始用Bing和Office AI產品測試Maia 100晶片,微軟主要AI合作夥伴、ChatGPT開發商OpenAI,也在進行測試中。
不過,微軟並不認為自己的AI 晶片可以廣泛地取代英偉達的產品。有分析認為,微軟的這項努力如果成功的話,也有可能幫助它在未來與英偉達的談判中更具優勢。
除了前述幾家公司,Meta等科技業領導者正積極加快自主研發晶片的腳步。這些努力不僅限於ASIC領域,還包括FPGA和RISC-V等多個方向,旨在降低對英偉達技術的依賴。
在科技業中,不單單是這些頭部企業有所動作。摩根士丹利在相關報告裡對全球ASIC 供應鏈展開了梳理,並且確定了六大潛在的優勢方:
ASIC供应商方面,除了博通,Alchip(世芯电子)和Socionext也被视为ASIC市场的潜力股。其中,Alchip由于与AWS的深度合作,预计将在2026年显著提升市场份额。
電子設計自動化工具方面,Cadence可望實現結構性成長。
代工廠方面,台積電及其供應鏈夥伴將從ASIC設計與製造的快速成長中受益。
测试服务方面,Advantest是AI芯片测试领域的领先者,其在AI设备测试方面的专注将为其带来显著增长。
HBM方面,三星電子是非英偉達HBM市場份額領導者,將從ASIC需求成長中獲益。
蘋果,屢試“新果”
今年7月,蘋果發表iPhone AI的首個預覽版,隨後發布論文,並表示人工智慧模型是在Google的TPU(張量處理單元)上訓練的。論文中介紹了為支援Apple Intelligence功能而開發的基礎語言模型,包括一個設計用於在設備上高效運行的約30億參數模型和一個基於私有雲計算的雲側大模型。
近日,蘋果在亞馬遜的AWS Reinvent大會上又高調宣布將使用亞馬遜自家客製化的AI晶片進行模型訓練。根據蘋果機器學習與人工智慧高級總監Benoit Dupin的說法,蘋果正在評估亞馬遜最新的Trainium2晶片,尤其是在預訓練「Apple Intelligence」(Apple Intelligence)模型方面的潛力。
這項跡象表明,在訓練尖端人工智慧方面,大型科技公司正在探索英偉達GPU以外的其他替代方案。
長久以來,人工智慧訓練主要依賴價格高昂的英偉達圖形處理器。然而,雲端服務供應商與新創公司正積極研發成本更低的替代方案,並探索可能實現更有效率處理的新途徑。蘋果採用客製化晶片的做法,或許在向其他企業傳遞一個訊號:非英偉達的訓練方案同樣也能奏效。