晶片新貴集體轉向推理更吃香了
在AI晶片這個波瀾壯闊的競技場上,一度被奉為「技術聖杯」的大規模訓練,如今正悄悄讓位給更低調、但更現實的推理市場。 NVIDIA仍在訓練晶片市場一騎絕塵,Cerebras則繼續孤注一擲地打造超大規模運算平台。但其他曾在訓練晶片上爭得面紅耳赤的玩家——Graphcore、英特爾Gaudi、SambaNova等——正在悄悄轉向另一個戰場:AI推理。
這一趨勢並非偶然。
AI訓練作為一個重資本、重算力、重軟體生態的產業,NVIDIA的CUDA工具鏈、成熟的GPU生態與廣泛的框架相容性,使其幾乎掌握了訓練晶片的全部話語權。而Cerebras雖然另闢蹊徑,推出了超大晶片的訓練平台,但仍限於科學研究機構和極少數商業化應用場景。
在這種格局下,新晉晶片企業在訓練市場幾乎沒有生存空間。 “訓練晶片的市場不是大多數玩家的競技場”,AI基礎設施創業者坦言,“光是拿到一張大模型訓練訂單,就意味著你需要燒掉數千萬美元——而且你未必贏。”
正因如此,那些曾在訓練晶片上「正面硬剛」NVIDIA的新創公司,開始尋求更容易進入、更能規模化落地的應用路徑。推理晶片,成為最佳選項。
Graphcore:推理成救命稻草
成立於2016年的英國AI晶片獨角獸Graphcore一度是NVIDIA最具挑戰性的對手之一,其IPU(Intelligence Processing Unit)主打用於神經網路訓練的平行處理架構。
根據Graphcore介紹,IPU是一種專為人工智慧和機器學習工作負載設計的處理器,與傳統的CPU或GPU相比,IPU 在結構和處理方式上都有所不同,旨在更有效率地執行AI 模型訓練和推理任務。

隨著全球對人工智慧晶片需求的持續飆升,Graphcore迅速崛起,並在短時間內吸引了大量投資者的關注,2020年,Graphcore 發布的Colosual MK2 GC200 IPU,採用台積電7奈米製程,據稱已接近NVIDIA A100 的表現,估值,其以28 億美元的年度有了2.2 億美元的新創公司籌集了2.22 億美元的新創公司。
在Graphcore技術負責人Simon Knowles看來,與英偉達展開全面競爭並不明智。他在The Robot Brains Podcast上分享了核心創業準則:絕不生產大公司現有產品的強化版,因為大公司擁有龐大市場基礎,新創公司難以直接抗衡。
他認為AI將存在於人類未來技術的各個領域,而不同產業需求無法由單一架構支持,Graphcore只需在特定領域讓IPU優於GPU,即可在這個快速成長的市場分得一杯羹。
由於架構的特殊性,IPU特別適合處理目前CPU和GPU無法最優運行的高效能運算任務,尤其是”稀疏資料”處理。分子就是典型應用案例-分子排列不規律,行為複雜且體積小,而IPU的大規模平行結構適合處理這類不規則資料結構。
在應用領域,IPU在化學材料和醫療領域表現突出,曾用於冠狀病毒研究。 2020年,微軟的Sujeeth Bharadwaj將IPU內置於Azure系統中用於識別新冠胸部X光片,他表示:“Graphcore芯片可在30分鐘內完成英偉達傳統芯片需5小時的工作。”
商業模式上,Graphcore將IPU整合於「pods」系統中,打包銷售給雲端運算和伺服器廠商。最令人矚目的無疑是2019年11月,微軟與Graphcore簽署了採購處理器的協議,這對於一家新創公司來說,無異於天上掉下了一塊吃不完的餡餅。
只可惜,現實是殘酷的,隨著市場對訓練平台的門檻不斷拔高,Graphcore的IPU系統在大型AI訓練項目中難以撼動NVIDIA的地位,2021年春季,隨著微軟終止與Graphcore的合作,這家初創企業就開始走向了衰落,為了削減成本,Graphcore在2022年9月宣布關閉奧斯
2023年,Graphcore被曝在北美大幅裁員、關閉美國業務,同時放棄了IPO計劃,創始人Simon Knowles在一次內部講話中承認:“訓練市場太集中,我們需要轉向能帶來收入的實際落地場景。”
2024年7月,日本軟銀集團宣布完成對Graphcore的收購,開始將重心轉向企業AI部署中的高效推理任務,其重新優化了Poplar SDK,推出輕量級模型推理加速方案,並面向金融、醫療和政府等場景,強調「高吞吐、低功耗」的AI推理解決方案。
對Graphcore來說,推理或許就是它最後的救命稻草。
英特爾Gaudi:不再死磕GPU
創立於2016年的Habana Labs,一度也是以色列的明星公司之一,旗下產品主要針對AI的推理預測與訓練。 2018年,Habana Labs推出旗下第一款產品-Goya推理處理器,主要用於AI推理與預測。而在2019年推出的Gaudi,主要用於AI訓練,在被收購前,其已經在AI晶片的訓練、推理兩端初步形成了完整產品線。
2019年,英特爾以20億美元的價格高調收購了Habana,而Gaudi也順勢成為了其AI訓練策略中的重要拼圖。 2022年5月,英特爾正式發布了採用了7nm製程得到Gaudi2 和Greco 深度學習加速器,根據英特爾介紹,其對比NVIDIA的A100 GPU 的吞吐量效能提高了2 倍。

儘管在部分性能參數上,英特爾Gaudi系列足以挑戰NVIDIA,但從後續的市場回饋來看,即使在雲端廠商中,Gaudi訓練平台的採用率也始終低迷。
一位前英特爾高層坦言:『從收購Habana的那一刻起,英特爾內部始終無法理解為何同時經營兩個開發競爭架構的部門-Habana和GPU部門。”Habana前員工則將英特爾的官僚效率視為嚴重障礙。一位前Habana員工對比道:”在Habana,五分鐘的走廊交談就能做出決定;而在英特爾,同樣的決定需要三次會議,數十人參與,卻毫無進展。”
直到2022年,英特爾一直雙線並行-一邊銷售Gaudi處理器,一邊開發競爭產品Ponte Vecchio GPU。然而,隨著ChatGPT等生成式AI模式崛起,英偉達的市場主導地位日益穩固,英特爾再次面臨顧客負面回饋。
2023年中期,英特爾宣布將Gaudi併入新成立的AI加速產品線,並將Gaudi 3的重點轉向“訓練+推理並重”,其中推理性能和性價比成為新賣點。
Gaudi 3在2024年初發佈時,英特爾重點宣傳的是其在推理場景下對大語言模型的加速表現——例如在運行Meta Llama 2等模型時,相比NVIDIA A100實現了更低的延遲和更高的能效。更重要的是,英特爾大力宣傳Gaudi在成本端的優勢,其「每美元推理吞吐量」高於同類GPU晶片近30%。
最終,英特爾開始嘗試整合業務,將Habana與GPU部門合併,並開發名為Falcon Shores的新型AI處理器——一款結合GPU(類似英偉達)和CPU(英特爾專長)的混合晶片。 Habana員工對此舉表示質疑,甚至自嘲道:”突然間,他們想起我們了。”
今年年初,英特爾除了公佈令人失望的財務業績外,還宣布其下一代Habana 處理器Falcon Shores 收到了客戶的負面回饋,因此不會進行商業化銷售。此前,大約六個月前,英特爾曾宣布Gaudi 未能達到2024 年實現5 億美元營收的預期。因此,英特爾決定不再開發Gaudi 3 之後的下一代產品。
截至目前,Gaudi 3被打包進入Supermicro等廠商的AI伺服器中,面向企業部署大模型、建構私有化語意搜尋、文件摘要、客服機器人等場景。對於希望「部分替代公有雲推理API」的中大型企業客戶而言,Gaudi正在成為一個價格友善選擇。
對英特爾來說,包括Gaudi在內的GPU業務的重要性正在不斷削弱,其未來可能也會更傾向於推理而非訓練。
Groq:以速度換市場
同樣是新創AI晶片的公司的Groq,其故事起點可以追溯到Google 內部。其創辦人Jonathan Ross 是Google 第一代TPU(Tensor Processing Unit)晶片的首席架構師。在目睹了TPU在深度學習訓練和推理上的突破後,Ross於2016年離開Google,成立了Groq,試圖打造一個比TPU更快、更可控的「通用AI處理器」。
Groq的核心技術是自研的LPU(Language Processing Unit) 架構。這種架構拋棄了傳統的亂序執行和動態調度機制,採用靜態調度、資料路徑固定、執行流程可預測的「確定性設計」(deterministic design)。 Groq 宣稱,這種設計可以實現極低延遲和高吞吐率,非常適合大規模推理任務。

一開始,Groq也曾押注訓練市場,其在早期嘗試將LPU推向大模型訓練市場,宣稱其架構可提供比GPU更高的利用率和更快的訓練週期。但現實卻是殘酷的:NVIDIA的CUDA生態障礙幾乎無法撼動,訓練市場的競爭邏輯更多拼的是「大生態+ 大資本+ 大客戶」。對於晶片新創公司而言,很難獲得主流AI實驗室和雲端廠商的認可。
同時,Groq的架構對主流AI框架(如PyTorch、TensorFlow)的相容性有限,也缺乏成熟的編譯工具鏈支撐,使得訓練任務的遷移成本極高。這些現實逼迫Groq重新思考其市場切入點。
從2023年下半年開始,Groq明確轉向推理即服務(Inference-as-a-Service)方向,打造一個完整的「AI推理引擎平台」-不僅提供晶片,更向開發者和企業開放超低延遲的API接口,強調「文字輸入後幾毫秒出結果」的極致回應。
Groq在2024年展示了其係統運行Llama 2-70B 模型時,實現了每秒超過300個Token的生成速度,遠超主流GPU系統。這項優勢讓Groq迅速吸引到一群對延遲敏感的垂直產業用戶,如金融交易系統、軍事資訊處理、以及語音/視訊同步字幕生成。
此外,Groq將產品定位從“AI晶片”擴展為“AI處理平台”,透過GroqCloud平台向開發者提供API訪問權限,與LangChain、LlamaIndex等生態集成,試圖把自己變成一個專注速度優化的大模型推理雲。
目前,Groq正在與多家新創AI應用公司合作,作為其低延遲後端推理服務提供方,在小型助理、嵌入式互動設備和高頻問答系統中獲得初步部署落地。
對Groq而言,專注推理速度讓它在一眾新創AI晶片公司中脫穎而出。
SambaNova:從系統即服務到推理即服務
SambaNova是少數幾家不靠「賣晶片」而是「賣系統」的AI晶片新創公司。其Reconfigurable Dataflow Unit(RDU)晶片架構採用資料流運算方式,以高吞吐量為賣點,曾在訓練大型Transformer模型時展現優越性。
SambaNova曾非常重視在其硬體上訓練模型,他們發布過關於如何在其硬體上訓練的文章,炫耀自己的訓練性能,並在官方文件中提及訓練,許多分析師和外部觀察者都認為,能夠用一款芯片同時處理訓練和推理市場,是SambaNova相較於Groq等競爭對手的一大優勢,而Groq是最早轉向推理的新創公司之一。

這家公司也投入了大量時間和精力來實現高效率的訓練功能。在2019年至2021年左右,SambaNova的工程師花了相當多的時間為NAdam優化器實現內核程式碼,這是一種常用於訓練大型神經網路的基於動量的優化器。其軟硬體特性都被設計並優化用於訓練,無論是對內或對外的訊息傳達中,而訓練也始終是SambaNova價值主張的重要組成部分。
然而,自2022年起,SambaNova的銷售重點已悄悄改變。公司推出了「SambaNova Suite」企業AI系統,不再強調訓練模式能力,而是聚焦「AI推理即服務」(Inference-as-a-Service)。使用者無需擁有複雜硬體或AI工程團隊,只需呼叫API即可完成大模型推理工作,SambaNova在後台提供算力與最佳化模型。
而在今年四月下旬,SambaNova Systems大幅轉變了最初的目標,其宣布裁員15%,並將重點完全轉向AI推理,幾乎放棄了先前主打的訓練目標。
據介紹,其係統特別適用於私有化模型部署需求強烈的領域—如政府、金融、醫療。在這些領域,資料敏感、合規嚴格,企業更傾向於自己掌控模型運作環境。 SambaNova為其提供了「大模型交鑰匙工程」式方案,主打易部署、低延遲、符合合規的推理平台。
SambaNova目前與多個拉丁美洲金融機構、歐洲能源公司建立了合作,提供多語言文本分析、智慧問答和安全審計等大模型推理服務,商業化路徑逐漸清晰。
在經歷各種挫折之後,SambaNova也在推理AI市場中找準了自己的定位。
推理更吃香了
在一篇報導中,有分析師指出,要有效率地完成訓練,你需要複雜的記憶體層級結構,包括片上SRAM、封裝內HBM和片外DDR。而AI新創公司難以取得HBM,更難將HBM整合進高性能係統-所以像Groq和d-Matrix這樣的許多AI晶片就不具備足夠的HBM或DDR容量或頻寬來高效訓練大型模式。推理則沒有這個問題。在推理過程中,無需儲存梯度,激活值也可以在使用後丟棄。這極大減少了推理任務的記憶體負擔,也降低了僅支援推理的晶片所需的記憶體系統複雜度。
另一個挑戰是晶片間的網路通訊。在訓練中產生的所有梯度需要在所有參與訓練的晶片之間同步。這意味著你需要一個大型、複雜的全互聯網來有效率地完成訓練。相比之下,推理是一個前饋操作,每個晶片只需與推理鏈中的下一個晶片通訊。許多新創公司的AI晶片網路能力有限,不適合用於訓練所需的全互聯架構,但對推理工作負載卻綽綽有餘。 NVIDIA則很好地解決了AI訓練中記憶體和網路的雙重挑戰。
而目前就而言,NVIDIA的優勢過於明顯。由於採用CUDA賦予GPU的多功能性,NVIDIA的硬體能夠完成訓練和推理所需的全部運算。而在過去十年中,NVIDIA不僅致力於建立針對機器學習工作負載高度優化的晶片,還在優化整個記憶體和網路架構以支援大規模訓練和推理。
每顆晶片上搭載大量HBM,使得NVIDIA硬體能夠輕鬆且有效率地快取每一步訓練產生的梯度更新。再加上NVLink等規模擴展技術以及InfiniBand等集群擴展技術,NVIDIA硬體能夠勝任每一步訓練後對整個大型神經網路權重進行全局更新所需的全互聯網絡。像Groq和d-Matrix這樣的僅推理晶片在記憶體和網路能力上都無法與NVIDIA在訓練方面競爭。
而且事實證明,NVIDIA在訓練表現上的優勢不僅僅是HBM和網路。他們在低精度訓練方面投入了巨大努力,而頂級AI實驗室也相應地在演算法超參數調優上做了大量工作,以適配NVIDIA低精度訓練硬體的複雜細節。若要從NVIDIA轉向其他晶片進行訓練,就需要將極其敏感的訓練程式碼遷移到一個全新的硬體平台上,並處理一整套新的「坑」。對於一個GPT-4規模的大模型來說,這種遷移成本和風險極高。
AI推理並不新鮮,但當越來越多晶片公司「集體轉身」擁抱它,它便不僅是一個市場趨勢,更是一次策略轉向。在推理市場,贏家可以是個懂用戶需求的小團隊,也可以是專注於邊緣運算的新創公司。
未來的AI晶片競爭,將不再只圍繞浮點運算和TOPS展開,而是進入更貼近「真實世界」的階段——一個講究成本、部署、可維護性的時代。對AI晶片企業而言,從訓練到推理,不是放棄技術理想,而是走向產業現實。