英偉達的反擊:挾H100以令諸侯
論騷操作,矽谷恐怕沒有CEO能比得上黃仁勳。去年,黃仁勳向微軟、谷歌和亞馬遜這些雲端運算廠商提出了一個計劃:這些廠商都有很多搭載了英偉達GPU的伺服器,由英偉達租用這些伺服器,然後讓英偉達的工程師對其進行“優化”,再以英偉達的名義租給普通的AI企業,從中賺取差價。
說簡單點,以前微軟會直接把雲端服務賣給中小公司,現在由英偉達進來當中間商。當然依照英偉達官方的說法,此舉是為了「向雲端運算廠商展示在資料中心配置GPU的正確方法」[1]。
伺服器還是那台伺服器,但經過英偉達「優化」後,客戶就從微軟優化到英偉達了。但就是這樣一個匪夷所思的提議,除了亞馬遜之外,各大雲端運算廠商居然都同意了。
2023年3月,英偉達正式上線雲端運算服務DGX Cloud。事實證明,經過英偉達工程師的優化後,DGX Cloud在訓練大模型時表現得的確更好;在此基礎上,英偉達也破例允許短期租賃。僅僅半年時間,英偉達就拿下了軟體公司ServiceNow等大客戶。
科技公司願意配合英偉達騷操作的真實原因,可能還是因為英偉達手中握有大模型時代最稀缺的資源——H100。
當下,幾乎所有的企業都沒有足夠的算力。連OpenAI創始人阿爾特曼,都曾在一次聽證會上無奈地表示:“如果人們減少使用ChatGPT,我們會非常高興,因為我們的GPU非常短缺[2]。”
買了多少H100,甚至可以成為決定AI成就的關鍵因素。這也讓英偉達有了「挾H100以令諸侯」的底氣。
計算機的“稀土”
通常來說,科技企業會透過購買雲端運算廠商的服務,來滿足算力需求。從2023年3月開始,微軟Azure、亞馬遜AWS等雲端運算廠商也先後上架了HGX H100的租賃服務,HGX H100是由4個或8個H100組成的伺服器。
然而,當下供需嚴重失衡,雲端運算廠商這點H100存貨已經遠遠滿足不了市場的胃口。2023年H1的財報中,微軟特別更新了一條風險因素:如果無法取得足夠的AI晶片,雲端運算業務可能會中斷。
許多新創公司需要排隊等3-12個月,一旦友商搶在自己前面,那可能就是幾十上百億估值的損失。
HGX H100
無數「H100窮人」們,只能被迫發揮主觀能動性,看誰的路子更野。
面對《紐約時報》的採訪,一位創業家將H100比喻為「稀土」。早些時候,他跑去請求美國國家科學基金會投資自己,只因為基金會底下一個計畫剛好有少數空置的H100。
在矽谷,AI創業家打招呼的方式,都變成了「我認識一個有H100的傢伙」——不知道的還以為在買賣毒品[4]。
GPU Utils曾測算H100搶購潮背後具體的需求數據:
對需要自己訓練大模型、追求大力出奇蹟的企業來說,沒有個上萬塊H100都不好意思出門。由前DeepMind聯合創辦人蘇萊曼創辦的Inflection AI,成立方才一年,已買了2.2萬個H100;至於Meta這樣財大氣粗的公司,很可能會購買10萬個甚至更多。
對微軟Azure等雲端運算廠商來說,每一家也都需要至少3萬個H100。而其餘幾家私有雲,也將消耗總計約10萬個H100。
計算後發現,光是美國大型科技公司和少數幾家明星新創公司,需求量已達到約43萬個[5]。如果再算上其他新創公司、研究機構、大學,乃至富裕國家的追逐、再加之黃牛、黑市等不可控因素,實際需求很可能遠大於這個數字。然而根據英國《金融時報》爆料,今年H100的出貨量大約是55萬個[6]。
H100之所以令人如飢似渴,其中一個核心原因在於其近乎壟斷的市場地位。
面對大模型訓練對極致效率的需求,H100在大多數情況下都是最適解。
MPT-30B是第一個使用H100訓練的開源LLM(大語言模型),實際訓練只耗費了11.6天;相較之下,使用前一代的A100訓練則需要28.3天[7]。如若換成參數規模較龐大的AI,例如1800B的GPT-4,效率差異會更加明顯。跑馬圈地的時代,時間就是一切。
除此之外,H100在模型推理上的效率也遠高於A100。儘管H100的首發價約為3.3萬美元,如今二手市場價格更上漲至4-5萬美元;但若將H100和A100的性能分別除以各自的價格,能發現H100的性價比實際上也高於A100。
MPT-30B的具體訓練、推理狀況
黃仁勳說,“Buy more GPUs , the more money you save(買得多,省得多)”,似乎不無道理。
也因為如此,即便美國限制了H/A100的對華出口,國內科技公司仍在搶購閹割版的H/A800——儘管閹割版的晶片間數據傳輸速度只有前者一半,意味著需要在大模型訓練上花費更多時間。
除需求量龐大之外,造成H100短缺的另一個原因是產能的嚴重不足。
H100晶片需要使用SK海力士的HBM內存,以及台積電的CoWoS封裝——兩者都因過於昂貴,此前並沒能大規模市場化,預備產能並不多。由於產能爬坡尚需時間,有分析師預測H100的短缺至少會持續至明年一季度,也有人認為要到明年年底才有可能緩解[9]。
H100內部結構
H100的空前盛況,讓黃仁勳在短短一年時間內體驗了一回坐雲霄飛車的感覺。
去年第二季,消費市場萎靡不振加上挖礦企業札堆倒閉,英偉達交出了一份不及格的財報,「GPU滯銷,幫幫我們」的表情包一度遍地都是。一年之後,黃仁勳成功向資本市場展示了什麼叫做“反向暴雷”,同比營收暴漲854%,大幅超出了最樂觀分析師的預測。
巔峰換來了漫天的吹捧,但黃仁勳心裡清楚,英偉達的頭上一直懸掛著一把劍。
不可避免的戰爭
今年8月,傳奇工程師吉姆凱勒對媒體評論道,“我不認為GPU是運行AI的全部,世界憎惡壟斷[11]。”
此番發言雖有給自家AI晶片打廣告之嫌,卻也是業界的共識。
事實上,那些買了最多H100的大型科技公司,基本上都不太「安分」:微軟、Google、Meta,或多或少都嘗試過自研AI晶片。
這讓英偉達面臨一個異常尷尬的處境:在AI晶片領域,自己與「大客戶」之間,未來幾乎必有一戰。
大型科技公司選擇自研AI晶片,最初都源自於一個非常質樸的需求──省錢,其中最典型的便是Google。
早在2014年,Google已啟動了自研晶片計畫。彼時,OpenAI的首席科學家伊利亞也曾在Google工作,打造出了一套頗具顛覆性的AI模式。此模型脫胎於伊利亞的「大力出奇蹟」理念,只需要灌入足夠多且正確的數據,它便能更好地完成翻譯、語音辨識等工作。然而待到實際應用時,谷歌卻犯了難:
如果將AI服務安裝至10億多台安卓手機中,即使每個人每天只使用3分鐘,谷歌都需要2倍於目前資料中心的算力。當時Google已經建了15個資料中心,每個造價上億美金,「超級加倍」顯然不切實際。
最終,Google自研出了效能更強、功耗更低的TPU,大大提升了單一資料中心的算力供應,以更經濟實惠的方式解決了算力難題。
引進了TPU的資料中心
TPU的出現,令黃仁勳如坐針氈,開始了“爆改GPU”,很快在性能上實現了反超,其最新成果便是H100。不過,H100的售價實在太昂貴。
如果以重量出售H100,那麼其每盎司售價將達到黃金的一半;即便對地球上最賺錢的科技公司而言,這筆「英偉達稅」也堪稱天文數字。
然而,H100的實際製造成本並不高。根據金融顧問公司Raymond James測算,H100的成本約3,320美金,僅佔首發價的1/10,黃仁勳含淚賺10倍[12]。
自研晶片的經濟效益毋庸置疑,但除此之外其實還有另一個好處:垂直整合打造差異化。
堆疊算力不是簡單的往車上加汽油,需要考慮軟體適配性、自身業務需求等一系列問題。例如AI所使用的深度學習框架有多個派別,Google是TensorFlow,Meta用的PyTorch,而百度則有PaddlePaddle,硬體需要根據不同框架做適配。
專門訂製的AI晶片,可以更緊貼自身AI業務的需求。所以Meta今年又重啟了自研晶片計劃,針對PyTorch框架客製了全新的MTIA晶片。
對大公司來說,考慮晶片的核心其實不是算力,而是“單位美元提供的算力”,也就是成本。谷歌的TPU和特斯拉的Dojo都證明了,客製化服務的成本是可以接受的。
眼下,「反抗的星火」已經點燃。根據外媒爆料,大型科技公司的雲端運算團隊,已開始頻繁勸說客戶改用其自研晶片,而不是英偉達的GPU。英偉達固然是目前為止絕對的贏家,但沒人知道平衡什麼時候會被打破。
不過,面對這場不可避免的戰爭,英偉達也留了後手。
挾H100以令諸侯
英偉達打出的第一張牌,叫CoreWeave。
CoreWeave成立於2017年,最初是一家以太坊挖礦公司,後來轉型做起了雲端運算業務。根據CoreWeave創辦人透露,2022年公司營收為3,000萬美金,僅有微軟Azure的1/1133,在矽谷幾乎沒什麼存在感。
然而到了2023年,CoreWeave突然一夜成名,接連簽下Inflection AI和Stability AI兩個大客戶,年營收預計將達到5億美金,一年翻16倍。除此之外,微軟甚至決定在未來幾年花費數十億美金購買其服務;其中僅2024年的訂單,已有20億美金。
改變CoreWeave命運的貴人,正是英偉達。
今年4月,英偉達參與了對CoreWeave的投資;但比起美元,英偉達還給了它更稀有的資源——H100。CoreWeave是全球第一家上線HGX H100租賃服務的雲端運算企業,比微軟Azure還要早一個月。
CoreWeave三位創辦人
這番安排,其實是黃仁勳的有意為之。
H100近乎壟斷的市場地位加之嚴重短缺的現狀,讓英偉達手中多了一層權力:他可以自由決定優先供貨的對象。
相較於自己跟Big Tech們同床異夢的塑膠友誼,CoreWeave和英偉達是實打實的革命戰友。因此,英偉達削減了對大型科技公司的H100供應,轉而將這部分產能交給了CoreWeave等「自家兄弟」——它們曾確保不會自研晶片。
從結果來看,這項策略不僅避免了囤積現象的出現,也確實搶到了大型科技公司的蛋糕:
例如前文提到的Stability AI,在2022年底時一直將亞馬遜AWS視為唯一雲端服務商;然而到了今年3月,困於算力不足的Stability AI,悄悄叩開了CoreWeave的大門。
事實上,英偉達手中並非僅有CoreWeave一張牌。這位手握H100的投資人,也投資了同為雲端運算公司的Lambda Labs,以及三家從事大模型、應用程式開發的明星新創公司。
前DeepMind共同創辦人蘇萊曼創辦的Inflection AI,也接受了英偉達的投資
在畝產十萬大模型的當下,H100是比美元還珍貴的硬通貨,也為英偉達創造了一個寶貴的窗口期:盡可能讓更多公司用上H100,趁早建立起生態,「把朋友搞得多多的」。
那麼這個窗口期能持續多久呢?
尾聲
英偉達的一系列「騷操作」已經引來了美國反壟斷機構的注意,同時,全球瘋搶H100的現狀,很可能不會長期持續下去。
如前文所述,H100產能受限是因為台積電和SK海力士的預備產能不足;隨著新產線陸續落地,短缺狀況會逐漸得到緩解。
除此之外,旺盛的需求也未必延續下去。
事實上,越來越多的科技公司和研究機構都選擇將大模型開源。隨著市場上優質的開源模型越來越多,新創公司和研究機構不必再自己動手訓練,轉而直接下載開源模型,根據自身業務需求進行開發或推理。
在Meta發布開源大模型Llama後,史丹佛、卡內基美隆等多所高校的研究人員就曾聯合起來,以此為基礎打造了開源大模型Vicuna,很快便突破了200萬次下載。
Vicuna
在肉眼可見的未來,算力的主要使用場景很可能會從訓練轉向推理──屆時,H100便不再是獨孤求敗了。因為有別於追求極致效率的訓練場景,AI推理其實更重視性價比。
另一方面,以大模型為代表的生成式AI如今面臨的問題在於:面對高昂的算力成本,除了英偉達,大家都還沒賺到錢。
2006年CUDA平台推出時,英偉達以超脫於產業的前瞻性推動了AI的快速進步。而如今,英偉達氣勢如虹的業績似乎也是一種拷問:它是不是已經從AI的推動者,變成了AI前進的阻力?