加錢掃貨、走私、裝甲車運輸,揭秘AI晶片背後的黑市風暴
去年9月,甲骨文董事長艾里森、特斯拉CEO馬斯克,一起請英偉達創辦人黃仁勳在矽谷一家豪華餐廳吃日料。年屆八旬的艾里森回想起那頓飯仍難以平靜。「席間埃隆(馬斯克)和我在乞求,我想用這個詞來形容我們再恰當不過了。吃了一個小時的壽司,也乞求了一個小時。”
兩位以狂妄著稱的大佬甘願伏低做小,只為能多分到一些「比毒品還難搞」的英偉達GPU,最後兩人未能如願。
而另一家矽谷巨頭思科為了保護剛買來的英偉達GPU,乾脆動用裝甲車來運。
正如科幻作品《沙丘》將香料設定為宇宙最重要的資源。今天同樣可以大膽宣稱:誰掌握了GPU,誰就掌握了AI時代的命脈。
去年以來,在加速運算和生成式AI的帶動下,算力需求變陡。英偉達GPU作為提供算力的核心硬件,業界對其的需求早已「遠遠超過了英偉達所能供應的極限」。
為了獲得盡可能多的GPU,全球科技圈從貴族俱樂部化身為私酒時代的芝加哥,產品、流量與成長交織的史詩,讓位給充斥著貪婪、炫耀、諂媚與背叛的大模型舞台劇。
破產邊緣到80億美元估值
在過去一年,英偉達GPU極度短缺,全世界的大廠或新創公司都在各顯神通解決「芯荒」難題。
對中國企業來說,GPU短缺是政策和產能兩方面造成的。
從2022年10月開始,英偉達就被禁止向中國出口A100、H100這兩款高階GPU。二道販子敏銳地嗅到了其中的商機。
有些企業從自家機房裡把晶片禁令生效前購買的A100拆出來,賣給販子。這些沒有保固、沒有保固的舊晶片,非但沒有貶值,價格還從出廠時的8萬多元漲到了10多萬元。
A100、H100分別由英偉達在2020年及2022年推出,上市時間並不長,其在國內市場的存貨相當有限。
另外,A100分為80GB、40GB兩個顯存版本,顯存越大,所能運作的神經網路越大,訓練大語言模型效果越好。廠商都想買80GB顯存版本的A100,導致存貨更加緊缺。
因此,有些黑心販子將A100的40GB版本改成80GB的來賣,很多急於購買的企業一時失察,買回去才發覺貨不對板。由於這類GPU來源特殊,上當的買家根本沒有保固和維權的途徑,只能吃啞巴虧。
但即便如此,低配置的二手A100在2023年依然供不應求。
過去一年,市面上英偉達GPU價格漲幅一度到了200%。A100最火熱的時候,網傳最高成交價接近25萬元。以這個價格,兩塊GPU就能換來一輛全新賓士E-Class轎車。
二道販子賣機房拆來的A100賺差價,畢竟只是小打小鬧。真正靠倒賣二手GPU發家的,還要屬於一家名為CoreWeave的美國公司。
CoreWeave最開始是一家「挖」比特幣的公司,其CEO回憶:「2016年,我們購買了第一塊英偉達GPU,插上電源後,將其放在曼哈頓辦公室的撞球桌上,然後挖到了以太坊網絡上的第一個幣。”
在生成式AI火熱之前,英偉達GPU除了作為遊戲顯示卡,最賺錢、最大的應用場景就是用於加密貨幣「挖礦」。因為GPU能以最快速度處理海量簡單重複的問題,天然就很適合用於晝夜不停地挖比特幣。
而CoreWeave的三位創辦人,一開始也只是將」挖礦」用於賺取額外收入,他們的本職工作是經營對沖基金和家族辦公室。可由於2016年加密貨幣熱,他們的GPU越買越多,導致「華爾街的辦公桌上堆滿了GPU」。
到了2018年底,CoreWeave已經成為北美最大的以太坊“礦場”,擁有超過五萬塊GPU,佔以太坊網路總量的1%以上。
透過將英偉達GPU用作“礦卡”,CoreWeave在加密貨幣領域賺到了第一桶金。但在2018年後,市場行情急轉直下,加密貨幣大幅貶值,與加密貨幣深度綁定的CoreWeave也幾度面臨財務危機,險些倒閉。
到2019年,CoreWeave決定轉型做服務。
CoreWeave加入英偉達的雲端服務供應商計劃,也就是圍繞英偉達的晶片構建了專門的雲端基礎設施。如果說英偉達是算力廠商,那CoreWeave就相當於算力經銷商。
到2022年底,ChatGPT發布,生成式AI突然爆火,CoreWeave手頭數萬塊GPU成為了硬通貨,因為GPU非常適合用於訓練AI大模型。它搖身一變,靠著手中累積的GPU,向OpenAI、微軟、Inflection等眾多AI巨頭賣算力。
2023年4月,CoreWeave也獲得來自英偉達的B輪融資。黃仁勳在業績電話會上點名:“一大批新的GPU專業化雲端服務供應商正在出現,最知名的當屬CoreWeave,他們做得非常出色。”
英偉達對「親信」CoreWeave可謂非常偏心。在一份研究機構Omdia披露的英偉達H100供貨單中,CoreWeave獲得的H100數量,比特斯拉還多。
也因為英偉達的“偏心”,除了賣算力服務,CoreWeave以囤積的英偉達晶片為抵押,從黑石、Coatue等頂級機構獲得了23億美元的債務融資。一舉將公司從破產邊緣,拉到了投後估值80億美金。
冒高風險,買走私卡
不是誰都有CoreWeave這麼好的運氣。
跟英偉達關係不夠親密的企業,尤其是中小企業,購買「走私晶片」成為無奈之下的選擇。
隨著全球AI大模型競爭愈發激烈,A100已經無法滿足一些企業的需求,性能更強勁的H100日趨搶手。
問題在於,H100實在太新了,存貨更少。沒有存貨,二道販子也無處發揮,走私販子們登場了。
走私販子們的來貨通路主要有兩條:一是等英偉達向美國大型企業出貨後,搶購市場上的剩餘庫存;二是透過在印度、新加坡、馬來西亞等地註冊公司進口。
相較於只有指甲蓋大小的微型晶片,H100的尺寸並不小。根據英偉達官方公佈的尺寸,H100整個晶片大小為814平方毫米,大概有兩個手掌大,走私販子只能將H100放進背包,接受正式的過關安檢。
有走私販子透露,由於每個國家把控嚴格度不一,如果把H100放在包包裡,把它報成普通電子設備。
麻煩的是伺服器架。H100需要插在伺服器架上,才能用於訓練AI大模型。一套完整AI伺服器要配置8塊H100,加上一台超微電腦的伺服器架,大約相當於保險箱。
面對如此龐然大物,自然無法靠人肉背回。一般的做法是化整為零,將伺服器拆開,用螞蟻搬家地方式發回。至於運送途中關鍵零件是否會損壞,運送到目的地如何組裝回去,一切都存在極大的風險。
H100在2022年3月剛發售時,售價折合人民幣約24.2萬元。如果兩年前屯了一批H100,什麼都不用做,每張到現在能淨賺6到9萬元。
在過去一年間,從朋友圈、小紅書等社交平台,到拼多多、閒魚等電商平台,再到各類垂直社區、垂直社群,有無數販子打出了「H100現貨,手慢無! 」、「稀缺H100現貨,先到先得!」、「原廠H100,見貨付款,欲購從速!」的標籤。
而如果進一步私聊,這些晶片販子會告訴你,產品沒有保固或支援服務,到貨最起碼需要6到8週,並且需要先付訂金。如果問及發貨地和貨源,販子們大多會回答稱“海外發貨,大陸交付,可以送至指定地點。”
據買家爆料,走中小型中間商通路,風險很高。
首先,交了定金,後續也可能因各種原因拿不到貨。其次,即使能拿到貨,諸如運輸過程中磕碰、泡水等現象,也時有發生,“碰到這種情況就只能自認倒霉,根本不存在退貨一說。”
但即便如此,在各個社群平台「H100預購從速」的貼文下方,仍有成群的用戶在諮詢價格。
搶購、加錢、售罄
購買走私GPU不是常態,對大公司而言,終究還是得跟英偉達做正經生意,從官方管道購買A100、H100。
2022年的出口禁令下發後,經英偉達遊說,重新獲得了出口許可。在2023年3月1日之前,英偉達可以繼續提供A100產品給中國大陸。
各家科技巨頭趕緊行動,經歷了「從搶購,到加錢,到售罄」的心路歷程。
根據《晚點》報道,張一鳴在卸任CEO後,把工作重點放在了研究AI上,不僅自己看AI相關論文,還經常跟一些字節高層分享論文學習心得,以及對ChatGPT的思考。高層對AI的重視,讓位元組在提前搶購英偉達晶片時佔了先機。
在GPT-4發布後不到3個月,位元組就被爆出,向英偉達訂購了超過10億美元(約合人民幣71億)的GPU,到貨和沒到貨的A100和H800總計有10萬塊。考慮到2022年全年,英偉達資料中心GPU在中國銷售額約100億元,也就是說,位元組一家公司的訂單,幾乎超過了英偉達過去一年在中國的總銷量。
另一家提前向英偉達下單,囤積GPU的巨頭是阿里。據一位阿里雲內部人士向《人物》透露,阿里雲專門成立了一個供應鏈團隊,其中有幾十人負責晶片採購,直接聽命於CTO。在阿里雲前CEO張勇卸任之前,通義千問等AI計畫都直接向他報告。
提前搶購A100、H100最直接的好處是-省錢。因為英偉達晶片的漲價,實際上與大模型的發展息息相關。2022年在ChatGPT剛發佈時,大廠普遍認為生成式AI很有潛力,但不成熟,不值得大批採購AI晶片。
但到2023年3月14日,OpenAI發布GPT-4後,大廠和VC們終於意識到,GPT的顛覆性威力,以至於各界迅速形成了共識——快搞大模型、快屯AI晶片!
也是從GPT-4發布後,大模型賽道湧進了大量熱錢,以及不差錢的大廠,英偉達晶片的價格也隨之水漲船高。大家都必須加錢才能搶到晶片。
依照《人物》的描述:「來自美團的高階主管帶著採購團隊,把數百台8卡A100伺服器,像買白菜一樣全部掃走。儘管一台機器的價格要大幾十萬,總訂單額過億,美團的人絲毫沒有猶豫,下單、簽合約、打預付款、提貨……流程飛快。”
再到後來,連加錢都買不到AI晶片了。商業巨頭和小公司處境幾乎一致。
亞馬遜雲CEO亞當·塞利普斯基就表示:“H100是最先進的……可即使對於AWS來說也很難獲得。”
富士康董事長劉永偉也表示,過去一年只有少數公司能獲得足夠的英偉達AI晶片來維持需求。在台北富士康年度員工聚會上,劉永偉對記者表示:“當要滿足(AI晶片)需求時,也許需要建立新工廠。”
吃英偉達的剩飯
英偉達GPU像香料一樣,誘惑著越來越多人參與這場爭奪。
在2023年拉斯維加斯的CES科技大會上,AMD CEO蘇姿豐表示:「AI已是AMD的第一個策略重點。預計AMD最新推出的Instinct MI300加速卡,可以幫助AMD佔領市場。」在介紹中,MI300X晶片是一款全面超越英偉達H100 AI晶片的產品。
在推出市場後,MI300也迅速成為了AMD史上銷售額最快達到10億美元的產品。
根據AMD財報,MI300晶片訂單的主要來源有微軟、Meta、甲骨文、Google、亞馬遜等大廠。與英偉達H100的客戶群高度重疊。
無怪乎《福克斯》認為:“如果業界還有英偉達潛在的對手,那一定包括蘇姿豐和她掌管的AMD。”
除了AMD,老牌晶片巨頭英特爾也不想在AI時代落後。
在過去一年,英特爾CEO帕特·基辛格多次表示:「生成式AI不僅可以在英偉達晶片上運作。」雖然英特爾最先進的AI加速晶片Gaudi 2在性能上不及英偉達H100。但基辛格認為,Gaudi 2成本更低,主打價格優勢,可以在性價比方面縮小與H100的差距。
同時,英特爾也宣布正在調整GPU策略,整合現有的Habana Labs、資料中心GPU兩大部門,於2025年推出新平台“Falcon Shores”,進一步增強AI晶片設計能力。
按基辛格的說法:“以後的AI算力競爭一定會很有趣。”
甚至除了老牌晶片巨頭,大量半導體新生力量,也試圖搶奪英偉達的市場份額。根據外媒報道,騰訊、阿里等網路巨頭,已經有些「看不上」英偉達的特供版晶片,轉而尋求與國內GPU廠商合作了。這些GPU廠商包括華為、燧原科技、摩爾線程等。
在黃仁勳最近的採訪中,連AMD都看不上的老黃表示:“在生產最好的AI晶片的競爭中,華為是英偉達非常強大的競爭對手之一。”
而燧原科技、摩爾線程等第二梯隊國產GPU公司,也在2023年拿到了數十億元不等的大額融資。
這一切變化都源自於,全球企業都在尋找英偉達GPU的替代品。畢竟,英偉達的GPU再好,只有能用上才是真好。單是英偉達滿足不了的市場需求,就足以餵飽一大批GPU新興企業。
但要取代英偉達又談何容易?
造成英偉達GPU短缺最根本的原因在於,GPU是一種極端複雜的產品,需要世界上最先進的生產工藝,目前只有台積電能夠加工生產,而台積電的產能是有限的。
目前H100都由台積電代工,使用4奈米製程(A100使用的是7奈米),從開始生產到出售給客戶,H100中間經歷的生產、包裝和測試環節,總共需要6個月左右。
根據GPU Utils發布的一份研究報告,限制GPU擴大生產的一個主要瓶頸,是所謂的CoWoS封裝技術。
CoWoS可以拆分成「CoW」和「WoS」來看。「CoW(Chip-on-Wafer)」指晶片堆疊;「WoS(Wafer-on-Substrate)」則是將晶片堆疊在基板上。CoWoS就是把晶片堆疊起來,再封裝於基板上,最終形成2.5D、3D的型態,減少晶片的空間,同時減少功耗和成本。CoWoS封裝技術目前的月產量也約1萬片。
台積電可不止為英偉達代工,AMD以及博通、思科和賽靈思等都同樣在使用CoWoS封裝技術製作晶片。
產能瓶頸限制GPU供應的難題,在短期內是無解的。即便如AMD設計出了強大的MI300加速卡,歸根究底還是要找台積電代工,台積電就算把給英偉達的產能給到AMD,等於市場上GPU的總量其實沒有增加。
同時,英偉達真正的壁壘,不只有GPU硬體效能,還在於其龐大的AI軟體生態CUDA。
簡單來說,決定GPU使用效果的不只是本身效能,還包括配套軟體和開發工具對應用的支援。目前英偉達定義了GPU通用運算程式框架CUDA,開發者早已習慣了用CUDA專有的程式語言,製作GPU驅動的應用程式。
如果開發者要遷移到Google、亞馬遜、微軟或國產的GPU,他們甚至需要學習全新的軟體語言,遷移成本顯然很高。
但後發廠商完全不必妄自菲薄,正如中國工程院院士、清華大學計算機系教授鄭緯民所言:“今天國產AI芯片只要達到國外芯片60%的性能,如果生態做好了,客戶也會滿意。”
只是在達到英偉達GPU 60%的性能之前,企業們看起來先選擇了以拆舊貨、走私、搶購、加錢掃貨等方式,緩解自身的AI晶片荒。