英偉達GPU 警鐘敲響
在傳出法國將對英偉達發起反壟斷調查後不久,又有新的不好消息傳出。據彭博社引述歐盟競爭事務負責人瑪格麗特·維斯塔格(Margrethe Vestager) 的警告稱,英偉達公司的AI 晶片供應存在“巨大瓶頸”,但表示監管機構仍在考慮如何解決這個問題。
「我們一直在向他們詢問問題,但這還只是初步問題,」她在新加坡之行中告訴彭博社。到目前為止,這「還不具備監管行動的條件」。
自從英偉達成為人工智慧支出熱潮的最大受益者以來,監管機構就一直關注著它。它的圖形處理單元(簡稱GPU)因其能夠處理開發AI 模型所需的大量資訊的能力而受到資料中心營運商的青睞。
晶片已成為科技界最熱門的商品之一,雲端運算提供者相互競爭以獲取這些晶片。據估計,NVIDIA 的H100 處理器需求旺盛,已幫助他們獲得80% 以上的市場份額,領先競爭對手英特爾公司和超微半導體公司。
儘管供應緊張,但Vestager 表示,人工智慧晶片供應的二級市場可能有助於激發創新和公平競爭。
但她表示,占主導地位的公司未來可能會面臨某些行為限制。
「如果你在市場上擁有這種主導地位,那麼有些事情你不能做,而小公司可以做,」她說。 “但除此之外,只要你做你的生意並尊重這一點,你就很好。”
6000億美元的“大難題”
儘管高科技巨頭在人工智慧基礎設施方面投入了大量資金,但人工智慧帶來的收入成長尚未實現,這表明生態系統的最終用戶價值存在巨大差距。事實上, 紅杉資本分析師戴維·卡恩( David Cahn)認為,人工智慧公司每年必須賺取約6,000 億美元才能支付其人工智慧基礎設施(例如資料中心)的費用。
去年,NVIDIA 的資料中心硬體收入達到475 億美元(其中大部分硬體是用於AI 和HPC 應用的運算GPU)。 AWS、Google、Meta、Microsoft等公司在2023 年為OpenAI 的ChatGPT 等應用程式在其AI 基礎設施上投入了巨額資金。然而,他們能賺回這筆投資嗎? David Cahn 認為,這可能意味著我們正在目睹金融泡沫的成長。
依照David Cahn的演算法,6000億美元這個數字,可以透過一些簡單的數學運算來得出。
你要做的就是將NVIDIA 的運行率收入預測乘以2 倍,以反映AI 資料中心的總成本(GPU 佔總擁有成本的一半,另一半包括能源、建築物、備用發電機等)。然後你再乘以2 倍,以反映GPU 最終用戶的50% 毛利率(例如,從Azure 或AWS 或GCP 購買AI 計算的新創公司或企業,他們也需要賺錢)。
讓我們來看看,自2023 年9 月(在當時,他認為人工智慧是2000億美元難題)以來發生了什麼變化?
一、供應短缺已經消退: 2023 年底是GPU 供應短缺的高峰期。新創公司正在給創投公司打電話,給任何願意與他們交談的人打電話,尋求幫助以獲得GPU。如今,這種擔憂幾乎完全消除了。對於我交談過的大多數人來說,現在以合理的交貨時間獲得GPU 相對容易。
二、GPU 庫存不斷增長: NVIDIA 在第四季度報告稱,其資料中心收入的一半左右來自大型雲端供應商。光是微軟就可能佔NVIDIA 第四季營收的約22%。超大規模資本支出正達到歷史水準。這些投資是大型科技公司2024 年第一季收益的主要主題,執行長們有效地告訴市場:「無論你喜不喜歡,我們都會投資GPU。」囤積硬體並不是一個新現象,一旦庫存足夠大以至於需求下降,就會成為重置的催化劑。
三、OpenAI 仍佔據著AI 收入的最大份額: The Information 最近報道稱,OpenAI 的收入現在為34 億美元,高於2023 年底的16 億美元。雖然我們已經看到少數新創公司的收入規模達到不到1 億美元,但OpenAI 與其他公司之間的差距仍然很大。除了ChatGPT,消費者今天真正使用了多少AI 產品?想想你每月花15.49 美元從Netflix 或每月花11.99 美元從Spotify 獲得多少價值。從長遠來看,AI 公司需要為消費者提供巨大的價值,才能繼續掏錢。
四、1250 億美元的缺口現在變成了5000 億美元的缺口:在最後的分析中,我慷慨地假設Google、微軟、蘋果和Meta 每年都能從新的AI 相關收入中產生100 億美元。我還假設甲骨文、位元組跳動、阿里巴巴、騰訊、X 和特斯拉每年都有50 億美元的新AI 收入。即使這仍然是正確的,並且我們在名單上再添加幾家公司,1250 億美元的缺口現在將變成5000 億美元的缺口。
這還沒完——B100 即將問世:今年早些時候,NVIDIA 宣布推出B100 晶片,其性能提升了2.5 倍,而成本僅增加了25%。我預計這將導致NVDA 晶片需求的最終激增。與H100 相比,B100 的成本與性能相比有了顯著的改善,而且由於每個人都想在今年稍後買到B100,因此很可能再次出現供應短缺。
在先前提出關於GPU的問題時,David Cahn收到的最主要反駁之一是“GPU 資本支出就像修建鐵路”,最終火車會開過來,目的地也會到來——新的農業出口、遊樂園、購物中心等。
David Cahn表示,其實他也同意這一點,但他認為這個論點忽略了幾點:
一、缺乏定價權:在實體基礎建設的情況下,您正在建造的基礎設施具有一些內在價值。如果您擁有舊金山和洛杉磯之間的軌道,那麼您可能擁有某種壟斷定價權,因為A 地和B 地之間只能鋪設這麼多軌道。在GPU 資料中心的情況下,定價權要小得多。 GPU 運算正日益成為一種以小時計量的商品。與成為寡占的CPU 雲不同,建構專用AI 雲的新進入者繼續湧入市場。在沒有壟斷或寡占的情況下,高固定成本+ 低邊際成本的企業幾乎總是會看到價格競爭到邊際成本(例如航空公司)。
二、投資浪費:即使是鐵路業,以及許多新科技業,投機性投資狂潮也常常導致高額的資本浪費。 《The Engines that Moves Markets 》是一本關於技術投資的最佳教科書,其主要觀點(確實,重點關注鐵路行業)是,許多人在投機性技術浪潮中損失慘重。挑選贏家很難,但挑選輸家(就鐵路業而言,運河)要容易得多。
三、折舊:從科技發展史我們得知,半導體趨於越來越好。 NVIDIA 將繼續生產更好的下一代晶片,如B100。這將導致上一代晶片的折舊速度加快。由於市場低估了B100 和下一代晶片的改進速度,因此它高估了今天購買的H100 在3-4 年後的價值。同樣,物理基礎設施不存在這種相似性,它不遵循任何「摩爾定律」類型的曲線,因此成本與性能的關係不斷改善。
四、贏家與輸家:我認為我們需要仔細研究贏家和輸家——在基礎設施建設過剩的時期,總會有贏家。人工智慧很可能是下一波變革性技術浪潮,GPU 運算價格的下降實際上也有利於長期創新,也有利於新創公司。如果David Cahn的預測成真,它將主要對投資者造成傷害。創辦人和公司建構者將繼續在人工智慧領域發展——他們將更有可能取得成功,因為他們將受益於較低的成本和在這項試驗期間累積的經驗。
五、人工智慧將創造巨大的經濟價值。專注於為最終用戶提供價值的公司創作者將獲得豐厚的回報。我們正在經歷一場可能定義一代人的科技浪潮。像NVIDIA 這樣的公司在推動這一轉變方面發揮了重要作用,值得稱讚,並且很可能在未來很長一段時間內在生態系統中發揮關鍵作用。
不過David Cahn也重申,投機狂潮是科技的一部分,所以沒什麼好害怕的。那些在這一刻保持頭腦清醒的人有機會創造極其重要的公司。但我們必須確保不要相信現在已經從矽谷蔓延到全國乃至全世界的妄想。這種妄想認為我們都會快速致富,因為AGI 明天就會到來,我們都需要儲存唯一有價值的資源,那就是GPU。
「事實上,前面的道路將是漫長的。它會有起有落。但幾乎可以肯定,它是值得的。」David Cahn強調。
潛在的挑戰者
雖然這是一個談了很多次,但似乎也有了結果的論調。如Futurum Group 執行長丹尼爾紐曼所說,“目前,世界上沒有英偉達的天敵。”
原因如下:NVIDIA 的圖形處理單元(GPU) 最初於1999 年為PC 視頻遊戲中的超快3D 圖形而創建,後來被證明非常適合訓練大規模生成式AI 模型,來自OpenAI、Google、Meta、Anthropic 和Cohere 等公司推動的模型的規模越來越大,進而需要使用大量AI 晶片來做訓練。多年來,NVIDIA 的GPU 一直被認為是最強大的,也是最搶手的。
這些成本當然不菲:訓練頂級生成式AI 模型需要數萬個最高階的GPU,每個GPU 的價格為3 萬至4 萬美元。例如,馬斯克(Elon Musk)最近表示,他的公司xAI 的Grok 3 模型需要在10 萬個NVIDIA 頂級GPU 上進行訓練才能成為“特別的東西”,這將為NVIDIA 帶來超過30 億美元的晶片收入。
然而,NVIDIA 的成功不僅是晶片的產物,還有讓晶片變得易於使用的軟體。 NVIDIA 的軟體生態系統已經成為大量專注於AI 的開發人員的首選,他們幾乎沒有動力去轉換。在上週的年度股東大會上,NVIDIA 執行長黃仁勳稱該公司的軟體平台CUDA(運算統一設備架構)是一個「良性循環」。隨著用戶的增多,NVIDIA 有能力投入更多資金升級該生態系統,從而吸引更多用戶。
相比之下,NVIDIA 的半導體競爭對手AMD控制著全球GPU 市場約12% 的份額,該公司確實擁有具有競爭力的GPU,並且正在改進其軟體,紐曼說。但是,雖然它可以為不想被NVIDIA 束縛的公司提供另一種選擇,但它沒有現有的開發者用戶群,這些開發者認為CUDA 易於使用。
此外,雖然亞馬遜的AWS、微軟Azure 和Google雲端等大型雲端服務供應商都生產自己的專有晶片,但他們並不打算取代NVIDIA。相反,他們希望有多種AI 晶片可供選擇,以優化自己的資料中心基礎設施,降低價格,並向最廣泛的潛在客戶群銷售他們的雲端服務。
J. Gold Associates 分析師傑克·戈爾德(Jack Gold) 解釋說:「NVIDIA 擁有早期發展勢頭,當你建立一個快速增長的市場時,其他人很難趕上。」他表示NVIDIA 在創建其他人所沒有的獨特生態系統方面做得很好。
Wedbush 股票研究高級副總裁Matt Bryson 補充說,要取代NVIDIA 用於訓練大規模AI 模型的晶片將特別困難,他解釋說,目前計算能力的大部分支出都流向了這一領域。 「我認為這種動態在未來一段時間內不會發生變化,」他說。
然而,越來越多的人工智慧晶片新創公司,包括Cerebras、SambaNova、Groq 以及最新的Etched和Axelera ,都看到了從英偉達人工智慧晶片業務中分一杯羹的機會。他們專注於滿足人工智慧公司的特殊需求,尤其是所謂的「推理」,即透過已經訓練過的人工智慧模型運行數據,讓模型輸出資訊(例如,ChatGPT 的每個答案都需要推理)。
例如,就在上週,Etched籌集了1.2 億美元,用於開發專門用於運行transformer 模型的專用晶片Sohu,Transformer 模型是OpenAI 的ChatGPT、Google的Gemini 和Anthropic 的Claude 使用的一種AI 模型架構。據介紹,該晶片將由台積電採用其4nm 製程生產,該公司表示還已從「頂級供應商」那裡獲得高頻寬記憶體和伺服器供應,但沒有透露這些公司的名字。 Etched 還聲稱,Sohu 的速度比NVIDIA 即將推出的Blackwell GPU“快一個數量級,而且更便宜”,八晶片Sohu 伺服器每秒可處理超過500,000 個Llama 70B token。該公司透過推斷已發布的NVIDIA H100 伺服器MLperf 基準測試數據做出了這一判斷,該基準測試顯示,八GPU 伺服器每秒可處理23,000 個Llama 70B token。 Etched 執行長Uberti在受訪時表示,一台Sohu伺服器將取代160 塊H100 GPU。
荷蘭新創公司Axelera AI 正在開發用於人工智慧應用的晶片,該公司上週宣稱也已獲得6,800萬美元美元融資,該公司正在籌集資金以支持其雄心勃勃的成長計畫。這家總部位於埃因霍溫的公司旨在成為歐洲版的NVIDIA,提供據稱比競爭對手節能10 倍、價格便宜5 倍的AI 晶片。 Axelera 創新的核心是Thetis Core 晶片,它在一個週期內可以執行驚人的260,000 次計算,而普通計算機只能執行16 次或32 次計算。這種能力使其非常適合AI 神經網路運算,主要是向量矩陣乘法。他們的晶片提供了高性能和可用性,而成本僅為現有市場解決方案的一小部分。這可以使AI 普及,讓更廣泛的應用程式和使用者能夠使用它。
與此同時,據報道,專注於以閃電般的速度運行模型的Groq 正在以25 億美元的估值籌集新資金,而Cerebras據稱在發布其最新晶片僅幾個月後就秘密提交了首次公開募股申請,該公司聲稱該晶片可以訓練比GPT-4 或Gemini 大10 倍的AI 模型。
所有這些新創公司一開始都可能專注於一個小市場,例如為某些任務提供更有效率、更快或更便宜的晶片。他們也可能更專注於特定行業的專用晶片或個人電腦和智慧型手機等人工智慧設備。 「最好的策略是開拓一個小眾市場,而不是試圖征服世界,而這正是他們大多數人正在嘗試做的,」Tirias Research 首席分析師Jim McGregor 說。
因此,也許更切題的問題是:這些新創公司與雲端供應商以及AMD 和英特爾等半導體巨頭一起能夠佔領多少市場份額?這還有待觀察,尤其是因為運行AI 模型或推理的晶片市場仍然很新。