OpenAI的瘋狂「星際之門」資料中心將基於什麼晶片技術?
《The Information》在上週五復活節假期開始時報道了有關微軟和OpenAI合作的Stargate(星際之門)的報道,該報告與超以太網聯盟(微軟是其創始成員)設定的100 萬個互連端點的可擴展性未來乙太網路目標一致。
星際之門系統也從此引起了人們的議論。 Altman 似乎無法決定OpenAI 是否應該完全依賴微軟,但誰能怪他呢?這就是為什麼還有傳言稱OpenAI 正在設計自己的用於人工智慧訓練和推理的晶片,以及關於Altman試圖帶頭投資7 萬億美元晶片製造但隨後又放棄的令人憤慨的評論。
你不能怪Altman亂丟了他正在盯著的大數字。訓練人工智慧模型非常昂貴,並且運行推理——主要是生成tokern——也不便宜。正如NVIDIA 聯合創始人兼首席執行官黃仁勳最近在GTC 2024 會議上的主題演講中指出的那樣——他們是不可持續的昂貴。這就是Microsoft、Amazon Web Services、Google 和Meta Platform 已經創建或正在創建自己的CPU 和XPU 的原因。
隨著參數數量的增加以及資料從文字格式轉變為其他格式,如果目前的趨勢持續下去並且鐵可以擴展,那麼LLM只會變得越來越大——在未來幾年內將增長100 倍到1,000 倍。
因此,我們聽到《星際之門》的討論,這表明人工智慧訓練的上層毫無疑問是富人的遊戲。
根據您在最初的《星際之門》傳聞後的報告中所讀到的內容,《星際之門》是一個項目的第五階段,該項目將耗資1000 億至1150 億美元,星際之門將於2028年交付,並在2030 年及以後營運。微軟目前顯然正處於擴建的第三階段。據推測,這些資金數字涵蓋了機器的所有五個階段,目前尚不清楚該數字是否涵蓋了資料中心、內部機械以及電力成本。微軟和OpenAI 可能不會採取太多行動來解決這個問題。
目前還沒有討論Stargate 系統將基於什麼技術,但我們認為它不會基於NVIDIA GPU 和互連。它將基於未來幾代的Cobalt Arm 伺服器處理器和Maia XPU,乙太網路可擴展到單一機器中數十萬到100 萬個XPU。
我們還認為,微軟收購了DPU 製造商Fungible 來創建可擴展的乙太網路,並且可能讓Juniper Networks 和Fungible 的創始人Pradeep Sindhu創建匹配的乙太網路交換器ASIC,以便微軟可以控制其整個硬體堆疊。
當然,這只是一個猜想。
無論Microsoft 使用哪種乙太網路,我們都相當確定在某個時候100 萬個端點是目標,而我們也相當確定InfiniBand 不是答案。
我們也認為,假設的這款XPU 將與未來的NVIDIA X100/X200 GPU 或其後繼產品(我們不知道其名稱)一樣強大是不太可能的。微軟和OpenAI 更有可能嘗試大規模擴展更便宜的設備網絡,並從根本上降低人工智慧訓練和推理的整體成本。
他們的商業模式取決於這種情況的發生。
而且我們也可以合理地假設,在某個時候NVIDIA 將不得不創建一個擠滿矩陣數學單元的XPU,並捨棄讓該公司在資料中心運算領域起步的向量和著色器單元。如果微軟為OpenAI 打造了一個更好的mousetrap,那麼NVIDIA 將不得不效仿。
Stargate 肯定代表了人工智慧支出的階梯函數,也許還有兩個階梯函數,這取決於你想要如何解釋數據。
在資料中心預算方面,微軟迄今公開表示的全部內容是,它將在2024 年和2025 年在資料中心上花費超過100 億美元,我們推測其中大部分支出用於支付AI 伺服器的成本。那些1000 億美元或1150 億美元的數字太模糊,無法代表任何具體內容,因此目前這只是一些大話。我們要提醒您的是,在過去的十年中,微軟至少保留了1000 億美元的現金和等價物,並在2023 年9 月的季度達到了接近1440 億美元的峰值。截至2023 日曆年(微軟2024 財年第二季),該數字下降至810 億美元。
因此,微軟現在沒有足夠的資金來一次性完成Stargate 項目,但其軟體和雲端業務在過去12 個月的銷售額總計達到825 億美元,而銷售額約為2,276 億美元。未來六年,如果軟體和雲端業務保持原樣,微軟將帶來1.37 兆美元的收入,淨利潤約為5,000 億美元。它可以承擔星際之門的努力。微軟也有能力購買OpenAI,然後就可以結束它了。
不管怎樣,我們為微軟可能已經建立的叢集以及未來可能為OpenAI 建構的叢集制定了預算,展示了它們的組成和規模如何隨著時間的推移而變化。看一下:
我們認為,隨著時間的推移,分配給OpenAI 的AI 群集數量將會減少,而這些群集的規模將會增加。
我們也認為OpenAI 叢集中GPU 的份額將會下降,而XPU 的份額(很可能在Maia 系列中,但也可能使用OpenAI 設計)將會上升。隨著時間的推移,自研XPU 的數量將與GPU 的數量相匹配,我們進一步估計這些XPU 的成本將不到資料中心GPU 成本的一半。此外,我們認為從InfiniBand 轉向乙太網路也將降低成本,特別是如果微軟使用自主研發的乙太網路ASIC 和內建人工智慧功能和集體操作功能的自主研發的NIC。 (就像NVIDIA 的InfiniBand 的SHARP 功能一樣。)
我們也強制採用支出模型,以便在2028 年有兩個擁有100 萬個端點的叢集-一個由GPU 組成,一個由自研XPU 組成,或兩個叢集各佔一半。我們想要估計未來的叢集效能,但這很難做到。每年可能會有更多的XPU 獲得適度的效能提升,但性價比卻高得多。
需要記住的是,微軟可以保留當前世代的GPU 或XPU 供OpenAI 內部使用(因此也是自己的),並在未來許多年內向用戶出售N-1和N-2代,很可能會獲得很多收益其投資誘餌再次回到OpenAI 上。因此,這些投資本身並不是沉沒成本。這更像是一個汽車經銷商駕駛著一大堆掛有經銷商牌照的不同汽車,但在出售它們之前並沒有將里程數提高得太高。
問題是:微軟會繼續在OpenAI 上投入巨資,以便扭虧為盈並租用這些產能嗎,還是會停止在OpenAI 上花費1000 億美元(兩個月前該公司的估值為800 億美元)?另外還要花費1100 億美元左右的基礎建設,以完全控制其人工智慧堆疊。
即使對微軟來說,這些數字也是相當大的。但是,正如我們所說,如果你看看2024 年至2028 年,微軟可能有大約5000 億美元的淨利潤可供使用。很少有其他公司這樣做。
微軟從一個BASIC 編譯器和一個從第三方拼湊出來的垃圾DOS 作業系統開始,為一個不理解它的絕望的藍色巨人做裝飾,這簡直是在放棄糖果店。
也許這也是奧特曼的惡夢。但考慮到將人工智慧推向新的高度需要巨額資金,現在可能為時已晚。