英偉達經濟學:雲端服務商在GPU上每花1美元就能賺7美元
NVIDIA超大規模和HPC 業務副總裁兼總經理Ian Buck 最近在美國銀行證券2024 年全球技術大會上表示,客戶正在投資數十億美元購買新的NVIDIA硬件,以跟上更新的AI 大模型的需求,從而提高收入和生產力。
Buck表示,競相建造大型資料中心的公司將特別受益,並在資料中心四到五年的使用壽命內獲得豐厚的回報,「雲端供應商在購買GPU 上花費的每一美元,四年內(透過提供算力服務GAAS)都能收回5 美元。
「如果用於推理,則更有利可圖,每花費1 美元,在同樣的時間段內就能產生7 美元的營業額,並且這個數字還在增長。」 Buck說。
NVIDIA創辦人、總裁兼執行長黃仁勳和執行副總裁兼財務長Colette Kress先前也曾表達過同樣的觀點。
他們先前曾表示,借助CUDA演算法創新,NVIDIA將H100的LLM推斷速度提升至原來的3倍,這可以將Llama 3這類的模型的成本降低到原來的三分之一,而H200在推理性能上較H100幾乎翻了一番,為生產部署帶來了巨大的價值。
例如,使用7000億參數的LLama 3,單一HGX H200伺服器可以每秒輸出24000個Token,同時支援超過2400名用戶。
這意味著,以現有的定價來看,託管Llama3的API供應商每花費1美元在NVIDIAHGX H200伺服器上,未來四年內就可從Llama3 token計費中賺取7美元收入。
圍繞Llama、Mistral 或Gemma 的AI 推理模型正在不斷發展,並由Token提供服務。 NVIDIA正在將開源AI 模型打包到名為Nvidia 推理微服務(NIM) 的容器中。
NVIDIA最新推出的Blackwell 針對推理進行了最佳化,支援FP4 和FP6 資料類型,在運行低強度AI 工作負載時可進一步提高能源效率。
根據官方的數據,與Hopper相比,Blackwell 訓練速度比H100快4倍,推斷速度快30倍,並且能夠實時運行萬億參數大語言模型生成式AI,可進一步將成本和能耗降低到原來的25分之一。
這似乎呼應了黃仁勳多次喊出的「買的越多,省的越多」的口號,但不可忽視的是,NVIDIA GPU價格也在快速上漲。
為Rubin GPU做準備
很多雲端供應商提前兩年就已經開始規劃新的資料中心,並希望了解未來的AI GPU 架構會是什麼樣子。
NVIDIA在6月初的Computex 2024展會上宣布,Blackwell晶片現已開始投產,即將取代Hopper晶片。 2025年將會推出Blackwell Ultra GPU晶片。
NVIDIA也公佈了下一代整合HBM4的名為「Rubin」的AI平台,該GPU將於2026年發布,以取代Blackwell和Blackwell Ultra GPU。
「對我們來說,做到這一點真的很重要——資料中心不是憑空而來的,它們是大型建設專案。他們需要了解Blackwell 資料中心會是什麼樣子,它與Hopper資料中心有何不同。 」Buck說。
Blackwell 提供了一個轉向更密集的計算形式和使用液體冷卻等技術的機會,因為空氣冷卻效率不高。
NVIDIA已經宣布每年都會推出一款新的GPU的節奏,這有助於公司跟上AI 發展的步伐,進而幫助客戶規劃產品和AI 策略。
Buck說:“NVIDIA已經與那些最大的客戶針對Rubin GPU探討了一段時間——他們知道我們的目標和時間表。”
AI 的速度和能力與硬體直接相關。在GPU 上投入的資金越多,AI公司就能訓練出更大的模型,進而帶來更多收入。
微軟和谷歌將自己的未來寄託在人工智慧上,並競相開發更強大的大型語言模型。微軟嚴重依賴新的GPU 來支撐其GPT-4 後端,而谷歌則依賴其TPU 來運作其人工智慧基礎架構。
Blackwell供不應求
NVIDIA目前正在生產Blackwell GPU,樣品很快就會發布。但客戶可以預料,首批GPU(將於年底出貨)將供不應求。
「每一項新技術的轉型都會帶來……供需方面的挑戰。我們在Hopper 上就經歷過這種情況,Blackwell 的產能提升也將面臨類似的供需限制……今年年底到明年。」 Buck 說道。
Buck也表示,資料中心公司正在淘汰CPU 基礎設施,為更多GPU 騰出空間。 Hopper GPU 可能會保留,而基於舊Ampere 和Volta 架構的舊GPU 則會被轉售。
NVIDIA將保留多個層級的GPU,隨著Blackwell 的不斷發展,Hopper 將成為其主流AI GPU。 NVIDIA已經進行了多項硬體和軟體改進,以提高Hopper 的效能。
未來所有雲端供應商都將提供Blackwell GPU 和伺服器。
專家模型
Buck 表示,GPT-4 模型約有1.8 兆個參數,由於AI 擴展尚未達到極限,參數數量將持續成長。
「人類大腦的規模大概相當於1000 億到150 兆個參數,具體數量取決於個人,取決於大腦中的神經元和連接。目前,人工智慧的參數規模約為2 兆……我們尚未進行推理。
未來將會有一個包含數兆個參數的大型模型,在此基礎上將建立更小、更專業的模型。參數數量越多對NVIDIA越有利,因為它有助於銷售更多GPU。
NVIDIA正在調整其GPU 架構,從原始的基礎模型方法轉向混合專家模型。專家混合涉及多個神經網路透過相互參考來驗證答案。
Buck說:“1.8 兆參數的GPT 模型有16 個不同的神經網絡,它們都試圖回答各自層的部分問題,然後商討、會面並決定正確答案是什麼。”
即將推出的GB200 NVL72 機架式伺服器配備72 個Blackwell GPU 和36 個Grace CPU,專為混合專家模型而設計。多個GPU 和CPU 相互連接,從而支援混合專家模型。
「這些傢伙都可以相互通信,而不會在I/O 上受阻。這種演進在模型架構中不斷發生,」Buck 說。
鎖定客戶的技巧
NVIDIA執行長黃仁勳本月在HPE 的Discover 大會上發表了一些激烈的言論,呼籲人們購買更多該公司的硬體和軟體。
NVIDIA和HPE 宣布推出一系列新產品,其名稱簡單明了,為「Nvidia AI Computing by HPE」。
「我們設計了小號、中號、大號和特大號,你可以選擇,而且正如你所知,你買得越多,省得越多。」黃在Discover 的舞台上說道。
黃仁勳今年早些時候還發表了另一條備受爭議的言論,當時他說未來的程式設計師不需要學習如何編寫程式碼,但在Nvidia GPU 上載入AI 模型需要了解命令列和腳本,以創建和運行AI環境。
NVIDIA的專有言論和在人工智慧市場的完全主導地位使其成為反壟斷調查的目標。
當Buck 試圖淡化人們對CUDA 的擔憂時,他必須小心謹慎,他說「護城河是一個複雜的詞」。
NVIDIA兩位高層都表示,CUDA 是其GPU 的必備軟體——要最大限度地發揮GPU 的效能,就需要CUDA。開源軟體可以與Nvidia GPU 配合使用,但無法提供CUDA 庫和運行時的強大功能。
向下相容性和連續性是NVIDIA的獨特優勢,NVIDIA對AI 模型和軟體的支援可以延續到下一代GPU。但對於英特爾的Gaudi 等ASIC 則不然,它們必須針對每個新模型重新進行調整。