英偉達掌握AI時代「摩爾定律」 會加大中美AI公司差距麼?
英偉達在2024 GTC大會上發表了多款晶片、軟體產品。創辦人黃仁勳表示:“通用運算已經失去動力,現在我們需要更大的AI模型,更大的GPU,需要將更多GPU堆疊在一起。這不是為了降低成本,而是為了擴大規模。”
作為GTC大會的核心,英偉達發布了Blackwell GPU,它分為B200和GB200系列,後者整合了1個Grace CPU和2個B200 GPU。
NVIDIA GB200 NVL72大型機架系統使用GB200晶片,搭配NVIDIA BlueField-3資料處理單元、第五代NVLink互聯等技術,對比相同數量H100 Tensor核心的系統,在推理上有高達30倍的性能提升,並將成本和能耗降低了25倍。
在AI應用方面,英偉達推出Project GR00T機器人基礎模型及Isaac機器人平台的重要更新。
英偉達展示其AI晶片的算力在過去8年實現了1000倍的增長,這代表AI時代的摩爾定律(算力快速增長,算力成本快速下降)正在形成。
01
實現10兆參數AI模型的訓練與即時推理
在GTC大會上,英偉達不僅發布了算力方面的更新,也介紹了其在應用方面的進展。
1.更強的訓練算力,更快、成本更低的推理
Blackwell不僅是一塊晶片,也是一個平台。英偉達的目標是讓規模達到10兆參數的AI模型可以輕鬆訓練和即時推理。
它最小的單元是B200,內建2,080億個電晶體,使用客製化的4NP TSMC製程製造,採用Chiplet架構,兩個GPU dies透過每秒10TB的晶片到晶片連結連接成一個統一的GPU。
GB200超級晶片則將兩個B200 Tensor核心GPU透過每秒900GB的超低功耗NVLink晶片到晶片互連技術與NVIDIA Grace CPU連接。
再往上一層,則是NVIDIA GB200 NVL72,這是一個多節點、液冷的機架系統,它內含36個Grace Blackwell超級晶片,包括72個Blackwell GPU和36個Grace CPU,在NVIDIA BlueField- 3資料處理單元的支援下,它能實現雲端網路加速、可組合儲存、零信任安全性以及在超大規模AI雲中的GPU運算彈性。
這個系統可以被當作”單一GPU”來運作,這時它能提供1.4 exaflops的AI效能和30TB的快速記憶體。據稱,一個GB200 NVL72就最高支援27兆參數的模型。
最大規模的系統則是DGX SuperPOD,NVIDIA GB200 NVL72是DGX SuperPOD的建置單元,這些系統透過NVIDIA Quantum InfiniBand網路連接,可擴展到數萬個GB200超級晶片。
此外,NVIDIA也提供HGX B200伺服器板,透過NVLink將八個B200 GPU連接起來,支援基於x86的生成式AI平台。HGX B200透過NVIDIA Quantum-2 InfiniBand和Spectrum-X乙太網路平台支援高達400Gb/s的網路速度。
GB200也將在NVIDIA DGX雲端上提供給客戶,這是一個與AWS、Google雲端和甲骨文雲等領先的雲端服務供應商共同設計的AI平台,為企業開發者提供專用存取權限,以建置和部署先進的生成式AI模型所需的基礎設施和軟體。
英偉達以實際的模型訓練為例,訓練一個GPT-MoE-1.8T模型(疑似指GPT-4),先前使用Hopper系列晶片需要8000塊GPU訓練90天,現在使用GB200訓練同樣的模型,只需要2000塊GPU,能耗也只有之前的四分之一。
由GB200組成的系統,相較於相同數量的NVIDIA H100 Tensor核心GPU組成的系統,推理效能提升30倍,成本與能耗降低25倍。
在背後支援這些AI晶片和AI算力系統的是一系列新技術,包括提升效能的第二代Transformer引擎(支援雙倍的運算和模型大小)、第五代NVLink(提供了每個GPU1.8TB /s的雙向吞吐量);提升可靠性的RAS引擎(使AI算力系統能夠連續運行數週甚至數月);以及安全AI(保護AI模型和客戶資料)等。
在軟體方面,Blackwell產品組合得到NVIDIA AI Enterprise的支持,這是一個端到端的企業級AI作業系統。NVIDIA AI Enterprise包括NVIDIA NIM推理微服務,以及企業可以在NVIDIA加速的雲端、資料中心和工作站上部署的AI框架、函式庫和工具。NIM推理微服務可對來自英偉達及合作夥伴的數十個AI模型進行最佳化推理。
綜合英偉達在算力方面的創新,我們看到它在AI模型訓練和推理方面的顯著進步。
在AI的模型訓練方面,更強的晶片和更先進的晶片間通訊技術,讓英偉達的算力基礎設施能夠以相對較低的成本訓練更大的模型。GPT-4V和Sora代表了生成式AI的未來,即多模態模型和包括影片在內的視覺大模型,英偉達的進步讓規模更大、更多模態和更先進的模型成為可能。
在AI推理方面,目前越來越大的模型規模和越來越高的即時性要求,對於推理算力的挑戰十分嚴苛。英偉達的AI算力系統推理性能提升30倍,成本與能耗降低25倍。不僅讓大型模型的即時推理成為可能,而且解決了以往的並不算優秀的能源效率和成本問題。
2.著重發力具身智能
英偉達在GTC大會上公佈了一系列應用方面的新成果,例如生物醫療、工業元宇宙、機器人、汽車等領域。其中機器人(具身智能)是它著重發力的方向。
它推出了針對仿生機器人的Project GR00T基礎模型及Isaac機器人平台的重要更新。
Project GR00T是針對仿生機器人的通用多模態基礎模型,可作為機器人的“大腦”,使它們能夠學習解決各種任務的技能。
Isaac機器人平台為開發者提供新型機器人訓練模擬器、Jetson Thor機器人電腦、生成式AI基礎模型,以及CUDA加速的感知與操控庫
Isaac機器人平台的客戶包括1X、Agility Robotics、Apptronik、Boston Dynamics、Figure AI和XPENG Robotics等領先的仿生機器人公司。
英偉達也涉足了工業機器人和物流機器人。Isaac Manipulator為機械手臂提供了最先進的靈巧性和模組化AI能力。它在路徑規劃上提供了高達80倍的加速,並透過Zero Shot感知(代表成功率和可靠性)提高了效率和吞吐量。其早期生態系合作夥伴包括安川電機、PickNik Robotics、Solomon、READY Robotics和Franka Robotics。
Isaac Perceptor提供了多攝影機、3D環繞視覺能力,這些能力對於自動搬運機器人特別有用,它幫助ArcBest、比亞迪等在物料處理操作等方面實現新的自動化水平。
02
英偉達算力井噴後,對新創公司有何影響?
在發展方式上,英偉達與OpenAI等公司有明顯的差異。
OpenAI以及Anthropic、Meta等公司是以AI模型為核心,然後營運平台和生態;英偉達則以算力為核心,並拓展到軟體平台和AI的相關應用。並且在應用方面,它並沒有表現出一家壟斷的態勢,而是與各種行業的合作夥伴共創,其目的是建立一個軟硬體結合的龐大生態。
這次英偉達在算力方面的進步,對於AI新創公司也產生了深刻影響。
對於大模型領域創業公司,例如OpenAI等,這顯然是利好,因為他們能以更快的頻率,更低的成本訓練規模更大,模態更多的模型,並且有機會進一步降低API的價格,擴展客戶群。
對於AI應用領域的創業公司,英偉達不僅將推理算力性能提高了數十倍,也降低了能耗和成本。這讓AI應用公司們能在成本可負擔的前提下,拓展業務規模,隨著AI算力的進一步成長,未來AI應用公司的營運成本還可能進一步降低。
對於AI晶片領域的創業公司,英偉達的大更新讓他們感受到了明顯壓力,而英偉達提供的是一套完整的系統,包括算力晶片,晶片間通訊技術,打破記憶體牆的網路晶片等。AI晶片新創公司必須找到自己真正能建立優勢的方向,而不是因為英偉達這類巨頭的一兩次更新就失去存在價值。
中國的AI創業公司,因為各種各樣的原因,很難使用最新最強的英偉達AI晶片,作為替代的國產AI晶片在算力和能效比上目前仍有差距,這可能導致專注大模型領域的公司在模型的規模擴展和迭代速度上與海外的差距拉大。
對於中國的AI應用公司,仍有機會。因為它們不僅可以用國內的基礎模型,也可以用海外的先進開源模型。中國擁有全球頂尖的AI工程師和產品經理,他們打造的產品足可以參與全球競爭,這讓AI應用公司們進可以開拓海外市場,還有足夠龐大的國內市場做基本盤,AI時代的字節跳動、米哈遊很可能在它們中間產生。