老黃發布最強AIGC芯片“生成式AI的iPhone時刻已來”
他來了他來了,老黃帶著“最強生成式AI處理器”和一系列重磅更新來了!在計算機圖形學頂會SIGGRAPH上,老黃宣布了英偉達最新的超級芯片NVIDIA DGX GH200 Grace Hopper。這塊芯片搭載了全球最快的內存,不僅帶寬每秒5TB,內存容量更是暴增接近50%來到141GB,“任何大語言模型都能運行”。
同時,英偉達還宣布了和Hugging Face的合作——
以後在Hugging Face平台上,不需要再下載ML模型自己運行,只需要幾步簡單操作,就能在筆記本上運行大模型,有Colab內味了(就是不知道有沒有免費版)。
至於軟件更新,字裡行間也全是AI。
不僅在Omniverse平台中集成了一系列時下熱門的AI工具,新的軟件有不少也是基於大模型打造,像ChatUSD就能幫開發者們寫代碼。
這也是時隔五年,老黃再次登上SIGGRAPH的舞台。在會上,他自信滿滿地宣布:生成式人工智能的“ iPhone時刻”,已經來臨。
有網友看完發布會後感慨:英偉達在AI硬件這方面,已經無人能及了。
新芯片組成的“最強超算”來襲
這場發布會中最先拋出,也是最引人矚目的,非“最強超算”莫屬。
這台超級計算機由256塊DGX GH200 Grace Hopper(簡稱DGX GH200)連接而成。
用老黃的話,這個“龐然大物”就是為AIGC時代量身打造的。
它的算力和內存容量分別達到了1E(10^15)FLOPS和144TB。
下面這張圖展示了它的真實大小(中間的黑影是老黃)。
不僅是性能優異,對比發現,性價比簡直完爆CPU。
同樣花1億美元,拿來買CPU和GPU分別能得到什麼?
CPU的話,可以買8800個x86架構的產品。
這近九千塊CPU加起來,只能帶動一個LLaMA 2、SDXL這樣規模的AI程序。
功率嘛……是5兆瓦,也就是每小時5000度電。
如果換成GPU的話,則是2500塊DGX GH200。
能帶動的近似規模的AI程序一下增加到了12個,功率卻降低到了3兆瓦。
平均到單個程序上,需要210塊DGX GH200,價格是800萬美元,功率則為0.26兆瓦。
而組成這個“最強超算”的DGX GH200,同樣是王者級別,被稱為“最強生成式AI處理器”。
DGX GH200由Grace CPU和Hopper GPU組成。
其中Grace CPU包含72核心,而後者擁有4P(10^12)FLOPS的算力和500GB的LPDDR5X。
此外,DGX GH200中還加入了海力士的“最快內存”HBM3e。
它的容量為141GB,帶寬則高達每秒5TB,分別是H100的1.7倍和1.55倍。
(好傢伙,H100都只配當baseline了)
在DGX GH200中,CPU和GPU之間的連接速度是第五代PCIe的7倍。
而從單塊DGX GH200到整個超級計算機的過程,主打的就是一個“疊”。
這要得益於它的多GPU高速連接能力。
雙聯體的DGX GH200,性能幾乎沒有損失,直接就是單體的兩倍。
將雙聯體的DGX GH200與BlueField-3 DPU和ConnectX-7網卡,就組成了一個“計算盒”。
通過NVLink,8個這樣的“計算盒”高速連接,就得到了DGX構建塊,總內存達到了4.6TB。
這樣的構建塊可以合二為一形成新的計算盒,並最終擴展成256 GPU的工作集群Superpod。
NVLink的高速連接能力,讓這256塊GPU“就像是一塊一樣”工作。
至此,顯卡超算的規模已經達到了本節開頭老黃所展示的水平。
但這還沒有結束——Superpod之間還能繼續連接。
在高速低延時的Quantum-2 Infiniband平台幫助下,超算的規模可以接著擴展……
講到這裡,老黃還打趣道:
如果哪天你從(某電商平台)上買顯卡的時候發現了它,千萬不要覺得驚訝!
總之,根據不同需要,利用DGX GH200將能構建出不同規模的、適應AIGC時代的超級計算機。
據預計,DGX GH200將於明(2024)年第二季度投產。
還發了3個RTX新專業顯卡
除了“最強生成式AI處理器”以外,英偉達這次也推出了3款船新的工作站顯卡:
RTX 5000、RTX 4500和RTX 4000。
這幾款顯卡均基於Ada Lovelace架構設計,目前參數已經同步英偉達官網:
當然,專業顯卡售價也更貴。
其中RTX 5000售價達到4000美元(約合人民幣2.87萬元),RTX 4500售價2250美元(約1.6萬元),RTX 4000售價1250美元(約8987元)。
老黃也在發布RTX顯卡時,再次說出那句經典名言:
買得越多,省得越多(the more you buy, the more you save)。
至於去年9月發布的RTX 6000 Ada顯卡,在這次大會上也推出了一個新的工作站設計:4塊疊起來,搞個頂級“疊疊樂”。
這樣設計的單個RTX工作站,單個可以提供5828 TFLOPS的AI性能,以及192GB的GPU內存。
除此之外,老黃還在這次大會上宣布了一個搭載L40S Ada GPU的新款OVX服務器,數據中心專用。
每台服務器搭載8塊L40S Ada GPU,每塊L40S包含高達18176個CUDA核心,可以提供提供近5倍於A100的單精度浮點(FP32)性能。
相比A100,L40S微調(fine-tune)大模型的性能提升了大約1.7倍。
(沒錯,A100已經被老黃用來給新硬件當對比了)
具體來說,在這個OVX服務器上微調一個860M參數的大模型,現在只需要7小時就可以完成;
400億參數的GPT-3大模型,更是只需要15個小時就能微調完成。
在渲染上,L40S性能也不錯,配備了142個第三代RT核心,可以提供212 teraflops的光線追踪性能。
預計L40S將於今年秋季上市。
AIGC版Colab來了,筆記本跑大模型
不僅是硬件上接連拋出一系列“重磅炸彈”,軟件方面英偉達也發布了多款新產品。
首先是和HuggingFace合作,把NVIDIA DGX Cloud AI整合到其中。
在HF的頁面中,一鍵就能讓模型在雲上調整運行。
英偉達科學家範麟熙(Jim Fan)激動地宣布了這一消息,還透露其中使用的每個節點都是8個H100或A100。
除了與HF合作,英偉達還推出了自己的Workbench平台。
通過連接雲端服務,用筆記本電腦就能跑大模型。
現場還播放了通過Workbench跑SDXL的演示視頻。
在Jupyter中,演示者讓SDXL畫一個“玩具老黃”。
此時的SDXL還不知道“玩具老黃”是個啥玩意兒。
於是演示者現場用8張圖對模型進行了微調。
微調後重新繪製的作品,是不是有那味了?
除了上述兩款大模型運行工具,英偉達還推出了最新版的企業軟件平台NVIDIA AI enterprise 4.0。
軟件包的數量達到了4500個,還有數以萬計的相關依賴,而且安全可靠。
Google、微軟、亞馬遜、甲骨文等英偉達合作方都會在自己的雲平台中集成這項服務。
“人類將成為一門新的編程語言”
除此之外,英偉達的計算機圖形與仿真模擬平台Omniverse,也宣布了一系列新進展。
一方面,更多AI工具可以直接在Omniverse裡面調用了。
包括對話式AI角色創建工具Convai、高保真AI動捕工具Move AI、AI低成本製作CG工具CGWonder Dynamics在內,一系列流行AI工具,現在都已經通過OpenUSD集成到Omniverse中。
就連Adobe,也計劃將Adobe Firefly作為API,提供在Omniverse中(就是估計會收費)。
另一方面,英偉達還將生成式AI技術和OpenUSD結合,推出了一些好用的AI工具。
例如ChatUSD,就是一個基於NVIDIA Nemo框架大模型Copilot,不僅可以回答開發者有關USD的問題,還能幫忙生成Python-USD代碼。
又例如DeepSearch,也是一個基於大模型的新工具,基於文本或圖像輸入,可以快速對數據庫進行3D語義搜索。
在這次大會上,老黃先是回顧了自己過去所做的“正確決定”——用AI重塑CG,為AI重新發明GPU。
隨後,他對未來AI行業的發展做了大膽的展望:未來,幾乎所有事物的前方都會有一個大語言模型。“人”,將成為一種新的編程語言。
以工廠為例,老黃認為,未來的工廠將會由軟件和機器人來“主宰”。
像汽車這樣的產品,本身就是機器人,所以生產汽車的工廠,將會呈現出機器人製造機器人的場面。
看來,乘大模型東風迅速崛起的英偉達,這次是真的要ALL IN生成式AI了。