現場直擊GTC:性能翻30倍的Blackwell晶片黃仁勳宣告「新工業革命」來了
2024年3月18日的GTC上,黃仁勳正式成了新的賈伯斯。當天下午黃仁勳走上台開始演講,而這次與以往都不同。這場發表會在SAP中心進行,人們在百公尺長的隊伍裡要經過兩個小時地檢票和等待,裡外轉好幾道彎,才進到演講會場。
這裡是矽谷許多演唱會和演出的舉辦地,佔地4.2萬平方米,曾舉辦過滾石和Bon Jovi 演唱會、美國NHL全明星賽,而現在站在舞台中央的是黃仁勳,他讓現場的許多開發者想到了賈伯斯。
在一段預熱片後,黃仁勳上台。背景停留在「我是AI」的介面。
「希望大家意識到這不是一場演唱會。你來到的是個開發者大會。」黃仁勳說。這是一場只有模擬而沒有動畫的發表會。他說。這也讓後來整場發表會越來越像科幻片。可能是人類史上最科幻的一場記者會。
「今天抵達GTC現場的公司們價值1 trillion。這麼多夥伴,需要這麼多的算力,怎麼辦?我們需要大得多的GPU。把所有GPU 連接起來,成千上萬個大的GPU裡是成千上萬小的GPU, 百萬個GPU讓你的效率提升!”
然後他簡單回顧了一下AI的發展歷史,「20年前我們就看到了它會到來」。
「然後CUDA和AI做了第一次親密接觸。」他說。「06年推出CUDA的時候,我們以為這是革命性的,會一夜成功,結果一等就等了二十年!”
「今天的一切都是homemade。」在一個個透過AI模擬出來的酷炫的影片後,一切鋪墊就緒了——英偉達就是這一切進步的基石。是時候該發布重要晶片了。
人們對此有預期,但當B200出現的時候,現場(可能包括全世界圍觀者)都還是忍不住驚呼。
這是Hooper後的新一代架構,以數學家Blackwell命名。在性能上,它就是黃仁勳「黃氏定律」的集大成者和奠基者。
以下是我用AI總結的Blackwell GPU的效能特性:
- 高AI性能:B200 GPU提供高達20 petaflops的FP4運算能力,這是由其2080億個電晶體提供的。
- 高效推理:當與Grace CPU結合形成GB200超級晶片時,它能在LLM推理工作負載上提供比單一GPU高出30倍的效能,同時在成本和能源消耗上比H100 GPU高出25倍。
- 訓練能力:使用Blackwell GPU,訓練一個1.8兆參數的模型所需的GPU數量從8000個減少到2000個,同時電力消耗從15兆瓦降低到僅四兆瓦。
- GPT-3表現:在GPT-3 LLM基準測試中,GB200的表現是H100的七倍,訓練速度提高了4倍。
- 改進的Transformer引擎:第二代Transformer引擎透過使用每個神經元的四位而不是八位,實現了計算、頻寬和模型大小的翻倍。
- 下一代NVLink開關:允許多達576個GPU之間進行通信,提供每秒1.8太比特的雙向頻寬。
- 新的網路交換晶片:擁有500億電晶體和3.6 teraflops的FP8運算能力,用於支援大規模GPU叢集的通訊。
- 擴充性:NVIDIA的系統可以擴展到數萬個GB200超級晶片,透過800Gbps的Quantum-X800 InfiniBand或Spectrum-X800乙太網路連接。
- 大規模部署:GB200 NVL72設計可以將36個CPU和72個GPU整合到一個液冷機架中,提供總共720 petaflops的AI訓練性能或1.4 exaflops的推理性能。
- 支援大型模型:單一NVL72機架可以支援高達27兆參數的模型,而且有趣的是,黃仁勳似乎透露了一下GPT-4的參數,它可能是一個約1.7兆參數的模型。
(更多關於B200的解讀我們會在今天稍晚帶來,歡迎關注矽星人GTC後續報道)
黃仁勳回顧了自己送給OpenAI的第一個DGX,它只有0.17Peataflops,而今天的DGX Grace-Blackwell GB200已經超過1 Exaflop的算力。
老黃站在這張圖前講了半天,這畫面讓你覺得摩爾定律可能真的死了,黃氏定律正式登基。
在B200的發布後,黃仁勳用一個AI生成的模擬短片介紹了「配套」的一系列產品,從集群到資料中心的交換器等。基本都是性能怪獸。
GB200超級晶片就是將兩個B200 GPU與一個Grace CPU結合在一起,它能將成本和能源消耗比H100降低多達25倍」。黃仁勳表示自己可得拿穩了,「這塊很貴,可能100億?不過以後會便宜的。」現場爆笑。
同時,他也強調了新一代晶片和相關產品在能耗上的改進。先前訓練一個1.8兆參數的模型需要使用8000個Hopper GPU和15兆瓦的電力。如今,使用2000個Blackwell GPU可以完成相同的任務,同時只消耗4兆瓦的電力。
黃仁勳說,英偉達也正在將它們打包成更大的設計,例如GB200 NVL72,把36個CPU和72個GPU整合到單一的液冷機架中,提供總共720 petaflops 的AI訓練性能或1440petaflops的推理性能。它內部有近乎兩英里的電纜,包括5000條獨立電纜。
此外他也刻意強調了推理表現的提升,畢竟英偉達最新的財報已經顯示,它的收入越來越多的來自客戶們在AI推理部分的支出。主要的雲廠商也都被點名表揚了一下,他們和英偉達越來越不可分離。
軟體方面, 黃仁勳介紹到,英偉達正在打包預訓練模型及其附屬延伸,並簡化了稱為NVIDIA推理微服務(NIMS)的微服務部署。這不僅是之前的CUDA,而是讓模型更容易實施和管理的平台。
“你現在就可以下載,帶走,安裝在你自己的數據中心”,他說。
並且NVIDIA提供服務可協助企業和應用程式對模型進行微調或客製化。
在羅列了一系列在氣象和科學上的合作後,黃仁勳開始進入關於機器人技術的部分,這場發表會開始變得更加科幻。
黃仁勳說,英偉達正在押注的下一代產品是能夠控制人形機器人。Jetson Thor 是接替NVIDIA Jetson Orin,為機器人技術推出的更新產品。
「確實,世界是為人類設計的,所以我們希望使用英偉達Thor晶片和GR00T軟體來訓練和管理新一代的人形機器人。這樣的機器人將能更好地適應人類設計的環境和工作流程,從而在多樣化的任務和場景中提供幫助。”
機器人展示影片過後,舞檯燈光再次亮起時,黃仁勳與身後所有由公司提供動力的人形機器人站在一起,向觀眾致意。不知為什麼有種鋼鐵人的意思~
也帶領兩個在NVIDIA Isaac SIM中學會走路的迪士尼小型機器人。黃仁勳說話時它們一直扭扭捏捏,讓老黃不得不低頭憐愛地低聲說:「Orange(小機器人的名字),我在努力專心!不要再拖延時間了」——超級可愛,把現場氣氛推向高潮。
而在黃仁勳和這兩個小機器人一起「打開」的謝幕影片裡,一架微型小飛船飛過英偉達歷代GPU產品、架構,在光纜中完成了技術巡禮,最後飛機艙門不經意的打開,駕駛員正是黃仁勳的卡通虛擬數位人。
在主題演講結束前,黃仁勳又總結了今天的發表會,而近距離鏡頭可以看到,黃仁勳似乎有些帶著淚光。
“如果你問我,心目中的GPU是什麼樣子,今天的發布就是我的答案。”
他說今天他展示了什麼是英偉達的靈魂。「我們站在計算科學和物理等其他一切科學的交叉點」。這是他心裡英偉達的定位。
「新的工業革命來了。」而他沒說的,是藏在今天一堆PPT裡某一張的那行小字——英偉達,新工業革命的引擎。
這是黃仁勳的時代了。
來源:矽星人Pro