NVIDIA「最強AI晶片」Blackwell B200 GPU令業界驚呼新的摩爾定律誕生
「最強AI晶片」 Blackwell B200 GPU的高調發布,已不單單是穩固英偉達在晶片領域的王者地位,更是讓業內人士高呼:新的摩爾定律誕生!在隔夜的2024 GTC大會上,黃仁勳介紹了運行AI模型的新一代晶片和軟體。他表示,新一代的B200 GPU擁有2,080億個晶體管,可以提供高達20 petaflops的FP4效能。相比之下,H100僅為4 petaflops。
在GTC直播中,黃仁勳左手舉著B200 GPU,右手舉著H100
此外,將兩台B200 GPU與單一Grace CPU 結合在一起的GB200,可為LLM推理工作負載提供30倍的效能,並且顯著提高效率。
黃仁勳也強調說:「與H100相比,GB200的成本和能耗降低了25倍!
關於市場近期頗為關注的能源消耗問題,B200 GPU也交出了最新的答案卷。
黃仁勳表示,先前訓練一個1.8 兆參數模型,需要8,000 個Hopper GPU 並消耗15 MW電力。但如今,2000 個Blackwell GPU就可以實現這一目標,耗電量僅4MW。
在擁有1750億參數的GPT-3大模型基準測試中,GB200的效能是H100的7倍,訓練速度是H100的4倍。
值得一提的是,B200 GPU的重要進步之一,是採用了第二代Transformer引擎。
它透過對每個神經元使用4位(20 petaflops FP4)而不是8位,直接將運算能力、頻寬和模型參數規模翻了一倍。
而只有當這些大量的GPU連接在一起時,第二個重要區別才會顯現,那就是新一代NVLink交換器可以讓576個GPU相互通信,雙向頻寬高達1.8TB/秒。
而這需要英偉達建構一個全新的網路交換晶片,其中包括500億個電晶體和一些自己的板載運算:擁有3.6 teraflops FP8處理能力。
在此之前,僅由16個GPU組成的集群,就會耗費60%的時間用於相互通信,只有40%的時間能用於實際計算。
一石激起千層浪,「最強AI晶片」的推出讓網友紛紛讚歎。
其中英偉達資深科學家Jim Fan直呼:Blackwell新王誕生,新的摩爾定律已經應運而生。
DGX Grace-Blackwell GB200:單一機架的運算能力超過1 Exaflop。
黃仁勳交付給OpenAI的第一台DGX是0.17 Petaflops。
GPT-4的1.8T參數可在2000個Blackwell上完成90天的訓練。
還有網友感嘆:1000倍成就達成!
Blackwell標誌著在短短8年內,NVIDIA AI 晶片的運算能力實現了提升1,000倍的歷史性成就。
2016 年,「Pascal」晶片的運算能力僅為19 teraflops,而今天Blackwell的運算能力已經達到了20000 teraflops。