英偉達發布用於AI的”世界上最強大晶片”Blackwell B200 GPU
NVIDIA的H100 AI 晶片使其成為價值數億美元的公司,價值可能超過Alphabet 和亞馬遜。儘管競爭對手一直在奮力追趕,但也許NVIDIA 即將擴大其領先優勢–憑藉新的Blackwell B200 GPU 和GB200″超級晶片”。
NVIDIA 執行長黃仁勳在GTC 現場直播中舉起他的新GPU(左邊),右邊是H100。
NVIDIA 表示,新的B200 GPU 擁有2,080 億個電晶體,可提供高達20petaflops 的FP4 算力,而GB200 將兩個GPU 和一個Grace CPU 結合在一起,可為LLM 推理工作負載提供30 倍的效能,同時也可能大大提高效率。NVIDIA 表示,與H100 相比,它的成本和能耗”最多可降低25 倍”。
NVIDIA 聲稱,訓練一個1.8 兆個參數的模型以前需要8000 個Hopper GPU 和15 兆瓦的電力。如今,NVIDIA 執行長表示,2000 個Blackwell GPU 就能完成這項工作,耗電量僅4 兆瓦。
NVIDIA 表示,在具有1,750 億個參數的GPT-3 LLM 基準測試中,GB200 的效能是H100 的7 倍,而NVIDIA 稱其訓練速度是H100 的4 倍。
這就是GB200 的樣子。兩個GPU、一個CPU、一塊電路板
NVIDIA 介紹說,其中一項關鍵改進是採用了第二代變壓器引擎,透過為每個神經元使用四個位元而不是八個位元,將運算能力、頻寬和模型大小提高了一倍(前面提到的FP4 的20 petaflops)。第二個關鍵差異只有在連接大量GPU 時才會出現:新一代NVLink 交換器可讓576 個GPU 相互連接,雙向頻寬達到每秒1.8 TB。
這就要求NVIDIA 打造一個全新的網路交換晶片,其中包含500 億個電晶體和一些自己的板載運算:NVIDIA 表示,該晶片擁有3.6 teraflops 的FP8 處理能力。
NVIDIA 表示將透過Blackwell 增加FP4 和FP6
NVIDIA 表示,在此之前,由16 個GPU 組成的叢集有60% 的時間用於相互通信,只有40% 的時間用於實際計算。
當然,NVIDIA 也指望企業大量購買這些GPU,並將它們包裝成更大的設計,例如GB200 NVL72,它將36 個CPU 和72 個GPU 整合到一個液冷機架中,可實現總計720 petaflops 的AI訓練表現或1440 petaflops(又稱1.4exaflops)的推理表現。它內部有近兩英里長的電纜,共有5000 條獨立電纜。
GB200 NVL72
機架上的每個托盤包含兩個GB200 晶片或兩個NVLink 交換機,每個機架有18 個前者和9 個後者。NVIDIA 稱,其中一個機架總共可支援27 兆個參數模型。據傳,GPT-4 的參數模型約為1.7 兆。
該公司表示,亞馬遜、Google、微軟和甲骨文都已計劃在其雲端服務產品中提供NVL72 機架,但不清楚它們將購買多少。
當然,NVIDIA 也樂於為公司提供其他解決方案。下面是用於DGX GB200 的DGX Superpod,它將八個系統合而為一,總共擁有288 個CPU、576 個GPU、240TB 記憶體和11.5 exaflops 的FP4 運算能力。
NVIDIA 稱,其係統可擴展至數萬GB200 超級晶片,並透過其新型Quantum-X800 InfiniBand(最多144 個連接)或Spectrum-X800 乙太網路(最多64 個連接)與800Gbps 網路連接在一起。
我們預計今天不會聽到任何關於新遊戲GPU 的消息,因為這一消息是在NVIDIA 的GPU 技術大會上發布的,而該大會通常幾乎完全專注於GPU 運算和人工智慧,而不是遊戲。不過,Blackwell GPU 架構很可能也會為未來的RTX 50 系列桌面顯示卡提供算力。