老黃深夜炸場:世界最強AI晶片H200震撼發布性能飆漲90%
英偉達的節奏,越來越可怕了。就在剛剛,老黃又一次在深夜炸場-發布目前世界最強的AI晶片H200!較前任霸主H100,H200的性能直接提升了60%到90%。不僅如此,這兩款晶片還是互為相容的。這意味著,使用H100訓練/推理模型的企業,可以無縫更換成最新的H200。
全世界的AI公司都陷入算力荒,英偉達的GPU已經千金難求。英偉達先前也表示,兩年一發布的架構節奏將轉變為一年一發布。
就在英偉達宣布這項消息之際,AI公司正為尋找更多H100而焦頭爛額。
英偉達的高階晶片價值連城,已經成為貸款的抵押品。
誰擁有H100,是矽谷最引人注目的頂級八卦
至於H200系統,英偉達表示預計明年第二季上市。
同在明年,英偉達也將發表基於Blackwell架構的B100,並計劃在2024年將H100的產量增加兩倍,目標是生產200多萬塊H100。
而在發布會上,英偉達甚至全程沒有提任何競爭對手,只是不斷強調“英偉達的AI超級計算平台,能夠更快地解決世界上一些最重要的挑戰。”
隨著生成式AI的大爆炸,需求只會更大,而且,這還沒算是H200。贏麻了,老黃真的贏了!
141GB超大顯存,效能直接翻倍!
H200,將為全球領先的AI運算平台增添動力。
它基於Hopper架構,配備英偉達H200 Tensor Core GPU和先進的顯存,因此可以為生成式AI和高效能運算工作負載處理大量資料。
英偉達H200是首款採用HBM3e的GPU,擁有高達141GB的記憶體。
與A100相比,H200的容量幾乎翻了一番,頻寬也增加了2.4倍。與H100相比,H200的頻寬則從3.35TB/s增加到了4.8TB/s。
英偉達大規模與高效能運算副總裁Ian Buck表示——
要利用生成式人工智慧和高效能運算應用創造智能,必須使用大型、快速的GPU顯存,以高速高效地處理大量資料。借助H200,業界領先的端到端人工智慧超算平台的速度會變得更快,一些世界上最重要的挑戰,都可以被解決。
Llama 2推理速度提升近100%
跟前代架構相比,Hopper架構已經實現了前所未有的效能飛躍,而H100持續的升級,和TensorRT-LLM強大的開源函式庫,都在不斷提高效能標準。
H200的發布,讓效能飛躍又升了一級,直接讓Llama2 70B模型的推理速度比H100提高近一倍!
H200是基於與H100相同的Hopper架構。這就意味著,除了新的顯存功能外,H200還具有與H100相同的功能,例如Transformer Engine,它可以加速基於Transformer架構的LLM和其他深度學習模型。
HGX H200採用英偉達NVLink和NVSwitch高速互連技術,8路HGX H200可提供超過32 Petaflops的FP8深度學習運算能力和1.1TB的超高顯存頻寬。
當以H200取代H100,與英偉達Grace CPU搭配使用時,就組成了效能更強勁的GH200 Grace Hopper超級晶片——專為大型HPC和AI應用而設計的運算模組。
下面我們來具體看看,相較於H100,H200的效能提升到底體現在哪些地方。
首先,H200的效能提升最主要體現在大模型的推理表現表現。
如上所說,在處理Llama 2等大語言模型時,H200的推理速度比H100提高了接近1倍。
因為計算核心更新幅度不大,如果以訓練175B大小的GPT-3為例,效能提升大概在10%左右。
顯存頻寬對於高效能運算(HPC)應用程式至關重要,因為它可以實現更快的資料傳輸,減少複雜任務的處理瓶頸。
對於模擬、科學研究和人工智慧等顯存密集型HPC應用,H200更高的顯存頻寬可確保高效地存取和操作數據,與CPU相比,獲得結果的時間最多可加快110倍。
相較於H100,H200在處理高效能運算的應用程式上也有20%以上的提升。
而對於使用者來說非常重要的推理能耗,H200相比H100直接腰斬。
這樣,H200能大幅降低用戶的使用成本,繼續讓用戶「買的越多,省的越多」!
上個月,外媒SemiAnalysis曾曝出一份英偉達未來幾年的硬體路線圖,包括萬眾矚目的H200、B100和「X100」GPU。
而英偉達官方,也公佈了官方的產品路線圖,將使用同一架構設計三款晶片,在明年和後年會繼續推出B100和X100。
B100,性能已經望不到頭了
這次,英偉達更是在官方公告中宣布了全新的H200和B100,將過去資料中心晶片兩年一更新的速率直接翻倍。
以推理1750億參數的GPT-3為例,今年剛發布的H100是前代A100性能的11倍,明年即將上市的H200相對於H100則有超過60%的提升,而再之後的B100,性能更是望不到頭。
至此,H100也成為了目前在位最短的「旗艦級」GPU。
如果說H100現在是科技業的“黃金”,那麼英偉達又成功製造了“鉑金”和“鑽石”。
H200加持,新一代AI超算中心大批來襲
雲端服務方面,除了英偉達自己投資的CoreWeave、Lambda和Vultr之外,亞馬遜雲端科技、Google雲端、微軟Azure和甲骨文雲端基礎設施,都將成為首批部署基於H200實例的供應商。
此外,在新的H200加持之下,GH200超級晶片也將為全球各地的超級運算中心提供總計約200 Exaflops的AI算力,以推動科學創新。
在SC23大會上,多家頂尖超算中心紛紛宣布,即將使用GH200系統建置自己的超級電腦。
德國尤里希超級運算中心將在超算JUPITER中使用GH200超級晶片。
這台超級計算機將成為歐洲第一台超大規模超級計算機,是歐洲高效能運算聯合專案(EuroHPC Joint Undertaking)的一部分。
Jupiter超級電腦基於Eviden的BullSequana XH3000,採用全液冷架構。
它總共擁有24000個英偉達GH200 Grace Hopper超級晶片,透過Quantum-2 Infiniband互聯。
每個Grace CPU包含288個Neoverse內核, Jupiter的CPU就有近700萬個ARM核心。
它能提供93 Exaflops的低精度AI算力和1 Exaflop的高精度(FP64)算力。這台超級電腦預計將於2024年安裝完畢。
由筑波大學和東京大學共同成立的日本先進高效能運算聯合中心,將在下一代超級電腦中採用英偉達GH200 Grace Hopper超級晶片建構。
作為世界最大超算中心之一的德州高級計算中心,也將採用英偉達的GH200來建構超級電腦Vista。
伊利諾大學香檳分校的美國國家超級運算應用中心,將利用英偉達GH200超級晶片來建構他們的超算DeltaAI,把AI運算能力提高兩倍。
此外,布里斯託大學將在英國政府的資助下,負責建造英國最強大的超級電腦Isambard-AI——將配備5000多顆英偉達GH200超級晶片,提供21 Exaflops的AI運算能力。
英偉達、AMD、英特爾:三巨頭決戰AI晶片
GPU競賽,也進入了白熱化。
面對H200,而老對手AMD的計畫是,利用即將推出的大殺器-Instinct MI300X來提升顯存效能。
MI300X將配備192GB的HBM3和5.2TB/s的顯存頻寬,這將使其在容量和頻寬上遠超H200。
而英特爾也摩拳擦掌,計畫提升Gaudi AI晶片的HBM容量,並表示明年推出的第三代Gaudi AI晶片將從上一代的96GB HBM2e增加到144GB。
英特爾Max系列目前的HBM2容量最高為128GB,英特爾計畫在未來幾代產品中,還要增加Max系列晶片的容量。
H200價格未知
所以,H200賣多少錢?英偉達暫時尚未公佈。
要知道,一塊H100的售價,在25000美元到40000美元之間。訓練AI模型,至少需要數千塊。
在此之前,AI社群曾廣為流傳這張圖片《我們需要多少個GPU》。
GPT-4大約是在10000-25000塊A100上訓練的;Meta需要大約21000塊A100;Stability AI用了大概5000塊A100;Falcon-40B的訓練,用了384塊A100。
根據馬斯克的說法,GPT-5可能需要30000-50000塊H100。摩根士丹利的說法是25000個GPU。
Sam Altman否認了在訓練GPT-5,但卻提過「OpenAI的GPU嚴重短缺,使用我們產品的人越少越好」。
我們能知道的是,等到明年第二季H200上市,屆時必將引發新的風暴。