伊隆馬斯克的xAI團隊在短短19天內搭建由10萬張H200構成的超級集群
H200 Blackwell GPU 是英偉達目前旗艦款的人工智慧加速卡,該GPU 提供超強的算力,不過要想用來訓練大型語言模型並提供服務那還得更龐大的計算集群。日前英偉達創始人黃仁勳在接受採訪時稱讚埃隆馬斯克旗下人工智慧公司xAI 取得的卓越成就:在短短19 天內搭建由10 萬張H200 GPU 構建的超級集群。
整個搭建過程最重要的就是複雜的設備安裝與連接,xAI 的這個新超級集群不僅有10 萬張H200 加速卡,還有10 萬張其他型號的加速卡。
黃仁勳表示通常資料中心需要四年時間才能完成搭建,這包括三年時間用於規劃和建設,第四年用於運送設備、安裝設備並進行調試使其正常運作。
即便在現有的資料中心內安裝20 萬張GPU 也是個極其龐大的過程,資料中心配備液冷技術和強大的電力設備,而英偉達也派遣了大量工程師協助xAI 進行部署。
有趣的是在短短19 天內這10 萬張H200 不僅被成功部署,甚至xAI 已經在這個集群上跑了一遍模型,也就是進行首次訓練,這個進度著實讓人震驚。
不過放在伊隆馬斯克身上這好像也不是特別讓人驚訝,例如在先前搬遷X/Twitter 伺服器過程中,工程師需要大量時間規劃並將機櫃拆除再包上各種防撞泡棉。
而伊隆馬斯克顯然非常嫌棄這種標準工作流程和進度,所以他的做法是直接進機房拔掉機櫃電源,接著讓震驚的工程師們直接化身搬運工將機櫃推出去直接裝車。
所以黃仁勳了解這次資料中心搭建過程後誇讚這是個前所未有的結果,而且可能不會再被其他公司複製,至少在很長一段時間內不會。
注意:這是黃仁勳受訪時發布的消息,該資料中心並不是最近才搭建的。