揭秘馬斯克Colossus AI超算:整合了10萬個英偉達H100 GPU
YouTube視頻博主ServeTheHome 首次曝光了埃隆·馬斯克(Elon Musk)旗下人工智能企業xAI的Colossus AI 超級電腦集群,其集成了100000個英偉達(NVIDIA)H100 GPU,號稱是目前全球最強大的AI超級電腦集群。
早在今年7月下旬,馬斯克就在「X」平台上宣布,自己已經啟動了「世界上最強大的AI 集群」。這座AI集群從開始建造到完成組裝僅花了122天就完成了,目前已經上線運行了約3個月。
根據ServeTheHome曝光的資訊來看,龐大的Colossus AI超級電腦叢集採用的是超威電腦(Supermicro)的伺服器,其基於NVIDIA HGX H100方案,每個伺服器中擁有8個H100 GPU,封裝在Supermicro 的4U 通用GPU 液冷系統內,為每個GPU 提供簡單的熱插拔液冷。
這些伺服器裝載在機架內,每個機架可容納8 台伺服器,也就是說每個機架內有64 個GPU。 1U 歧管夾在每個HGX H100 之間,提供伺服器所需的液體冷卻。每個機架的底部是另一個Supermicro 4U 單元,這次配備了冗餘泵浦系統和機架監控系統。
△四組xAI 的HGX H100 伺服器機架,每組可容納八台伺服器。 (圖片來源:ServeTheHome)
△xAI Colossus GPU 伺服器的後部訪問。每台伺服器有9 條乙太網路電纜,每台伺服器有4 個電源。電源和液體冷卻軟管也可見。 (圖片來源:ServeTheHome)
這些機架以8 個為一組配對,每個陣列有512 個GPU。每台伺服器都有四個冗餘電源,GPU 機架的後部露出三相電源、乙太網路交換器和一個提供所有液體冷卻的機架大小的歧管。
Colossus 集群中有超過1500 個GPU 機架,或近200 個機架陣列。據英偉達執行長黃仁勳稱,這200 個陣列的GPU 僅用了三週就完成了安裝。
由於AI 超級集群不斷訓練模型的高頻寬要求,xAI 在其網路互連性方面提供了超大的頻寬。
目前每個顯示卡都有一個400GbE 的專用NIC(網路介面控制器),每台伺服器還有一個額外的400Gb NIC。這意味著每台HGX H100 伺服器都有每秒3.6 TB 的乙太網路速率。整個叢集都在乙太網路上運行,而不是InfiniBand 或其他在超級運算領域標配的連線。
△仰望一大片的黃色乙太網路電纜,將xAI Colossus 集群連接在一起。多層過寬的電纜線路嵌入天花板。 (圖片來源:ServeTheHome)
△xAI 的Colossus CPU 運算伺服器,看起來與該網站中也廣泛使用的Supermicro 儲存伺服器完全相同。 (圖片來源:ServeTheHome)
當然,像xAI 旗下Grok 3 聊天機器人這樣基於訓練AI 模型的超級電腦需要的不僅僅是GPU 才能運作。
Colossus集群當中的儲存和CPU 電腦伺服器的詳細資訊仍未曝光,不過這些伺服器也大多採用Supermicro 機箱。一波又一波的NVMe 轉發1U 伺服器內部帶有某種x86 平台CPU,可容納儲存和CPU 運算,還具有後入式液體冷卻功能。
另外,在這個超級電腦集群的外面,還可以看到一些大量捆綁的特斯拉Megapack 電池(每個最多可容納3.9 MWh)。
此電池陣列的是為了應對突發停電的臨時備用電源,其可以在毫秒之間快速提供供電,相比柴油發電機反應要快得多,可以使得有足夠時間去啟動其他備用電源。