揭秘馬斯克Colossus AI超算：整合了10萬個英偉達H100 GPU

2024-10-31 Comments 0 Comment

YouTube視頻博主ServeTheHome 首次曝光了埃隆·馬斯克（Elon Musk）旗下人工智能企業xAI的Colossus AI 超級電腦集群，其集成了100000個英偉達（NVIDIA）H100 GPU，號稱是目前全球最強大的AI超級電腦集群。

早在今年7月下旬，馬斯克就在「X」平台上宣布，自己已經啟動了「世界上最強大的AI 集群」。這座AI集群從開始建造到完成組裝僅花了122天就完成了，目前已經上線運行了約3個月。

根據ServeTheHome曝光的資訊來看，龐大的Colossus AI超級電腦叢集採用的是超威電腦（Supermicro）的伺服器，其基於NVIDIA HGX H100方案，每個伺服器中擁有8個H100 GPU，封裝在Supermicro 的4U 通用GPU 液冷系統內，為每個GPU 提供簡單的熱插拔液冷。

這些伺服器裝載在機架內，每個機架可容納8 台伺服器，也就是說每個機架內有64 個GPU。 1U 歧管夾在每個HGX H100 之間，提供伺服器所需的液體冷卻。每個機架的底部是另一個Supermicro 4U 單元，這次配備了冗餘泵浦系統和機架監控系統。

△四組xAI 的HGX H100 伺服器機架，每組可容納八台伺服器。（圖片來源：ServeTheHome）

△xAI Colossus GPU 伺服器的後部訪問。每台伺服器有9 條乙太網路電纜，每台伺服器有4 個電源。電源和液體冷卻軟管也可見。（圖片來源：ServeTheHome）

這些機架以8 個為一組配對，每個陣列有512 個GPU。每台伺服器都有四個冗餘電源，GPU 機架的後部露出三相電源、乙太網路交換器和一個提供所有液體冷卻的機架大小的歧管。

Colossus 集群中有超過1500 個GPU 機架，或近200 個機架陣列。據英偉達執行長黃仁勳稱，這200 個陣列的GPU 僅用了三週就完成了安裝。

由於AI 超級集群不斷訓練模型的高頻寬要求，xAI 在其網路互連性方面提供了超大的頻寬。

目前每個顯示卡都有一個400GbE 的專用NIC（網路介面控制器），每台伺服器還有一個額外的400Gb NIC。這意味著每台HGX H100 伺服器都有每秒3.6 TB 的乙太網路速率。整個叢集都在乙太網路上運行，而不是InfiniBand 或其他在超級運算領域標配的連線。

△仰望一大片的黃色乙太網路電纜，將xAI Colossus 集群連接在一起。多層過寬的電纜線路嵌入天花板。（圖片來源：ServeTheHome）

△xAI 的Colossus CPU 運算伺服器，看起來與該網站中也廣泛使用的Supermicro 儲存伺服器完全相同。（圖片來源：ServeTheHome）

當然，像xAI 旗下Grok 3 聊天機器人這樣基於訓練AI 模型的超級電腦需要的不僅僅是GPU 才能運作。

Colossus集群當中的儲存和CPU 電腦伺服器的詳細資訊仍未曝光，不過這些伺服器也大多採用Supermicro 機箱。一波又一波的NVMe 轉發1U 伺服器內部帶有某種x86 平台CPU，可容納儲存和CPU 運算，還具有後入式液體冷卻功能。

另外，在這個超級電腦集群的外面，還可以看到一些大量捆綁的特斯拉Megapack 電池（每個最多可容納3.9 MWh）。

此電池陣列的是為了應對突發停電的臨時備用電源，其可以在毫秒之間快速提供供電，相比柴油發電機反應要快得多，可以使得有足夠時間去啟動其他備用電源。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

揭秘馬斯克Colossus AI超算：整合了10萬個英偉達H100 GPU

2024-10-31 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆