馬斯克19天神速組裝10萬塊H100 未來規模將擴大一倍
這台全球最大AI超算Colossus由xAI和英偉達聯手建造,耗資數十億,10萬塊H100僅半個多月搭建完成,未來規模還將擴大一倍!兩個月前,馬斯克才剛自曝了xAI的Colossus超算,稱其為世界上最強大的AI訓練系統。最近,馬斯克又宣布了一條振奮人心的消息──集群即將擴展到20萬張H100/H200顯示卡!
同時,ServeTheHome也發布了一條15分鐘的視頻,公佈了這台超算的詳情!
來自ServeTheHome的Patrick Kennedy帶著攝影機探訪了這台超級計算機
這台全球最大的AI超級電腦Colossus位於美國田納西州孟菲斯,配備了10萬個英偉達Hopper GPU,並由英偉達Spectrum-X乙太網路提供網路傳輸支援。
目前,Colossus的第一階段建設已完成,集群全面上線,但這並不是終點。它很快就會迎來升級,GPU容量將翻倍,新增5萬塊H100 GPU和5萬塊下一代H200 GPU。
Colossus正在用於訓練xAI的Grok,並為X Premium訂閱用戶提供聊天機器人功能。
在訓練超大規模的Grok時,Colossus展現了前所未有的網路效能。在網路結構的所有層級中,系統在流量衝突的情況下沒有經歷任何應用延遲降級或封包遺失。
透過Spectrum-X擁塞控制,它保持了95%的資料吞吐量。這種效能等級無法透過標準乙太網路實現,標準乙太網路在傳輸中會產生數千次流量衝突,資料吞吐量僅能達到60%。
由於保密協議的限制,這台超級電腦的一些細節並沒有透露。不過,像Supermicro GPU伺服器等關鍵零件的介紹在影片中都有所涉及。
液冷機架
Colossus集群的基本建造單元是Supermicro液冷機架。
每台機架包含八台4U伺服器,每台伺服器配備八個英偉達H100,共64個GPU。
八台此類GPU伺服器再加上一個Supermicro冷卻分配單元(CDU)及相關硬件,就構成了一個GPU電腦架。
這些機架以八台為一組排列,共512個GPU,並透過網路連接,形成更大系統中的小型集群。
xAI使用的是Supermicro 4U通用GPU系統。
這是目前市面上最先進的AI伺服器,有2個原因:其一是它的液冷程度;其二是設備的可維護性。
該系統被放置在托盤上,無需將系統從機架中移除即可維護。 1U機架分流器可為每個系統引入冷卻液並排出溫熱液體。快速斷開裝置讓液冷系統可以快速移除,甚至可以人工單手拆裝;移除後,托盤即可拉出以便維護。
下圖是一張該伺服器原型的照片,展示了這些系統的內部建構。
SC23展示的Supermicro 4U通用GPU系統:支援液冷英偉達HGX H100和HGX 200
上圖SC23原型中的兩個x86 CPU液冷模組相對常見。
特別之處在於右側:Supermicro的主機板整合了幾乎所有HGX AI伺服器中使用的四個Broadcom PCIe交換機,而不是將其單獨安裝在另一塊板上。 Supermicro為這四台PCIe交換器設計了客製化液冷模組。
其他AI伺服器通常是在風冷設計的基礎上加裝液冷,而Supermicro的設計則完全從零開始,為液冷而打造,且所有組件均來自同一供應商。
打個通俗的比方,這類似於汽車——有些車型先設計為燃油車,之後再安裝電動動力系統,而有些車型從一開始就是為電動車設計的。這款Supermicro系統就屬於後者,而其他HGX H100系統則屬於前者。
Patrick怒讚道:測評了各種各樣的液冷系統設計,這款Supermicro系統遙遙領先於其他系統!
網路系統
這裡的每條光纖連線速率為400GbE,是常見1GbE網路速率的400倍。此外,每個系統擁有9個這樣的連接,意味著每台GPU運算伺服器的頻寬達到約3.6Tbps。
打個比方,如果1GbE的普通家庭網絡好比是一條單車道公路,那麼這個400GbE就像是一條擁有400車道的高速公路。而每個系統有9條這樣的“高速公路”,相當於每台GPU運算伺服器擁有9條這樣的超寬頻公路,總頻寬達到3.6Tbps。
這個頻寬甚至超過了2021年初頂級Intel Xeon伺服器處理器在所有PCIe通道上所能處理的連接總量。
GPU的RDMA網路構成了該頻寬的大部分。每個GPU都有自己的NIC。
在這裡,xAI使用英偉達BlueField-3 SuperNIC和Spectrum-X網路。英偉達的網路堆疊中加入了一些獨特技術,可以幫助資料繞過叢集中的瓶頸,確保資料準確地傳輸到指定位置。
這是一個重大突破!許多超級電腦網路使用的是InfiniBand或其他技術,而這裡採用的是乙太網路。
乙太網路是網際網路的骨幹,因此它具有極強的擴展性。這些龐大的AI集群已擴展到一些更小眾技術未能觸及的規模。對於xAI團隊而言,這確實是一個大膽的舉措。
除了GPU的RDMA網路外,CPU還配備了400GbE連接,但使用完全不同的交換結構。 xAI為其GPU和叢集的其餘部分分別配置了獨立的網絡,這在高效能運算叢集中是非常常見的設計。
除了高速叢集網路外,還有低速網路用於管理介面和環境設備,這些都是此類叢集的重要組成部分。
參考資料: