Meta兩個豪華AI集群曝光:每個配備2.4萬塊英偉達H100 價值數十億
美國時間週二,Facebook母公司Meta公佈了兩個資料中心規模新叢集的技術細節,它們各自擁有超過2.4萬個GPU,並在硬體、網路、儲存、設計、效能和軟體等方面上,專為支援大型語言模型如Llama 3進行訓練而深度最佳化。這兩個新集群是基於Meta先前研究超級集群(RSC)的成功。RSC自2022年啟用以來,已展現出強大的運算力。
在硬體配置方面,每個叢集都配備了24576個英偉達Tensor Core H100 GPU(每個數萬美元),與之前使用的16000個英偉達A100 GPU相比有了明顯提升,這將極大地促進自然語言處理、語音辨識和圖像生成等人工智慧研究和開發工作。
Meta表示,這種升級不僅在數量上有所增加,其性能上的躍進也將支援更大、更複雜的模型,為生成式人工智慧產品的開發鋪平道路。
Meta計劃在2024年底前,將其人工智慧基礎設施擴大到高達35萬個H100 GPU。目標是擁有相當於近60萬個H100 GPU的算力。
雖然兩個新叢集的GPU數量相同,但它們在網路基礎設施方面各有差異,均支援400 Gbps端點之間的互聯。其中一個叢集採用了基於Arista 7800交換器配合Wedge400和Minipack2 OCP機架交換器的遠端直接記憶體存取(RDMA)和融合乙太網路(RoCE)網路解決方案,而另一個則應用了英偉達Quantum2 InfiniBand網路架構。
值得一提的是,兩個集群均基於Meta自研的開放GPU硬體平台Grand Teton構建,這是該公司為支撐大型AI工作負載而開發的GPU基礎硬體平台。作為Zion-EX平台的後續產品,Grand Teton在主機到GPU的頻寬、運算及資料網路頻寬、以及功率包絡等方面都實現了顯著的增強。
此外,這些叢集充分利用了Meta專為Grand Teton等方案設計的Open Rack電源和機架架構,提高了資料中心的靈活性。
Meta的Open Rack v3硬體設計引進了一個靈活的機架配置方案。與傳統的固定母線設計相比,它允許在機架中的任何位置安裝電源架,從而使機架配置更加靈活。
在建造這些新集群時,Meta特別關注了每台伺服器吞吐量、機架數量減少及能源效率之間的平衡。透過機架內伺服器數量的客製化設計,Meta確保了這些叢集在提供高效能的同時,也達到了能源的高效利用。
在儲存技術上,這些叢集運用了Linux Filesystem中的Userspace API,並且得到了Meta自家Tectonic分散式儲存方案的加持。同時,Meta也與Hammerspace合作,一個開發了平行網路檔案系統(NFS)。
兩個叢集均基於配備了最新高容量E1.S SSD的YV3 Sierra Point伺服器平台。為了優化網路利用率,Meta進行了網路拓撲和路由的調整,並部署了英偉達的集體通訊庫(NCCL)。NCCL是一套針對英偉達GPU和網路進行最佳化的標準通訊例程庫。
Meta也正在積極推動其PyTorch基礎AI框架的發展,以因應數十萬GPU的訓練需求。Meta的技術專案經理凱文·李(Kevin Lee)、生產網路工程師阿迪·甘吉迪(Adi Gangidi)以及生產工程總監馬修·奧爾德姆(Mathew Oldham)在最新部落格中共同表達了公司的技術願景和戰略。他們強調,Meta將致力於人工智慧軟體和硬體的開放式創新,啟動人工智慧聯盟,建立一個開放的生態系統,「為人工智慧開發帶來透明度、審查和信任,並帶來每個人都能從中受益的創新,這些創新以安全和責任為首要考慮因素」。
這篇部落格文章繼續強調:「面對未來,我們意識到昨天和今天有效的方法可能無法滿足明天的需求。因此,Meta將不斷評估和改進其基礎設施的各個方面,從實體和虛擬層到軟體層等等。我們的目標是創建一個既靈活又可靠的系統,以支撐快速發展中的新模型和研究工作。”