AMD將搭建由120萬顆GPU驅動的全球最強AI超級計算機
英偉達(NVIDIA)一直是資料中心最主要的GPU 供應商,這已不是什麼秘密,但現在隨著需求的成長,AMD 很有可能成為這一市場的有力競爭者。最近,一位客戶找到AMD,要求創建一個由120 萬個GPU 組成的人工智慧訓練叢集。這有可能使它比目前速度最快的超級電腦Frontier 還要強大30 倍。 2023 年,AMD 供應的資料中心GPU 還不到2%。
AMD 資料中心解決方案總經理Forrest Norrod 在接受The Next Platform 採訪時透露,他們收到了客戶關於使用120 萬個GPU 建立人工智慧訓練叢集的真實詢問。從這個角度來看,目前的人工智慧訓練叢集通常使用數千個GPU,透過高速互連連接到多個本地伺服器機架上。
目前正在考慮的人工智慧開發規模是前所未有的。諾羅德說:”正在籌建的一些訓練集群確實強大得令人匪夷所思。事實上,目前已知用於訓練人工智慧模型的最大超級電腦是Frontier,它擁有37888個Radeon GPU,這使得AMD潛在的超級電腦比Frontier強大30倍。
當然,事情沒那麼簡單。即使以目前的功率水平,在創建人工智慧訓練集群時也有大量隱患需要考慮。人工智慧訓練需要較低的延遲來提供及時的結果,需要消耗大量的電能,而且必須考慮到硬體故障,即使只有幾千個GPU 也不例外。
大多數伺服器的使用率在20%左右,並在遠端機器上處理數千個小型非同步作業。然而,人工智慧培訓的興起正在導致伺服器結構發生重大變化。為了跟上機器學習模型和演算法的發展,人工智慧資料中心必須配備專門為這項工作設計的大量運算能力。人工智慧訓練本質上是一項大型同步作業,需要叢集中的每個節點盡可能快速地來回傳遞訊息。
最有趣的是,這些數據來自AMD,而AMD 在2023 年的資料中心GPU 出貨量中只佔不到2%。而佔據另外98% 市場份額的NVIDIA 則對客戶要求其開發的產品守口如瓶。身為市場領導者,我們只能想像他們正在開發什麼。
雖然擬議中的120 萬GPU 超級電腦可能看起來有些離譜,但諾羅德稱,”非常清醒的人”正在考慮在人工智慧訓練集群上花費多達千億美元。這並不令人震驚,因為在過去幾年裡,人工智慧在科技界的發展可謂突飛猛進。看來,企業已經準備好在人工智慧和機器學習上投入巨資,以保持競爭力。