AMD將搭建由120萬顆GPU驅動的全球最強AI超級計算機

2024-06-28 Comments 0 Comment

英偉達（NVIDIA）一直是資料中心最主要的GPU 供應商，這已不是什麼秘密，但現在隨著需求的成長，AMD 很有可能成為這一市場的有力競爭者。最近，一位客戶找到AMD，要求創建一個由120 萬個GPU 組成的人工智慧訓練叢集。這有可能使它比目前速度最快的超級電腦Frontier 還要強大30 倍。 2023 年，AMD 供應的資料中心GPU 還不到2%。

AMD 資料中心解決方案總經理Forrest Norrod 在接受The Next Platform 採訪時透露，他們收到了客戶關於使用120 萬個GPU 建立人工智慧訓練叢集的真實詢問。從這個角度來看，目前的人工智慧訓練叢集通常使用數千個GPU，透過高速互連連接到多個本地伺服器機架上。

目前正在考慮的人工智慧開發規模是前所未有的。諾羅德說：”正在籌建的一些訓練集群確實強大得令人匪夷所思。事實上，目前已知用於訓練人工智慧模型的最大超級電腦是Frontier，它擁有37888個Radeon GPU，這使得AMD潛在的超級電腦比Frontier強大30倍。

當然，事情沒那麼簡單。即使以目前的功率水平，在創建人工智慧訓練集群時也有大量隱患需要考慮。人工智慧訓練需要較低的延遲來提供及時的結果，需要消耗大量的電能，而且必須考慮到硬體故障，即使只有幾千個GPU 也不例外。

大多數伺服器的使用率在20%左右，並在遠端機器上處理數千個小型非同步作業。然而，人工智慧培訓的興起正在導致伺服器結構發生重大變化。為了跟上機器學習模型和演算法的發展，人工智慧資料中心必須配備專門為這項工作設計的大量運算能力。人工智慧訓練本質上是一項大型同步作業，需要叢集中的每個節點盡可能快速地來回傳遞訊息。

最有趣的是，這些數據來自AMD，而AMD 在2023 年的資料中心GPU 出貨量中只佔不到2%。而佔據另外98% 市場份額的NVIDIA 則對客戶要求其開發的產品守口如瓶。身為市場領導者，我們只能想像他們正在開發什麼。

雖然擬議中的120 萬GPU 超級電腦可能看起來有些離譜，但諾羅德稱，”非常清醒的人”正在考慮在人工智慧訓練集群上花費多達千億美元。這並不令人震驚，因為在過去幾年裡，人工智慧在科技界的發展可謂突飛猛進。看來，企業已經準備好在人工智慧和機器學習上投入巨資，以保持競爭力。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

AMD將搭建由120萬顆GPU驅動的全球最強AI超級計算機

2024-06-28 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆