Frontier超算使用其37000個MI250X GPU中的3000個成功運行1兆參數的LLM
Frontier超級計算機是世界領先的超級計算機,也是目前唯一正在運行的Exascale級超算。這台機器由AMD 的EPYC 和Instinct 硬體驅動,不僅具有頂級的HPC 性能,也是全球第二高效的超級電腦。預印本Arxiv 上提交的一份報告顯示,Frontier 超級電腦已通過”超參數調整”達到了訓練一萬億個參數的能力,與GPT-4不相上下,樹立了新的行業標桿。
我們先來簡單回顧一下Frontier 超級電腦的優勢。ORNL的這台超級電腦從設計初就採用了AMD的第三代EPYC Trento CPU和Instinct MI250X GPU加速器。它安裝在美國田納西州的橡樹嶺國家實驗室(ORNL),由能源部(DOE)營運。目前,它使用8,699,904 個核心實現了1.194 Exaflop/s的速度。HPE Cray EX 架構結合了針對HPC 和AI 最佳化的第3 代AMD EPYC CPU、AMD Instinct 250X 加速器和Slingshot-11 互連。在超級電腦Top500.org 名單上,Frontier 一直保持著第一的位置,顯示了其統治力。
Frontier 所創下的新紀錄是實施有效策略培訓LLM 和最有效率地使用板載硬體的結果。該團隊透過對220 億個、1750 億個和1 兆個參數的廣泛測試取得了顯著的成果,這些數字是對模型訓練過程進行最佳化和微調的結果。這些結果是僅僅使用了3000 個AMD 的MI250X AI 加速器取得的,儘管這些加速器是相對過時的硬件,但還是顯示出了其強大的性能。
更有趣的是,整個”前沿”超級電腦擁有37000 個MI250X GPU,因此可以想像使用整個GPU 池為LLM 提供算力時的效能。AMD 即將在全新的超級電腦中採用其MI300 GPU 加速器,並配備強大的ROCm 6.0 生態系統,進一步加速人工智慧效能。
伺服器和資料中心領域的未來前景廣闊,值得注意的是,Frontier 目前採用的硬體在業界並不算新。隨著生成式人工智慧領域的不斷進步,未來市場顯然需要更強的運算能力,這就是為什麼為該領域設計的硬體的進步對下一代的發展至關重要。