Cerebras推出1350萬核超級AI計算機Andromeda
製造世界上最大的芯片–晶圓級引擎2(WSE-2)的公司Cerebras今天公佈了其仙女座超級計算機。仙女座將16個晶圓大小的WSE-2芯片組合成一個集群,擁有1350萬個人工智能優化的內核,該公司稱可提供高達1 Exaflop的人工智能計算馬力,或120 Petaflops的16位半精度。
這些芯片被安置在16個CS-2系統中。每個芯片為人工智能核心提供高達12.1 TB/s的內部帶寬(96.8 Terabits),但數據是通過分佈在16個機架上的124個服務器節點的100 GbE網絡輸送給CS-2處理器的。這些服務器總共由284個第三代EPYC米蘭處理器提供動力,每個處理器有64個核心,總共有18176個核心。
全套系統功耗500千瓦,這比某種程度上可比的使用GPU加速的超級計算機的功率要低得多。然而,在這種大規模並行的超級計算機上擴展工作負載長期以來一直是主要的抑制因素之一–在某一點上,擴展往往會被打破,因此增加更多的硬件會導致回報點迅速減少。
Cerebras表示,它的實現與GPT級大型語言模型匹配,如GPT-3、GPT-J和GPT-NeoX,且幾乎是線性擴展。Andromeda還可以處理25億和250億個參數的模型,由於內存的限制,標準的GPU集群根本無法處理。
Cerebras WSE-2是世界上最大的單芯片處理器,每顆7納米的芯片都是專門為解決人工智能工作負載而設計的,85萬個人工智能專用內核分佈在46225平方毫米的矽片上,裝著2.6萬億個晶體管。該芯片有40GB的片上SRAM內存,20PB的內存帶寬,以及220PB的聚合結構帶寬。每個WSE-2消耗15千瓦的電力。
在大多數大型系統中,工作負載的擴展會導致回報的減少,這通常是由於代碼、內存、結構和/或網絡的限制。然而,Cerebras已經表明,其CS-2系統通過數據並行化,在不改變底層代碼的情況下幾乎可以實現線性擴展,該公司的仙女座超級計算機在完全啟動後的10分鐘內就開始壓縮工作負載。
16台CS-2使用該公司的MemoryX和Swarm-X互連來簡化和協調跨系統的模型分割。這種方法將模型參數存儲在MemoryX機櫃中的片外,同時將模型保留在片上,允許單個系統計算比以前更大的人工智能模型,並解決通常限制處理器組擴展性的典型延遲和內存帶寬問題,這使得該系統可以在多達192個CS-2系統上近乎線性地擴展。
Andromeda部署在加州聖克拉拉的Colovore數據中心。該公司已經向客戶和學術研究人員開放了算力,包括阿貢國家實驗室,該實驗室稱它已經將整個COVID-19基因組放入一個序列窗口,並以”近乎完美的線性擴展”在多達16個節點上運行該工作負載。該項目現在是著名的ACM戈登貝爾特別獎的入圍者,其他用戶包括JaperAI和劍橋大學。