最強AI晶片WSE-3發布:4兆個電晶體,90萬核心,125 PetaFLOPS算力
晶片新創公司Cerebras Systems推出了全新的Wafer Scale Engine 3,並將其現有的最快AI 晶片世界紀錄加倍。據介紹,在相同的功耗和相同的價格下,WSE – 3的性能是先前的記錄保持者Cerebras WSE-2的兩倍。
基於5nm 的4兆晶體管WSE-3專為訓練業界最大的AI 模型而構建,為Cerebras CS-3 AI 超級電腦提供動力,透過900,000 個AI優化計算核心提供125 petaflops 的峰值AI性能。
一顆驚人的晶片,約等於62顆H100
Cerebras Systems表示,這款新裝置使用台積電的5nm製程打造,包含4 兆個電晶體;90萬個AI核心;44GB 片上SRAM;;外部記憶體為1.5TB、12TB或1.2PB;峰值效能為125 FP16 PetaFLOPS 。Ceberas 的WSE-3 將用於訓練一些業界最大的人工智慧模型,能訓練多達24 兆個參數的AI 模型;其打造的群集規模高達2048 個CS-3 系統。
值得一提的是,當Cerebras 提到記憶體時,他們談論的更多是SRAM,而不是片外HBM3E 或DDR5。記憶體與核心一起分佈,目的是使數據和計算盡可能接近。
為了展示這顆新晶片的規模,Cerebras 也將其與英偉達的H100進行了比較。
除了將這款巨型晶片推向市場之外,Cerebras 取得成功的原因之一是它所做的事情與NVIDIA 不同。NVIDIA、AMD、英特爾等公司採用大型台積電晶圓並將其切成更小的部分來製造晶片,而Cerebras 將晶圓保留在一起。在當今的叢集中,可能有數以萬計的GPU 或AI 加速器來處理一個問題,將晶片數量減少50 倍以上可以降低互連和網路成本以及功耗。在具有Infiniband、乙太網路、PCIe 和NVLink 交換器的NVIDIA GPU 叢集中,大量的電力和成本花費在重新連結晶片上。Cerebras 透過將整個晶片保持在一起來解決這個問題。憑藉WSE-3,Cerebras 可以繼續生產世界上最大的單晶片。它呈正方形,邊長為21.5 厘米,幾乎使用整個300 毫米矽片來製造一個晶片。
你可以在WSE晶片的相繼推出中看到摩爾定律的作用。第一個於2019 年首次亮相,採用台積電的16 奈米技術製造。對於2021 年推出的WSE-2,Cerebras 轉而採用台積電的7 奈米製程。WSE-3 採用這家代工巨頭的5 奈米技術製造。
自從第一個巨型晶片問世以來,電晶體的數量增加了兩倍以上。同時,它們的用途也發生了變化。例如,晶片上的人工智慧核心數量已顯著趨於平穩,內存量和內部頻寬也是如此。儘管如此,每秒浮點運算(flops)方面的效能改進已經超過了所有其他指標。
需要注意的一點是,Cerebras 使用片上內存,而不是NVIDIA 的封裝內存,因此我們不會以H100 上的80GB HBM3 為例。
最新的Cerebras 軟體框架為PyTorch 2.0 和最新的AI 模型和技術(如多模態模型、視覺轉換器、專家混合和擴散)提供原生支援。Cerebras 仍然是唯一為動態和非結構化稀疏性提供本機硬體加速的平台,將訓練速度提高了8 倍。
您可能已經看到Cerebras 表示其平台比NVIDIA 的平台更容易使用。造成這種情況的一個重要原因是Cerebras 儲存權重和啟動的方式,而且它不必擴展到系統中的多個GPU,然後擴展到叢集中的多個GPU 伺服器。
除了程式碼變更很容易之外,Cerebras 表示它的訓練速度比Meta GPU 叢集更快。當然,目前這似乎是理論上的Cerebras CS-3 集群,因為我們沒有聽說有任何2048 個CS-3 集群啟動並運行,而Meta 已經有了AI GPU 集群。
總體而言,這裡發生了很多事情,但我們知道的一件事是,如今越來越多的人使用基於NVIDIA 的叢集。
Cerebras Systems進一步指出,由於每個元件都針對AI 工作進行了最佳化,CS-3 比任何其他系統都能以更小的空間和更低的功耗提供更高的運算效能。雖然GPU 功耗逐代翻倍,但CS-3 的效能翻倍,功耗保持不變。CS-3具有卓越的易用性,與適用於大模型的GPU 相比, CS-3所需的程式碼減少97% ,並且能夠在純資料並行模式下訓練從1B 到24T 參數的模型。GPT -3大小的模型的標準實現在Cerebras 上只需要565 行程式碼——這同樣也是行業記錄。
一個龐大的系統,冷卻超乎想像
Cerebras CS-3 是第三代Wafer Scale 系統。其頂部具有MTP/MPO 光纖連接,以及用於冷卻的電源、風扇和冗餘泵。
Cerebras Systems在新聞稿中指出,如上所述,CS-3擁有高達1.2 PB的龐大記憶體系統,旨在訓練比GPT-4 和Gemini 大10 倍的下一代前緣模型。24 兆參數模型可以儲存在單一邏輯記憶體空間中,無需分區或重構,從而極大地簡化了訓練工作流程並提高了開發人員的工作效率。在CS-3 上訓練一兆參數模型就像在GPU 上訓練十億參數模型一樣簡單。
CS-3專為滿足企業和超大規模需求而打造。緊湊的四系統配置可以在一天內微調70B 模型,而使用2048 個系統進行全面調整,Llama 70B 可以在一天內從頭開始訓練——這對於生成AI 來說是前所未有的壯舉。
Cerebras 需要為巨型晶片提供電力、數據和冷卻,同時還要管理相對較大區域的熱膨脹等問題。這是該公司另一項重大的工程勝利。晶片內部採用液體冷卻,熱量可以透過風扇或設施水排出。
該系統及其新晶片在相同的功耗和價格下實現了大約2 倍的性能飛躍。從第一代的16 奈米到如今的5 奈米,Cerebras 從每個製程步驟中都獲得了巨大的優勢。
與具有八個NVIDIA H100 GPU 以及內部NVSwitch 和PCIe 交換器的NVIDIA DGX H100 系統相比,它只是一個更大的構建塊。
這是帶有Supermicro 1U 伺服器的CS-3。
這是另一個使用Supermciro 1U 伺服器拍攝的Cerebras 叢集。Cerebras 通常使用AMD EPYC 來獲得更高的核心數量,這可能是因為Cerebras 團隊的許多成員來自被AMD 收購的SeaMicro。
我們在這次迭代中註意到的一點是,Cerebras 也有HPE 伺服器的解決方案。這有點奇怪,因為一般來說,Supermicro BigTwin 比HPE 的2U 4 節點產品領先一步。
看待Cerebras CS-2/CS-3 的一種方式是,它們是龐大的電腦器,但許多資料預處理、叢集級任務等都發生在傳統的x86 運算上,以提供最佳化的人工智慧晶片。
由於這是一個液冷資料中心,因此風冷HPE 伺服器配備了來自Legrand 子品牌ColdLogik 的後門熱交換器設定。
這是Cerebras 如何利用液冷設施的一個很好的例子,但它不必為每個伺服器節點配備冷板。
這一代的一大特點是更大的集群,多達2048 個CS-3,可實現高達256 exaFLOPs 的AI 計算。
12PB 記憶體是一款高階超大規模SKU,專為快速訓練GPT-5 尺寸模型而設計。Cerebras 還可以縮小到類似於單一CS-2 的規模,並支援伺服器和網路。
部分記憶體不僅是片上記憶體(44GB),還包括支援伺服器中的記憶體。
因此,Cerebras 叢集可以訓練比以前更大的模型。
關於整個系統,在SC22的時候,該公司就曾基於Cerebras CS-2 的系統展示了看起來像一堆金屬的東西,其中有一些印刷電路板伸出來。該公司稱其為發動機組(Engine Block)。在Cerebras 看來,這是一項龐大的工程壯舉。弄清楚如何封裝、供電和冷卻大型晶片是一個關鍵的工程挑戰。讓代工廠製造特殊的晶圓是一回事,讓晶圓開機、不過熱並做有用的工作是另一回事。
這是另一邊的樣子。
當我們談論由於密度而必須轉向液體冷卻的伺服器時,我們談論的是2kW/U 伺服器或可能具有8x800W 或8x1kW 零件的加速器托盤。對於WSE/WSE-2,所有電力和冷卻都需要傳輸到單個大晶圓上,這意味著即使是不同材料的熱膨脹率等因素也很重要。另一個意思是,實際上該組件上的所有部件都採用液冷方式。
最上面一排木板非常密集。展位上的Cerebras 代表告訴我,這些是電源,這是有道理的,因為我們看到它們的連接器密度相對較低。
Cerebras Condor Galaxy 的更新
在去年七月,Cerebras 宣布其CS-2 系統取得重大勝利。它擁有一台價值1 億美元的人工智慧超級計算機,正在與阿布達比的G42 一起使用。這裡的關鍵是,這不僅是一個IT 合作夥伴,也是一個客戶。
目前的第一階段有32 個CS-2 和超過550 個AMD EPYC 7003「Milan」CPU(註:Cerebras 執行長Andrew Feldman 告訴我他們正在使用Milan),只是為了提供資料給Cerebras CS-2。如今,32 個GPU 相當於四個NVIDIA DGX H100 系統,而32 個Cerebras CS-2 就像32 個NVIDIA DGX H100 集群,每個集群都位於單一晶片上,並在大晶片上進行互連。這更像是數百個(如果不是更多)DGX H100 系統,而這只是第一階段。
在第二階段,加州聖克拉拉/科洛沃的安裝量預計將在10 月增加一倍。
除了Condor Galaxy 1,還有另一個集群,即Condor Galaxy 2,現已在G42 上啟動並運行。
新的Condor Galaxy 3 是達拉斯集群,它將使用新的5nm WSE-3 和CS-3 進行計算。
據介紹,Condor Galaxy 3將由64 個CS-3 系統構建,產生8 exa FLOP的AI 計算, 這是世界上最大的AI 超級電腦之一。Condor Galaxy 3是Condor Galaxy 網路中的第三個安裝。Cerebras G42策略合作夥伴關係旨在提供數十exaFLOPs的人工智慧運算能力。Condor Galaxy 訓練了一些業界領先的開源模型,包括Jais – 30B、Med42、Crystal-Coder – 7B 和BTLM- 3B -8K 。
這些是目前位於美國聖克拉拉、斯托克頓和達拉斯的集群,他們計劃是再建造至少六個。
這些集群的總價值應超過10 億美元,並於2024 年完工。除了10 億美元的交易價值外,Cerebras 告訴我們,它們目前供應有限,因此對WSE-3 的需求是存在的。
值得一提的是,雖然Cerebras 專注於推理訓練,但它宣布與高通建立合作夥伴關係,以使用高通的傳統人工智慧推理加速器。
雖然Cerebras 電腦是為訓練而建構的,但Cerebras 執行長 Andrew Feldman 表示,推理、神經網路模型的執行才是人工智慧採用的真正限制。根據Cerebras 估計,如果地球上每個人都使用ChatGPT,每年將花費1 兆美元,更不用說大量的化石燃料能源了。(營運成本與神經網路模型的規模和使用者數量成正比。)
因此,Cerebras 和高通建立了合作夥伴關係,目標是將推理成本降低10 倍。Cerebras 表示,他們的解決方案將涉及應用神經網路技術,例如權重資料壓縮和稀疏性(修剪不需要的連接)。該公司表示, 經過Cerebras 訓練的網路將在高通公司的新型推理晶片AI 100 Ultra上高效運作。
寫在最後
Cerebras Wafer Scale Engine 系列仍然是一項出色的工程設計。這次發布的一個重要內容是5nm WSE-3 問世。最酷的事情之一是Cerebras 從流程進步中獲得了巨大的進步。
我們知道AMD MI300X 今年的營收將輕鬆超過10 億美元。Cerebras 預計收入將超過10 億美元,假設它正在銷售整個集群,而不僅僅是價值數百萬美元的CS-3 盒子。NVIDIA 將於下週在GTC 上詳細討論NVIDIA H200 和下一代NVIDIA B100 時出售10 億美元的硬體。我們將收到英特爾Gaudi3 的最新消息,但我們已經聽到一些人分享了2024 年九位數的銷售預測, Cerebras 可能是唯一一家專注於培訓、在收入方面與大型晶片製造商競爭的公司。
「八年前,當我們開始這趟旅程時,每個人都說晶圓級處理器是一個白日夢。我們非常自豪能夠推出第三代突破性水平的人工智慧晶片。」Cerebras 執行長兼共同創辦人Andrew Feldman)說。「 WSE-3 是世界上最快的AI 晶片,專為最新的尖端AI 工作而設計,從專家混合到24 兆個參數模型。我們很高興將WSE-3 和CS-3 推向市場,以幫助解決當今最大的人工智慧挑戰。”
讓我們期待Cerebras 2025 年下半年發表WSE-4帶來的驚喜。
參考連結
https://spectrum.ieee.org/cerebras-chip-cs3
https://www.tomshardware.com/tech-industry/artificial-intelligence/cerebras-launches-900000-core-125-petaflops-wafer-scale-processor-for-ai-theoretically-equivalent-to-about-62- nvidia-h100-gpus