加速CPU設計,Arm再出新招
在服務器領域獲得新的計算引擎需要很長時間,而且每個人都在抱怨。客戶很不耐煩,因為他們想要新一代芯片帶來的更高性能和更高性價比。那些製造CPU、GPU 和其他計算引擎的人也很不耐煩。他們想要壓垮競爭對手並賺更多的錢。
在本週的Hot Chips 2023 上,Arm Ltd 在宣布(再次)上市後展示了其“Demeter”V2 內核,該公司還推出了“Genesis”N2 計算子系統,簡稱CSS 智能包。(我們將單獨深入探討V2 核心。)Genesis 的這一努力有可能比過去更快地讓Arm CPU 進入該領域。
多年來,Arm 一直在朝著將成熟的CPU 組裝在一起以供客戶修改並直接推向市場的目標邁進。早在2000 年代末,當Arm 接管智能手機時,服務器製造商正在考慮Arm 架構如何改進基本上處於壟斷地位的X86 架構,服務器芯片設計人員從Arm 架構許可開始,並開始使用它。這是一種非常昂貴且耗時的創建服務器芯片的方法,儘管比從定制ISA 開始要好,但由於大量的軟件移植工作,世界無法容忍定制ISA。
在Broadcom、高通、AMD和三星等老牌半導體巨頭以及Calxeda 和Applied Micro 等初創公司多次嘗試Arm 服務器芯片失敗後,以及Cavium 憑藉其ThunderX 和ThunderX2 CPU 取得了一些有限的成功後,Arm 決定將其推出。Neoverse 的工作於2018 年10 月推出,它不僅提供了服務器芯片核心的路線圖,還提供了參考架構,用於將這些核心轉變為適當的CPU,並混合了其他Arm 知識產權(例如片上芯片)網狀互連和第三方內存、PCI-Express 控制器和以太網控制器。這些Neoverse 設計是針對台積電的特定工藝節點量身定制的,這使得服務器芯片製造商更容易更快地採取行動。
我們從來不確定Neoverse 是否比架構許可證更便宜或更貴。你可以用多種不同的方式來論證它。Neoverse 完成了更多的工作,但與Arm 架構許可證相比,自由度有限。也許更重要的是,正如我們所說,如果Arm 不能比開源的RISC-V ISA 和設計更便宜,那麼它可以更快。由於客戶不耐煩,Arm 無論如何都必須更快。
以下是2022 年9 月公佈的最新Neoverse 路線圖:
最初,只有一個內核系列- N 系列- 但Arm 將其分為三個內核系列和三個相應的平台,每個平台都針對系統市場的不同部分。N 系列核心和平台針對主流服務器工作負載,其中每瓦性能驅動設計,而V 系列具有更重的矢量處理,針對計算密集型工作負載,例如AI 訓練和推理以及HPC 模擬和建模。E 系列旨在實現吞吐量計算,並且不僅針對更高的每瓦性能進行了優化,而且還以比N 系列更低的熱封裝實現了最大吞吐量。現在不僅有三個系列的內核和平台,還有兩種方法:DIY 和CSS。
所以現在新的Neoverse 路線圖看起來像是硬塞進去了CSS 選項:
我們已經為我們所知的每個核心和平台添加了代號。
Neoverse 的努力讓芯片公司在設計上取得了優勢,而且許多公司已經做到了。富士通的A64FX 芯片比當前任何供應商都早得多(比Neoverse 的努力早了很多年),並且在許多方面都可以被視為“Kronos”V0 實現,因為它發明了可擴展矢量擴展並將其帶入了-Intel AVX-512 的位向量極限。亞馬遜在其Graviton1 芯片中使用了原始Neoverse 堆棧中的“Maya”Cortex A72,在其Graviton2 芯片中使用了“Ares”N1,在其Graviton3 芯片中使用了“Zeus”V1。
十多年前,NVIDIA 最初使用其Arm 架構許可來創建“Denver”服務器處理器,但已改用“Grace”CPU 芯片的V2 內核現在即將上市。AmpereComputing 的Altra 和Altra Max Arm CPU 中使用N1 內核,但現在正在開發定制內核。顯然,阿里巴巴已經為其倚天710 處理器定制了Arm v9 核心,如果這是真的,那麼NVIDIA 的Grace 並沒有市場上第一個Arm v9 核心。印度政府正在其“Aum”A48Z 處理器中使用V1 內核。
還有其他的,但這些是最重要的。他們都花費了大量資金來創建Arm 服務器芯片。但這既關乎時間,也關乎金錢。眾所周知,愛因斯坦證明了時間就是瘋狂的金錢,也證明了能量就是瘋狂的物質。
正如Arm 產品管理高級總監Jeff Defilippi 在Hot Chips 上的Arm 演講之前解釋的那樣,隨著摩爾定律的耗盡,對專用芯片的需求不斷增長,芯片設計人員面臨的壓力也在不斷增加。正如上圖所示,隨著晶體管尺寸的縮小,設計芯片的成本也在上升,而在7 納米節點之後,每個晶體管的製造成本也在上升,但該圖沒有顯示這一點。
Arm 的CSS 知識產權包旨在加快設計速度,從時間就是金錢的意義上來說,至少可以將金錢轉化為節省的時間,正如愛因斯坦所證明的那樣,這既是節省的金錢,也是通過早期銷售獲得的金錢。(我們假設CSS 的成本比常規IP 許可更高,因為它包含更多內容,但風險要低得多,而且成本和風險的乘積(不是總和,而是乘積,因為這些是乘法效應而不是累積效應)因此較低.)
從概念上講,CSS 包如下所示:
以下是它與SoC 許可、IP 許可和架構許可的比較:
“本質上,該產品是Arm 拼接在一起的多核設計,”Defilippi 解釋道。“這就是互連、CPU、虛擬化IP 要求- 我們將它們縫合在一起,進行驗證,並將其作為生產就緒的RTL 可交付成果交付給我們的客戶。除了RTL 之外,我們還提供與之相關的額外好處:我們提供實現包、平面圖、實現腳本以及達到該性能所需的物理IP 庫以及設計所需的功耗範圍。領先的技術。我們提供完整的軟件參考堆棧。因此,這包括從固件、電源管理、系統管理、系統所需的運行時安全性等一切內容。我們提供參考堆棧,以確保軟件開發從第一天開始,並且我們的客戶有一個良好的起點。最後但並非最不重要的一點是,我們不僅包括工藝節點,還包括我們的領先技術。每年都會有一些新的、令人興奮的事情出現。當然,現在的一個例子就是CXL 內存擴展池。”
現在想像一下,特別是如果您位於中國、印度、非洲,甚至位於美國或歐洲的具有成本意識的超大規模企業、雲構建商或HPC 中心,並且您沒有大量熟悉高級服務器CPU 的熟練工程師設計或正確設計和測試它們的工具,以便快速推出下一代芯片。那麼CSS 方法不僅可以大大加快速度,而且可以從一開始就製造出芯片。
但時間很重要,以下是Arm 如何計算通過CSS 包與使用普通IP 許可證相比節省的時間:
節省80 個工程師一年的時間是相當可觀的,特別是在定制自由度仍然存在的情況下。
問題是:與芯片製造商所做的大量工作相比,CSS 設計的價值有多大?將芯片從概念變為服務器、網絡設備或存儲陣列需要多少成本?這比使用Intel 或AMD 的X86 服務器或AmpereComputing 的Arm 芯片便宜多少?這些麻煩值得嗎?
嗯,隨著AWS 和阿里巴巴製造自己的Arm 芯片,而且有傳言稱Google也將這樣做,微軟、騰訊和百度(以及阿里巴巴、Google和甲骨文)也使用AmpereComputing 的Altra Arm 芯片,看來這是值得的。Arm CPU 為他們節省了資金,並且在他們的服務器群中所佔的比例越來越大。而且,他們通過自己的努力擁有更直接的控制權,並通過與安培計算的緊密合作獲得更間接的控制權。
當然,超大規模廠商和雲構建商仍會購買大量英特爾和AMD CPU。但正如我們多次說過的那樣,這將是為了支持舊版Windows Server,有時甚至是Linux 應用程序,他們會故意對基於它們的實例收取額外費用,英特爾和AMD 也會對底層芯片收取額外費用。沒有人在我們看到的分層上串通一氣,但英特爾和AMD 沒有動力與Graviton 和其他公司競爭。他們只是將15%、20%、25% 的超大規模和雲機群讓給Arm,他們對無需打價格戰就能獲得85%、80%、75% 的更大機群感到滿意。
“Perseus”N2 核心網格的CSS 實現可從24 個核心擴展到64 個核心,並且可以使用UCI-Express(而非CCIX)或專有互連將其中四個核心組合在一個封裝中,以擴展到插槽中的256 個核心。根據客戶的需求提供小芯片。
考慮到許多現代處理器將執行預期的HPC 和AI 矢量數學,遺憾的是V2 設計沒有CSS。也許這會發生——我們強烈鼓勵這樣做,當然也鼓勵幾年後的未來V3 設計。目前,Arm 僅在N2 設計中開始CSS 工作,就在路線圖的中間。
現在,請做好準備,欣賞Genesis CSS N2 封裝上的一些精美原理圖和框圖,這些原理圖和框圖由Arm 院士兼芯片IP 設計師的首席系統架構師Anitha Kona 提供。
這是台積電5 納米Genesis 封裝中的64 核基礎模塊:
框圖如下所示:
CSS N2 軟件包符合SystemReady 標準,符合Arm 基礎系統架構1.0、Arm 服務器基礎系統架構6.1 和Arm 服務器基礎啟動要求1.2。
N2 核心是Arm 的第一個Armv9 實現,但V2 核心不可能落後於Grace 目前的水平,據我們所知,NVIDIA 從Arm 獲得了V2 核心。NVIDIA 和Arm 有可能在V2 核心設計上進行合作,就像富士通和Arm 在我們所說的V0 核心上所做的那樣。N2 核心的處理器模塊如下所示:
兩個SVE2 128 位向量還不錯,但V2 有四個。這就是需要CSS V2 產品的地方,希望很快不會出現代號為“Exodus”的情況。就像,呃,現在。無論如何,這是系統控制和管理的深入內容:
系統內存管理單元和中斷控制器的放大是:
核心塊使用CMN-700 網格相互綁定,該網格已經存在了幾年,並針對Armv9 設計進行了調整,運行頻率為2 GHz:
Genesis 軟件包包括N2 CPU 的平面圖,可以從24 核擴展到64 核,64 核平面圖如下所示:
CSS N2 軟件包還包括一個加速器連接塊,允許卡入PCI-Express 以及CXL 控制器:
互連允許四個64 核N2 塊中的兩個相互鏈接。一對芯片利用芯片到芯片PHY 實現直接對稱多處理(SMP) 鏈路,CXL PHY 用於交叉耦合其中一對,以創建具有256 個內核的四路封裝,例如這:
以下是這些SMP 連接如何工作的進一步放大:
PCI-Express/CXL 塊顯然允許CXL Type 3 內存擴展,超出嵌入在網格互連上的任何內存控制器。(如果內存控制器和以太網控制器是Genesis 包的一部分,那將會非常有幫助。)
最後,這是Generis 軟件包中的軟件:
將所有這些加起來,Kona 表示Genesis IP 包被許可方可以獲取CSS N2 堆棧,在內存、I/O、加速器和物理拓撲上進行差異化,並在令人驚嘆的13 個月內從啟動到工作芯片,並節省80個工程師的開發努力。這些是來自兩個不同的Arm 合作夥伴的兩項統計數據,他們是Genesis 的早期採用者,因此在將這些數據位混合到一個承諾中時要小心。但顯然,Arm CPU 芯片設計既可以節省時間,又可以節省金錢——這也是時間。
我們期待看到與CSS N2 包相當的V 系列和E 系列。