最強RISC-V伺服器晶片發布:4nm,192核,效能超越AMD Epyc 9754
RISC-V伺服器晶片設計廠商Ventana Micro Systems在2023 RISC-V高峰會上發表了其第二代伺服器CPU-Veyron V2,在指令擴充、核心設計、互聯標準、製程製程等眾多方面進行了全面升級。
官方宣稱其效能超越了AMD的高階伺服器晶片Epyc 9754,堪稱最強RISC-V伺服器CPU!同時,Ventana也能夠讓客戶將客製化加速器加入到定製片上系統(SoC) 藍圖中。
早在2022年12月,Ventana公司就曾發表了全球首款基於RISC-V架構的伺服器CPU——Veyron V1。
採用5nm製程工藝,基於Ventana自研的高性能RISC-V內核,8流水線設計,支援亂序執行,主頻超過3GHz,每個集群最多16個內核,多集群最多可擴展至192核,擁有48MB共享三級緩存,擁有高級側通道攻擊緩解措施、IOMMU和高級中斷架構(AIA)、支援全面的RAS功能、自上而下的軟體效能調整方法,可以滿足資料中心的各種需求。號稱性能可超越AMD EPYC 7763!
根據Ventana的計劃,Veyron V1將於今年下半年上市,但截至目前仍未有客戶選擇採用。這或許也是為什麼Ventana急於推出Veyron V2的原因。
根據Ventana 行銷和產品副總裁Travis Lanier介紹,全新的Veyron V2將融入RISC-V規範中的所有更新,例如RVA23功能集,這是今年的RISC-V最新的指令集配置文件,實現了RISC-V輸入輸出記憶體管理單元(IOMMU)規範,同時也支援小晶片的UCIe互聯標準。
Lanier表示,IOMMU 規範的批准「在RISC-V 領域是一件大事」。“只要您擁有虛擬機,並且想要直接訪問其中一個PCIe 設備,您就不必執行所有軟體開銷來切換它,因此這對於數據中心應用程式來說是一項關鍵功能。”
Veyron V2也希望成為基於RISC-V標準的兼容性設計,因此RISE 支援很重要。
「這也是RISC-V軟體生態計畫(RISE)相容性的關鍵部分,這是一個產業項目,旨在圍繞RISC-V建立必要的應用生態系統。」Lanier進一步解釋。
Ventana也利用RISC-V向量擴展規範在其核心中加入了512位元向量處理單元,也具有AI 矩陣擴展功能。Lanier聲稱這將「對某些生成式AI 或推理工作負載有很大幫助」。
另外,對於DSA和Chiplet標準UCIe的支持,使得他可以更快地製造晶片,並且可以讓客戶添加FPGA,添加ASIC 加速器等。這增加了靈活性,但也降低了進入門檻,因為它允許使用使用UCIe 和I/O 集線器的較小IP 區塊來建立軟體包。
Ventana聯合創辦人兼執行長Balaji Baktha在RISC-V高峰會上也表示,Ventana客戶可以使用其智慧財產權和其他智慧財產權在Veyron V2 上創建的潛在CPU設計。
具體到Veyron V2的核心配置方面,基於台積電4nm工藝,依然是基於8流水線設計,支持亂序執行,主頻高達3.6GHz,單個集群的內核數量提升到了32個,相比上一代提升了一倍,多集群最多可擴展至192核心。快取的大小也增加到每個核心1MB二級緩存,以及128MB 的共享叢集級三級快取。
Lanier聲稱,Veyron V2 的所有新的升級使得其性能相比上一代提高了近40%。官方提供的效能預測數據顯示,192核心的Veyron V2效能超越了AMD高階伺服器晶片Epyc 9754!
以下對於Veyron V2幾大關鍵升級進行詳細介紹:
互聯標準的轉變
Veyron V2 的一個重大轉變是將支援作為Chiplet(小晶片)連接標準的UCIe(Universal Chiplet Interconnect Express )標準,而不是上一代的Veyron V1中的BoW(Bunch of Wires)介面互連匯流排協定標準。
據了解,BoW協定是一個開放的標準,由開放運算專案中的開放域特定架構小組控制。
包括Ampere Computing、阿里巴巴、AMD、Arm、思科系統、戴爾、Eliyan、富達投資、高盛、Google、惠普企業、IBM、英特爾、聯想、Meta Platforms、微軟、諾基亞、英偉達、Rackspace、希捷科技、Ventana和Wiwynn都支援BoW,這種廣泛而廉價的晶片到晶片互連協議,使跨製程和供應商混合小晶片的承諾成為現實。
但在2022年3月,英特爾、AMD、Arm、高通、台積電、三星、日月光、Google雲端、Meta(Facebook)、微軟等十大產業巨頭成立了Chiplet標準聯盟,正式推出了通用Chiplet的高速互聯標準“UCIe”,旨在定義一個開放的、可互操作的標準,用於將多個矽晶片(或芯粒)通過先進封裝的形式組合到一個封裝中。
UCIe 標準希望與其他連接標準(如USB、PCIe 和NVMe)一樣普遍,同時為Chiplet連接提供卓越的功率和性能指標,降低IP移植及產品SKU數量提升的成本,加速Chiplet設計的創新。
雖然HPE、IBM和Nvidia等大廠並沒出現在最初的創始名單當中,但最後他們也加入了UCIe聯盟。
Balaji Baktha表示,其在與46家現有的和潛在的客戶討論Veyron V1和V2 CPU設計時,很明顯,UCIe是小晶片互連的發展方向。因此,Ventana公司加快了Veyron V2的發布,其中包括大量的RISC-V核心增強,因為它採用了UCI Express而不是BoW進行小晶片互連。
以下是BoW、AIB 2.0和UCIe 1.1互連的比較,這是Lei Shan撰寫的一篇論文的補充。Lei Shan曾在IBM TJ Watson研究中心從事互連硬體工作,現在在Arm伺服器晶片新創公司Ampere Computing工作:
如您所看到的,UCIe的資料速率是BoW的兩倍,匯流排頻寬可以相同或高出4倍。頻道覆蓋範圍是UCIe距離的一半,但連結的功率效率提高了兩倍,延遲不到BoW的一半,每毫米的頻寬也高出35%到65%。
Balaji Baktha表示:「如果晶片設計者想使用小晶片,他們必須支援UCIe」。
「UCIe背後有著巨大的推動力,因為每個人都想要一個統一的標準。BoW本可以成為這樣一個標準的。但我們不想繼續建造它,因為UCIe標準有效地解決了封裝成本,並且正在以最佳水平實現。UCIe也解決了3D記憶體堆疊問題。
因此,利用UCIe很容易實現Express 2.0,並利用我們自己的專業知識來彌合與UCIe 1.0之間的差距。例如,UCIe根本沒有提供到AMBA CHI一致介面匯流排的連結。因此,我們在UCIe 2.0上新增了AMBA功能。」
支援512位元向量擴展
Ventana希望迅速抓住,並將其納入Veyron V2核心設計的另一個重大變化是RISC-V Vector 1.0 512位元向量擴充。
此擴展類似於英特爾至強Phi處理器從2015年開始提供的擴展,以及2017年在「Skylake」至強SP處理器中提供的擴展。
一年前,該擴充功能也剛被加入到AMD Genoa Epyc處理器中。這些512位元向量引擎實際上並不是英特爾AVX-512的克隆(就像AMD Genoa晶片中的那些至少在軟體層級上),但它們足夠接近,不會給想要將程式碼從X86移植到RISC-V的Linux開發人員帶來一場軟體噩夢。
此外,512位元向量擴充將為HPC和AI工作負載提供與X86和Arm處理器有競爭力的效能,在這些工作負載中,CPU將進行AI計算,而不是像GPU和其他加速器一樣在CPU上或CPU外部使用加速器。
Ventana為Veyron V2核心添加了512位元向量擴展,使向量引擎能夠支援矩陣運算,並允許客戶將自己的矩陣引擎添加到架構中,無論是在核心中還是在使用UCIe鏈路的離散小晶片中與之相鄰。
順便說一句,Veyron V1核心沒有任何向量引擎或矩陣引擎擴展,這顯然是一個問題,因為許多人工智慧推理仍在CPU上進行,在某些情況下,人工智慧訓練和HPC模擬和建模也在CPU上完成。
全新的核心架構
Veyron V2設計的另一個重大變化是Ventana創建了一個顯著改進的RISC-V核心架構。
透過在Veyron V2核心中更積極地融合指令處理並進行許多其他調整,Ventana已經能夠將一攬子工作負載的每時脈指令(IPC)效能提高20%。
與3GHz主頻的Veyron V1核心相比,Veyron V2主頻也提高了3.6 GHz,這將核心的效能再提高了20%,從而在Ventana的Veyron RISC-V CPU核心設計中,從V1核心到V2核心的整體效能提高了40%。
Veyron V2核心是基於台積電4nm製程設計的,相比上代基於台積電5nm製程的Veyron V1得到了進一步提升。
Veyron V2核心也支援RVA23體系結構設定文件,該設定檔強制使用512位元向量擴充。還有一些在向量引擎上運行的加密函數。
Ventana的Veyron V2核心也支援RV64GC規範,並實作了一個超標量、無序管線,每個時脈週期可以解碼和調度多達15條指令。由於其IOMMU設計和進階中斷體系結構(AIA),Veyron V2核心可以支援類型1和類型2的伺服器虛擬化管理程式以及嵌套虛擬化。
Veyron V2核心還具有用於調試、追蹤和效能監控的連接埠。
以上這些都是現代超大規模資料中心伺服器CPU所應有的能力。
V1和V2核心都沒有同時的超線程,就像亞馬遜雲端和Ampere Computing的Arm核心沒有,未來「Sierra Forest」Xeon SP處理器中使用的「Siera Glen」核心也沒有。
另外,Veyron V2核心具有512 KB的L1指令快取和128 KB的L1資料快取以及1 MB的L2資料快取。這些核心還有一個4MB的L3緩存,與之相關的是,在Veyron V2的小晶片複合體中的32個核心中,總共擁有128MB的L3緩存。
每個小晶片上的核心使用專有的片上網狀網路相互連接,該互連為CPU核心、記憶體和其他I/O提供了高達5TB/秒的聚合頻寬。
四個Veyron V2小晶片可以與UCIe互連,以創建一個128核心的複合體,如果你真的想突破極限,你可以將最多六個小晶片連接在一起,獲得192核心。
以下是基於Veyron V2核心的CPU的概念圖,它有一個I/O晶片和六個32核心Veyron V2小晶片,以及一些特定於領域的加速器連結:
上圖顯示了I/O集線器與PCI Express 5.0控制器和DDR5內存控制器的鏈接,但如果Ventana公司願意,可以換成HBM3內存控制器。
預設設計為六個Veyron V2小晶片上有十二個DDR5記憶體控制,四個Veyron V2小片上有八個,這與我們目前在任何伺服器CPU中看到的配置是一樣的。
效能超越AMD Epyc 9754
Ventana的Veyron V1發表之時,號稱效能超越AMD EPYC 7763。那麼Veyron V2的性能又能有多強呢?
以下是Ventana如何模擬Veyron V2的整數效能,以及每個插槽的原始SPECint2017性能:
依照Ventana公佈的數據來看,一個192核心的Veyron V2 RISC-V CPU的整數吞吐量將比AMD「Bergamo」 Epyc 9754處理器高23%,該處理器在相同的360瓦功率範圍內配備了128核和256線程;
同樣,Veyron V2也比96核的AMD“Genoa” Epyc 9654高了34%左右;與56核的Intel “Sapphire Rapids”Xeon SP 8480+相比,Veyron V2性能更是達到了其2.7倍。
這並不奇怪,因為Veyron V2有3.4倍的核心和1.7倍的線程,儘管Veyron V2核心必須以較低的時脈速度運行;
另外一款基於Arm Neoverse V2的64核產品似乎的是亞馬遜雲(AWS)Graviton3的替代品,擁有64核心,性能比Intel Sapphire Rapids Xeon SP 8480+芯略高,但是也僅為Veyron V2的一半不到。
支援DSA
Veyron V2還支援DSA(面向某個特定的領域定制優化的設計),該功能允許客戶向其SoC 添加客製化加速器晶片。
Lanier 表示,這是針對可能希望提高資料中心特定工作負載的超大規模客戶,例如壓縮和加密、網路中的TCP 卸載處理或資料庫中的鍵/值處理。這些加速器小晶片由Veyron V2核心透過Ventana 添加的自訂指令提供支持,這是整個RISC-V 架構的一大賣點。
在這種情況下,自訂指令使軟體能夠呼叫加速器,這可以看作是英特爾處理器使用指令呼叫浮點單元(FPU) 的方式的迴響,當時其中一個是可選的單獨的浮點單元( FPU)。
△Ventana 可程式DSA
總結來說,Ventana 的目標是讓其客戶設計使用這些DSA 小晶片(無論是FPGA 還是ASIC)來提供更好的工作負載效率,而不僅僅是最大SPECint 吞吐量。
安全性大幅提升
Veyron V2 的另一個特色是,支援全面的RAS,具有ECC能力、防資料中毒等。
如今,資料中心處理器還需要具有安全啟動和身份驗證能力。Veyron V2 設計也能夠更好地抵禦側通道攻擊,例如Spectre 和Meltdown缺陷,這些缺陷可能導致伺服器記憶體中的資料被竊取。
不過,Lanier強調,這並不意味著Veyron V2晶片不可能被此類攻擊,只是V2 在設計時就了解了這些攻擊的執行方式,可以在一定程度上進行預防。“資料中心客戶為受影響的伺服器運行軟體修補程式或緩解措施的成本通常可能會降低10% 甚至20% 的效能。”
2024年第三季投入生產
Ventana也將提供基於Veyron V2的192 核心1U 伺服器參考設計,有四個128核心的小晶片和12通道的DDR5-5600內存,小晶片上有UCI Express互連,還有一個I/O接口,可以將它們放在伺服器CPU插槽內。
據介紹,Veyron V2將於2024年第三季投入生產,屆時用於互連小晶片的UCIe 1.1 PHY有望上市。
編輯:芯智訊-浪客劍
資料來源:
https://www.theregister.com/2023/11/07/ventana_riscv_server/