大舉攻向數據中心市場:Arm新服務器芯片設計性能提升50%
芯東西4月28日報導,今日,英國芯片設計公司Arm公佈了Neoverse V1和N2服務器芯片平台的最新性能數據,其處理能力比上一代N1提高了40%~50%。Neoverse V1平台首次支持可伸縮矢量擴展(SVE),N2平台則率先採用全新Armv9架構的平台,擁有比N1更高的核心數、性能和能效。
作者| 心緣
編輯| 漠影
兩者都支持新的數據類型和指令集,並針對高性能計算和AI等工作負載做了優化。
去年9月,Arm發布新的Neoverse N2和V1平台,但並未提及詳細性能。如今Arm正式公開兩款全新平台的性能、能效、總擁有成本等細節,以及騰訊、阿里等合作夥伴採用該設計的案例,並宣布基於N2的芯片預計將在今年下半年推出。
儘管Arm並未直接對比Neoverse平台與英特爾、AMD產品的性能,但從圖中可以看到,Neoverse系列芯片已經非常有競爭力。
同時,Arm也發布了構建基於Neoverse V1和N2 平台高性能SoC的關鍵部件——CMN-700。
Arm基礎設施事業部高級副總裁兼總經理Chris Bergey稱,Arm想改變行業對部署基礎設施的思維,每一個創新者都不應該被要求在性能與能耗之間進行抉擇,而Neoverse平台提供了兩者兼得的最佳解決方案。
一、Arm Neoverse已走過十年曆程
Arm基礎設施業務高級副總裁Chris Bergey說:“現在是時候讓Neoverse跨越所有基礎設施了。”
從起步至今,Arm Neoverse已經走過十年曆程。
早期其基礎設施內核是Cortex-A72,有出色的能效比、媲美競爭對手的單核性能表現,通過合作夥伴的智能網卡、DPU、物聯網芯片在網絡及邊緣應用場景中發揮價值。
隨後,2019年,Neoverse N1和CMN-600 Mesh網絡將線性性能擴展到非常高的內核數量,更加適合雲服務。據其分享,N1單核性能已經比肩或超過傳統SMT線程的性能。
Arm技術專家稱,儘管其競爭對手陸續推出新的芯片,但它們仍無法與N1的單線程性能匹敵。
通過Neoverse V1和N2,Arm想進一步改變業界對部署基礎設施的看法,使得大家無需在性能與能效之間做選擇,而是兩者兼得。
Arm還將幫助合作夥伴在單芯片或多芯片封裝中,都能以同質或異質的方式提供解決方案。
據Arm技術專家介紹,Arm與領先的晶圓代工廠深入合作,在多個先進的工藝節點上開發出了性能和功耗優化的POP IP。
隨著Project Cassini和Arm SystemReady啟動,Arm的標準和認證項目計劃正持續推進,並逐步擴展到基礎設施和物聯網邊緣。
今天,Arm正式揭曉Neoverse V1和N2平台的技術細節。
二、Neoverse V1:機器學習工作負載可提升4倍
Neoverse V1是Arm強調性能優先的新型計算系列的第一個平台,客戶可基於該架構靈活地為大型數據中心服務器設計芯片。
這是Arm迄今設計的最寬微架構,Arm預期它在多核配置中能勝過市場上其他產品。
Arm為其加寬了微架構,並增加了緩衝區和隊列的深度,因此在運行中能容納更多運行中的指令,支持高性能和百萬兆級計算等市場應用。
與N1相比,Neoverse V1帶來了50%的性能提升,在各種矢量工作負責中性能優化約1.8倍,通過各種新的指令,機器學習工作負載最高可優化4倍。
客戶可以自由選擇適當的IO尺寸,並利用芯片集和多芯片功能來提高內核數量和性能,不過採用的方法是組合可提高良品率、降低成本的小型芯片。
法國芯片公司SiPearl和韓國電子通信研究所( ETRI)的高性能計算(SoC)均可展現這些設計元素的優勢,這被Arm看作是高性能計算的發展方向。
V1新增的一個關鍵功能是SVE,可使其在每核性能方面領先,使用SVE的代碼壽命更長,並為SoC設計者提供更好的靈活性。
SVE為開發者提供了一套全新的矢量編程和數據操作工具,能直接取用相同代碼進行自動矢量化,處理速度相比NEON可提高3.5倍。
由於SVE與矢量長度無關,因此相同代碼不加修改即可在V1上運行,如果在V1上加倍SVE矢量的寬度,對應處理速度也幾乎提速1倍。
三、Neoverse N2:單線程性能提升了40%
另一種芯片微架構Arm Neoverse N2平台,是第一個基於Arm公司最新Armv9架構的內核,也是第一個具備SVE2功能的平台。
Neoverse N2在安全性、能耗以及性能方面都有全面提升,並能為用戶減少TCO的每瓦性能表現。相比於N1,N2在保持相同水平的功率和麵積效率的基礎上,單線程性能提升了40%。
N2具備良好的可擴展性,可以橫跨從高吞吐量計算到功率與尺寸受限的邊緣和5G應用場景,並在這些應用中帶來優於N1的表現。例如,在雲端上提升1.3倍的NGINX,在5G邊緣應用上提升1.2倍的DPDK數據包處理。
SVE2是Armv9的重要特性之一,能顯著提升從雲到邊緣的性能效率、可擴展性及安全性。
和SVE一樣,SVE2也屬於與矢量長度無關的指令集,用戶只需編寫、編譯一次代碼,即可在各種硬件上運行,還能充分利用可用的矢量帶寬。
在機器學習、數字信號處理、多媒體、5G系統等廣泛應用場景中,SVE2不僅帶來大幅性能提升,還帶來了SVE具備的編程簡易性及可移植性等優勢。
四、新Mesh互連技術助力打造異構SoC
構建基於V1和N2高性能SoC的關鍵要素,就是Arm Neoverse CMN-700 Mesh互連技術。
CMN-600為可擴展、高內核數、高性能SoC奠定了基礎,在此基礎上,新一代Arm Neoverse CMN-700被Arm稱作是業界最先進的Mesh互連技術,在每個矢量上進一步提升了性能——從內核的數量、緩存的大小,到附加內存和IO設備的數量和類型。
對於基於V1的高性能計算平台而言,支持高帶寬DDR5和HBM內存系統至關重要,而CMN-700即可實現這一點。
其另一個關注重點是對多芯片功能的助益,以便為數據中心資源池化的增長提供更多定制選項。CMN-700中還增加了CXL功能,可為內存擴展和智能一致性加速器構建主機或端點設備。
多芯片功能的一項重要升級是針對傳統多插槽設計和新的芯片集或多芯片集成提高性能和優化功能,這為突破傳統的矽掩膜版限制提供新的機遇,同時也使得緊密耦合的異構計算能擁有更大的靈活性。
五、騰訊、阿里均已測試Neoverse平台,服務器性能提昇明顯
基於Neoverse平台的新功能,Arm合作夥伴及客戶能更加順利地實現從雲端到邊緣的部署。
Honeycomb.io證實說,他們在15小時內便完成將其接收量應用程序移植到AWS Gravition2上,同時工作流程的實例使用量減少了30%。
在雲服務方面,騰訊與Arm持續合作,騰訊在硬件測試和軟件支持方面持續投入,使其在雲應用上能採用Arm Neoverse技術,每瓦性能表現出色,軟件部分既支持已編譯和解譯的代碼庫,也支持為這些代碼庫提供支撐的微服務框架。
騰訊專項測試技術中心總監黃聞欣(Victor Huang)說,通過TencentBench測試框架發現,得益於更多可擴展的CPU核心數,Arm服務器比傳統的服務器性能表現更強勁,尤其在AI推理和圖片處理領域優勢非常明顯。
阿里雲在即將上線的基於Arm架構ECS實例上完成了測試,並在SPECjbb測試數據中表現出色,通過雙方緊密合作,基於Arm架構運行的DragonWell JDK性能提高了50%。用戶及開發者現可到阿里云網站上註冊,獲取Arm系列實例的受邀測試。
亞馬遜雲科技(AWS)通過收購Annapurna Labs部門成為Arm Neoverse的早期使用者,其自研服務器芯片AWS Gravition正快速佈建於AWS的各個服務區域。而過去AWS推出的新實例中,有近一半是基於Graviton2平台的。
除了在主流應用用例中,Graviton2和Neoverse也被應用於更多專用處理的應用場景。例如在EDA方面,Arm獲得了所有主要工具供應商的支持,並且詳細計劃了Arm如何將EDA的工作負載移上雲端。
甲骨文(Oracle)已宣布計劃在Oracle雲基礎設施上採用Ampere Altra CPU,為各種工作負載提供最佳的性價比。
在高性能計算(HPC)方面,今年4月,印度電子信息技術部(MeitY)宣布將加入法國芯片公司(SiPearl)和韓國電子通信研究所(ETRI)的行列,採用Neoverse V1驅動國家級百萬兆級高性能計算項目。
在通信方面,Marvell發布了基於Neoverse N2的OCTEON系列網絡解決方案,預計將於2021年底前試產,比上一代OCTEON的性能提升3倍。
結語:Arm正大舉攻向服務器芯片市場
對於目前運行的各種工作負載和應用程序,Arm正嘗試推出能兼顧高算力和低功耗的計算解決方案,這對於主導x86架構的服務器處理器供應商英特爾和AMD無疑正造成新的衝擊。
但Arm表示,意味著,“一刀切”計算方法不再是合適的解決方案。這是對使用x86架構的主要服務器供應商英特爾和AMD一次攻擊。
今天Arm新公佈的訊息還只是冰山一角。總體來看,Arm正在提高其在計算機市場的競爭力。隨著Arm處理器大量走向雲端服務器,已經壟斷絕大多數手機處理器市場的Arm,將會無處不在。