Arm新十年,能否實現CPU計算“統治”?
本週三,Arm發布了最新一代架構Armv9,這一架構是在目前已經廣泛使用的Armv8的基礎上,面向未來十年的新一代架構。Armv9架構有三個系列,分別是針對通用計算的A系列,實時處理器的R系列,微控制器的M系列,預計未來兩代移動基礎設施CPU的性能提升將超過30%。首款基於Armv9架構CPU的移動處理器最快將在今年底問世,可能來自MediaTek。
Armv9架構的初代版本增強了安全性、機器學習、DSP性能,Armv9架構未來也將持續增強這些性能,並將加入新特性。
最近幾年,Arm架構處理器已經從智能手機為代表的終端向對性能要求更高的PC、數據中心延伸。從最新的發布可以看到,Arm希望Armv9架構CPU以及基於其GPU、NPU處理器能夠無處不在。如果Arm的目標能夠實現,是否可以實現CPU計算統治?Arm的第三個1000萬出貨目標多久能夠達成?
安全是發揮計算架構潛能最大的挑戰
Armv9架構的發布會上,安全性被頻頻提及,與安全相關的技術和介紹的篇幅也很長。Arm高級副總裁、首席架構師兼技術院士Richard Grisenthwaite解釋稱,“我看來,計算若要充分發揮潛能,安全是最大的挑戰,越來越多的私人數據被存放在計算系統中,這讓這些數據成為安全攻擊的誘人目標。今年網絡犯罪損失的金額預估高達6萬億美元。”
因此,Armv9架構在安全性方面做了多方面的工作。首先是引入了Arm機密計算架構(Confidential Compute Architecture, CCA),機密計算通過打造基於硬件的安全運行環境來執行計算,保護部分代碼和數據,免於被存取或修改,甚至不受特權軟件的影響。
Arm CCA將引入動態創建機密領域(Realms)的概念,機密領域面向所有應用,運行在獨立於安全或非安全環境之外的環境中,實現保護數據安全的目的。比如,在商業應用中,機密領域可以保護系統中商用機密數據和代碼,無論它們正被使用、閒置或正在傳輸中。
據悉,Arm會在今年下半年公佈Arm CCA的更多信息。
內存標籤擴展是Armv9架構的另一項安全技術。Richard Grisenthwaite說:“在分析了全球軟件報告的大量安全問題後,我們發現許多問題的根源實際上與過去內存安全的老問題有關。這些問題已經困擾計算領域50年,兩個持續多年特別常見的內存安全問題——緩存溢出和釋放後重用。很大一部分的問題是,這些內存安全漏洞被利用之前就能發現問題,這是提高全球軟件安全至關重要的一步。”
Arm持續與穀歌合作開發的“內存標籤擴展”技術,可以在軟件中查找空間和時間內存安全的問題,允許軟件將指向內存的指針與標籤建立關聯,並在使用指針時檢查這個標籤是否正確。
Richard稱,內存標籤擴展是明年上市的第一代Armv9 CPU不可或缺的一部分。支持內存標籤擴展的軟件也正被引入到安卓11系統和OPENSUSE。
Arm還與劍橋大學在其CHERI架構上合作多年,從架構底層來提升安全性。據介紹,CHERI架構定義了可提供這種封裝能力的硬件功能,這在未來將可能促成一個本質上更為安全的計算平台,但這也會使某些系統的變成方式產生重大改變。
不過,這種架構Arm已經在和其合作夥伴探索,如果成功,會在未來5-6年引入Armv9架構,成為Armv9架構主要的組件之一。
未來兩代Armv9架構CPU性能提升將超過30%
安全性是計算架構的基礎,性能提升則是滿足越來越高的計算需求以及多樣化計算需求的關鍵。Arm預計,新一代架構Armv9將保持超過業界CPU性能提升的速度,未來兩代移動和基礎設施CPU的性能提升將超過30%。
Richard強調:“這個數據是根據業界標準評測工具來衡量,30%的算力提升完全是憑藉於本身架構而不是藉助於製程工藝來實現。”
計算性能提升非常重要的驅動力就是AI,Statista Research Department今年1月發布的最近報告估計,到21世紀20年代中期,全球將有超過80億台搭載AI語音輔助的設備。不同設備對於AI性能的需求不同,也就需要不同的AI處理器。
Arm與富士通合作開發了可伸縮矢量擴展(Scalable Vector Extension, SVE)技術並用在了全球最快的超級計算機“富嶽”上。在SVE的基礎上,Armv9中使用了新開發的SVE2技術,增強了對在CPU上本地運行的5G系統、虛擬和增強現實以及ML工作負載的處理能力,能夠提供實現增強的機器學習和數字信號處理能力。
“我們還將通過提升頻率、帶寬、緩存大小、並減少內存延遲,以最大化CPU 性能。”Richard表示。
在解決新問題的過程中,Arm加入了一些複雜技術,這是否違背了精簡指令集(RISC)的初衷?Richard的觀點是:“Arm架構的精簡指令(RISC)核心沒有改變,我們依然遵循著註冊到註冊(registration to registration) 的操作原則,所以從硬件的角度來看,Arm指令集仍然保持著精益性。”
Arm稱,除了大幅增強CPU內的矩陣乘法,Mali GPU和Ethos NPU也會持續進行AI創新,擴展Arm的技術能力。
統治CPU計算
目前,CPU領域最成功的架構當屬x86,不過x86的成功和統治力在於PC和高性能計算市場,在Arm擅長的智能終端市場並不成功。近幾年,Arm架構在高性能計算領域取得了一些進展,包括上面提到的“富嶽”超級計算機,以及推出採用Arm架構的多款服務器。去年,蘋果M1處理器MacBook Pro電腦的推出,也讓業界看到了x86架構在PC市場的統治地位並非牢不可破。
Arm首席執行官Simon Segars說,“Arm芯片實現1000億顆的出貨花了26年,如果預測準確,接下來一年,我們的合作夥伴出貨的Arm芯片將累計達到2000億顆。也就是說,我們的第二個1000億的出貨將在短短5年內達成。”
目前Arm架構的芯片出貨已經超過1800億顆,Armv9架構會成為實現Arm芯片3000億顆芯片出貨的先驅。沒有人能準確預估Arm實現第三個1000億顆芯片出貨的時間,但可以明確的是Arm希望其芯片能夠為所有智能計算提供算力,也就是讓其芯片在未來無處不在。
為了實現這個目標,同時滿足行業從通用計算向普遍的專用處理髮展的需求,Arm也開始強調全面計算的理念。全面計算設計方法包含Arm的CPU、GPU、NPU,通過將全面計算的設計原則應用在包含汽車、客戶端、基礎設施和物聯網解決方案的整個IP組合中。
與此配合,Arm也需要在標準化程度上取得平衡。Richard說:“如果過多的標準化,那麼合作夥伴將無法開發合適的專用解決方案。而如果太少的標準化,我們得承擔低價值、形同實異的解決方案的風險。這將讓軟件生態系統的成本增加、且毫無益處。”
Arm在服務器領域中已經看到了標準化平衡的價值,推出了“服務器基礎架構SBSA”和相關的認證計劃“服務器就緒”。
“我們也正在擴大標準化的範圍,Arm SystemReady將服務器就緒計劃的概念從雲端延伸到物聯網邊緣等廣泛的設備上,以實現通用操作系統及虛擬機管理程序之間的交互運作。”Richard說。
如果Arm的全面計算以及標準化探索成功,從終端到邊緣再到雲端,Arm是否就能夠實現在未來的計算統治?實現3000億顆甚至更多芯片出貨又會有多快呢?
小結
現在看來,有兩大方面的阻礙,一方面是在復雜的國際形勢下,同屬精簡指令集的RISC-V正在快速發展,加上x86陣營intel和AMD也在加強x86的競爭力,Arm要真正撼動x86的優勢領域並非易事。
另一方面,中國作為芯片進口的大國,Arm與Nvidia的收購交易,以及美國對中國領先芯片設計公司的出口限制,讓客戶產生擔憂。
對於Armv9是否以供給包括華為在內的中國企業的問題,Arm的官方回復是:“Arm既有源於美國的IP,也有非源於美國的IP。經過全面的審查,Arm確定其Armv9架構不受美國出口管理條例(EAR)的約束。Arm已將此通知美國政府相關部門,我們將繼續遵守美國商務部針對華為及其附屬公司海思的指導方針。”
這樣的回复,不知你怎麼看?