為何手機AI處理器都快普及了Arm才推出全新NPU系列?
上週,Arm推出了一系列全新的IP,包括NPU、GPU以及DPU。NPU尤為值得關注,不僅因為NPU系列同時發布了N57和N37兩款新品,還因為Arm的ML處理器(Machine Learning Processor)系列名稱Ethos也正式公佈。全新AI系列產品的亮相,意味著Arm的AI策略更加明晰。
不過,2017年開始,手機市場就開啟了AI處理器的競爭,華為、蘋果、三星、聯發科、高通都相繼推出集成NPU的手機處理器。為什麼Arm直到2019年才推出NPU?Arm的NPU能否獲得成功?
首款NPU發佈時間略有推後
實際上,Arm原計劃在2019年第一季度發布首款ML處理器。之所以選擇這個時間點,Arm ML事業群商業與營銷副總裁Dennis Laudick去年11月接受雷鋒網專訪時表示:“最近我們已經看到機器學習技術正在穩定和成熟,市場需求也正在不斷增加,我們認為現在是進入市場的最佳時機。”
不過,Arm首款ML處理器的發佈時間是在今年5月,比計劃略晚一些。Dennis上週再次接受雷鋒網(公眾號:雷鋒網)專訪時表示,發布推遲有很多原因,產品開發是主要的問題。ML處理器開發的過程中面臨很多挑戰,其中一個很大的挑戰就是數據移動處理不好就會消耗大量的電,另一個大的挑戰就是如何權衡效率和靈活性。
Arm ML事業群商業與營銷副總裁Dennis Laudick
雖然產品的開發影響了首款ML處理器發布的時間,但Arm並沒有在首款ML產品發佈時就公佈其係列名稱和型號。而是直到面向主流市場,提供性能、成本以及功耗均衡的N57和對成本極端敏感的N37發布,Arm才正式公佈ML系列處理器的的名稱——Ethos(中文可翻譯為精神)。此時,外界也才清楚5月發布的首款ML處理器型號為Ethos-N77,定位高端,面向高性能需求的市場。
這是為什麼?Dennis解釋稱,其實有很多原因,Arm內部也在重新思考命名系統,如果推出第一款機器學習產品就立刻發布新的產品系列名稱,可能大家會把對這個系列品牌的印象和認知捆綁在這一款產品身上,我們不希望造成這樣的效果。我們希望大家看到Ethos這個產品名下面的產品系列是廣泛而豐富的,這就是為什麼要等到有針對三個不同市場,三個不同檔次的產品都出來了,才正式的對外公佈產品系列的名稱的主要原因。
但更為關鍵的是,市場上已經有眾多競爭者,此時推出Ethos還有競爭力嗎?Dennis表示,Arm的成功一直以來都得益於生態系統,對於NPU來說挑戰並不是能夠做出自己的NPU,而是NPU在市場上是不是真的好用。我們已經聽到合作夥伴反饋說,希望在硬件上能夠標準化,他們不想支持15種不同的硬件,所以,他們期待有一個標準化的軟件平台能夠支持。
Ethos解決兩大技術挑戰的獨到方法
因此,如果Arm想要獲得市場的認可,除了需要解決硬件和軟件上的挑戰,讓產品具有足夠的吸引力之外,生態對於Ethos成功也非常重要。
數據管理的三個定制化技術
首先明確,Arm Ethos-N77、N57和N37有相同的核心架構,提供1-4TOP/s的算力,並且,三款NPU都獨立於製程節點的技術之外,可以選擇使用不同的製程。
Arm NPU核心架構有什麼獨特性?Dennis表示,首先還是數據方面的優勢。在解決數據搬運問題時,我們有三大特性,第一,壓縮的定制化,不同數據類型需要不同的壓縮方法,所以我們專門針對機器學習類型的數據做出了定制化的壓縮技術。第二,盡量把數據承載最小化,這非常類似內存的緩存,我們專門把機器學習、數據處理做了重新排列,確保當把一個數據載入的時候就盡量把需要訪問這個數據的工作都完成了,盡量不承載這個數據。第三,我們還採用了其他的技術手段,比如專門開發了獨一無二的剪枝技術,正常的剪枝技術存在準確率的問題,我們特殊開發的剪枝技術提高了效率,當然還使用到了許多的稀疏技術。
另外,就是效率和靈活性的權衡,讓硬件本身能夠有兩到三年的生命週期。
以具體的產品看,Ethos-N57與Ethos-N37的設計理念包括一些基本原則,例如:針對Int8與Int16數據類型的支持性進行優化;先進的數據管理技術,以減少數據的移動與相關的耗電;通過Winograd技術的落地,使性能比其他NPU提升超過200%。
AI處理器支持的數據類型非常關鍵,隨著算法和模型的逐步成熟,邊緣端的AI芯片很多都只支持Int8的數據類型,但Arm還選擇支持Int16。對此,Dennis表示,機器學習支持Int8數據類型基本就足夠了,我們之所以選擇也支持INT16是為了更好的應對涉及到圖像處理的工作,因為通常來說像素是10到12位,牽扯到顏色,支持INT16就省略了很多的數據轉換的工作,非常適合圖像處理。
但為何又沒有支持更高精度的FP16?“因為FP16對帶寬的需求相當高,這就意味著處理器的整個處理量和功耗就會提升。但消耗這麼多的功耗和帶寬,準確率與INT8比較卻沒有多少提升。” Dennis如此解釋。
雖然機器學習讓處理器的設計面臨著新的挑戰,不過Dennis認為機器學習本身並沒有改變最為根本的處理器的設計原則,只不過針對機器學習的處理器設計的重點可能和通用處理器有所不同。Arm一直強調的數據管理是我們的重點,還有並行計算、矩陣乘法都是我們關注的重點。
軟硬結合的權衡
硬件的獨特性之外,軟件也同樣重要,特別是在AI時代,軟硬一體化的重要性更加突顯。要實現理想的軟硬結合,Dennis認為有兩大挑戰,一個還是權衡的問題,也就是多少工作讓硬件完成以及多少工作給軟件完成。另一個是ML框架的支持,因為這個領域還很新,還會出現不同的框架。
Arm方面,Dennis表示,我們研發ML硬件的時候,我們首先考慮的是軟件需要什麼,然後再設計硬件,其實是軟件需求推動了硬件設計。Arm花了很多精力在底層的軟件方面,機器學習的工程師團隊有另外一半以上都是做軟件的,我們已經做了三年,但仍然還有很大的改善空間。
除了軟硬一體化提升AI性能,在先進半導體製程越來越昂貴的背景下,通過異構系統提升處理器性能也受到了很大的關注。但異構的系統給軟件帶來的更大的挑戰,此時,到底是用統一的軟件API去分配硬件資源實現易用性,還是對每個硬件單獨編程讓系統更加高效?
Arm採用的在硬件之上有特別優化的Compute Library,它會把底層的硬件和驅動進行充分優化,根據算子的不同需求驅動硬件,可以提升幾倍到十幾倍的效率。再上一層是Arm nn,可以將TensorFlow、Caffe等神經網絡框架轉換成Compute Library可以執行的任務,讓開發者不用關心底層的硬件,只需要使用標準架構進行開發就可以。
因此,Dennis表示Arm採用的方式是更加底層的方式,軟件直接與CPU、GPU或NPU進行溝通,做最佳匹配。這其中最大的挑戰還是平衡的問題,軟件的架構要做到根據具體的應用,分配專用和通用的處理器,這個百分比還可以不斷調整,這是最難做的。
在框架的支持上,Arm是希望其硬件可以讓開發者不需要去特別選擇需要用哪一個框架。
生態才是NPU成功的關鍵
NPU軟硬件的獨特性和優勢只有獲得市場的認可才能成功,那麼首先得滿足不同場景的算力需求。Ethos系列現有的三款ML處理器性能從1-4 TOP/s不等,但是即便是在邊緣端,也會有更高的性能需求,更不用說高性能計算的場景。
Dennis表示,針對高性能的場景,Arm可以提供的ML產品是一個結構單元,可以把它組裝起來增加處理器的結構,如果把多個能夠提供4TOP/S的單元按照需求組裝起來就能夠滿足更高性能的需求。
但是,隨著系統的複雜性增加,計算單元的增加並不意味著一直能夠帶來線性的性能提升。Arm如何應對?Dennis表示,這種組裝確實有其局限性,到達某個性能後可能性能的提升就消失了,但Arm在GPU和CPU多處理器架構上有很好的架構設計,能夠盡量實現比較長的線性性能提升。
“這也是我們為什麼強調Ethos系列將是一個非常長和非常廣的產品線,我們會去延展這個產品系列,找到不同的做機器學習的途徑。”Dennis進一步表示。
前面已經提到Arm成功的關鍵是生態,而擁有多款的專用和通用芯片也是Arm在AI和IoT時代的優勢,與NPU同時發布的還有採用最新Valhall 架構的Mali-G57,以及Arm單位面積效率最高的Mali-D37。
Dennis依舊認為未來市場需要的是通用加專用芯片,並且適用範圍更廣。他表示:“我們有很多機器學習的應用無需特別高的性能,CPU完全可以滿足。而且Arm的CPU性能不斷的提升,現在性能累計提升了400倍。同時,像Ethos這樣的專用芯片系列也可以滿足更加多元化的需求。”
不僅如此,Arm還開源了Arm NN,可以與第三方可配置的IP進行連接,這也能夠適應更多應用場景。
為應對AIoT時代更激烈的競爭,特別是RISC-V的競爭,我們也看到Arm在本月初宣布推出全新的功能Arm Custom instructions,允許客戶在特定的CPU 內核中加入自定義指令功能,能夠加速特定的用例、嵌入式和物聯網應用程序。
Dennis表示,我們會認真的看待RISC-V在市場上的進展和動作,就像我們認真看待其他架構一樣。Arm的優勢在於我們能夠提供最全面的、擁有靈活性、普遍性的解決方案和產品,與此同時,我們還擁有強大豐富的生態,能夠更好的滿足市場的需求。
雷鋒網小結
對於Arm而言,AI和IoT市場一定都不能錯過,對於手機AI市場,作為提供通用IP的Arm顯然不適合在AI算法迅速迭代的兩年前就推出一款NPU產品,這將無法保證NPU對於今天的AI算法依舊高效。從這一角度看,Arm選擇在2019年才推出NPU也可以理解,並且Arm此時推出的NPU也有望在一定程度上解決開發者需要適配多種NPU硬件的苦惱。
從技術的角度看,數據的存取帶來的高能耗以及如何平衡靈活性和效率是所有AI處理器設計者都需要面對的問題,Arm的優勢在於其豐富的架構設計經驗,以及一直以來的軟件以及生態的優勢,用其獨特的方式解決了面對的挑戰。
當然,Arm NPU的推出,很重要的目標市場除了手機還有IoT。只是,在IoT市場,Arm應該更加認真的看待RISC-V這個競爭者。