XPU、神經擬態、量子計算、異構整合…英特爾5年技術回顧及展望
提起英特爾,大家第一時間想到的一定是CPU或者10nm什麼時候量產?其實目前來說這僅僅是英特爾的一部分工作而已。近日,英特爾中國研究院院長宋繼強在英特爾技術創新媒體溝通會上梳理了英特爾過去五年的工作和成績,分析了以數據為中心的轉型的原因和價值,並為我們展望了下一代技術的發展趨勢。
提起英特爾,大家第一時間想到的一定是CPU或者10nm什麼時候量產?其實目前來說這僅僅是英特爾的一部分工作而已。早在4~5年前,英特爾已經開始涉足以數據為中心的轉型。到了2017年,英特爾正式確立了“以PC為中心”向“以數據為中心”的轉型目標,進而有了完整的從軟件到硬件、從通訊到計算到存儲的計算架構、存儲方案和連接方案。所有工作及產品都是圍繞數據為中心這個理念來開展,CPU也僅僅是數據中心鏈上的一個產品分支。宋繼強表示,只有將數據轉化為業務價值,才能創造新的服務和體驗。接下來我們就跟隨宋院長為大家梳理一下2015~2019這5年間英特爾的技術發展及未來趨勢的展望。
以數據為中心轉型的動因首先我們看看離不開的一個詞——數據。計算是一個過程,輸入就是數據,輸出有很多種。數據產生了很多變化。
這張圖非常有價值,剛好反映了三個時代,也可以說是三個十年。右邊的大圈是從2010年之後開始的十年,中間的是2000年的十年,最左邊的是2000年以前的。我們知道2000年之前還是以PC計算為主,很少能夠用到服務器、雲計算。互聯網蓬勃發展起來以後開始也只是用來搜一些東西,我們是以搜索為主的web1.0時代,那些內容都藏在互聯網站裡,根本用不了。但是到了web2.0,第一波互聯網泡沫破裂之後,發現由少數人提供數據讓大家搜,不能構成大的產業。web2.0靠的是用戶貢獻數據,這就把整個雲計算催生出來了,這時候Server和PC同等重要。到了2008年之後,手機逐漸開始從功能手機轉變到智能機,由之前的主要是是打電話,轉變為更多的是可以用來上網和社交、看視頻。到了2010年之後就開始正式進入IoT時代,更多的設備連上了網。之後又有了AI,讓這些數據不僅僅是簡單的存儲、傳輸,而是需要深度挖掘裡面的價值,這些傳感器就可以分散到很多前端的設備裡面去。
首先來看一下數據的量。上圖顯示的是量的走勢圖,分成不同的顏色,代表不同的量級。淺藍色是數據中心的量的發展,邊緣計算的是中間的藍色,最深的是終端的。可以看出終端產生的數據量仍然是最大的,而且上升很快,數據中心的量是保持緩慢上升。邊緣從開始幾乎沒有多少,然後逐漸擴大,目前已經和數據中心的數據量差不多了。當越來越多的設備產生巨量的數據,由於網絡承載能力以及雲端存儲的限制,我們必須把越來越多的原來讓雲里數據中心處理的計算和存儲下沉,下沉到邊緣。由於數據的量和質都發生了很大的變化,於是在2015年的時候,英特爾提出了要開始以數據為中心的理念。
5年間的重要收購
2015~2019這5年間,英特爾都有重磅收購。這些收購都是圍繞以數據為中心這個理念來展開的。2015年收購FPGA領先的廠商Altera,這是做,它就是代表了其中一種架構,就是FPGA的處理計算的架構。2016年收購Nervana,Nervana是以定制的AI芯片,以ASIC方式解決AI深度學習加速的一種架構,我們稱作NPU。英特爾原有的CPU、GPU,加上Altera的FPGA,再加上Nervana的NPU,在這個時間點上英特爾已經有了四種不同的架構了。2017年還收購了Mobileye和Movidius。Mobileye之前是作為英特爾的合作夥伴來進軍無人駕駛、智能駕駛的市場。收購Mobileye以後,英特爾又有了專門給汽車市場用的前置看車外面的攝像頭,應該講是以攝像頭作為數據輸入的ADAS(高級駕駛輔助系統),它是由軟件的算法和軟件的應用加速器構成,叫EyeQ。同一年收購的Movidius其實也是一個專門的視覺AI加速芯片(VPU),只不過它是放在終端側的,像攝像頭、無人機這些地方,而前一年收購的Nervana是為了解決在服務器側專用的AI加速芯片。所以從端到端來看,這兩次收購併不重疊,但是他們都被放在了人工智能產品事業部裡面,因為那個產品事業部會囊括好幾種不同的AI產品。2018年收購eASIC,大家知道FPGA需要很專門的編程技巧,做完以後產出的是在FPGA上的硬件加速邏輯,但這個如果是用了大批量的市場上,它的性價比不佔優勢,eASIC做的事情是形成一套自動工具,把它轉換成可以在ASIC上做的設計,這樣你拿在FPGA上驗證好的知識產權核,其實就是一套設計,我們可以把它比較快的變成ASIC。同一年英特爾NetSpeed公司,收購NetSpeed將有助於改進其芯片設計工具,可以大大降低芯片設計成本。2019年,英特爾剛剛收購了Habana Labs,和Nervana類似這是一個針對服務器端做AI的技術公司,Habana的產品已經在某些大的雲服務商裡做測試。
英特爾XPU家族
通過近幾年的收購,再加上英特爾的自有的CPU、GPU,現在來看,英特爾手裡有了非常完整的多種不同架構的芯片方案,我們成為XPU。XPU,其實是代表了多種,X有很多種變化囊括了CPU、GPU、NPU、VPU以及FPGA。也包括後面要講到的Loihi神經擬態計算處理器、量子計算的處理器QPU,都是在“X”可變的範圍內。
oneAPI :XPU的統一軟件開發平台
面對這麼多種不同的架構,如果採用現有的編程思想及方法,程序員將無法駕馭,編程效率也將非常低效。為此,英特爾推出了oneAPI,實現了XPU一體化開發。我們知道對CPU、GPU、FPGA三個不同硬件做優化,採用的是不相同的編程語言及優化思想。比如FPGA通常需要懂得硬件架構的工程師做優化,當你不了解硬件電路設計的流水線是為什麼設計的時候,你是沒有辦法做優化的,所以它的要求是最接近底層。有了oneAPI,情況就不一樣了,開發工程師不需要知道具體是針對哪一種XPU來編程。假如現在要做一個完整的智能金融應用,可能要的就是幾個功能:人的識別功能、生物認證加上人臉和語音,可能還要做動態認證。這些功能至於是放在CPU上還是CPU,還是ASIC上,工程師都不需要關注,把這個交給oneAPI就好了,oneAPI編譯的時候會知道都用到了哪些硬件,可以你選用不同的方式去加速。總之,讓你在這上面運行的最省電最快就好了。所以oneAPI想達到的目標就是讓程序員最簡單,讓性能最好、功耗最低。oneAPI現在已經有一套叫做基於開放規範的行業計劃,我們做的oneAPI不僅僅是只有英特爾產品加入其中,第三方做的硬件,只要提供了相應產品的描述,也可以加入進來。
異構整合,打造百億億級超算
所謂異構整合就是把很多不同類型、不同工藝的芯片封裝到一個更大的芯片裡面,這些工藝可以是10nm、14nm甚至是20多納米的。功能可以包含:CPU、GPU、內存、高速接口等等多種類型。封裝技術可以採用2.5D、3D封裝來實現。如上圖右側圖示的英特爾最先進的Foveros3D封裝技術,可以把多個芯片分好幾層堆疊起來。Foveros 3D封裝不同層之間就像我們做建築的柱子一樣,預先要打好口、埋下鋼筋,鋼筋就是銅鑄了,這樣可以上下傳輸。EMIB 2.5D是做橫向連通的,同一層之間可以在基底上內嵌在表層附加這樣的小芯片,去把這些不同的芯片之間的連接連起來。它帶寬更高,功耗很低,體積很小。3D Foveros技術是比較高級的,但它也比較昂貴,所以用到比較小尺寸,低功耗,又要高性能的這樣異構的芯片。EMIB封裝技術相對來說經濟實惠的多,所以可以用在很多芯片裡。Lakefield是3D Foveros的一個例子,這是英特爾今年初在CES上展示的一個小條,大概是12cm x 2cm的尺寸。就這麼一個小條就搞定了一個筆記本電腦主板了,可以看出Foveros的封裝技術是何等的強大!
另外一個例子是“極光Aurora”超算架構,用來打造E級別超算的計算單元。採用3D Foveros封裝技術,將2個志強處理器、6個X架構GPU以及內存、I/O等都封裝到了一顆芯片裡面,實現了以往一個主板的功能。
英特爾的未來計算
以上所提到的全部是以過去這四年間,英特爾所推出一些產品。面向未來,現在這些產品是不是就能夠滿足需求了呢?我們覺得這還是不夠的,還需要更前沿的產品來持續發展補充,英特爾目前正在進行的面向未來的計算包括:神經擬態計算及量子計算。
1. 神經擬態計算
因為如果說把智能計算和人腦比的話,現有產品還有顯著的差異,現有的AI芯片只是利用率人腦的神經元的簡單的思想,具體的工作方式與人腦是完全不同的,如果需要更接近人腦,那麼就需要採用類腦芯片設計,我們稱為神經擬態計算。
大家知道,現在做一個圖像識別或者是訓練一個能做圖像理解的加速器都需要消耗很多電力,有些高達數千瓦。而人腦僅僅相當於20瓦的一個設備,實際上你去訓練,做一幅圖像識別,也只是利用了人腦的部分功率,根本用不到全功率。從數千瓦的功耗做一件事情要降到十瓦做一件事情,這是千倍的差距。為什麼NPU要消耗這麼多電?因為它需要通過很多數據反复的訓練很大的一個網絡,這個網絡參數可能是上億的,數十萬次的訓練。神經擬態計算是模擬人腦,這是很抽象的做了一個神經元,神經元的數學模型非常簡單。神經擬態計算是試圖去要模型人腦兩個特點,第一個是事件驅動,人腦平時其實大部分處於休息狀態,當有一個事件過來的時候才會根據那個事情的種類調動腦裡面的一個部分,比如說這個事情是跟視覺相關的,視覺去工作一下,跟聲音相關的,就聲音去工作一下,其他部分是休息的,所以是事件驅動的。第二個是人腦在處理一些事情的時候是多種輸入互相關聯的,聲音、圖像、觸覺是互相關聯在一起,時間上是有相關性,而且輸入信號的時間關係也要考慮到。而這個神經網絡一般不太考慮時間上的信息,它就是一個靜止的輸入,形成一個訓練的批次,再一批靜止的能量過去又形成了一個訓練的批次。如果它要去做視覺融合,就需要加另外的網絡來做。人腦顯然都是用一個腦子去做的,一個腦子去做很多事,所以這種訓練出來的東西有多種整合的效果。所以想達到的目的就是利用人腦事件驅動的機制達到省電,還利用多種方式一起去學習和訓練的機制達到跨領域的融合和相關。這是神經擬態計算特別想達到的目的。Loihi的芯片是英特爾2017年底發布的,採用14nm工藝製造,集成21億個晶體管,核心面積60平方毫米,內部集成3個Quark x86 CPU核心、128個神經擬態計算核心、13萬個神經元、1.3億個突觸,並有包括Python API在內的編程工具鏈支持。
這種芯片不採用傳統矽芯片的馮諾依曼計算模型,而是模仿人腦原理的神經擬態計算方式,並且是異步電路,不需要全局時鐘信號,而是使用異步脈衝神經網絡(SNN)。
在稀疏編碼、圖式搜索、路徑規劃、同時定位和建圖(SLAM)、約束滿足問題等特定應用中,Loihi要比傳統CPU速度快最多1000倍,能效高最多10000倍。英特爾將在2020年第一季度做到1億個神經元(已超過了倉鼠的神經元數量)、10000億個突觸,預計會有768顆芯片、1.5萬億個晶體管。從理論上講,Loihi可以擴展到最多16384顆芯片互連,那就是超過20億個神經元(人類大腦有大約860億個)。
2. 英特爾的量子計算芯片
量子位的製造方式有兩種方式。一種是由採用一大堆超導電路構成的(大多數公司都採用這種方案),嚴格來說並不是一顆芯片。這種方式需要接近絕度零度的超低溫來維持量子的穩態。
另一種方式是由單電子的矽構成了自旋量子位。這種方式英特爾更擅長,也是未來英特爾量子計算的發展方向。目前英特爾已經在12吋的晶圓上做出了兩個自旋量子位的芯片。這個如果能成功的話,就可以通過現在矽的生產製造產業鏈去做量子計算,打下了商業化基礎。此外量子計算、量子芯片要能夠被測試,而測試設備要工作在很低的溫度,不管是哪種都需要接近絕對零度的超低溫度。為此英特爾推出了可以4開爾文(-269度)的低溫下工作的控制芯片。
這些都是為了能夠真正構造實用化的量子系統做的進一步的工作。總的來說,這些工作都是非常困難的,既有理論難度,也有工程難度,每前進一步都要好幾年的時間。總結在未來的十年,英特爾仍將堅持“以數據為中心”和“六大技術支柱”一起推進,為未來的世界打下堅實的基礎。