Intel 2018架構日詳解:新CPU&新GPU齊公佈牙膏時代有望明年結束
Intel在聖克拉拉舉辦了架構日活動。在五個小時的演講中,Intel揭開了2021年CPU架構路線圖、下一代核心顯卡、圖形業務的未來、全新3D封裝技術,甚至部分2019年處理器新架構的面紗。
姍姍來遲的消費級CPU路線圖
近一段時間以來,業界一直非常期待看到Intel未來的架構路線圖,但自Skylake以來卻一直處於猶抱琵琶半遮面的狀態。最近幾個月Intel簡單公佈了一部分數據中心產品路線圖,包括Cascade Lake,Cooper Lake和Ice Lake以及未來幾代,但消費級產品卻依舊難產。
在本次架構日活動上,Intel終於帶來了消費級的PC處理器架構路線圖和Atom架構路線圖。
在高性能的Core系列產品線上,Intel列出了未來三年內的三個新代號:Sunny Cove、Willow Cove和Golden Cove,其中離我們最近的Sunny Cove將於2019年上市(PS:你猜會不會鴿^_^)。
據悉,Sunny Cove架構旨在提高通用計算任務下每時鐘計算性能和降低功耗,將擁有AVX-512單元,並包含了可加速人工智能和加密等專用計算任務的新功能,將成為Intel下一代PC和服務器處理器的基礎架構。
隨後的Willow Cove在路線圖上位於2020年,很可能也是10nm。Intel將此處的重點列為緩存重新設計(可能意味著L1/L2調整)、新的晶體管優化(基於製造)以及其他安全功能,可能是指新一類側信道攻擊的進一步增強。
Golden Cove則位於圖表中的2021年,工藝製程仍是一個問號,可能是10nm也可能是7nm,Intel將進一步提升其單線程性能和人工智能性能,並在核心設計中增加了潛在的網絡和AI功能,安全特性看起來也得到了提升。
Atom系列低功耗處理器的架構路線圖比酷睿系列的節奏慢,考慮到其歷史,這並不奇怪。鑑於Atom必須適應各種設備,業界更多的是期望產品能夠提供更廣泛的功能,尤其是SoC方面。
即將在2019年推出的架構名為Tremont,專注於單線程性能、網絡服務器性能以及電池續航時間的提升。緊隨Tremont之後的將是Gracemont,Intel將其列為2021年的產品,可能會擁有更寬的矢量處理單元或支持新的矢量指令。
從路線圖上看,Gracemont之後還會有一款“XXXmont”系列核心,Intel正在研究這款新內核在2023年時可能具備的性能、頻率和特性。
上面這些是架構的名稱,而實際產品可能可能會有另外的代號,也就是酷睿系列近些年來一直使用的“XXX-Lake”命名,比如代號為Ice Lake的處理器就是由Sunny Cove架構的CPU內核與Gen11核心顯卡聯合構成。
活動中的另一個值得關注的消息是,Intel未來的架構很可能與工藝製程脫離關係。Raja Koduri和Murthy Renduchintala博士解釋稱,為了讓產品線擁有一定的彈性,未來這些架構的最新產品將以當時可用的最佳工藝製程推向市場。
雖然沒有明說,但這應該意味著目前已經名存實亡的“Tick-Tock”策略徹底被掃進了歷史的垃圾桶,未來某些核心設計跨越不同製程的情況可能會成為常態。
窺探Sunny Cove架構
每次聽到全新處理器架構的消息時,大家最期待的都是對於新架構的詳細分析,以及相對前代的變化情況。
自Skylake於2015年首次推出以來,到目前為止Intel已經推出了Kaby Lake、Coffee Lake和Coffee Lake三代小改款,由於每代提升都不大,被玩家戲稱為“擠牙膏”。雖然這次Intel展示了全新的Sunny Cove架構,但遺憾的是其信息還不夠全面,主要集中在架構設計的後端部分。
Intel將其微體系結構更新分為兩個不同的部分:通用性能提升和特殊用途性能提升,通用性能提升指原始IPC(每時鐘指令)吞吐量或頻率增加,IPC的增加可能來自核心更寬(每個時鐘執行指令更多)、更深(每個時鐘更多並行)或更智能(通過前端更好的數據傳輸),而頻率通常是實現和過程的函數,而特殊用途性能提升可以通過其他加速方法(如專用IP或專用指令)來改進特定方案中使用的某些工作負載。
據悉,Sunny Cove在通用性能和特殊用途性能兩個方面有著全方位的提升。在架構的後端部分,Intel已經做了包括增加高速緩存大小、增加核心執行寬度、增加L1存儲帶寬等改進。
Sunny Cove架構的L1數據緩存從32KB升級為48KB,通常當緩存容量增大時,緩存未命中的概率將以平方根的比例降低,因此Sunny Cove架構的L1緩存未命中率理論上可減少22%。同時Sunny Cove架構Core和Xeon處理器的L2緩存也將分別比目前的256KB和1MB有所增加,具體容量尚未可知。
此外,微操作(uOp)緩存和二級TLB雖然不屬於後端,但其容量也都相比目前有所增加,這將有助於機器地址轉換。圖中還可以看到一些其他更改,例如執行端口從8增加到10,允許一次從調度程序中獲得更多指令;重排序緩衝區的調度也從每個週期4條指令增加到5條指令;端口4和端口9鏈接到了一個循環數據存儲,使帶寬加倍,但AGU存儲功能也增加了一倍,這將有助於增加L1-D大小。
Sunny Cove架構的執行端口也發生了重大變化,詳情見下圖:
我們看到Intel為核心的整數部分配備了更多LEA單元,以幫助進行內存尋址計算,可能有助於通過需要頻繁內存計算的安全緩解來幫助改善性能損失,或者幫助提供具有恆定偏移的高性能陣列代碼。端口1從Skylake端口5獲取MUL(乘法)單元,可能用於重新平衡,但此處還有一個整數分頻器單元。這是一個小小的調整,Cannon Lake在其設計中也有一個64位IDIV(帶符號整數除法)單元,在這種情況下,它將64位整數除法從97個時鐘(混合指令)降低到18個時鐘,Sunny Cove可能與之類似。
在整數運算單元方面,端口5的乘法單元已成為“MulHi”單元,在其他架構中,它會在寄存器中留下最重要的半字節以便進一步使用,但目前不能確定它在Sunny Cove核心中的位置究竟是什麼。
在浮點運算單元方面,Intel增加了洗牌資源,這是出於消除代碼中瓶頸的考慮。Intel沒有在核心的浮點運算部分說明FMA(熔加運算)的功能,但既然核心內有一個AVX-512單元,這些FMA中就應至少有一個與之交互。Cannon Lake只有一個512位的FMA,這個FMA很可能在這裡,而Xeon的可擴展版本可能會有兩個FMA。
Intel列出的其他更新包括分支預測器的改進,以及由TLB和L1-D帶來的有效負載延遲降低。有人指出這些改進無法幫助到所有用戶,可能只有全新的算法才能使用這些特定部分的核心能力。
除了架構上的差異,Sunny Cove還增加了新的指令以幫助加快專業計算任務。隨著AVX-512單元的出現,新架構將支持用於大算術計算的IFMA(帶符號熔加運算)指令,這些指令在密碼學中非常有用。Sunny Cove還支持Vector-AES、Vector Carryless Multiply、SHA、SHA-NI以及Galois Field指令,這些指令也是密碼學的一些元素中的基本構建塊。
Sunny Cove支持更大的內存容量,其主存儲器分頁表從4層增加到了5層,支持最多57bit線性地址空間和最多52bit物理地址空間,這意味著服務器處理器理論上可支持單插槽4TB內存。
根據Intel之前的Xeon路線圖,Sunny Cove將在2020年與Ice Lake-SP一起在服務器領域上市。為了安全起見,Sunny Cove具有多密鑰全內存加密和用戶模式指令預防功能。
Gen11核心顯卡
2015年,Intel推出了採用Gen9核心顯卡的Skylake處理器,不過隨後Kaby Lake和Coffee Lake的核心顯卡都只是Gen9.5而非Gen10。實際上,Intel 10nm Cannon Lake處理器本該對應Gen10,但Intel從未發布過帶核心顯卡的PC端Cannon Lake處理器。
今天,Intel首席架構師、核心與視覺計算集團高級副總裁兼邊緣計算解決方案總經理Raja Koduri直接公佈了全新的Gen11核心顯卡,並重申了在2020年推出獨立圖形處理器的計劃。
根據路線圖,Gen11核心顯卡將於2019年開始隨10nm處理器一同面世,配備64個EUs(增強型執行單元),運算規模是此前Gen 9核心顯卡的2倍,浮點運算性能超過1TFlops。這64個EUs被分成4個切片,每個切片由2個8EUs的子切片組成,每個子切片均擁有指令緩存和3D採樣器,而較大的4個切片則擁有2個媒體採樣器、1個PixelFE以及額外的加載/存儲硬件。
Intel並沒有透露太多關於如何提高EU性能的詳情,但表示EU內部的浮點運算單元接口是重新設計,支持快速(2x)FP16性能。每個EU均像以前一樣支持7個線程,這意味著整個GPU有512個並發管道,Intel表示已經重新設計了內存接口,並將GPU的L3緩存增加到3MB,相比Gen9.5增加了4倍。
Gen11核心顯卡的一項重大改進是終於支持了瓦片式渲染,這讓Intel成為繼2014年的NVIDIA和2017年的AMD之後,最後一個實現這一特性的PC GPU供應商。雖然瓦片式渲染不是解決GPU性能問題的靈丹妙藥,但是優化良好的瓦片式渲染可以很好的適應核心顯卡的帶寬限制。
與此同時,Intel的無損內存壓縮技術也有所改善,在最佳情況下性能可提高10%,平均可提高4%。GTI接口現在支持每個時鐘讀寫64字節以增加吞吐量,以與重新設計的內存接口相配合。
Gen11核心顯卡還支持Intel全新的多速率著色技術Coarse Pixel Shading(粗像素著色),這與NVIDIA的可變像素著色很相似,能讓GPU減少陰影部分像素所需的渲染操作量。Intel為CPS展示了兩個演示,其中像素陰影分別作為與相機距離和屏幕中心相關的一個函數,當物體離相機或屏幕中心較遠時渲染量減少,其設計目的是幫助VR實現注視點渲染等功能,Intel表示遊戲在支持這一技術後可提高約30%的幀率。
Raja Koduri宣布了Intel獨立顯卡業務的新產品品牌:Xe,目前仍被非正式的稱為“Gen12”系列,將從2020年開始覆蓋從客戶端到數據中心的所有領域,也涵蓋了未來的核心顯卡解決方案,Intel希望Xe從入門到中檔,再到發燒友以及AI,都能向競爭對手最好的產品發起競爭。
Xe將從10nm節點開始,為未來幾代圖形奠定基礎,並將遵循Intel的單一堆棧軟件哲學,即希望軟件人員能夠利用CPU、GPU、FPGA和AI,所有這些都使用同一套API,這表明Intel已經準備好圍繞一個品牌向前發展。
作為架構日活動的一部分,Intel在現場進行了大量芯片演示,據稱這些演示均是基於新的Sunny Cove核心和Gen11核心顯卡,目前的演示涉及項目包括7-Zip應用和鐵拳7遊戲兩部分。
7-Zip項目相對直接,演示機的同頻性能相較於SkyLake平台提高了75%,展示了Sunny Cove架構的Vector-AES和SHA-NI等新指令所帶來的特殊用途性能提升。而在鐵拳7中,Sunny Cove+Gen11的演示機與SkyLake+Gen9相比更順暢,完全超出30fps的最低要求。
改變芯片製造方式的Foveros 3D封裝
關注過半導體芯片設計的人都應該清楚,目前生產的大多數CPU和SoC都是基於單片芯片的模具,即在封裝和進入系統之前,單片矽片內就已經具備了所需的一切。此外,還有一些帶有共享連接的多芯片封裝,以及將不同芯片通過高速互連連接在一起的載板或嵌入式橋產品。
在現代芯片設計中,最大的挑戰之一是盡量減少芯片面積,這樣可以降低成本和功耗,並且可以使其更容易在系統中實施。不過,當涉及到提升性能時,大型單芯片或多芯片封裝的缺點之一是與內存距離太遠,因此Intel準備將3D堆疊引入大眾市場。
Raja介紹稱,Intel數十年來一直專注於高性能工藝節點,試圖盡可能多的釋放其內核性能。除此之外,Intel還以類似的節奏運行IO優化工藝節點,但更適合PCH或SoC類型的功能。
126x和127x是Intel進程節點技術的內部編號系統,不過圖上並沒有區分出帶“+”後綴的節點變體。Raja展示了現有的2019年工藝技術,計算核心方面有10nm的1274工藝,IO方面有14nm的1273工藝,而本次介紹的Foveros 3D堆疊技術工藝代號是P1222。展望未來,Intel將擴大其節點基礎,以便它可以覆蓋更多的功率和性能點。
為了實現這一目的,一種方法是通過貼片和封裝,為每種情況下的工作選擇最佳晶體管,無論是CPU、GPU、IO、FPGA、RF還是其他東西,只要使用正確的封裝,就可以將它們放在一起以獲得最佳的優化。
這正是Foveros的用武之地。Foveros是英特爾新推出的有源載板技術,其設計相比2018年推出EMIB(嵌入式多芯片互連橋接)2D封裝技術,更適用於小尺寸產品或對內存帶寬要求極高的產品。在這些設計中,每比特傳輸的數據的功率非常低,而封裝技術要處理的是凹凸間距減小、凹凸密度增大以及芯片堆疊技術。Intel表示Foveros已經準備就緒,可以大規模生產。
這個技術的第一次迭代不像上面的幻燈片那麼複雜,只是使用了一組連接到下面PCH的CPU核心,但Intel可以在不同的芯片上使用不同的晶體管類型,比如在一塊使用22FFL製程的載板上放置一組10nm的CPU。
Intel在架構日現場展示了Foveros芯片,其採用22FFL IO芯片作為有源載板,並用TSV(矽通孔技術)連接了一顆10nm芯片,其中包含1個Sunny Cove內核和4個Atom內核(可能是Tremont)。這款微型芯片尺寸為12*12,待機功率僅為2mW,看起來似乎是面向移動設備。
在Intel的幻燈片上可以看到,Sunny Cove內核的“Big CPU”帶有0.5 MB獨享L2緩存,4個小型Atom內核則有1.5MB共享L2緩存,兩組核心共享4MB L3緩存。芯片還集成了64EUs的Gen11核心顯卡、四通道LPDDR4內存控制器(4*16bit),以及支持DisplayPort 1.4的MIPI(移動產業處理器接口)。
Jim Keller表示,Intel正在嘗試使用Foveros技術製造許多新玩意兒,看看哪些可能成為一個好產品,因此在2019年和2020年業內應該能看到更多Foveros產品。
一些周邊消息
在本次架構日活動中,最“沒激情”的部分應該是有關數據中心產品的討論。Intel之前已經公佈了企業市場接下來的兩款產品是Cascade Lake和Cooper Lake,均以14nm為基礎,專注於增強安全性以及幫助加速的AI指令,隨後還會有10nm的Ice Lake Scalable,但也僅此而已。
不過在活動中Intel還是證實了Ice Lake將基於Sunny Cove架構打造構建,並展示了Ice Lake Xeon 10nm處理器的封裝,算是一點安慰性的新消息吧。
此外,Intel還在活動上介紹了傲騰技術、One API軟件以及深度學習參考堆棧等內容。
One API軟件:Intel宣布推出“One API”項目,以簡化跨CPU、GPU、FPGA、人工智能和其它加速器的各種計算引擎的編程。該項目包括一個全面、統一的開發工具組合,以將軟件匹配到能最大程度加速軟件代碼的硬件上。公開發行版本預計將於2019年發布。
傲騰技術:Intel傲騰數據中心級持久內存作為一款新產品,集成了內存般的性能以及數據的持久性和存儲的大容量。這項技術通過將更多數據放到更接近CPU的位置,使應用在人工智能和大型中的更大量的數據集能夠獲得更快的處理速度。其大容量和數據的持久性減少了對存儲進行訪問時的時延損失,從而提高工作負載的性能。
Intel傲騰數據中心級持久內存為CPU提供緩存行(64B)讀取。一般來說,當應用把讀取操作定向到傲騰持久內存或請求的數據不在DRAM中緩存時,傲騰持久內存的平均空閒讀取延遲大約為350ns。如果實現規模化,傲騰數據中心級固態盤的平均空閒讀取延遲約為10000ns(10μs),這將是顯著的改進。在某些情況下,當請求的數據在DRAM中時,不管是通過CPU的內存控制器進行緩存還是由應用所引導,內存子系統的響應速度預計與DRAM相同(小於100 ns)。
Intel還展示了傲騰與QLC固態硬盤的結合,將降低對最常用數據的訪問延遲。總體來說,這些對平台和內存的改進重塑了內存和存儲層次結構,從而為系統和應用提供了完善的選擇組合。
深度學習參考堆棧(Deep Learning Reference Stack):這是一個集成、高性能的開源堆棧,基於Intel至強可擴展平台進行了優化。該開源社區版本旨在確保人工智能開發者可以輕鬆訪問Intel平台的所有特性和功能。深度學習參考堆棧經過高度調優,專為雲原生環境而構建。該版本可以降低集成多個軟件組件所帶來的複雜性,幫助開發人員快速進行原型開發,同時讓用戶有足夠的靈活度打造定制化的解決方案。
操作系統:Clear Linux 操作系統可根據個人開發需求進行定制,針對Intel平台以及深度學習等特定用例進行了調優;
編排:Kubernetes可基於對Intel平台的感知,管理和編排面向多節點集群的容器化應用;
容器:Docker容器和Kata容器利用Intel虛擬化技術來幫助保護容器;
函數庫:Intel深度神經網絡數學核心函數庫(MKL DNN)是Intel高度優化、面向數學函數性能的數學庫;
運行時:Python針對Intel架構進行了高度調優和優化,提供應用和服務執行運行時支持;
框架:TensorFlow是一個領先的深度學習和機器學習框架;
部署:KubeFlow是一個開源、行業驅動型部署工具,在Intel架構上提供快速體驗,易於安裝和使用。