架構設計脫胎換骨 英特爾酷睿Ultra深度解析
英特爾正式發表了第一代酷睿Ultra處理器平台,也就是首個基於Intel 4製程製程(7nm)打造的移動級處理器平台,其核心代號為Meteor Lake,產品系列貼標設計也採用了全新方案。 同時在命名方面也不再使用酷睿i3、i5、i7,而是採用酷睿Ultra 3、5、7+三位數字+H的命名,如酷睿Ultra 7 155H。
本次首發產品型號如下:
酷睿Ultra家族首發包含了28W的H系列以及15W的U系列,前者包含酷睿Ultra 7和Ultra 5的四款產品,分別採用16核22線程以及14核18線程設計,最高支持5GHz睿頻加速。後者同樣是酷睿Ultra 7和Ultra 5各兩款產品,均採用12核心14線程設計,最高睿頻4.9GHz。
此外,酷睿Ultra 9 185H以及酷睿Ultra 7 164U和Ultra 5 134U三款型號將在2024年第一季發售。
相對於以往的酷睿平台處理器,全新的酷睿Ultra可以說是全面革新。新的製程製程、新的架構設計、新的功能特性等等,可以說是與以往的酷睿處理器有著非常顯著的差異。
由於採用整體製程、架構的變化,英特爾酷睿Ultra平台也擁有了不少全新特性,如基於Foveros 3D封裝技術的高效能混合架構,模組化的運算單元等等。
同時它也升級了英特爾銳炫GPU,支援低功耗AI加速的NPU模組等等。 接下來透過本篇文章,讓我們一起認識英特爾酷睿Ultra。
·首次採用分離式模組化架構設計
首先,讓我們來看看Meteor Lake的架構。
Meteor Lake採用了全新的分離式模組設計,使整個平台更加靈活,並能夠同時適應高效能運算和低功耗長續航需求。
Meteor Lake包含了GPU圖形模組、SOC模組、CPU運算模組以及I/O模組,架構圖如下:
位於最左側的是GPU圖形模組,它採用了基於Xe LPG架構打造的Intel ARC銳炫核顯,性能較此前銳矩Xe核顯提升2倍,並且支援DX12 Ultimate。
Meteor Lake的GPU優化了快取互連,擁有8個GPU核心,128個Vector Engines(向量引擎),幾何圖形渲染管線大幅提升,並且新增了8個硬體光追單元,新增了亂序取樣功能,進一步增加準確率與效能。
從英特爾銳炫核顯的相關特性來看,其基本整合了高性能獨顯的所有核心特性,如對於DX12U的支持,對於AV1編解碼的支持,對於DP4A人工智慧加速引擎的支持,以及Intel XeSS的支持。
根據官方測試數來看,英特爾銳炫核顯在效能方面較銳炬Xe核顯提升2倍,以下是多款主流遊戲的提升百分比。如新近熱門的《博德之門3》提升達到100%,《生化危機8》、《騎馬與砍殺2》兩款遊戲提升幅度都達到了90%以上。
可以看到越新的遊戲提升幅度越大,這是因為英特爾銳炫GPU的驅動更新一直對新遊戲提供Day 0級支持,因此做到了非常好的新遊戲適配。
而與銳龍平台的Radeon 780M集顯對比的話,18款遊戲1080p中等畫質,銳炫核顯平均有著16%左右的提升。
此外得益於Intel XeSS技術的加持,銳炫核顯能夠進一步提升遊戲畫面流暢度,平均提升幅度達到了39%。這意味著輕薄本也能玩3A遊戲了。
位於中間的是SOC模組,其中包含了全新的低功率計算島E-core,內建NPU AI加速引擎,支援Wi-Fi 6E和Wi-Fi 7控制器,支援8K HDR和AV1格式編碼的媒體引擎,支援原生HDMI2.1和DP2.1標準的顯示單元,並且整合了記憶體控制器。
位於右下角的是計算模組,也就是我們熟悉的P-core和E-core,這次的性能核與能源效率核均採用全新的Intel 4過程製程打造,並且優化了電源管理和總線頻寬。
具體到E-core與P-core的變化,首先,酷睿Ultra平台的E-core微架構由Gracemont升級到了Crestmont,確保在低功耗下進一步提升E-core的吞吐能力。同時,其VNNI指令集的執行也大幅提升,因而增強了AI運算能力。
P-core微架構則由Golden Cove升級到Redwood Cove,進一步提升效能的前提下,P-core的能效實現大幅提升。
多方面的改進與提升,使得英特爾酷睿Ultra處理器的多執行緒效能相比以往有了一定幅度的提升。
以酷睿Ultra 7 165H為例,它的單執行緒效能和多執行緒效能較銳龍7 7840U分別提升12%和11%,在功耗進一步降低的情況下,整體表現還是相當讓人滿意的。
生產力方面,酷睿Ultra 7 165H對比銳龍7 7840U在Video Editing上有31%的性能領先,在Premiere Pro上有41%性能領先,在Lightroom上有19%的性能領先。
位於左下角的是I/O模組,這裡主要整合了Thunderbolt4和PCIe5.0控制器,提供出色的連接性。
在拆分成四大模組之後,圖形、計算和I/O模組其實都是大家比較熟悉的,但SOC模組可以說是Meteor Lake最與眾不同的地方。
以往,Wi-Fi控制器、媒體引擎、顯示控制器以及記憶體控制器等都分佈在不同IP之中。如媒體引擎以往是在GPU圖形單元之中。
而Meteor Lake在基於性能與能效比的考量上,將這些控制器統一整合到了SOC模組中。其在架構設計上遵循了四個原則:
第一,對計算的密集型IP進行了重新劃分,以實現其功率的最佳化。力求在不影響性能的情況下,大幅提高能源效率比。
第二,對I/O進行了擴展,使SOC內部所有主要IP都能享受到頻寬支持,所以提供了非常大的系統內存相匹配的頻寬。
第三,在SOC的核心當中引入了超低能耗核心。
第四,重組了電源管理演算法。
還是以媒體引擎為例。以往,媒體引擎整合在GPU單元中,所以只要媒體引擎在運作,其實就是整個GPU單元在運作。而GPU在工作的同時,又需要存取內存,因此還要把環形總線打開,這樣就會使能耗變高。
而Meteor Lake將媒體引擎與圖形單元拆分,並整合到低功耗SOC之後,使用者在使用媒體引擎相關應用程式時,如看影片的時候,GPU模組就不需要被開啟了。
同時內存控制器也放到了SOC總線上,此時即便需要存取內存,其它幾個模組也不需要打開,這樣就可以節省功耗,延長電腦的續航能力。此外像I/O模組也是同樣的原理。
SOC模組除了整合以往的Wi-Fi控制器、媒體引擎、顯示控制器以及記憶體控制器之外,NPU和低功率島E-core可以說是兩個全新的單元。
NPU是英特爾首款低功耗推理專用的人工智慧引擎,在CPU與GPU之外,英特爾希望透過擁有更好能效比的NPU去實現對人工智能的不同維度的加速能力。
它可以看作是PC普及人工智慧的一個標誌。在Meteor Lake平台上,如背景虛化、人體追蹤、眼角度矯正等基於AI的特性將被放到功耗更低的NPU上去執行,這樣可以極大程度降低CPU與GPU的使用,從而讓筆記本具有更好的續航力。
NPU支援標準化程式介面,支援商業以及開源API,從而為人工智慧應用開發提供了非常友善的開發介面。
具體到架構層面,NPU主要整合了兩個神經運算引擎,它由推理管道和可程式數位訊號處理器構成,具備高效靈活的矩陣乘法和卷積,支援激活函數以及資料轉換。
其內建兩個MAC陣列,專門負責矩陣乘法和卷積,支援最佳資料重用,以降低功耗,支援INT8和FP16資料類型。
同時擁有單獨的激活函數和資料轉換模組。此外,它還整合了DMA引擎和暫用內存,可將資料引入軟體管理的SRAM,圖形編譯器會最佳化調度DMA任務,並支援先進的資料重新佈局。
此外,借助OpenVINO等工具,以及對於AI應用、大模型庫的支持,NPU在AI相關應用,如Stable Diffusion等方面,都能提供非常出色的性能支援。
NPU使得Meteor Lake整體能源效率提升多達8倍,它推動了生態系統創新的標準化編程接口,Meteor Lake處理器全系列均支援NPU。
低功耗島,顧名思義,它的訴求就是在追求極致性能的前提下去降低能耗,延長電池使用時間,讓系統變得更冷更安靜。
將低工作負載應用直接運行在SOC模組的低功耗E-core上,如Wi-Fi、NPU AI推理、串流媒體播放等,可以實現讓用戶在運行低負載任務時只需要SOC去工作就可以了。
此時,計算模組、圖形模組都可以掛起睡眠,甚至直接關閉。
而當一些重負載任務運行是,如遊戲等,其它模組才會按需打開,這樣就可以力爭做到不浪費每一分能源。
此外,在實現分離式模組化設計之後,還需要考慮不同模組間的協同工作優化。此時我們需要引入一個概念──Uncore(可以理解為以前的北橋)。
Meteor Lake在Uncore上進行了電源管理的重新設計,不同模組都有分立的電源管理控制器整合在內部。
例如上圖所示,在SOC上面,PUNIT單元可以對整個SOC進行電源管理,它透過跟不同模組上的分電源管理器進行溝通,提供一個即時的可擴展的電源管理架構。
這個架構為Meteor Lake提供了許多新的電源管理功能,為未來的晶片設計上的電源管理奠定了非常好的基礎。
·三大AI引擎為AI PC加速
全新的酷睿Ultra平台無疑是推動AI PC落地的最佳平台,它提供了GPU、NPU以及CPU三大AI引擎,整體算力可以達到34TOPS,而三大AI引擎可以對應不同的AI運算需求。
TeraOPS
如GPU,它具備更大的頻寬吞吐能力,當使用者需要的資料量比較高的時候,可以用GPU來做。
NPU則是低功耗的AI運算單元,同時因為它是專為AI工作負載設計的處理器,所以它在處理AI工作負載時非常有效率也非常省電。
CPU同樣具備AI運算能力,因為它支援VNNI這一AI加速指令集,可以專門用來加速AI工作負載處理。它在運行對延時比較敏感的這類應用時,比如說語音控制、語音識別,相對NPU、GPU來說,CPU啟動時間最短。
此外,我們可以比較一下酷睿Ultra平台與其它平台在浮點和整數運算上的差異。由於Intel OpenVINO的支持,酷睿Ultra的NPU、GPU、CPU全面支援FP16浮點運算和Int8整數運算,因此酷睿Ultra平台可以為AI PC的落地帶來巨大的推動力。
·為什麼要做分離式的模組化設計?
看到這裡大家可能會有一個疑問,Meteor Lake為什麼要做模組化設計?
其實歸根究底,模組化能夠讓晶片設計更加靈活,甚至可以實現功能模組的客製化。同時英特爾在掌握2.5D EMIB和Foveros 3D封裝技術後,也更容易實現模組化設計。
例如想要增加NPU的功能,想要升級顯示模組去支援8K顯示器等等,分離式模組化設計會更好實現。因為只需要把特定功能的模組設計出來,再將其與其它模組封裝到一起即可,不需要去完全重新設計整個晶片架構。
·如何在不同模組間實現調度?
其實從高效能異質混合架構開始,執行緒調度就成為英特爾酷睿處理器的重要因素。
Meteor Lake全新的3D高性能混合架構帶來的模組化設計,更加需要對此進行調優。因此,英特爾進一步優化了英特爾硬體線程調度器。
Meteor Lake增強了英特爾硬體執行緒調度器對作業系統的回饋。在其它IP佔用功耗的時候,核心功耗會被動態分配。
因此,新的硬體執行緒調度器會即時更新核心能力,以便更精準地向作業系統報告整個核心和每個核心的內部能耗比的評估和判斷,以提供更精確的表格給到作業系統。
同時在軟體層面和系統層面,與英特爾DDT軟體結合起來對核心調配做更優的控制。
其實這裡我們需要明確一下英特爾硬體執行緒調度器的工作原理。它並不是直接控制進程的,或者說它不是去分配進程到某一個具體核心。而是介於處理器和Windows作業系統之間的「評分系統」。
它可以向Windows系統即時提供P-Core、E-Core、LP E-Core的硬體能力,然後回饋給作業系統執行緒調度器,最終由系統根據每個核心的評分,按照負載將任務分配到特定核心上去執行。
如下圖所示,英特爾與微軟做了一張這樣的「評分」表格,其中包含四種顏色,對應不同分類等級。它根據P-Core、E-Core以及LP E-Core的IPC,就是每個時脈能執行多少條指令的能力來進行分類。
例如Class0代表的是P-Core、E-Core在執行這種指令,每時脈執行的指令數量基本上一致,就歸為Class0。
右邊的Class1代表P-Core在每個時脈內執行的指令數量大於由E-Core來執行,則會被歸類為Class1,例如一些浮點運算的指令就會落在Class1的範圍內。
Class2代表P-Core在每個時脈內執行的指令數量遠大於由E-Core執行,例如一些AI計算,通常會歸到Class2當中。
最左邊的Class3是極少部分指令會落在這等級上,這裡表示Class3的指令中,E-Core每個時脈週期執行的指令數反而會高於P-Core。
表格會對每個核心打兩個分數(EE和Perf分),分數最高的就代表著英特爾硬體執行緒調度器對Windows的建議優先權最高。之後Windows會依據推薦將任務負載放到分數最高的核心上來執行。
因此,Meteor Lake的能源效率設計,包括硬體執行緒調度器等等,其實與Windows系統有著密不可分的關係。
實際上英特爾、微軟共同設計實現了線程調度器這種反饋和控制的機制,然後去做處理器的功耗管理優化,並且去實現功率和性能的最大限度的提高。
因此,Meteor Lake分離式模組化設計最終能否真正兼顧高效能與低功耗,硬體執行緒調度器與Windows系統是極為重要的環節。
·Intel 4過程製程簡化製造流程,良率顯著提升
在4年5個製程節點中,Intel 4對於英特爾而言極為重要。因為Intel 4取得成功,就意味著從技術層面英特爾可以非常好地步進入接下來的Intel 3、Intel 20A和Intel 18A三個過程節點。
Intel 4的主要特性包括:
其一,廣泛採用EUV光刻技術,在滿足DIE變小的同時,大幅簡化了製造流程。
其二,CPU高效能邏輯庫面積比較Intel 7縮減約2倍。
其三,相較於Intel 7,帶來了20%的效能和能效比提升,
其四,實現了更好的頻率和電壓平衡,
其五,進一步加大了MIM密度,以提供更有效率的底層供電。
接下來我們對這五項特性逐一進行分析。
Intel 4製程製程廣泛使用了EVU光刻技術,降低3-倍的處理步驟。
從下圖可以看到,在使用EUV技術的情況下,掩膜總數和製程步驟總數分別比未使用EUV的Intel 7過程下降20%和5%。而在微縮製程方面的提升也帶來了電晶體密度的整體提升。
Intel 4過程帶來了整個DIE的整合度變化。下圖可以看到,Intel 7採用408函式庫高度,而Intel 4切換到了240函式庫高度。約2倍縮減分別來自於接觸式閘極間距縮減0.83、鰭片間距縮減0.88、M0間距縮減0.75以及高性能庫高度縮減0.59。
針對CPU,比較Intel 7以及Intel 4帶有6VT和帶有8VT的功率與頻率情況,Intel 4實現了更低功率情況下更好的頻率表現,相比Intel 7有20%的能效提升。
同時,Meteor Lake連接層針對高效能運算應用進行優化的18層金屬堆疊上也採用了新技術,廣泛借助EUV,透過四重自動成像工藝,實現了非常好的層數和密度提升,為佈線層也提供了非常好的技術支援。
除了降低間距之外,如何降低電阻提升導電性的同時,確保更長的電遷移壽命也是新製程的關鍵技術指標。
在Intel 7製程節點,英特爾採用了不同的特殊金屬層來解決這個問題。而Intel 4則是採用了增強型的銅金屬(鉭/鈷與純銅)工藝,實現電阻降低並延長電遷移壽命。
此外,EUV技術使得Intel 4在連接結構上面變的更加標準化。如下圖所示,比較Intel 7和Intel 4,會發現在Intel 7金屬層有許多非標準、非單一的連接模式,而EUV技術使得Intel 4所做的更加統一。這件事的意義在於可以使佈局、單元擺放、時脈數統一以及佈線等方面實現高效的自動化設計。
MIM電容器可提供卓越的供電能力,相對於Intel 7製程工藝,Intel 4的MIM cap密度提高了約2倍,達到了376fF/um2。
基於更細膩的微縮製程、更簡化的製造步驟、更標準化的連接模式以及電遷移壽命延長和更健康的電磁可靠性,Intel 4製程製程獲得了極高的良率,總體超過了優化後的14nm和10nm製程水準線。
這也是為什麼Intel 4的成功,對於未來快速過渡到Intel3、Intel 20A和Intel 18A就越順暢。
·Foveros 3D封裝讓模組化設計實現更好的連接
架構與流程之後,我們再來聊聊Meteor Lake的封裝技術。
前面我們提到,Meteor Lake採用了全新的分離式模組化設計,而要讓每個模組之間實現更好的連接,實現更加高效的協同性能,就需要透過更先進的封裝製程來實現。而Meteor Lake所使用的,就是經過多年驗證的Foveros 3D封裝技術,同時也在不同模組上使用了2.5D EMIB封裝技術。
先前,Foveros 3D封裝技術主要應用在至強處理器、高密度運算GPU以及FPGA上,而Meteor Lake是英特爾首次大規模將Foveros 3D封裝技術應用在消費性市場的產品上。
透過2.5D和3D的混合封裝,可以實現更高密度的DIE與DIE的封裝,提供不同節點更複雜的連接,同時可以具備更好的低功耗以及高效能的連接。
那麼具體到Meteor Lake,是如何實現模組化封裝的呢?
首先,晶圓廠製造好晶圓之後,會將其運送到封裝測試工廠進行分割和測試。分割晶片完成測試之後,確保只有經過認證的良好晶片最終進入Foveros組裝流程。
接下來,封裝廠會將頂部晶片與基礎晶圓通過高溫進行貼合,創建出晶片複合體,之後再將貼合後的晶圓二次分割成封裝所需的各個模組,並通過環氧樹脂貼合到基板上,最後封上金屬散熱器,即可大量完成Meteor Lake處理器的封裝製造。
之後再通過系統級的測試驗證,將沒有任何問題的成品交付到OEM手中進行最終的產品組裝。在封裝層面,Foveros3D封裝技術,帶來更好的疊加性以及更高密度。
由於在晶片內就已經實現了極低功耗和高密度晶片連接,最小化了分區開銷,所以能夠為處理器晶片的每個區塊選擇理想的晶片工藝,且每塊晶圓可獲得10%以上的晶片數量提升,進而降低成本、提高效能、提升晶圓良率。
2.5D EMIB技術則主要用於GPU封裝。其底層透過2.5D實現計算單元模組的DIE與DIE互連,密度更高,間距更小。同時混合使用3D封裝技術,將上層DIE與基礎層的DIE連接在一起,進一步提升密度的同時,可在晶片層級降低功耗。
其實從前面的架構示意圖可以看到,Meteor Lake大體分成4個模組,但其實每個模組中又包含了功能不同的小模組,這些大大小小的模組,其實就是透過2.5D和3D封裝技術整合到一起的。這就像蓋房子,一磚一瓦的橫向與縱向堆疊,最終構成一整個建築主體。
·結語
整體來說,英特爾Meteor Lake是第一個基於Intel 4製程製程打造的處理器平台,它在架構層面採用了創新的分離式模組化設計,並首次將Foveros 3D封裝製程帶到消費級產品上來。
它改進了英特爾硬體線程調度器,優化了模組間的電源管理,借助低功耗的SOC模組可以讓低負載任務運行在其上的同時,睡眠甚至關閉GPU和CPU模組,以達到降低整體功耗,提升續航能力的需求。
2023年12月15日,第一代酷睿Ultra平台正式發布,同時也有不少OEM廠商第一時間推出了基於其打造的輕薄型筆記本產品,我們也將陸續為大家放出相關產品的評測。