英特爾公佈Meteor Lake處理器技術細節:分離式模組設計
美國加州時間9月19日上午,英特爾在美國加州聖荷西發布最新處理器Meteor Lake,也就是年中公佈的酷睿Ultra處理器首款產品。Meteor Lake基於Intel 4製程製程打造,也是英特爾迄今能源效率最高的PC處理器,新增分離式模組架構設計。
AI能力再升級
從第10代酷睿中首次引入AI開始,英特爾開啟了PC端AI應用落地的新階段,加速生態在PC端AI應用的探索。其次,第12代酷睿處理器中英特爾推出了高性能混合架構,憑藉性能核、能效核的組合,讓PC面對更複雜應用場景時可以靈活平衡性能與能耗,也是x86處理器在過去最重要的變革之一。
AI+高效能架構促使英特爾在邊緣運算,AI能力成為主要發展方向。
2023年中旬,英特爾宣布酷睿品牌升級煥新,分拆為旗艦級的全新英特爾酷睿Ultra、主流級的英特爾酷睿。其中,Meteor Lake是「首款酷睿Ultra」處理器,首批Meteor Lake將是筆記型電腦的處理器,預計2024年第一季將有品牌上出貨。而英特爾14代酷睿桌面級處理器預計10月亮相。
Meteor Lake採用全新分離式模組架構,分別為運算模組、SoC模組、圖形模組、IO模組,並透過英特爾Foveros 3D封裝技術連接。
運算模組仍舊是高效能混合架構,擁有全新微架構的效能核(Redwood Cove)與能效核(Crestmont)均首次採用了Intel 4製程工藝,能效進一步提升。為了讓計算單元模組化,英特爾優化了環形總線等設計。
SoC模組
全新的SoC模組Meteor Lake低功耗設計的關鍵,整合全新低功率計算島E-core,人工智慧加速引擎NPU,記憶體控制器,連接模組,媒體處理計算單元,顯示輸出單元等。SoC模組可支援Wi-Fi 6E、Wi-Fi 7,支援8K HDR和AV1編碼,支援原生HDMI 2.1和DP 2.1標準,支援全新DDR記憶體規格。
SoC模組是Meteor Lake中相比以往最大的改變之一,也是Meteor Lake全新設計的樞紐。英特爾提到,Meteor Lake中SoC模組基於對效能、能源效率的追求,在架構設計方面有四個原則:第一,重新劃分運算密集型IP,從而優化功耗,在不影響效能的情況下,致力於提高能源效率比。第二,擴展I/O,滿足SoC內部主要IP所需的頻寬。第三,引入低能耗核心。第四,充足電源管理演算法。
具體來看,以往處理器內部設計中,媒體編解碼器和GPU在一起,並通過環形總線與CPU聯合起來,如果媒體編解碼器運行,就需要GPU進入“工作狀態”,並需要通過環形總線存取內存,儘管屬於高效能解決方案,卻也有一項缺點——當環形總線上任何區塊訪問內存時,都必須啟動環形總線、CPU、GPU單元,功耗更高。也就是說,由於架構設計原因,當使用者播放串流媒體時,整個模組都在運行,不利於節能。
到了Meteor Lake,媒體引擎和圖形分開開,包括運算模組,都有獨立在SoC匯流排上的位置,記憶體控制器也放到了SoC匯流排上。也就是說,無論是哪個區塊、核心存取內存,其餘部分不需要供電,例如在視頻播放中只需要媒體編輯碼、顯示供電,其他部分可以關閉,由此帶來了視頻播放的功耗優化。
SoC模組另一個值得重點介紹的就是引入低功率計算島E-core,這也是Meteor Lake支援超低功耗的「秘密武器」。憑藉SoC模組上這個功耗非常低、工作頻率非常低的能效核,Meteor Lake在處理串流媒體播放、常規控制等輕負載時,不再需要使用計算模組中的性能核、能效核,大幅減低功耗。
超低功耗能源效率核再加上運算模組的能效核、性能核,組成了全新“3D高性能混合架構”,讓Meteor Lake相比此前的12代、13代酷睿支持更出色的線程調度、性能以及功耗平衡。所以,Meteor Lake在更多應用場景中,帶來的節能特性,續航優化將非常值得期待。
首次整合NPU
從第10代酷睿將AI引入PC,英特爾就開始加速AI在終端側落地。如今我們看到,AI正在加速從雲端向終端側遷移,英特爾提出了這一趨勢背後的四大驅動因素——第一,終端側AI算力越來越強,如果將AI放在雲端,那麼作為後端的雲端將容易成為瓶頸,難以大規模發展;第二,AI部輸在雲端將為服務供應商帶來更多成本;第三,AI在終端側部署延時更低,即使沒有網路也能使用;第四,資料存放在終端側,可以更好地保護用戶隱私。
在Meteor Lake中,英特爾首次整合神經網路處理單元(NPU),並且全系支持,更進一步提升終端側AI能效及應用。
CPU、GPU、NPU都可以提供AI算力,但針對不同使用場景匹配程度並不相同,例如CPU適合處理輕量級AI,GPU適合需要高效能、高吞吐量AI應用,NPU則專為AI設計具備高能源效率、低功耗等優勢。
所以Meteor Lake加入NPU後,能夠在PC端提供高效的人工智慧加速引擎,與CPU、GPU結合更靈活的因應不同場景下AI算力需求。值得一提的是,NPU低功耗特性尤其適合長時間運行的AI應用,例如在視訊會議場景中涉及長時間的背景虛化、任務追蹤等等需求,NPU加入後可以降低對CPU、GPU調用,從而讓輕薄本等設備提供更持久的續航力。
例如,在英特爾的內部測試中,將負載全部跑在CPU上用時為43.3秒,功耗40W;全部跑在GPU上用時為14.5秒,功耗37W;將部分負載(Unet+與Unet-)交由NPU執行,其餘交由CPU執行,用時為20.7秒,功耗10W;Unet+由GPU執行,Unet-由NPU執行,用時為11.3,功耗為30W。
可以看到透過靈活地呼叫NPU、CPU、GPU,面對相同負載可以在兼顧功耗的情況下提升效率。英特爾表示,加入NPU後相對僅CPU而言,效率可提升8倍。
NPU整合兩個神經運算引擎,可以共同處理單一工作負載或各自處理不同工作負載。在神經運算引擎中,主要整合推理管道、SHAVE DSP兩個組件。
推理管道:高能效計算的核心驅動因素,透過最大限度地減少資料移動並利用固定功能運作來處理常見的大計算量任務,可以在神經網路執行中實現高效節能。絕大多數計算發生在推理管道上,這個固定功能管道硬體支援標準的神經網路運作。此管道由一個乘累積加運算( MAC)陣列、一個活化功能塊和一個資料轉換區塊組成。
SHAVE DSP:一款專為AI設計的高度最佳化VLIW DSP(超長指令字/數位訊號處理器)。串流混合架構向量引擎(SHAVE )可以與推理管道和直接記憶體存取(DMA)引擎一起進行管道化,實現在NPU上並行進行的真正異質計算,從而最大限度地提高效能。DMA引擎能夠優化編排資料移動,實現最高能源效率和效能。
此外NPU中也整合主機介面與裝置管理-裝置管理區支援微軟運算驅動程式模型(MCDM),可讓Meteor Lake的NPU確保安全性的同時更能支援MCDM;記憶體管理單元(MMU)提供多種情況下的隔離,並支援電源和工作負載調度,實現快速地低功率狀態轉換。
不僅是在晶片設計、底層架構方面的創新,英特爾在AI領域的持續佈局已經建構出了軟硬體協同的完善生態。例如在應用層面,英特爾攜手合作夥伴打造了視訊增強及美化、視訊背景模糊、超解析度、語音降噪等應用。
英特爾表示,現在已經有超過100家合作夥伴共同推動終端側AI應用。同時,英特爾也與微軟緊密合作,包括針對微軟Office辦公全家桶的探索;專門運行在NPU上的“ Windows Studio Effects”,可以簡化、降低軟體開發者使用AI的門檻;對接AI應用的底層框架Direct ML,實現英特爾平台上獲得更高能源效率。
圖形模組
Meteor Lake整合基於Xe LPG架構打造的英特爾ARC銳炫顯卡,堪稱“集顯中提供獨顯性能”,性能是前代的2倍,並支援Intel XeSS以及DX12 Ultimate。
Meteor Lake的圖形模組優化了快取互連,擁有8個GPU核心、128個Vector Engines,幾何圖形渲染管線大幅提升,並且新增8個硬體光追單元、亂序取樣功能,進一步增加準確率和效能。
IO模組
IO模組整合了Thunderbolt 4和PCIe 5.0,提供出色連接體驗,保證資料傳輸效率。
這裡還要介紹英特爾硬體線程調度器。在英特爾推出高性能混合架構後,這項技術就持續助力酷睿平台更有彈性、更有效率地釋放效能。
Meteor Lake增強了英特爾硬體執行緒調度器對作業系統的回饋,新的硬體執行緒調度器會即時更新核心能力,以便更加精準地向作業系統報告整個核心和每個核心的內部能耗比的評估和判斷,以提供更精確的表格給到作業系統。同時在軟體層面和系統層面,與英特爾DDT軟體結合起來對核心調配做更優的控制。
Intel 4製程製程與Foveros封裝技術
Meteor Lake或許是英特爾發布12代酷睿,推出高性能混合架構後在酷睿平台上最重要的一次變革,但除了創新的架構外,還擁有兩點值得關注——Intel 4過程工藝以及Foveros封裝技術。
「四年五節點」是英特爾重要的發展策略,也是能否重新奪回製程製程領先地位的關鍵一步。根據英特爾的IDM 2.0戰略,英特爾計劃在四年內實現五個過程節點,2024年在製程節點上與對手平齊,並於2025年處於領先地位。Intel 4是第二個節點,將為Intel 3奠定基礎。
根據英特爾公佈的信息,與Intel 7相比實現了2倍面積微縮,帶來了高性能邏輯庫,且性能核能效比提升20%。Intel 4的創新特性還包括-方管採用EUV微影技術,簡化製造流程;採用高密度MIM(金屬-絕緣體-金屬)電容器保證優異供電性能;實現更好頻率、電壓平衡。
目前Intel 4處理器正在加速量產中。
Meteor Lake將採用Foveros封裝技術,Foveros封裝技術的優點包括:36u凸點間距,跡線寬度小於1微米;凸點密度提高近8倍;跡線長度小於2毫米;160GB/s/mm頻寬;功耗小於0.3pJ/位。
採用Foveros封裝的Meteor Lake與Raptor Lake相比,具備的優勢包括:低功耗晶片互連最大限度地減少分區開銷;小區塊提高了晶圓良率,初製晶圓更少;能夠為每個區塊選擇理想的矽工藝;簡化SKU創建,提升客製化能力。
英特爾也介紹了封裝Meteor Lake的流程,包括五個步驟。
第一、切割:從晶圓廠收到內部和外部代工廠的晶圓,並將其切割成單一晶片。
第二、分選和Diet測試:單晶片測試確保只有高品質晶片才能進入Foveros組裝階段。這種探測能力是異質設計的關鍵所在,透過向組裝生產線提供更多高品質晶片來提高測試良率。組裝生產線已經過主動熱控制能力全面測試。
第三、晶圓組裝:在基板晶圓上組裝各個模組。該生產線在一個流程中整合了晶片附著、底部填充和晶圓模具等組裝操作,以及碰撞、鈍化、研磨、拋光等製造操作,這在英特爾尚屬首次。
第四、封裝組裝: Meteor Lake Foveros複合體是在BGA基板面上組裝的。這種複合體相容於現有的封裝組裝工具和工藝,只需進行少許優化。
第五、測試和完成:英特爾HDMx和系統測試保障質量,包括壓力和老化測試、類測試和系統級平台測試。
寫在最後
2023年英特爾給Meteor Lake又賦予了更多AI能力,PC將迎來新的轉捩點。Meteor Lake將更有效率也更節能,保證體驗的同時為筆記本提供更長的續航,這也是全新SoC模組最重要的作用之一。對於應用場景更加複雜多元化的PC而言,這項特性可以更好地兼顧生產力和效率。