發射全新架構「火箭」,英特爾兩年「登月」
本週四,英特爾架構日用長達近兩個半小時的時間介紹了其在架構創新以及相關新產品方面的進展。 英特爾高級副總裁兼加速計算系統和圖形事業部總經理Raja Koduri說:”架構是硬體和軟體的’煉金術’。 ”
英特爾高級副總裁兼加速計算系統和圖形事業部總經理Raja Koduri
2016年,AMD發佈全新CPU微架構ZEN,説明其在桌面CPU市場幾年間迅速接近甚至超越英特爾。 今天,英特爾發佈了全新的CPU架構和兩個核心,將移動SoC中已廣泛應用的CPU大小核(BIG.LITTLE)架構率先引入桌面級CPU中。
英特爾在升級「看家」產品CPU的同時,也帶來了獨立GPU更詳細的資訊。 特別值得關注的是,英特爾首次展示了耗時近兩年,堪比登月難度創新後的產品Ponte Vecchio GPU,包含1000億個晶體管,這是英特爾迄今為止最高的計算密度產品,能提供業界最頂級的AI性能。
不止於此,英特爾還進一步介紹了全新的基礎設施處理器(IPU)。
從CPU到GPU再到IPU,每一個新的架構和產品都是其XPU架構戰略的體現,也用實際產品證明瞭晶元異構的時代,軟體優先的重要性。 無論如何,英特爾全新的CPU值得消費者期待,而其GPU以及IPU,也將成為競爭對手重點關注的產品。
4年處理能力提升1000倍
AI、元宇宙、AR,都需要超高性能的處理器。 每一位追求創新的客戶都給英特爾一個問題,到2025,英特爾能讓我們的工作負載處理能力有1000x(千倍級)的提升嗎?
“這個要求只給了我們4年時間,而1000倍可是摩爾定律的5次方。” Raja說,「為了在2025年滿足1000x(千倍級)提升的需求,我們要在每個技術領域,實現至少4倍左右的摩爾定律提升,這些領域包括製程工藝、封裝、記憶體和互連,架構是將它們與軟體結合起來的『煉金術』。 這些技術的集合可以作為乘法因數,與4倍的提升相結合,就能提供處理繁重的工作負載所需的千倍提升,這同時例證了為何如今是成為架構師的大好時代。 ”
2019年,兩位圖靈獎得主 John L. Hennessy 和 David A. Patterson發表長報告展望,未來的十年將是計算機體系架構領域的”新的黃金十年”。
已經準備好先進製程(Intel7、Intel4、Intel3、Intel20A,以及外部代工廠),先進封裝技術(EMIB、Foveros),記憶體(傲騰)和互聯技術的英特爾,處理能力可以像火箭一樣躍升嗎?
這需要先看英特爾的看家本領——CPU。
要以大小核的方法,奪回CPU領先優勢
“我們的首要目標是,打造世界上極高能效的x86 CPU內核。 與此同時大幅縮小晶片尺寸,以便多核工作負載可以根據需要,使用盡可能多的內核進行拓展。 我們還希望提供更寬的頻率範圍,以滿足更高需求的工作負載。 “英特爾院士,英特爾x86能效核的首席架構師Stephen Robinson介紹,
“基於全新的微架構,全新的CPU內核在多核性能方面實現了突破,首款產品是Alder Lake。”
Alder Lake是英特爾首個性能混合架構,採用Intel7製程,搭載兩款新一代x86內核以及智慧英特爾硬體線程調度器。
先看能效核,也叫E-Core。 與英特爾迄今為止最多產的CPU微架構Skylake相比,其可在相同功耗下提升40%的單線程性能,或者在提供同樣性能時,功耗僅為Skylake的40%不到。 如果看輸送量,與運行四個線程的兩個Skylake內核相比,四個能效核在性能提升80%的同時功耗更低,或者在提供相同輸送量性能時,功耗降低80%。
實際上,英特爾是利用各種技術,在不耗費處理器功率的情況下對工作負載進行優先順序排序,並通過每週期指令數(IPC)改進功能直接提高性能,具體的功能包括:
- 擁有5000個條目的分支目標緩存區,實現更準確的分支預測
- 64KB指令緩存,在不耗費記憶體子系統功率的情況下保存可用指令
- 英特爾的首款按需指令長度解碼器,可生成預解碼資訊
- 英特爾的簇亂序執行解碼器,可在保持能效的同時,每週期解碼多達6條指令
- 後端寬度(Wide Back End)具備5組寬度分配(Five-wide allocation)和8組寬度引退、256個亂序視窗入口和17個執行埠
- 支援英特爾®控制流強制技術和英特爾®虛擬化技術重定向保護等功能
- 實現了AVX指令集以及支援整數人工智慧操作的新擴展
再看性能核,也叫P-Core,這是英特爾迄今為止性能最高的CPU內核,它是一個更寬、更深、更智慧的架構,展現出更高的並行性,提高執行並行性,降低時延,提升通用性能。
更寬、更深、更智慧的性能核架構具體的體現是:
- 更寬:解碼器由4個增至6個,6μop 緩存增至8μop,分配由5路增至6路,執行埠由10個增至12個
- 更深:更大的物理寄存器檔(physical register files),擁有512條目的重排序緩衝區
- 更智慧:提高了分支預測準確度,降低了有效的一級時延,優化了二級的全寫入預測頻寬
與第11代酷睿架構(Cypress Cove內核)相比,在相同頻率下,性能核在一系列工作負載上平均提升了約19%。
擁有AI硬體加速器是英特爾CPU獨有的功能,這一特性在性能核上進一步通過軟體結合硬體來提升。 憑藉英特爾高級矩陣擴展(AMX)來執行矩陣乘法運算,AI加速可以提升約8倍(每個內核每週期可進行2048次int8運算)。 AMX可是用過軟體的方法,由此就不難理解英特爾一直強調軟體優先的原因。
“能效核並不意味著性能就低,只是其優化的方向與性能核不同。” 英特爾研究院副總裁、英特爾中國研究院院長宋繼強告訴雷鋒網。
擁有了不同的內核,就像是擁有了更多武器,能夠充分發揮武器的殺傷力才是高手稱霸的關鍵。 所以,英特爾開發了獨特的硬體線程調度器,能夠從開始就動態、智慧地分配工作負載,從而優化系統以在真實場景中實現更高的性能和效率。
“英特爾硬體線程調度器與其它調度器一個非常大的區別就是動態、智慧地分配工作負載,在合適的時間把合適的線程分配給合適的內核,同時還與操作系統無縫配合。” 宋繼強指出。
全新性能混合Alder Lake架構CPU由於採用了單一、高度可擴展的SoC架構,這就讓其可以支援從超便攜式筆記本,到發燒級,到商用臺式機的所有客戶端設備。
全新的性能核微架構也會用於利潤豐厚的數據中心CPU市場,也就是下一代英特爾至強可擴展處理器,代號Sapphire Rapids,其核心是一個分區塊、模組化的SoC架構,採用英特爾的嵌入式多晶元互連橋接(EMIB)封裝技術,在保持單晶片CPU介面優勢的同時,具有顯著的可擴充性。
可見,AMD用Zen趕超英特爾,如今英特爾要用Alder Lake反超。 這也讓我們更期待今年底將會出貨的搭載Alder Lake CPU的PC產品。 同樣,英特爾捍衛其在伺服器CPU市場的領導力,代號Sapphire Rapids的下一代至強可擴展處理器也非常重要。
再入獨立GPU市場,挑戰登月級難度
相比看家本領的CPU產品,英特爾過去兩次挑戰獨立GPU市場,都以失敗告終。 再一次進入獨立GPU市場的英特爾面臨的是更大的挑戰。
“我們面臨的是將近持續十年之久的問題。 英特爾在輸送量計算密度和對高頻寬記憶體的支援方面都落後。 這兩者都是 HPC 和 AI 的基本指標,也是 GPU 架構的基石。 “Raja給出了圖表展示英特爾與業界領先水準的差距。
Raja還同時說,「當2017年GPU架構開始為AI數據類型的矩陣處理添加特殊引擎時,問題變得更糟。 我們真的很想儘快縮小這個差距,所以我們需要一個堪比登月難度的創新產品。 ”
今天英特爾架構日上,詳細介紹的全新的獨立顯卡微架構Xe HPG,採用新的Xe內核,聚焦計算、可程式設計、可擴展,並全面支援DirectX 12 Ultimate。 基於全新獨立顯卡微架構Xe HPG的首款產品是Alchemist,Alchemist SoC能夠提供出色的可擴展性和計算效率,並擁有以下關鍵架構特徵:
- 多達8個具有固定功能的渲染切片,專為DirectX 12 Ultimate設計
- 全新Xe內核,擁有16個向量引擎和16個矩陣引擎(被稱為XMX,即Xe Matrix eXtension)、高速緩存和共用內部顯存
- 支援DirectX Raytracing(DXR)和VulkanRay Tracing的新光線追蹤單元
- 通過架構、邏輯設計、電路設計、製程工藝技術和軟體優化,相比Xe LP微架構實現1.5倍的頻率提升和1.5倍的每瓦性能提升1
- 使用台積電的N6製程節點(通常叫做台積電6nm)上進行製造
與全新的CPU微架構一樣,英特爾全新的GPU微架構也採用了軟體優先設計的方法。
“英特爾很早就與開發者、API 和領先的遊戲引擎廠商展開合作,共同為遊戲發燒友設計英特爾新款獨立GPU。 這款全新可擴充Xe HPG架構,採用了軟體優先的設計方法,從而為遊戲玩家和創作者帶來高性能表現並減少畫面卡頓。 」 英特爾CEO 派特·基辛格表示。
雷鋒網(公眾號:雷鋒網)瞭解到,英特爾已完成了內核顯卡驅動程式元件的重新架構,特別是記憶體管理器和編譯器,使計算密集型遊戲的輸送量提高了15%(至多80%),遊戲載入時間縮短了25%。 同樣能體現軟體優先的特性是XeSS。
XeSS與CPU中的AMX一樣可以進行AI加速,利用Alchemist的內置XMX AI加速,帶來了一種可實現高性能和高保真視覺的全新升頻技術,讓那些只能在低畫質設置或低解析度下玩的遊戲也能在更高畫質設置和解析度下順利運行。
從正在試產階段的Alchemist SoC的演示視頻可以看到,包括真實遊戲展示,虛幻引擎5測試良好。 想要用上英特爾全新的Alchemist GPU,最早一批要到2022年第一季度上市,錯過了聖誕季的消費熱潮,不知能否趕上春節。
除了確定性較高的Alchemist,英特爾還規劃了Battlemage、Celestial和Druid 的消費級獨立GPU產品,英特爾還為這一系列產品推出了全新的品牌名稱銳炫。
但最能展現英特爾在獨立、高性能GPU市場決心的產品還是基於Xe HPC微架構的Ponte Vecchio,這是英特爾迄今為止最複雜的SoC,包含1000億個晶體管,提供業界領先的浮點運算和計算密度,以加速人工智慧、高性能計算和高級分析工作負載。
“不到兩年前,我分享了我們為Ponte Vecchio設定的目標。 看到這樣非凡的晶元工程以及雄心勃勃的軟體計劃在我們的實驗室內成為現實,這對於我們來說是令人難以置信的時刻。 對於我們來說,這已經不再是似乎不可能的登月難度的創新產品。 “Raja同時也表示,
“整個專案尚未成功,我們還有很多工作要做。 但是,我們迫不及待地希望大家加入我們的旅程,在明年初把這個架構帶給所有客戶。 ”
之所以說Ponte Vecchio的難度堪比登月,是因為要設計這樣一款產品難在從無到有,面對的是新的SOC架構、新的IP架構、新的記憶體架構、新的I/O架構、新的封裝技術、新的供電技術、新的互連、新的信號完整性技術、新的可靠性方法、全新的軟體、以及新的驗證方法。
“保守地說,Ponte Vecchio是我在30年的晶元開發生涯中開發的最複雜的晶片。 實際上,我甚至不確定把它稱為晶元是否準確,它是包含諸多晶元的集合。 「英特爾Ponte Vecchio首席架構師Masooma Bhaiwala感歎。
架構日上,Masooma Bhaiwala英特爾展示了早期的Ponte Vecchio晶片就已經顯示出領先的性能,在一個流行的AI基準測試上創造了推理和訓練輸送量的行業紀錄。 基於Ponte Vecchio的A0晶元已經實現了超過每秒45萬億次浮點運算的FP32輸送量,超過5 TBps的持續記憶體結構頻寬以及超過 2 TBps的連接頻寬。
雷鋒網瞭解到,基礎單元是Ponte Vecchio的連接組織,它是基於Intel 7製程工藝的大型晶元,針對Foveros技術進行了優化。 Xe鏈路單元提供了GPU之間的連接,支援每單元8個鏈路,該單元已被添加到”極光”(Aurora)百億億次級超級計算機的擴展解決方案中。
異構時代的IPU
IPU(基礎設施處理器)是CPU和GPU之外,英特爾架構日的第三個重要產品。 英特爾在不久前提出IPU的概念,這一產品的目標是使雲和通訊服務提供者減少在中央處理器(CPU)方面的開銷。
英特爾數據平台事業部首席技術官Guido Appenzeller介紹,英特爾認識到單一產品無法滿足所有需求,因此對其IPU架構進行了更深入的研究,並推出了以下IPU家族的新成員。 目前的IPU基本上使用兩類架構:一類是專用ASIC IPU;一類是基於FPGA的IPU。
基於FPGA的IPU能快速實施新協定,應對不斷變化的要求或新協定。 例如,在這些FPGA上實現未公開的專有協定。 專用ASIC IPU可以實現性能和效率的最大化。
“兩者實際上都不同於經典的SmartNIC,後者缺乏執行基礎設施控制面的能力。 對於不同類型的基礎設施加速,沒有適用所有情況的方案。 因此,英特爾將繼續投資於這兩類IPU以及SmartNIC。 “Guido Appenzeller同時表示。
Mount Evans是英特爾的首個ASIC IPU。 據悉,這是英特爾與一家一流的雲服務提供者共同設計和開發的,融合了多代FPGA SmartNIC的經驗。
“接下來將迎來兩款基FPGA的IPU新產品,分別面向雲(Oak Springs Canyon)和通信(Arrow Creek)市場。” Guido Appenzeller介紹,
Oaks Springs Canyon是基於FPGA的IPU,採用了英特爾的Agilex FPGA 和至強D片上系統。 還採用了英特爾開放式FPGA開發堆疊(英特爾OFS),這是一個可擴展、開源軟硬體基礎設施堆棧,能夠滿足新興雲服務提供者對於部署100GB工作負載的需求。 Oak Springs Canyon還包括一個加固的加密模組,以線速性能保護所有基礎設施流量、存儲和網路。
Arrow Creek是一個加速開發平臺,基於Agilex FPGA和e810 100GB乙太網控制器。 它源自英特爾PAC-N3000,後者目前已經被全球各地的頂級通訊服務提供者所採用,Arrow Creek將説明電信運營商提供靈活的加速工作負載。
成就異構晶元時代——oneAPI
“在軟體領域,要開啟堪比登月難度的創新計劃。 我們需要一個程式設計框架,讓軟體開發者在程式設計時無需考慮不同的CPU和加速器組合,很多人認為這是不可能的任務,我們創造了oneAPI,讓開發者能夠擺脫專有語言和程式設計模型。 “Raja說,
“oneAPI行業計劃提供了一個開放、基於標準、跨架構、跨向量的統一軟體堆棧。 這個行業規範的第一個版本已於去年9月發佈,其中規定了一個通用硬體抽象層、數據並行程式設計語言以及全面的高性能函數庫,涉及數學、深度學習、數據分析和視頻處理領域。
目前,NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI庫。 oneAPI工具包擁有超過20萬次單獨安裝,市場上部署的300多個應用程式採用了 oneAPI的統一程式設計模型。
據悉,臨時的oneAPI 1.1版已經在5月發佈,增加了面向深度學習工作負載和高級光線追蹤函數庫的全新圖形介面。 預計oneAPI1.1正式版將在今年末之前完成。
寫在最後
從CPU到GPU再到IPU,從微架構到封裝、存儲、互聯再到軟體,從六大技術支柱到異構再到軟體優先。 英特爾正在用全新的產品群組,技術路線和策略面對AI和5G時代的競爭。
接下來的市場競爭格局的變化,難以準確預測。 但英特爾有勇氣說出自己在技術上的巨大挑戰,以及宣佈IDM 2.0,都釋放出積極的信號,一個更加開放的英特爾正在積極擁抱新的市場和競爭。