英特爾架構日重磅:甩出 11 大晶片硬科技,推千億晶體管 SoC
在 2021 年英特爾架構日上,英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理 Raja Koduri 同多位英特爾架構師一起,全面介紹了在 CPU、GPU 及 IPU 架構方面的重大改變與創新。 今年以來,英特爾公佈了相當多的新計劃,包括IDM 2.0戰略、全新製程節點方案、獨顯等等,如今,我們終於能從一系列新品上直觀地看見這些新計劃方案的組合。
首先,英特爾首個性能混合架構 Alder Lake 將集成新公佈的兩款全新 x86 內核架構——能效核與性能核,並且是基於英特爾新命名技術節點 Intel 7 的首款產品。 它還採用了新的智慧英特爾硬體線程調度器來實現兩款 x86 的無縫協同。
面向數據中心,英特爾公佈下一代英特爾至強可擴展處理器 Sapphire Rapids, 這被稱作代表了十多年來行業最大的數據中心平台進步。
另外,英特爾也講解了其備受矚目的全新獨立遊戲 GPU 微架構 Xe HPG 微架構,基於該微架構、採用台積電N6節點製造的產品 Alchemist 系列 SoC 將於明年第一季度上市,這將是英特爾第一款基於台積電 N6 工藝的 GPU。
還有基於 Xe HPC 微架構的數據中心 GPU 架構 Ponte Vecchio, 它具備英特爾迄今為止最高的計算密度,例如 A0 晶片可提供超過 45TFLOPS 的 FP32 輸送量、超過 5TBps 的持續記憶體結構頻寬和超過 2TBps 的連接頻寬。
最後,圍繞全新基礎設施處理器 (IPU), 英特爾展示了其首款專用 ASIC IPU Mount Evans 和基於 FPGA 的 IPU 參考平臺 Oak Springs Canyon。
英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理 Raja Koduri 認為,架構是硬體和軟體的『煉金術』,今年公佈的這些新突破展示了架構將如何滿足對於更高計算性能的迫切需求。
發佈的顯卡新品中,我們看到英特爾基本採用台積電 N6 和 N5 工藝技術進行代工生產,這正是今年 3 月公佈的英特爾 IDM 2.0 戰略的直接體現。
英特爾公司企業規劃事業部高級副總裁 Stuart Pann 稱,目前英特爾 20% 的產品是交由外部代工廠生產,英特爾是台積電的頂級客戶之一。 目前,為英特爾獨立顯卡產品採用代工廠的製程節點,是恰當之選。
他透露說,未來幾年,外部代工生產的晶片單元會在英特爾的模組化產品中扮演更重要的角色,包括採用先進製程節點的核心計算功能,以支援用戶端、數據中心和其他領域的新興工作負載。
01.
兩款全新 x86 內核
性能核 AI 加速提升約 8 倍
英特爾首先介紹了能效核和性能核,顧名思義,前者主打高能效,後者主打高性能。
1、 能效核:能耗不到 Skylake 的 40%
能效核曾用代號 「Gracemont」 是一個高度可擴展的 x86 微架構,旨在提高輸送量效率並提供可擴展多線程性能,能滿足客戶從低功耗移動應用到多核微服務的全方位計算需求。
借助多種技術進步,能效核可以在不耗費處理器功率的情況下對工作負載進行優先順序排序,並通過每週期指令數 (IPC) 改進功能直接提高性能。
與英特爾迄今最多產的 CPU 微架構 Skylake 相比,在提供同樣單線程性能時,能效核的功耗不到 Skylake 的 40%。 與運行 4 個線程的兩個 Skylake 內核相比 ,4 個能效核在輸送量性能提升 80% 的同時,功耗更低。
2、 性能核:英特爾迄今性能最高的 CPU 內核
性能核曾用代號 「Golden Cove」 是英特爾迄今性能最高的 CPU 內核,並且在 CPU 架構性能方面實現階梯式提升,展現出更高的並行性和執行並行性,還減少時延,幫助支援大數據集和大型代碼體積的應用程式。
它擁有更寬、更深、更智慧的架構:解碼器由4個增至6個,6 μ op 緩存增至8 μ op, 分配由5路增至6路,執行埠由10個增至12個;物理寄存器檔更大,擁有512條目的重排序緩衝區;提高了分支預測準確度,降低了有效的一級時延,優化了二級的全寫入預測頻寬。
與第 11 代酷睿架構 (Cypress Cove 內核)相比,相同頻率下,性能核在一系列工作負載上平均提升了約 19%。 此外,性能核搭載了新的英特爾高級矩陣擴展 (AMX) 來執行矩陣乘法運算,可將 AI 加速提升約 8 倍,用於學習推理和訓練。 這是為軟體易用性而設計,利用了 x86 程式設計模型。
02.
硬體線程調度器:讓兩款 x86 核無縫協作
為了確保性能核、能效核與操作系統無縫協作,英特爾開發了一種改進的調度技術,即英特爾硬體線程調度器。
它具有動態性和自適應性,會根據實時的計算需求,動態、智慧地調整調度決策,從而優化系統以在真實場景中實現更高的性能和效率。
硬體線程調度器直接內置於硬體中,可提供對內核狀態和線程指令混合比的低級遙測,讓操作系統能夠在恰當的時間將合適的線程放置在合適的內核上,並且更精細地監控指令組合、每內核當前狀態以及相關的微架構遙測,從而説明操作系統做出更智慧的調度決策。
此外,硬體線程調度器通過與微軟合作,優化自身在Windows 11 上的極佳性能;並擴展 PowerThrottling API, 使開發人員能為其線程明確指定服務品質屬性;還應用了全新 EcoQoS 分類,該分類可讓調度程式獲悉線程是否更傾向於能效(此類線程會被調度到能效核)。
03.
首個混合架構 Alder Lake: 採用 Intel 7 製程,支援從筆記本到臺式機
英特爾 SoC 用戶端架構 Alder Lake 重構了多核架構,基於 Intel 7 製程工藝打造,是英特爾首個搭載全新英特爾硬體線程調度器的性能混合架構。
它採用了單一、高度可擴展的SoC架構,首次集成了能效核和性能核,支援最新記憶體和最快I/O, 功率範圍從9W到125W, 適用於從超便攜式筆記本到發燒級、商用台式機的所有客戶端設備,基於 Alder Lake 的產品將在今年開始出貨。
Alder Lake 提供三類產品設計形態:
(1) 高性能、雙晶元、插座式的台式機處理器,具有領先性能和能效,擁有8個性能核、8個能效核,支援高規格的記憶體和I/O。
(2) 高性能筆記本處理器,擁有6個性能核、8個能效核,採用 BGA 封裝,加入圖像單元,採用更大的 Xe 顯卡和 Thunderbolt 4 連接。
(3) 輕薄、低功耗的筆記本處理器,擁有 2 個性能核 、8 個效能核,採用高密度的封裝,配置優化的 I/O 和電能傳輸。
要構建如此高度可擴展架構,需在不影響功率的情況下滿足計算和 I/O 代理對頻寬的需求。
英特爾也展示了台式機處理器的 I/O 資訊,總共有最多 8 個性能核 、8 個效能核 、24 個線程和 30MB non-inclusive LL 緩存。
英特爾設計了三種獨立的內部總線,每一種都採用基於需求的即時啟發式後處理方式:
(1) 計算內部總線可支持高達 1000GBps, 即每個內核或每集群 100GBps, 通過最後一級緩存將內核和顯卡連接到記憶體:具有高動態頻率範圍,並且能夠動態選擇數據路徑,根據實際總線結構負載而進行時延和頻寬優化;根據利用率動態調整最後一級緩存策略,也就是”包含”或”不包含”。
(2)I/O 內部總線支援可高達 64GBps, 連接不同類型的 I/O 和內部設備,能在不干擾設備正常運行的情況下無縫改變速度,選擇內部總線速度來匹配所需的數據傳輸量。
(3) 記憶體結構可提供高達 204GBps 的數據,並動態擴展其總線寬度和速度,以支援高頻寬、低時延或低功耗的多個操作點。
04.
基於 Intel 7 節點,性能封頂的數據中心 SoC
Sapphire Rapids 處理器基於 Intel 7 製程工藝技術,採用英特爾性能核與全新加速器引擎,被稱作樹立了下一代數據中心處理器的標準。
其核心是一個分區塊、模組化的 SoC 架構,採用英特爾的嵌入式多晶片互連橋接 (EMIB) 封裝技術和先進網格架構,具有顯著的可擴充性,同時保持單晶片 CPU 介面優勢。
該處理器提供了一個單一、平衡的統一記憶體訪問架構,每個線程均可完全訪問緩存、記憶體和 I/O 等所有單元上的全部資源,由此實現整個 SoC 具有一致的低時延和高橫向頻寬。
Sapphire Rapids 提供多種資料中心相關加速器,包括新的指令集架構和集成IP:
(1) 英特爾加速器介面架構指令集 (AIA): 支援對加速器和設備的有效調度、同步和信號傳遞。
(2) 英特爾高級矩陣擴展 (AMX): 可為深度學習演算法核心的 Tensor 處理提供大幅加速。 其可以在每個週期內進行 2000 次 INT8 運算和 1000 次 BFP16 運算,大幅提升計算能力。
使用早期的 Sapphire Rapids 晶片,與使用英特爾 AVX-512 VNNI 指令的相同微基準測試版本相比,使用新的英特爾 AMX 指令集擴展優化的內部矩陣乘法微基準測試的運行速度提高了 7 倍以上,顯著提升 AI 工作負載中的訓練和推理性能。
(3) 英特爾數據流加速器 (DSA): 旨在卸載最常見的數據移動任務,改進了對這些開銷任務的處理,以提供更高的整體工作負載性能,並可以在 CPU、 記憶體和快取以及所有附加的記憶體、存儲和網路設備之間行動數據。
這些架構上的改進使 Sapphire Rapids 能為雲、數據中心、網路和智慧邊緣中廣泛的工作負載和部署模式提供開箱即用的性能。
05.
獨立遊戲顯卡微架構 Xe HPG 與其首款 SoC
Xe HPG 是一款全新的獨立顯卡微架構,專為遊戲和創作工作負載提供發燒友級別的性能。
基於 Xe HPG 架構的英特爾用戶端顯卡路線圖包括 Alchemist( 此前稱之為 DG2)、Battlemage、Celestial 和 Druid 系列 SoC。
Alchemist 系列 SoC 基於 Xe HPG 微架構,採用台積電 N6 工藝,首批產品將於 2022 年第一季度上市,並採用新品牌名英特爾銳炫 (Intel Arc)。
這款消費級 GPU 預計將與採用台積電 N7 工藝的AMD Navi 2x 顯卡和採用三星8LPP 工藝的英偉達 Ampere GA10x 顯卡進行較量。
基於 Xe HPG 微架構的 Alchemist SoC 透過架構、邏輯設計、電路設計、製程工藝技術和軟體優化,相比 Xe LP 微架構實現 1.5 倍的頻率提升和 1.5 倍的每瓦性能提升。
此外 ,Alchemist SoC 還擁有多達 8 個具有固定功能的渲染切片,專為 DirectX 12 Ultimate 設計;並支援 DirectX Raytracing(DXR) 和 Vulkan Ray Tracing 的新光線追蹤單元。
聚焦到微架構 Xe HPG, 它採用全新 Xe 內核,聚焦計算、可程式設計、可擴展,全面支援 DirectX 12 Ultimate。
Xe 內核中的矩陣引擎 (Xe Matrix eXtensions,XMX) 能夠加速 AI 工作負載,比如 XeSS, 是一項全新升頻技術 (upscaling technology), 可以實現高性能、高保真遊戲體驗。
XeSS 能讓那些原本只能在低畫質設置或低解析度下玩的遊戲,也能在更高畫質設置和解析度下順利運行。 該技術利用 XMX AI 加速,用深度學習來合成非常接近原生高解析度渲染品質的圖像,可提供高性能和高畫質,同時性能提升高達 2 倍。
XeSS 憑藉 DP4a 指令,在包括集成顯卡在內的各種硬體上提供基於 AI 的超級採樣。 多家早期的遊戲開發商已開始使用 XeSS, 本月將向獨立軟體供應商 (ISV) 提供 XMX 初始版本的 SDK,DP4a 版本將於今年晚些時候推出。
英特爾顯卡設計的核心是軟體優先。 英特爾正與開發人員密切合作進行 Xe 微架構的設計,力求與行業標準保持一致;通過在一個統一的代碼庫中涵蓋集成和獨立顯卡產品的驅動設計,英特爾的第一款高性能遊戲顯卡將性能和品質放在首位。
英特爾已完成了內核顯卡驅動程式元件的重新架構,特別是記憶體管理器和編譯器,從而將計算密集型遊戲的輸送量提高了 15%( 至多 80%), 遊戲載入時間縮短了 25%。
06.
1000 億晶體管!
英特爾最複雜SoC與 Xe HPC
Ponte Vecchio 是英特爾迄今最複雜的 SoC, 包含 1000 億個晶體管,提供領先的浮點運算和計算密度,以加速 AI、HPC 和高級分析工作負載。
這款 SoC 也是其踐行 IDM 2.0 戰略的絕佳示例,它基於 Xe HPC 微架構,採用多種先進的半導體製程工藝、英特爾變革性的 EMIB 技術以及 Foveros 3D 封裝技術。
Ponte Vecchio 已走下生產線進行上電驗證,並已開始向客戶提供限量樣品 。 Ponte Vecchio 預計將於 2022 年面向 HPC 和 AI 市場發布。
Xe HPC 微架構的 IP 模組資訊被公佈,包括每個 Xe 核的 8 個向量和矩陣引擎 (XMX)、 切片和堆棧資訊,以及包括計算、基礎和 Xe Link 單元的處理節點的單元資訊。
英特爾展示了早期的 Ponte Vecchio 晶片就已經顯示出領先的性能,在一個流行的 AI 基準測試上創造了推理和訓練輸送量的行業紀錄。
其 A0 晶片已經實現了超過高於 45TFLOPS( 每秒 45 萬億次浮點運算)的 FP32 輸送量,超過 5TBps 的持續記憶體結構頻寬及超過 2TBps 的連接頻寬。
同時,英特爾分享了一段演示視頻,展示了 ResNet 推理性能超過每秒 43000 張圖像和超過每秒 3400 張圖像的 ResNet 訓練,這兩項性能都有望實現行業領先。
從具體設計來看 ,Ponte Vecchio 由多個複雜的單元設計組成,然後通過EMIB單元進行組裝,實現單元之間的低功耗、高速連接。 這些設計均被集成於 Foveros 封裝中,為提高功率和互連密度形成有源晶片的 3D 堆疊。 高速 MDFI 互連允許 1 到 2 個堆疊的擴展。
其中,計算單元是一個密集的多個 Xe 內核,是 Ponte Vecchio 的核心。 該單元基於台積電先進的 N5 製程工藝技術,一塊單元有 8 個 Xe 內核,總共有 4MB 一級緩存,是提供高效計算的關鍵。
該單元具有極其緊湊的 36 微米凸點間距,可與 Foveros 進行 3D 堆疊。 英特爾已通過設計基礎設施設置和工具流程以及方法,為測試和驗證該節點的單元鋪平了道路。
基礎單元是 Ponte Vecchio 的連接組織,基於 Intel 7 製程工藝,針對 Foveros 技術進行了優化。
它是所有複雜的 I/O 和高頻寬元件與 SoC 基礎設施 ——PCIe Gen5、HBM2e 記憶體、連接不同單元 MDFI 鏈路和 EMIB 橋接。 該單元採用高 2D 互連的超高頻寬 3D 連接時延很低,使其成為一台無限連接的機器。 英特爾技術開發團隊致力於滿足頻寬、凸點間距和信號完整性方面的要求。
Xe 鏈路單元採用台積電 N7 工藝,提供了 GPU 之間的連接,支援每單元 8 個 Xe 鏈路,這對 HPC 和 AI 計算的擴展至關重要,旨在實現支援高達 90G 的更高速 SerDes, 該單元已被添加到 Aurora 百億億次級超級計算機的擴展解決方案中。
如 Xe 架構一樣 ,Ponte Vecchio 將由英特爾統一軟體堆疊 oneAPI 支援。
07.
首款專用 ASIC IPU 和 IPU 參考平臺
在傳統伺服器架構中,一切任務都可以直接跑在CPU上。 而在雲端伺服器架構中,如果所有計算任務都由 CPU 來執行,那它就有些力不從心了。
一種可程式設計的網路設備正為雲端和通訊服務提供者減少在CPU方面的開銷,使其充分釋放性能價值,這個設備被稱為基礎設施處理器 (IPU)。
具體而言,英特爾基於 IPU 架構有三大優勢:一是基礎設施功能和客戶工作負載的強分離,使客戶能夠完全控制 CPU; 二是雲端營運商可將基礎設施任務卸載到 IPU 上,更大化實現 CPU 利用率和收益;三是 IPU 可以管理存儲流量,減少時延,同時通過無磁碟伺服器架構有效利用儲存容量。 借助 IPU, 客戶可透過一個安全、可程式設計、穩定的解決方案更好地利用資源,平衡處理與存儲。
應對多樣化數據中心的複雜性,英特爾推出了以下 IPU 家族的新成員:英特爾首款專用 ASIC IPU Mount Evans, 以及全新的基於 FPGA 的 IPU 參考平臺 Oak Springs Canyon。
Mount Evans 是英特爾與一家一流雲服務提供者共同設計和開發的,它融合了英特爾多代 FPGA SmartNIC 的經驗,超大規模就緒,提供高性能網路和存儲虛擬化卸載,同時保持高度控制。
該 IPU 提供了業界一流的可程式設計數據包處理引擎,支援防火牆和虛擬路由等用例。 它還使用擴展自英特爾傲騰技術、硬體加速的 NVMe 儲存介面,並採用英特爾高性能 Quick Assist 技術,部署高級加密和壓縮加速。
在軟體方面 ,Mount Evans 可使用現有普遍部署的 DPDK、SPDK 等軟體環境進行程式設計,並能採用英特爾 Barefoot Switch 部門開創的 P4 程式設計語言來配置管線。
Oak Springs Canyon 是一個 IPU 參考平臺,基於英特爾至強 D 處理器和英特爾 Agilex FPGA 構建:
(1) 卸載 Open Virtual Switch(OVS) 等網路虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲功能,並提供硬化的加密模組,提供更安全、高速的 2x 100Gb 以太網網路介面。
(2) 讓合作夥伴和客戶能用英特爾開放式 FPGA 開發堆疊(英特爾 OFS) 定製其解決方案,這是一款可擴展、開源軟體和硬體基礎設施。
(3) 使用現有普遍部署的軟體環境進行程式設計,包括已在 x86 上優化的 DPDK 和 SPDK。
英特爾 N6000 加速開發平臺 Arrow Creek 是專為搭載至強伺服器設計的 SmartNIC。
它內置英特爾 Agilex FPGA 和用於高性能 100GB 網路加速的英特爾乙太網 800 系列控制器,支援多種基礎設施工作負載,使通訊服務提供者 (CoSP) 能夠提供靈活的加速工作負載,如 Juniper Contrail、OVS 和 SRv6。
08.
oneAPI 工具包:超過 20 萬次單獨安裝
英特爾 oneAPI 是一個開放、規範、跨架構和跨廠商的統一軟體棧,提供了跨架構的相容性,讓開發者能夠擺脫專有語言和程式設計模型的束縛。
目前 ,NVIDIA GPU、AMD GPU、Arm CPU 均有 Data Parallel C ++ (DPC ++)和 oneAPI 庫。
oneAPI 正在被獨立軟體供應商、操作系統供應商、終端使用者和學術界廣泛採用。 行業領導者正在協助發展該規範,以支援更多的用例和架構。
同時,英特爾還提供了商業產品,包括基本的 oneAPI 基礎工具包,它在規範語言和庫之外增加了編譯器、分析器、調試器和移植工具。
英特爾 oneAPI 工具包擁有超過 20 萬次單獨安裝,市場上部署的 300 多個應用程式採用了 oneAPI 統一程式設計模型,超過 80 個 HPC 和 AI 應用程式使用英特爾 oneAPI 工具包在 Xe HPC 微架構上運行。
另外 ,oneAPI 工具包 5 月發佈的 1.1 版臨時規範為深度學習工作負載和高級光線追蹤庫添加了新的圖形介面,預計將在年底完成。
09.
結語:以架構創新應對千倍算力挑戰
總體來看,英特爾在此次架構日活動中推出兩大 x86 CPU 內核、兩款獨立 GPU、 兩大數據中心 SoC、IPU 新品和首款用戶端多核性能混合架構,並展示了 AMX、XeSS、 硬體線程調度器等多項融入產品特性的技術創新。
這些創新的架構與平臺,均是為了更好地迎接越來越龐大的計算需求所帶來的挑戰。 英特爾預計,到 2025 年算力需求將是 1000 倍級的提升,而四年內增加 1000 倍相當於摩爾定律的 5 次方。