英特爾Xe2 GPU正式發表:效能提升50% 包含全新光線追蹤內核
在ITT 2024 大會上,英特爾粉碎了所有關於取消或推遲GPU 和Arc 陣容的傳言。湯姆-彼得森(Tom Petersen)圍繞著下一代Xe2 架構做了精彩的演講。從細節入手,英特爾將一切化繁為簡,不再使用LP、LPG、HP 和HPG 命名方案,而是簡單地將其下一代產品線稱為Xe2。在內部,這些晶片仍將採用這些代號,但不會再用於客戶端。
英特爾Xe2 正式發布,並將應用於Lunar Lake CPU 和代號為”Battlemage”的下一代Arc 獨立顯示卡陣容。
英特爾Xe2 的部分目標是提高使用率、改善工作分配和減少軟體開銷。 Xe2 是一項從頭開始的設計,修復了Xe”Alchemist”GPU 存在的幾個主要問題。一開始,英特爾就用一張IP 效能效率圖向觀眾展示了高達12.5 倍的顯著收益,讓人驚嘆不已。我們將深入介紹Xe2 是什麼,以及英特爾是如何實現這些收益的。
英特爾表示,Xe2 架構與Xe 架構一樣,具有高度的可擴展性,這將促使其整合到Lunar Lake 等低功耗行動SoC 中,並整合到稍後推出的具有獨立選項的高階Arc 顯示卡中。
第二代Xe 核心或Xe2 配備了多種運算資源,這些資源被重新劃分為本地SIMD16 引擎,以提高效率。
Xe2 核心功能
8 個512 位元向量引擎
8 個2048 位元XMX 引擎
支援64b 原子運算
192KB 共享L1$/SLM
向量引擎也已更新,其中包括:
SIMD16 本地ALU –支援SIMD16 和SIMD32 操作
Xe 矩陣擴展(支援INT2、INT4、INT8、FP16、BF16)
擴展數學和FP64 –常數:正弦、餘弦、對數、指數
3 向共同發行- FP + INT/EM + XMX
Alchemist”Xe”GPU 上也有Xe 矩陣引擎或XMX 單元,但現在的變化是,它們支援更多資料類型,運行速度更快,FP16 額定頻率為2048 OPS/時鐘,INT8 額定頻率為4096 OPS/時鐘。
讓我們來看看這些新引擎是如何在Xe2 渲染片段(Xe2 GPU 的基本模組)中堆疊的。這些渲染片可根據需要進行堆疊和擴展,並經過優化,以減少延遲、消除停滯並改善硬體/軟體握手。這些渲染片連接到命令前端,該命令前端本機支援間接執行。
渲染片還包括一個新的幾何引擎,具有3 倍的頂點獲取吞吐量和3 倍的網格著色性能(具有頂點重用功能);新的L1$/SLM 緩存,用於順序外採樣(具有壓縮紋理);2 倍的無過濾採樣吞吐量和可編程偏移;一個新的HiZ 單元,快取增加了50%,並支援對小型基元進行早期HiZ 剔除。最後,還有兩個新的像素後端(Pixel Backends),可提供兩倍的混合吞吐量,像素顏色快取增加了33%,並可將目標預取渲染至L2$。
Xe2 的最新光線追蹤單元在Xe1 的基礎上進行了改進。 Xe2 核心的一個主要部分是RTU(光線追蹤單元),它具有3 條遍歷管道、18 個方框交叉點(每個方框交叉點6 個,每個RTU 3 個方框)和2 個三角形交叉點。
以上就是英特爾Xe2 GPU 架構的基本概述:
第2 代Xe2 內核
增強型向量引擎
深度緩存
新型XMX 發動機
效能與效率- 優化前端
本機硬體支援exectue 間接指令
更大的光線追蹤裝置
總體而言,英特爾的Xe2 GPU 架構旨在與遊戲更加相容,並實現更高的利用率。新的執行間接區塊被遊戲用來加速繪製調用,由於它被虛幻引擎等引擎大量使用,因此獲得12.5 倍的提升對遊戲玩家來說是個好兆頭。
第一款採用Xe2 GPU 的產品是整合配置的Lunar Lake。 Lunar Lake 中的多個區塊都與GPU 有關,如媒體引擎和顯示引擎。
在談這些之前,我們先來談談Lunar Lake 的Xe2 配置:
8 個Xe2 內核
64 個向量引擎
2 幾何管道
8 個採樣器
4 個像素後端
8 個光線追蹤單元
8 MB L2$
Lunar Lake Xe2 GPU 有8 個Xe2 內核,每個Xe2 內核有8 個XMX 和8 個向量單元、一個負載/儲存單元、一個執行緒排序單元和一個專用的L1/L$ 快取。這4 個Xe2 核心中的每一個都能產生一個渲染片。
那麼,與Meteor Lake 的Xe GPU 相比,這一切的效能表現如何呢?英特爾表示,Xe2 GPU 在ISO 下的效能提高了50%,在效能不變的情況下,功耗大幅降低。
XMX 塊也是一個重要部分,它湧入了67 個峰值INT8 TOPS,為Lunar Lake CPU 的整體AI 能力錦上添花。晶片總共提供120 個平台TOPS,其中48 個TOPS 來自NPU4,5 個TOPS 來自CPU 本身。
月球湖的Xe 顯示引擎
現在,我們從GPU 轉向Lunar Lake CPU 本身的其他模組,首先是顯示引擎。顯示引擎配備3 個顯示管道,最高支援8K60 HDR,最高支援3x 4K60 HDR,最高支援1080p360 或1440p360。顯示引擎支援HDMI 2.1、DisplayPort 2.1 和新的eDP 1.5 功能。
顯示引擎的前端包括解碼/解密和串流緩衝區。在像素處理管線方面,每個管線有6 個平面,支援色彩轉換和合成的硬件,同時具有靈活性和高能效。
此外,還有額外的低功耗優化管線,具有面板重播功能(空閒幀期間的功率門控)和一個帶有LACE(本地自適應對比度增強)功能的全新亮度感測器。在壓縮和編碼方面,顯示串流壓縮引擎支援31 種視覺無損壓縮和傳輸編碼(HDMI 和DisplayPort 協定的串流編碼)。路由器和連接埠包括流組裝和連接埠路由,最多支援4 個連接埠,增加了靈活性。
回到帶有面板重播功能的eDP(eDisplayPort)1.5,它被稱為面板自刷新的進化版,具有早期傳輸和自適應同步支援的選擇性更新。新的顯示功能可減少抖動,改善播放效果,同時提供更高的能源效率。
用於Lunar Lake 的Xe 媒體引擎–支援VVC、側快取和更好的編碼
Lunar Lake SOC 與Xe2 GPU 連接的最後一個區塊是媒體引擎,它現在擁有自己專用的8 MB 共享側快取。晶片的其他部分可以使用這個新緩存,但沒有必要,因為其他核心本身就有專用快取。
這種側快取可為Lunar Lake 節省大量頻寬,因為跨媒體工作負載的系統記憶體流量減少了。這也大大降低了編碼工作負載的功耗。
媒體引擎支援最高達8k60 10 位元HDR 解碼、高達8k60 10 位元HDR 編碼、AVC、VP9、H.265 HEVC、AV1 和全新的VVC 引擎。 VVC 引擎大大降低了位元率,同時提供與AV1 相同的品質(檔案大小最多減少10%)。它還支援自適應解析度流和螢幕內容編碼。
最後,我們的Windows GPU 軟體堆疊已經為Xe2 GPU 做好了準備。英特爾表示,它花了大量時間調整Alchemist”Xe”GPU 的API 級效能,尤其是DX9,但所有這些軟體工作都將轉移到Xe2,並支援所有最新的API 和框架及其運行時。
Xe2 是一種全新的圖形架構,它為Lunar Lake 等整合解決方案和即將推出的Arc Battlemage 系列的獨立選項帶來了巨大的效能提升和最新的功能集。該公司將在今年稍後分享更多有關Battlemage 獨立產品的資訊。