英特爾Xe2 GPU正式發表:效能提升50% 包含全新光線追蹤內核
在ITT 2024 大會上,英特爾粉碎了所有關於取消或推遲GPU 和Arc 陣容的傳言。湯姆-彼得森(Tom Petersen)圍繞著下一代Xe2 架構做了精彩的演講。從細節入手,英特爾將一切化繁為簡,不再使用LP、LPG、HP 和HPG 命名方案,而是簡單地將其下一代產品線稱為Xe2。在內部,這些晶片仍將採用這些代號,但不會再用於客戶端。
英特爾Xe2 正式發布,並將應用於Lunar Lake CPU 和代號為”Battlemage”的下一代Arc 獨立顯示卡陣容。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/d0aae30be44d708.jpg?w=640&ssl=1)
英特爾Xe2 的部分目標是提高使用率、改善工作分配和減少軟體開銷。 Xe2 是一項從頭開始的設計,修復了Xe”Alchemist”GPU 存在的幾個主要問題。一開始,英特爾就用一張IP 效能效率圖向觀眾展示了高達12.5 倍的顯著收益,讓人驚嘆不已。我們將深入介紹Xe2 是什麼,以及英特爾是如何實現這些收益的。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/b124255fd07f302.jpg?w=640&ssl=1)
英特爾表示,Xe2 架構與Xe 架構一樣,具有高度的可擴展性,這將促使其整合到Lunar Lake 等低功耗行動SoC 中,並整合到稍後推出的具有獨立選項的高階Arc 顯示卡中。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/ad2699656240778.jpg?w=640&ssl=1)
第二代Xe 核心或Xe2 配備了多種運算資源,這些資源被重新劃分為本地SIMD16 引擎,以提高效率。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/5a14d45e4e92aef.jpg?w=640&ssl=1)
Xe2 核心功能
8 個512 位元向量引擎
8 個2048 位元XMX 引擎
支援64b 原子運算
192KB 共享L1$/SLM
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/ed905f8bea17bc4.jpg?w=640&ssl=1)
向量引擎也已更新,其中包括:
SIMD16 本地ALU –支援SIMD16 和SIMD32 操作
Xe 矩陣擴展(支援INT2、INT4、INT8、FP16、BF16)
擴展數學和FP64 –常數:正弦、餘弦、對數、指數
3 向共同發行- FP + INT/EM + XMX
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/1f6171524875c72.jpg?w=640&ssl=1)
Alchemist”Xe”GPU 上也有Xe 矩陣引擎或XMX 單元,但現在的變化是,它們支援更多資料類型,運行速度更快,FP16 額定頻率為2048 OPS/時鐘,INT8 額定頻率為4096 OPS/時鐘。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/ac23d8cf3cc4b27.jpg?w=640&ssl=1)
讓我們來看看這些新引擎是如何在Xe2 渲染片段(Xe2 GPU 的基本模組)中堆疊的。這些渲染片可根據需要進行堆疊和擴展,並經過優化,以減少延遲、消除停滯並改善硬體/軟體握手。這些渲染片連接到命令前端,該命令前端本機支援間接執行。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/d10aab7d627aa24.jpg?w=640&ssl=1)
渲染片還包括一個新的幾何引擎,具有3 倍的頂點獲取吞吐量和3 倍的網格著色性能(具有頂點重用功能);新的L1$/SLM 緩存,用於順序外採樣(具有壓縮紋理);2 倍的無過濾採樣吞吐量和可編程偏移;一個新的HiZ 單元,快取增加了50%,並支援對小型基元進行早期HiZ 剔除。最後,還有兩個新的像素後端(Pixel Backends),可提供兩倍的混合吞吐量,像素顏色快取增加了33%,並可將目標預取渲染至L2$。
![2024-06-04_8-52-13-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/ab6678415f897ca.jpg?w=640&ssl=1)
![2024-06-04_8-52-14-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/f77f258fbd810d8.jpg?w=640&ssl=1)
![2024-06-04_8-52-15-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/62024ba7fdec8ae.jpg?w=640&ssl=1)
![2024-06-04_8-52-16-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/f78559a9fb1785f.jpg?w=640&ssl=1)
![2024-06-04_8-52-17-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/ad713252545efbd.jpg?w=640&ssl=1)
![2024-06-04_8-52-18-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/5fb5178a27f7a33.jpg?w=640&ssl=1)
Xe2 的最新光線追蹤單元在Xe1 的基礎上進行了改進。 Xe2 核心的一個主要部分是RTU(光線追蹤單元),它具有3 條遍歷管道、18 個方框交叉點(每個方框交叉點6 個,每個RTU 3 個方框)和2 個三角形交叉點。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/3d453e0df8b3f1d.jpg?w=640&ssl=1)
以上就是英特爾Xe2 GPU 架構的基本概述:
第2 代Xe2 內核
增強型向量引擎
深度緩存
新型XMX 發動機
效能與效率- 優化前端
本機硬體支援exectue 間接指令
更大的光線追蹤裝置
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/6a1607689cb30dc.jpg?w=640&ssl=1)
總體而言,英特爾的Xe2 GPU 架構旨在與遊戲更加相容,並實現更高的利用率。新的執行間接區塊被遊戲用來加速繪製調用,由於它被虛幻引擎等引擎大量使用,因此獲得12.5 倍的提升對遊戲玩家來說是個好兆頭。
第一款採用Xe2 GPU 的產品是整合配置的Lunar Lake。 Lunar Lake 中的多個區塊都與GPU 有關,如媒體引擎和顯示引擎。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/982fc314e5b3a4b.jpg?w=640&ssl=1)
在談這些之前,我們先來談談Lunar Lake 的Xe2 配置:
8 個Xe2 內核
64 個向量引擎
2 幾何管道
8 個採樣器
4 個像素後端
8 個光線追蹤單元
8 MB L2$
![2024-06-04_8-52-23-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/6ea63a6c708e4d3.jpg?w=640&ssl=1)
![2024-06-04_8-52-24-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/4a0ee2be17adb9d.jpg?w=640&ssl=1)
![2024-06-04_8-52-25-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/8db473b8cf31d7e.jpg?w=640&ssl=1)
Lunar Lake Xe2 GPU 有8 個Xe2 內核,每個Xe2 內核有8 個XMX 和8 個向量單元、一個負載/儲存單元、一個執行緒排序單元和一個專用的L1/L$ 快取。這4 個Xe2 核心中的每一個都能產生一個渲染片。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/fab10a63e18a53c.jpg?w=640&ssl=1)
那麼,與Meteor Lake 的Xe GPU 相比,這一切的效能表現如何呢?英特爾表示,Xe2 GPU 在ISO 下的效能提高了50%,在效能不變的情況下,功耗大幅降低。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/1b8e47d00dca005.jpg?w=640&ssl=1)
XMX 塊也是一個重要部分,它湧入了67 個峰值INT8 TOPS,為Lunar Lake CPU 的整體AI 能力錦上添花。晶片總共提供120 個平台TOPS,其中48 個TOPS 來自NPU4,5 個TOPS 來自CPU 本身。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/e7edbcd26c4774d.jpg?w=640&ssl=1)
月球湖的Xe 顯示引擎
現在,我們從GPU 轉向Lunar Lake CPU 本身的其他模組,首先是顯示引擎。顯示引擎配備3 個顯示管道,最高支援8K60 HDR,最高支援3x 4K60 HDR,最高支援1080p360 或1440p360。顯示引擎支援HDMI 2.1、DisplayPort 2.1 和新的eDP 1.5 功能。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/2e95f6bd3c084d6.jpg?w=640&ssl=1)
顯示引擎的前端包括解碼/解密和串流緩衝區。在像素處理管線方面,每個管線有6 個平面,支援色彩轉換和合成的硬件,同時具有靈活性和高能效。
![2024-06-04_8-52-32-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/76921df896d7bdf.jpg?w=640&ssl=1)
![2024-06-04_8-52-34-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/bf8c5b351da8165.jpg?w=640&ssl=1)
![2024-06-04_8-52-35-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/51cbc18bc7a6888.jpg?w=640&ssl=1)
![2024-06-04_8-52-37-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/df2d5dd3f9f4c32.jpg?w=640&ssl=1)
![2024-06-04_8-52-38-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/a0253980d63c56f.jpg?w=640&ssl=1)
![2024-06-04_8-53-06-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/3db4a2cede88418.jpg?w=640&ssl=1)
此外,還有額外的低功耗優化管線,具有面板重播功能(空閒幀期間的功率門控)和一個帶有LACE(本地自適應對比度增強)功能的全新亮度感測器。在壓縮和編碼方面,顯示串流壓縮引擎支援31 種視覺無損壓縮和傳輸編碼(HDMI 和DisplayPort 協定的串流編碼)。路由器和連接埠包括流組裝和連接埠路由,最多支援4 個連接埠,增加了靈活性。
![2024-06-04_8-53-07-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/c3c8d565b60d7d0.jpg?w=640&ssl=1)
![2024-06-04_8-53-08-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/c5cbdcfa379a1bf.jpg?w=640&ssl=1)
![2024-06-04_8-53-10-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/378c70467ae723a.jpg?w=640&ssl=1)
![2024-06-04_8-53-11-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/ec86193c2d94ce2.jpg?w=640&ssl=1)
![2024-06-04_8-53-12-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/3d9922747bc78ae.jpg?w=640&ssl=1)
![2024-06-04_8-53-14-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/b81ee2998416c4e.jpg?w=640&ssl=1)
![2024-06-04_8-53-15-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/c9fddc362b61a9d.jpg?w=640&ssl=1)
![2024-06-04_8-53-25-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/e46ebbb95ab6ffb.jpg?w=640&ssl=1)
![2024-06-04_8-53-27-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/7a897b9d64993d2.jpg?w=640&ssl=1)
回到帶有面板重播功能的eDP(eDisplayPort)1.5,它被稱為面板自刷新的進化版,具有早期傳輸和自適應同步支援的選擇性更新。新的顯示功能可減少抖動,改善播放效果,同時提供更高的能源效率。
用於Lunar Lake 的Xe 媒體引擎–支援VVC、側快取和更好的編碼
Lunar Lake SOC 與Xe2 GPU 連接的最後一個區塊是媒體引擎,它現在擁有自己專用的8 MB 共享側快取。晶片的其他部分可以使用這個新緩存,但沒有必要,因為其他核心本身就有專用快取。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/2be98416c648565.jpg?w=640&ssl=1)
這種側快取可為Lunar Lake 節省大量頻寬,因為跨媒體工作負載的系統記憶體流量減少了。這也大大降低了編碼工作負載的功耗。
![2024-06-04_8-53-31-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/7f46949793c6fab.jpg?w=640&ssl=1)
![2024-06-04_8-53-32-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/dcd5a5caeda8fa2.jpg?w=640&ssl=1)
![2024-06-04_8-53-33-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/608192c4886bf8b.jpg?w=640&ssl=1)
![2024-06-04_8-53-34-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/ff4b49689ae7479.jpg?w=640&ssl=1)
![2024-06-04_8-53-35-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/fcdeded0e3c2f9d.jpg?w=640&ssl=1)
![2024-06-04_8-53-37-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/43bd935ab9b81b4.jpg?w=640&ssl=1)
媒體引擎支援最高達8k60 10 位元HDR 解碼、高達8k60 10 位元HDR 編碼、AVC、VP9、H.265 HEVC、AV1 和全新的VVC 引擎。 VVC 引擎大大降低了位元率,同時提供與AV1 相同的品質(檔案大小最多減少10%)。它還支援自適應解析度流和螢幕內容編碼。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/95cce7a64691d3e.jpg?w=640&ssl=1)
最後,我們的Windows GPU 軟體堆疊已經為Xe2 GPU 做好了準備。英特爾表示,它花了大量時間調整Alchemist”Xe”GPU 的API 級效能,尤其是DX9,但所有這些軟體工作都將轉移到Xe2,並支援所有最新的API 和框架及其運行時。
![2024-06-04_8-53-40-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/fa1cef535d1e22c.jpg?w=640&ssl=1)
![2024-06-04_8-53-41-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/688c30185c92f49.jpg?w=640&ssl=1)
![2024-06-04_8-53-43-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/2c3564fa49b0bee.jpg?w=640&ssl=1)
![2024-06-04_8-53-48-1456x819.jpg](https://i0.wp.com/static.cnbetacdn.com/article/2024/0604/94cfb5f5472116f.jpg?w=640&ssl=1)
Xe2 是一種全新的圖形架構,它為Lunar Lake 等整合解決方案和即將推出的Arc Battlemage 系列的獨立選項帶來了巨大的效能提升和最新的功能集。該公司將在今年稍後分享更多有關Battlemage 獨立產品的資訊。