高通公佈驍龍X GPU架構細節:效能超67%、功耗低62%
高通驍龍處理器一直擁有極其強大的GPU性能,常被調侃為“買GPU送CPU”,但官方對於GPU架構的技術細節一直諱莫如深,每次只說支持XX技術、性能提升XX。到了最新的驍龍X Elite/Plus系列處理器上,或許是為了更好地對標Intel、AMD,高通空前大方地公開了Adreno X1 GPU的底層細節,頂級型號為Adreno X1-85。
Adreno X1是專門針對Windows PC設計的,圖形介面完整支援DirectX 12.1(Shader Model 6.7/DirectML)、DirectX 11、Vulkan 1.3、OpenCL 3.0,都有原生驅動支援。
FP32單精度浮點性能最高4.6TFlops(每秒4.6兆次計算),像素填充率最高72Gp/s(每秒720億次)。
如此詳細的架構圖對於高通GPU來說似乎還是第一次,可以看到分為6個著色處理器(SP),整體共計1536個FP32 ALU,可以通俗地表達為1536個核心,最高頻率1.5GHz 。
粗暴地按照核心數計算,這相當於GTX 1660 Ti,或者說三個Arc A770,或者說四分之三個RX 7600。
渲染前端模組支援每時脈週期2個三角形和光柵化處理、雙向LRZ(地解析度深度測試)、基於影像的可變著色率(VSR Tie2)。
還有專門用於分箱(binning)的前端模組,與渲染同步運作。
6個SP對應6個渲染後端,每時脈週期最多48個像素、96個fragment(用於MSAA抗鋸齒)。
另外還有GMU,也就是GPU管理單元,完整支援虛擬化(最多8個虛擬機),還有電源管理的功能。
細看SP部分,也就是SIMD著色處理器,屬於核心執行模組,分為兩個uSPTP(微型著色與紋理管線)。
整個SP,分佈著256個FP32 ALU(單精度浮點算術邏輯單元),支援FP32/16、INT32/16、BF16資料型,支援DP4ACC指令(四路INT8點積),以及512個FP16 ALU(半精確度浮點算術邏輯單元),支援FP16、INT16、BF16資料型別。
此外,還有32個32位元EFU(基本功能單元)、384KB GPR(通用暫存器)、指令快取、本地緩衝、載入/儲存單元、紋理管線和紋理快取、GMEM單元,等等。
GPU內還整合了384KB集群快取(每兩個SP共享128KB)、1MB一體化二級快取、6MB系統級快取(即三級快取),還有一些其他較小的緩存,用於著色器指令、本地紋理資料等。
GMEM是特殊功能單元,也就是高頻寬的本地GPU顯存,容量3MB,頻寬達2TB/s,與系統記憶體完全非同步。
而且,它不僅僅是緩存,還可以全部或部分靈活地用於色彩與景深緩存、通用本地內存,無論是圖形渲染還是通用計算都可以使用。
它可以讓GPU大幅減少對系統記憶體的依賴,降低對延遲和頻寬的需求,還有超高的效能與能源效率。
FlexRender彈性渲染技術也值得一提,可以由驅動控制,針對每個不同的表面動態切換不同的渲染模式,提升效能的同時盡可能降低功耗。
具體分為三種模式:
一是Direct Mode,PC標準渲染方式,相容性最好。
二是Binned Mode,將每一幀畫面切割成不同的區塊(Tile),每一個都會進入GMEM,可盡量減少資料移動,提高能源效率。
第三是Bined Direct Mode,前述兩種方式的混合。
軟體方面,高通承諾每月升級GPU驅動,Adreno控制面板可調節效能和各項功能,而在相容性方面已經是數百款流行的Windows應用,已測試的遊戲均可查詢,還有豐富的開發工具。
高通聲稱,Adreno X1對比酷睿Ultra的銳炫核顯,同等功耗下性能領先最多67%,同等行下功耗低最多62%!
對比銳龍9 7040系列中的Radeon 780M更是性能、能源效率都遙遙領先。
在流行的3A遊戲中,官方列出了9款,都基本持平或優於Intel銳炫核顯,優勢項目包括《地平線:零之曙光》、《火箭聯盟》等。