AMD RX 6000架構揭秘:性能提升多達54%
紙面發布多日之後,AMD RX 6000系列顯卡今天終於開始解禁上市了,首發兩款型號,RX 6800 4599元,RX 6800 XT 5099元,下個月2號還會有旗艦級的RX 6900 XT 7999元。它們都採用了升級版的RDNA 2底層架構,均基於Navi 21 GPU核心,也常被叫做Big Navi,最多擁有80組計算單元、5120個流處理器、16GB GDDR6顯存,支持PCIe 4.0。
而在7nm工藝不變、核心規模翻番、頻率大幅提升的同時,整卡功耗依然保持在最多300W。
本文中,我們重點講講RDNA 2的架構設計,以及兩項關鍵圖形技術。
RDNA 2雖然是RDNA架構的更新版本,並不是完全重新設計,但是它帶來的突破和提升是驚人的,也完全實現了項目起步之初設立的看似不可能的目標。
這就是:16個月之內,性能提升1倍,能效提升至少50%,完整支持DX12 Ultimate等技術特性,支持硬件光線追踪。
在微架構上,RDNA 2充分借鑒了Zen CPU的世界級設計思路(消息稱Zen開發團隊直接介入了RDNA 2設計),整體得以更加精煉、高效。
縱向比較的話,在同等功耗水平下,RDNA 2每個計算單元的運行頻率提升了足足30%,標稱加速頻率最高2250MHz,實際運行中其實能夠跑到2450MHz!
橫向比較的話,在同等頻率下,RDNA 2每個計算單元的功耗可以降低50%,也就是省電一半。
以上是RDNA、RDNA 2兩代架構圖,可以發現整體佈局沒有太大變化,當然各個功能模塊都是調整優化過的,而最突出的,一是增加了獨立的Infinity Cache高速緩存,二是在每個計算單元內加入了專用的光追加速器Ray Accelerator。
至於RDNA 2架構的底層細節,比如說計算單元的變化,AMD這次沒有給出更多資料,只是簡單提到了幾點,包括精簡TLB以降低延遲、重新設計32位像素流水線並支持HDR格式、優化幾何分派與曲面細分、全方位精細時鐘門控、頻率樹分離與門控、最小化數據轉移、重新平衡流水線、高性能庫等等,但沒有任何圖示。
不過也好,太深入太專業的東西咱們也鑽研不夠,直接享受成果就是了。
Infinity Cache高速緩存的加入,以及一二級緩存的調整,主要是為了解決RDNA 2架構必須在核心數量翻番、頻率提升30%的情況下,不會受到帶寬不足的製約。
上一代的RDNA架構中,零級緩存分佈在每個計算單元中,一級緩存是每個著色器引擎獨享的,並單獨訪問二級緩存,4MB二級緩存則負責在著色器引擎、指令處理器之間共享數據。
RDNA架構搭配的是256-bit GDDR6顯存,等效頻率14GHz,總帶寬為448GB/s,看起來不少,但核心規模急劇擴大後,就會成為瓶頸。
GPU發展的傳統思路中,提升顯存帶寬的核心途徑就是擴大位寬、提高頻率。RTX 3090就擁有384-bit 19.5GHz GDDR6X,帶寬高達936GB/s,AMD Fury、Vega系列顯卡還用過以高帶寬著稱的HBM,Radeon VII就達到了驚人的1TB/s。
但是,擴大位寬會造成核心面積急劇擴大、功耗急劇增加,HBM顯存則是成本高昂,還要與GPU整合封裝。
Smart Access Memory(SAM)顯存智取技術就是AMD提出的更高效的高帶寬解決方案,而且充分依託了AMD的平台化優勢。
NVIDIA雖然號稱也在研發類似的技術,但沒有自己的CPU處理器做輔助,就有點像無根之水了。
RDNA 2為此集成了128MB大容量的Infinity Cache高速緩存,有點像銳龍/霄龍處理器中的三級緩存,同時優化各級緩存結構的體系,還將二級緩存容量翻兩番達到16MB 。
再結合AMD CPU/GPU通用的Infinity Fabric高速互連通道,支持16×64-bit通道,最高頻率1.94GHz,其帶寬是256-bit GDDR6顯存的幾乎4倍!
按照AMD的說法,Infinity Cache高速緩存結合256-bit GDDR6顯存,帶寬可以達到384-bit GDDR6顯存的多達2.17倍,而且還能節省10%的功耗——512-bit GDDR6或者4096-bit HBM也能帶來類似或者更高的帶寬,但是功耗和成本完全不可同日而語了。
與此同時,平均顯存延遲也降低了足足34%。
再藉助成熟的PCIe 4.0技術、自家平台優勢,銳龍5000處理器、RX 6000顯卡彼此搭配的時候,SAM技術可以將更多內存空間映射到本地存儲地址寄存器中,讓處理器訪問顯卡全部容量的顯存,不再有任何限制,也徹底消除了帶寬瓶頸。
SAM技術加持後,不但帶寬瓶頸完全不存在,還有額外加成,官方宣稱可給RX 6800 XT帶來平均6%的遊戲性能提升,最多超過10%。
在我們的實測中,RX 6800 XT開啟SAM,遊戲性能平均提升大約3%,《刺客信條:奧德賽》、《古墓麗影:暗影》、《戰地5》、《戰爭機器》都是比較明顯的,以前是《戰爭機器5》,1080p分辨率下達到了驚人的12%。
回想之前RX 6000系列規格曝光的時候,看到只有256-bit位寬,再加上AMD保密措施做得好,頂級規格一直沒有透露,相信絕大多數人都認為AMD這次直接棄療了,不做高端,結果誰都沒想到來了一個這麼一個獨門大招。
當然,SAM技術需要特定的條件才能開啟,硬件上不但需要銳龍5000處理器、RX 6000顯卡,還得搭配X570、B550主板,並在BIOS中開啟相關選項。
AMD表示,目前沒有計劃將SAM技術應用於老平台,所以400系列主板用戶即便上了銳龍5000處理器,也會少一些“福利”。
再說說光追。RDNA 2的思路是在每一個計算單元內,加入一個專門的Ray Accelerator光追加速單元,這與在微軟Xbox Series X/S、索尼PS5上的設計如出一轍,跨平台的遊戲優化自然是得心應手。
對比NVIDIA RT Core專用光追核心的做法,RDNA 2將光追加速器集成於計算單元,可以共享通常無法在光追中無法被完全利用到的硬件。
換言之,運行非光追負載時,AMD光追加速器的部分硬件仍然可以正常運作,NVIDIA RT核心就完全閒置了,前者自然有著更高的整體效率,不必為根本用不到的硬件付出成本和功耗。
關於光追遊戲支持,RDNA 2架構基於行業標準的微軟DXR API和即將推出的Vulkan光追API,所以任何基於這些標準API的光追遊戲,AMD都可以直接支持,首發超過十款,包括《塵埃5》、《眾神隕落》、《孤島驚魂6》、《銀河破裂者》、《魔獸世界:暗影國度》、《戰地5》、《使命召喚:現代戰爭》、《孤島危機重製》、《堡壘之夜》、《地鐵:離去》、《古墓麗影:暗影》、《看門狗:軍團》。
這是AMD放出的RNA 2光追渲染效果圖,注意第一張和傳統光柵化渲染的對比。
AMD聲稱,相比於軟件方案,RDNA 2架構的硬件加速光追性能,可以提升10倍之多,同時給出了部分遊戲的實際性能,2K分辨率下《使命召喚:現代戰爭》可以跑出95FPS,《孤島危機重製版》可達90FPS,《戰地5》能有70FPS。
還有一點很多人可能沒注意到,光追不僅僅可以用於遊戲,在圖形渲染中同樣很關鍵,而且早就有應用了,只不過一直都是軟件方案,效率不是很高。
AMD ProRender渲染器插件就一直支持光追,支持Blender、Houdini、Autodesk Maya等頂級渲染軟件,Blender Cycles也即將支持。
AMD聲稱,RX 6800 XT相比於此前的Radeon VII,利用硬件光追加速,在渲染方面可以帶來大約50-70%的性能飛躍。
另外,針對NVIDIA DLSS深度學習超採樣抗鋸齒技術,AMD也提出了超分辨率(FidelityFX Super Resolution),簡稱FSR,不過還在開發之中,正與遊戲開發商聯合優化支持,更多細節會在後續放出。
總的來說,基於一系列全新設計和特性,RDNA 2架構在運行頻率、同頻性能、能效比等各個方面都取得了顯著的進步,綜合能效比在RDNA相對於GCN提升50%的基礎上,又提升了多達54%!這其中,21%來自同頻性能增強,17%來自能耗優化,16%來自設計頻率提升。
最後是一組AMD官方給出的RX 6800、RX 6800 XT與競品性能對比,看看就好,實際性能對比還請移步本站的首發評測。