顯存延遲測試：AMD RNDA 2架構竟比英偉達Ampere GPU更優秀

經過多年發展，GPU硬件也迎來了多級緩存結構。通過精心的設計，其能夠有效緩和各個PC計算組件之間的性能掣肘。但不同GPU製造商之間的架構設計思路，仍有著較大的差別。以目前佔獨顯市場最多的英偉達和AMD為例，兩家公司旗下的競品GPU就具有不同大小的寄存器和L1 / L2緩存。

英偉達A100 GPU 開發板

比如英偉達A100 GPU 的L2 緩存容量為40MB，直接增加到了上一代V100 的七倍。顯然，這考慮到了許多新應用程序需要更大的緩存，且為後續不斷增長的使用需求而預留了一定的空間。

有趣的是，Chips and Cheese 於近日發布了一份有趣的報告，揭示了AMD 最新一代的RNDA 2、和英偉達Ampere GPU 之間的顯存延遲表現。

顯存延遲比較（越低越好）

通過在OpenCL 中使用簡單的指針追逐測試，其得到了一份有趣的結果。其中採用RDNA 2 架構的AMD Radeon RX 6800 XT 顯卡，其Infinity Cache 高速緩存的表現很是亮眼。

與採用Ampere 架構的英偉達GeForce RTX 3090 旗艦顯卡相比，即便顯存（VRAM）方面的延遲幾乎一致，但IF 設計還是大幅降低了Radeon RX 6000 顯卡的訪問延遲。

AMD Infinity Cache 資料圖

TechPowerUp 指出，英偉達Ampere GPU 使用了L1 + L2 兩級緩存系統，測試表明這套解決方案的效用相當緩慢。在從Ampere SM（L1 緩存）向L2 傳輸的時候，數據延遲竟高達100ns 。

另一方面，儘管AMD RDNA 2 GPU 具有L0 / L1 / L2 三級緩存系統（Infinity Cache 理論上也可以視作L3 緩存），但A 卡的顯存延遲仍低得多。即便從L1 到L2，也只需66 ns 。

感興趣的朋友，可移步至Chips and Cheese查看《GPU顯存延遲測試》全文。

WONGCW 網誌