AMD RDNA 2 GPU與NVIDIA的安培GPU對決內存延遲性
Chips and Cheese測試了AMD的RDNA 2和NVIDIA的Ampere GPU架構的內存延遲性能,並發現了一些有趣的結果。
AMD的RDNA 2 GPU與NVIDIA的Ampere GPU架構相比,具有卓越的內存延遲性能。在CPU方面,隨著多芯片die和同一die上的多個IO芯片的不斷使用,測量緩存和延遲性能已經成為一個關鍵的指針。GPU也是由多個緩存層次組成,填補了計算和內存性能之間的空白。
這次測試使用基於OpenCL的指針跟踪基準測試來測量當前一代GPU(如NVIDIA Ampere和AMD RDNA 2體系結構)上的緩存和內存延遲性能。在基準測試中,AMD Radeon RX 6800 XT(RDNA 2 GPU)與NVIDIA GeForce RTX 3090(Ampere GPU)進行了對決。緩存和內存基準測試顯示,AMD的RDNA 2架構表現遠好於NVIDIA的Ampere GPU,儘管在去往內存的路上要多檢查兩級緩存,但延遲時間更低。使用Infinity緩存只比L2命中增加了20ns,仍然比NVIDIA的Ampere快。
NVIDIA Ampere GA102 GPU體積大了很多,使用了比較傳統的GPU內存子系統,只有兩級緩存,但卻要耗費大量的周期,導致延遲(L1到L2)超過100ns。而RDNA 2的延遲則只有66ns。需要注意的是,AMD Navi 21 GPU的體積更小,只有4 MB的二級緩存,而NVIDIA GA102 GPU的整個芯片有6 MB的二級緩存。NVIDIA A100 Ampere GPU for HPC則擁有龐大的40 MB二級緩存。
RDNA 2的緩存速度很快,而且數量很多。與Ampere相比,各級別的延遲都很低。Infinity Cache只比L2命中增加了20ns左右,延遲比Ampere的L2還低。令人驚奇的是,RDNA 2的VRAM延遲與Ampere差不多,儘管RDNA 2在通往內存的路上多檢查了兩級緩存。相比之下,Nvidia堅持使用更傳統的GPU內存子系統,只有兩級緩存,L2延遲很高。從Ampere的SM-private L1到L2緩存需要超過100 ns。RDNA的L2與L0的距離約為66ns,即使它們之間有L1緩存。繞過GA102龐大的die似乎需要很多周期。
這可以解釋AMD在較低分辨率下的優異性能。RDNA 2的低延遲L2和L3緩存可能會在較小的工作負載下給它帶來優勢,相比之下,Nvidia的Ampere芯片需要更多的並行任務才能大放異彩。與舊的Pascal和Maxwell芯片相比,Ampere架構在更大的GPU上帶來了高度改善的延遲速度。另一方面,AMD在與舊的基於GCN和VLIW架構的芯片相比,也有一些令人印象深刻的進步。一旦新一輪基於芯片的GPU在未來幾年登陸游戲領域,這些數據的比較肯定會很有趣。