AMD RDNA 2 GPU與NVIDIA的安培GPU對決內存延遲性

2021-04-20 Comments 0 Comment

Chips and Cheese測試了AMD的RDNA 2和NVIDIA的Ampere GPU架構的內存延遲性能，並發現了一些有趣的結果。

AMD的RDNA 2 GPU與NVIDIA的Ampere GPU架構相比，具有卓越的內存延遲性能。在CPU方面，隨著多芯片die和同一die上的多個IO芯片的不斷使用，測量緩存和延遲性能已經成為一個關鍵的指針。GPU也是由多個緩存層次組成，填補了計算和內存性能之間的空白。

這次測試使用基於OpenCL的指針跟踪基準測試來測量當前一代GPU（如NVIDIA Ampere和AMD RDNA 2體系結構）上的緩存和內存延遲性能。在基準測試中，AMD Radeon RX 6800 XT（RDNA 2 GPU）與NVIDIA GeForce RTX 3090（Ampere GPU）進行了對決。緩存和內存基準測試顯示，AMD的RDNA 2架構表現遠好於NVIDIA的Ampere GPU，儘管在去往內存的路上要多檢查兩級緩存，但延遲時間更低。使用Infinity緩存只比L2命中增加了20ns，仍然比NVIDIA的Ampere快。

NVIDIA Ampere GA102 GPU體積大了很多，使用了比較傳統的GPU內存子系統，只有兩級緩存，但卻要耗費大量的周期，導致延遲（L1到L2）超過100ns。而RDNA 2的延遲則只有66ns。需要注意的是，AMD Navi 21 GPU的體積更小，只有4 MB的二級緩存，而NVIDIA GA102 GPU的整個芯片有6 MB的二級緩存。NVIDIA A100 Ampere GPU for HPC則擁有龐大的40 MB二級緩存。

RDNA 2的緩存速度很快，而且數量很多。與Ampere相比，各級別的延遲都很低。Infinity Cache只比L2命中增加了20ns左右，延遲比Ampere的L2還低。令人驚奇的是，RDNA 2的VRAM延遲與Ampere差不多，儘管RDNA 2在通往內存的路上多檢查了兩級緩存。相比之下，Nvidia堅持使用更傳統的GPU內存子系統，只有兩級緩存，L2延遲很高。從Ampere的SM-private L1到L2緩存需要超過100 ns。RDNA的L2與L0的距離約為66ns，即使它們之間有L1緩存。繞過GA102龐大的die似乎需要很多周期。

這可以解釋AMD在較低分辨率下的優異性能。RDNA 2的低延遲L2和L3緩存可能會在較小的工作負載下給它帶來優勢，相比之下，Nvidia的Ampere芯片需要更多的並行任務才能大放異彩。與舊的Pascal和Maxwell芯片相比，Ampere架構在更大的GPU上帶來了高度改善的延遲速度。另一方面，AMD在與舊的基於GCN和VLIW架構的芯片相比，也有一些令人印象深刻的進步。一旦新一輪基於芯片的GPU在未來幾年登陸游戲領域，這些數據的比較肯定會很有趣。