7nm安培GPU詳解：400W功耗、40GB HBM2、826mm2怪獸出爐

等了很久，今晚NVIDIA正式發布了7nm安培GPU，號稱是8代GPU史上最大的性能飛躍。不過官方並沒有公佈安培GPU的技術細節，Anandtech網站倒是給出了一份詳細的介紹。

這次的GTC 2020大會演講中，NVIDIA CEO黃仁勳主要談的就是HPC計算、AI人工智能等方面的內容，目前推出的A100大核心也是針對這個領域的，與之相比的是3年前發布的Volta架構V100核心，很多東西跟RTX 3080 Ti遊戲卡會不一樣，大家不用糾結。

首先來說大方面的，V100核心使用的是12nm Volta架構，211億晶體管，核心面積815mm2，而A100核心是台積電7N工藝，應該也是定製版的7nm工藝，826mm2，542億晶體管，同樣是核彈級別的。

V100核心擁有80組SM單元，5120個CUDA核心，SXM2/3架構，而A100核心是108組SM單元，SXM4架構，6912個CUDA核心。

AI方面是變化最大的，相比Volta架構的640個Tensor Core，A100核心的Tensor Core減少到了432個，但是性能大幅增強，支持全新的TF32運算，浮點性能156TFLOPS，同時INT8浮點性能624TOPS， FP16性能312TFLOPS。

常規的FP32、FP64性能提升倒是不算明顯，從V100核心的15.7.、7.8TFLOPS提升到了19.5、9.7TFLOPS。

頻率方面，A100核心實際上還倒退了，從V100的1530MHz降低到了1.41GHz左右，畢竟核心規模實在太大，功耗已經飆到了400W，比V100的300/350W功耗高出不少。

顯存方面，A100配備的也是HBM2顯存，頻率從1.75Gbps提升到了2.4Gbps，位寬5120bit，相比V100的4096bit增加了1024bit，容量也從16/32GB增加到了40GB。

不過HBM2的配置略顯奇怪，增加1024bit理論上應該多1組HBM2，但從核心圖上看又是6組HBM2顯存，或許是2組512bit的？保不准以後還會有完整版A100核心。

不過HBM2顯存位寬、頻率雙雙提升的後果就是，A100核心寸帶寬達到了1.6TB/s，遠高於V100的900GB/s，比AMD的Radeon VII顯卡的1TB/s帶寬還要高。

最後，NVLink技術也升級到了3.0版，帶寬從300GB/s提升到了600GB/s，適合服務器領域多卡互聯，不過未來應該還會有PCIe版的。

WONGCW 網誌