NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
在當前的顯卡市場上,佔據80%的NVIDIA公司被玩家愛且恨著——他們帶來了最近十多年來最好的顯卡,同時也讓高端遊戲卡的價格高企,發燒顯卡至少五位數起。在RTX 30系列顯卡發布之後,玩家的不滿似乎釋然了,相比當前的圖靈顯卡,安培架構的RTX 3090/3080/3070顯卡一下子變得真香了,因為它們性能翻倍不說,國內價格反而下降了。
· GeForce RTX 3090:取代RTX Titan,相比於Titan RTX快了50%,性能是RTX 2080 Ti顯卡的2倍,配備24GB GDDR6X顯存,售價11999元,9月24日上市。
· GeForce RTX 3080:取代RTX 2080 Ti,相比於RTX 2080性能快2倍,搭配10GB GDDR6X顯存,海外699美元沒變,國內從上代6499降至5499元,9月17日上市。
· GeForce RTX 3070:價格不到RTX 2080 Ti的一半,但是平均性能更高,同時比RTX 2070快足足60%,配備8GB GDDR6顯存,售價3899元,10月份上市。
RTX 30系列顯卡售價及上市時間
RTX 30系列顯卡性能變化
RTX 30系列顯卡規格
從這個規格表中可以看出,與RTX 2080 Ti顯卡相比,RTX 3090的標誌性FP32性能從13.4T提升到了35.7T,翻倍還多,光追及AI加速提升也同樣明顯。
與圖靈顯卡相比,安培GPU的變化之大讓人驚訝,在過去十多年的顯卡升級換代中,性能翻倍的提升很少見到了,NVIDA是怎麼做到的?
今天我們就來從詳細解讀一下安培GPU的架構,探究它到底帶來了哪些技術升級以致於讓NVIDIA創始人黃仁勳稱之為有史以來性能提升最大的一次。
先從工藝說起:12nm幹掉7nm之後8nm如何再進一步
對於半導體芯片來說,很關鍵的一部分是製程工藝,先進的架構也要通過工藝來實現,這是影響芯片能效、性能甚至成本的一大因素。
對NVIDIA來說,他們的Volta伏特、Turing圖靈兩代架構都是台積電12nm FFN工藝了,這是台積電16nm工藝的改進版,如果再算上16nm的Pascal架構,實際上過去三代GPU都沒有重大工藝上的升級了。
在Ampere安培架構上,NVIDIA終於升級工藝了,只不過這次有兩個意外——首先沒有選擇台積電,其次沒有上7nm,而是三星定制的8nm工藝,雖然跟7nm看起來只差了1nm,但實際上是兩代工藝。
考慮到NVIDIA之前對工藝的表態,沒用7nm工藝而是三星8nm工藝又在意料之中,最關鍵的問題在於NVIDIA能夠做到多好。
三星的8nm工藝是基於10nm工藝改良的,至少有LPP和LPU兩個版本,前者適合移動SoC,後者適合高性能芯片,NVIDIA的定制大概是基於後者。
與台積電的7nm工藝晶體管密度大約1億/mm2相比,8nm工藝大概是6000萬晶體管/mm2,但這是單一的SRAM芯片的對比,實際上GPU芯片比較複雜,差距會縮小很多。
根據是NVIDIA公佈的信息,台積電7nm工藝製造的安培A100核心是540億晶體管,核心面積826mm2,而三星8nm工藝製造的GA102核心是280億晶體管,核心面積官方沒公佈,據悉是628mm2,也是大核心了。
這麼算下來,7nm A100核心的晶體管密度6560萬晶體管/mm2,而三星8nm的GA102核心也有4460萬晶體管/mm2——差距仍在,但似乎可以接受了。
三星8nm工藝的晶圓代工價格還是秘密,但是不論技術還是商業策略上,三星都會比台積電便宜很多,預計代工價格能差30%或者更高,所以這也是RTX 30系列顯卡能夠不漲價甚至降價的關鍵。
那三星8nm工藝帶來了多大的性能及能效提升呢?首先大家可以看到RTX 30系列顯卡的頻率提升了,從RTX 20系列的1.5GHz+提升到了1.7GHz+,升級工藝還是有性能提升的。
不過RTX 20系列的加速頻率實際可以達到1.9GHz甚至接近2GHz,RTX 30系列預計也就這個水平。
但是能效還是有提升的,NVIDIA官方稱在60fps性能下,圖靈顯卡的功耗大約有240W,安培顯卡則是120W多點,算下來是1.9倍能效,提升了90%,同時溫度還低了3度,噪音減少2分貝。
總的來說,在工藝這方面大家對安培GPU有驚喜有失望,失望的是沒有上預期中的7nm工藝(不管台積電還是三星),工藝依然升級到了8nm。
但是NVIDIA工藝雖然並不算激進,但性能、能效進步還是挺大的,安培顯卡各方面指標都是大幅勝過現在的圖靈卡,而且價格做到了不升反降,這也是不追求激進工藝的好處,反正之前12nm都能贏,現在上8nm更加穩妥了。
安培GPU架構詳解之:FP32單元翻倍CUDA核心改了什麼?
發布安培的時候,NVIDIA CEO黃仁勳表示這是GPU有史以來最大的性能飛躍,而2018年推出圖靈GPU時,老黃也是類似的說詞——GPU有史以來最大的變革,這兩個評價其實也沒錯。
圖靈GPU架構有很多第一次,首次支持RTX Core(光追加速單元),首次支持Tensor Core,同時還改進了CUDA內核,不過前兩個是重點。
在安培GPU上,RT Core、Tensor Core當然繼續加強,不過最主要的亮點是CUDA架構的改進,性能翻倍的根源就在這裡,我們先來看看這方面的變化。
GA102核心架構示意圖
GA102核心總計7組GPC單元,每組有12組SM單元,總計84組,RTX 30系列顯卡視乎規格不同啟用的SM單元總數不同,RTX 3090是82組,RTX 3080是68組,RTX 3070是46組。
在之前的GA100大核心中,每組SM是64個INT32單元、64個FP32單元及32個FP64單元組成的,但在GA102核心中,FP64單元大幅減少,增加了RT Core,Tensor Core也略微減少。
GA102核心的SM單元
按照之前圖靈GPU的路線走,安培GPU的SM單元增加的並不多,但實際上FP32性能翻倍了還多,算上頻率,RTX 3080的理論性能差不多是RTX 2080的三倍了,這是怎麼做到的?
答案就是CUDA核心的FP32翻倍,但翻倍的方式有點特殊,每個SM單元中有4個分區,每個分區除了第三代Tensor Core核心之外,還有一組是16個FP32單元及16個FP32、16個IN32組成的單元,後者可以同時執行FP32或者INT32運算。
16個FP32單元每週期可執行16個FP32運算,混合的那個單元可以執行32個FP32或者16個FP32+16個INT32。
如此一來,每個SM單元可以同時執行4x(16FP32+16FP32)=128個FP32運算,或者4x(16FP32+16INT32)=64個FP32+64個INT32運算。
只算FP32浮點的話,那麼就是浮點翻倍了,因為圖靈以及GA100都是每週期64個FP32浮點而已,現在可以做128個FP32運算了。
提升FP32性能不論對遊戲還是運算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1帶寬從116GB/s翻倍到219GB/s,共享內存的性能也從每週期64B翻倍到128B。
安培GPU架構詳解之:RTX光追升級從能用到好用
上代的圖靈GPU架構最大的亮點就是引入了RTX實時光追技術,開啟了3D遊戲的光追時代,意義重大。
但是先行者的代價也不小,而且圖靈GPU的光追效果在實際遊戲中並不明顯,對性能的影響頗大,第一代RTX光追只能說解決了有無問題,現在的安培GPU才是RTX光追更好用。
在圖靈GPU上,NVIDIA使用的第一代RT Core可以提供10Giga Rays/s的性能,而在安培GPU上,RT Core升級到了第二代,號稱性能翻倍,僅此一點就可以大幅提升光追性能了。
圖靈GPU光追架構
安培GPU光追
不過這還不夠,在安培GPU上,參與光追應用加速的不只是SM單元、RT單元了,第三代Tensor Core單元也更多的參與其中,而安培架構中SM、RT、Tensor單元的性能都是大幅提升的,以RTX 3080為例,SM單元性能11T提升到了30T,RT性能從上代34T提升到了58T,Tensor性能從89暴漲到238T.
這帶來的一個結果就是光追性能大幅提升,不支持硬件加速的Pascal GPU渲染一幀要51ms,圖靈可以提升到19ms,加上DLSS等可以縮短到13ms,已經大大低於60fps所需的16.6ms幀時間了。
在安培GPU上,時間還可以更快,單純硬件加速就可以從13ms縮短到7.5ms,加上第二代技術的加成就只有6.7ms了。
總之,在RT光追性能上,不說沒有硬件加速的Pascal顯卡,對比RTX 2080到RTX 3080的變化,軟件渲染的性能提升了40%,硬件加速的話提升70%,硬件加速+DLSS也提升了70%,再加上其他技術的輔助,最高可以提升90%的光追性能。
目前還沒有實際評測解禁,具體遊戲中的提升還不好說,但是刨去官方測試的理想狀態,光追性能提升個50%應該無壓力,這足以讓當前的光追遊戲更具實用性,不再是開了RTX性能就大幅下降的情況了。
至於我們可以預期,以前1080p 30fps運行的光追遊戲在今年可以實現1080p 60或者2K 144流暢運行了,可用性至少提高一個等級,從湊合能用變得更好用了。
安培GPU架構詳解之:第三代Tensor Core、8K遊戲成為可能
Tensor Core是伏特GPU引入的一種新核心,現在也是SM單元的三大子核心之一,不過在數據中心GPU上,AI加速功能非常重要,所以A100大核心的Tensor Core佔據了相當大的面積,功能及性能都改進不少。
在GA102核心中,Tensor Core也是第三代架構的,但是跟GA100核心的還是有所不同,每組SM單元也是4個Tensor Core,但是性能減半。
但在遊戲GPU上,Tensor Core的意義沒那麼大了,NVIDIA官方的應用中DLSS算是發揮AI加速比較好的,可以進一步提升遊戲性能,這一次雖然還是DLSS 2.0,但是配合RTX 3090顯卡強大的性能,8K DLSS遊戲成為可能。
8K遊戲的分辨率是4K的4倍了,是1080p的16倍,光是高分辨率帶來的挑戰就足以讓當前的高端硬件吃不消了,但在DLSS的加持下,RTX 3090在多款主流遊戲中可以實現60fps以上的性能,最高可以超過100fps,可玩性已經不是問題。
這大概就是Tensor Core對遊戲的重要意義,不過我們得說8K現在還比較遙遠,性能跟上了硬件設備也跟不上,現在能玩好4K就差不多了。
安培GPU架構詳解之:升級GDDR6X顯存帶寬堪比HBM2
除了GPU本體之外,顯存技術這一代也升級了,上代的圖靈GPU首發了GDDR6顯存,這一次NVIDIA又迅速商業化了GDDR6X顯存,其中RTX 3090不僅頻率飆上了19.5Gbps,還達到了24GB超大容量。
GDDR6X基於目前的GDDR6升級而來,基本架構和技術保持不變,重點加入了PAM4信令機制,在處理器和內存之間,使用四檔電壓,每個週期內編碼和傳輸兩個比特位。
對於PAM4機制,大家可以理解為閃存從SLC到MLC的升級,每週期傳輸的數據量可以翻倍,因此實現了超高速率的等效頻率,起步就可以做到21Gbps,NVIDIA目前使用的略微保守,RTX 3090是19.2Gbps,RTX 3080是18Gbps。
使用GDDR6X顯存之後,在等效帶寬提升50%的情況下,能效也提升了,每bit功耗降低了15%。
但是想像一下,如今GDD6X就可以實現HBM2顯存的1TB/s帶寬,但又不需要後者那麼複雜的工藝和成本,在消費級顯卡上真的可以不需要考慮HBM2了。
安培GPU架構詳解之:視頻解碼、接口、PCIe 4.0
在安培GPU上,還有一些其他技術升級,這裡簡單說一下吧:
·AV1視頻解碼升級支持8K
8K是NVIDIA這次升級的一個重要,除了遊戲性能可以支持8K之外,接口及解碼上也做了準備。
首先,安培GPU更新的NVDEC首次實現了AV1的8K 60p解碼支持,這個編碼比H264能夠節省大量帶寬,但CPU軟解的話,9900K這樣的CPU佔用率也要達到85%,而安培GPU的NVDEC硬解佔有率只有4%,同時幀速能從28fps達到60fps,流暢度也提升了。
·首發HDMI 2.1接口、8K輸出
輸出接口方面,除了3個DP1.4a接口之外,這次首發了HDMI 2.1接口,支持4屏輸出,48Gbps的新接口可以實現8K 60Hz HDR支持,適合搭配新一代顯示器。
·支持PCIe 4.0 不用擔心性能損失
RTX 30系列顯卡還支持了PCIe 4.0,這也是大勢所趨了,不過PCIe 4.0的問題在於只有AMD的X570平台才能完整支持,Intel的桌面平台還沒支持的,有些尷尬。
玩家可以考慮搭配AMD的銳龍平台,但也不必為了PCIe 4.0強行搭配,NVIDIA表示PCIe 4.0降回PCIe 3.0對性能影響有限,只有幾個百分點,還不如CPU的影響大,言外之意就是該用酷睿i9 -9900K或者酷睿i9-10900K的繼續。
遊戲工具升級:Reflex、Broadcast、Omniverse Machinima
這幾年中NVIDIA在顯卡市場份額不斷提升,不僅僅跟顯卡的性能、功耗有關,他們在軟件及體驗上也著墨不少,GFE中集成了多個備受遊戲玩家歡迎的工具,比如Ansel 、Highlights等等。
在安培顯卡上,NVIDIA這次又帶來了三項新功能,包括降低延遲的NVIDIA Reflex、AI加速的直播NVIDIA Broadcast以及NVIDIA Omniverse Machinima。
·NVIDIA Reflex:延遲再降50%
遊戲玩家,特別是網絡遊戲對延遲很敏感,這個延遲不僅僅跟網絡、顯卡性能有關,還跟系統有關,包括鍵鼠的輸入延遲等。
NVIDIA Reflex就是一款可以降低延遲的工具,在支持該技術的遊戲中,如《Apex英雄》、《使命召喚:戰區》、《堡壘之夜》、《VALORANT》等熱門電競遊戲,可將延遲降低50%。
此外,NVIDIA Reflex未來還會有個Reflex延遲分析器(Reflex Latency Analyzer),它可監測鼠標點擊,並測量屏幕上相應像素變化所需的時間,比如槍焰閃光,效果堪比超過7000美元的專用高速攝像機和設備。
·NVIDIA Broadcast:遊戲主播的好幫手
如今遊戲跟直播息息相關,NVIDIA Broadcast軟件可以讓遊戲主播更加輕鬆省力,它通過顯卡的AI加速實現了多種功能,比如噪音消除、虛擬背景、自動框顯,從而提升麥克風和網絡攝像頭的效果。
·NVIDIA Omniverse Machinima:自己拍大片
Omniverse Machinima一款引擎電影工具,它可以讓玩家利用遊戲中的資源自己拍電影,精確地模擬光線、實物、材料和人工智能,並且可以適用於大部分第三方設計工具,如3DS、Max、Maya 、Photoshop、Epic Unreal和Rhino等,最終使用RTX系列顯卡渲染出電影級的效果。它也是遊戲開發商製作遊戲CG的利器,顯著簡化製作遊戲過場動畫的流程。
One More Thing:RTX IO或許是下一個規則改變者
有關NVIDIA的安培GPU架構及技術上的介紹差不多了,不過最後這一點留給一個看似不起眼但有可能改變遊戲體驗的新技術——RTX IO,它可以讓SSD硬盤實現遊戲近乎實時加載的體驗。
SSD硬盤現在差不多普及了,它超快的性能也讓遊戲玩家受益不少,遊戲加載速度大幅提升,不過這還沒到頭,隨著遊戲容量越來大,數據讀取越來越頻繁,SSD的性能並不能完美髮揮出來。
導致這一問題的根源就在於傳統的IO設計,經過壓縮的遊戲數據需要經過硬盤、主控、PCIe、CPU、GPU及各自的內存系統,過程比較繁瑣,存在瓶頸可能。
有了RTX IO之後,遊戲數據就不需要經過CPU和內存了,直接讓GPU讀取,並且支持無損解壓縮,使得CPU佔用率低了20倍,吞吐量提升了100倍。
最終帶來的好處就是遊戲加載速度大幅提升,如上圖所示,不說HD硬盤的38秒加載時間,PCIe 4.0硬盤加速也要5秒,但RTX IO技術只要1.5秒即可。
1秒多的時間在感覺上差不多就是實時加載了,一眨眼的功夫就完成了切換,遊戲中地圖或者場景切換極為迅捷。
NVIDIA的RTX IO技術其實跟新一代主機中的技術差不多,但支持更多的壓縮格式,同時在解壓縮上也更有效率。它也支持微軟的DirectStorage,後者預計也會在2021年登陸Windows 10平台,讓主機及PC都能享受到這一技術。