NVIDIA發布新一代H100 GPU核心：4nm工藝、1.8萬核心、700W功耗

2022-03-23 Comments 0 Comment

黃仁勳終於公佈了NVIDIA新一代架構與核心，當然這次是面向HPC高性能計算、AI人工智能的“Hopper”，對應核心編號“GH100”，同時發布的還有基於新核心的加速計算卡“H100”、AI計算系統“DGX H100”。

與傳聞不同，GH100核心採用的其實是台積電目前最先進的4nm工藝，而且是定製版，CoWoS 2.5D晶圓級封裝，單芯片設計，集成多達800億個晶體管，號稱世界上最先進的芯片。

官方沒有公佈核心數，但已經被挖掘出來，和此前傳聞一直。

完整版有8組GPC(圖形處理器集群)、72組TPC(紋理處理器集群)、144組SM(流式多處理器單元)，而每組SM有128個FP32 CUDA核心，總計18432個。

顯存支持六顆HBM3或者HBM2e，控制器是12組512-bit，總計位寬6144-bit。

Tensor張量核心來到第四代，共有576個，另有60MB二級緩存。

擴展互連支持PCIe 5.0、NVLink第四代，後者帶寬提升至900GB/s，七倍於PCIe 5.0，相比A100也多了一半。整卡對外總帶寬4.9TB/s。

性能方面，FP64/FP32 60TFlops(每秒60萬億次)，FP16 2000TFlops(每秒2000萬億次)，TF32 1000TFlops(每秒1000萬億次)，都三倍於A100，FP8 4000TFlops(每秒4000萬億次)，六倍於A100。

H100計算卡採用SXM、PCIe 5.0兩種形態，其中後者功耗高達史無前例的700W，相比A100多了整整300W。

按慣例也不是滿血，GPC雖然還是8組，但只開啟了66組TPC(魅族GPC屏蔽一組TPC)、132組SM，總計有16896個CUDA核心、528個Tensor核心、50MB二級緩存。

顯存只用了五顆，最新一代HBM3，容量80GB，位寬5120-bit，帶寬高達3TB/s，相比A100多了一半。

DGX H100系統集成八顆H100芯片、搭配兩顆PCIe 5.0 CPU處理器(Intel Sapphire Rapids四代可擴展至器?)，擁有總計6400億個晶體管、640GB HBM3顯存、24TB/s顯存帶寬。

性能方面，AI算力32PFlops(每秒3.2億億次)，浮點算力FP64 480TFlops(每秒480萬億次)，FP16 1.6PFlops(每秒1.6千萬億次)，FP8 3.2PFlops(每秒3.2千億次)，分別是上代DGX A100的3倍、3倍、6倍，而且新增支持網絡內計算，性能3.6TFlops。

同時配備Connect TX-7網絡互連芯片，台積電7nm工藝，800億個晶體管，400G GPUDirect吞吐量，400G加密加速，4.05億/秒信息率。