精準縮水的NVIDIA三款中國特供AI GPU開始小批量供貨
美國對中國半導體技術的封鎖越來越嚴格,但是在商言商,NVIDIA始終沒有放棄中國市場,一直想盡辦法打造符合美國出口管制的中國特供版本,尤其是AI GPU,第二波三款正在到來。最早針對美國禁售A100、H100,NVIDIA設計了特別版A800、H800,只是閹割傳輸頻寬,算力絲毫不減。
但很快,美國推出新規,算力也做了限制,A800、H800甚至是RTX 4090就都沒辦法賣了。
為此,NVIDIA在遊戲卡市場設計了RTX 4090D,已經低調上市。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0202/6f72d9b7ab45ee0.jpg?w=640&ssl=1)
而在AI加速領域,NVIDIA設計了H20、L20、L2,原計畫2023年就發佈出貨,但為了完全符合出口管制,延後了一段時間。
H20基於Hopper架構,是一款高性能的AI訓練卡,正是中國客戶亟需的,根據最新報道它已經開始小批量供貨給中國,第二季度上量。
H20的定價據稱僅1.2-1.5萬美元,比華為昇騰910B 1.7萬美元要低不少,用心昭然若揭。
L20、L2皆基於Ada Lovelace架構,皆為AI推理卡,暫不清楚是否已經供貨,可能要稍等等,對於中國客戶而言也不是非常迫切的需要。
目前,三款新卡的最終規格已經確定,和先前曝光的基本一致。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0202/c0bdc32c1d6ce65.png?w=640&ssl=1)
H20的規格還是比較強的,INT8/FP8 Tensor算力為296T,BF16/FP16 Tensor算力為148T,TF32 Tensor算力為74T,FP32算力為44T,FP64算力為1T,功耗400W。
它具備60MB二級快取、96GB HBM3內存,頻寬4TB/s,支援7路NVDEC、7路NVJPEG視訊引擎,還有PCIe 5.0 x16系統介面、900GB/s NVLink互聯頻寬,支援最多7個MIG。
相較於H200,它少了45GB HBM3,算力更是閹割得七零八落,INT8/FP8、BF16/FP16、TF32都少了多達93%,FP64少了足足97%,只有FP32至少了35%。
但即便如此,H20 FP32效能仍不如華為昇騰910B,這也是後者最大的優勢。
H20還可以八卡並行,組成一套HGX伺服器,價格約20萬美元,而之前八塊H800伺服器需要大約28萬美元。
L20是雙插槽全高全長PCIe擴充卡,搭載96MB二級快取、48GB GDDR6 ECC內存,頻寬864GB/s,INT8/FP8算力為239T,更高精度逐級減半,但不支援FP64,功耗275W。
L2則是單插槽半高卡,只有36MB二級快取、24GB GDDR6 ECC,頻寬300GB/s,算力進一步降低INT8/FP8 193T,FP32額外砍了一半只有24.1T。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0202/e1875d43eabc2c4.png?w=640&ssl=1)