3兆晶片公司,也在夾縫求生?
英偉達又打算給中國市場出特供AI晶片了。根據路透社的最新報道,知情人士稱,英特爾正在為中國市場開發一款新旗艦AI 晶片,該晶片滿足當前美國出口管制的要求,國內英偉達特供晶片陣容中再添一員。
值得一提的是,英偉達在今年3月發布了「Blackwell」系列,預計將於今年晚些時候量產,根據英偉達的說法,B200 在某些任務上的速度比其前代產品快30 倍,以此成為目前最頂級的AI晶片之一。
這款新的特供旗艦晶片與B200也不無關係,消息人士稱,英偉達將與其在中國的主要分銷合作夥伴之一浪潮集團合作,推出和分銷這款暫定名為“B20”的芯片,從命名來看,其可能具備了B200的部分特性。
算上這款B20,在短短1年多時間裡,英偉達已經給中國市場推出七、八款特供晶片了。
A800和H800
2022年10 月7 日,美國政府宣布了一系列出口管制措施,其中包括切斷某些半導體晶片和晶片製造設備對中國的供應。
其中除了影響光刻機等生產設備外,也限制了中國取得先進製程下的高算力、人工智慧晶片,既包括禁止英偉達、AMD等美國公司向中國銷售此類晶片,也包括限制中國人工智慧晶片公司在美國技術下的海外Fab廠進行流片等。
在這一出口限制下,英偉達和AMD都受到了波及。
英偉達在限制出台後表示,該禁令影響了其旨在加速機器學習任務的A100 和H100 晶片,可能會妨礙2022年將發布的旗艦晶片H100 的開發完成。其指出,當季度受影響晶片在中國的銷售額已達4 億美元,如果中國公司決定不再購買英偉達的替代產品,那麼這筆錢就會白白流失。
那麼美國的出口限制具體是怎麼限制英偉達晶片的呢?
根據美國商務部2022年10月7日文件中對先進計算積體電路的出口限制規則(ECCN 3A090 和4A090),管制物品清單需要滿足以下的幾個條件:
a. 除揮發性記憶體外,所有輸入和輸出的總雙向傳輸速率達到或可編程達到600 GB/s 或以上的積體電路,以及下列任何一種積體電路:
a.1. 一個或多個執行機器指令的數位處理器單元,其每個操作的位長乘以以TOPS 為單位的處理性能,所有處理器單元的總和為4800 或以上;
a.2. 一個或多個數字”原始計算單元”(不包括協助執行與計算3A090.a.1 的TOPS 有關的機器指令的單元),其每次運算的位長乘以所有計算單元合計的TOPS 處理性能為4800 或以上;
a.3. 一個或多個模擬、多值或多級”原始計算單元”,其處理性能以TOPS 乘以8 計算,所有計算單元合計達到或超過4800;
a.4. 數位處理器單元及”原始計算單元”的任何組合,其按3A090.a.1、3A090.a.2及3A090.a.3計算的總和達4800或以上。
3A090.a.所述的積體電路包括圖形處理單元(GPU)、張量處理單元(TPU)、神經處理器、記憶體處理器、視覺處理器、文字處理器、協處理器/加速器、自適應處理器、現場可程式邏輯元件(FPLD)及專用積體電路(ASIC)。
不難看出,其中最重要的,就是對晶片互聯速度的限制,按照這一規定,英偉達當時熱賣的A100精準地落入了限制範圍內,它的晶片間傳輸速率達到了600GB/s,從某種程度上來看,或許美國商務部就是根據A100來指定這項限制措施的。
為了因應出口管制,英偉達以迅雷不及掩耳之勢,火速閹割出了一個A100的替代品-A800,美國禁令正式發布是在2022年10月7日,而一個月後,英偉達就拿出了適應新規的A800,可謂古有因地制宜,今有因策制宜。
根據規格,NVIDIA A800 將採用與Ampere A100 GPU 相同的晶片架構。它將提供三種版本,兩種PCIe 版本分別為40 GB 和80 GB,以及80 GB的SXM 版本,這些GPU 將提供高達9.7 TFLOP 的FP64、19.5 TFLOP 的FP64 Tensor Core、19.5 TFLOP 的FP32、156 TFL (稀疏性為312 TFLOP)TF32、312 TFLOP(稀疏性為624 TFLOP)BFLOAT16 和624 TOPS(稀疏性為1248 TOP)INT8 性能。 40 GB 版本具有高達1.555 TB/s 頻寬的HBM2 內存,而80 GB 版本具有高達2 TB/s 頻寬的HBM2e。
當然頻寬上為了滿足限制需求,無可避免地挨了一刀,從原來的600GB/s砍到了400GB/s,英偉達發言人在給路透社的一份聲明中表示:「A800 GPU 在第三季度投入生產,是中國客戶可替代A100 GPU 的另一種產品,A800 符合美國政府關於減少出口管制的明確測試,並且無法通過編程超越該標準。
CCS Insight 分析師Wayne Lam評論道:“A800 看起來是重新包裝的A100 GPU,旨在避開近期商務部的貿易限制”,同時他指出8 在中國是一個幸運數字。
「中國是英偉達的一個重要市場,重新配置產品以避免貿易限制具有充分的商業意義,」Lam 表示,他表示,對於使用數千個晶片的資料中心來說,A800 的晶片間通訊能力明顯下降。
在隨後的H100上面,英偉達如法炮製,搞出了H800。在A100 上,英偉達NVIDIA 將GPU 的600 GB/s互連降至400 GB/s,其對H100 採取了相同的做法。據透露,H800 的晶片互聯速率降低到H100 的一半左右,也就是從800 GB/s降低到400 GB/s。與A800 相比,H800效能的影響更大,畢竟前者只是降低33%,後者降低了整整50%。
在當時,英偉達發言人拒絕透露針對中國市場的H800 與H100 有何不同,只是說「我們的800 系列產品完全符合出口管制規定」。
在海外廠商瘋狂採購A100和H100的時候,國內廠商只能選擇配置更低的H800和A800,英偉達的特供版晶片一定程度上限制了國內AI大模型的發展。
H20和RTX 4090D
對於國內公司來說,A800和H800有好有壞,壞的是在割了一刀互聯頻寬後,這兩塊晶片的性能表現差了一點,訓練速度也變慢了不少,好的是它們都可以透過旅程通路訂購,只是相較於國外公司,在晶片上花費的成本會更高一些。
但A800和H800也沒活過一年。 2023年10月17日,美國商務部發布了新的管制規則,對2022 年10 月7 日發布的針對先進計算積體電路、半導體製造設備以及支援超級計算應用和最終用途的物品的出口管制進行了補充更新。
其中最主要的部分是控制參數的變化,暫行最終規則刪除了「互連頻寬」作為ECCN 3A090 下識別受限晶片的參數,而是改為如果晶片超過ECCN 3A090 中標定的兩個參數(3A090. a和3A090.b)之一,出口就會受到限制。
根據美國商務部的文件,修訂後的3A090.a 管制參數將管制具有一個或多個數位處理單元的積體電路,而這些單元的“總處理性能”需要在4800 或以上,或“總處理性能”為1600 或以上,而「性能密度」為5.92 或以上。新的ECCN 3A090.b 將管制具有一個或多個數位處理單元的積體電路,這些單元必須具備以下條件之一:「總處理性能」為2400 或2400 以上但小於4800,「性能密度」為1.6 或1.6 以上但小於5.92,或「總處理性能」為1600 或1600 以上,「性能密度」為3.2 或3.2 以上但小於5.92。
此外,規則還設定了一個許可例外情況,其為人工智慧功能低於限制閾值的消費級IC 創建了新的“許可例外通知高級計算”,該例外適用於兩種產品,一種是設計或銷售用於資料中心的晶片,第二種是並非為資料中心使用而設計或銷售的晶片,其「總處理性能」為4800 或更高。
與2022年10 月7 日的規則相比,新規則再一次擴大了管制範圍,在總處理性能和性能密度的雙重規則之下,不管是沒閹割的還是閹割了的,統統被納入到了出口管制範圍,A800和H800受當其衝,而英偉達其他產品也受到了影響,面向推理市場的L40、L40S,以及消費領域的RTX 4090也被納入了禁售範圍。
這對英偉達來說是一記重創,意味著當時英偉達在售的主流產品,都因出口管製而不能在中國銷售,要知道在往年,來自中國市場的數據中心業務收入貢約佔英偉達整體營收的20%至25%,而在2024財年第四季度,由於一紙出口管制,中國市場營收暴跌至個位數。
無奈的英偉達只能再揮起砍刀。
2023年11月16日,也就是新規則發布一個月後,英偉達又推出了特供中國市場的GPU晶片——H20、L20、L2,H20基於英偉達的Hopper架構,而L20和L2基於Ada架構。
其中L20和L2這兩塊晶片分別基於L40和L4進行了調整,由於是舊架構,外加推理和訓練中並不常用,並沒有受到太多關注。而H20就比較有趣了,儘管由於新規不再限制互聯速度,其獲得了900GB/s滿血NVLink,但性能卻要打一個大大的折扣,據分析師Dylan Petal的意見,即使H20的實際利用率能達到90%,其在實際多卡互聯環境中的效能仍只能接近H100的50%。
而針對消費市場的RTX 4090,英偉達在去年12月也推出了平替——RTX 4090D,這款符合美國出口管制的特供晶片在CUDA 內核和功耗兩個方面進行了閹割,CUDA 內核減少了12.8%,功耗也從450W 減少到425W,降低了5.9%,所有其他核心規格都保持不變。
由於主頻的略微提升,在一些基準測試中,4090D的性能僅比4090低了5%左右,對比AI晶片,這樣的差距似乎還在可接受範圍內。
2023年底這一連四款特供晶片,一定程度上緩解了英偉達中國的尷尬,讓它不至於陷入無貨可賣的境地,但兩輪限制之後,大型企業和中小型公司,都開始另謀出路,要嘛買國內晶片,要嘛在海外組成伺服器,要嘛,透過非官方管道買H100/200和A100,無奈在國內廠商中蔓延。
老黃的刀法
熟悉遊戲GPU的DIY玩家,對老黃的刀法不會感到太陌生。
拿比較近的例子來說,在RTX 20系列發布一年後,為了更好地區分產品線,同時應對隔壁AMD的RX5000系列的新品上市,英偉達推出了RTX 20 Super系列。
雖然同樣是基於TU106和TU104核心,但英偉達卻用這兩顆核心割出了五款顯示卡,分別是RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super和RTX 2080,其中差距最小的就是同為TU106核心的RTX 2060 Super和RTX 2070,這兩者理論上的性能差距只有5%左右,實際跑分和遊戲測試也非常接近,可以說英偉達把閹割這件事玩到了極致。
如今英偉達修修改改拿出來的中國特供版晶片,也不過是舊事重演,重操舊業罷了。
除了我們在開頭就提到的B20,英偉達接下來還打算在消費市場一展刀法,據爆料,RTX 5090的縮水版RTX 5090D 預計將於2025 年1 月推出,預計將基於NVIDIA 的Blackwell 架構,採用台積電的4NP 工藝,或在核心規格上有所縮減,從而規避美國的出口限制。
算上這兩塊傳聞中的晶片,英偉達在中國已經有一個龐大的特供陣容:A800、H800、H20、L20、L2、RTX 4090D、B20、RTX 5090D,
有人對這些特供版晶片前景頗為看好,研究機構SemiAnalysis 估計,英偉達今年預計在中國銷售超過100 萬塊H20 晶片,價值超過120 億美元。
但英偉達要擔心的事還有很多。根據Jeffries分析師的報告,當美國在10月份對半導體出口管制進行年度審查時,「很有可能」禁止英偉達的H20 晶片向中國銷售,該分析師表示,禁令可能透過「特定產品禁令、降低運算能力上限和/或限制記憶容量」來實施。
此外,像H20這樣人為製造出來的合規卡,本質上是基於既有核心的閹割,B20也是如此,原本可以用來做H200和B200的核心,現在只能拿來賣更便宜的特供版,而且銷售壽命很可能只有一年多,怎麼看都是一筆虧本買賣。
但英偉達別無退路,規則和市場這座天平,它只能竭盡所能來配平,只不過中國還有多少企業願意為割了又割的特供版晶片掏錢呢?