英偉達H800/A800禁售,30天生效美晶片禁令升級後僅剩V100可用?
就在剛剛,美國再次收緊對我國出口尖端AI晶片,英偉達A100、A800、H100、H800等無一倖免。當地時間10月17日,美國正式發布新規,全面收緊尖端AI晶片對華出口。商務部長雷蒙多表示,管制目的就是遏制中國取得先進晶片,阻礙「人工智慧和複雜電腦領域的突破」。
自此,英偉達和其他晶片製造商向我國銷售高性能半導體,受到的限制愈加嚴重,而相關公司想找到繞過限制的方法,也愈加艱難。
根據相關文件,GPU晶片只要滿足下列條件的其中一個,就會受到出口限制—
來源:中信證券
據稱,英偉達在資料中心晶片方面的收入,有多達25%都依賴中國市場。
此外,作為新規的一部分,晶片設計公司摩爾線程和壁仞科技,也被拉入了最新的黑名單中。
30天內,立即生效!
根據美國商務部下發的文件,禁令將在30天內生效。
同時,雷蒙多也表示,以後法規可能會至少每年更新一次。
文件連結:https://www.bis.doc.gov/index.php/about-bis/newsroom/2082
總算力低於300 TFLOPS,每平方毫米370 GFLOPS以下
在去年的禁令中,美國曾禁止出口超過2個閾值的晶片:一個是晶片所含算力的大小,另一個是晶片之間相互通訊的速率。
之所以做如此規定,是因為AI系統需要在同一時間將成千上萬的晶片串聯在一起,處理大量資料。
而英偉達特供版的晶片H800/A800做到了保持在通訊限制之下,同時仍能訓練AI模型,因為它們保留了強大的運算能力。
先前,路透社報道稱,英偉達H800晶片間資料的傳輸速度為每秒400 GB/s,不到H100峰值速度(每秒900 GB/s)的一半。
這次,美國官員表示,新規將更專注於算力,這可以控制更多晶片,包括英偉達的特供版。
算力方面,美商務部這次取消了“頻寬參數”,取而代之的是“性能密度”。
根據新規,修改後的出口管制禁止向中國公司出售運行速度為300 TFLOPS(一兆運算/秒)及以上的資料中心晶片。
如果速度為150-300 TFLOPS的晶片的「性能密度」為每平方毫米370 GFLOPS(十億次運算/秒)或更高,則將被禁止銷售。
以上述速度運行,但性能密度較低的晶片屬於“灰色地帶”,這意味著必須向美政府通報對中國的銷售情況。
雖然這些規則不適用「消費性產品」的晶片,但美商務部表示,出口商在出口速度超過300 TFLOPS的晶片時也必須上報,以便當局可以追蹤這些晶片是否被大量用於訓練AI模型。
根據新規,受影響的英偉達晶片包括但不限於A100、A800、H100、H800、L40和L40S,甚至連RTX 4090也需要額外的許可要求。
現在剩下的,似乎只有英偉達V100了。根據此晶片參數,晶片相互通訊速率是300 GB/s,運轉速度最大為125 TFLOPS。
此外,任何整合了一個或多個所涵蓋積體電路的系統(包括但不限於DGX和HGX系統)也在新許可要求的涵蓋範圍之內。
不過,英偉達預計,短期內美國最新限令不會有重大影響。
堵住Chiplet漏洞
美國這次試圖解決的另一個問題,就是Chiplet。透過這種技術,晶片的較小部分可以連接在一起,形成一個完整晶片。
美國擔心中國公司透過Chiplet取得符合規定的小晶片,然後再秘密組裝成更大的晶片。
這次新規增加了「性能密度」的限制,對晶片在一定尺寸中的運算能力加以限制,就是針對此類變通方法。
Chiplet方法,或許是中國半導體產業未來的核心。
中國GPU企業,通通列入黑名單
業內人士認為,如果美國晶片在中國被禁,中國公司會努力填補市場上的空白。
摩爾線程和壁仞科技都是由英偉達前員工創立的,被認為是中國生產英偉達晶片國產替代品的最佳候選者。
但現在,這兩家公司也被添加到了實體清單,這阻斷了台灣半導體公司或其他使用美國設備的製造商為它們製造晶片。
晶片工廠的危險訊號
美國表示,任何包含500億或更多電晶體、並使用高頻寬記憶體的晶片,都包含危險訊號。
出口商需要格外注意,是否需要許可證才能向中國出貨。
而這個門檻,幾乎涵蓋了所有先進的AI晶片,幫助晶片工廠發現規避規則的行為。
DUV微影機也受限
美國也將先進晶片的出口許可證要求增加到22個國家。
管制範圍也擴大到最終母公司總部設在上述國家的任何公司,以防止境外子公司購買違禁晶片。
美國也對其餘21個國家提出了晶片製造工具的許可要求,擔心這些設備可能被轉移到中國。
荷蘭的DUV光刻系統也受到了限制,以防止ASML向中國的晶片工廠運輸一些較舊的DUV型號和配件。
DUV設備比不上最先進的EUV設備,但它可以以更高的成本製造晶片。而EUV早已全面被禁。
大廠囤貨:10萬塊A800,今年交貨
對國內網路巨頭來說,現在手上還有多少存貨?
目前,這具體數額未知。不過,國內大廠剛剛發聲:我們囤得夠了。
前段時間,外媒FT曾報道稱,國內網路大廠競相訂購了價值約50億美元的英偉達晶片。
據介紹,百度、位元組、騰訊、阿里已經向英偉達下單A800,價值10億美元,共10萬塊晶片,將於今年交付。
另外,還有40億美元GPU訂單,也將於2024年交屋。
兩位內部人士透露,位元組已經儲備了至少1萬個英偉達GPU來支援各種生成式人工智慧產品。
他們補充道,該公司還訂購了近7萬個A800晶片,將於明年交付,價值約7億美元。
英偉達在一份聲明中表示,“消費者互聯網公司和雲端提供商,每年在數據中心組件上投資數十億美元,而且往往提前數月下單。”
今年早些時候,隨著全球生成式AI的不斷推進,據國內科技公司的內部人表示,大多數中國互聯網巨頭可用於訓練大型語言模型的晶片庫存不到幾千個。
自那以來,隨著需求的成長,這些晶片的成本也在成長。一位英偉達經銷商表示,「分銷商手中的A800價格上漲了50%以上」。
例如,阿里發布自家大模型通義千問後,並將其整合到各線產品中。
同時,百度也正在全力投入大模型的研發與應用中,文心一言不斷迭代升級,現能與GPT-4媲美。
騰訊雲今年4月,發布了一個全新的伺服器集群,其中就使用了英偉達H800。
另據2位人士透露,阿里雲也從英偉達獲得了數千個H800,而且許多客戶與阿里建立聯繫,希望使用這些晶片驅動的雲端服務,以推動自家模型的研發。
訓練大模型,用什麼晶片?
從年初至今,業界紛紛發展自家的大模型,通常對標的是「地表最強」GPT-4模型。
先前爆料稱,GPT-4採用的是MoE架構,由8個220B模型組成,參數量達1.76兆。
這項參數量已經讓許多人望塵莫及,對算力的消耗已經是最大極限。
具體來說,OpenAI訓練GPT-4的FLOPS約為2.15e25,在約25,000個A100上訓練了90到100天,利用率在32%到36%之間。
那麼,對於下一代模型,人們口中的“GPT-5”,對算力將有多大的需求?
此前,摩根士丹利曾表示,GPT-5將使用25000個GPU,自2月以來已經開始訓練,不過Sam Altman之後澄清了GPT-5尚未進行訓。
另根據馬斯克的說法,GPT-5可能需要30000-50000塊H100。
這意味著,如果科技大廠想要進一步推進大模型的迭代升級,還需要極大的算力支持。
對此,英偉達首席科學家Bill Dally曾表示:“隨著訓練需求每6到12個月翻一番,這一差距將隨著時間的推移而迅速擴大。”