成就DeepSeek奇蹟的晶片為英偉達敲響警鐘
過去兩週,DeepSeek已經成為了全球的熱點。尤其是在西方世界,這個來自於中國的生成式人工智慧系統引發了廣泛討論。在發布的前18天內,DeepSeek便實現了驚人的1600萬次下載,這一數字幾乎是競爭對手OpenAI的ChatGPT在同期下載量的兩倍,充分展示了其強大的市場吸引力和用戶基礎。
根據市場分析公司Appfigures的權威數據,DeepSeek的應用程式於1月26日首次登頂蘋果App Store,並自此持續保持其全球領先的霸主地位。數據統計顯示,自今年初發布以來,迅速攀升至140個國家的蘋果App Store下載排行榜首位,並在美國的Android Play Store中同樣佔據榜首位置。
作為一個中國的AI大模型,DeepSeek能夠獲得這個關注度,除了其出色的表現表現以外,其低訓練成本也是其吸引全球目光的關鍵。在今天的文章中,我們來看看藏在DeepSeek背後的晶片和系統。
DeepSeek的架構自述
早在2024年8月,8 月,DeepSeek團隊發表了一篇論文,描述了它創建的一種新型負載平衡器,用於將其混合專家(MoE:mixture of experts) 基礎模型的元素相互連接。
DeepSeek在文章中表示,對於混合專家(MoE) 模型,專家負載( expert load)不平衡將導致路由崩潰(routing collapse)或計算開銷( computational overhead)增加。現有方法通常採用輔助損失( auxiliary loss )來促進負載平衡,但較大的輔助損失會在訓練中引入不可忽略的干擾梯度(interference gradients),從而損害模型效能。
為了在訓練過程中控制負載平衡但不產生不良梯度(undesired gradients ),DeepSeek團隊提出了無損平衡(Loss-Free Balancing),其特點是無輔助損失的(auxiliary-loss-free)負載平衡策略。
具體而言,在進行top-K 路由決策(routing decision)之前,無損平衡將首先對每個專家的路由分數(routing scores)應用專家偏見(expert-wise bias )。透過根據每個專家的近期負載動態更新其偏見,無損平衡可以始終保持專家負載的平衡分佈。
此外,由於無損平衡不會產生任何干擾梯度,它也提升了從MoE 訓練中獲得的模型表現的上限。 DeepSeek團隊還在多達3B 個參數、在多達200B 個token 上訓練的MoE 模型上驗證了無損平衡的性能。實驗結果表明,與傳統的輔助丟包控制負載平衡策略相比,無損平衡策略既實現了更好的效能,也實現了更好的負載平衡。

圖1:無損平衡根據每個訓練步驟中的「偏見門控分數」(biased gating score)選擇專家,並在每個訓練步驟之後更新此專家偏見。
在2024年底發布的報告《DeepSeek-V3 Technical Report》中,DeepSeek團隊對其DeepSeek-V3模型的技術架構進行了深入解讀,這為我們了解這家公司的技術有了更多參考。
他們在報告中直言,出於前瞻性的考慮,公司始終追求模型表現強、成本低。因此,在架構方面,DeepSeek-V3 仍然採用多頭潛在註意力(MLA:Multi-head Latent Attention) 進行高效推理和DeepSeekMoE 以實現經濟高效的訓練。而為了實現高效訓練,DeepSeek團隊的解決方案支援FP8 混合精度訓練,並對訓練框架進行了全面優化。在他們看來,低精度訓練已成為高效訓練的一種有前途的解決方案,其發展與硬體能力的進步密切相關。

圖2:採用FP8 資料格式的整體混合精度架構。為了清楚起見,僅說明了線性算符。
透過對FP8運算和儲存的支持,DeepSeek團隊實現了加速訓練和減少GPU記憶體使用。在訓練框架方面,他們設計了DualPipe演算法來實現高效的管線並行,該演算法具有更少的管線氣泡,並透過計算-通訊重疊(overlap)隱藏了訓練過程中的大部分通訊。

圖3:DeepSeek-V3 基本架構圖。繼DeepSeek-V2 之後,該公司採用MLA 和DeepSeekMoE 進行高效推理和經濟訓練。
DeepSeek團隊表示,這種重疊確保了隨著模型的進一步擴大,只要保持恆定的計算與通訊比率,公司仍然可以跨節點使用細粒度的專家(fine-grained experts),同時實現接近零的全對全通訊開銷(all-to-all communication overhead)。
此外,DeepSeek團隊還開發了高效的跨節點全對全通訊內核,以充分利用InfiniBand(IB)和NVLink頻寬。該公司還對內存佔用進行了精心優化,使得無需使用昂貴的張量並行即可訓練DeepSeek-V3。
在將這些努力結合起來,DeepSeek團隊實現了很高的訓練效率。

表1:DeepSeek-V3 的訓練成本,假設H800 的租賃價格為每GPU 小時2 美元。
根據DeepSeek團隊在論文中強調,透過優化演算法、框架和硬體的協同設計實現的。在預訓練階段,每兆個token 上訓練DeepSeek-V3 只需要180K H800 GPU 小時,也就是說,在其擁有2048 個H800 GPU 的叢集上只需要3.7 天。因此,公司的預訓練階段在不到兩個月的時間內完成,花費了2664K GPU 小時。加上上下文長度擴充的119K GPU 小時和後訓練的5K GPU 小時,DeepSeek-V3 完整訓練僅花費278.8 萬GPU 小時。
假設H800 GPU 的租賃價格為每小時2 美元,則代表其總訓練成本僅為557.6 萬美元DeepSeek團隊也刻意強調,上述成本僅包括DeepSeek-V3 的官方訓練,不包括與架構、演算法或資料的先前研究和消融實驗相關的成本。作為對比,OpenAI 老闆Sam Altman 表示,訓練GPT-4 需要超過1 億美元。
在1 月20 日,DeepSeek 推出了DeepSeek-R1 模型,該模型增加了兩個強化學習階段和兩個監督微調階段,以增強模型的推理能力。 DeepSeek AI 對R1 模型的收費比基本V3 模型高出6.5 倍。隨後,DeepSeek發布了Janus-Pro,這是其多模態模型Janus 的更新版本。新模型改進了訓練策略、資料擴展和模型大小,增強了多模態理解和文字到圖像的生成。
至此,DeepSeek火熱全球。
躲在DeepSeek背後的晶片
在DeepSeek橫空出世之後,一些圍繞著其係統和技術研究框架的討論,也遍布全網,具體到硬體方面。因為其極低的成本,這引致了整個AI晶片市場的震盪,早幾天英偉達的大跌,正是這個擔憂的最直接的反映。
如上所述,DeepSeek 表示,用於訓練V3 模型的叢集只有256 個伺服器節點,每個節點有8 個H800 GPU 加速器,總共有2,048 個GPU。根據nextplatform的分析師推測,這些GPU卡是英偉達H800 卡的H800 SXM5 版本,其FP64 浮點性能上限為1 兆次浮點運算,其他方面與世界上大多數公司可以購買的80 GB 版本的H100卡相同。
其中,節點內的八個GPU 與NVSwitch 互連,以在這些GPU 記憶體之間建立共享記憶體域,且節點具有多個InfiniBand 卡(可能每個GPU 一個)以建立到叢集中其他節點的高頻寬鏈接。
具體到H800,這是當初英偉達因應美國的出口限制需求推出的GPU。當時的美國GPU出口禁令規定主要限制了算力和頻寬兩個面向。其中,算力上限為4800 TOPS,頻寬上限為600 GB/s。 A800和H800的算力與原版相當,但頻寬降低。

圖4:H800的細節
如上所述,DeepSeek在訓練中使用的是H800 SXM版本。據了解,所謂SXM 架構,是一種高頻寬插座式解決方案,用於將NVIDIA Tensor Core 加速器連接到其專有的DGX 和HGX 系統。對於每一代NVIDIA Tensor Core GPU,DGX 系統HGX 板都配有SXM 插座類型,為其匹配的GPU 子卡實現了高頻寬、電力輸送等功能。
資料顯示,專門的HGX 系統板透過NVLink 將8 個GPU 互連起來,實現了GPU 之間的高頻寬。 NVLink 的功能使GPU 之間的資料流動速度極快,使它們能夠像單一GPU 野獸一樣運行,無需透過PCIe 或需要與CPU 通訊來交換資料。 NVIDIA DGX H800 連接了8 個SXM5 H800,透過4 個NVLink 交換晶片,每個GPU的頻寬為400 GB/s,總雙向頻寬超過3.2 TB/s。每個H800 SXM GPU 也透過PCI Express 連接到CPU,因此8 個GPU 中的任何一個計算的資料都可以轉發回CPU。

圖5:基本的SGX/HGX to CPU框架圖
過去幾年裡,大型企業對英偉達DGX熱度大增,這是因為SXM GPU 更適合規模化部署。如上所說,八個H800 GPU 透過NVLink 和NVSwitch 互連技術完全互連。而在DGX 和HGX 中,8 個SXM GPU 的連接方式與PCIe 不同;每個GPU 與4 個NVLink Switch 晶片相連,基本上使所有的GPU 作為一個大GPU 運作。這種可擴展性可以透過英偉達NVLink Switch 系統進一步擴展,以部署和連接256 個DGX H800,創建一個GPU 加速的AI 工廠。

圖6:基本的8 PCIe GPU to CPU框架圖
外國分析師眼裡的DeepSeeK
基於這些GPU和系統,搞出這個成就,西方不少分析人士一面倒抨擊Deepseek團隊,但nextplatform的分析師表示,如果你仔細閱讀這篇53 頁的論文,就會發現DeepSeek 已經採取了各種巧妙的最佳化和方法來製作V3 模型,他們也確實相信,這確實減少了效率低下的問題,並提高了DeepSeek 在硬體上的訓練和推理性能。
他們認為, DeepSeek團隊訓練V3 基礎模型所採用方法的關鍵創新是使用Hopper GPU 上的132 個串流多處理器(SM) 中的20 個,作為資料的通訊加速器和調度器,因為訓練運作會仔細檢查token並從參數深度集產生模型的權重,因此資料會在叢集中傳遞。根據nextplatform推測,正如V3 論文所述,這種“計算和通訊之間的重疊可以隱藏計算過程中的通訊延遲”,使用SM 在不在同一節點的GPU 之間創建實際上是L3 快取控制器和數據聚合器的東西。
依照nextplatform對其論文的分享,DeepSeek 創建了自己的GPU 虛擬DPU,用於執行與GPU 叢集中的全對全通訊相關的各種類似SHARP 的處理。
如上文所述,DeepSeek團隊設計了DualPipe 演算法以實現高效的管線並行。對此,nextplatform指出,如果DeepSeek 可以將這2,048 個GPU 上的運算效率提高到接近100%,那麼叢集將開始認為它有8,192 個GPU(當然缺少一些SM)運行效率不高,因為它們沒有DualPipe。作為對比,OpenAI 的GPT-4 基礎模型是在8,000 個Nvidia 的「Ampere」A100 GPU 上訓練的,相當於4,000 個H100(差不多)。
此外,包括輔助無損負載平衡、 FP8 低精度處理、將張量核心中中間結果的高精度矩陣數學運算提升到CUDA 核心上的向量單元以保持更高精度的表象、在反向傳播期間重新計算所有RMSNorm 操作和重新計算所有MLA 向上投影等也都是DeepSeek的創新點之一。
知名半導體分析機構SemiAnalysis的Dylan Patel雖然對DeepSeek團隊所揭露的成本有質疑。但他們也承認DeepSeek有過人之處。
SemiAnalysis表示,DeepSeek-R1 能夠取得與OpenAI-o1 相當的成果,而o1 在9 月才發布。 DeepSeek 為何能如此迅速地趕上?這主要是因為推理已經成為了是一種新的範式,與以前相比,現在推理的迭代速度更快,計算量更小,卻能獲得有意義的收益。作為對比,先前的模式依賴預訓練,而預訓練的成本越來越高,也很難實現穩健的效益。
他們指出,新範式著重於透過合成資料生成和現有模型後訓練中的RL 來實現推理能力,從而以更低的價格獲得更快的收益。較低的進入門檻加上簡單的優化,意味著DeepSeek 能夠比以往更快地複製o1 方法。
「R1 是一個非常優秀的模型,我們對此並無異議,而且這麼快就趕上了推理邊緣,客觀上令人印象深刻。」SemiAnalysis強調。他們總結說:
一方面,DeepSeek V3 以前所未有的規模採用了多token預測(MTP:Multi-Token Prediction)技術,這些附加的注意力模組(attention modules)可以預測下幾個token,而不是單個token。這提高了模型在訓練過程中的表現,並可在推理過程中捨棄。這是一個演算法創新的例子,它以較低的計算量提高了效能。還有一些額外的考慮因素,例如在訓練中提高FP8 的準確性;
另一方面,DeepSeek v3 也是專家模型(experts model,)的混合體,它是由許多專門從事不同領域的其他小型模型組成的大型模型。混合專家模型面臨的一個難題是,如何確定將哪個token交給哪個子模型或”專家”。 DeepSeek 實作了一個”門控網路”(gating network),以不影響模型效能的平衡方式將token路由到合適的專家。這意味著路由選擇非常高效,相對於模型的整體規模,每個token在訓練過程中只需改變少量參數。這不僅提高了訓練效率,也降低了推理成本;
再者,就R1 而言,有了強大的基礎模式(v3),它將受益匪淺。部分原因在於強化學習(RL)。
強化學習有兩個重點:格式化(確保提供連貫的產出)以及有用性和無害性(確保模型有
用)。在合成資料集上對模型進行微調時,推理能力出現了;
SemiAnalysis重申,MLA 是DeepSeek 大幅降低推理成本的關鍵創新技術。原因在於,與標準注意力(standard attention)相比,MLA將每次查詢所需的KV快取量減少了約93.3%。 KV 快取是轉換器模型中的一種記憶體機制,用於儲存代表對話上下文的數據,從而減少不必要的計算。
對英偉達晶片的潛在影響
在文章開頭我們就提到,DeepSeek爆火以後,英偉達用暴跌來回應。因為如果美國大型科技公司開始向DeepSeek 學習,選擇更便宜的人工智慧解決方案,這可能會對Nvidia 造成壓力。
隨後,Nvidia 對DeepSeek 的進展給予了正面評價。該公司在聲明中表示,DeepSeek 的進展很好地展示了AI 模型的新操作方式。該公司表示,向用戶提供此類AI 模型需要大量Nvidia 晶片。
但著名投資人、方舟投資CEO「木頭姐姐」凱西·伍德在訪談中表示,DeepSeek證明了在AI領域成功並不需要那麼多錢,並且加速了成本崩潰。
Counterpoint Research 人工智慧首席分析師孫偉也表示,Nvidia 的拋售反映了人們對人工智慧發展的看法轉變。她進一步指出:“DeepSeek 的成功挑戰了人們認為更大的模型和更強大的計算能力能夠帶來更好性能的信念,對Nvidia 由GPU 驅動的增長戰略構成了威脅。”
SemiAnalysis強調,演算法改進的速度太快了,這對Nvidia 和GPU 來說也是不利的。
美媒《財富》更是預警道,DeepSeek 正在威脅英偉達的AI 主導地位。
如前文所說,DeepSeek 已採用性能更低、價格更便宜的晶片打造了其最新型號,這也給Nvidia 帶來了壓力,一些人擔心其他大型科技公司可能會減少對Nvidia 更先進產品的需求。
AvaTrade 首席市場分析師 Kate Leaman 向《財富》雜誌表示:「投資者擔心DeepSeek 與性能較弱的AI 晶片配合使用的能力可能會損害英偉達在AI 硬體領域的主導地位,尤其是考慮到其估值嚴重依賴AI 需求。
值得一提的是,根據tomshardware的報道,DeepSeek 的AI 突破繞過了英偉達的CUDA不成盒,而是使用了類似彙編的PTX 編程,這從某種程度上加大了大家對英偉達的擔憂。
根據介紹,Nvidia 的PTX(Parallel Thread Execution:平行執行緒執行)是Nvidia 為其GPU 設計的中間指令集架構。 PTX 位於高階GPU 程式語言(如CUDA C/C++ 或其他語言前端)和低階機器碼(串流彙編或SASS)之間。 PTX 是一種接近金屬的ISA,它將GPU 公開為資料並行計算設備,因此允許細粒度優化,例如寄存器分配和線程/warp 級別調整,這是CUDA C/C++ 和其他語言無法實現的。一旦PTX 進入SASS,它就會針對特定世代的Nvidia GPU 進行最佳化。
在訓練V3 模型時,DeepSeek 重新配置了Nvidia 的H800 GPU:在132 個流式多處理器中,它分配了20 個用於伺服器到伺服器通信,可能用於壓縮和解壓縮數據,以克服處理器的連線限制並加快交易速度。為了最大限度地提高效能,DeepSeek 還實施了高級管道演算法,可能是透過進行超精細的線程/warp 等級調整來實現的。
報告指出,這些修改遠遠超出了標準CUDA 級開發的範圍,但維護起來卻非常困難。
不過,晨星策略師布萊恩·科萊洛(Brian Colello) 直言,DeepSeek 的進入無疑為整個人工智慧生態系統增加了不確定性,但這並沒有改變這一運動背後的壓倒性勢頭。他在一份報告中寫道:「我們認為人工智慧GPU 的需求仍然超過供應。因此,儘管更輕薄的機型可能能夠以相同數量的晶片實現更大的發展,但我們仍然認為科技公司將繼續購買所有他們能買到的GPU,作為這場人工智慧’淘金熱’的一部分。
英特爾前執行長 Pat Gelsinger 等業界資深人士也認為,像人工智慧這樣的應用程式可以利用它們所能存取的所有運算能力。至於DeepSeek 的突破,基辛格認為這是一種將人工智慧添加到大眾市場中大量廉價設備中的方法。
SemiAnalysis在報告中透露,自DeepSeek V3 和R1 發布以來,H100 的AWS GPU 價格在許多地區都有所上漲。類似的H200 也更難找到。 「V3 推出後,H100 的價格暴漲,因為GPU 的貨幣化率開始大大提高。以更低的價格獲得更多的智慧意味著更多的需求。這與前幾個月低迷的H100 現貨價格相比發生了重大轉變。
所以,大家認為,DeepSeek將如何發展?英偉達晶片,還能繼續獨霸天下嗎?