對話中國工程院院士:DeepSeek,究竟厲害在哪裡?
DeepSeek應用程式登頂蘋果美國地區應用程式商店免費App下載排行榜,在美區下載榜上超越了ChatGPT。同日,蘋果中國區應用程式商店免費榜顯示,DeepSeek成為中國區第一。 DeepSeek究竟厲害在哪裡?

今日,中國工程院院士、清華大學計算機系教授鄭緯民及多位AI圈人士在與新浪科技溝通中,指出了DeepSeek其成功出圈的關鍵所在。
目前,業界對於DeepSeek的喜愛與讚美,主要集中在三個面向。第一,在技術層面,DeepSeek背後的DeepSeek-V3及公司新推出的DeepSeek-R1兩款模型,分別實現了比肩OpenAI 4o和o1模型的能力。第二,DeepSeek研發的這兩款模型成本更低,僅為OpenAI 4o和o1模型的十分之一左右。第三,DeepSeek把這兩大模型的技術都開源了,這讓更多的AI團隊,能夠基於最先進同時成本最低的模型,開發更多的AI原生應用。
那麼,DeepSeek是如何實現模型成本的降低的呢?
鄭緯民指出,「DeepSeek自研的MLA架構和DeepSeek MOE架構,為其自身的模型訓練成本下降,起到了關鍵作用。」他指出,「MLA主要透過改造注意力算子壓縮了KV Cache大小,實現了在同樣容量下可以儲存更多的KV Cache,該架構和DeepSeek-V3模型中FFN 層的改造相配合,實現了一個非常大的稀疏MoE層,這成為DeepSeek訓練成本低最關鍵的原因。
就技術層面而言,KV Cache是一種最佳化技術,常用於儲存人工智慧模型運行時產生的token的鍵值對(即key- value數值),以提高運算效率。具體而言,在模型運算過程中,KV cache會在模型運算過程中扮演一個記憶體庫的角色,以儲存模型之前處理過的token鍵值,透過模型運算計算出注意力分數,有效控制被儲存token的輸入輸出,透過「以存換算」避免了多數大模型運算每次都是從第一個token開始運算的重複計算,提升了算力使用效率。
此外,據鄭緯民透露,DeepSeek也解決了「非常大同時非常稀疏的MoE模型」所使用的表現難題,而這也成了「DeepSeek訓練成本低最關鍵的原因」。

目前,透過MoE混合專家模型提升AI大模型的專業認知能力正成為業界公認的有效手段,而且一個大模型的專家模型數量越多,模型就越稀疏,效率也越高,但專家模型變多可能導致最終生成的結果不太準確。
根據鄭緯民介紹,「DeepSeek比較厲害的是訓練MoE的能力,成為公開MoE模型訓練中第一個能訓練成功這麼大MoE的企業。」新浪科技了解到,為保證大規模MoE專家模型的均衡運行, DeepSeek使用了先進的、不需要輔助損失函數的、專家加載均衡技術,保證每個token下,少量專家網絡參數被真正激活的情況下,不同的專家網絡能夠以更均衡的頻率被激活,防止專家網路啟動扎堆。
此外,DeepSeek也充分利用專家網路被稀疏啟動的設計,限制了每個token被發送到GPU叢集節點(node)的數量,這使得GPU之間通訊開銷穩定在較低的水位。