DeepSeek致謝騰訊技術團隊:DeepEP的最佳化是一次「huge speedup」程式碼貢獻
騰訊技術團隊針對DeepSeek開源的DeepEP通訊框架進行深度最佳化,使其在多種網路環境下均實現顯著效能提升。經測試,優化後的通訊框架效能在RoCE網路環境提升100%,IB網路環境提升30%,為企業進行AI大模型訓練提供更有效率的解決方案。該技術方案獲得了DeepSeek公開致謝,稱這是一次「huge speedup」程式碼貢獻。

自今年2月DeepSeek開源包含DeepEP在內的五大程式碼庫以來,該團隊便向業界展示如何利用有限的硬體資源實現接近萬卡叢集的效能。在這些技術中,DeepEP憑藉突破性的方法提升了300%的通訊效率,成功解決了MoE架構大模型對英偉達NCCL的依賴問題。但該技術在成本較低、適用面更廣的RoCE網路環境中表現不佳,限制了其在更廣泛場景的應用。這個痛點引發了開源社群的持續討論。
據悉,騰訊星脈網路團隊在DeepEP開源後便展開技術攻關,發現兩大關鍵瓶頸:一是對於雙埠網卡頻寬利用率不足,二是CPU控制面交互存在時延。
在騰訊的技術優化下,DeepEP不僅在RoCE網路實現效能翻倍,反哺到IB(InfiniBand)網路時更讓原有通訊效率再提升30%。
目前,該技術已全面開源,並成功應用於騰訊混元大模型等項目的訓練推理,在騰訊星脈與H20伺服器構建的高效能環境中,這套方案展現出出色的通用性。