DeepSeek開源第一彈:6小時收藏破5000次,利好國產GPU?
在上週DeepSeek宣布本週將是開源週(OpenSourceWeek),並將連續開源五個軟體庫後。今日上午9:30時許,DeepSeek宣布開源了本次開源週首款程式碼庫-針對Hopper GPU進行最佳化的高效型MLA解碼核-FlashMLA。

在GitHub上,目前該專案開源6小時後便已收穫了超過5000Star收藏,並且擁有188個Fork(副本創建)。在聽到DeepSeek開源FlashMLA並迎來的快速的Star收藏和Fork數據增長後,某港股上市公司CTO在與新浪科技溝通中直呼:「太強了」。
另有專注於AI硬體研究並投資的投資人,在查看FlashMLA後告訴新浪科技,對於國產GPU而言,此次開源算是重大利好。 「之前的國產GPU卡,很弱。那現在可以透過FlashMLA提供的優化思路和方法論,嘗試讓國產卡大幅提升性能,即使架構不同,後面國產卡的推理性能提升將是順理成章的事兒」。

根據DeepSeek官方介紹,FlashMLA基於Hopper GPUs的有效MLA解碼內核,可針對可變長度序列進行最佳化。
在DeepSeek整个技术路线中,MLA(多头潜在注意力机制)是公司已经发布的V2、V3两款模型中,最为核心的技术之一。被用于解决计算效率和内存占用上的性能瓶颈,能够显著提升模型训练和推理效率,同时保持甚至增强模型性能。
先前,中國工程院院士、清華大學計算機系教授鄭緯民在與新浪科技溝通中曾提及:「DeepSeek自研的MLA架構為其自身的模型訓練成本下降,起到了關鍵作用。」他指出,「MLA透過改造注意力算子壓縮了KV Cache大小,實現了在同樣容量下可以儲存更多的KV Cache,該結構的整合eepSeek訓練成本低最關鍵的原因。
這次DeepSeek直接開放MLA解碼核-FlashMLA,意味著DeepSeek將最為核心的MLA底層程式碼直接免費開放,這讓廣大開發群體可以直接復用FlashMLA程式碼庫實現用更少的GPU伺服器完成同樣的任務,直接降低推理成本,這對於更多希望基於DeepSeek開源能力進行底層最佳化福利
有趣的是,DeepSeek這次開放的MLA解碼核,主要是針對Hopper GPU進行最佳化用途的。通常而言,Hopper GPU是指基於英偉達Hopper架構研發的H系列GPU產品。目前,英偉達該系列晶片已經發表H100、H800和H20等多款晶片。
根據DeepSeek方面介紹,在基準測試效能表現上,FlashMLA在英偉達H800 SXM5 GPU上可達到3000 GB/s 的記憶體速度以及580TFLOPS的運算上限。

公開資料顯示,根據美國出口管制規定,H800的頻寬上限設定為600 GB/s,相比一些旗艦產品降低。這意味著,使用FlashMLA優化後,H800的記憶體頻寬利用率可望進一步提高甚至突破H800 GPU理論上限,在記憶體存取上達到極致,能讓開發群體充分「壓榨」英偉達H系列晶片能力,以更少的晶片實現更強的模型性能,最大化GPU價值。
有專注於AI硬體研究並投資的投資人在查看FlashMLA後表示,「FlashMLA是能讓LLM在H800跑得更快、更高效的優化方案,尤其適用於高性能AI任務,他的核心是加速大語言模型的解碼過程,提高模型的響應速度和吞吐量,這對於實時生成任務(如聊chatbot等
雖然FlashMLA是針對Hopper GPU的最佳化程式碼庫,但對於國產GPU而言,此次開源也有利。上述投資人在查看FlashMLA後表示,對於國產GPU而言,此次開源算是重大利多。 「之前的國產GPU卡,很弱。那現在可以透過FlashMLA提供的優化思路和方法論,嘗試讓國產卡大幅提升性能,即使架構不同,後面國產卡的推理性能提升將是順理成章的事兒」。