DeepSeek持續熱門多個雲端平台上線相關模式「搶食」算力需求
AI 公司DeepSeek 旗下大模型DeepSeek-R1「爆紅」後,多個雲端平台宣布上線DeepSeek旗下模型。騰訊雲、百度智慧雲、阿里雲、火山引擎平台都已上線DeepSeek的大模型。
2月4日,火山引擎宣布,將支援V3、R1 等不同尺寸的DeepSeek 開源模型,可以透過在火山引擎機器學習平台veMLP 中部署和在火山方舟中調用模型兩種方式使用模型。 2月2日,騰訊雲宣布騰訊雲端高效能應用服務HAI 支援DeepSeek-R1 一鍵部署,2月4日又宣布騰訊雲端TI上架DeepSeek系列模型。 2月3日晚,百度智慧雲端則宣布,百度智慧雲端千帆平台已正式上架DeepSeek-R1 與DeepSeek-V3 模型。阿里雲PAI Model Gallery 目前也已經支援DeepSeek-V3、DeepSeek-R1 以及所有蒸餾小參數模型(DeepSeek-R1-Distill)的一鍵部署。

DeepSeek-R1 是一款開源模型,也提供了API(介面)呼叫方式。根據DeepSeek介紹,DeepSeek-R1 後訓練階段大規模使用了強化學習技術,在只有極少標註資料的情況下提升了模型推理能力,該模型性能對標OpenAl o1 正式版。 DeepSeek-R1 推出後,此模式熱度持續攀升。 1月27 日,DeepSeek應用程式曾登頂蘋果中國地區和美國地區應用商店免費APP 下載排行榜。
面向潛在的算力需求,騰訊雲TI平台上架了”滿血”的V3、R1 原版模型,這兩個模型參數量都達到671B(B 即十億),並上架了基於DeepSeek-R1 蒸餾得到的系列模型,參數規模從1.5B到70B不等。騰訊雲端TI平台也提供模型服務管理、監控營運、資源伸縮等能力,協助企業和開發者將DeepSeek模型連接到實際業務。
在這背後,是雲廠商們不願在DeepSeek的火熱中缺席,賣起了自身的產品、服務以及算力。儘管DeepSeek-R1 是開源模型,但雲端廠商在各自平台提供的適配服務,可以讓用戶更輕鬆地實現從訓練到部署再到推理的全過程,簡化模型開發流程,「收攏」部分DeepSeek用戶的需求。
記者了解到,目前百度智能雲千帆平台上架的DeepSeek-R1和DeepSeek-V3模型則已全面融合千帆推理鏈路,集成百度獨家內容安全算子,實現模型安全增強與企業級高可用保障,同時支持完善的BLS日誌分析和BCM警告。
阿里雲也為開發者提供了蒸餾後的DeepSeek-R1-Distill-Qwen-7B模型,基於DeepSeek-R1 的推理能力,透過蒸餾技術將推理模式遷移到較小的Qwen (通義)模型上,以便更高性價比地實現DeepSeek系列模型與現有業務的高效融合。阿里雲相關人士對記者表示,部署DeepSeek-R1-Distill-Qwen-7B模型的價格約為11.1元/小時(以A10機型為例,其餘機型的價格參考阿里雲官網);部署DeepSeek-R1模型的價格約為316元/小時。
同時,不少雲端廠商都給了低於DeepSeek官方刊例的折扣。目前,DeepSeek-R1的官方刊例為輸入4元/M tokens,輸出16元/M tokens,DeepSeek-V3的官方刊例為輸入2元/M tokens,輸出8元/M tokens。記者從百度雲了解到,百度雲上架的對應模式調用價格為DeepSeek-V3官方刊例的3折、DeepSeek-R1官方刊例的5折,並提供限時2週的免費服務。阿里雲百煉上架的DeepSeek-R1和DeepSeek-V3也宣佈限時免費。火山引擎也在公開資訊中表示,透過全端自研推理系統對DeepSeek 的最佳化和降本,火山引擎為透過方舟調用DeepSeek 模型API 的企業提供有競爭力的價格,並提供全網最高的限流。
值得一提的是,2024年,DeepSeek-V2的發表曾引發了一輪大模型價格戰,位元組、百度、騰訊、阿里等大模型廠商都曾跟進降價。如今,有「AI界拼多多」之稱的DeepSeek是否會掀起大模型的下一輪價格戰受到業界關注。
業界對大模型價格競爭已有預期。今年1月,騰訊集團副總裁、政企業務總裁李強在接受第一財經等媒體採訪時表示,價格變化如果不是基於技術創新就很難長期持續,騰訊對低效率的純粹價格競爭未必完全認同,預計2025年傳統雲端運算領域的價格競爭會趨緩,但與大模型相關的部分還是會有價格競爭。
而雲端平台積極上線DeepSeek旗下模型背後,更深層的產業變化是,大模型算力需求正在經歷變遷。 DeepSeek被認為正在探索壓縮大模型訓練成本,其備受關注的DeepSeek-R1更偏重推理部分。 DeepSeek曾公開DeepSeek-V3的訓練預算為“2048個GPU、2個月、近600萬美元”,外界認為DeepSeek-R1訓練成本可能也偏低。這或許意味著,大模型訓練不一定能為雲廠商持續帶來大量算力需求,但開發者部署偏重推理的大模型,可能為雲廠商帶來更多算力需求。
李強表示,大模型本身帶來的收入佔整體市場的規模還比較小,但長期看,大模型行業化應用將更多帶來推理相關的計算需求。隨著越來越多企業用戶和新創公司轉向大模型應用,預計應用程式爆發將帶來大量推理需求。