大模型性價比之王來了:訓練2個月、花費558萬美元性能匹敵GPT-4o
幻方量化宣布,全新系列模型DeepSeek-V3上线并同步开源,API服务已同步更新,接口配置无需改动。其上一代模型DeepSeek-V2.5于9月6日正式发布,迭代速速不可谓不快。据介绍,DeepSeek-V3为自研MoE模型,生成速度相比V2.5模型实现了3倍的提升,但暂不支持多模态输入输出。(小K注:MoE模型全称Mixture of Experts,混合专家模型,是一种机器学习架构,通过组合多个专家模型,在处理复杂任务时显著提高效率和精度)。

參數與效能:DeepSeek-V3擁有6,710億參數,其中啟動參數為370億,在14.8兆token上進行了預訓練。
生成速度:相較於V2.5版本,DeepSeek-V3的生成速度提升至3倍,每秒吞吐量高達60 token。
開源和可用性:DeepSeek-V3完全開源。
多語言處理能力:雖然目前版本暫不支援多模態輸入輸出,但在多語言處理方面表現出色,尤其在演算法程式碼和數學方面。
答案生成速度更快
另外,在多項基準測試中,DeepSeek-V3的成績超越了Qwen2.5-72 B和Llama-3.1-405 B等其他開源模型,並在性能上和世界頂尖的閉源模型GPT-4o以及Claude -3.5-Sonnet不分伯仲。

其中,在數學能力方面,DeepSeek-V3大幅超過了所有開源閉源模型。 (小K註:以2024年美國數學競賽及全國高中數學聯盟題庫進行測驗)

值得注意的是,幻方量化在已開源的論文中強調其訓練成本極低——透過對演算法、框架和硬體的最佳化協同設計,假設H800GPU的租用價格為每塊GPU2美元/小時,DeepSeek-V3的全部訓練成本總計僅為557.6萬美元(註:此成本僅包括DeepSeek-V3的正式訓練,不包括與先前在架構、演算法或資料上的研究和消融實驗相關的成本):
訓練成本合計
在預訓練階段,模型每訓練1兆token只需要180K個GPU小時,即在配備2048個GPU的集群上只需3.7天,也就是說,該階段團隊使用2048塊H800 GPU訓練了模型不到2個月便達成目標;
另外,加上上下文長度scaling所需的119K GPU小時和後訓練的5K GPU小時,DeepSeek-V3完整訓練僅消耗2.788M個GPU小時。
圖源:開源論文
技術大牛Andrej Karpathy發文稱讚道:作為參考,要達到這種等級的能力,通常需要約1.6萬個GPU的運算叢集。不僅如此,目前業界正在部署的叢集規模甚至已經達到了10萬個GPU。例如,Llama 3 405B消耗了3080萬GPU小時,而看起來更強大的DeepSeek-V3卻只花了280萬GPU小時(計算量減少了約11倍)。 (小K註:Karpathy是OpenAI的共同創辦人之一,並曾擔任特斯拉的AI總監)

Stability AI前CEO表示,以每秒60個token(相當於人類閱讀速度5倍)的速度全天候運行DeepSeek-V3,每天只需2美元。
API服務定價上調2倍有餘
DeepSeek-V3的發布標誌著DeepSeek AI在自然語言處理和AI領域的另一個重要進步,預計將為開發者、企業和研究人員提供強大的工具和資源。其應用場景主要包括:
聊天和編碼場景:為開發者設計,能夠理解並產生程式碼,提高程式設計效率。
多語言自動翻譯:支援多達20種語言的即時翻譯和語音識別,適合需要處理多種語言內容的企業用戶。
圖像生成和AI繪畫:整合視覺理解技術,讓使用者透過簡單的文字描述產生高品質圖像,豐富應用場景和使用者創意表達的自由度。
效能更強、速度更快的DeepSeek-V3上線,幻方量化給的定價是多少呢?新版模式價格比上一代貴了2倍有餘。
幻方量化表示DeepSeek-V3的API服務定價將上調為每百萬輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens 8元,按緩存未命中的輸入價格計,加總成本是10元人民幣。
上一代型號Deepseek-V2.5的價格是,輸入:0.14美元/百萬Token,輸出為:0.28美元/百萬Token,加總成本是0.14+0.28=0.42美元,約3元人民幣。
這裡的Token是大模型在處理資料時的最小單元,一般而言,100萬Token相當於70萬-100萬英文單詞,或接近100萬中文漢字。列夫•托爾斯泰的名著《戰爭與和平》的英文版大約是大約有1200-1500頁、58萬英文單詞,把它翻譯為中文,大約有100-130萬字,讓DeepSeek-V3讀完全文只需要2元左右。
儘管漲價,但與同型車型相比,DeepSeek-V3依舊極具性價比。例如OpenAI的GPT 4o定價相當高,輸入:5美元/百萬Token,輸出:15美元/百萬Token,加總成本是20美元,約合人民幣140元。
