DeepSeek低調宣稱小更新結果用2折價格達到R1水平
昨晚,DeepSeek無預警發布DeepSeek-V3-0324模型,此次更新雖被官方低調地稱為“小版本迭代”,但實測表現遠超預期。此模型尤其在程式碼產生、前端開發等方面顯著提升,甚至部分能力比肩Claude 3.7 Sonnet,引發全球AI社群熱議。
在大模型競技場測試KCORES中,DeepSeek-V3-0324程式碼能力得分328.3分,超越普通版Claude 3.7 Sonnet( 322.3 分),接近Claude 3.7 Sonnet的思維鏈版本(334.8分)。

在Aider LLM Leaderboard排行榜中,DeepSeek-V3-0324在多語言基準測試中得分為55%,比V3有顯著提升,比R1略低一些。在非思考/推理模型中,它排名第二,僅次於Claude Sonnet 3.7 。

測試數據還表明,在表現良好的模型中,DeepSeek-V3-0324花費是最低的,比R1還低很多,只需大約1/5,擁有高到令人髮指的性價比。
另外,Claude Sonnet 3.7 Thinking的花費是DeepSeek-V3-0324的33 倍,o1是DeepSeek-V3-0324的167倍。


目前在DeepSeek官網,只需要關閉「深度思考」選項即可使用新模型。
Hugging Face上也提供了開源下載,下載地址:

DeepSeek-V3-0324包含685B參數,較前代V3小幅增加,採用MoE( 專家混合)架構,啟動參數370億。網友實測DeepSeek-V3-0324支援4-bit量化,可在512GB M3 Ultra Mac上以20+token/s速度運行,磁碟佔用僅352GB。 新模型採用與DeepSeek-R1相同的MIT許可,允許自由修改、商用及模型蒸餾,比上一版V3更開放。
從評估結果來看,DeepSeek-V3-0324前端開發表現突出,媲美頂級商業模式。
X部落客Deepanshu Sharma只用簡單提示字(「用HTML/CSS/JS製作現代化登入頁面」),就能讓新版V3一鍵產生800+行程式碼,且無錯誤運行,效果媲美Claude 3.7 Sonnet 。


在經典彈跳小球測試中,DeepSeek V3-0324不僅比R1表現更好,部落客Deepanshu Sharma也認為它產生了最流暢的動作。


在測試中o3-mini最初表現看起來不錯,但並沒有正確遵循物理原理,尤其是在影片中間,球對重力沒有做出正確的反應。
Deepanshu Sharma評價DeepSeek V3-0324「表現得像唯一排名第一的非推理模型」。
根據X網友karminski-牙醫介紹,在升級版的20小球物理模擬測試中,DeepSeek V3-0324 相比V3也表現更優。


而新版V3與頭部推理模型的比較情況如下:

在火星任務測試中,DeepSeek-V3-0324提升龐大,星球、圖例渲染正確,發射和返回的視窗計算也有很大進展。

結合UI設計和物理模擬,X網友Parul Pandey也用DeepSeek-V3-0324產生了一個可交互物理模擬介面,透過AnyChat使用DeepSeek-V3-0324模擬水分子。
實際運作中,可以透過溫度滑桿提升溫度,讓分子呈現越來越快的前進和碰撞反彈運動。
提示詞:建立一個互動式模擬,顯示水分子形成和斷裂氫鍵的過程,同時顯示溫度滑桿。


對於這次升級的技術難度,有Reddit網友pigeon57434給出了比較中立的解讀:不用太驚嘆本次V3升級的幅度,因為RL ( 強化學習,Reinforcement Learning )潛力極大。以QwQ-32B為例,儘管它實際上小了20倍,但它在某些方面的表現幾乎與R1一樣好,甚至比R1更好。它能那麼強,只是因為擴展推理模型還有很大空間,甚至不需要新的基礎模型。我敢打賭,使用更複雜的技術,可以輕鬆獲得基於DeepSeek-V2.5的推理模型來擊敗R1,更不用說這個新版本的V3了。

總的來說,這樣的免費+高效能的組合將對OpenAI、Anthropic等閉源商業模式形成越來越大的壓力。
DeepSeek此次更新再次證明開源模式的爆發力,不僅技術指標逼近頂級商業AI,更以低成本、高自由度推動產業變革。
可以合理推測,此次更新有可能是R2的前置版本,類似去年V3( 24.12.16 )→R1 ( 25.01.20 ) 的發布節奏,或許幾週內我們可能迎來更強的推理模型R2。
隨著R2的臨近,全球AI競爭格局或將迎來新一輪洗牌。