DeepSeek的一次小更新,堪比發布新模型
一個好消息,時隔兩人月, DeepSeek 終於更新了。就在昨天晚上, DeepSeek 一聲不吭往Hugging Face 上扔了個DeepSeek -V3-0324 模型。模型參數6850 億,跟上一個版本的V3 ( 6710 億)相差不大,採用MoE 架構,也支援了更開放的MIT 開源協定。
根據官方更新的版本說明, DeepSeek -V3-0324 主要是針對推理能力和前端開發能力進行了加強,寫作風格實現了跟R1 對齊,另外還有一些其他方面的小優化。

現在打開DeepSeek 官網,把深度思考模式關掉就能直接用上V3-0324 。
不過有一說一,雖然V3-0324 僅僅只是V3 的小版本升級,並不是大夥兒期待已久的V4 或R2 ,且官方帳號也沒有發布任何跟模型有關的資訊。
但也絲毫不妨礙, V3-0324 一上線,就有人說他的程式碼能力,直追克勞德。

新版的模型剛上傳,就登上了Hugging Face 的趨勢清單。
在國外大模型競技場KCORES 的評估中, V3-0324 的程式碼能力得分328.3 ,超過了普通版的Claude 3.7 Sonnet 的322.3 分,接近Claude 3.7 Sonnet 思維鏈版本的334.8 分,排名第三。
圖源@karminski 牙醫

重點是,排名在前面的模型壓根就沒幾個開源免費的, V3-0324 可謂是一枝獨秀。
所以在V3-0324 上線不到一天的時間裡,就已經有許多老哥迫不及待地評論了一波。
這麼說吧, V3-0324 在這些人手裡,已經成了拳打o3-mini ,腳踢Claude 3.7 Sonnet 的存在。
在經典的小球彈跳測試中,這位老哥把V3-0324 、 o3-mini 和R1 拉了個橫評。

o3-mini 剛開始看著還不賴,但估計物理沒學好,外面的六邊形都轉到垂直的位置了,球還不知道往下掉。
R1 的表現,也是有些讓人摸不著頭腦。 。
相對來說, V3-0324 生成的結果是表現最好的,這位老哥絲毫不吝嗇對它的誇獎,說它 “ 表現得像唯一排名第一的非推理模型” 。

讓V3-0324 產生一個網頁,模型一口氣寫了800 多行程式碼,運行的時候還沒有出錯,這什麼實力不用多說了吧。

在留言區底下,有人僅僅下達了編寫登入頁面的簡單指令,並沒有任何其他的附加提示,同樣也產生了一個完整的登入頁面。

還說V3-0324 在編碼上,能跟Claude 3.7 Sonnet 掰一掰手腕。
更別提其他的模型,性價比各方面相比下來,現在OpenAI 的o1-pro 和GPT-4.5 ,都已經不香了。

反正看了幾個網友的測試案例之後,世超對V3-0324 的前端程式碼產生能力,已經有了初步的判斷。
但不管咋說,沒親自上過手的東西,咱硬誇也有點心虛。所以這次世超也打算簡單試試,看看V3-0324 到底有多能打。
一上來,世超就讓模型做了一個畫板,提示詞是「 幫我用HTML 程式碼建立一個畫板,支援滑鼠繪製、橡皮擦功能和顏色選擇」 ,這次出戰的模型是V3-0324 和普通版Claude 3.7 Sonnet 。
只能說,這把Claude 3.7 Sonnet 贏得很徹底。光是有取色器這一點,就甩了V3-0324 不知道幾個車尾燈。

更別提UI 設計了, V3-0324 做出來的畫板讓世超不是很有創作的慾望…

世超著實是沒想到,這盆涼水來得這麼快,都讓我有點懷疑到底是我的提示詞沒寫好,還是模型有問題了…
不過,我後面又繼續把小球彈跳的提示詞,分別餵給了DeepSeek-V3-0324 、普通版Claude 3.7 Sonnet 還有DeepSeek-V3 。
這下味兒終於對了。 V3-0324 產生的結果確實牛叉,能很清楚地看到小球在下落觸底的時候,產生了小幅度的彈跳。

就是吧,舊版的V3 壓根沒運作起來……只能說兩個版本之間的差距高下立判了。

再來看普通版Claude 3.7 Sonnet 的結果,優點是底下的轉速、重力和摩擦力都是可調節的,彈跳看起來也沒什麼大問題,但小球有點出畫面了…

最後,世超又分別讓V3 和V3-0324 產生一個Saas 登入頁面,提示詞就一句話,沒有任何的附加資訊。
可以看到, V3 的頁面倒是做出來了,但沒什麼設計可言。

反觀V3-0324 ,果然就跟官方的版本更新說明一樣,產生的網頁更美觀了。

綜合看下來, V3-0324 的程式碼能力相比V3 確實有了比較大的提升,而且在一部分測試案例中,也能夠比肩普通版Claude 3.7 Sonnet 。
但如果要說完全超越Claude 3.7 Sonnet ,那世超覺著暫時還不太行。
不過大夥兒也別忘了, V3-0324 在開源這個賽道裡, V3-0324 已經算是能打的了。
而且DeepSeek 的API 價格業主打的一個便宜。世超對比了Claude 3.7 Sonnet 和V3-0324 的API 價格, V3-0324 百萬tokens 輸入的價格是2 元,百萬tokens 輸出的價格是8 元,而同樣的tokens 數, Claude 3.7 Sonnet 的輸入和輸出價格分別是18.6 元差,.

所以某種程度上, V3-0324 這個小更新,的確可以跟Claude 3.7 Sonnet 媲美。
特別是今天晚上,DeepSeek官方也發文,正式介紹了這波小更新,在數學、程式碼類的相關評測上,V3-0324比OpenAI目前最厲害的非推理模型GPT-4.5都要更勝一籌。

去年12 月底V3 上線,緊接著R1 就在過年的時候上桌吃飯了。如果按照DeepSeek 之前發布模型的節奏,盲猜一波R2 也快了。
總之,小版更新的V3-0324 就已經如此強悍了,就是不知道,在DeepSeek 猛烈的開源砲彈下, “OpenAI 們” 還遭不遭得住了。
來源:差評