DeepSeek昨夜上新舊版V3對比實測程式碼能力飆升
DeepSeek在開源平台悄悄上線了升級後的DeepSeek-V3車型。新模型的版本號為DeepSeek-V3-0324,模型參數為6850億,較早版本的6710億有小幅成長。不過,DeepSeek尚未放出新版模型的系統卡,我們暫時無法取得更多關於這款模型的資訊。


開源位址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
同時,DeepSeek也將DeepSeek-V3模型的開源協議更新為與DeepSeek-R1一致的MIT協議,這項協議更為寬鬆,讓模型蒸餾、商用等行為,給了開發者更多的自主權。
新版DeepSeek-V3上線後,智東西第一時間進行了程式碼、數學和通用能力等多方面的測試,並關注到廣大網友的測試結果。根據許多已經體驗上這款模型的網友分享,升級後的DeepSeek-V3在程式碼、數學等方面有明顯的效能提升。
一位海外AI部落客稱,DeepSeek終於能在程式碼領域和Anthropic的Claude Sonnet 3.5一決高下了。而之前,Claude Sonnet 3.5在程式設計師圈內擁有極高的聲譽,無論諸多模型在程式碼上的成績如何變化,程式設計師依舊更青睞使用Claude系列模型。

在智東西的測驗中,新版DeepSeek-V3在網站開發能力、UI設計方面展現出巨大的進步,在輸入「設計一個美觀的個人部落格網站,帶有科技感,直接開發成可用網頁」的提示詞之後,直接獲得瞭如下的網頁效果。
新版DeepSeek-V3在2分鐘的時間內交付了一個總計400多行程式碼、設計精良的網站,據其介紹,網站採用了粒子背景動畫、賽博龐克UI(霓虹光效、懸浮動畫和科技感配色)等設計元素,標題使用打字機動畫,按鈕具備光波擴散效果。

這一網站也使用了響應式設計,能自動適配手機和桌面設備。

而當舊版DeepSeek-V3獲得相同的指令時,其解決方案僅有100多行程式碼,輸出的結果在美感上也不如新版的DeepSeek-V3。

有網友稱,這次的「小更新」比預期中的更大,改進顯著,尤其是在數學方面。

智東西將先前實測中,曾難倒舊版DeepSeek-V3和DeepSeek-R1的一道數學題交給新版DeepSeek-V3。這次,DeepSeek-V3輸出的token與原版DeepSeek-V3總量明顯更長,單次輸出達到了輸出上限,在點擊繼續生成後,DeepSeek-V3繼續思考,但這次的答案依舊是錯誤的。
不過,從錯誤的答案中,我們也能觀察到一些新的變化,如今的DeepSeek-V3在給出最終答案後,會進行一定程度的反思,並修改自己的解題過程。

而在智東西先前測試的文科類問題上,新版DeepSeek-V3的答案變得更為全面。智東西的測試問題為:「布須曼人喝不喝牛奶?」舊版DeepSeek-V3對這問題的回答僅有三小段話,資訊量不多。

新版DeepSeek-V3採用了更為結構化的回答模式,分析的內容更為全面,補充了更多的背景信息,同時生成的速度依舊比較理想。

這也印證了部分網友總結出來的特點:新版DeepSeek-V3像是V3與R1的結合體,更傾向用長輸出解決問題。

新版DeepSeek-V3的發布,也讓許多網友不禁遐想:新版V3都來了,R2和V4還會遠嗎?
