DeepSeek新模型寫程式碼能力與o1相當網友:今年編程只剩下Tab鍵
DeepSeek版o1,有消息了。目前尚未正式發布,已在程式碼基準測試LiveCodeBench霸榜前三,表現與OpenAI o1的中檔推理設定相當。注意了,這不是在DeepSeek官方App已經能試玩的DeepSeek-R1-Lite-Preview(輕量預覽版)。
而是摘掉了輕量版的帽子,稱為DeepSeek-R1-Preview(預覽版),意味著替換了規模更大的基礎模型。
LiveCodeBench團隊透露,他們正在與DeepSeek合作評估新模型的能力,在合作過程中,DeepSeek團隊也幫他們找出並解決了評分系統的一些bug。
同時,他們也曬出了目前僅有的一張DeepSeek-R1-Preview的思考過程。
鑑於DeepSeek先前已宣布R1模型將開源,有網友表示,與OpenAI o1程式設計能力相當的開源模型即將發布,2025年的程式設計就只剩下按Tab鍵了。
DeepSeek推理大模型滿血版
兩個月前,DeepSeek在官網上線DeepSeek-R1-Lite-Preview時曾透露:
DeepSeek-R1-Lite-Preview使用密集學習訓練,推理含有大量反思和驗證,遵循新的Scaling Laws——
推理越長,表現越強。
在AIME測試基準中,隨著推理長度的增加,DeepSeek-R1-Lite-Preview表現出穩定的得分提升。
DeepSeek-R1-Lite推理的特點在網友們的後續測試中也得到了驗證:
在某些情況下,模型似乎能夠在產生推理步驟時自我修正,表現出類似原生「自我反思」的能力。不過,沒有訓練資料、模型架構和技術報告/論文的細節,很難確認這一點。
期待未來的開源模型和API!
摘掉Lite的帽子,變成DeepSeek-R1-Preview,意味著換了更大的基礎模型。
之前Lite版就在難度較高數學和程式碼任務上超越o1-preview,大幅領先GPT-4o。
這次在LiveCodeBench上,這次的DeepSeek-R1-Preview的表現又與OpenAI o1-Medium相當,網友們更加期待開源模型和API了。
LiveCodeBench由UC柏克萊、MIT和康乃爾大學團隊推出,旨在對大模型的程式碼能力進行全面且無污染的評估。
具體避免測試資料外洩的方法,是隨著時間的推移不斷從人類的程式設計競賽平台收集新的題目。
除了程式碼生成,還會評估模型在程式碼自修復、執行和測試輸出預測等方面的能力。
這樣即時更新、確保公平性和可靠性的測試方法,獲得了開發者社群的認可。
還有程式猿喊話Cursor直接把R1-Preview整合到Agent mode裡:
還有一件事
趕在春節前,許多還在做訓練的國產大模型團隊,都把自家模型更新了一遍:
MiniMax開源4M超長上下文新模型!性能比肩DeepSeek-v3、GPT-4o
全球首次!國產AI開源端側GPT-4o海外爆火,8B參數iPad就能跑
國內數學最強!實測訊飛版o1:上能打奧賽卷高考,下能輔導寒假作業
阿里開源首個視覺推理模型,擊敗GPT-4o,網頁一度404
OpenAI似乎要趁這邊放假開始搞事情了(狗頭),奧特曼發文透露:
o3-mini完成外部合作測試,已確定最終版,將在幾週內推出,並同時上線API和ChatGPT。
在後續對話中,奧特曼也確認了未來模型更多基本情況:
- o3-mini的速度會非常快
- o3-mini大多數情況下不如o1-pro
- o3 pro收費從$200/月起跑
- OpenAI正在關注如何讓AI一次輸出更多內容
- 2025年計畫把GPT系列和o系列合併
[1]https://x.com/StringChaos/status/1880317308515897761
[2]https://x.com/deepseek_ai/status/1859200149844803724
[3]https://x.com/sama/status/1880356297985638649