Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

DeepSeek新數學模型刷爆記錄7B小模型自主發現671B模型不會的新技能

DeepSeek新數學模型刷爆記錄7B小模型自主發現671B模型不會的新技能

2025-05-02 Comments 0 Comment

DeepSeek放大招!新模型專注數學定理證明,大幅刷新多項高難基準測試。在普特南測試上,新模型DeepSeek-Prover-V2直接把記錄刷新到49道。目前的第一名在657題中只做出10題,為Kimi與AIME2024冠軍團隊Numina合作成果Kimina-Prover。

而未針對定理證明優化的DeepSeek-R1只做出1道。讓還沒發布的R2更令人期待了。

除測評結果之外,論文中特別報告了「透過強化學習發現新技能」現象。

正如R1帶來了“啊哈時刻”,Prover-V2也有令人意想不到的能力。

具體來說,在普特南測試中,參數量較小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解決了13個671B模型未能解決的問題。

當團隊仔細檢查模型的輸出後發現,其推理方法存在一個獨特模式:7B模型處理涉及有限基數的問題時,經常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型生成的輸出中明顯沒有這些內容。

注意,7B模型是在DeepSeek-Prover-V1.5-Base模型基礎上,先使用671B模型在強化學習階段收集的資料微調,再執行強化學習得來的。

也就是說,7B模型學會了671B模型沒有學會的新技能。

那麼,DeepSeeK-Prover-V2如何煉成的呢?與前代相比又有哪些改進?

形式化與非形式化數學證明統一模型

DeepSeek數學定理證明DeepSeek-Prover系列模型已推出3款:

2024年3月的DeepSeek-Prover(後簡稱為Prover-V1)

2024年8月的DeepSeek-Prover-V1.5(後簡稱為Prover-V1.5)

2025年5月的DeepSeek-Prover-V2(後簡稱為Prover-V2)

Prover-V1主要探討了透過大規模合成資料集微調DeepSeek-Math-7B,來推進定理證明。

Prover-V1.5在此基礎上增加了證明助手回饋的強化學習(RLPAF)和蒙特卡羅樹搜尋方法。

Prover-V2進一步提出“子目標分解的強化學習”,並且基礎模型從DeepSeek-Math-7B升級到DeepSeek-V3。

整合DeepSeek-V3的高上下文視窗和強大的自然語言推理能力,把形式化和非形式化數學證明統一到一個模型中。

Prover-V2也繼承了Prover-V1.5提出的CoT和非CoT產生兩種模式。

接下來,詳細介紹Prover-V2的各主要環節。

透過遞歸證明搜尋合成冷啟動推理數據

利用DeepSeek-V3作為子目標分解和形式化的統一工具建立冷啟動資料集,提示DeepSeek-V3將定理分解為高階證明草圖,同時在Lean 4中將這些證明步驟形式化,從而產生一系列子目標。

使用一個較小的70億參數模型來處理每個子目標的證明搜索,從而減輕相關的計算負擔。一旦一個具有挑戰性的問題的分解步驟得到解決,就將完整的逐步形式化證明與來自DeepSeek-V3的相應思維鏈進行配對,以創建冷啟動推理數據。

使用合成冷啟動資料進行子目標分解的強化學習

團隊精心挑選了一組具有挑戰性的問題,這些問題無法由70億參數量的證明器模型以端到端的方式解決,但所有分解後的子目標都已成功解決。

透過組合所有子目標的證明,為原始問題建立了一個完整的形式化證明。

然後,將此證明附加到DeepSeek-V3的思維鏈中,該思維鏈概述了相應的引理分解,從而實現了非形式化推理與後續形式化的有機結合。

在合成冷啟動資料上對證明器模型進行微調後進行強化學習階段,進一步增強其將非正式推理與形式化證明建構相銜接的能力。遵循推理模型的標準訓練目標,使用二元的正確或錯誤回饋作為獎勵監督的主要形式。

具體訓練細節

兩階段訓練:

DeepSeek-Prover-V2分兩階段建立互補證明產生模式。

第一階段以高效非思維鏈(non-CoT)模式,聚焦快速產生Lean證明程式碼,加速迭代和資料收集。

第二階段基於第一階段成果,採用高精準度思考鏈(CoT)模式,闡述中間推理步驟,以冷啟動思維鏈資料強化學習,提升複雜問題推理能力。

專家迭代:

其中非CoT模式訓練遵循專家迭代範式,以最佳證明策略為難題生成證明嘗試,經Lean驗證,成功的納入監督微調(SFT)資料集。與先前版本相比,訓練問題分佈有調整,引入了額外問題和子目標分解產生的問題。

監督微調:

對DeepSeek-V3-Base-671B做監督微調,訓練語料包含兩個互補來源的資料:

一是透過專家迭代收集的非CoT數據,這些數據產生的Lean程式碼不包含中間推理步驟,主要用於強化模型在Lean 定理證明生態系中的形式驗證技能。

二是冷啟動CoT數據,這些數據將DeepSeek-V3的先進數學推理過程提煉為結構化的證明路徑,明確地模擬了將數學直覺轉化為形式證明結構的認知過程。

強化學習:

採用GRPO演算法,與傳統的PPO不同,GRPO無需單獨的裁判模型,它透過為每個定理提示採樣一組候選證明,並根據它們的相對獎勵來優化策略。

訓練過程中使用二元獎勵機制,即生成的Lean證明若被驗證正確則獲得獎勵1,否則為0。

為確保學習效果,精心挑選訓練提示,僅包含那些有足夠挑戰性但又能被監督微調後的模型解決的問題。

蒸餾DeepSeek-Prover-V2 7B

將DeepSeek-Prover-V1.5-Base-7B上下文視窗擴展到32768個token,用DeepSeek-Prover-V2-671B數據微調,融入非CoT證明數據,以便利用小模型產生簡潔的形式化輸出,提供一種經濟高效的證明選項。

此外,對DeepSeek-Prover-V2-7B執行與671B模型訓練中相同的強化學習階段,以進一步提升其表現。

由此得到的模型Prover-V2 671B在神經定理證明方面達到了最先進的性能,在miniF2F測試中的通過率達到88.9%,並解決了普特南測試中的49道。 Prover-V2為miniF2F資料集產生的證明可單獨下載。

ProverBench:AIME和教科書問題的形式化

與Prover-V2一起推出ProverBench,這是一個包含325個問題的基準資料集。其中,有15個問題是從近期美國數學邀請賽(AIME 24和25)的數論與代數題目中形式化而來,提供了真實的高中競賽水準挑戰。其餘310個問題則取自精心挑選的教科書範例和教學教程,構成了一套多樣化且基於教學需求的形式化數學問題集合。該基準旨在能夠對高中競賽問題和本科階段數學問題進行更全面的評估。

DeepSeek-Prover-V2系列在三個資料集上評測的最後總成績如下:

DeepSeek全明星陣容

Prover-V2的作者共18人,共同一作ZZ Ren, 邵智宏、辛華劍都是參與過V3、R1以及Prover系列前作的主力成員。

作者名單中出現了幾位未參與前兩代版本(Prover-V1、Prover-V1.5)的研究者。

例如Shirong Ma,清華本碩。公開資料顯示,他於去年畢業後即加入DeepSeek,現為DeepSeek研究員,此前參與了從DeepSeek LLM v1到R1以及DeepSeek-Coder等工作。

還有Zhe Fu、Yuxuan Liu。

雖然他們都沒出現在Prover-V1、Prover-V1.5的作者名單中,但皆為DeepSeek資深成員。

在Prover-V1/V1.5同一期發表的《Fire-Flyer AI-HPC》研究中可見其署名。

研究提出的Fire-Flyer AI-HPC架構,透過軟硬體協同設計降低訓練成本,解決傳統超算架構在AI訓練需求上的不足。

不過這次Prover-V2的論文中並未提及在訓練或推理基礎設施具體有哪些最佳化策略。

最後還有一位新面孔Hongxuan Tang,暫未了解到具體資訊。

Prover-V2發表後迅速引發社群關注,GitHub倉庫12小時內即獲得350+星標。

在X(原Twitter)、抱抱臉等平台,網友們展開熱烈討論。

Prover-V2核心貢獻者邵智宏在個人帳號主動推廣研究成果。

X工程師@kache特別讚賞:

感謝你們對開放科學研究的奉獻。

普林斯頓大學助理教授Chi Jin表示:

恭喜這項驚人的工作!在miniF2F上攻克最後10%-20%的問題標誌著能力上的重大飛躍。目前形式化數學領域的競爭態勢堪稱激烈,難以置信Kimina僅維持了兩週SOTA就被DeepSeek超越。

就連Kimina-Prover核心貢獻者@Marco Dos Santos都來送上了祝賀:

恭喜DeepSeek AI團隊將miniF2F任務的SOTA提升到了89%!

很高興看到長思維鏈方法正在被其他團隊獨立探索且呈現出一些有趣的差異。形式數學如今比以往任何時候都更受歡迎!

另外,網友們最關注的問題還是:R2什麼時候發布啊~

論文:

按一下以存取 DeepSeek_Prover_V2.pdf

模型:

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

DeepSeek-Prover

https://arxiv.org/abs/2405.14333

DeepSeek-Prover-V1.5

https://arxiv.org/abs/2408.08152

參考連結:

[1]https://trishullab.github.io/PutnamBench/leaderboard.html

[2]https://x.com/zhs05232838/status/1917600755936018715

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
英偉達高層與美國眾議院閉門會議提及DeepSeek R1在中企晶片上訓練
NEXT
成本低、續航長福特表示研發LMR電池取得新突破

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 川普結束與普丁長達兩小時的通話稱俄烏將立即開始停火談判 2025-05-20
  • 蘋果或將被迫將《要塞英雄》重新上架美國區App Store 2025-05-20
  • Apple Filling 檔案共享協定即將從macOS 中徹底消失 2025-05-20
  • Google簽署另一項大規模太陽能協議為其資料中心供電 2025-05-20
  • 研究發現當人工智慧知道你是誰之後就能輕易在辯論中擊敗你 2025-05-20
  • 法官命令蘋果遵守2021年”反轉向”禁令否則將被請回法庭 2025-05-20
  • 摩根大通CEO傑米戴蒙宣布銀行將允許客戶購買比特幣 2025-05-20
  • 世界上第一隻基因編輯蜘蛛產出紅色螢光絲 2025-05-20
  • DELL Pro Max Plus頂級性能本發布可在家中實現雲端等級的AI效能 2025-05-20
  • 微軟員工再次擾亂Satya Nadella 的主題演講 2025-05-20

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • Red Hat Enterprise Linux 10 正式發布
  • Adobe Zii v4.5.0 CC 2019/5.1.4 2020 Universal Patcher Mac- Adob​​e for Mac激活工具
  • Windows及OFFICE激活密鑰+電話激活教程–自用
  • 網站未在Google上顯示(未編入索引)的可能原因及解決方案
  • GaN-on-Si和GaN-on-SiC的路線之爭
  • Autodesk AutoCAD 2021 正式版註冊版-簡體/繁體中文/英文版
  • ROG NUC 2025迷你遊戲PC上市:Ultra 9 275HX+RTX 5080首發24999元
  • 揭密蘋果製造工廠:每年的支出可以造兩艘航母
  • 三星Galaxy S25 系列官方桌布下載

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.