DeepSeek新數學模型刷爆記錄7B小模型自主發現671B模型不會的新技能
DeepSeek放大招!新模型專注數學定理證明,大幅刷新多項高難基準測試。在普特南測試上,新模型DeepSeek-Prover-V2直接把記錄刷新到49道。目前的第一名在657題中只做出10題,為Kimi與AIME2024冠軍團隊Numina合作成果Kimina-Prover。
而未針對定理證明優化的DeepSeek-R1只做出1道。讓還沒發布的R2更令人期待了。

除測評結果之外,論文中特別報告了「透過強化學習發現新技能」現象。
正如R1帶來了“啊哈時刻”,Prover-V2也有令人意想不到的能力。

具體來說,在普特南測試中,參數量較小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解決了13個671B模型未能解決的問題。
當團隊仔細檢查模型的輸出後發現,其推理方法存在一個獨特模式:7B模型處理涉及有限基數的問題時,經常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型生成的輸出中明顯沒有這些內容。
注意,7B模型是在DeepSeek-Prover-V1.5-Base模型基礎上,先使用671B模型在強化學習階段收集的資料微調,再執行強化學習得來的。
也就是說,7B模型學會了671B模型沒有學會的新技能。

那麼,DeepSeeK-Prover-V2如何煉成的呢?與前代相比又有哪些改進?
形式化與非形式化數學證明統一模型
DeepSeek數學定理證明DeepSeek-Prover系列模型已推出3款:
2024年3月的DeepSeek-Prover(後簡稱為Prover-V1)
2024年8月的DeepSeek-Prover-V1.5(後簡稱為Prover-V1.5)
2025年5月的DeepSeek-Prover-V2(後簡稱為Prover-V2)
Prover-V1主要探討了透過大規模合成資料集微調DeepSeek-Math-7B,來推進定理證明。
Prover-V1.5在此基礎上增加了證明助手回饋的強化學習(RLPAF)和蒙特卡羅樹搜尋方法。
Prover-V2進一步提出“子目標分解的強化學習”,並且基礎模型從DeepSeek-Math-7B升級到DeepSeek-V3。
整合DeepSeek-V3的高上下文視窗和強大的自然語言推理能力,把形式化和非形式化數學證明統一到一個模型中。
Prover-V2也繼承了Prover-V1.5提出的CoT和非CoT產生兩種模式。

接下來,詳細介紹Prover-V2的各主要環節。
透過遞歸證明搜尋合成冷啟動推理數據
利用DeepSeek-V3作為子目標分解和形式化的統一工具建立冷啟動資料集,提示DeepSeek-V3將定理分解為高階證明草圖,同時在Lean 4中將這些證明步驟形式化,從而產生一系列子目標。
使用一個較小的70億參數模型來處理每個子目標的證明搜索,從而減輕相關的計算負擔。一旦一個具有挑戰性的問題的分解步驟得到解決,就將完整的逐步形式化證明與來自DeepSeek-V3的相應思維鏈進行配對,以創建冷啟動推理數據。

使用合成冷啟動資料進行子目標分解的強化學習
團隊精心挑選了一組具有挑戰性的問題,這些問題無法由70億參數量的證明器模型以端到端的方式解決,但所有分解後的子目標都已成功解決。
透過組合所有子目標的證明,為原始問題建立了一個完整的形式化證明。
然後,將此證明附加到DeepSeek-V3的思維鏈中,該思維鏈概述了相應的引理分解,從而實現了非形式化推理與後續形式化的有機結合。
在合成冷啟動資料上對證明器模型進行微調後進行強化學習階段,進一步增強其將非正式推理與形式化證明建構相銜接的能力。遵循推理模型的標準訓練目標,使用二元的正確或錯誤回饋作為獎勵監督的主要形式。

具體訓練細節
兩階段訓練:
DeepSeek-Prover-V2分兩階段建立互補證明產生模式。
第一階段以高效非思維鏈(non-CoT)模式,聚焦快速產生Lean證明程式碼,加速迭代和資料收集。
第二階段基於第一階段成果,採用高精準度思考鏈(CoT)模式,闡述中間推理步驟,以冷啟動思維鏈資料強化學習,提升複雜問題推理能力。
專家迭代:
其中非CoT模式訓練遵循專家迭代範式,以最佳證明策略為難題生成證明嘗試,經Lean驗證,成功的納入監督微調(SFT)資料集。與先前版本相比,訓練問題分佈有調整,引入了額外問題和子目標分解產生的問題。
監督微調:
對DeepSeek-V3-Base-671B做監督微調,訓練語料包含兩個互補來源的資料:
一是透過專家迭代收集的非CoT數據,這些數據產生的Lean程式碼不包含中間推理步驟,主要用於強化模型在Lean 定理證明生態系中的形式驗證技能。
二是冷啟動CoT數據,這些數據將DeepSeek-V3的先進數學推理過程提煉為結構化的證明路徑,明確地模擬了將數學直覺轉化為形式證明結構的認知過程。
強化學習:
採用GRPO演算法,與傳統的PPO不同,GRPO無需單獨的裁判模型,它透過為每個定理提示採樣一組候選證明,並根據它們的相對獎勵來優化策略。
訓練過程中使用二元獎勵機制,即生成的Lean證明若被驗證正確則獲得獎勵1,否則為0。
為確保學習效果,精心挑選訓練提示,僅包含那些有足夠挑戰性但又能被監督微調後的模型解決的問題。
蒸餾DeepSeek-Prover-V2 7B
將DeepSeek-Prover-V1.5-Base-7B上下文視窗擴展到32768個token,用DeepSeek-Prover-V2-671B數據微調,融入非CoT證明數據,以便利用小模型產生簡潔的形式化輸出,提供一種經濟高效的證明選項。
此外,對DeepSeek-Prover-V2-7B執行與671B模型訓練中相同的強化學習階段,以進一步提升其表現。
由此得到的模型Prover-V2 671B在神經定理證明方面達到了最先進的性能,在miniF2F測試中的通過率達到88.9%,並解決了普特南測試中的49道。 Prover-V2為miniF2F資料集產生的證明可單獨下載。

ProverBench:AIME和教科書問題的形式化
與Prover-V2一起推出ProverBench,這是一個包含325個問題的基準資料集。其中,有15個問題是從近期美國數學邀請賽(AIME 24和25)的數論與代數題目中形式化而來,提供了真實的高中競賽水準挑戰。其餘310個問題則取自精心挑選的教科書範例和教學教程,構成了一套多樣化且基於教學需求的形式化數學問題集合。該基準旨在能夠對高中競賽問題和本科階段數學問題進行更全面的評估。

DeepSeek-Prover-V2系列在三個資料集上評測的最後總成績如下:

DeepSeek全明星陣容
Prover-V2的作者共18人,共同一作ZZ Ren, 邵智宏、辛華劍都是參與過V3、R1以及Prover系列前作的主力成員。

作者名單中出現了幾位未參與前兩代版本(Prover-V1、Prover-V1.5)的研究者。
例如Shirong Ma,清華本碩。公開資料顯示,他於去年畢業後即加入DeepSeek,現為DeepSeek研究員,此前參與了從DeepSeek LLM v1到R1以及DeepSeek-Coder等工作。

還有Zhe Fu、Yuxuan Liu。
雖然他們都沒出現在Prover-V1、Prover-V1.5的作者名單中,但皆為DeepSeek資深成員。
在Prover-V1/V1.5同一期發表的《Fire-Flyer AI-HPC》研究中可見其署名。

研究提出的Fire-Flyer AI-HPC架構,透過軟硬體協同設計降低訓練成本,解決傳統超算架構在AI訓練需求上的不足。
不過這次Prover-V2的論文中並未提及在訓練或推理基礎設施具體有哪些最佳化策略。
最後還有一位新面孔Hongxuan Tang,暫未了解到具體資訊。
Prover-V2發表後迅速引發社群關注,GitHub倉庫12小時內即獲得350+星標。

在X(原Twitter)、抱抱臉等平台,網友們展開熱烈討論。
Prover-V2核心貢獻者邵智宏在個人帳號主動推廣研究成果。

X工程師@kache特別讚賞:
感謝你們對開放科學研究的奉獻。

普林斯頓大學助理教授Chi Jin表示:
恭喜這項驚人的工作!在miniF2F上攻克最後10%-20%的問題標誌著能力上的重大飛躍。目前形式化數學領域的競爭態勢堪稱激烈,難以置信Kimina僅維持了兩週SOTA就被DeepSeek超越。

就連Kimina-Prover核心貢獻者@Marco Dos Santos都來送上了祝賀:
恭喜DeepSeek AI團隊將miniF2F任務的SOTA提升到了89%!
很高興看到長思維鏈方法正在被其他團隊獨立探索且呈現出一些有趣的差異。形式數學如今比以往任何時候都更受歡迎!

另外,網友們最關注的問題還是:R2什麼時候發布啊~


論文:
模型:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
DeepSeek-Prover
https://arxiv.org/abs/2405.14333
DeepSeek-Prover-V1.5
https://arxiv.org/abs/2408.08152
參考連結:
[1]https://trishullab.github.io/PutnamBench/leaderboard.html
[2]https://x.com/zhs05232838/status/1917600755936018715