DeepSeek狂暴刷屏中推理模型o1性能1/50價格
DeepSeek新發布遠超預期,Reddit/X狂暴刷屏中。這次大事共有3件:開源DeepSeek-R1推理大模型,與o1效能相近。開源DeepSeek-R1-Zero,預訓練模型直接RL,不走SFT,堪稱語言模型的AlphaZero。開源用R1資料蒸餾的Qwen、Llama系列小模型,在某些任務上直接超過GPT-4o。
同時開放官方API,輸入token(命中緩存)價格只有OpenAI o1的1/50,未命中緩存以及輸出token價格約1/27。
論文中被反覆熱議的小細節就更多了:
R1-Zero模型在思考過程中湧現了「頓悟時刻」(aha moment),並自己學會為問題分配更多思考時間。
網友們開始推演接下來的劇情,如果頓悟的力量能被穩定利用……那就不知道會通往何處了。
再有,目前社群猜測OpenAI的o1-pro/o3可能使用了tree-of-agents方法,許多個o1的分身各自回答問題,再透過某種方式選出最優答案。
如果將DeepSeek-R1與Search-o1和Tree-of-Agents(大約50個智能體)結合起來,可以很小的成本獲得與o3類似的性能,最終可能便宜數百倍。
這次DeepSeek總共開源6個在R1資料上蒸餾的小模型,其中蒸餾版Qwen-1.5B都能在部分任務上超過GPT-4o。
DeepSeek也特別更新了開源許可證,現在是MIT Lisence。
R1是開源的,R1資料想跑多少有多少,API可以用於蒸餾和微調,商用是免費的。
新的源神出現了!
01 DeepSeek新發布
OpenAI的o1系列模型率先引入了推理时扩展(inference-time scaling)的概念,通过增加思维链(Chain-of-Thought)推理过程的长度,在数学、编程、科学推理等任务上取得了显著的性能提升。
先前的研究探索了基於過程的獎勵模型、強化學習、蒙特卡羅樹搜尋和束搜尋等方法,但尚未有方法在通用推理表現上達到o1系列模型的水平。
DeepSeek-R1-零
DeepSeek團隊邁出了利用純粹強化學習提升語言模型推理能力的第一步。
他們的目標是探索大模型在沒有任何監督數據的情況下,透過純強化學習過程進行自我進化,從而獲得推理能力。
具體而言,他們使用DeepSeek-V3-Base作為基礎模型,並採用GRPO(Group Relative Policy Optimization)作為強化學習框架來提升模型在推理任務上的表現。
在訓練過程中,DeepSeek-R1-Zero自然而然地湧現出許多強大而有趣的推理行為。
經過數千步驟的強化學習,DeepSeek-R1-Zero在推理基準測試中表現優異。
例如,它在AIME 2024上的pass@1得分從15.6%提高到71.0%,並且通過多數投票,得分進一步提高到86.7%,與OpenAI-o1-0912的表現相當。
DeepSeek-R1
然而,DeepSeek-R1-Zero也面臨可讀性差、語言混雜等挑戰。
為了解決這些問題並進一步提高推理效能,團隊提出了DeepSeek-R1,它結合了少量冷啟動資料和多階段訓練流程。
具體而言,他們首先收集數千個冷啟動資料來微調DeepSeek-V3-Base模型。隨後,他們進行了類似DeepSeek-R1-Zero的面向推理的強化學習。
當接近強化學習過程的收斂時,他們透過在強化學習檢查點上進行拒絕採樣,結合來自DeepSeek-V3在寫作、事實型問答、自我認知等領域的監督數據,創建新的SFT數據,然後重新訓練DeepSeek-V3-Base模型。
使用新數據進行微調後,該檢查點還經歷了一個額外的強化學習過程,考慮到所有場景下的提示。
經過這些步驟,他們獲得了一個稱為DeepSeek-R1的檢查點,其性能與OpenAI-o1-1217不相上下。
R1數據蒸餾模型
DeepSeek團隊進一步探索了從DeepSeek-R1蒸餾到更小的密集模型。使用Qwen2.5-32B作為基礎模型,直接從DeepSeek-R1蒸餾的效果優於在其上應用強化學習。
這表明,更大的基礎模型發現的推理模式對於提高推理能力至關重要。
他們開源了蒸餾的Qwen和Llama系列模型。值得注意的是,他們的蒸餾14B模型在推理基準測試中大幅超過了目前最先進的開源QwQ-32B-Preview,而蒸餾的32B和70B模型在密集模型中樹立了新的推理任務基準。
最後,團隊也把實驗過程中許多失敗的嘗試分享出來,防止後人踩坑。
在過程獎勵模型、蒙地卡羅樹搜尋演算法上,DeepSeek都沒能獲得進展。
不過他們也強調,只是他們失敗了,並不代表這些方法無法發展出有效的推理模型。
未來他們計劃在以下方向繼續投入研究:提升通用能力、解決語言混雜問題、優化提示詞敏感問題,以及改善軟體工程任務的效能。
02 還有一件事
還有英文母語者挑起了論文中的遣詞造句,認為很可能是大模型幫團隊寫的論文。
同時許多人注意到,在DeepSeek的許多論文裡,「DeepSeek-AI」都出現在作者列表的第一位。