攻擊DeepSeek最弱的地方可以發現什麼?
DeepSeek和o1/o3一類推理大模型持續帶來震撼之際,有人開始研究他們的弱點了。最新研究揭示:在遇到高難度問題時,推理大模型可能像「三心二意的學生」一樣頻繁切換解題思路,卻因缺乏深入探索而失敗——這種現像被研究者稱為Underthinking(欠思考)。

研究團隊來自騰訊AI實驗室、蘇州大學和上海交通大學,主要研究對象為開源的DeepSeek-R1和Qwen QwQ系列模式。

透過分析AI的錯誤答案,他們發現當前的推理大模型經常在思考早期就走上了正確的路線,但傾向於“淺嘗輒止”,很快開始探索別的思路,導致後續生成的數千個tokens對解題毫無貢獻。
这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。
「三心二意」是罪魁禍首
這現像在解決數學競賽題等較為複雜任務時尤為明顯。
為了系統分析,團隊在三個具有挑戰性的測試集MATH500、GPQA Diamond和AIME2024上,對類o1模型QwQ-32B-Preview、DeepSeek-R1-671B等進行了實驗。
下圖比較了正確和錯誤回答中的token使用量和思維切換次數。平均來看,類o1模型在錯誤回答中比正確回答多消耗了225%的token,原因是思維切換頻率增加了418%。

為了深入分析這個現象,研究團隊開發了一套評估框架,用於判斷被放棄的推理路徑是否實際上足以推導出正確答案。
結果觀察到,許多模型在回答開頭階段的想法是正確的,但並未繼續深入完成推理。

超過70%的錯誤回答中至少包含一個正確的思路。此外,在超過50%的錯誤回答中,有10%以上的想法是正確的。

如下圖所示的例子,例如,Thought 1透過識別給定方程類似於以(0,0)和(20,11)為中心的橢圓方程,啟動了正確的解釋。將兩個表達式設為相等,是尋找滿足這兩個方程式的公共點(x,y)的有效方法。
然而,模型並未專注於深入探索這一合理思路,使用進一步的代數操作和優化技術進行分析,而是頻繁切換思路,額外消耗了約7270個token,卻依然未能得出正確答案。
最終,它得出一個缺乏擴展COT過程支持的猜測答案。

基於這些觀察,研究人員提出了一個用於量化Underthinking程度的指標(Underthinking Metric)。

這個指標透過測量錯誤答案中的token使用效率來評估推理效率,計算從答案開始到第一個正確思路出現所需的token數量與總token數量的比值。
实验结果表明,所有测试的类o1模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。
在MATH500-Hard和GPQA Diamond資料集上,表現更優的DeepSeek-R1-671B模型在取得更高準確率的同時,其UT得分也更高,顯示錯誤回答中存在更多思維不足。
這意味著,儘管模型整體能力更強,但在不確定時可能產生更長但效率較低的推理過程,可能是因為模型探索了多個錯誤的推理路徑,卻未能有效收斂到正確解答。
相反,在AIME2024測試集中,DeepSeek-R1-671B模型不僅取得了更高的準確率,還表現出較低的UT得分,反映出較少的思維不足和更高的token效率。
這表明模型在該任務中,即使未得出正確答案,其推理過程依然保持專注和高效,團隊表示這可能是因為模型與AIME2024所要求的問題類型和推理過程更好地對齊。

理解思考不足現象對於發展能夠提供正確答案並具備有效推理過程的模型至關重要。
如何讓AI學會“一心一意”
如何讓模型像優秀學生一樣「沉下心來鑽研」?
研究者藉鑒了人類考試策略,提出了一種「思路切換懲罰機制」(Thought Switching Penalty,TIP)。
其原理類似考試時給自己定規矩:「先專注當前方法,至少嘗試10分鐘再換想法」。
技術細節上,TIP會對觸發思路切換的關鍵字施加懲罰,降低這些字在解碼過程中的生成機率,迫使模型在目前路徑上探索更久。
例如,當模型開始寫「Alternatively,we can consider…」時,TIP會透過調整參數(懲罰強度α和持續時間β),抑制這種過早的切換傾向。

實驗結果顯示,加入TIP能讓模型在數學測驗上的準確率上升,同時UT Score下降,顯示既減少了無效切換,又提高了答案品質。
例如在AIME2024數學競賽測驗上,加入TIP的QwQ-32B-Preview模型準確率從41.7%提升至45.8%,同時UT Score從72.4降至68.2。

而這種「無痛升級」無需重新訓練模型,僅需調整解碼策略,展現了其實用價值。
還有一件事
UC Berkeley教授Alex Dimakis幾乎同時分享了類似的觀察:
對於DeepSeek-R1和所有推理模型,錯誤的答案更長,而正確的答案要短得多。
基於此,他們提出一個簡單的解決辦法,稱為「簡潔解碼」(Laconic decoding)。
並行運行5次模型,從答案中選擇tokens最少的。
初步實驗結果表示,簡潔解碼在AIME2024測試上能提高6%-7%的準確率,比Consensus Decoding更好、更快。

論文網址:https://arxiv.org/abs/2501.18585
參考連結: