別讓大模型想太多過度思考會影響效能
加州大學柏克萊分校、蘇黎世聯邦理工學院等多所高校的研究人員,深入剖析了大模型在執行Agent任務時面臨的困境——過度思考。為了量化這種行為,研究人員開發了一套系統評估框架,並透過4018個軌跡分析發現,高推理努力配置的模型雖然解決了29.1%的問題,但成本高達1400美元;而低推理努力配置則以3.5倍更低的成本達到了21.0%的成功率。
此外,產生兩個低推理解決方案並選擇其中一個具有較低過度思考得分的方法,實現了27.3%的解決率,同時減少了43%的計算成本。這表明減輕過度思考不僅提高了推理效率,還顯著降低了成本。

開源位址:https://github.com/AlexCuadron/ThinkingAgent
過度思考是指,大模型過度依賴內在推理,而忽略了從環境中獲取或整合關鍵回饋的傾向。即使在資源不受限制的情況下,這種過度依賴內部推理的模型仍然會受到其不完整或不準確的世界模型的限制,從而導致錯誤的累積和決策能力的下降。
為了深入研究這種現象,研究者透過分析智能體與環境之間的互動過程,辨識出三種過度思考的典型表現模式。
首先是「分析癱瘓」(Analysis Paralysis),在這種情況下,模型過度專注於未來的規劃,而忽略了當前環境中的實際進展。它們會產生越來越複雜的行動序列,但卻難以系統地執行這些計劃,從而陷入無休止的規劃循環中。

其次是「魯莽行動」(Rogue Actions),在這種模式下,模型在面對錯誤時會嘗試同時執行多個相互依賴的行動,而沒有等待環境對前一個行動的回饋,模型試圖用內部模擬來取代真實的環境回饋。
最後是「過早脫離」(PrematureDisengagement),在這種情況下,模型是基於內部對問題空間的模擬而終止任務,而不是根據環境回饋來驗證解決方案的有效性。這種過度依賴內部推理的行為可能導致模型在沒有驗證的情況下就放棄任務,或錯誤地認為問題無法解決。
為了量化過度思考行為,研究團隊開發了一種系統化的評分方法,使用大模型作為評判標準。此方法透過分析模型軌跡,辨識出上述三種過度思考模式,並給予0到10分的評分,分數越高表示過度思考越嚴重。每個評分都附有詳細的理由,解釋所識別的模式及其嚴重程度。完整的評估提示和評分標準可以在附錄A中找到。

為了驗證自動化評估方法的可靠性,研究人員邀請了四位專家手動評估了20個隨機選擇的模型軌跡。透過標準化評分,研究團隊進行了全面的統計分析,探討過度思考行為與模型表現的關係,以及過度思考對推理模型和非推理模型的不同影響。
結果顯示,推理模型的過度思考分數顯著高於非推理模型,且兩者之間的相關性非常強,證實了自動評估方法的可靠性。
此外,研究團隊設計了一個系統化評估軌跡的提示,避免使用「過度思考」一詞以防止模型偏向自身定義。該提示圍繞著過度思考的三種表現形式展開,即分析癱瘓、魯莽行為和過早脫離,並強調偏好內部推理鏈而非環境互動。

評分系統分為三檔:0-3分錶示適當的環境互動,4-7分錶示偶爾過度依賴內部推理,8-10分則表示完全脫離環境回饋。
透過提供具體的例子,如模型得0分時會持續重試類似配置並在每次嘗試間等待回饋,而得10分時會產生多個互依動作而不等待環境響應,或基於內部推理提前結束任務,確保評分標準的透明和一致。
實驗結果表明,過度思考評分與任務解決率呈現顯著的負相關性。推理模型的過度思考分數越高,其在軟體工程任務的表現越差。這一趨勢在非推理模型中也得到了體現,但其下降速度更快。例如,推理模型的趨勢線斜率為-7.894,而非推理模型的趨勢線斜率達到了-15.938。
在模型類型與過度思考的關係方面,作者發現推理模型的過度思考傾向明顯高於非推理模型。實驗數據顯示,推理模型的平均過度思考分數為3.505,而非推理模型的平均分數為2.228。這種傾向可能是由於推理模型在訓練過程中被優化為產生更長的推理鏈,從而在面對需要頻繁與環境互動的任務時,表現出更高的過度思考傾向。
此外,也研究了模型規模對過度思考的影響。實驗結果表明,模型規模與過度思考評分之間存在負相關性。較小的模型,如7B和14B參數的模型在互動式任務中表現出較高的過度思考傾向,而較大的模型如671B參數的模型則相對較低。這現象可能與模型的複雜性和對環境回饋的處理能力有關。