蘋果最新論文:LLM只是複雜的模式匹配而不是真正的邏輯推理
大語言模型真的可以推理嗎? LLM 都是「參數匹配大師」?蘋果研究員質疑LLM 推理能力,稱其「不堪一擊」!蘋果的研究員Mehrdad Farajtabar 等人最近發表了一篇論文,對大型語言模型(LLM) 的推理能力提出了尖銳的質疑,他認為,LLM 的“推理” 能力,其實只是複雜的模式匹配,不堪一擊!
論文作者研究了包括Llama、Phi、Gemma、Mistral 等開源模型,以及GPT-4o 和o1 系列等閉源模型。需要指出的是,在OpenAI 發布GSM8K 的三年裡,模型的性能有了顯著提升,從GPT-3 (175B) 的35% 提升到了現在30 億參數模型的85% 以上,更大的模型甚至超過了95%。但Farajtabar 認為,這並不能證明LLM 的推理能力真的提高了
為了測試LLM 的數學推理能力的極限,Farajtabar 和他的團隊開發了一個名為 GSM-Symbolic 的新工具,它可以根據GSM8K 測試集創建符號模板,從而能夠產生大量實例並設計可控實驗。他們產生了50 個獨特的GSM-Symbolic 集合,這些集合本質上就像GSM8K 範例,但具有不同的值和名稱
GSM8K 是「Grade School Math 8K」 的縮寫,是用來評估數學問題解決能力的資料集。這個資料集主要包含小學等級的數學題目(大約8,000 題目),通常用於訓練和測試機器學習模型,特別是在自然語言處理領域的模型如何處理和解決數學問題
實驗結果,令人大跌眼鏡:
1.目前GSM8K 的準確率並不可靠! 不同模型在GSM8K 上的表現差異巨大,例如Llama 8B 的得分在70% 到80% 之間,Phi-3 的得分在75% 到90% 之間,等等。對於大多數模型,在GSM-Symbolic 上的平均性能低於在GSM8K 上的平均性能
2.所謂的LLM 推理能力不堪一擊! LLM 對專有名詞和數字的更改非常敏感,這說明它們並沒有真正理解數學概念。就像一個小學生,如果我們只是更改了數學測驗題中的人名,他的分數就會下降10% 嗎?顯然不會
3.隨著問題難度的增加(M1 → Symbolic → P1 → P2)。引入了GSM-Symbolic 的三個新變體來研究模型行為:刪除一個分句(GSM-M1)、增加一個分句(GSM-P1)或增加兩個分句(GSM-P2),模型的性能下降,方差上升, 這意味著模型的可靠性越來越差
4.引入GSM-NoOp 後,模型性能斷崖式下跌! GSM-NoOp 是在GSM-Symbolic 的基礎上,增加了一個看似相關但不影響整體推理的子句。所有模型,包括o1 模型,都表現出了顯著的性能下降。這說明,即使是強大的o1 模型,也無法真正理解數學問題的邏輯結構
5.即使是OpenAI 的o1 系列模型,也無法完全避免這些問題。 o1-preview 雖然有所改進,但仍然會犯一些低級錯誤,例如無法理解“現在”和“去年”的區別,這可能是因為訓練數據中包含了“通貨膨脹”的模式,模型只是簡單地模仿了這種模式
Farajtabar 認為,
LLM 的這些表現,更好地解釋是複雜的模式匹配,而不是真正的邏輯推理。 即使我們增加數據、參數和計算量,或使用更好的訓練數據,也只是得到了“更好的模式匹配器”,而不是“更好的推理器”
Denny Zhou (Google DeepMind 的LLM 推理團隊負責人) 也參與了討論,他指出:
「這項工作的一個關鍵發現是:向GSM8k 問題添加不相關的上下文會導致LLM 無法解決這些問題,正如我們在ICML 2023 年的論文’大型語言模型很容易被不相關的上下文分散注意力’ 中所證明的那樣。
Yuandong Tian (Meta AI 的研究科學家總監) 也表達了他的觀點:
「核心問題是:憑藉我們的領域知識,我們可以建立權重,使LLM 在特定問題中進行良好的推理;然而,梯度下降可能無法學習到這樣的權重;我們仍然依賴梯度下降,因為它為許多領域帶來了魔力——如果它在其他領域變得愚蠢,我們也無能為力。
結論
總的來說,這篇論文研究結果沒有在包括Llama、Phi、Gemma 和Mistral 等開源模型,以及最近的OpenAI GPT-4o 和o1 系列等領先閉源模型在內的語言模型中,找到任何形式推理的證據。他們的行為可以用複雜的模式匹配來更好地解釋——如此脆弱,以至於更改名稱都會使結果改變約10%!我們可以擴展資料、參數和計算量——或為Phi-4、Llama-4、GPT-5 使用更好的訓練資料。但這可能只會產生“更好的模式匹配器”,而不是“更好的推理器”