蘋果AI科學家研究證明基於LLM的模型有缺陷因為它們無法推理
蘋果人工智慧科學家的一篇新論文發現,基於大型語言模型的引擎(如Meta 和OpenAI 的引擎)仍然缺乏基本的推理能力。該小組提出了一個新的基準–GSM-Symbolic,以幫助其他人衡量各種大型語言模型(LLM)的推理能力。 他們的初步測試表明,查詢措辭的細微變化會導致答案的顯著不同,從而損害模型的可靠性。
研究小組透過在查詢中添加人類可以理解的上下文資訊來研究數學推理的”脆弱性”,但這些資訊不應影響解決方案的基本數學。 這導致了不同的答案,而這是不應該發生的。
該小組在報告中寫道:”具體來說,[即使]在GSM 符號基準中只改變問題中的數值,所有模型的性能都會下降。此外,這些模型中數學推理的脆弱性[表明],隨著問題中分句數量的增加,它們的表現也會顯著下降。
研究發現,即使只增加一個看似與給定數學問題相關的句子,都會使最終答案的準確率降低高達65%。研究得出結論:”根本無法在這個基礎上建立可靠的代理,在這個基礎上改變一兩個無關緊要的單詞或添加一些無關緊要的信息就能得到不同的答案。”
一個能說明問題的特殊例子是一個需要真正理解問題的數學問題。 團隊開發的任務名為”GSM-NoOp”,類似小學生可能會遇到的數學”文字題”。
查詢以得出結果所需的資訊開始。 ” 奧利佛週五摘了44 個獼猴桃。然後週六他摘了58 個獼猴桃。週日,他摘的獼猴桃數量是周五的兩倍。”
然後,查詢添加了一個看似相關但實際上與最終答案無關的子句,指出在周日採摘的獼猴桃中,”有五個比平均值小一點”,而所要求的答案只是問”奧利弗有多少個獼猴桃?
關於週日採摘的一些獼猴桃大小的說明應該與採摘的獼猴桃總數無關。 然而,OpenAI 的模型以及Meta 的Llama3-8b 從總結果中減去了五個較小的獼猴桃。
這個錯誤邏輯得到了2019 年的一項研究的支持,該研究透過詢問前兩屆超級盃四分衛的年齡,可靠地混淆了人工智慧模型。 透過添加他們參加比賽的背景和相關信息,以及在另一場碗賽中擔任四分衛的第三人,模型得出了錯誤的答案。
新研究得出結論:”我們沒有發現語言模型中存在形式推理的證據。LLMS 的行為” 最好用複雜的模式匹配來解釋”,研究發現這種模式匹配”事實上非常脆弱,[僅僅]改變名稱就能改變結果”。