GPT-4不是世界模型ACL力證LLM永遠無法模擬世界
大模型是世界模型嗎? UA微軟等機構最新研究發現,GPT-4在複雜環境的模擬中,準確率甚至不如60%。對此,LeCun興奮地表示,世界模型永遠都不可能是LLM。一直以來,對LLM的支援觀點之一,就是模型可以整合海量事實知識,作為通往「世界模擬器」的基礎。雖然也有不少人提出反對,但沒有真憑實據。那麼,LLM可以作為世界模擬器嗎?
最近,亞利桑那大學、微軟、霍普金斯大學等機構聯合發布了一篇論文,從實證的角度得出了否定的結論。
最新研究已被ACL 2024頂會接收。
論文網址:https://arxiv.org/pdf/2406.06485
研究發現,GPT-4在模擬基於常識任務的狀態變化時,例如燒開水,準確度僅有60%。
論文認為,儘管像GPT-4這樣的模型表現很驚艷,但如果沒有進一步創新,它就不能成為可靠的世界模型。
為了量化LLM的規劃能力,作者提出了一個全新的基準測試——bytesized32-state-prediction,並在上面運行了GPT-4模型。
基準測試的程式碼和資料也已經在GitHub上開源,可以幫助未來的研究繼續探查LLM的能力優缺點。
一向對自回歸語言模型無感的LeCun也轉發了這篇論文。
他用了非常強硬的語氣表示,「沒有世界模型,就沒有規劃能力」。
雖然如此,只憑一篇論文又怎麼能平息LLM界的重大分歧?支持語言模型的網友很快就在留言區下面反駁LeCun——
網友:目前的LLM能達到約60%的準確率(不專門為任務進行訓練),這至少是某種「世界模型」了,而且每一代LLM都在提升。
LeCun:世界模型不會是LLM。
網友:也許吧。但這並不意味著LLM內部不存在某種(不準確的)世界模型。
不過,在Hinton看來,AI已經不再是僅僅依賴過去,基於統計模型做下一個token的預測,而是展現出更高的「理解」能力。
然而,大模型想要成為世界終極模擬器,還很遠。
LLM是「世界模擬器」嗎?
模擬世界,對於AI學習和理解世界至關重要。
以往,在多數情況下,可用模擬的廣度和深度受到現實的限制。因需要人類專家耗費數週,甚至數月的時間做大量的工作。
而現在,大模型提供了一種替代的方法,即透過預訓練資料集中大量知識,獲得對世界的深刻理解。
但是,它們準備好,直接用作模擬器了嗎?
對此,這項研究的團隊在「文本遊戲」這一領域,來檢驗這個問題。
一般來說,在世界建模和模擬的背景下,應用LLM有兩種方式:一是神經符號化方法;二是直接模擬。
論文中,作者們首次對LLM直接模擬虛擬環境的能力,進行了量化分析。
他們利用JSON模式的結構化表示作為腳手架(scaffold),不僅提高了模擬精度,還可以直接探查LLM在不同領域的能力。
結果發現,GPT-4普遍無法捕捉與智能體行為無直接關聯的「狀態轉移」(state transition)。
甚至還包括,涉及算術、常識,或科學推理的狀態轉移。
在各種不同條件下,模擬一些複雜環境變化時,GPT-4的準確率不如59.9%。
同時也表明,LLM還不足以可靠地充當世界模擬器。
那麼,研究者俱體如何實現的呢?
研究方法
在文本環境中,智能體透過自然語言,完成特定的目標。
他們將文本的虛擬環境形式化,建模為馬可夫決策過程(POMDP),共有7個元組:S, A, T , O, R, C, D。
其中,S表示狀態空間,A表示行動空間,T:S×A→S表示狀態轉移函數,O表示觀測函數,R:S×A→R表示獎勵函數,C表示用自然語言描述目標和動作語義的“上下文資訊”,D:S×A→{0,1}表示二元指示函數,以0或1標記智能體是否完成任務。
其中,上下文C為模型提供了除環境外的額外信息,例如行動規則、物體屬性、評分規則和狀態轉換規則等等。
然後,研究人員還提出了一個預測任務,稱為LLM-as-a-Simulator(LLM-Sim),作為定量評估大模型作為可靠模擬器的能力的一種方法。
LLM-Sim任務被定義為實作一個函數
作為世界模擬器,將給定的上下文、狀態和動作(即
)映射到後續的狀態、獎勵和遊戲完成狀態(即
)。
每個狀態轉移用如下的九元組表示:
實際上,整個狀態轉換模擬器F,應該考慮兩種類型的狀態轉移:行為驅動和環境驅動的轉移。
對於圖1的範例,行為驅動的狀態轉移是在執行「開啟水槽」動作後,水槽被打開。而環境驅動的轉移是,當水槽打開時,水將填滿槽中的杯子。
此外,LLM的預測模式也分為兩種:預測下一步的完整狀態,或預測兩個時刻之間的狀態差。
為了更好地理解LLM對於每種狀態轉移的建模能力,研究人員進一步將模擬器函數F分解為三種類型:
評估結果
建模了LLM的決策過程後,作者也同樣用文本建構了一個虛擬人物場景。
Bytesized32-SP基準測試的資料來自於公開的Bytesized32語料庫,其中有32個人類別編寫的文字遊戲。
留出一個遊戲當gold label後,測試集總共涉及31個遊戲場景,7.6萬多個狀態轉換。
LLM根據上下文和前一個狀態進行單步預測,給出下一步時的物體屬性、任務進度等資訊。
在規則方面,研究人員也提出了三種設定:由遊戲作者撰寫、由LLM自動生成,或根本不提供規則。
設定好虛擬環境和任務規則後,作者執行GPT-4進行預測得到以下結果。
為了嚴謹起見,作者根據狀態轉移前後預測結果是否有變化,分成static和dynamic兩類分開統計。如果前後兩個狀態中,結果並沒有發生變化,LLM也會更容易預測。
不出意料,static一欄的準確率基本上都高於dynamic。
對於「靜態」轉移,模型在預測狀態差時表現較好。 「動態轉移」則相反,在完整狀態預測中得分較高。
作者猜測,這可能是由於預測狀態差時需要減少潛在的格式錯誤,這會為任務輸出帶來額外的複雜性。
也可以看到,預測動作驅動的狀態轉移的準確率往往高於環境驅動類別。在dynamic欄,前者預測最高分有77.1,而後者最高只有49.7。
此外,遊戲規則如何制定會很大程度上影響LLM的表現。
如果不提供遊戲規則,LLM預測的表現會有明顯的大幅下降,但規則由人類制定或LLM自動產生並不會顯著影響準確率。
相較之下,規則制定對遊戲進度預測的影響則更加明顯。
相較於人類規則,LLM生成規則時,GPT-4的預測有超過10個百分點的提升。難道真的是LLM之間比較能互相理解?
以上結果都只是針對LLM在不同設定下的效能比較。和人類預測相比,結果如何呢?
為此,4位論文作者親自上陣和GPT-4一較高下。
不知道李世石看到這個結果會不會有安慰。人類的整體準確率在80%左右,遠高於GPT-4在50%附近徘徊的成績,顯示了規劃能力上的重大差距。
對於規劃任務中的單步預測模型,每一步的模擬誤差都會累積並向後傳播,單步的低性能會很大程度影響全局表現。
因此LLM較低的準確率說明了,它並不能成為可靠的「文字世界模擬器」。
此外,人類準確率的波動幅度基本上不大,表示任務設定比較簡單直接,適合人類的思考模式。
GPT-4這種較差的表現表現給了我們一個寶貴的機會,可以更具體地剖析LLM究竟在哪方面出現了能力缺陷。
因此,論文作者將LLM的預測結果拆開仔細分析,發現在二元布林值屬性上(is開頭的屬性),模型通常可以做得很好。
預測表現比較糟糕的,通常是一些非平凡屬性,例如需要算術運算的temprature(溫度)、需要常識的current_aperture(當前相機光圈),或是需要科學知識的on(燈泡是否開啟)。
相較於先前的基準測試,這似乎更準確地暴露了LLM在常識和科學推理方面的缺陷。
此外,這也能反映出模型一些行為的「偏執」之處。
在進行完整預測時,它通常過於專注於動作驅動的狀態轉移而忽略了環境驅動,出現了許多「未改變值」的錯誤。但是可以在分開預測的結果中看到,這些錯誤是本來可以避免的。
作者提出,這篇文章的限制之一是只使用了GPT模型進行測試,也許其他模型可以有不同的表現。
這項研究的意義更在於基準測試的提出,為探索LLM在「世界模擬器」方面的潛力提供了一套可行的問題形式定義和測試流程。
參考資料: