GPT-4推理太離譜大學數理化總分沒過半

2023-08-11 Comments 0 Comment

GPT-4根本不會推理！近來，有兩篇研究稱，GPT-4在推理方面表現不盡人意。來自MIT的校友Konstantine Arkoudas，在21種不同類型推理集中，對GPT-4進行了評估。然後，對GPT-4在這些問題上的表現進行了詳細的定性分析。

研究發現，GPT-4偶爾會展現出“最強大腦”的天賦，但目前來看，GPT-4完全不具備推理能力。

論文地址：https://www.preprints.org/manuscript/202308.0148/v2

研究一出，引來眾多網友圍觀。

馬庫斯表示，“如果這是真的——正如我早就說過的那樣——我們離AGI還差得遠呢。我們可能需要進行大量的重新校準：沒有推理就不可能有AGI”。

而另一篇來自UCLA和華盛頓大學的研究也發現，GPT-4，以及GPT-3.5在大學的數學、物理、化學任務的推理上，表現不佳。

論文地址：https://arxiv.org/pdf/2307.10635.pdf

研究人員引入了一個大學科學問題解決基礎SCIBENCH，其中包含2個數據集：開放數據集，以及封閉數據集。

通過對GPT-4和GPT-3.5採用不同提示策略進行深入研究，結果顯示，GPT-4成績平均總分僅為35.8%。

這項研究同樣再次引起馬庫斯的關注：

關於數學、化學和物理推理的系統調查，結果顯示，目前的LLM無法提供令人滿意的性能……沒有一種提示策略明顯優於其他策略。

下面我們就來具體看看，GPT-4如何在21個問題集，數學、物理、化學上推理慘敗的。

21個問題集，GPT-4全翻車

不過，在看GPT-4回答問題之前，作者給出了一個注意事項：

GPT-4是一個非確定性系統，即使參數設置相同，在不同的運行中也可能產生不同的答案。

而以下的測試交流都是逐字記錄的，根據作者的經驗，文中討論的GPT-4出錯的地方往往具有魯棒性。

1. 簡單算術

能夠進行基本運算，是推理的必要條件。

但是，GPT-4仍然無法可靠地執行加法、乘法等基本算術運算。

比如，讓GPT-4在1381和1453之間隨機選擇兩個數字相乘，並給出結果。

GPT-4選擇了1405，以及1421，但是最後給出的結果顯然是錯的。因為1405×1421=1996505。

2. 簡單計數

雖然具體計數並不一定是一種推理活動，但它肯定是任何具有一般能力推理系統的必備條件。

在這裡，給GPT-4一個命題變量，並在它前面加上27個否定符號，要求它計算否定符號的個數。

對於我們來講，這簡直輕而易舉，尤其是否定符號是間隔5個寫成的，並且有5組，最後一對否定符號緊隨其後。

然而，GPT-4卻給出了“28個”答案。

3. （醫學）常識

當前，我們可以將常識性論證視為，從給定信息加上未說明的條件（默認的、普遍接受的背景知識）中得出的簡單推理。

在這種特殊情況下，常識性知識就是“人在死前是活著的，死後就不會再活著”這樣的命題。

比如，當你問GPT-4：Mable上午9點的心率為75 bpm，下午7點的血壓為120/80。她於晚上11點死亡。她中午還活著嗎？

GPT-4竟回答：根據所提供的信息，無法確定Mable中午是否還活著。

但明顯根據給定的信息，常識性推斷（不用想）直接得出結論了。

4. 初級邏輯

如果P(x)包含Q(x)，而Q(a)不成立，那麼我們就可以根據模型推論出P(a)也不成立（因為如果P(a)成立，那麼Q(a)也會成立）。

這是一個最基本的同義反复，但GPT-4卻完全提出一個反模型：

值得注意的是，GPT-4認識到，P(x)實際上並不包含Q(x)，並提出了x有可能是負數偶數，“不排除存在其他給定條件的模型”。

其實不然，一個反模型（countermodel）必須滿足所有給定的條件，同時證偽結論。

此外，僅僅幾句話之後， GPT-4就聲稱P(x)在給定的解釋下確實蘊含Q(x)，這與它自己之前的說法相矛盾。

說明， GPT-4還會出現內部不一致的問題。

5. 簡單量詞語義

請看下面三個句子：

1. [forall x . P(x) ==> Q(x)]

2. [exists x . P(x)]

3. [exists x . ∼ Q(x)]

請證偽或證明以下主張：這三個句子是共同可滿足的。

顯然，這三個句子都是共同可滿足的，一個簡單的模型是具有P(a1)、Q(a1)、¬P(a2) 和¬Q(a2)的域{a1, a2}，然而GPT -4得出的結論確與之相反。

6. 簡單圖著色

首先考慮一個沒有解決方案的圖著色問題。

不難發現，對於這個問題中描述的圖形，兩種顏色是不足以滿足問題中描述的圖（例如，頂點0、2和4形成了一個簇，因此至少需要3種顏色）。

在這個簡短的輸出中，出現大量驚嚇下巴的錯誤。

GPT-4一開始就謊稱圖形是完全的（顯然不是，例如頂點2和3之間沒有邊）。

此外，顯而易見的是，如果圖形真是完全的，那麼就不可能用2種顏色來著色，因為一個有6個頂點的完全圖形至少需要6種顏色。

換句話說，GPT-4的說法不僅是錯誤的，而且是前後矛盾的：一會兒告訴我們（錯誤）這6頂點圖形是完全的，這意味著不可能用2種顏色給它著色，一會兒又提供了一種雙色“解決方案”。

值得注意的是，GPT-4之所以表現如此糟糕，並不是因為它沒有掌握足夠的圖形知識或數據。

當研究人員要求GPT-4對“完全圖”的了解時，它滔滔不絕地說出了“完全圖”的正確定義，以及一長串關於K_n （有n個頂點的完全圖）的結果。

顯然，GPT-4 已經記住了所有這些信息，但卻無法在新條件中應用。

7. 子集和

S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}。那麼S有多少個子集的總和是37？

這個問題中，S的子集都是偶數，而偶數之和不可能是奇數，因此答案為0。

然而，GPT-4沒有停下來考慮S包含的內容，而是反射性地生成它認為對這個問題合適的答案，然後繼續“幻化”出一個答案“4”。

8. 初級離散數學

告訴GPT-4 A × B代表集合A和B的笛卡爾積、從A到B的關係R是A × B的子集，以及&代表集合交集之後要求它證明或證偽：

其中R1和R2是從A到B的二元關係，dom(R)表示二元關係R的域。

需要子集關係在(2)的兩個方向上都成立，但它只在從左到右的方向上成立。另一個方向的反例很容易找到（例如，取A = {(1, 2)} 和B = {(1,3)}）。

然而，GPT-4卻推斷這是成立的，顯然不正確。

9. 簡單安排計劃

在時間安排問題上，GPT-4同樣出錯了。

上下滑動查看全部

10. 羅素悖論

羅素理髮師悖論是指，存在一個理髮師b，他為且僅為那些不給自己刮鬍子的人刮鬍子。

這句話的否定是一個同義反复，很容易用一階邏輯推導出來。

如果我們把R(a,b)理解為a被b刮鬍子，那麼我們就可以提出這個同義反复，並要求GPT-4證明或反證它，如下面prompt所示：

如果存在這樣一個理髮師x，那麼對於所有y，我們將有R(y,x) <==> ∼ R(y,y)，因此用x代替y將得到R(x，x) <== > ∼ R(x,x)，這是矛盾的。

GPT-4對所給句子的結構和需要做的事情的理解無可挑剔。然而，隨後的案例分析卻糊里糊塗。

11. 積木世界

這是一個簡單的推理任務，需要對倒數第三個積木B3進行案例分析。

首先，B3要么是綠色的，要么不是。

如果是綠色的，那麼B3就在非綠色積木B4的上面，所以結論成立。

如果不是，那麼從上數的第二個綠色積木B2，就在非綠色積木B3上面，因此結論仍然成立。

然而，結果顯示，GPT-4的表現並不理想。

有五個積木從上往下堆疊：

1. 從上往下數第二個積木是綠色的

2. 從上往下數第四個積木不是綠色的

在這些條件成立的情況下，證偽或證明以下結論：在一個非綠色積木的正上方，有一個綠色積木。

首先它在證明猜想時，就已經弄錯了證明的策略——PT-4假定了兩種特殊情況來進行推理。

此外，GPT-4在自己的推理中已經得出了結論（雖然是錯的），但在回答時仍然告訴用戶問題沒有被解決。而這體現的便是模型的內部不一致性問題。

12. 空間推理

這裡作者選擇了一個現實世界中的方位問題：

GPT-4第一次給出的答案是右邊，但作者指出了它的錯誤，雖然從地圖上來看，位於馬薩諸塞州的波士頓的確在南達科他州的右邊，但這裡還有一個附加條件：身體的朝向是得克薩斯州。

這意味著波士頓在作者的左邊。

之後，GPT-4在回答波士頓與南達科他州高低位置時，出現了更嚴重的問題：它在同一個回答中給出了兩種矛盾的描述。

13. 時間推理

作者在這裡給出了一個比較簡單的時間推理問題，但GPT-4的回答依舊一塌糊塗。

Tom和Nancy上班需要乘坐交通工具。Nancy的通勤時間大約為30~40分鐘，而Tom的通勤時間大約為40~50分鐘。上個週五，Nancy在早上8:10~8:20之間離家，而Tom在早上8:5~9:10之間到達工作地點。此外，Nancy在Tom離開家後到達工作地點，但不會超過20分鐘。你能否推斷出上個星期五，Tom和Nancy何時到達工作地點？

在梳理完問題中的信息後，GPT-4給出了它的推理過程：

“如果Tom在可能最晚的時間（上午8:20）離開家…” 這句話一開篇就錯了。

實際上，題目並沒有給出有關Tom最晚離開家的時間，而GPT-4將Nancy的時間（“Nancy在上午8:10-8:20之間離家”）誤用到了Tom身上。

同時，GPT-4給出的條件語句是混亂的，假設中包含了與結論（Nancy的到達時間）無關的信息（Tom）：“如果Tom在最晚時間（上午8:20）離開家，Nancy在她最晚時間（上午8:20）離開，她的通勤時間最多是40分鐘，Nancy最晚在上午9:00到達工作地點。”

這應該表述為：“如果Nancy在她最晚時間（上午8:20）離開，並且她的通勤時間最多是40分鐘，那麼Nancy最晚會在上午9:00到達工作地點。”

接著，GPT-4錯誤地推斷出以下內容：“由於Tom的通勤時間最少為40分鐘，這意味著他最晚會在上午9:00到達工作地點。”

這個結論顯而易見根本不成立。從已知的“Tom的通勤時間最少為40分鐘”這個事實中無法得出這個結論。

接下來的回答依舊是基於錯誤地假設Tom最早離開時間是上午8:10的條件（再次，這個出發時間是Nancy的，不是Tom的）。

然後它聲稱Nancy到達時間是8:45，這與早上8:10離家，不超過20分鐘條件不符合。

最後，它錯誤地得出結論Tom和Nancy都在8:50和9:00之間到達。

在推理的過程中，GPT-4屢次出現了將信息張冠李戴的情況，最後給出的答案也是基於錯誤條件得出的錯誤回答。

14. 謀殺還是自殺？

作者構思了一個邏輯謎題，列出了9個條件要求GPT-4找出真正殺害Agatha姨媽的兇手。

1. 住在Dreadbury Mansion的某人殺了Agatha姨媽。

2. Dreadbury Mansion中唯一的居住者是Agatha姨媽、管家和Charles。

3. 殺人犯總是討厭他的受害者，並且他的財富不會比受害者多。

4. Charles不討厭Agatha姨媽討厭的人。

5. Agatha姨媽討厭所有人，除了管家。

6. 管家討厭所有不比Agatha姨媽富有的人。

7. 管家討厭Agatha姨媽討厭的所有人。

8. 沒有人討厭所有人。

9. Agatha姨媽不是管家。

正確的答案是Agatha姨媽殺了自己。

首先，根據條件5，Agatha姨媽必須討厭她自己，因為她討厭所有除了管家以外的人。

因此，根據條件4，得出Charles不討厭她，所以他不可能殺了她。

根據條件5和7，管家不可能討厭他自己，因為如果他討厭自己的話，條件8就不成立了，他會討厭所有人。

根據條件6，得出管家比Agatha姨媽更富有，否則他會討厭自己，這與前面我們得出的他不討厭自己相矛盾。

根據條件3，管家也不會是兇手（第3個條件）。

在推理中，GPT-4正確地排除了Charles，但無法排除管家，並得出了錯誤的結論：管家是兇手。

GPT-4做出的另一個關鍵錯誤是：由於Agatha姨媽討厭所有除管家以外的人（條件5），這意味著她至少不討厭她自己。

這是一個奇怪的錯誤，從第5個條件就可以得出Agatha姨媽討厭她自己。

同時，GPT-4又一次展示了反復出現的不一致性問題——幾乎在每一條回復中，GPT-4都聲稱推導出某個命題及其否定形式。

15. 沃森選擇任務（Wason selection task）

沃森選擇任務是心理推理領域中的基本內容。

在一月份的論文中，GPT-3.5就未能通過這個測試，本次研究中，GPT-4的表現依舊不理想。

桌上放著7張牌，每張牌一面寫著數字，另一面是單色色塊。這些牌的正面顯示的是50、16、紅色、黃色、23、綠色、30。

要判斷“如果一張牌正面顯示4的倍數，則背面顏色為黃色”這個命題的真假，你需要翻轉哪些牌?

這些回答顯示，GPT-4不理解條件語句的語義。當GPT-4說卡片“50”和“30”必須翻開時，它似乎將條件誤認為是充分必要條件。

而無論GPT-4的回答是對還是錯，其內部的說法都是不一致的。

16. 熵

信息論的一個基本結論是：隨機向量Z的熵上界不超過組成Z的隨機變量的熵之和。

因此，下面問題的答案應該是“在任何情況下都不會”。

17. 簡單編譯器的正確性

最後給GPT-4的推理問題是最具挑戰性的：證明一個簡單表達式編譯器的正確性。

上下滑動查看全部

但在這次測試中，GPT-4通過在表達式的抽象語法結構上設置結構歸納，正確地進行了證明。

這可能是因為它之前看過類似的證明，作者給出的例子是編程課程和教材中常見的練習類型。

然而，GPT-4還是會出現一些細節上錯誤。

結論：推理能力至關重要，但GPT-4不會

鑑於GPT-4是目前能力最強的LLM，因此作者基於以上分析給出了三個主要結論：

1. 在軟件開發（或一般的科學和工程領域）中使用生成式AI，除了對於一些繁瑣的任務外（作為一種對知識密集型編碼問題的加速自動補全），充滿了風險。在這些領域，規範性和正確性至關重要，而當前的LLM無法達到這些標準。

2. 隨著LLM推理能力的不斷提高，嚴格的證明檢查會變得越來越重要。這種方法可以通過要求LLM將其推理形式化，或者通過訓練其他LLM，來檢查用自然語言表達的推理。

3. 就目前而言，AI征服人類或人類利用AI達到邪惡目的這種反烏托邦情景，都極為牽強，甚至到了荒謬的地步。當最先進的AI系統連左右都分不清時（上述第12個問題），呼籲制定政策來保護人類免受它的傷害，往好裡說是為時過早，往大了說就是對資源的浪費。

不可避免地，一些人可能會說這些結果是“挑選數據”。但這是因為他們對什麼是挑選數據存在著誤解。根據相關命題的邏輯結構和整體背景，挑選數據有時甚至是必要的。

通過對計算機程序進行調試來發現和理解其弱點，試圖證偽科學理論，試駕新車，試圖找到一個假定的定理的反模型等等，從根本上來說都是“挑刺”。

舉個例子，比如你發現自己新買的汽車有一個輪胎漏氣，這時經銷商就可以抗議稱你是在“挑選數據”。畢竟，就整輛車來說，輪胎的完好率高達75%。

同樣，科學、醫學和工程領域的應用，尤其是軟件工程，都有嚴格的標準。

就像我們不想要一座在90%的情況下能立柱的橋樑一樣，我們需要對所有輸入都有效的排序算法，而不僅僅是大部分；我們需要購物車每次都能收取正確的費用，而不僅僅是大多數時間，等等。

而這些計算和推理密集型的應用，與推薦引擎不同，它們必須非常可靠。

作者介紹

Konstantine Arkoudas

直到去年，Konstantine Arkoudas還是RPI認知科學系的研究員，也是麻省理工學院CSAIL的研究員。

目前，他是Telcordia研究實驗室的高級研究科學家，主要研究AI，以及在電信和網絡行業應用正式方法解決現實世界的問題。

他曾在2000年獲得了MIT的計算機科學博士學位。在此之前，還獲得了計算機科學碩士學位，哲學碩士學位，以及計算機科學學士學位，輔修哲學。

大學數理化，GPT-4得分35.8%

UCLA的研究中，主要評估了GPT-4，以及GPT-3.5在數學、化學、物理方面的推理能力。

當前，為了增強LLM解決數學等任務的能力，有人提出了思維連CoT策略，指導大模型逐步生成答案，從而更深入思考問題。

然而，即使這樣的方法有其特定的優勢，也難以完全解決複雜的科學問題。

如下，是大學物理化學的一個示例問題，以及在兩種提示策略下生成的解決方案。

有CoT加持的GPT-4出現明顯的計算錯誤，而提示用Python作為外部工具的GPT-4，也會誤解數學方程。

錯誤標記為紅色，更正內容為紫色

對此，研究中引入了一個大學水平的科學問題基準SCIBENCH。

其中，“開放數據集”包括從大學課程廣泛使用的教科書中收集的5個問題，涵蓋了基礎物理、熱力學、經典力學、量子化學、物理化學、微積分、統計學和微分方程。

開放教科書問題摘要（包括問題數量的比例，以及有詳細解決方案的比例）

另一個是“封閉數據集”，為了模擬真實世界的評估，其中包含了計算機科學和數學三門大學課程的7套期中和期末考試題。

封閉考試數據集（包含每場考試中的問題實例數，以及考試中包含詳細解答的問題比例。另外，還有不同形式問題的比例，包括自由回答、多項選擇和真假答案。作為參考，括號中的數字表示問題的評分點。）

與現有基準不同，SCIBENCH中的所有問題都是，開放式、自由回答的問題。

數據集中有了，研究重點評估了兩個具有代表性的LLM，GPT-3.5和GPT-4，並採用了不同的提示策略，包括CoT、零樣本學習、少樣本學習。

另外，研究人員還提示模型使用外部工具，比如Python和Wolfram語言。

實驗結果表明，在沒有任何復雜提示、或使用外部工具的情況下，GPT-3.5和GPT-4在開放數據集中平均準確率分別為10.62%和16.81%。

那麼，在加入CoT和外部工具後，在同一數據集上最高準確率也僅僅是35.8%。不過，相較之前，很大程度提高了準確率。

開放數據集中準確率的結果

在使用CoT提示+外部工具最強配置下，GPT-4在開放式數據集上取得了35.80%的平均分，在封閉數據集上取得了51.57%的平均分。

這些結果表明，在未來的LLM中，GPT-4有相當大的改進潛力。

考試數據集上零樣本學習下總分的實驗結果

為了全面了解LLM在科學問題解決中的局限性，研究人員提出了一種全新的“自我完善”的方法，以發現LLM所做解答中的不足之處。

便是如下的“評估協議”。

首先，將正確的解決方案與LLM生成的解決方案進行比較，並在人工標註員的協助下，總結出成功解決科學問題所需的10項基本技能。

具體包括：邏輯分解和分析能力；識別假設；空間感知；因果推理；問題演繹；抽象推理；科學素養；代碼轉換；邏輯推理；計算能力。

隨後，團隊採用了一種由LLM驅動的自我評價方法，對每個實驗配置下基準LLM所做的解決方案中，缺乏的技能進行自動分類。

6種設置下GPT-3.5在文本數據集上的錯誤概況，揭示了其10種基本解決問題能力的缺陷分佈

最後，通過分析發現：

(1) 雖然CoT顯著提高了計算能力，但在其他方面的效果較差；

(2) 使用外部工具的提示可能會損害其他基本技能；

(3) 少樣本學習並不能普遍提高科學問題解決能力。

總之，研究結果表明，當前大型語言模型在解決問題能力方面依舊很弱，並且在各種工具幫助下，依舊存在局限性。

來源：新智元

WONGCW 網誌

記錄生活經驗與點滴

GPT-4推理太離譜大學數理化總分沒過半

2023-08-11 Comments 0 Comment

相關

發表迴響取消回覆

2023 年 8 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

分享此文：

相關

發表迴響取消回覆