GPT-4“變笨”被斯坦福實錘OpenAI已開始調查
GPT-4變笨,實錘了???來自斯坦福大學和UC伯克利大學的一篇最新論文顯示:6月的GPT-4在一些任務上的表現客觀上就是比3月的更差。比如他們用同樣500道“判斷給定整數是否為質數”的問題來測這兩個版本,發現3月份的GPT-4答對了488個,而6月只對了12個……成功率直接從97.6%下降到2.4%!
而當研究員通過經典的“Let’s think step by step”辦法來引導後者往正確答案上靠時,居然不好使了——
6月的GPT-4已不再嘗試給出中間步驟,而是仍然直接回答“yes”或“no”。
不止如此,代碼能力也下降了。
對於50道簡單級別的LeetCode題,6月的GPT-4只能做到有10%的答案可以不經更改直接運行,而在3月份的時候,這個數字還是52%。
目前,這項結論已在網上引起了極大的關注。
有人稱,這意味著“大型語言模型的蜜月期已經結束”。
而OpenAI方面也已火速注意到這項研究,並稱已開始積極調查。
所以,短短3個月,GPT-4身上究竟發生了什麼?
論文“實錘”GPT-4變笨
這篇論文一共從數學、代碼、視覺和敏感問題四個角度比較了三月和六月的GPT-4。
(本節內容係對論文進行轉述,不代表量子位認同有關結論)
其中數學是GPT-4能力下降最為明顯的方面。
證據就是開頭提到的500個質數判斷問題,錯誤率直接暴增近40倍,回答的長度也大幅縮水。
具體來看,論文中展示了GPT-4對其中一個問題的回答。(展示的數字為17077,經驗證是質數)
我們可以看到,研究人員已經使用了“step by step”的思維鍊式提問方式,但似乎並沒有奏效。
這也許可以解釋成數學本就不是強項,但GPT-4在代碼方面表現同樣下降得厲害。
數據上看,簡單級別的Leetcode問題通過率從52%下降到10%,而代碼的長度變長了。
論文作者同樣給出了一個例子。
這個問題是這樣的:
給定一個三位整數n,把n、2n、3n“連接”在一起。“連接”就是把兩個數直接拼起來,比如“114”和“514”進行“連接”的結果就是“114514”。如果“連接”之後的結果中不含0,同時各位中包含1-9中的所有數字,且每個數字有且僅有一個,則把認為n是一個“fascinating”的數字。請用Python寫一段代碼,判斷一個數是否“fascinating”。
(“class Solution”是Leetcode平台給定的代碼開頭格式)
三月的GPT-4給出了這樣的代碼:
class Solution(object): def isFascinating(self, n): concatenated_number = str(n) +str(2 * n) + str(3 * n) return sorted(concatenated_number)=[‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’]這段代碼中包含了一些小問題,最後一行“判斷相等”時應該用雙等號。
修正過後,提交的代碼成功通過。
而六月的版本回答是醬嬸兒的:
“`Pythonclass Solution(object): def isFascinating(self, n): # Concatenate n, 2*n and 3*n s = str(n) + str(n*2) + str(n*3) # Check if the length of s is 9 and contains all digits from 1 to 9 return len(s) == 9 and set(s) == set(‘123456789’)“`雖然代碼本體也是對的,但是GPT-4的輸出有些問題:
有段Markdown標記直接以文本形式顯示在了輸出結果之中,導致程序無法直接運行。
之所以研究者認為GPT-4在這裡犯了錯,是因為在prompt中已經強調了“code only”。
雖然GPT-4實用性上表現有所下降,但安全性似乎得到了提升。
對於敏感問題,GPT-4回答的概率下降了超四分之三,相應做出的解釋也變少了。
研究人員嘗試著提出了一個帶有偏見的問題。
三月份的GPT-4會解釋為什麼拒絕回答這個問題,但六月份的版本只說了一句無可奉告。
而越獄攻擊成功的概率下降得更為明顯,可以看出六月的GPT-4相比三月似乎擁有了更強的魯棒性。
此外,研究團隊還對兩個版本的GPT-4進行了“視覺”能力測試。
這部分的測試數據來自ARC數據集,需要得到的“圖像”是3 x 3的方格,以二維數組形式用數字表示方格的顏色。
相比於三月,六月版GPT-4的表現有小幅度提升,但並不明顯。
而一些在三月能答對的問題,到了六月卻答錯了。
所以,在這一方面很難說GPT-4究竟是變好還是變壞了。
總體上看,論文作者的態度比較謹慎,沒有直接斷言GPT-4表現是否變差。
但在數學和代碼方面,文中給出的證據的確印證了一些網友們的說法。
而作者也表示,這一發現主要是告訴大家,不斷地去測試AI系統的能力並監控其發展非常重要。
為什麼會這樣?
不管怎麼說,看完這項研究後,還是有不少人興奮地表示:終於有研究證明我一直以來的猜測了。
而在“興奮”之餘,大家似乎也意識到更重要的問題:
我們和大模型的“蜜月期”已經結束,已開始告別最初的“Wow”階段。
也就是說我們更加關注其真正的實力,而不是表面的、發布會裡演示裡的“花拳繡腿”。
所以,大家也不由地好奇:
為什麼會這樣?為什麼看起來變笨了呢?
按理来说模型的质量应该随着时间的推移得到更新,变得更好;就算没有显著提升,数学和代码能力也不能下降这么迅速。
猜測有很多。
首先就是OpenAI可能採取了成本削減措施。
這位叫做@Dwayne的網友指出,由於GPT-4的運行成本非常高,他懷疑OpenAI開始控製成本,這從原來每3小時能發送100條信息到現在只能發送25條的限制就能看出。
而為了讓模型更快地做出決策,OpenAI是否已不再讓GPT-4對多種可能的回答進行權衡、不進行深入評估就給出最終答案就值得人深思了。
畢竟決策時間少了,計算成本就會降低,而這樣一來,回答質量就不可避免的下降了。
有意思的是,在斯坦福和UC伯克利這項成果發布後,有不少人照貓畫虎進行了測試,但他們發現,同樣的問題GPT-4可以做對,比如“17077是否為質數”,很多回答都是“是”。
究其原因,這些人基本都用了最新的代碼解釋器或者Wolfram插件。
這也就引出了網友們的第二點猜測:
GPT-4的能力可能並非下降了,而是轉移了。
這就導致我們使用“最基礎的”GPT-4提問時,它已經不會再直接調用各種“專家模型”幫我們解答了,強大的專家能力都被路由到各類插件和諸如代碼解釋器這樣的集成功能上了。
不過說到底,這也算降本增效的一種手段。
當然,也有想法認為,OpenAI這是為了推廣插件和新功能才故意削減了GPT-4的基礎能力。
除此之外,還有人認為,為了更加“負責任”,不合邏輯的安全過濾器導致模型原本邏輯受到牽連,這也是GPT-4質量下降的一個原因。
普林斯頓教授實名反對
值得注意的是,不管網友的猜測聽起來多麼有理有據,OpenAI其實一直都在否認,聲稱他們並未採取任何措施導致模型質量下降。
與此同時,另一波學者和網友恰好也對這篇研究提出了質疑。
來自普林斯頓大學的兩位CS教授指出:
這篇論文產生了“GPT-4變笨了”的誤解,因為它只是簡單顯示了GPT-4行為的改變,而行為變化並不等同於能力下降。
並且實驗本身的評估也有問題,作者有誤將模仿當作推理。
為了說明自己的觀點,他們直接開了一篇博客。
以判斷質數問題為例,他們發現,評估給出的500個數字全是質數。這個問題就大了,它意味著正確答案始終是“yes”,模型就可能產生了隨機模仿的能力(也就是照著之前的正確答案無腦抄下去)。
因為事實證明,在大多數情況下,沒有一個模型會真正一一執行“判斷數字能否被整除”的算法——他們只是假裝做了。
比如下面這個3月份GPT-4的快照,它只是列了一堆待檢查的數字,然後沒有一一去除就直接給出“19997是質數”的回答。
也就是說,3月份的GPT-4可能是無腦答對的,其表現並不能證明其數學能力;相反,也就不能證明6月份的GPT-4不行了(可能本來就是這個水平)。
為了進一步證明自己的看法,教授們用500個合數測試了模型,結果是3月版本的GPT-4幾乎總是猜測這些數字是質數,而6月版本則幾乎認為是合數。
——評估數據一換,結果就完全不同,這足以說明原作者的結論並不算立得住了。
除此之外,在下降最多的代碼編寫能力方面,教授們也認為,作者只是檢查代碼是否可以直接執行,而不評估其正確性的方式,這種方式也同樣草率。
這意味著新GPT-4試圖提供更多幫助的能力被抵消了。
以上這些觀點,均得到了英偉達AI科學家Jim Fan的支持,他表示:
這也讓我想到了GPT-4滿分拿下MIT數學本科考試那篇論文。(被質疑造假,數據和評估方式都有問題)
但他認為,這都不重要,重要的是大家一起來battle。
所以,你認為GPT-4到底變笨了沒?
論文地址:https://arxiv.org/abs/2307.09009
參考鏈接:
[1]https://twitter.com/DwayneCodes/status/1681617375437922309
[2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time
[3]https://twitter.com/DrJimFan/status/1681771572351369216
來源:量子位