GPT-4回答新問題表現太差想維持水準只能不斷訓練新模型
昨天,一篇系統性地研究了GPT-4為什麼會’降智’的論文,引發了AI圈的廣泛討論。隨著大家對GPT-4使用得越來越頻繁,用戶每過一段時間都會集中反應,GPT-4好像又變笨了。
最近的情況是,如果使用者不小心和GPT-4說現在是12月份,GPT-4的輸出的內容就會明顯變少。
有一位用戶專門做了一個測試,分別告訴GPT-4現在是5月份和12月份,然後比較輸出結果,發現12月份的結果比5月份差了不少。
大家討論都覺得是說GPT-4會放寒假,看到12月就不想工作了。
但如果放在這篇論文中來看,作者認為,最主要的原因是大模型有一個現在看來幾乎是無解的缺陷──缺乏持續學習和演化能力。
論文地址:https://arxiv.org/abs/2312.16337
我們發現在LLM在訓練資料建立日期之前的資料集上的表現,要明顯好於在訓練日期之後發布的資料集的表現。
不論是零樣本還是多樣本的測試中,LLM都會呈現出這種情況。
論文還指出,LLM在他們以前真正’見過’的任務上表現良好,而在新任務上表現不佳,根本原因還是因為只是記住了答案,而沒有辦法有效地獲得新知識和理解。
而造成這種表現差異如此巨大的原因,就在於’任務污染’。
在上表中,作者發現可以從GPT-3模型中都能提取任務範例,並且從davinci到GPT-3.5-turbo的每個新版本中,提取的訓練範例數量都在增加,與GPT-3系列模型在這些任務上的零樣本表現提高密切相關。
說穿了,之所以模型在截止時間之前的資料集測試表現良好,是因為訓練資料中已經包含了資料集中的問題。
這充分說明了GPT-3系列各個版本在這些任務上的效能增強是由任務污染導致的。
對於那些不存在任務污染證據的分類任務,大型語言模型很少能在零樣本和少樣本設定下顯著優於簡單多數基準。
在上表中,研究人員也列出對於51個後訓練資料收集且無擷取任務範例的模型/資料集組合中,只有1個組合的模型能在零樣本或少樣本設定下顯著優於多數基準。
這說明一旦沒有任務污染的可能性,LLM的零樣本和少樣本表現其實並不突出。
網友們看了之後悲觀地表示:目前很難建構能夠持續適應且不會對已編碼的過去知識和新知識造成災難性幹擾的機器學習模型。
ChatGPT是過去互聯網的快照- 隨著互聯網的變化,ChatGPT 在有用任務的知識和性能方面都變得過時了。
OpenAI和大模型公司都必須面對這樣一個事實——他們必須不斷重新訓練新模型。
也許,這就某種程度上為什麼沒過一段時間,人們就會發現ChatGPT又變笨了,也許只是因為你不斷地在用新問題考它,它的真實水品慢慢地被暴露出來了。
測試模型
研究人員針對12個模型進行了測試:
5個OpenAI發布的GPT模型,7個開源的LLM。
針對這些模型,他們選取了兩組剛好卡在模型訓練時間前後的資料集進行了測試。
測試方法
時序分析
然後研究人員分別測試了不同模型在相同兩組資料集上的表現。從結果可以明顯看出,在模型資料訓練截止日期之後發布的資料集,零樣本和多樣本效能明顯差了很多。
對於12個模型和16個資料集,研究人員進行了192個模型/資料集組合。
在這些組合中,136 個資料集在LLM 培訓資料收集日期之前發布(收集前),56 個資料集在之後發布(收集後)。對於這兩個集合,我們計算模型擊敗大多數基線(零樣本和少樣本)的模型/資料集組合的百分比。
結果如下圖1 所示。我們發現,對於在創建LLM 之前發布的資料集,LLM 更有可能在零和少數樣本設定上擊敗多數基線。
針對單一的LLM,進一步發現:
針對每個LLM單獨進行測試。結果如上圖2所示。這樣的趨勢在具有全範圍日期的模型中保持不變,進一步表明資料集的絕對日期不是主要因素,而是日期資料集相對於法學碩士訓練資料收集日期的變化是更重要的因素。
任務範例提取分析
如果LLM能夠產生與測試資料中的範例完全匹配的範例,則證明LLM在訓練期間已經看到了該任務的測試集。
研究人員採用類似的方法來測試任務污染。他們不嘗試產生測試數據,而是提示模型產生訓練範例,因為對於零次或少次評估,模型不應在任何任務範例上進行訓練。
如果LLM可以根據提示產生訓練範例,這就是任務污染的證據。
下表4顯示了所有模型中所有任務的任務範例擷取結果。
進一步研究人員還發現,對於沒有被證明存在任務污染可能性的任務,LLM很少表現出比大多數基線具有統計顯著性的改善。
在上表4中,對於收集後且沒有提取任務範例的51 個模型/資料集組合,51 個模型/資料集組合中只有1 個(即2%)在零樣本或少樣本設定的情況下表現出相對於大多數基線的統計顯著改善。
成員推理分析
為了進一步檢查訓練資料污染的影響,研究人員應用了成員推理攻擊來檢查模型產生的內容是否與資料集中的範例完全匹配。
上圖5a和圖5b分別顯示了GPT-3系列版本和最新開源LLM 的採樣訓練集和完整開發集產生的範例有多少是完全相同的。
因為資料庫模式(atabase schemas )不在零樣本提示中,因此如果模型可以產生與訓練或開發資料中完全相同的表名或欄位名,則一定存在污染。
如圖5所示,精確配對產生的範例數量隨著時間的推移而增加,這表明Spider上的任務污染程度正在增加。
他們還在提示中添加模式後計算執行準確性,並將其與完全匹配的代數進行繪製(圖6)。我們發現完全匹配的生成範例數量與執行準確性之間存在很強的正相關性(? = 0.88),這強烈表明污染的增加與性能的提高有關。
參考資料: