Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

「GPT-4變傻」不只是OpenAI的苦惱所有大模型與人類交往越久就會越蠢?

「GPT-4變傻」不只是OpenAI的苦惱所有大模型與人類交往越久就會越蠢?

2024-01-04 Comments 0 Comment

許多大模型在處理早期資料時展現出的優異表現,實際上是受到了’任務污染’的影響,回答問題全靠記,而非純粹基於學習理解能力。ChatGPT發表一年多,已經在全世界累積了超過1.8億用戶。而隨著越來越多的人們開始頻繁使用它,近幾個月關於GPT-4在「變笨」、「變懶」的說法不絕於耳。

大家發現這個昔日大聰明在回答提問時逐漸失去了最初的理解力和準確性,時不時給出「驢唇不對馬嘴」的答案,或是乾脆擺爛、拒絕回答。

對於GPT-4降智的原因,用戶們有許多自己的猜測。而最近,加州大學聖克魯茲分校的論文,給出了學術界的最新解釋。

‘我們發現,在LLM訓練資料建立日期之前發布的資料集上,LLM的表現出奇地好於之後的資料集。’

eLLM訓練資料收集日期之前和之後發布的資料集,對零樣本(藍色)和少樣本(綠色)任務的準確率比較。

也就是說,大模型在它們之前「見過」的任務上表現優秀,在新任務上則相對拉垮。這更像是一種檢索的模擬智能方法,回答問題全靠記,而非純粹基於學習理解能力。

因此論文認為,許多大模型在處理早期資料時展現出的優異表現,實際上是受到了’任務污染’的影響。

我們知道,大語言模型之所以強大,是因為在各種零樣本和少樣本任務中表現出色,顯示出處理複雜和多樣化問題的靈活性。

而’任務污染’就是一種對零樣本或少樣本評估方法的污染,指在預訓練資料中已包含了任務訓練範例-你以為GPT初次回答就這麼得心應手?No!其實它在訓練過程中就已經「看過」這些數據了。

評估的模型與資料集

由於封閉模型不會公開訓練數據,開放模型也只提供了資料來源,爬取網站去取得資料並非易事,所以想簡單驗證是困難的。

為了實測任務污染的範圍,論文中共評估了12種不同的模型,包括5個GPT-3系列封閉模型和Fairseq MoE、Bloom、LLaMA等7個開放模型,並列出訓練集創建和模型發布日期。

在資料集上則劃分為兩類:2021年之前和2021年後發布的資料集。以此來比較新舊資料集之間的零樣本或少樣本任務表現差異。

四種測量方法

基於上述樣本,研究人員採用了四種方法來衡量大模型的任務污染範圍。

1.訓練資料檢查:直接搜尋訓練資料以找到任務訓練範例。

發現經過微調的Llama模型Alpaca和Vicuna,在訓練中加入少量任務範例後,對比原版Llama效能有所提升。

2.任務範例提取:從現有模型中提取任務範例。

具體方法是透過提示詞指令,讓模型產生訓練範例。由於在零樣本或少樣本評估中,模型本不應該接受任何任務範例訓練,只要LLM能夠根據提示產生訓練範例,就是任務污染的證據。

結果發現,從GPT-3第一代davinci-001到後來的3.5-T,代表可以產生訓練範例的紅色X越來越多了,證明任務污染越嚴重。

3.成員身份推斷:僅適用於生成任務,核心是檢查模型為輸入範例生成的內容是否與原始資料集完全相同。如果一致,就可以認定這個範例是LLM訓練資料的成員。

因為如果在開放式生成任務中出現這種精準匹配,那模型無異於具備了預知能力,能準確復現數據集中的具體措辭,表現可以說是“天秀”了,這就強烈暗示了模型在訓練時已經學習過這些內容。

結果顯示在GPT-3系列和最近開源的大模型中,這種生成內容與原始資料完全相同的情況普遍存在,且污染程度隨時間呈上升趨勢。

4.時間序列分析:對於已知訓練資料收集時間的模型,測量其在已知發布日期的資料集上的性能,並使用時間序列證據檢查污染的證據。

透過對所有資料集和LLM進行全球性的時間序列分析,發現對於在LLM發布之前收集的資料集(左側),無論是零樣本還是少樣本任務中,擊敗多數基線的可能性都遠遠更大。

最終結論

在所有實驗過後,論文給出以下關鍵結論:

  • 由於任務污染,閉源模型在零樣本或少樣本評估中的表現表現被誇大了,特別是那些經過人類回饋的強化學習(RLHF)或指令微調的模型。由於污染程度仍然未知,我們需要謹慎對待。
  • 在實驗中,對於沒有展示出污染可能性的分類任務,大模型在零樣本和少樣本設定裡很少顯示出相對多數基線在統計意義上的顯著性改善。
  • 隨著時間推移,GPT-3系列模型在許多下游任務的零樣本或少樣本表現上的提升很可能是由於任務污染造成的。
  • 即使是開源的LLM,出於多種原因,檢查訓練資料的任務污染也可能是困難的。
  • 鼓勵公開訓練資料集,以便更容易診斷污染問題。

GPT「變笨」不孤單,所有大模型殊途同歸?

讀過論文後,許多網友也悲觀地表示:降智沒準兒是目前所有大模型的共同命運。

對於沒有持續學習能力的機器學習模型來說,其權重在訓練後被凍結,但輸入分佈卻不斷漂移。近兩億用戶五花八門的新問題日夜不間斷,如果模型無法持續適應這種變化,其性能就會逐步退化。

就例如基於大模型的程式設計工具,也會隨著程式語言的不斷更新而降級。

而持續重新訓練這些模型的成本很高,人們遲早會放棄這種效率低的方法。就目前的LLM來說,很難建立可以在不嚴重干擾過去知識的情況下,連續適應新知識的機器學習模型。

有網友認為:「圍繞人工智慧的所有炒作大多是基於這樣一個假設:人工智慧將會越來越好。但按照這些大型語言模型的設計方式,實現通用人工智慧幾乎是不可能的。在特定場景下的小眾用例是這項技術的最佳使用方式。”

而持續學習,恰恰是生物神經網路的優勢。由於生物網路具有強大的泛化能力,學習不同的任務可以進一步增強系統的效能,從一個任務中獲得的知識有助於提升整個學習過程的效率——這種現像也稱為元學習。

「本質上講,你解決的問題越多,就會變得越好,而大模型雖然每天被數以百萬計的問題所觸發,它們並不會自動地在這些任務上變得更加出色,因為它們的學習能力被凍結在了某一時刻。”

不過想來一個有些矛盾的現實是,現在的人們越來越依賴AI生成的內容,用退化中的大模型提供的答案去解決生活中的實際問題。未來大模型爬到的數據,將會越來越多會是它自己創造的東西,而不是來自人腦。

AI用AI的產出去自我訓練,最終結果又會走向何方呢?如果不著手從根本解決資料污染和持續學習能力的問題,未來的世界會和大模型一起變笨嗎?

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
BMO:禮來GLP-1藥物Zepbound今年可望主導減重市場
NEXT
蘋果市值一夕蒸發超千億美元iPhone銷售前景堪憂

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 1 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
293031  
« 12 月   2 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 全面推動「凋零骷髏塔」標準化建設的網路大狂歡是怎麼開啟的? 2025-05-23
  • Windows記事本不再「簡單」 微軟為其新增AI寫作功能 2025-05-23
  • 基於Sora的微軟新工具Bing Video Creator挑戰Veo 各平台均可免費用 2025-05-23
  • 科學家發明結合紅外線和可見光的夜視鏡片 2025-05-23
  • Bluesky 將開始驗證「知名」用戶 2025-05-23
  • Anthropic CEO稱人工智慧模式產生的幻覺其實比人類少 2025-05-23
  • 這些韓國老年海女已擁有基因層面的“超能力” 2025-05-23
  • 防止顯示卡接口燒熔玩家給RTX 4090電源線裝上保險絲還有更狠的 2025-05-23
  • BMWSpeedtop概念車官圖發表售價超過400萬的雙門獵裝轎跑 2025-05-23
  • 馬雲上榜《時代》全球百大慈善人物榜單 2025-05-23

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • 南加州大學研究發現司美格魯肽可抑制對酒精的渴望
  • 基於Sora的微軟新工具Bing Video Creator挑戰Veo 各平台均可免費用
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • 蘇聯的三進位電腦 為什麼被二進位幹掉了?
  • CCleaner全家桶激活密鑰
  • Windows 11看視頻還要錢?教你免費安裝HEVC視頻擴展
  • Windows及OFFICE激活密鑰+電話激活教程–自用
  • 烏魯木齊地窩堡機場正式更名“天山機場”
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.