“2028年互聯網上所有高品質文字資料將被使用完畢”
研究公司Epoch AI預測,到2028年網路上所有高品質的文字資料都將被使用完畢,機器學習資料集可能會在2026年前耗盡所有「高品質語言資料」。研究人員指出,用人工智慧(AI)產生的資料集訓練未來幾代機器學習模型可能會導致「模型崩潰」(model collapse)。
AI大模型訓練資料是否短缺這個話題再次成為近期許多媒體關注的熱點。
近日,《經濟學人》雜誌發布題為《AI 公司很快將耗盡大部分互聯網數據》(AI firms will soon exhaust most of the internet’s data)的文章,指出隨著互聯網高質量數據的枯竭,AI領域面臨「數據牆」。對於AI大模型公司來說,現在的挑戰是找到新的資料來源或可持續的替代品。
該篇文章引述研究公司Epoch AI的預測,到2028年網路上所有高品質的文字資料都將被使用完畢,機器學習資料集可能會在2026年前耗盡所有「高品質語言資料」。這種現像在業界被稱為「資料牆」。如何應對「資料牆」是當下AI公司面臨的重大問題之一,也可能是最有可能減緩其訓練進度的問題。文章指出,隨著網路上的預訓練資料枯竭,後期訓練變得更加重要。標籤公司如Scale AI和Surge AI每年透過收集後期訓練資料賺取數億美元。
《經濟學人》雜誌引述Epoch AI圖
事實上,業界早有關於「數據枯竭」的聲音。澎湃科技注意到,2023年7月初,加州大學柏克萊分校電腦科學教授、《人工智慧-現代方法》作者羅素(Stuart Russell)曾發出警告,ChatGPT等人工智慧驅動的機器人可能很快就會“耗盡宇宙中的文本”,透過收集大量文本來訓練機器人的技術“開始遇到困難”。
但業界也有不同的聲音。 2024年5月,在接受彭博社科技記者艾蜜莉‧張(Emily Chang)的訪問時,著名電腦科學家、史丹佛大學人工智慧實驗室聯合主任、史丹佛大學教授李飛飛曾明確表示,她並不贊同「我們的人工智慧模型正在耗盡用於訓練的數據」這一較為悲觀的看法。李飛飛認為,這觀點過於狹隘。僅從語言模型的角度來看,當下仍有大量的差異化資料等待挖掘,以建構更為客製化的模型。
當下,為了應對訓練數據有限的問題,解決方案之一便是使用合成數據,這些數據是機器創建的,因此是無限的。但合成資料也有合成資料的風險,國際學術期刊《自然》在7月24日發表一篇電腦科學論文指出,用人工智慧(AI)產生的資料集訓練未來幾代機器學習模型可能會污染它們的輸出,這個概念稱為「模型崩潰」(model collapse)。由於模型是在被污染的資料上訓練出來,最終會誤解現實。
研究團隊在研究中表明,在大語言模型學習任務中,底層分佈的尾部很重要,大規模使用大語言模型在互聯網上發佈內容,將污染用於訓練其後繼者的數據收集工作,今後人類與大語言模型互動的真實數據將越來越有價值。不過,研究團隊也提到,AI 生成數據並非完全不可取,但一定要對數據進行嚴格過濾。例如,在每一代模型的訓練數據中,保持 10% 或 20% 的原始數據,還可以使用多樣化數據,如人類產生的數據,或研究更穩健的訓練演算法。