AIGC不僅會污染互聯網還會嚴重威脅大模型開發的未來
過去幾天有關“AI污染中文互聯網環境”的討論又重新熱鬧起來,這個話題也帶出了另一個AI“終極命題”:如果世界上絕大部分內容都依靠AI生成,屆時我們還能使用這些內容訓練出更“聰明”的AI大模型麼?
先說結論:情況將變得非常困難且棘手。在目前為數不多但頗受認可的研究中,這種情況被稱為“遞歸的詛咒”:如果大模型的訓練高度依賴AIGC內容,將很容易出現“崩潰”的情形。
此話怎講?
雖然現在互聯網上能找到的文字大部分都是真人寫的,但不可否認的是,目前AIGC內容正在以非常快的速度出現在廣告營銷、流量資訊平台以及各式各樣的數字載體中。從增量的角度來看,隨著大模型的應用在未來半年、一年裡開花結果,AIGC內容如潮水一般湧入互聯網平台只是時間問題。
科技的進步從來不是單方面的祝福,往往也會伴隨著詛咒。
正如溫室氣體,以及人類向海洋裡排放的各種奇奇怪怪物質,互聯網的“海洋”也在面臨類似的威脅。
牛津大學、劍橋大學、倫敦帝國學院、多倫多大學等機構的研究人員近期在預印本平台上發表的一篇論文,恰好就是論述這個話題的。
(來源:arxiv)
研究人員發現,在使用AIGC內容訓練模型時,會造成模型出現“不可逆的缺陷”,並且這種情況在變分自編碼器、高斯混合模型和大語言模型中都會出現。
同樣是內容,為何AIGC的內容會導致“模型崩潰”呢?
研究人員解釋稱:
模型崩潰是一種影響學習生成模型的退化過程,其中生成的數據最終會污染下一代模型的訓練集;使用被污染數據進行訓練,會導致模型誤解現實。這裡還有兩種特殊情況:早期模型崩潰和晚期模型崩潰。在早期模型崩潰中,模型開始喪失關於分佈尾部的信息;在晚期模型崩潰中,模型將原始分佈的不同模式相互糾纏,並收斂到與原始模型相差甚遠的分佈,通常方差非常小。
這個過程與災難性遺忘的過程不同,因為我們考慮的是隨時間推移的多個模型,這些模型不會忘記以前學習的數據,而是開始誤解他們認為的真實。
(遭到AIGC內容干擾後喪失能力的模型,來源:論文)
考慮到大多數人可能看不太懂這兩段話,這篇論文的作者之一,牛津大學的Ilia Shumailov接受媒體採訪時舉了一個AIGC圖片的例子:假設在訓練模型時,使用了100張狗狗的照片,裡面有90隻狗狗有黃色眼睛,還有10只有綠色眼睛。由於數據集中黃眼睛狗狗的數量佔據絕大多數,那麼這樣訓練出的模型中,藍眼睛狗狗實際的顏色會變得更加綠(黃加藍=綠)一些。如果有人從互聯網上抓取這樣生成的圖片,重複進行生成—抓取—訓練的過程,將會導致模型識別藍眼睛狗狗的能力最終消失。這種對信息的喪失或扭曲,就是模型崩潰。
引申開來,這也引發了另一層競爭:先行的GPT模型們,可能會堵住後來者開發更強大模型的路。或者說,想要“彎道超車”的後來者,需要花在可信賴數據上的時間和金錢,將遠遠超越領跑的這一批科技巨頭。
研究人員總結稱,訓練大語言模型的特質預示著“先行者優勢”的存在。這篇論文證明了使用AIGC語料訓練會導致分佈改變,以及模型崩潰。為了確保模型在長期內學習持續進行,需要確保非AIGC語料的可及性。但目前為止,如何跟踪和識別大模型生成內容的機制尚不明確,如果繼續大規模地從互聯網上爬取數據,訓練新版本的大模型將變得原來越困難。