Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
    • WordPress 插件及主題下載
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

AIGC不僅會污染互聯網還會嚴重威脅大模型開發的未來

AIGC不僅會污染互聯網還會嚴重威脅大模型開發的未來

2023-06-20 Comments 0 Comment

過去幾天有關“AI污染中文互聯網環境”的討論又重新熱鬧起來,這個話題也帶出了另一個AI“終極命題”:如果世界上絕大部分內容都依靠AI生成,屆時我們還能使用這些內容訓練出更“聰明”的AI大模型麼?

先說結論:情況將變得非常困難且棘手。在目前為數不多但頗受認可的研究中,這種情況被稱為“遞歸的詛咒”:如果大模型的訓練高度依賴AIGC內容,將很容易出現“崩潰”的情形。

此話怎講?

雖然現在互聯網上能找到的文字大部分都是真人寫的,但不可否認的是,目前AIGC內容正在以非常快的速度出現在廣告營銷、流量資訊平台以及各式各樣的數字載體中。從增量的角度來看,隨著大模型的應用在未來半年、一年裡開花結果,AIGC內容如潮水一般湧入互聯網平台只是時間問題。

科技的進步從來不是單方面的祝福,往往也會伴隨著詛咒。

正如溫室氣體,以及人類向海洋裡排放的各種奇奇怪怪物質,互聯網的“海洋”也在面臨類似的威脅。

牛津大學、劍橋大學、倫敦帝國學院、多倫多大學等機構的研究人員近期在預印本平台上發表的一篇論文,恰好就是論述這個話題的。

(來源:arxiv)
(來源:arxiv)

研究人員發現,在使用AIGC內容訓練模型時,會造成模型出現“不可逆的缺陷”,並且這種情況在變分自編碼器、高斯混合模型和大語言模型中都會出現。

同樣是內容,為何AIGC的內容會導致“模型崩潰”呢?

研究人員解釋稱:

模型崩潰是一種影響學習生成模型的退化過程,其中生成的數據最終會污染下一代模型的訓練集;使用被污染數據進行訓練,會導致模型誤解現實。這裡還有兩種特殊情況:早期模型崩潰和晚期模型崩潰。在早期模型崩潰中,模型開始喪失關於分佈尾部的信息;在晚期模型崩潰中,模型將原始分佈的不同模式相互糾纏,並收斂到與原始模型相差甚遠的分佈,通常方差非常小。

這個過程與災難性遺忘的過程不同,因為我們考慮的是隨時間推移的多個模型,這些模型不會忘記以前學習的數據,而是開始誤解他們認為的真實。

(遭到AIGC內容干擾後喪失能力的模型,來源:論文)

(遭到AIGC內容干擾後喪失能力的模型,來源:論文)

考慮到大多數人可能看不太懂這兩段話,這篇論文的作者之一,牛津大學的Ilia Shumailov接受媒體採訪時舉了一個AIGC圖片的例子:假設在訓練模型時,使用了100張狗狗的照片,裡面有90隻狗狗有黃色眼睛,還有10只有綠色眼睛。由於數據集中黃眼睛狗狗的數量佔據絕大多數,那麼這樣訓練出的模型中,藍眼睛狗狗實際的顏色會變得更加綠(黃加藍=綠)一些。如果有人從互聯網上抓取這樣生成的圖片,重複進行生成—抓取—訓練的過程,將會導致模型識別藍眼睛狗狗的能力最終消失。這種對信息的喪失或扭曲,就是模型崩潰。

引申開來,這也引發了另一層競爭:先行的GPT模型們,可能會堵住後來者開發更強大模型的路。或者說,想要“彎道超車”的後來者,需要花在可信賴數據上的時間和金錢,將遠遠超越領跑的這一批科技巨頭。

研究人員總結稱,訓練大語言模型的特質預示著“先行者優勢”的存在。這篇論文證明了使用AIGC語料訓練會導致分佈改變,以及模型崩潰。為了確保模型在長期內學習持續進行,需要確保非AIGC語料的可及性。但目前為止,如何跟踪和識別大模型生成內容的機制尚不明確,如果繼續大規模地從互聯網上爬取數據,訓練新版本的大模型將變得原來越困難。

分享此文:

  • 分享到 Twitter(在新視窗中開啟)
  • 按一下以分享至 Facebook(在新視窗中開啟)
  • 分享到 WhatsApp(在新視窗中開啟)
  • 按一下以分享到 Telegram(在新視窗中開啟)
  • 分享到 Pinterest(在新視窗中開啟)
  • 分享到 Reddit(在新視窗中開啟)
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟)
  • 點這裡列印(在新視窗中開啟)

相關


網絡資訊

Post navigation

PREVIOUS
馬克龍野心藏不住了?法國爭當歐洲大陸的AI中心
NEXT
探索泰坦尼克號殘骸的潛水器和英國億萬富翁已失聯超24小時

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 6 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
2627282930  
« 5 月   7 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 氣象專家預計今秋將形成中等強度的厄爾尼諾事件 2023-09-28
  • 中國科學家從3500萬年前的糞便中發現地球長這樣 2023-09-28
  • 太陽能飛艇Airship One將在不使用燃料的情況下不間斷地環遊地球 2023-09-28
  • 英特爾在愛爾蘭開始大批量EUV生產Intel 4節點進入量產階段 2023-09-28
  • 讓人人都與AI嘮嗑:社群網路巨頭Meta正式推出聊天機器人 2023-09-28
  • 谷歌Pixel崛起蘋果iPhone在日本份額兩年來首次跌破50% 2023-09-28
  • 印度一智慧型手機爆炸引燃除臭劑附近所有窗戶被震碎三人受傷 2023-09-28
  • 福特叫停美國電池廠因頂不住特斯拉價格戰? 2023-09-28
  • Vivaldi 推出其iOS 版瀏覽器 2023-09-28
  • 讓我們看看生活在近5億年前的三葉蟲的菜單上有什麼 2023-09-28

熱門文章與頁面︰

  • 靠養貓養狗年入百萬:寵物博主是門怎樣的生意?
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • 盜版Windows 7還能免費升級Windows 10嗎?
  • Ghost Win10 專業完整版2018.09(32位+64位)
  • 系統優化工具Cacheman v10.60
  • YouTube By Click 2.2.86(含:註冊機序列號)
  • 4款家用血糖儀、尿酸儀對比評測
  • 世界上有多少個國家
  • Explorer Patcher:讓Windows 11恢復Windows 10的行為特徵
  • 電腦PC端翻牆工具vpn破解版

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2023   All Rights Reserved.