Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

“2028年互聯網上所有高品質文字資料將被使用完畢”

“2028年互聯網上所有高品質文字資料將被使用完畢”

2024-08-01 Comments 0 Comment

研究公司Epoch AI預測,到2028年網路上所有高品質的文字資料都將被使用完畢,機器學習資料集可能會在2026年前耗盡所有「高品質語言資料」。研究人員指出,用人工智慧(AI)產生的資料集訓練未來幾代機器學習模型可能會導致「模型崩潰」(model collapse)。

AI大模型訓練資料是否短缺這個話題再次成為近期許多媒體關注的熱點。

近日,《經濟學人》雜誌發布題為《AI 公司很快將耗盡大部分互聯網數據》(AI firms will soon exhaust most of the internet’s data)的文章,指出隨著互聯網高質量數據的枯竭,AI領域面臨「數據牆」。對於AI大模型公司來說,現在的挑戰是找到新的資料來源或可持續的替代品。

該篇文章引述研究公司Epoch AI的預測,到2028年網路上所有高品質的文字資料都將被使用完畢,機器學習資料集可能會在2026年前耗盡所有「高品質語言資料」。這種現像在業界被稱為「資料牆」。如何應對「資料牆」是當下AI公司面臨的重大問題之一,也可能是最有可能減緩其訓練進度的問題。文章指出,隨著網路上的預訓練資料枯竭,後期訓練變得更加重要。標籤公司如Scale AI和Surge AI每年透過收集後期訓練資料賺取數億美元。

567.png

《經濟學人》雜誌引述Epoch AI圖

事實上,業界早有關於「數據枯竭」的聲音。澎湃科技注意到,2023年7月初,加州大學柏克萊分校電腦科學教授、《人工智慧-現代方法》作者羅素(Stuart Russell)曾發出警告,ChatGPT等人工智慧驅動的機器人可能很快就會“耗盡宇宙中的文本”,透過收集大量文本來訓練機器人的技術“開始遇到困難”。

但業界也有不同的聲音。 2024年5月,在接受彭博社科技記者艾蜜莉‧張(Emily Chang)的訪問時,著名電腦科學家、史丹佛大學人工智慧實驗室聯合主任、史丹佛大學教授李飛飛曾明確表示,她並不贊同「我們的人工智慧模型正在耗盡用於訓練的數據」這一較為悲觀的看法。李飛飛認為,這觀點過於狹隘。僅從語言模型的角度來看,當下仍有大量的差異化資料等待挖掘,以建構更為客製化的模型。

當下,為了應對訓練數據有限的問題,解決方案之一便是使用合成數據,這些數據是機器創建的,因此是無限的。但合成資料也有合成資料的風險,國際學術期刊《自然》在7月24日發表一篇電腦科學論文指出,用人工智慧(AI)產生的資料集訓練未來幾代機器學習模型可能會污染它們的輸出,這個概念稱為「模型崩潰」(model collapse)。由於模型是在被污染的資料上訓練出來,最終會誤解現實。

研究團隊在研究中表明,在大語言模型學習任務中,底層分佈的尾部很重要,大規模使用大語言模型在互聯網上發佈內容,將污染用於訓練其後繼者的數據收集工作,今後人類與大語言模型互動的真實數據將越來越有價值。不過,研究團隊也提到,AI 生成數據並非完全不可取,但一定要對數據進行嚴格過濾。例如,在每一代模型的訓練數據中,保持 10% 或 20% 的原始數據,還可以使用多樣化數據,如人類產生的數據,或研究更穩健的訓練演算法。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
三天激烈談判無果三星罷工陷入僵局
NEXT
Model Y小改款來襲純電動車「銷量之王」能否守擂成功?

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 8 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 7 月   9 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 蘋果智慧家庭中心配備類似Pad的顯示器和機械手臂售價或達1000美元 2025-05-13
  • 研究發現人體手指皮膚浸水後產生的皺紋存在圖案的重複性 2025-05-13
  • 數十家歐盟公司起訴Google 要求其賠償120億歐元 2025-05-13
  • 華為Pura 80工程機鏡頭膜首曝仍是三角排列 2025-05-13
  • 在建大壩成功取出12層樓高混凝土芯樣 2025-05-13
  • Windows 11測試「進階設定」項目以加強對檔案總管等的控制 2025-05-13
  • SonyXperia 1 VII發布:1080P螢幕+驍龍8 Elite 售價過萬 2025-05-13
  • 研究證明有些人就是愛“抬槓” 2025-05-13
  • 消息稱日產將暫停日本部分工廠運營 2025-05-13
  • 《異塵餘生》真人劇第二季前導預告前往拉斯維加斯、已續訂第三季 2025-05-13

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • 台積電美國三座新廠產能預訂一空蘋果、NVIDIA、AMD搶著要
  • 台積電將於明年第四季在新竹Fab 20廠生產基於2nm GAA的晶圓
  • 松延動力發布新一代女性仿生機器人小諾
  • 《侏羅紀世界4》曝劇照寡姐、喬貝貝生死一線
  • 寧德時代股東向復旦大學捐贈405萬股股票價值10億元
  • 全球首個氮化鎵量子光源晶片發表2026年可望實現多場景驗證
  • 無毒無污染:長六改火箭成功發射遙感四十號02組衛星
  • 日本研究稱手機毀了孩子腦:成績下滑發展停滯
  • 特斯拉得州產線員工首次強制休假一週:生產目標下調

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.