Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

GPT-4耗盡全宇宙數據OpenAI接連吃官司竟因數據太缺了

GPT-4耗盡全宇宙數據OpenAI接連吃官司竟因數據太缺了

2023-07-16 Comments 0 Comment

深陷數據風波的OpenAI,背後真正原因竟是優秀的數據太少了。窮盡“全網”,生成式AI很快無數據可用。近日,著名UC伯克利計算機科學家Stuart Russell稱,ChatGPT和其他AI工具的訓練可能很快耗盡“全宇宙的文本”。換句話說,訓練像ChatGPT這樣的AI,將因數據量不夠而受阻。

這可能會影響生成式AI開發人員,在未來幾年收集數據,以及訓練人工智能的方式。

同時,Russell認為人工智能將在“語言輸入,語言輸出”的工作中取代人類。

數據不夠,拿什麼湊?

Russell近來的預測引起了大家重點關注。

OpenAI和其他生成式AI開發人員,為訓練大型語言模型,開始進行數據收集。

然而,ChatGPT和其他聊天機器人不可或缺的數據收集實踐,正面臨著越來越多的審查。

其中就包括,未經個人同意情況下創意被使用,以及平台數據被自由使用感到不滿的一些高管。

但Russell的洞察力指向了另一個潛在的弱點:訓練這些數據集的文本短缺。

去年11月,MIT等研究人員進行的一項研究估計,機器學習數據集可能會在2026年之前耗盡所有“高質量語言數據”。

論文地址:https://arxiv.org/pdf/2211.04325.pdf

根據這項研究,“高質量”集中的語言數據來自:書籍、新聞文章、科學論文、維基百科和過濾後的網絡內容等。

而加持當紅炸子雞ChatGPT背後的模型GPT-4同樣接受了大量優質文本的訓練。

這些數據來自公共在線的資源(包括數字新聞來源和社交媒體網站)

從社交媒體網站“數據抓取”,才導致馬斯克出手限制用戶每天可以查看的推文數量。

Russell表示,儘管許多報導未經證實,但都詳細說明了OpenAI從私人來源購買了文本數據集。雖然這種購買行為可能存在解釋,但自然而然的推斷是,沒有足夠的高質量公共數據了。

一直以來,OpenAI尚未公開GPT-4背後訓練的數據。

而現在,OpenAI需要用“私人數據”來補充其公共語言數據,以創建該公司迄今最強大、最先進的人工智能模型GPT-4。

足見,高質量數據確實不夠用。

OpenAI在發布前沒有立即回復置評請求。

OpenAI深陷數據風波

近來,OpenAI遇上了大麻煩,原因都和數據有關。

先是16人匿名起訴OpenAI及微軟,並提交了長達157頁的訴訟,聲稱他們使用了私人談話和醫療記錄等敏感數據。

他們的索賠金額高達30億美元,訴訟中指出,

儘管制定了購買和使用個人信息的協議,但是OpenAI和微軟系統性地從互聯網中竊取了3000億個單詞,包括數百萬未經同意獲取的個人信息。

這其中包含賬戶信息、姓名、聯繫方式、電子郵件、支付信息、交易記錄、瀏覽器數據、社交媒體、聊天數據、cookie等等。

這些信息被嵌入到ChatGPT中,但這些恰恰反映出個人愛好、觀點、工作履歷甚至家庭照片等。

而負責這次起訴的律師事務所Clarkson,此前曾負責過數據洩露和虛假廣告等問題的大規模集體訴訟。

緊接著,這週又有幾位全職作者提出,OpenAI未經允許使用了自己的小說訓練ChatGPT,構成侵權。

那麼是如何確定使用自己小說訓練的呢?

證據就是,ChatGPT能夠針對他們的書生成準確的摘要,這就足以說明這些書被當作數據來訓練ChatGPT。

作者Paul Tremblay和Mona Awad表示,“ChatGPT未經許可就從數千本書中拷貝數據,這侵犯了作者們的版權”。

起訴書中預估,OpenAI的訓練數據中至少包含30萬本書,其中很多來自侵權網站。

比如,GPT-3訓練數據情況披露時,其中就包含2個互聯網圖書語料庫,大概佔比為15%。

2位起訴的作者認為,這些數據就是來自一些免費的網址,比如Z-Library、Sci-Hub等。

另外2018年,OpenAI曾透露訓練GPT-1中的數據就包括了7000+本小說。起訴的人認為這些書沒有獲得作者認可就直接使用。

另謀他法?

不得不說,OpenAI使用數據來源一事確實存在諸多爭議。

今年2月,《華爾街日報》記者Francesco Marconi曾表示,新聞媒體的數據也被用來訓練ChatGPT。

Marconi讓ChatGPT列了一個清單,竟有20家媒體。

早在今年5月,Altman在接受采訪時曾表示,OpenAI已經有一段時間沒有使用付費客戶數據來訓練大語言模型了。

客戶顯然不希望我們訓練他們的數據,所以我們改變了計劃,不再這麼做。

其實,OpenAI在3月初,曾悄然更新了服務條款。

Altman提到,現在公司正在開發的新技術,可以使用更少的數據來訓練模型。

或許從OpenAI身上受到了啟發,Google選擇先行堵上這一漏洞。

7月1日,Google更新了其隱私政策,現在的政策中明確Google有權收集任何公開可用的數據,並將其用於其人工智能模型的訓練。

Google向所有用戶表明,只要是自己能夠行公開渠道獲得的內容,都可以拿來訓練Bard以及未來的AI。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
ChatGPT時代程序員生存指南這四步很關鍵
NEXT
消息稱供應商擬Q4提前拉貨推動DRAM價格上漲

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 7 月
一 二 三 四 五 六 日
 12
3456789
10111213141516
17181920212223
24252627282930
31  
« 6 月   8 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 【美學小課堂】臉部輪廓解析:外輪廓×內輪廓×T區立體感|一次搞懂輪廓固定關鍵 2025-07-15
  • 美國商務部正在調查無人機和多晶矽進口 2025-07-15
  • 女子網購未殺菌現擠鮮奶直接喝感染布魯氏菌病反覆發燒咳嗽 2025-07-15
  • 索尼手機縮減歐洲市場業務已撤出芬蘭 2025-07-15
  • 特斯拉Robotaxi服務區域形狀引質疑媒體:迎合馬斯克惡趣味 2025-07-15
  • 深圳地鐵配送機器人首跑自己會搭地鐵送貨 2025-07-15
  • 格陵蘭居民一覺醒來看到一座冰山豎在門口 2025-07-15
  • Google 確認計劃將ChromeOS 合併到Android 中 2025-07-15
  • Google Chrome 將終止對macOS 11 Big Sur 的支持 2025-07-15
  • 馬來西亞擬要求高級AI晶片出口需申請許可防止轉售給中國 2025-07-15

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • 美國FAA擬收"天空過路費" 馬斯克發射火箭一年或多交上百萬美元
  • CCleaner全家桶激活密鑰
  • Photon Matrix:針對蚊子的“防空系統”
  • Anduril 宣布與Meta 合作為美國軍方開發XR 產品
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • 研究發現在街道上植樹可以導致當地死亡率的下降
  • 睡眠呼吸中止症病例增加45% 全球氣溫因素是罪魁禍首
  • 視頻轉換器Any Video Converter Ultimate v7.0.5

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.