GPT-4耗盡全宇宙數據OpenAI接連吃官司竟因數據太缺了

2023-07-16 Comments 0 Comment

深陷數據風波的OpenAI，背後真正原因竟是優秀的數據太少了。窮盡“全網”，生成式AI很快無數據可用。近日，著名UC伯克利計算機科學家Stuart Russell稱，ChatGPT和其他AI工具的訓練可能很快耗盡“全宇宙的文本”。換句話說，訓練像ChatGPT這樣的AI，將因數據量不夠而受阻。

這可能會影響生成式AI開發人員，在未來幾年收集數據，以及訓練人工智能的方式。

同時，Russell認為人工智能將在“語言輸入，語言輸出”的工作中取代人類。

數據不夠，拿什麼湊？

Russell近來的預測引起了大家重點關注。

OpenAI和其他生成式AI開發人員，為訓練大型語言模型，開始進行數據收集。

然而，ChatGPT和其他聊天機器人不可或缺的數據收集實踐，正面臨著越來越多的審查。

其中就包括，未經個人同意情況下創意被使用，以及平台數據被自由使用感到不滿的一些高管。

但Russell的洞察力指向了另一個潛在的弱點：訓練這些數據集的文本短缺。

去年11月，MIT等研究人員進行的一項研究估計，機器學習數據集可能會在2026年之前耗盡所有“高質量語言數據”。

論文地址：https://arxiv.org/pdf/2211.04325.pdf

根據這項研究，“高質量”集中的語言數據來自：書籍、新聞文章、科學論文、維基百科和過濾後的網絡內容等。

而加持當紅炸子雞ChatGPT背後的模型GPT-4同樣接受了大量優質文本的訓練。

這些數據來自公共在線的資源（包括數字新聞來源和社交媒體網站）

從社交媒體網站“數據抓取”，才導致馬斯克出手限制用戶每天可以查看的推文數量。

Russell表示，儘管許多報導未經證實，但都詳細說明了OpenAI從私人來源購買了文本數據集。雖然這種購買行為可能存在解釋，但自然而然的推斷是，沒有足夠的高質量公共數據了。

一直以來，OpenAI尚未公開GPT-4背後訓練的數據。

而現在，OpenAI需要用“私人數據”來補充其公共語言數據，以創建該公司迄今最強大、最先進的人工智能模型GPT-4。

足見，高質量數據確實不夠用。

OpenAI在發布前沒有立即回復置評請求。

OpenAI深陷數據風波

近來，OpenAI遇上了大麻煩，原因都和數據有關。

先是16人匿名起訴OpenAI及微軟，並提交了長達157頁的訴訟，聲稱他們使用了私人談話和醫療記錄等敏感數據。

他們的索賠金額高達30億美元，訴訟中指出，

儘管制定了購買和使用個人信息的協議，但是OpenAI和微軟系統性地從互聯網中竊取了3000億個單詞，包括數百萬未經同意獲取的個人信息。

這其中包含賬戶信息、姓名、聯繫方式、電子郵件、支付信息、交易記錄、瀏覽器數據、社交媒體、聊天數據、cookie等等。

這些信息被嵌入到ChatGPT中，但這些恰恰反映出個人愛好、觀點、工作履歷甚至家庭照片等。

而負責這次起訴的律師事務所Clarkson，此前曾負責過數據洩露和虛假廣告等問題的大規模集體訴訟。

緊接著，這週又有幾位全職作者提出，OpenAI未經允許使用了自己的小說訓練ChatGPT，構成侵權。

那麼是如何確定使用自己小說訓練的呢？

證據就是，ChatGPT能夠針對他們的書生成準確的摘要，這就足以說明這些書被當作數據來訓練ChatGPT。

作者Paul Tremblay和Mona Awad表示，“ChatGPT未經許可就從數千本書中拷貝數據，這侵犯了作者們的版權”。

起訴書中預估，OpenAI的訓練數據中至少包含30萬本書，其中很多來自侵權網站。

比如，GPT-3訓練數據情況披露時，其中就包含2個互聯網圖書語料庫，大概佔比為15%。

2位起訴的作者認為，這些數據就是來自一些免費的網址，比如Z-Library、Sci-Hub等。

另外2018年，OpenAI曾透露訓練GPT-1中的數據就包括了7000+本小說。起訴的人認為這些書沒有獲得作者認可就直接使用。

另謀他法？

不得不說，OpenAI使用數據來源一事確實存在諸多爭議。

今年2月，《華爾街日報》記者Francesco Marconi曾表示，新聞媒體的數據也被用來訓練ChatGPT。

Marconi讓ChatGPT列了一個清單，竟有20家媒體。

早在今年5月，Altman在接受采訪時曾表示，OpenAI已經有一段時間沒有使用付費客戶數據來訓練大語言模型了。

客戶顯然不希望我們訓練他們的數據，所以我們改變了計劃，不再這麼做。

其實，OpenAI在3月初，曾悄然更新了服務條款。

Altman提到，現在公司正在開發的新技術，可以使用更少的數據來訓練模型。

或許從OpenAI身上受到了啟發，Google選擇先行堵上這一漏洞。

7月1日，Google更新了其隱私政策，現在的政策中明確Google有權收集任何公開可用的數據，並將其用於其人工智能模型的訓練。

Google向所有用戶表明，只要是自己能夠行公開渠道獲得的內容，都可以拿來訓練Bard以及未來的AI。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

WONGCW 網誌

記錄生活經驗與點滴

GPT-4耗盡全宇宙數據OpenAI接連吃官司竟因數據太缺了

2023-07-16 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆