OpenAI版權訴訟越來越多尋求更多數據來訓練人工智慧
OpenAI 使用所有公開可用的資料來訓練ChatGPT,包括來自網路的書籍和文章。現在,擁有這些數據的人希望為他們的工作獲得報酬。訓練資料是創建正在佔領科技世界的人工智慧模型的重要組成部分。 Google、Meta、OpenAI、Anthropic 和微軟等領先的科技公司都在爭相尋找新的資料來源。 Meta 甚至一度考慮收購世界上最大的出版社之一西蒙舒斯特。
問題的一部分在於,出版商越來越多地指責這些公司竊取受版權保護的資料。他們希望為自己的工作獲得報酬。
Meta 和OpenAI在向美國版權局提交的評論中辯稱,將受版權保護的資料放在網路上使其公開可用,因此屬於合理使用。
但他們仍必須在法庭上提出這一論點,因為該公司面臨來自多個團體的有關版權材料的訴訟。
調查報道中心是一家非營利新聞機構,有時簡稱為CIR,今年稍早與Mother Jones 和Reveal 合併,上週在聯邦法院起訴了OpenAI 和微軟。訴訟指控OpenAI建立在對包括CIR 在內的全球創作者的版權作品的剝削之上。
CIR 的律師指控OpenAI 和微軟使用Mother Jones 的版權資料來訓練他們的GPT 和Copilot AI 模型。
「OpenAI 和微軟開始竊取我們的新聞,以使他們的產品更加強大,但他們從未徵求我們的許可或提供補償,這與其他獲得我們材料許可的組織不同。」調查報道中心首席執行官莫妮卡·鮑爾萊因(Monika Bauerlein)在一份關於訴訟的聲明中表示。 “這種搭便車行為不僅不公平,而且侵犯了版權。”
訴訟稱,該公司WebText 訓練集中存在的頂級網路域名發布的列表中出現了來自Mother Jones 網路域名的16,793 個不同的URL。
在作家協會的另一起集體訴訟中,兩位作家聲稱該公司利用他們書中的資訊來訓練ChatGPT。 《紐約時報》也在2023 年12 月對該公司提起了類似的訴訟。
今年5 月,作家協會訴訟案的法庭文件顯示,OpenAI 刪除了用於訓練GPT-3 的兩個龐大資料集。該協會的律師表示,這兩組數據可能包含超過10 萬本已出版的書籍。
法庭文件稱,負責整理資料的兩名員工不再為OpenAI 工作。
OpenAI 已開始與新聞機構簽署授權協議,以公平使用其作品。該公司已與美聯社、《華爾街日報》和《紐約郵報》的出版商、《大西洋月刊》、Prisa Media、《世界報》、《金融時報》和Business Insider 母公司Axel Springer 簽署了此類協定.
但這些機器人持續學習所需的內容規模將遠遠超過少數幾份授權協議。
一種解決方案是合成數據,它是人工生成的而不是從現實世界收集的,並且可以透過機器學習演算法輕鬆生成。
OpenAI 已將合成資料視為訓練其模型的選擇,但執行長Sam Altman 對產生高品質資料表示擔憂。
奧特曼在2023 年5 月的一次技術會議上表示: 只要你能跨越合成數據事件視界,讓模型足夠智能,能夠產生良好的合成數據,那麼一切都會好起來。
該公司也探索了人工智慧模型協同工作的過程——一個人工智慧系統產生數據,另一個人工智慧系統對其進行判斷。
OpenAI 尚未立即回覆評論請求。