OpenAI的模型被發現「記住」了受版權保護的內容
一項新的研究似乎證實了OpenAI 至少使用部分受版權保護的內容來訓練其AI 模型的指控。 OpenAI 被捲入了作者、程式設計師和其他權利持有者提起的訴訟,他們指控該公司未經許可使用他們的作品(書籍、程式碼庫等)來開發其模型。
OpenAI 長期以來一直聲稱自己享有合理使用辯護,但這些案件的原告辯稱,美國版權法中沒有針對訓練資料的例外規定。
這項研究由華盛頓大學、哥本哈根大學和史丹佛大學的研究人員共同撰寫,提出了一種新方法來識別由OpenAI 等API 背後的模型「記憶」的訓練資料。
模型是預測引擎。經過大量資料的訓練,它們會學習模式— 這就是它們能夠產生文章、照片等內容的方式。大多數輸出都不是訓練資料的逐字複製,但由於模型「學習」的方式,有些不可避免地是。人們發現圖像模型會重述它們訓練過的電影的截圖,而語言模型則被發現會剽竊新聞文章。
這項研究的方法依賴合著者稱之為「高意外」的單字——即在大量文獻中顯得不常見的單字。例如,句子“傑克和我靜靜地坐著,雷達嗡嗡作響”中的“雷達”一詞將被視為高意外,因為從統計上講,它比“引擎”或“收音機”等詞出現在“嗡嗡聲”之前的可能性更小。
合著者們探討了包括GPT-4和GPT-3.5 在內的幾種OpenAI 模型,以尋找記憶的跡象。他們從小說和《紐約時報》文章的片段中刪除了出乎意料的單詞,並讓模型嘗試「猜測」哪些單字被掩蓋了。合著者們總結道,如果模型猜對了,那麼它們很可能在訓練期間記住了這些片段。

讓模型「猜測」一個高意外單字的一個例子。圖片來源: OpenAI
根據測試結果,GPT-4 顯示出記憶部分流行小說的跡象,包括一個名為BookMIA 的包含版權電子書樣本的資料集中的書籍。結果還表明,模型記憶了《紐約時報》文章的部分內容,儘管速度相對較低。
華盛頓大學博士生、這項研究的共同作者阿比拉沙·拉維昌德(Abhilasha Ravichander) 表示,這項發現揭示了模型可能接受過哪些「有爭議的數據」訓練。
「為了擁有值得信賴的大型語言模型,我們需要擁有可以進行科學探索、審查和檢查的模型,」Ravichander 說。 “我們的工作旨在提供一種探索大型語言模型的工具,但整個生態系統確實需要更高的數據透明度。”
OpenAI 長期以來一直主張 放寬對使用受版權保護的資料開發模型的限制 。儘管該公司已經達成了某些內容授權協議,並提供了選擇退出機制,允許版權所有者標記他們不希望公司用於培訓目的的內容,但它已經遊說多個政府制定有關人工智慧培訓方法的「合理使用」規則。