OpenAI意外刪除了《紐約時報》版權訴訟案中的潛在證據
《紐約時報》和《每日新聞》的律師正在追加起訴OpenAI,稱OpenAI 工程師意外刪除了可能與此案相關的資料。今年秋天早些時候,OpenAI 同意提供兩台虛擬機,以便《泰晤士報》和《每日新聞》的律師可以在其人工智慧訓練集中搜尋他們的版權內容。 (虛擬機是一種基於軟體的計算機,存在於另一台計算機的作業系統中,通常用於測試、備份資料和運行應用程式)。
出版商的律師在一封信中表示,自11月1日以來,他們和他們聘請的專家已經花了150多個小時搜尋OpenAI的訓練資料。
但根據上述週三稍晚提交給美國紐約南區地方法院的信函,11 月14 日,OpenAI 工程師刪除了儲存在其中一台虛擬機器上的所有出版商搜尋資料。
OpenAI 試圖恢復這些數據,並在很大程度上取得了成功。 然而,由於資料夾結構和檔案名稱已”不可挽回地”遺失,恢復的資料”無法用於確定新聞原告複製的文章在哪裡被用於建立[OpenAI 的] 模型”。
《紐約時報》和《每日新聞》的律師寫道:「原告被迫從頭開始重新工作,耗費了大量的人力和電腦處理時間。而昨天才得知,恢復的數據無法使用,其專家和律師整整一周的工作都必須重新進行,這就是今天提交這封補充信的原因。
原告律師明確表示,他們沒有理由相信刪除是故意的。 但他們確實表示,這一事件突出表明,OpenAI”最有能力使用自己的工具搜尋自己的資料集”,以查找潛在的侵權內容。
OpenAI 發言人拒絕發表聲明。
在這起案件和其他案件中,OpenAI 堅持認為,使用公開資料(包括《紐約時報》和《每日新聞》的文章)訓練模型屬於合理使用。 換句話說,在創建像GPT-4o 這樣的模型時,OpenAI 認為,即使它從這些模型中賺到了錢,也不需要為這些範例獲得許可或支付其他費用。
儘管如此,OpenAI 已經與越來越多的新出版商簽訂了許可協議,其中包括美聯社、《商業內幕》的所有者阿克塞爾-施普林格(Axel Springer)、《金融時報》 、《人物》母公司Dotdash Meredith 和新聞集團。 OpenAI 拒絕公開這些交易的條款,但據報道,內容合作夥伴Dotdash 每年可獲得至少1,600 萬美元的報酬。
OpenAI 既未證實也未否認其人工智慧系統在未經許可的情況下對任何特定版權作品進行了訓練。