OpenAI和谷歌利用了YouTube影片轉錄來訓練其人工智慧模型
根據《紐約時報》報道,OpenAI 和Google利用從YouTube 影片中轉錄的文字訓練人工智慧模型,這可能侵犯了創作者的版權。該報道引述了許多了解這些公司做法的人士的話,描述了OpenAI、Google和Meta 為最大限度地向其人工智慧提供數據所做的努力。
就在幾天前,YouTube 執行長尼爾莫漢(Neal Mohan)在接受彭博社採訪時表示,OpenAI 據稱使用YouTube 影片來訓練其新的文字到影片產生器Sora 將違反該平台的政策。
根據《紐約時報》報道,OpenAI 使用其Whisper 語音辨識工具轉錄了超過100 萬小時的YouTube 視頻,然後用於訓練GPT-4。The Information先前曾報道,OpenAI 曾使用YouTube 影片和播客來訓練這兩個人工智慧系統。
據報道,OpenAI 總裁 Greg Brockman 也是這個團隊的成員之一。 Google發言人 Matt Bryant告訴《紐約時報》,根據Google的規定,”未經授權採集或下載YouTube 內容”是不被允許的,同時他還表示,公司並不知道OpenAI使用過此類內容。
不過,該報道稱,Google有人知道但沒有對OpenAI 採取行動,因為Google自己也正在使用YouTube 影片訓練自己的人工智慧模型。但Google告訴《紐約時報》 ,它只使用同意參加實驗項目的創作者的影片。
《紐約時報》的報導還稱,Google在2022 年6 月調整了其隱私政策,以更廣泛地涵蓋使用公開內容(包括Google文件和Google工作表)來訓練其人工智慧模型和產品。布萊恩特告訴《紐約時報》,只有在選擇使用Google實驗功能的用戶允許的情況下,Google才會這樣做,而且該公司”並沒有根據這一語言變化開始對其他類型的數據進行訓練” 。