蘋果、NVIDIA、Anthropic因使用YouTube資源訓練AI而陷入爭議
包括蘋果、NVIDIA、Salesforce 和Anthrophic 在內的大型科技公司在產品中使用了人工智慧技術,它們發現自己陷入了一場新的爭議。根據ProofNews 發布的一份報告,這些公司用於訓練人工智慧模型的資料集包括來自YouTube 影片的字幕。
名為”YouTube 字幕”的資料集於2020 年發布,由EleutherAI 創建。該出版物發現,數據集包含了從超過48,000 個頻道下載的173,536 個YouTube 影片的字幕。
首先,該資料集似乎違反了YouTube 的條款和條件,即禁止透過”自動化手段”存取影片。據該刊物稱,YouTube Subtitles 是一個5.7GB(4.89 億字)的訓練資料集,其中包括從平台上刪除的12,000 多個影片的字幕。
從YouTube 上取得的影片轉錄內容涵蓋了眾多創作者和頻道,包括那些擁有數億訂閱者的頻道和那些擁有10 多萬訂閱者的頻道。
Proof News 還發現了來自YouTube 巨星的材料,包括MrBeast(2.89 億訂閱者,拍攝了兩段視頻用於訓練)、Marques Brownlee(1900 萬訂閱者,拍攝了七段視頻)、Jacksepticeye(近3100 萬訂閱者,拍攝了377 段影片)和PewDiePie(1.11 億訂閱者,拍攝了337 段影片)。用於訓練人工智慧的一些資料也宣揚”平地理論”等陰謀論。
YouTube 字幕資料集隸屬於名為”The Pile”的資料集,其中包括其他幾個訓練資料集。大多數”堆”資料集都對任何有足夠空間和計算能力的人開放。
EleutherAI 的代表沒有回應置評請求,也沒有就調查結果和未經許可刪除影片的指控發表評論。許多創作者也沒有回應,而那些回應的創作者則聲稱,這些影片是在他們不知情的情況下被使用的。
ProofNews 透過搜尋網路貼文和白皮書,尋找人工智慧公司使用這些資料的證據,並「將資料集中的字幕與YouTube 上的影片連結起來,以確定誰的創意素材被用於訓練人工智慧模型」。
不過,由於人工智慧公司通常不會揭露它們用於訓練模型的數據,因此它無法建立使用該數據集的公司綜合清單。
受影響的創作者之一馬克斯-布朗利(Marques Brownlee)寫道,他使用付費服務產生YouTube 轉錄。 “因此,採集轉錄內容的公司正在以多種方式竊取*付費*工作。這可不好,”他補充說。另一位創作者大衛-帕克曼(David Pakman)在TikTok 上發現了一個視頻,其中包含了他的一個視頻的腳本,似乎只有一位評論者認出了這是假的。
請注意,蘋果和其他科技公司並不是自己下載了字幕,而是用它來訓練了人工智慧模型。然而,這項行為是人工智慧不請自來的後果的一個例子。接受本刊採訪的創作者們透露了他們對未來的不確定性,以及人工智慧被用來模仿他們內容的可能性。