AI產業的灰暗面:OpenAI、Google、Meta如何取得訓練語料
種種跡象顯示,目前站在全世界AI領域潮頭浪尖的這些公司,早在幾年前就已經陷入對訓練語料的「絕望」追逐中——為此他們不惜修改政策條款、無視互聯網信息的使用規則,只為了讓自家的產品更先進一些。
《紐約時報》在本週末刊發的調查報道中,揭露了OpenAI、Google、Meta等公司為了獲取訓練語料所採取的一些「走捷徑」措施,同時也展現了整個行業迫在眉睫的困境。
美國科技巨頭各走“捷徑”
2021年末,正在訓練GPT-4的OpenAI遇到了一個棘手的問題,公司已經耗盡了網路上所有可靠的英文文字資源,而他們需要更多、更大規模的資料來訓練更強大的模型。
為了處理這個問題,OpenAI的Whisper語音辨識工具誕生了──用來轉錄Google旗下視訊平台Youtube的視訊音頻,產生大量的對話文字。
報導稱,包括OpenAI總裁布洛克曼在內的團隊總共轉錄了超過一百萬小時的Youtube影片。隨後這些資料被輸入到GPT-4系統中,並成為聊天機器人ChatGPT的基礎。
根據Google的政策,禁止用戶將平台上的影片用於「獨立」應用,同時禁止透過任何自動化手段(爬蟲等)存取其影片。
有趣的是,在OpenAI偷偷扒Youtube影片時,Google也在轉錄自家串流平台的內容訓練大模型──同樣冒著侵犯版權的風險。正因如此,雖然有Google員工知道OpenAI在這麼幹,也沒有出手阻止。因為一旦Google對OpenAI提出抗議,也有可能「引火燒身」到自己身上。
對於是否採用Youtube視訊訓練AI的詢問,OpenAI方面回應稱,他們使用了「多個來源」的資料。 Google發言人Matt Bryant則表示,公司對OpenAI的行為一無所知,且禁止任何人「未經授權抓取或下載Youtube影片」。不過Bryant也表示,公司只會在有明確法律、技術依據時才會採取行動。
Google自家的條款,則允許平台使用這些影片開發影片平台的新功能,但這樣的措詞是否意味著Google能用這些資料開發商用AI,也存在不小的疑問。
同時,Meta的內部會議記錄顯示,工程師和產品經理討論了購買美國大型出版商Simon & Schuster以獲取長文本資料的計劃,另外他們還討論了從互聯網上收集受版權保護的內容,並表示「與出版商、藝術家、音樂家和新聞業談判授權需要的時間太多了」。
據悉,有Meta的高層表示,OpenAI似乎正在使用受版權保護的資料,所以公司也可以遵循這個「市場先例」。
更顯性的變化是,Google去年修改了服務條款。根據內部資料顯示,推動隱私權政策變化的動機之一,包括允許Google利用公開的Google文件、Google地圖上的餐廳評論,以及更多線上資料開發AI產品。最後Google趕在美國國慶日(7月4日)放假前的7月1日發布了修改後的隱私條款,將「使用公開資訊訓練AI模型」首次納入其中。
Bryant回應稱,公司不會在沒有用戶「明確許可」的情況下使用他們的Google文件來訓練AI,這裡指的是自願參與的實驗性功能體驗計劃。
即便如此還是不夠
正因為這些操作,近年來伴隨著人們對AI能力的驚嘆,越來越多的版權方也開始意識到自己的資料被偷偷拿走訓練AI了。包括《紐約時報》、一些電影製作人和作家已經將這些科技公司告上法庭,美國著作權局也正在製定版權法在AI時代的適用指南。
問題在於,即便一些作家、製片人將科技公司的行為稱為“美國史上最大盜竊案”,科技公司用來發展下一代AI的數據依然還不夠。
2020年初,約翰霍普金斯大學的理論物理學家(現Anthropic首席科學官)Jared Kaplan發布了一篇論文,明確表示訓練大語言模型用的資料越多,表現就會越好。自那以後,「規模就是一切」成為了人工智慧產業的信條。
2020年11月發布的GPT-3包含約3000億個Token的訓練資料。 2022年,GoogleDeepMind對400個人工智慧模型進行測試,其中表現最好的模型(之一),一個名為Chinchilla的模型用了1.4兆個Token的資料。到了2023年,中國科學家開發的Skywork大模型在訓練中使用3.2兆個英文和中文Token,GooglePaLM 2的訓練資料量則達到3.6兆個Token。
研究機構Epoch直白地表示,現在科技公司使用數據的速度已經超過數據生產的速度,這些公司最快在2026年就耗盡網路上的高品質數據。
面對這樣的問題,奧爾特曼已經提出了一種解決方法:像OpenAI這樣的公司,最終會轉向使用AI生成的數據(也被稱為合成數據)來訓練AI。這樣開發人員在創造愈發強大的技術同時,也會減少對受版權保護資料的依賴。
目前OpenAI和一系列機構也正在研究使用兩個不同的模型,能否共同產生更有用、更可靠的合成數據——一個系統產生數據,另一個系統對資訊進行評判。當然,這種技術路徑是否可行,目前仍存爭議。
前OpenAI 研究員Jeff Clune認為,這些AI系統所需的資料就像是穿越叢林的路徑,如果這些公司只是在合成資料上訓練,AI可能會在叢林裡迷失。