科技巨頭狂撒千億美元「買照片」 只為訓練AI模型?
你能想像,那些被遺忘在網盤的陳年老圖,有朝一日能價值千金?就在最近,路透社報道稱,蘋果正與圖像託管網站Photobucket協商,希望得到這家公司近130億張照片、影片組成的龐大圖像庫,並以此來訓練AI模型。蘋果不是這家網站的唯一買家,其他矽谷大廠都在尋求與之達成協議。而這些巨頭們也毫不吝嗇,甚至願意掏出數十億美元的真金白銀購買這些素材。
不只Photobucket,Reddit、Youtube等知名網站都成了科技巨頭們的瘋搶目標。
蘋果為訓練AI買圖片,網友擔憂隱私
Photobucket是一個提供影像寄存、影片寄存、幻燈片製作與照片分享服務網站,成立於2003年。在當時,用戶把這個網站當作個人相冊,與功能與現在流行的線上相冊非常相似。
在巔峰期,該網站曾擁有7,000萬用戶。而到2007年,Photobucket就聲稱已有超過28億張圖片上傳到其網站。不過隨著越來越多的功能更強大的線上相簿App出現之後,這種網站式的線上相簿也逐漸失去了熱度。
不過畢竟是一家成立二十多年的網站,別的不說,數據是真的多,130億張圖片與視頻,足夠AI模型消化很久。
據悉,蘋果購買的圖片的主要目的是提高生成式AI的水平。
除此之外,蘋果在早些時候與另一家圖片素材網站Shutterstock達成了數百萬張圖片的授權協議,據悉這筆交易的價值在2500萬美元到5000萬美元之間。
隨著今年6月WWDC大會日益臨近,每個人都在期待蘋果能帶來「令人驚嘆」的AI功能。
但和上筆交易不同,不少網友開始為了隱私擔心。有人評論表示,Photobucket的圖片來源都是基於網友的「託管,這就意外著這些圖片雖然已經是陳年老圖,但仍屬於用戶的個人秘密。
而Shutterstock的資料大多是免版稅的圖片、向量圖和插圖庫,包括影片剪輯以及音樂曲目,本身就可以授權給使用者使用。這麼一對比,網友對於Photobucket的資料隱私安全問題也可以理解了。
除了涉及隱私以外,不少網友也對這些庫存照片的品質提出了質疑。如果餵食AI這些本來就帶有錯誤的圖片,那麼是否會產生品質更低的圖片呢?
總之,就蘋果購買Photobucket圖片的行為,大多數網友並不認同。
但即使冒著洩漏隱私的風險,蘋果和其他公司還是得「鋌而走險」搞來這些資料。主要原因還是高品質的網路數據,可能沒幾年就要耗盡了。
其實早在多年前,各大科技巨頭就已經碰到訓練語料缺失的瓶頸。
根據《紐約時報》報道,OpenAI在訓練GPT-4時,就曾經遇到英文文本資料缺失的情況。
為了處理這個問題,OpenAI推出一款名為Whisper語音辨識工具,用來轉錄Google旗下視訊平台Youtube的視訊音頻,產生大量的對話文字。
據報道稱,這款工具以開源的名義轉錄了超過一百萬小時的Youtube視頻,實際上已經違反了Youtube的隱私規則,而這些資料也成為ChatGPT的基礎。
這並不是OpenAI第一次因為偷扒資料犯錯。包括《紐約時報》在內,多家數位新聞媒體對OpenAI提起版權侵權訴訟,認為他們的數千篇報導被OpenAI用來訓練ChatGPT。
當然,透過「爬蟲」等手段搜刮訓練資料的科技公司不只OpenAI這一家,「受害者」Google也曾透過修改服務條款的方式,將「使用公開資訊訓練AI模型」偷偷寫進隱私細則中,從而讓工程師利用公開的文件、線上資料等開發AI產品。
不過隨著OpenAI在版權問題上越陷越深,其他科技巨頭也只能乖乖掏錢為訓練資料付費。
至少比起網路上免費抓取的數據,Photobucket近130億的數據量還是相對來說品質更高點。
花錢買數據,或許不夠
可怕的是,即便是130億的數據量,也可能餵不飽現在的AI的模型。
研究機構Epoch直白地表示,現在科技公司使用數據的速度已經超過數據生產的速度,這些公司最快在2026年就耗盡網路上的高品質數據。
有資料統計,在2020年11月發布的GPT-3上,使用了3000億個Token的訓練資料。而到了2024年,GooglePaLM 2的訓練資料量則達到3.6兆個Token。
資料量是一回事,資料的品質更是直接影響AI大模型的生成能力。正如網友所擔憂的那樣,低品質的數據甚至可能讓AI陷入不可逆轉的方向。
面對這樣的問題,OpenAI開始嘗試使用合成資料(AI產生的資料)來訓練AI。這樣既可以減少對受版權保護資料的依賴,同時也能訓練出更強大的結果。
對此OpenAI和一系列機構開始研究使用兩個不同的模型來產生更有用、更可靠的合成數據,其中一個模型用來產生數據,另一個則用來對產生的數據進行審核。
不只是OpenAI,英偉達很早就在用合成數據彌補現實世界的數據。在2021年11月,英偉達對外推出合成資料生成引擎Omniverse Replicator 。
英偉達將其描述為“用於生成具有基本事實的合成資料以訓練AI 網路的引擎”,其作用就是用來訓練AI。
此產品推出後,由該引擎產生的合成數據在自動駕駛、機器人等多個場景中都得到了驗證,因此英偉達也在近年來希望將其推廣到更多領域,包括聊天機器人。
然而,合成資料在工業場景裡的成功案例,並不代表在其他領域都能遵循物理規律。
有時候AI連真實圖片都無法理解,更不要說理解二次生成的圖片了。