「AI資料荒」雪上加霜MIT:網頁資料的公開分享正走向衰落
隨著GenAI產品開發和研究變得越來越廣泛,訓練資料的抓取授權也越來越成為受關注的話題。最近,吳恩達在網站The Batch上提及了一篇有關數據許可的研究,其結果似乎讓本就迫近的「AI數據荒」雪上加霜。
研究人員發現,C4、RefineWeb、Dolma等開源資料集所爬取的各種網站正在快速地收緊他們的授權協議,曾經觸手可及的開放資料越來越難以取得。
這不僅會影響商用AI模式的訓練,也會對學術界和非營利組織的研究造成阻礙。
本計畫的4位團隊主管分別來自MIT Media Lab、Wellesley學院、AI新創公司Raive等機構。
論文地址:https://www.dataprovenance.org/consent-in-crisis-paper
主持研究的是非營利組織The Data Provenance Initiative,由來自世界各地的AI研究人員志願加入組成。論文所涉及的數據標註以及分析全過程已經全部公開在GitHub上,方便未來研究參考使用。
倉庫地址:https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection
具體來說,論文主要有以下幾個面向的結論:
AI數據共享空間的限制正在激增
2023.4~2024.4僅一年的時間,C4、RefineWeb、Dolma資料集中就有5%+的token總量、25%+的關鍵網頁在robots.txt做出了限制。
從服務條款的結果來看,C4資料集的45%已被限制。透過這種趨勢可以預測,不受限制的開放網路資料將會逐年減少。
許可的不對稱性與不一致性
相較於其他的開發者,OpenAI的爬蟲更加不受歡迎。不一致性體現在,robots.txt和服務條款(Terms of Service, ToS)中經常存在矛盾之處。這表明用於傳達數據使用意圖的工具存在效率低下的問題。
從網路爬取的公開訓練語料中,頭尾內容的特徵存在差異
這些語料中有相當高比例的使用者生成內容、多模態內容和商業變現內容(俗稱帶貨廣告),敏感或露骨內容的比例僅略少一些。
排名靠前的網站網域包括新聞、百科和社群媒體網站,其餘的組織機構官網、部落格和電子商務網站構成了長尾部分。
網路資料與對話式AI的常見用例的不匹配
網路上爬取的相當一部分資料與AI模型的訓練用途並不一致,這對模型對齊、未來的資料收集實踐以及版權都會造成影響。
研究方法
通常來說,限制網頁爬蟲的措施有以下兩種:
– 機器人排除協議(Robots Exclusion Protocol, REP)
– 網站的服務條款(Terms of Service, ToS)
REP的誕生還要追溯到AI時代之前的1995年,這個協議要求在網站原始檔中包含robots.txt以管理網路爬蟲等機器人的活動,例如使用者代理(user agent)或特定檔案的存取權限。
Google開發者網站上的robots.txt檔案範例
你可以將robots.txt的效力視為張貼在健身房、酒吧或社區中心牆上的「行為準則」標誌。它本身沒有任何強制效力,好的機器人會遵循準則,但壞的機器人可以直接無視。
論文共調查了3個資料集的網站來源,具體如表1所示。這些都是有廣泛影響力的開源資料集,下載量在100k~1M+不等。
每個資料來源,token總量排名前2k的網站域名,取並集,共整理出3.95k個網站域名,記為HEADAll,其中僅來源於C4資料集的記為HEADC4,可視為量最大、維護最頻繁、最關鍵領域的AI訓練資料來源。
隨機採樣10k個網域名稱(RANDOM10k),其中再隨機選取2k個進行人工標註(RANDOM2k)。RANDOM10k僅從三個資料集的網域交集中採樣,這意味著他們更可能是品質較高的網頁。
如表2所示,對RANDOM2k進行人工標註時涵蓋了許多方面,包括內容的各種屬性以及存取權限。為了進行時間上的縱向比對,作者參考了Wayback Machine所收錄的網頁歷史資料。
研究所用的人工標註內容都已公開,方便未來研究進行重現。
結果概述
數據限制增加
除了收集歷史數據,論文還使用SARIMA方法(Seasonal Autoregressive Integrated Moving Average)對未來趨勢進行了預測。
從robots.txt的限制來看,從GPTBot出現(2023年中期)後,進行完全限制的網站數量激增,但服務條款的限制數量增長較為穩定且均衡,更關注商業用途。
根據SARIMA模型的預測,無論是robots.txt或ToS,這種限制數成長的趨勢都會持續下去。
下面這種圖計算了網站限制的特定組織或公司的agent比例,可以看到OpenAI的機器人遙遙領先,其次是Anthropic、Google以及開源資料集Common Crawl的爬蟲。
從token數量的角度,也能看到類似的趨勢。
不一致且無效的AI許可
不同組織的AI agent的在各網站上的許可程度有相當大的差異。
OpenAI、Anthropic和Common Crawl的受限佔比位列前三,都達到了80%以上,而網站所有者對Internet Archive或Google搜尋這類非AI領域的爬蟲通常都比較寬容開放。
robots.txt主要用於規範網頁爬蟲的行為,而網站的服務條款是和使用者之間的法律協議,前者較為機械化、結構化但可執行度高,後者能表達更豐富、細微的策略。
二者本應相互補足,但在實際中,robots.txt常常無法捕捉到服務條款的意圖,甚至常常有互相矛盾的含義(圖3)。
現實用例與網頁資料的不匹配
論文將網頁內容與WildChat資料集中的問題分佈進行對比,這是最近收集的ChatGPT的用戶數據,包含約1M份對話。
從圖4可以發現,二者的差異十分顯著。網頁資料中佔比最大的新聞和百科在使用者資料中幾乎微不足道,使用者經常使用的虛構寫作功能在網頁中也很難找到。
討論與結論
近來,許多AI公司都被指責繞過robots.txt來抓取網頁資料。儘管很難確認,但似乎AI系統很難將用於訓練的資料和推理階段用於回答使用者提問的資料分開。
REP協議的複雜性給網頁創建者帶來了很大的壓力,因為他們很難對所有可能的agent及其下游用例做出細緻規定,這導致robots.txt的實際內容很難反映真實意圖。
我們需要將用例相關的術語進一步分類並標準化,例如,用於搜尋引擎,或非商用AI,或只在AI標明資料出處時才可使用。
總之,這種新的協議需要更靈活地反映網站所有者的意願,能將有許可和不被允許的用例分開,並更好地與服務條款同步。
最重要的是,從網站數據使用限制的激增中,我們不難看出數據創建者和AI科技公司之間的緊張關係,但背後無辜躺槍的是非營利組織和學術研究人員。
The Batch在轉述這篇文章時表達了這樣的願望:
“我們希望AI開發人員能夠使用開放網路上提供的數據進行訓練。我們希望未來的法院判決和立法能夠確認這一點。”