最新研究揭示AI數據之殤:「西方中心」數據加劇模型偏見
相較於LLM和Agent領域日新月異、高度成熟的進展相比,資料收集方面的規範有明顯滯後。由超過50名研究人員組成的「資料溯源計畫」(DPI)旨在回答這樣一個問題:AI訓練所需的資料究竟來自何處?
“AI就是數據”,這句話想必已經成為了業界的共識。
目前的演算法需要大量資料進行訓練,我們餵給模型的內容決定了它的行為和結果。但問題是:AI領域的開發者和研究人員並不真正了解這些數據的來源。
與模型開發的複雜性相比,人工智慧領域的資料收集實踐還不成熟,許多資料集都無法給出內容及其來源的明確資訊。
成立於2024年的Data Provenance Initiative就想要解決這個問題──建構AI模型的資料集究竟來源何處。這是一個志願者團體,由來自世界各地的AI學術界和工業界的50多名研究人員組成。
他們審核的近4,000個公共資料集中,涵蓋了67個國家、近700個組織、600多種語言,含有約800種資料來源,時間跨度長達三十年。
DPI的研究結果呈現出一種令人擔憂的趨勢:AI領域的數據存在著「壟斷」傾向,絕大部分權力正逐漸集中到少數幾個科技巨頭的手中。

01 LLM資料來源之變
時間回溯到2010年代初,當時的資料集還會涵蓋多種來源,不僅有百科全書和網絡,還有議會記錄、財報電話、天氣預報等。
參與計畫的MIT研究員Shayne Longpre表示,這是因為當時的資料集是為個別任務建構的,要專門從不同來源收集和整理。

2017年,Transformer橫空出世,雖然Scaling Law還要幾年後才提出,但這就已經標誌著我們開始邁進了「大模型」時代,資料集越大、模型參數量越大,就會有更好的性能。
它不僅來自百科全書和網絡,還來自議會記錄、財報電話和天氣預報等來源。隆普雷說,當時,人工智慧資料集是專門從不同來源收集和整理的,以適應個別任務。
从2018开始,网络就一直是所有媒介数据(包括音频、图像和视频)的主要来源;如今,大多数AI数据集都是通过不加区别地从互联网上爬取材料构建的,抓取数据和精心策划的数据集之间存在着显著且逐渐扩大的差距。

Longpre表示,對基座模型的能力而言,似乎沒有什麼比網路及資料的規模和異質性更重要了。對規模的需求也促進了合成資料的大量使用。
除了語言模型,過去幾年我們也見證了多模態GenAI的興起,例如各種影像和影片的生成模型。和LLM類似,這些模型也需要盡可能多的數據。
如下表所示,視訊模型的語音和影像資料集中,超過70%的資料都來自同一個來源YouTube。

這對於擁有YouTube平台的Google和母公司Alphabet來說可能是天大的利好。文字資料是分佈在整個網路上的,並由許多不同的網站和平台控制,但對於視訊數據,權力竟如此集中地掌握在一家公司手中。
AI Now Institute聯合執行董事Sarah Myers West表示,由於Google也正在開發自己的人工智慧模型(例如Gemini),其巨大的優勢也引發了人們的疑問:Google將如何向競爭對手提供這些數據。
更深一層,如果我們所互動的大多數AI資料集都是在反映以利潤為導向的科技巨頭的意圖和設計,那麼這也會不可避免地作用到其他方面,這些大公司會以符合自己利益的方式重塑我們世界的基礎設施。
DPI計劃的另一位成員Sara Hooker從另一個角度提出了擔憂:單一資料來源造成的偏差和失真。
部落客將影片上傳到YouTube時會考慮到特定的受眾群體,影片中的內容也通常是為了達到特定的效果。那麼,這些影片能否捕捉到人性中的細微之處,以及各種不同的生活和行為方式?
舉個簡單的例子,例如你是一個想了解中國的歪果仁,能否透過影視劇、小影片和短劇,學習到中國人的性格、行為和處事方式呢?
02 隱藏起來的資料集
雖然許多科技公司都會選擇發布部分模型的程式碼甚至權重,但幾乎很少公開訓練資料。原因之一是保護競爭優勢,但實際上還有另一個原因:由於資料集捆綁、打包和分發的方式複雜且不透明,他們甚至可能也說不出資料來源。
此外,關於使用和共享資料的限制,發布這些模型的公司可能也沒有完整資訊。 DPI的研究人員發現,資料集通常附加限制性授權或條款,例如限制其用於商業目的等。

如圖所示,文字、語音和視訊資料集分別有25%、33%和32%明確發布了非商業許可,這意味著它們可以用於學術或個人創意,但不能用於商業盈利
資料集之間的整合和沿襲缺乏一致性,這使得開發人員很難對使用哪些資料做出正確的選擇,也幾乎不可能百分之百保證,模型訓練過程中完全沒有使用過受版權保護的數據。
最近,OpenAI和Google等公司與出版商、Reddit等主要論壇以及網路社群媒體平台達成了獨家數據共享協議,但這卻成了他們集中權力的另一種方式。
資料集方面這一趨勢有利於AI領域的那些最大玩家,他們有足夠的財力進行資料交易,但卻犧牲了學術界的研究人員、非營利組織和小公司的利益。
可以說,這些具有排他性的資料共享協定會將網路劃出不同的區域,是一波新的「非對稱存取」浪潮,且已經達到了開放網路上我們前所未見的程度。
03 西方國家vs. 其他地區
這項研究中也證實了另一件事:用來訓練AI模型的數據也嚴重偏向西方世界。研究人員分析的資料集中,超過90%來自歐洲和北美,卻只有不到4%來自非洲。

Hugging Face首席倫理學家Giada Pistilli表示,英語之所以在訓練資料中佔據主導地位,部分原因是,網路中90%以上的內容仍然是英語;另一個原因是方便:將其他語言的資料集放在一起並考慮其他文化,這需要進行更大量的數據工作,以及開發人員有意識的意圖。
透過多模態模型的輸出,我們可以更明顯地感受到這些資料集是如何以西方文化為焦點的。例如,如果提示AI模型產生婚禮的景象和聲音,可能只能得到西式婚禮相關的內容,因為訓練資料就是如此。
資料集代表了人類社會中的偏見,而經過這些資料訓練後的模型又加劇了偏見,並可能導致AI模型推動某種以美國為中心的世界觀,同時不經意地抹去其他語言和文化。