美國媒體揭開大模型陰暗面:訓練用的數據可能有點臟
在過去半年不到的時間裡,許多地球上的人類已經接觸到AI聊天機器人的魅力和魔力。但歸根結底,目前並沒有AI已經產生像人類一樣的自我意識,它們能夠模仿人類講話,主要原因是算法“吸收”了大量的文本——大部分是從互聯網上抓取的。
互聯網上蘊含著大量有用、有益的經驗和知識,但數字時代的網民們也不得不承認,在煙波浩渺的互聯網信息叢林中,也蘊含著大量偏見、歧視、有害,以及侵犯名譽和隱私的內容。種種跡象顯示,這些“人類的禁忌知識”也被大模型照單全收了。
當地時間週三,《華盛頓郵報》發表了與艾倫人工智能研究院合作進行的調查結果,他們拆解了谷歌的C4數據集,這也是許多知名英語AI大模型的訓練材料,例如谷歌的T5和Facebook的LLaMA。中國投資者更關注的OpenAI並沒有公佈訓練ChatGPT所用的數據集,所以這也是目前窺得AI數據黑箱的最便利解決方案。
AI數據集黑箱揭秘
值得一提的是,調查人員使用了SimilarWeb的網站分類數據,由於C4數據集中有三分之一的網站已經不存在這個世界上了,所以實際統計的數據大約為1000萬個網站。
根據研究,囊括全球專利信息的谷歌專利網、維基百科和訂閱制數字圖書館scribd的資料權重位列整個數據集前三。但隨著列表往下翻,一系列意想不到的名字開始出現。
已經被美國司法部查封的盜版電子書網站b-ok.org高居第190位,類似這樣因為侵犯版權被美國查封的網站還在數據集中出現至少27次。
(b-ok.org現在是這個樣子的)
此外,《魔獸世界》玩家論壇wowhead也高居第181位,《赫芬頓郵報》創始人阿里安娜·赫芬頓辦的行為轉變課程網站thriveglobal也位居175位。令人意外的是,有兩個美國投票人數據庫網站也位列前100位。雖然投票人的數據本身是公開的,但大模型可能會把這些個人數據用在哪裡,又有誰能說清楚呢?
接下來的數據則顯示,AI大模型潛在的侵權問題,可能要比想像中更加嚴重。商業和行業網站是數據集中比重最大的分類,創意產品眾籌網站kickstarter(25位)也出現在榜單裡非常高的位置。這裡就引出了一個新的問題,AI向用戶提供的許多創意和市場營銷答案,很有可能本身就是現成的作品。
研究人員也發現,超過50萬的個人博客被收錄進C4訓練集中,這些作者顯然沒有因此得到過任何報酬。
作為AI訓練的“富礦”,每天都大量生產經過審校內容的媒體也是訓練集的最愛,紐約時報、洛杉磯時報、衛報、福布斯和赫芬頓郵報均擠進數據庫比重前十。與許多藝術家一樣,不少媒體目前也在向AI產業聲索維權。由於美國媒體行業的複雜性,所以訓練集中也能找到以極右翼、白人至上主義內容為主基調的網站。
事實上,谷歌在構建數據庫的時候,已經意識到網絡信息污染的問題,所以除了刪除毫無意義和重複的語句外,特意用開源的“髒話過濾器”篩過一遍,但似乎有數量非常龐大的漏網之魚鑽了過去。研究人員就在訓練集中找到至少7.2萬個德國納粹的標誌性符號。
更令人擔憂的是,訓練集中也能找到宣揚種族主義、極右翼陰謀論(QAnon)的網頁,而以組織網絡暴力聞名的4Chan匿名聊天網站也出現在訓練集中。
比起數據臟處理數據的態度更迷離
雖然C4訓練集的數據已經非常龐大,但用於訓練OpenAI GPT-3的網絡爬蟲數據集,從一開始就要比C4大40倍,背後的問題自然也會被同步放大。
但在GPT-3的論文中,OpenAI也公開討論了一個細節:在防止測試數據被放進訓練數據導致污染的過程中發現了一個BUG,但由於重新訓練模型太貴、公司又沒錢,所這個問題就放著不去管它了。
一些業內人士也透露,許多科技公司在內部都不會記錄訓練數據的來源,因為擔心會發現個人信息數據,以及未經授權的材料或其他數據。