美國媒體揭開大模型陰暗面：訓練用的數據可能有點臟

2023-04-21 Comments 0 Comment

在過去半年不到的時間裡，許多地球上的人類已經接觸到AI聊天機器人的魅力和魔力。但歸根結底，目前並沒有AI已經產生像人類一樣的自我意識，它們能夠模仿人類講話，主要原因是算法“吸收”了大量的文本——大部分是從互聯網上抓取的。

互聯網上蘊含著大量有用、有益的經驗和知識，但數字時代的網民們也不得不承認，在煙波浩渺的互聯網信息叢林中，也蘊含著大量偏見、歧視、有害，以及侵犯名譽和隱私的內容。種種跡象顯示，這些“人類的禁忌知識”也被大模型照單全收了。

當地時間週三，《華盛頓郵報》發表了與艾倫人工智能研究院合作進行的調查結果，他們拆解了谷歌的C4數據集，這也是許多知名英語AI大模型的訓練材料，例如谷歌的T5和Facebook的LLaMA。中國投資者更關注的OpenAI並沒有公佈訓練ChatGPT所用的數據集，所以這也是目前窺得AI數據黑箱的最便利解決方案。

AI數據集黑箱揭秘

值得一提的是，調查人員使用了SimilarWeb的網站分類數據，由於C4數據集中有三分之一的網站已經不存在這個世界上了，所以實際統計的數據大約為1000萬個網站。

根據研究，囊括全球專利信息的谷歌專利網、維基百科和訂閱制數字圖書館scribd的資料權重位列整個數據集前三。但隨著列表往下翻，一系列意想不到的名字開始出現。

已經被美國司法部查封的盜版電子書網站b-ok.org高居第190位，類似這樣因為侵犯版權被美國查封的網站還在數據集中出現至少27次。

（b-ok.org現在是這個樣子的）

此外，《魔獸世界》玩家論壇wowhead也高居第181位，《赫芬頓郵報》創始人阿里安娜·赫芬頓辦的行為轉變課程網站thriveglobal也位居175位。令人意外的是，有兩個美國投票人數據庫網站也位列前100位。雖然投票人的數據本身是公開的，但大模型可能會把這些個人數據用在哪裡，又有誰能說清楚呢？

接下來的數據則顯示，AI大模型潛在的侵權問題，可能要比想像中更加嚴重。商業和行業網站是數據集中比重最大的分類，創意產品眾籌網站kickstarter（25位）也出現在榜單裡非常高的位置。這裡就引出了一個新的問題，AI向用戶提供的許多創意和市場營銷答案，很有可能本身就是現成的作品。

研究人員也發現，超過50萬的個人博客被收錄進C4訓練集中，這些作者顯然沒有因此得到過任何報酬。

作為AI訓練的“富礦”，每天都大量生產經過審校內容的媒體也是訓練集的最愛，紐約時報、洛杉磯時報、衛報、福布斯和赫芬頓郵報均擠進數據庫比重前十。與許多藝術家一樣，不少媒體目前也在向AI產業聲索維權。由於美國媒體行業的複雜性，所以訓練集中也能找到以極右翼、白人至上主義內容為主基調的網站。

事實上，谷歌在構建數據庫的時候，已經意識到網絡信息污染的問題，所以除了刪除毫無意義和重複的語句外，特意用開源的“髒話過濾器”篩過一遍，但似乎有數量非常龐大的漏網之魚鑽了過去。研究人員就在訓練集中找到至少7.2萬個德國納粹的標誌性符號。

更令人擔憂的是，訓練集中也能找到宣揚種族主義、極右翼陰謀論（QAnon）的網頁，而以組織網絡暴力聞名的4Chan匿名聊天網站也出現在訓練集中。

比起數據臟處理數據的態度更迷離

雖然C4訓練集的數據已經非常龐大，但用於訓練OpenAI GPT-3的網絡爬蟲數據集，從一開始就要比C4大40倍，背後的問題自然也會被同步放大。

但在GPT-3的論文中，OpenAI也公開討論了一個細節：在防止測試數據被放進訓練數據導致污染的過程中發現了一個BUG，但由於重新訓練模型太貴、公司又沒錢，所這個問題就放著不去管它了。

一些業內人士也透露，許多科技公司在內部都不會記錄訓練數據的來源，因為擔心會發現個人信息數據，以及未經授權的材料或其他數據。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

美國媒體揭開大模型陰暗面：訓練用的數據可能有點臟

2023-04-21 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆