研究:一個有影響力的數據集「卡特爾」正在主導AI研究
加利福尼亞州大學和Google研究院的一篇新論文指出,少數「基準」機器學習數據集主要來自有影響力的西方機構並且經常來自政府組織,現在,它們正在日益主導人工智慧(AI)研究領域。
研究人員得出結論,這種”預設”的高度流行的開源數據集如ImageNet的趨勢帶來了一些實際的、道德的甚至是政治上的擔憂。
基於來自Facebook領導的社區專案Papers With Code(PWC)的核心數據,研究人員們認為,廣泛使用的數據集只被少數精英機構引入,而這種”鞏固”在最近幾年已經增加到80%。
“(我們)發現,在全球範圍內,數據集的使用越來越不平等,在我們的43140個樣本中超50%的數據集使用對應的是由12個精英機構,主要是西方機構引入的數據集,”檔寫道。
據悉,這些主導機構包括斯坦福大學、微軟、普林斯頓、Facebook、Google、馬克斯-普朗克研究所和AT&T。 在前十名的數據集來源中有四個為業機構。
另外,該檔還將這些精英數據集的使用越來越多的特點描述為「科學中不平等的載體」。。 這是因為尋求社區認可的研究團隊更有動力針對一致的數據集取得最先進的(SOTA)成果,而不是產生沒有這種地位的原始數據集,這就要求同行適應新的指標而不是標準指標。
在任何情況下,正如該檔所承認的那樣,對於資源不足的機構和團隊來說,創建自己的數據集是一種過於昂貴的追求。
檔指出:「SOTA基準所賦予的表面上的科學有效性跟研究人員通過展示他們能夠在一個廣泛認可的數據集上進行競爭而獲得的社會公信力相混淆,即使一個更具體的基準在技術上可能更合適。
我們認為,這些動力產生了『馬太效應』(即富者愈富,窮者愈窮),在這種情況下,成功的基準和引入這些基準的精英機構在該領域獲得了超然的地位。 ”
這篇題為《Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research》的論文由來自加州大學洛杉磯分校的Bernard Koch和Jacob G. Foster、Google研究院的Emily Denton和Alex Hanna共同編寫。
這項工作對其所記錄的日益增長的合併趨勢提出了一些問題,另外還在開放評審中得到了普遍的贊同。 一位來自NeurIPS 2021的評論員評論稱,這項工作對任何參與機器學習研究的人都非常有意義,並且他還預計它將成為大學課程的指定讀物。
從必要性到腐敗性
研究人員們指出,目前的「跑贏基準」文化是作為一種補救措施出現的,因為在三十多年前,在商業界對「專家系統」的新研究熱情下降之後,缺乏客觀的評估工具導致了對AI的興趣和投資第二次崩潰。
文件認為,這種非正式的標準化文化的最初優勢開始被當一個數據體變得強大到足以有效定義其使用條款和影響範圍時自然發生的缺點所抵消。
研究人員們建議,跟最近許多行業和學術界對這個問題的想法一致,如果不能通過現有的基準數據集解決這些問題,研究界就不再能提出新的問題。
此外,他們還指出,盲目遵守這少量的「黃金」數據集會鼓勵研究人員取得過度擬合的結果。
政府對計算機視覺研究的影響
根據這篇論文,計算機視覺研究受其概述的綜合症的影響明顯大於其他部門,研究人員們指出,自然語言處理(NLP)研究受到的影響要小得多。 他們認為,這可能是因為NLP社區更協調、規模更大而且NLP數據集更容易獲得、更容易整理、在數據收集方面也更小、資源密集度更低。
在計算機視覺領域,尤其是關於面部識別(FR)數據集,研究人員們認為企業、國家和私人利益經常會發生衝突。
而對於FR任務,研究人員發現,純學術數據集的發生率跟平均值相比大幅下降。
在上圖中則可以看到,相對較新的Image Generation領域在很大程度上依賴於現有的、更古老的數據集,而這些數據集並不打算用於這一用途。
事實上,這篇論文觀察到數據集「遷移」的趨勢變得越來越明顯,從而使人懷疑它們是否適合新的或偏遠的研究部門的需要以及預算限制可能在多大程度上將研究人員的雄心泛化到現有材料所提供的較窄的框架中,而這種文化又非常癡迷於每年的基準評級以至於新的數據集難以獲得吸引力。
關於近年來越來越多的機器學習名人呼籲增加數據集的多樣性和策劃,研究人員也支援了這種觀點,但他們認為這種努力即使成功也有可能被當前文化對SOTA結果和既定數據集的依賴所破壞。