人工智慧研究人員發現使用流行數據集的道德和法律風險
在領先的人工智慧實驗室之外,大多數新產品開發人員都不是從零開始的。他們從現成的人工智慧(如Meta 的開源語言模型Llama 2)開始,然後從GitHub 和Hugging Face 等線上資源庫中尋找資料集,教導生成式人工智慧系統如何更好地回答問題或總結文字。
儘管這些數據集可免費獲取,但根據一項對廣泛使用的數據集進行檢查的最廣泛的研究項目顯示,這些數據集充斥著未經授權的數據。
在一群機器學習工程師和法律專家的組織下,”資料來源倡議”(Data Provenance Initiative)研究了用於教授人工智慧模型擅長特定任務的專業數據,這一過程被稱為”微調”。他們審查了Hugging Face、GitHub 和Papers With Code(2019 年加入Facebook AI)等網站上的1800 多個微調資料集,發現約70% 的資料集沒有說明應使用何種許可,或者被錯誤地標註了比其創建者意圖更寬鬆的準則。
能夠回答問題和模仿人類說話的聊天機器人的出現,掀起了一場建立更大更好的生成式人工智慧模型的競賽。這也引發了版權和合理使用網路文字的問題,而網路文字是訓練大型人工智慧系統所需的大量資料的關鍵組成部分。
但是,如果沒有適當的授權,開發人員就會對潛在的版權限制、商業使用限製或資料集創建者的信用要求一無所知。該倡議報告的共同作者、研究實驗室Cohere for AI 的負責人薩拉-胡克(Sara Hooker)說:”即使人們想做正確的事,他們也做不到。”
麻省理工學院媒體實驗室研究大型語言模型的博士生Shayne Longpre 領導了這次審計,他說,託管網站允許用戶在上傳資料集時識別許可證,不應該因為錯誤或遺漏而受到指責。
朗普雷說,缺乏適當的文件是一個源自於現代機器學習實踐的全社會問題。資料檔案經常被多次合併、重新打包和重新授權。他說,試圖跟上新版本發布步伐的研究人員可能會跳過記錄數據來源等步驟,或者故意模糊信息,以此作為”數據洗錢”的一種形式。
透過互動網站,使用者可以探索審計中分析的資料集內容,其中一些資料集已被下載數十萬次。
Hugging Face的機器學習和社會團隊負責人亞辛-傑尼特(Yacine Jernite)說,Hugging Face發現,資料集在開放、持續使用和共享的情況下,會有更好的文件記錄。這家開源公司已將改進文件的工作列為優先事項,例如自動建議元資料。傑尼特說,即使註釋不完善,公開可存取的資料集也是提高該領域透明度的有意義的第一步。
一些最常用的微調資料集最初是由OpenAI和Google等公司創建的資料集。越來越多的資料集是利用OpenAI 模型創建的機器資料集。包括OpenAI在內的領先人工智慧實驗室禁止使用其工具的輸出結果開發競爭性人工智慧模型,但允許某些非商業用途。
人工智慧公司對用於訓練和完善流行人工智慧模型的資料越來越保密。這項新研究的目標是讓工程師、政策制定者和律師了解助長人工智慧淘金熱的不可見處的數據生態系統。
這項倡議的提出正值矽谷與數據所有者之間的緊張關係瀕臨臨界點之際。各大人工智慧公司正面臨來自圖書作者、藝術家和編碼員的大量版權訴訟。同時,出版商和社群媒體論壇在閉門談判中威脅要扣留數據。
該倡議的探索工具指出,審計並不構成法律建議。Longpre 說,這些工具旨在幫助人們了解訊息,而不是規定哪種許可是合適的,也不是倡導某種特定的政策或立場。
作為分析的一部分,研究人員還追蹤了各資料集的模式,包括資料的收集年份和資料集創建者的地理位置。約70% 的資料集創建者來自學術界,約1% 的資料集創建者來自Meta 等公司的產業實驗室。最常見的資料來源之一是維基百科,其次是Reddit 和Twitter(現在稱為X)。
《華盛頓郵報》對Google C4 資料集的分析發現,在1,500 萬個網域中,維基百科是排名第二的網站。根據《郵報》上週報道,Reddit最近威脅說,如果領先的人工智慧公司不付費使用其數據來訓練模型,就會阻止Google和必應的搜尋爬蟲,從而面臨搜尋流量損失的風險。
與英語國家和西歐國家相比,南半球國家的口語幾乎沒有代表性,數據出處小組的分析為常用數據集的局限性提供了新的見解。
但該小組還發現,即使全球南部有語言代表,數據集”幾乎總是來自北美或歐洲的創作者和網絡來源”,該小組的論文如是說。
胡克說,她希望該計畫的工具能夠揭示未來研究的主要領域。她說:”資料集的創建通常是研究週期中最不光彩的部分,應該得到應有的歸屬,因為這需要大量的工作。我喜歡這篇論文,因為它脾氣暴夠躁,但也提出了解決方案。我們必須從某個地方開始”。