MIT致歉:AI數據集中存在種族主義等侮辱性標籤將永久下架
援引外媒The Register 報導,麻省理工大學(MIT)近日發出致歉聲明,並已經緊急下線了被廣泛引用的數據集。該數據集用於訓練人工智能係統,不過近日發現該數據集中存在不少描述種族主義、厭女以及其他問題的術語。經外媒The Register 提醒,這所美國知名學府本週刪除了該數據庫。MIT 還敦促研究人員和開發人員停止使用該訓練庫,並刪除任何副本。一位MIT 教授表示:“對此我們深表歉意”。
該大學創建的數據集被廣泛用於各種機器學習模型,以自動識別和列出靜態圖像中描繪的人和物體。如果你向系統展示公園的照片,那麼經過培訓的模型就會告訴你照片中有什麼,例如孩子、成人、寵物、野餐攤位、草地和樹木等等。
不過由於數據採集的時候並沒有經過嚴苛的甄選,導致該系統會給女性貼上“妓女”或者“母狗”的標籤,給黑人、黃種人貼上帶有貶義色彩的標籤。此外該數據庫中還包含帶有C 字母的女性生殖器特寫圖片。
有關的問題訓練庫是8000萬張微小圖像,它創建於2008年,旨在幫助產生先進的對象檢測技術。從本質上講,它是一個巨大的照片集合,上面有描述照片中內容的標籤,所有這些標籤都可以輸入到神經網絡中,教它們將照片中的模式與描述性標籤聯繫起來。
而MIT 的這個數據集被業內廣泛使用,大量應用程序、網站和其他產品在分析照片和相機鏡頭時候都會使用這些帶有侮辱性的術語。