分析稱用於建立檢測皮膚病的演算法的數據集並不包括足夠的膚色資訊
據The Verge報導,根據一項新分析,用於訓練檢測皮膚問題的演算法的公共皮膚圖像數據集並不包括足夠的膚色資訊。 而在有膚色信息的數據集中,只有很少的圖像是深色皮膚的–因此使用這些數據集建立的演算法對非白人來說可能不那麼準確。
周二發表在《柳葉刀-數字醫療》上的這項研究檢查了21個可自由訪問的皮膚狀況圖像數據集。 這些數據集共包含10萬多張圖片。 這些圖像中只有1400多張附有關於患者種族的資訊,只有2236張有關於膚色的資訊。 這種數據的缺乏限制了研究人員在圖像上訓練的演算法中發現偏差的能力。 而這種演算法很可能是有偏見的。 在有膚色資訊的圖像中,只有11張是來自菲茨派翠克皮膚量表中最深的兩個類別的病人,該量表對膚色進行分類。 沒有來自非洲、非洲-加勒比或南亞背景的病人的圖像。
這些結論與9月份發表的一項研究相似,該研究還發現,用於訓練皮膚學演算法的大多數數據集都沒有關於種族或膚色的資訊。 該研究檢查了70項開發或測試演算法的研究背後的數據,發現只有7項描述了所用圖像中的皮膚類型。
斯坦福大學皮膚病學臨床學者、9月份發表的一篇論文的作者Roxana Daneshjou說:”我們從少數報告出膚色分佈的論文中看到的是,那些論文確實顯示出深膚色的代表不足。 “她的論文分析了許多與《柳葉刀》新研究相同的數據集,得出了類似的結論。
當數據集中的圖像是公開的,研究人員可以去查看哪些膚色似乎是存在的。 但這可能很困難,因為照片可能與現實生活中的膚色不完全一致。 “最理想的情況是,在臨床就診時注意到膚色,”Daneshjou說。 然後,該患者的皮膚問題的圖像可以在進入資料庫之前被貼上標籤。
如果圖像上沒有標籤,研究人員就不能檢查演算法,看看它們是否使用了有足夠多不同皮膚類型的人的例子的數據集。
仔細檢查這些圖像集很重要,因為它們經常被用來建立演算法,幫助醫生診斷病人的皮膚狀況,其中一些–如皮膚癌–如果不及早發現就會更危險。 如果演算法只在淺色皮膚上進行了訓練或測試,它們對其他人來說就不會那麼準確。 “研究表明,只對淺色皮膚類型的人的圖像進行訓練的程式對深色皮膚的人來說可能不那麼準確,反之亦然,”新論文的共同作者、牛津大學的一名研究員David Wen說。
新的圖像總是可以被添加到公共數據集中,研究人員希望看到更多關於深色皮膚狀況的例子。 而提高數據集的透明度和清晰度,將有助於研究人員跟蹤更多樣化的圖像集的進展,這可能導致更公平的AI工具。 Daneshjou說:「我希望看到更多的開放數據和更多精心標記的數據。 ”