專家認為AI生成的圖像不能解決皮膚病學數據庫的多樣性問題
據The Verge報導,關於皮膚狀況的圖像數據庫眾所周知地偏向於淺色皮膚。與其等待收集更多深色皮膚上的癌症或炎症等病症的緩慢過程,一個團體希望利用人工智能來填補空白。它正在研究一個人工智能程序,以生成深色皮膚上疾病的合成圖像–並將這些圖像用於一個可以幫助診斷皮膚癌的工具。
加拿大麥克馬斯特大學從事該項目的機器學習專家Eman Rezk說:“擁有黑皮膚的真實圖像是最終的解決方案。在我們擁有這些數據之前,我們需要找到一種方法來縮小差距。”
但在該領域工作的其他專家擔心,使用合成圖像可能會引入他們自己的問題。斯坦福大學皮膚病學臨床學者Roxana Daneshjou說,重點應該是在現有數據庫中增加更多不同的真實圖像。她說:“創建合成數據聽起來比做艱苦的工作來創建一個多樣化的數據集更容易。”
目前研究人員建立的工具可以掃描皮疹和痣的圖像,以弄清最可能的問題類型。然後皮膚科醫生可以使用這些結果來幫助他們進行診斷。但大多數工具是建立在圖像數據庫上的,這些數據庫要么不包括許多深色皮膚上的病症實例,要么沒有關於它們所包括的膚色範圍的良好信息。這使得研究小組很難相信一個工具在深色皮膚上會有同樣的準確性。
這就是為什麼Rezk和團隊轉向了合成圖像。該項目有四個主要階段。該團隊已經分析了可用的圖像集,以了解深色皮膚色調的代表性如何開始不足。它還開發了一個人工智能程序,使用淺色皮膚上的皮膚狀況的圖像來產生深色皮膚上的這些狀況的圖像,並驗證了模型給他們的圖像。“由於人工智能和深度學習的進步,我們能夠使用現有的白色掃描圖像來生成不同膚色的高質量合成圖像,”Rezk說。
接下來,該團隊將把深色皮膚的合成圖像與淺色皮膚的真實圖像結合起來,創建一個可以檢測皮膚癌的程序。Rezk說,它將不斷檢查圖像數據庫,以找到任何新的、真實的深色皮膚狀況的圖片,他們可以將其添加到未來的模型中。
該團隊並不是第一個創建合成皮膚圖像的團隊–包括Google Health研究人員在內的一個小組在2019年發表了一篇論文,描述了生成這些圖像的方法,而且它可以創建不同膚色的圖像。(Google對皮膚病學人工智能感興趣,並在去年春天宣布了一個可以識別皮膚狀況的工具)。
Rezk說合成圖像是一種權宜之計,直到有更多關於深色皮膚狀況的真實圖片可用。不過,Daneshjou對使用合成圖像表示擔憂,即使是作為一個臨時解決方案。研究團隊將不得不仔細檢查人工智能生成的圖像是否會有任何人們無法用肉眼看到的通常的怪異特徵。理論上,這種類型的特徵可能會歪曲人工智能程序的結果。確認合成圖像與模型中的真實圖像一樣好用的唯一方法是將它們與真實圖像進行比較–真實圖像是供不應求的。她說:“然後回到這樣一個事實:為什麼不努力嘗試獲得更多的真實圖像?”
Daneshjou說,如果一個診斷模型是基於一個小組的合成圖像和另一個小組的真實圖像–即使是暫時的–那也是一個問題。它可能會導致模型在不同的膚色上有不同的表現。
她說,對合成數據的倚重也可能使人們不太可能推動真實、多樣化的圖像。她表示:“如果你要這麼做,你真的會繼續做這項工作嗎?我實際上希望看到更多的人在獲取真實的多樣化數據方面做工作,而不是試圖做這種變通。”