Google發佈機器學習在皮膚病檢測方面的兩項新研究
近幾年,機器學習已經在放射學、病理學和皮膚病學等各個應用領域取得了長足進展。 此前,Google 分享了人工智慧皮膚病學輔助工具的預覽。 近期,Google發佈兩項新研究,有望幫助機器學習在皮膚病檢測方面取得新的進步。
自監督學習推進醫學圖像分類
近年來,人們對將深度學習應用於醫學成像任務越來越感興趣,在放射學、病理學和皮膚病學等各種應用領域取得了令人振奮的進展。
儘管大家興緻盎然,但開發醫學成像模型仍然一定的具有挑戰性,因為由於註釋醫學圖像需要比較大的工作量,高品質的標記數據通常很少。
鑒於此,遷移學習(指解決一個問題時獲得的知識並將其應用於不同但相關的問題)是構建醫學成像模型的常用模式。
使用這種方法,首先在大型標記數據集(如ImageNet)上使用監督學習(讓機器學習一個函數)對模型進行預訓練,然後在域內醫療數據上對學習的通用結果進行微調。
隨著輸入皮膚顏色的變化,病變的外觀也會發生變化,以匹配不同皮膚類型的病變。
自監督預訓練比監督預訓練更具可擴充性,因為不需要類標籤註釋,希望在未來將有助於在醫學圖像分析中推廣自監督方法的使用,從而產生適用於現實世界中大規模臨床部署高效且穩健的模型。
描述不足給機器學習帶來的挑戰
隨著機器學習模型使用的領域愈發廣泛,機器學習常常會出現一些”意想不到”的行為。 例如,在計算機視覺模型中,對不相關的特性表現出驚人的敏感度。
或者在「精心策劃」的ML模型訓練及解決與應用領域在結構上不匹配的預測問題當中,即使處理了一些已知問題,模型行為在部署中仍可能表現出差異性,甚至在訓練運行之間也會產生變化。
Google表明在現代機器學習系統中特別普遍的一種故障原因是描述不足(underspecification)。 描述不足指的是從業者在構建 ML 模型時經常想到的需求與即模型的設計及執行之間的差距。
在實際實例中,Google發現描述不足還具有別的實際意義,事實表明單獨的標準保持測試不足以確保其在醫療中的可用性。
壓力測試中醫學影像模型的相對可變性。 左上角:當對來自不同相機類型的圖像進行評估時,使用不同隨機種子訓練的糖尿病視網膜病變分類模型之間的 AUC變化。
在這個實驗中,在訓練過程中沒有遇到相機類型 5。 左下角:在對不同估計皮膚類型進行評估時,使用不同隨機種子訓練的皮膚狀況分類模型之間的準確性差異(由皮膚科醫生培訓的非專業人士從回顧性照片中得出的近似值,並可能受到標籤錯誤的影響)。 右:來自原始測試集(左)和壓力測試集(右)的示例圖像)。
解決描述不足是一個具有挑戰性的問題,需要對超出標準預測性能的模型進行完整的規範和測試。 要做到這一點,需要充分瞭解將使用模型的前因及後果,瞭解如何收集訓練數據,並且通常在可用數據不足時結合領域專業知識。
應用程式幫助判斷皮膚健康
Google AI驅動的皮膚病學輔助工具是一個基於網路的應用程式,輔助判斷皮膚可能發生的情況。 啟動該工具后,只需使用手機的相機從不同角度拍攝三張皮膚、頭髮或指甲問題的圖像。
然後,應用程式將詢問使用者皮膚類型、出現問題的時間以及其他癥狀。 AI模型將分析資訊,為使用者提供可能的匹配條件清單,方便用戶進行進一步確認。
根據使用者提供的照片和資訊,人工智慧皮膚科輔助工具將提供建議的條件
對於每個匹配條件,該工具將提供皮膚科醫生審查的資訊和常見問題的答案,以及來自網路的類似匹配圖像。
但需要注意的是,該工具並非旨在提供診斷,也不能替代醫療建議,Google開發該工具是希望幫助使用者在可能出現皮膚問題的時候,及時就醫,以便對下一步做出更明智的決定。