批評者稱谷歌乳腺癌預測AI研究如果不透明就沒有用處
早在1月份,谷歌旗下專注於健康相關研究、臨床工具和醫療服務合作的分支Google Health就發布了一個在9萬多張乳房X光照片上訓練的人工智能模型,該公司稱其取得了比人類放射科醫生更好的效果。谷歌宣稱,與之前的工作相比,該算法可以識別出更多的假陰性,即那種看起來正常但含有乳腺癌的圖像,但一些臨床醫生、數據科學家和工程師對這一說法表示質疑。
在今天發表在《自然》雜誌上的一篇反駁文章中,隸屬於麥吉爾大學、紐約市立大學(CUNY)、哈佛大學和斯坦福大學的超過19位共同作者表示,谷歌的研究缺乏詳細的方法和代碼,損害了其科學價值。一般來說,科學都存在可重複性問題,2016年對1500名科學家進行的一項調查報告顯示,其中70%的科學家至少嘗試過複製其他科學家的實驗,但失敗了。
在人工智能領域,這個問題尤為嚴重。在2019年的ICML大會上,有30%的作者未能在會議開始前將自己的代碼與論文一起提交。研究經常提供基準結果來代替源代碼,當基準的徹底性受到質疑時,就會出現問題。最近的一份報告發現,自然語言處理模型給出的60%到70%的答案都嵌入了基準訓練集的某個地方,這表明模型往往只是在記憶答案。
他們表示,谷歌的乳腺癌模型研究缺乏細節,包括對模型開發以及所使用的數據處理和訓練管道的描述。谷歌省略了模型架構的幾個超參數的定義,也沒有披露用於增強模型訓練的數據集的變量。這可能會顯著影響其性能,Nature的共同作者聲稱,例如,谷歌使用的其中一個數據增強有可能導致同一患者的多個實例,從而使最終結果出現偏差。
谷歌方面表示,用於訓練該模型的代碼對內部工具、基礎設施和硬件有許多依賴性,使其發布不可行。該公司在決定不發布這兩個訓練數據集時,還提到了這兩個訓練數據集的專有性和患者健康數據的敏感性。但Nature的共同作者指出,原始數據的共享在生物醫學文獻中已經變得越來越普遍,從2000年代初的不足1%增加到現在的20%,而且模型預測和數據標籤本來可以在不洩露個人信息的情況下發布。