谷歌自揭”家醜”:醫療AI實驗室表現超神臨床結果卻不佳
在醫療領域,尤其是在醫學影像篩查過程中,人工智能常被描述為完美的工作者。它們能準確識別疾病,擁有人類專家級的發現能力,還不知疲倦。但與許多技術一樣,在實驗室取得成功是一回事,而到了臨床應用階段,人工智能能否發揮作用,就又是另一回事了。
4月25日,谷歌在自己的官網上表示,他們與泰國公共衛生部門合作,在泰國11家農村診所安裝了檢測糖尿病性視網膜病變(DR)症狀的AI系統。經過實際使用後,谷歌研究人員發現,這套系統在臨床上的表現,並未如實驗室裡所表現的一樣:不僅診斷結果不一致,實際操作方法和在實驗室裡也完全不一樣。
護士在給患者拍攝眼部照片
檢測糖尿病性視網膜病變是對糖尿病早期篩查的一個方法。2016年,谷歌就在《美國醫學會期刊》(JAMA)發表了他們的研究成果。研究表示,谷歌開發的深度學習算法能夠解釋視網膜照片中的DR跡象,可以幫助醫生篩查更多的病人,尤其是在資源有限的社區中。
當時,谷歌研究人員專門建立了一個12.8萬幅圖片的數據集,每張圖片記錄了3-7名眼科醫師的評估結果。為了驗證算法的性能,他們還使用了2個獨立的臨床試驗數據集,包括1.2萬幅圖片,審核結果由專家來判決。在理性的實驗環境下,這套系統的診斷準確率達到90%,相當於人類專家水平。
谷歌DR篩查系統顯示結果
實驗室裡超神的結果,也讓谷歌研究員看到了這套系統能實際投入使用的希望。於是,他們在泰國巴吞他尼省和清邁省的11所診所安裝了該系統。
要診斷患者的糖尿病性視網膜病變,護士們需要給每一位糖尿病患者的眼睛拍照,獲得一張“眼底照片”,然後將它們分批發送給眼科醫生,然後由眼科醫生進行評估並返回結果。由於醫療資源有限,同時需求量又大,通常得到診斷結果至少需要4-5週。
谷歌研究人員希望通過AI系統可以改變這樣的情況,因為AI系統可以在幾秒鐘內就能提供類似眼科醫生的專業診斷。然後護士就可以在幾分鐘內而不是一個月內,為病人轉診或者提供進一步檢查的建議。理論上這套系統是可以做到的。
然而,理想很豐滿,現實卻很骨感。研究人員表示,11家診所的眼科檢查過程存在高度差異。例如,由於各個診所資源不同,護士拍的照片質量因此存在很大差異。11家診所中,只有兩家診所設有專門的暗房,可以暗化房間以確保患者的瞳孔能變得足夠大,從而拍攝到高質量的眼底照片。
這種條件和過程中的資源不一致也導致圖像無法達到算法的高標準。
“深度學習系統對要評估的圖像有嚴格的規定……例如,如果圖像有些模糊或暗區,即使可以做出強有力的預測,系統也會拒絕。該系統對高圖像質量的要求與護士有限環境下常規採集的圖像之間的矛盾,反而增加了系統的工作量。”研究表示。
另外,連接和上傳也出現了問題。在谷歌實驗環境中,研究團隊擁有強大的互聯網連接,圖像和結果往往只需幾秒鐘就能顯現。但在實際中,診所會常常出現連接速度慢,可靠性差的情況。這就導致了圖像上傳需要60-90秒的時間,減慢了篩查速度,也限制了每天能接待的患者。在其中一家診所中,還發生過互聯網中斷2小時的情況,導致篩查人數從200人減到了100人。
最後還有一個關鍵因素,就是患者。由於研究本身就是以患者為中心的,如果患者不滿意或者不願意,就需要進行改進。但在實際過程中,護士起到很大的作用,有些護士可能就會建議患者不要參與研究,以減少不必要的麻煩。同時,護士也提到,患者最關心的問題通常不是診斷的準確性,而是體驗如何。如果診斷的過程太麻煩,他們寧願不參加研究,直接找醫生診斷。
實驗室裡超神的AI系統,來到實際中,卻是這樣的結果,這不免讓研究人員和外界感到失望。不過,這並不是一個壞消息。谷歌自己在官方博客中公佈研究失敗結果的同時,也強調,有了這樣與醫生、患者的互動,才能更好的改進這項技術。