谷歌乳腺癌檢測AI比醫生更好?技術進步還沒那麼快
谷歌旗下健康部門Google Health、AI部門DeepMind聯手倫敦帝國理工學院的研究人員日前在《自然》(Nature)雜誌上撰文,描述了三個深度學習網絡如何在某些情況下通過閱讀乳房X光照片診斷癌症方面勝過人類放射科醫生。但相關細則顯示,這項技術還沒有達到完全取代放射科醫生的水平。
圖:谷歌的健康部門團隊、DeepMind部門和倫敦帝國理工學院使用了三個不同的深度學習神經網絡,從上到下分別是Facebook AI的“RetinaNet”與穀歌的“MobileNetV2”結合體,中間部分是ResNet-v2-50,最後底層的ResNet-v1-50。每個神經網絡都以不同的方式挑選出乳房X光照片中看起來可疑的區域,然後對發現進行匯總,以得出關於癌症或非癌症的概率決定
如果你得到“相當正確”的評價,也就是說正確多於錯誤,結果可能並不太令人滿意。但如果你是個人工智能(AI)算法,你會為此得到很多讚譽。畢竟,AI程序不一定要給出明確的答案,只需要給出概率答案,或正確答案的可能性(百分比),無論是執行自然語言翻譯還是診斷癌症任務。
AI取得概率成就的最新例子出現在本週的《自然》雜誌上,題為“乳腺癌篩查AI系統的國際評估”,由來自谷歌健康部門、DeepMind和倫敦帝國理工學院的31名學者撰寫,作者包括斯科特·邁耶·麥金尼(Scott Mayer McKinney)、馬爾辛·西尼克(Marcin T.Sieniek)、瓦倫·戈德布爾(Varun Godbole)和喬納森·戈德溫(Jonathan Godwin)以及DeepMind首席執行官戴米斯·哈薩比斯(Demis Hassabis)等。
頭條新聞是,谷歌的科學在事後數年的乳房x光檢查中戰勝了英國和美國的放射學家,並宣布是否存在癌症的診斷,表明“假陽性和假陰性的誤報大幅減少。”這種AI技術甚至擊敗了一個由6名人類放射科醫生組成的團隊,他們受託執行這項任務,查看了500張乳房X光照片,並給出了診斷結果。
結果對AI工具發展方面做出了重要貢獻,這可能對醫生也非常有用。但這並不意味著它可以取代人類醫生的診斷。仔細觀察數據很重要,因為裡面暗藏著許多鮮為人知的東西。
我們首先看下研究背景:科學家們從英國三家不同的醫院收集了2012年至2015年間接受乳腺癌篩查的女性數據,這些女性符合某些標準,如年齡和檢查,總共有13918名女性數據。這就是研究人員用來訓練神經網絡系統的東西。一旦系統經過培訓,另有2.6萬名女性數據被用於測試該系統。研究人員還對一家美國醫院收集的數據進行了同樣的處理,即西北紀念醫院從2001年到2018年收集的數據,只是樣本數量要小得多。
科學家們訓練了巧妙的三種不同神經網絡,每個神經網絡都以不同的細節水平觀察乳房X光照片。深度學習的這種設置細節令人著迷,也許代表了結合機器學習網絡的最先進水平。其中一種神經網絡是ResNet V-150,到目前為止是一種經典的圖像識別方法,由何凱明博士及其微軟同事在2015年開發。
第二個神經網絡是RetinaNet,由Facebook AI研究學者於2017年開發。第三個是谷歌科學家去年發布的MobileNet V2神經網絡。這是一個非常棒的混合方法,展示了代碼共享和開放的科學出版物如何豐富每個網絡的工作。詳細信息包含在《自然》雜誌主要論文底部的補充材料論文中。
現在,棘手的部分來了:經過訓練的網絡所判斷的病例中,是否有乳腺癌病例經隨後的活組織檢查證實為“基本事實”。換句話說,診斷不僅僅是圖像上的東西是什麼樣子的,還包括隨後的醫學測試通過明確地提取一塊癌變組織而得出的結論。在這種情況下,對於癌症的存在,答案是明確的是或不是。
但上面描述的三個深度學習神經網絡的完美結合,並不能給出是或不是的明確答案。它只會產生一個從0到1的分數作為一個“連續值”,而不是二元式的“非此即彼”判斷。換句話說,AI診斷可能是絕對精確的,也可能是完全錯誤的,這取決於在任何給定的情況下,它離正確的值有多近或多遠,是0還是1。
為了將概率分數與人類在做出判斷時所做的事情相匹配,麥金尼和他的同事們不得不將AI的概率分數轉換為二進制值。他們是通過一套單獨的驗證測試來挑選單個答案來做到這一點的。將“優越性”與人類判斷進行比較,是AI在其產生的更廣泛總答案集中精選出相對準確答案的方式。
正如作者解釋的那樣:“AI系統天生就會產生一個連續的分數,代表癌症存在的可能性,因此,為了支持與人類醫生的預測進行比較,我們對這個分數進行了閾值劃分,以產生類似的二元篩查決定,在這種情況下,閾值意味著選擇一個單一的點進行比較。對於每個臨床基準,我們使用驗證集來選擇一個不同的操作點,這相當於一個將正面和負面決策分開的分數閾值。”
與英國的數據相比,AI在預測某種東西是否是癌症方面幾乎和人類一樣好。正如報告中所說,這個術語是“非劣質的”,意思是它並不比人類的判斷力差。AI網絡做得明顯更好的領域是所謂的“特異性”,這是一個統計學術語,意思是神經網絡在避免假陽性方面做得更好。也就是說,在不存在的情況下預測疾病。這當然很重要,因為被誤診為癌症對女性來說意味著太多的壓力和焦慮。
不過,值得注意的是,在這種情況下,人類得分來自醫生,他們必須判斷是否需要根據乳房X光檢查進行進一步的檢查,如活檢。可以想像,在診斷的早期階段,醫生可能會做出過於寬泛的評估,以便推動患者進行進一步的測試,以避免發生未發現癌症的風險。這是醫生決定病人下一步去哪里和機器猜測幾年後結果的可能性之間的根本區別。
換句話說,坐在患者面前的醫生通常不會試圖猜測未來幾年的結果概率,而是試圖確定患者下一步要採取的關鍵步驟是什麼?例如,即使AI在特定情況下根據乳房X光檢查確定癌症的可能性很低,患者仍會希望他們的醫生犯了錯誤,並開出活檢處方,以確保安全而不留下遺憾。他們很可能會欣賞這種謹慎。
科學家們在總結部分寫道,儘管AI發現了醫生漏掉的病例,但也有好幾個醫生診斷的患癌病例被AI忽略。這在額外的“讀數研究”中尤其明顯,在這項研究中,6名人類放射科醫生觀察了500例癌症篩查。研究人員發現了“所有六位放射科醫生都漏掉的癌症樣本,但被AI系統正確識別出來”,而“六位放射科醫生都發現了的癌症樣本,卻被AI系統漏掉了。”
有些令人不安的是,作者寫道,目前還不完全清楚AI在每一種情況下成功或失敗的原因。他們稱:“儘管我們無法在這些情況下確定明確的模式,但這種邊緣情況的存在表明,AI系統和人類醫生在得出準確結論方面可能起到互補作用。”
可以肯定的是,人們想知道更多關於這三個深度學習神經網絡是如何進行概率猜測的。比如說,它們看到了什麼?這個問題,即神經網絡代表什麼的問題,沒有在研究中得到解決,但對於AI在如此敏感的應用中來說,這是一個至關重要的問題。
綜上所述,我們面臨的一個大問題是:對於一個能夠比許多必須進行初步評估的醫生更準確地預測未來癌症發展概率的系統,我們應該付出多大的努力去開發?如果這些概率分數能夠幫助醫生在某些“邊緣案例”中做出決定,那麼,幫助醫生使用AI的價值將是非常高的,即使在這一點上AI並不能真正取代醫生。
順便說一句,這項研究同時考察了英國和美國的數據,得出了一些關於比較醫療體系質量的令人困惑的發現。總的來說,從對測試的初步審查來看,英國醫生的準確率似乎明顯高於美國,他們正確地得出結論,即某些東西將被證明是癌症。
考慮到使用的數據集存在差異,即英國有13981名女性數據來自三家醫院,而美國祇有一家醫院提供3097人的數據,真的很難知道如何得出這些不同的結果。顯然,與AI同樣有趣的是,在這兩個不同醫療系統中醫生的相對能力同樣存在差異。