AI在新冠檢測中失靈了? 研究發現647款工具不適用於臨床
自新冠疫情爆發以來,世界各地的研究團隊開發了各種人工智慧(AI)工具來幫助檢測新冠病毒或者對新冠病毒的感染情況進行預測。 但是很不幸,來自荷蘭馬斯特裡赫特大學和英國劍橋大學的兩個研究團隊分別獨立對232種和415種AI工具進行測試,發現這一共647種工具沒有一個適合臨床使用,有些甚至還會有害。
產生這個結果主要與訓練AI模型的數據質量有關。 開發者採用的數據集裡面往往摻雜了一些無效資訊或錯誤資訊,導致AI工具學會了錯誤的判斷方法。 而開發者往往不具備醫學的專業知識,這使他們很難發現其中的錯誤。
有專家認為,只有通過開發者與臨床醫生的通力合作才能盡可能的避免這種錯誤產生。 另外,還有專家呼籲對於此類全球突發的衛生健康事件應該做好「數據共用」,以便各國能夠充分應對。
一、共647種AI工具被測試,均不適合臨床使用
2020年3月,COVID-19開始襲擊歐洲,但那時的人們人們對此知之甚少,這讓歐洲的醫院陷入了一場危機。 荷蘭馬斯特裡赫特大學流行病學家Laure Wynants一直在研究流行病的預測工具,她說:「醫生真的不知道如何管理這些患者。 ”
不過新冠疫情在歐洲爆發之前,就已經在中國肆虐了一段時間,因此有許多來自中國的數據可供歐洲使用。 專家們認為機器學習演算法能夠根據這些數據進行訓練,並幫助醫生對患者做出診斷,那麼將會有大量生命被拯救。 Laure Wynants稱:”在這件事上AI可以證明其實用性,我對此抱有希望。 ”
世界各地的研究團隊加緊進行研究,尤其是AI社區緊急開了發各種軟體。 許多人認為這些軟體可以讓醫院更快地診斷或分診患者,為抗擊疫情的前線提供支援。 但是,數百種檢測工具被開發出來,卻沒有一個真正的產生作用。
今年6月,英國國家數據科學和人工智慧中心圖靈研究所發佈了一份報告,總結了其在2020年底舉辦的一系列研討會上討論的內容,這些研討會中達成的一項明確共識是:AI工具在抗擊新冠疫情的戰鬥中幾乎沒有產生任何實質性的影響。 兩個研究團隊圍繞著這些AI工具分別進行的兩項研究得到的結果支援了這個結論。
Laure Wynants和她的同事研究了232種用來預測或診斷新冠肺炎患者的演算法,結果發現都不適合臨床使用,只有兩個演算法可能在未來會對臨床上的檢測有所説明。 這項研究結果以一篇評論文章的形式發表在英國醫學雜誌(British Medical Journal)上,到現在這篇文章仍在隨著新工具的發佈和研究者對現有工具的測試而進行更新。
對於這樣的結果Laure Wynants說道:「這十分令人震驚。 我帶著這樣的擔憂開始了這項工作,但是這個結果超出了我的預想,讓我非常恐懼。 ”
劍橋大學機器學習研究員Derek Driggs及其同事進行的另一項研究結果也得出了相同的結論。 該團隊利用深度學習模型診斷新冠肺炎,並讓AI通過胸部X射線和CT掃描來預測患者的患病風險。 他們研究了415種已經公開的AI工具,但是結果和Laure Wynants的發現一致,沒有一個工具適合臨床使用。
這項研究結果被發表在Nature Machine Intelligence上,論文題目為《使用機器學習通過胸片和 CT 掃描檢測和預測 COVID-19 的常見缺陷和建議(Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans)》。
論文連結:https://www.nature.com/articles/s42256-021-00307-0
Derek Driggs正在研究一種機器學習工具,希望能夠在新冠疫情流行期間幫助醫生,他說:”這次的疫情是一次對AI和醫學的重大考驗,不過我認為我們沒有通過這個考驗。 ”
儘管結果如此,Laure Wynants和Derek Driggs仍相信AI有潛力為醫生提供説明,同時他們也擔心以錯誤的方式構建的AI工具不僅不會產生説明甚至還會有害,因為這樣可能會使醫生做出錯誤的診斷或低估患者的病情。
Derek Driggs稱,關於機器學習模型以及它的作用有很多炒作,人們對它們不切實際的期望促使這些工具被提前投入使用。 Laure Wynants和Derek Driggs研究的數百種AI工具中的一部分已經被一些醫院所使用,而有些正在被私人開發商四處兜售。 “我擔心他們可能傷害了病人。” Laure Wynants說。
新冠疫情讓很多研究人員清楚的看到他們需要改變AI工具的構建方式。 Laure Wynants談道:「新冠疫情的流行讓這個問題成為了人們關注的焦點。 ”
二、訓練AI的數據錯誤太多,讓AI學習結果出偏差
研究人員發現,這些AI工具出現的問題很多都與開發者用來開發工具的數據質量有關。 在新冠疫情蔓延期間,通常是治療新冠肺炎的醫生收集和共用關於這一疾病的資訊,包括醫學掃描圖像。 而這些資訊和數據是工具開發者唯一可用的公共數據集,這意味著很多是使用錯誤標記的數據或未知來源的數據構建的。
Derek Driggs強調了這個他稱作”Frankenstei”數據集的問題,這些數據集是從多個來源拼接在一起的,可能包含重複項。 這意味著某些工具最終進行測試的數據可能與它們訓練時使用的數據相同,讓它們看起來比實際上更加準確。
開發者還有可能混淆了某些數據集的來源,這可能會錯過一些影響模型訓練結果的重要特徵。 比如有些人在不知不覺中使用了一個數據集,其中包含沒有感染過新冠病毒的兒童的胸部掃描圖,並將這些作為非新冠病毒感染病例的示例。 結果AI學會的是如何識別兒童,而不是識別新冠病毒。
Derek Driggs的小組嘗試使用一個數據集來訓練自己的模型,該數據集中包含患者躺下和站起來時的混合掃描。 由於躺下進行掃描的患者更有可能患有重病,因此AI錯誤地學會了從一個人的站立或躺下來預測患病嚴重程度。
還有一種情況,研究者發現一些AI會對某些醫院用來標記掃描結果的文本字體產生反應,結果來自接收重症患者醫院的字體成為了預測新冠肺炎患病風險的指標。
事後看來,這些錯誤似乎很容易被發現,如果開發者知道它們,也可以通過調整模型來進行修復。 但是,許多工具要麼是由缺乏醫學專業知識的AI研究員開發的,他們很難從中發現數據缺陷;要麼是由缺乏數學技能的醫學研究人員開發的,他們很難用專業知識來彌補這些數據缺陷。
Derek Driggs還提到了一個更微妙的錯誤,那就是合併偏差(incorporation bias),或者說是數據集被標註時引入的偏差。 例如,許多醫學掃描是根據放射科醫生對於它們是否顯示出新冠病毒的判斷來標記的,但是這會將一些醫生的偏見嵌入或合併到數據集中。 Derek Driggs說,用PCR測試的結果來標記醫學掃描會比僅聽醫生的意見要好得多,但是在醫院裡往往沒那麼多時間去統計這些細節。
Laure Wynants稱這些已知的錯誤並沒有阻止其中一些工具被匆忙投入臨床實踐,目前尚不清楚哪些正在被使用,也不知道它們被如何使用。 醫院有時會說他們僅將工具用於研究目的,這讓研究者很難評估醫生對這些AI工具的依賴程度。
Laure Wynants曾要求一家銷售深度學習演算法的公司分享有關其方法的資訊,但是並沒有得到回應。 後來她從與這家公司有關的研究人員那裡得到了幾個已經發表了的模型,不出任何意外,這些模型都有著很高的偏見風險。
“我們實際上並不知道這家公司都做了哪些工作。 甚至一些醫院還與醫療AI的供應商簽了保密協定。 “Laure Wynants說。 當她問醫生使用的什麼演算法或軟體時,會被告知醫院不允許醫生將這些說出去。
三、AI開發者要與臨床醫生合作,專家呼籲”數據共用”
更加完善的數據可能會對解決這個問題有所説明,但是在危機時期,這個要求很難做到。 Derek Driggs稱,更重要的是要充分利用已經擁有的數據集,應該讓AI開發團隊與臨床醫生進行更多合作。 開發者要分享他們的模型,並公開他們是如何訓練這些模型的,以便其他人可以測試它們並以此為基礎來正確的使用。
“這是我們現在能夠做到的幾件事,它們可能會解決我們發現的50%的問題。” Derek Driggs說。
總部位於倫敦的全球健康研究慈善機構Wellcome Trust的臨床技術團隊負責人Bilal Mateen說,如果格式標準化,獲取數據也更加容易。
Laure Wynants、Derek Driggs和Bilal Mateen都發現的一個問題是,大多數開發者都急於開發自己的模型,而不是和他人合作或改進現有模型。 這樣造成的結果是全世界的開發者集體努力創造出了數百種無用的工具,而不是共同創造出幾種經過訓練和測試的工具。
Laure Wynants說:「這些模型非常相似,它們都使用了幾乎相同的技術,只是進行了稍微的調整,輸入幾乎相同的數據,並且犯了幾乎同樣的錯誤。 ”
“從某種意義上說這是研究領域的老毛病了。 學術研究人員幾乎沒有任何動機去分享工作經驗或驗證現有結果。 將技術從實驗室工作臺帶到病床邊的最後一英里是沒有回報的。 “Bilal Mateen說。
為了解決這個問題,世界衛生組織正在考慮簽訂一份緊急數據共享協定,該協定將在國際健康危機期間生效。 這會讓研究人員更容易地跨境共享數據。 在6月份英國舉行G7峰會之前,來自參與國的領先科學團體也呼籲”準備好數據”,為未來的突發衛生事件做好準備。
這樣的呼籲聽起來有點含糊不清,並且帶有著一絲一廂情願的想法。 在新冠疫情爆發之前,這類共用數據的舉措已經停滯。
Bilal Mateen認為,新冠疫情讓很多事情重新提上了議程。 他說:「除非我們都認同在解決共享數據這一問題之前要先克服數據不能共用背後的難題,否則我們註定要重複同樣的錯誤。 如果這樣的錯誤再次發生,將是不可接受的,忘記這次全球疫情的教訓是對逝者的不尊重。 ”
結語:AI在抗疫大戰中暴露短板
新冠疫情是一場席捲全球的災難。 抗擊新冠疫情不是某個人、某個團體或某個國家的責任,而是全人類都要參與的一場鬥爭。
這場鬥爭中,AI被寄予了厚望,眾多研究團隊參與其中開發各種AI工具,希望能夠幫助醫生來檢測和診斷新冠。 但是事實證明,這些AI工具並沒有起到真正有效的作用。 不過,這並不能否定AI在疾病診斷方面的潛力。
要讓AI實現對新冠病毒的檢測,一方面需要更加準確完善的數據集對它進行訓練,另一方面也需要AI工具的開發者與醫學領域的專家進行合作,以便能夠更加有效的發現其中存在的漏洞。
此外應對此類全球的健康危機還需要各國共同創造出一個開放的研究環境,讓各類相關的研究數據能夠更加自由的在各國的科研團體之間流動,這樣才能讓研究成果更加有效的用於對疾病的抗爭中。
只要訓練方式得當,AI能夠更高效、更準確的對疾病做出診斷,但是很可惜一些被寄予厚望的AI工具在新冠疫情的鬥爭中並沒有表現出應有的能力。 這次全球疫情帶來的教訓或許能讓AI開發者和相關組織機構認識到其中的不足,為下次全球可能出現的新危機做好準備。