香港大學尹國聖教授發布新冠肺炎AI成果準確率達88%
近日,香港大學統計與精算學系系主任尹國聖教授聯合其他多位學者發表一篇最新論文,介紹了一個最新的新冠肺炎在線診斷系統(點擊查看論文原文)。據了解,該系統對新冠肺炎診斷的準確率88%、AUC值93%、敏感度86%、特異度90%,
參與這項研究的人員,還有西南財經大學統計學院助理教授劉斌博士、研究生高曉雪、何孟霜、劉霖以及劉斌博士的同事呂鳳毛(西南財經大學統計學院助理教授)。
目前,論文正在評審中,但是COVID-19診斷系統已經在線、免費使用,Python程序及數據完全開源(開源地址:https://github.com/xiaoxuegao499/LA-DNN-for-COVID-19-diagnosis)
尹國聖教授表示,通過對非典疫情及各類流感病毒的研究,香港大學一直都走在世界科研的最前沿。2003年非典期間,深圳和香港的科研人員就曾聯合宣布,從果子狸等野生動物體內找到非典病毒前體。
基於生物統計和臨床試驗方向的多年研究經驗,從2020年1月底,尹國聖教授帶領的研究團隊開始嘗試一些新冠肺炎方面的研究,基於CT圖像診斷是其中一項工作。
但是,由於沒有公開的CT圖像數據集,團隊需要花大量的時間去尋找開放的樣本並對樣本進行標記。
後來,medRxiv上有一項工作,整理了一些關於新冠病人CT圖像分析的論文預印本。該論文從medRxiv和bioRxiv文章的預印本中提取了746張病人的CT圖像,並訓練了一個新冠病人二分類的神經網絡。
然而,其結果顯示的預測效果還未能達到臨床標準。
尹國聖教授認為,一個原因是樣本量較小,另一個重要原因是沒有充分利用CT圖像樣本自身豐富的標註信息。這批CT數據跟傳統的醫療圖像數據最大的差別是,每個樣本都來自一篇醫學影像學論文。
在這些文章中,臨床醫生對新冠病人的胸部CT病灶特徵做了詳細的描述,有些還和其他常見肺部疾病的病灶特徵做了仔細的對比分析。
因此,在尹教授看來,“這批數據,雖然樣本數量有限,但信息量極大,是一個具有代表性,價值很高的數據集。”
研究人員進一步對樣本附帶的文本信息進行了針對性的研究,發現760篇論文涵蓋了對於新冠肺炎的五種病灶(Lesion)的描述,其中每個病人CT影像上均會出現其中一種或者多種病灶。通過對新冠確診病人的CT圖像的診斷描述進行分析,這五種病灶是影像學上對新冠肺炎診斷的主要標準。
於是,團隊設計出一個基於CT圖像的Lesion-Attention深度神經網絡模型(LA-DNN)。
模型一方面學習圖像中可以區分新冠病人和非新冠病人的特徵,另一方面把模型的“注意力”集中在病灶區域,即學習多標籤病灶,這就是團隊提出的LA-DNN(Lesion-Attention Deep Neural Networks)模型,如同臨床醫生通過CT圖像判斷病情時會側重關注異常的病灶區域而略過正常區域一樣,模型同時訓練兩個任務,相互協調,從而使得模型性能得到顯著的提升,其各項指標均達到了臨床標準。
同時,團隊也採用了遷移學習,即利用預訓練的VGG、DenseNet等神經網絡來作為模型的骨幹網絡。
新冠CT圖像診斷系統上線後,團隊仍然在繼續收集新的樣本,在線系統的訓練樣本比最初的樣本數量翻了一倍,並定期重新訓練模型,在線系統的效果比論文中的結果又有提升。
對於該成果未來的應用方向,尹教授表示,希望前線抗擊疫情的醫務人員使用該系統,分享數據、開展合作研究,幫助進一步測試和改進系統。
“目前,中國的疫情得以控制,而其他許多國家和地區仍然存在很大壓力,希望該系統可以在疫情仍然嚴重的區域發揮作用,減輕核酸檢測的負擔。”