數學家利用人工智慧和新型聚類演算法來辨識新出現的COVID-19變種
曼徹斯特大學和牛津大學的科學家們開發了一種人工智慧框架,可以識別和追蹤新的和令人擔憂的COVID-19 變異體,並在未來幫助處理其他感染。該框架結合了降維技術和曼徹斯特大學數學家開發的一種名為CLASSIX 的新型可解釋聚類演算法。這樣就能從海量資料中快速辨識出未來可能帶來風險的病毒基因組群。
疊加在冠狀病毒插圖上的CLASSIX 聚類結果的風格化影像。資料來源:曼徹斯特大學、疾病預防控制中心/MSMI 的Alissa Eckert;MAMS 的Dan Higgins
本週發表在《美國國家科學院院刊》(PNAS)上的這項研究可以支持傳統的病毒進化追蹤方法,如係統發育分析,目前這種方法需要大量的手動整理。
曼徹斯特大學研究員、論文第一作者和通訊作者羅伯托-卡萬齊(Roberto Cahuantzi)說:”自從COVID-19出現以來,我們已經看到了多波新的變種、傳播性增強、免疫反應逃避和疾病嚴重性增加。科學家現在正加緊努力,以便在α、δ和Ω等這些令人擔憂的新變種出現的最初階段就將其定位。如果我們能找到一種快速有效的方法,就能更積極地採取應對措施,例如開發有針對性的疫苗,甚至有可能在變異體形成之前就將其消滅。”
建議的COVID-19 變異識別方法步驟示意圖。資料來源:曼徹斯特大學
與許多其他RNA病毒一樣,COVID-19 的變異率很高,而且兩代之間的間隔時間很短,這意味著它的進化速度極快。這意味著識別未來可能出現問題的新病毒株需要付出巨大的努力。
目前,GISAID 資料庫(全球共享所有流感資料倡議)提供了近1,600 萬個序列,該資料庫提供了流感病毒的基因組資料。
從這些數據中繪製出所有COVID-19 基因組的演化和歷史,目前需要耗費大量的電腦和人力時間。
所述方法實現了此類任務的自動化。研究人員只用了一到兩天時間,就用一台標準的現代筆記型電腦處理了570 萬個高覆蓋率序列;這是現有方法無法做到的,由於減少了資源需求,更多研究人員掌握了辨識相關病原體菌株的能力。
曼徹斯特大學數學科學教授托馬斯-豪斯(Thomas House)說:”大流行期間產生了前所未有的大量基因數據,這要求我們改進方法,對其進行徹底分析。數據仍在快速增長,但如果不顯示出整理這些資料的益處,這些資料就有可能被移除或刪除。”
“我們知道,人類專家的時間是有限的,因此我們的方法不應該完全取代人類的工作,而應該與他們並肩工作,以便更快地完成工作,並將我們的專家解放出來,從事其他重要的開發工作”。
建議方法的工作原理是透過計數將COVID-19病毒的基因序列分解成以數字表示的較小”字”(稱為3-mers)。然後,它利用機器學習技術,根據單字模式將相似的序列分組。
曼徹斯特大學應用數學教授斯特凡-居特爾(Stefan Güttel)說:”與傳統方法相比,我們開發的聚類演算法CLASSIX對計算的要求要低得多,而且是完全可解釋的,也就是說,它能對計算出的聚類提供文字和視覺上的解釋”。
Roberto Cahuantzi 補充說:”我們的分析是一個概念驗證,證明了機器學習方法作為一種預警工具的潛在用途,可用於早期發現新出現的主要變種,而無需依賴生成系統發育。雖然系統發生學仍然是了解病毒祖先的’黃金標準’,但這些機器學習方法能夠以較低的計算成本容納比當前系統發生學方法多幾個數量級的序列”。
編譯自: ScitechDaily