科學家利用病毒基因組序列開發AI識別潛在感染人類的高危病毒
據外媒報導,大多數新出現的人類傳染病(如COVID-19)是人畜共患病–由源自其他動物物種的病毒引起。 早期識別高危病毒可以改善研究和監測的優先次序。 英國格拉斯哥大學的Nardus Mollentze、Simon Babayan和Daniel Streicker於9月28日在《PLOS Biology》上發表的一項研究表明,利用病毒基因組的機器學習(一種人工智慧)可以預測任何動物感染性病毒感染人類的可能性。
在人畜共患疾病出現之前識別它是一個重大挑戰,因為在估計的167萬種動物病毒中,只有一小部分能夠感染人類。 為了利用病毒基因組序列開發機器學習模型,研究人員首先彙編了一個來自36個科的861種病毒的數據集。 然後他們建立了機器學習模型,根據病毒基因組的模式分配人類感染的概率。 然後,作者應用表現最好的模型來分析從一系列物種中取樣的其他病毒基因組的人畜共患潛力預測模式。
研究人員發現,病毒基因組可能具有獨立於病毒分類關係的通用特徵,並可能使病毒預先適應於感染人類。 他們能夠開發出能夠利用病毒基因組識別候選人畜共患病的機器學習模型。 這些模型有局限性,因為計算機模型只是識別有可能感染人類的人畜共患病毒的一個初步步驟。 在進行重大的額外研究投資之前,由模型標記的病毒將需要確認性的實驗室測試。 此外,雖然這些模型預測病毒是否能夠感染人類,但感染能力只是更廣泛的人畜共患病風險的一部分,它還受到病毒在人類中的毒性、在人類之間傳播的能力以及人類接觸時的生態條件的影響。
據研究作者說:「我們的研究結果表明,病毒的人畜共患潛力可以在很大程度上從它們的基因組序列中推斷出來,這令人驚訝。 通過突出具有成為人畜共患的最大潛力的病毒,基於基因組的排名可以更有效地針對進一步的生態和病毒學特徵。 ”
“這些發現為我們利用人工智慧技術從病毒的基因序列中提取已經令人驚訝的資訊量增加了一個關鍵部分,”Babayan補充說。 “基因組序列通常是我們擁有的關於新發現的病毒的第一個,而且往往是唯一的信息,我們能從中提取的資訊越多,我們就可能越早確定病毒的起源和它可能帶來的人畜共患風險。 隨著越來越多的病毒被描述出來,我們的機器學習模型在識別那些應該被密切監測和優先開發預防性疫苗的罕見病毒方面將變得更加有效。 ”