全球性疫情要被終結了?AI在其爆發之前就能阻止它
去年冬天,隨著流感季節的到來,全球各地的醫療機構都在加班加點地工作。美國疾病控制與預防中心(CDC)公佈的數據現實,近幾個月來,已有超過18萬美國人住院,另有1萬人死亡,而新型冠狀病毒(現已正式命名為COVID-19)也以驚人的速度在全球蔓延。
對全球範圍內流感疫情爆發的擔憂,甚至促使2020年移動世界大會(MWC 2020)這樣的盛會,在距離開幕僅剩7天時間宣布取消。但在不久的將來,人工智能(AI)增強的藥物開發過程可以幫助以足夠快的速度生產疫苗,並找到治療方法,在致命病毒變異成全球性疫情之前阻止它們的傳播。
傳統的藥物和疫苗開發方法效率極低。研究人員可以花費近十年的時間,通過密集的試驗和糾錯技術,對每個候選分子進行詳細審查。塔夫茨藥物開發研究中心2019年的一項研究現實,開發一種藥物的平均成本為26億美元,這是2003年成本的兩倍多。而且,只有大約12%進入臨床開發階段的藥物獲得了FDA批准。
美國佐治亞大學藥學和生物醫學科學助理教授伊娃-瑪麗亞·斯特拉克博士(Eva-Maria Strauch)指出:“你繞不過FDA,後者真的需要5到10年的時間才能批准某種藥物。 ”然而,在機器學習系統的幫助下,生物醫學研究人員基本上可以顛覆試錯方法。研究人員可以使用AI來對大量候選化合物數據庫進行排序,並推薦最有可能有效的治療方法,而不是手動嘗試每種潛在的治療方法。
華盛頓大學計算生物學家S·約書亞·斯瓦米達斯(S.Joshua Swamidass)在2019年接受采訪時稱:“藥物開發團隊真正面臨的許多問題,不再是人們認為他們只需在腦海中整理數據就能處理的那種問題,而是必須有某種系統方式來處理大量數據、回答問題並洞察如何做事。”
例如,口服抗真菌藥物terbinafine於1996年上市,名稱為拉米非,被用於治療鵝口瘡。然而,在三年內,有多人報告了服用該藥物的不良反應。到2008年,已有3人死於肝中毒,另有70人患病。醫生髮現terbinafine的一種代謝物(TBF-A)是造成肝臟損傷的原因,但當時無法弄清楚它是如何在體內產生的。
這種代謝途徑十年來始終是醫學界的一個謎,直到2018年,華盛頓大學研究生Na Le Dang訓練了一台關於代謝途徑的AI,並讓機器找出了肝臟將terbinafine分解為TBF-A的潛在途徑。事實證明,創建有毒代謝物是個兩步過程,而且這是個很難通過實驗識別的過程,但用AI強大的模式識別能力卻非常簡單。
事實上,在過去的50年裡,已經有450多種藥物被從市場上撤下,其中許多藥物像拉米菲爾一樣導致肝中毒。這促使FDA推出Tox21.gov網站,這是個關於分子及其對各種重要人類蛋白質相對毒性的在線數據庫。通過在這個數據集上訓練AI,研究人員希望更快地確定潛在的治療是否會導致嚴重的副作用。
美國先進翻譯科學中心的首席信息官山姆·邁克爾(Sam Michael)幫助創建了這個數據庫,他解釋稱:“我們過去遇到過一個挑戰,本質上是,’你能提前預測這些化合物的毒性嗎? ‘這與我們對藥物進行小分子篩查的做法正好相反。我們不想找到匹配的藥物,我們只是想說’嘿,這種(化合物)有可能是有毒的。’”
當AI不忙於解開十年來的醫學謎團時,他們正在幫助設計一種更好的流感疫苗。2019年,澳大利亞弗林德斯大學的研究人員使用AI為開發一種普通流感疫苗提供增強效應,這樣當人體接觸到它時,就會產生更高濃度的抗體。從技術上講,研究人員並沒有“使用”AI,而是啟動它,讓它自己尋找用例路徑,因為它完全是自己在設計疫苗。
該團隊由弗林德斯大學醫學教授尼古拉·彼得羅夫斯基(Nikolai Petrovsky)領導,首先建立了AI Sam(配體搜索算法)。AI Sam接受的訓練是區分那些對流感有效和無效的分子。然後,研究小組訓練了第二個程序,以生成數万億個潛在的化合物結構,並將這些結構反饋給AI Sam,後者開始決定它們是否有效。
然後,研究小組挑選出排名靠前的候選化合物結構,並對他們進行了物理合成。隨後的動物試驗證實,增強後的疫苗比未改進的前身更有效。最初的人體試驗於今年年初在美國開始,預計將持續12個月。如果審批過程順利,增強版疫苗可能在幾年內公開上市。對於只需要兩年(而不是正常的5-10年)就研發出來疫苗來說,這絕非壞事。
雖然機器學習系統可以比生物研究人員更快地篩選巨大的數據集,並通過更脆弱的聯繫做出準確的知情估計,但在可預見的未來,人類仍將留在藥物開發循環中。畢竟,人類需要生成、整理、索引、組織和標記所有的訓練數據,並教授AI他們應該尋找的東西。
即使機器學習系統變得更有能力,當使用有缺陷或有偏見的數據時,它們仍然很容易產生次優結果,就像其他所有AI一樣。Unlearn.AI創始人兼首席執行官查爾斯·費舍爾博士(Dr.Charles Fisher)在去年11月寫道:“醫學上使用的許多數據集大多來自白人、北美和歐洲人群。如果研究人員在機器學習中只是用這樣的數據集,並發現某個生物標記物來預測對治療的反應,就不能保證該生物標記物在更多樣化的人群中發揮作用。”為了對抗數據偏見帶來的扭曲效應,費舍爾主張使用“更大的數據集、更複雜的軟件和更強大的計算機”。
另一個重要組成部分將是乾淨的數據,正如Kebotix首席執行官吉爾·貝克爾博士(Jill Becker)解釋的那樣。Kebotix是2018年成立的初創公司,它將AI與機器人技術結合起來,設計和開發奇異的材料和化學品。
貝克爾博士解釋說:“我們有三個數據來源,並有能力生成我們自己的數據。我們也有自己的合成實驗室來生成數據,然後使用外部數據。”這些外部數據可以來自開放期刊或訂閱期刊,也可以來自專利和公司的研究夥伴。但貝克爾指出,無論來源如何,“我們都花了很多時間清理它。”
美國先進翻譯科學中心的首席信息官山姆·邁克爾(Sam Michael)也稱:“確保數據具有與這些模型相關聯的適當元數據是絕對關鍵的。而且這不是隨隨便便就能發生的,你必須付出真正的努力。這很難,因為這個過程既昂貴又耗時。”(選自:Engadget 作者:Andrew Tarantola 編譯:網易智能參與:小小)