MIT科學家創建新機器學習模型:開發新藥的更明智方式
製藥公司正在使用人工智能來簡化發現新藥的過程。機器學習模型可以提出具有特定特性的新分子,這些特性可以對抗某些疾病,在幾分鐘內完成人類可能需要幾個月才能實現的手動操作。但是,有一個主要障礙阻礙了這些系統的發展。這些模型經常建議新的分子結構在實驗室中難以或不可能產生。如果化學家無法實際製造分子,就無法測試其抗病特性。
麻省理工學院研究人員的一種新方法限制了機器學習模型,因此它只建議可以合成的分子結構。該方法保證了分子是由可以購買的材料組成的,並且這些材料之間發生的化學反應遵循化學規律。
與其他方法相比,他們的模型提出的分子結構在流行的評價中得分很高,甚至更高,同時也保證可以合成。他們的系統還需要不到一秒鐘的時間來提出一個合成途徑,而其他單獨提出分子然後評估其合成能力的方法可能需要幾分鐘。在擁有數十億潛在分子的搜索空間中,這些時間的節省會增加。
“這個過程重新制定了我們如何要求這些模型產生新的分子結構。許多這些模型認為要逐個原子或逐個鍵建立新的分子結構。相反,我們正在逐個構件和逐個反應來構建新的分子,”麻省理工學院化學工程系和電子工程與計算機科學系的亨利-斯萊辛格職業發展副教授、該論文的資深作者Connor Coley說。
與Coley一起撰寫該論文的還有第一作者研究生高文浩和博士後Rocío Mercado。該研究最近在國際學習表徵會議上發表。
為了創建一個分子結構,該模型模擬了合成一個分子的過程,以確保它能夠被生產。該模型得到了一套可行的構建模塊,即可以購買的化學品,以及一個有效的化學反應列表,以便進行操作。這些化學反應模板是由專家手工製作的。通過只允許某些化學品或特定反應來控制這些輸入,使研究人員能夠限制一個新分子的搜索空間有多大。
該模型使用這些輸入來構建一棵樹,通過選擇構件並通過化學反應將它們連接起來,一次一個,來構建最終的分子。在每個步驟中,隨著更多的化學品和反應的加入,分子變得更加複雜。
它既能輸出最終的分子結構,又能輸出合成它的化學品和反應樹。“我們不是直接設計產品分子本身,而是設計一個行動序列來獲得該分子。這使我們能夠保證結構的質量,”研究人員說。
為了訓練他們的模型,研究人員輸入一個完整的分子結構和一組構建模塊和化學反應,模型學習創建一個合成分子的樹。在看到幾十萬個例子後,該模型學會了自己想出這些合成途徑。
分子優化
經過訓練的模型可用於優化。研究人員定義了他們希望在最終分子中實現的某些特性,給定了某些構件和化學反應模板,模型就會提出一個可合成的分子結構。
“令人驚訝的是,用這麼小的模板集,你實際上可以復制出很大一部分的分子。你不需要那麼多的構件來產生大量的可用化學空間供模型搜索,” Mercado說。
他們通過評估該模型重建可合成分子的能力來測試該模型。它能夠重現這些分子中的51%,並且重現每個分子的時間不到一秒鐘。他們的技術比其他一些方法更快,因為模型沒有在樹上的每一步中搜索所有的選項。研究人員解釋說,它有一套確定的化學品和反應來工作。
當他們用他們的模型提出具有特定屬性的分子時,他們的方法提出了更高質量的分子結構,這些分子結構比其他方法的分子具有更強的結合親和力。這意味著這些分子將能更好地附著在蛋白質上,並阻止某種活動,如阻止病毒複製。
例如,在提出一種能夠與SARS-Cov-2對接的分子時,他們的模型提出了幾種可能比現有抑製劑更能與病毒蛋白結合的分子結構。然而,正如作者所承認的,這些只是計算上的預測。
“有這麼多的疾病需要解決,”研究人員說。“我希望我們的方法可以加速這一過程,這樣我們就不必每次為一個疾病目標篩選數十億的分子。相反,我們可以只指定我們想要的屬性,它可以加速尋找該候選藥物的過程。”
他們的模型也可以改善現有的藥物發現管道。Mercado說,如果一家公司已經確定了一種具有所需特性的特定分子,但無法生產,他們可以使用這個模型來提出與之非常相似的可合成分子。
既然他們已經驗證了他們的方法,該團隊計劃繼續改進化學反應模板,以進一步提高該模型的性能。有了額外的模板,他們可以對某些疾病目標進行更多測試,並最終將該模型應用於藥物發現過程。
“理想情況下,我們希望算法能夠自動設計分子並同時快速給我們提供合成樹,”Marwin Segler說,他在微軟劍橋研究院(英國)領導一個從事機器學習藥物發現的團隊,沒有參與這項工作。“Coley教授和團隊的這一優雅方法是解決這一問題的一個重要步驟。雖然早先有通過合成樹生成進行分子設計的概念驗證工作,但這個團隊真正使其發揮作用。他們首次在一個有意義的規模上展示了出色的性能,因此它可以在計算機輔助分子發現中產生實際影響。”
“這項工作也非常令人振奮,因為它最終可以實現計算機輔助合成規劃的新範式。它很可能會對該領域的未來研究產生巨大的啟發。”