麻省理工學院的人工智能學習分子語言以實現快速材料開發和藥物發現
發現新材料和新藥物通常需要人工試錯,耗時數十年,耗資數百萬美元。為了簡化這一過程,科學家們通常使用機器學習來預測分子特性,縮小他們需要在實驗室中合成和測試的分子範圍。麻省理工學院和麻省理工-沃森人工智能實驗室的研究人員開發出了一種新的統一框架,能夠同時預測分子性質並生成新分子,其效率遠遠高於這些流行的深度學習方法。
為了教會機器學習模型預測分子的生物或機械特性,研究人員必須向其展示數百萬個標記的分子結構–這一過程被稱為訓練。由於發現分子所需的費用以及對數百萬個結構進行手工標註所面臨的挑戰,通常很難獲得大型訓練數據集,這限制了機器學習方法的有效性。
相比之下,麻省理工學院研究人員創建的系統只需少量數據就能有效預測分子特性。他們的系統從根本上理解了決定構件如何結合產生有效分子的規則。這些規則捕捉分子結構之間的相似性,幫助系統以數據高效的方式生成新分子並預測其性質。
這種方法在小型和大型數據集上的表現都優於其他機器學習方法,當給定的數據集樣本少於100個時,它能夠準確預測分子性質並生成可行的分子。
麻省理工學院和麻省理工學院-沃森人工智能實驗室的研究人員開發了一種統一框架,利用機器學習同時預測分子性質並生成新分子,只需使用少量數據進行訓練。圖片來源:Jose-Luis Olivares/麻省理工學院
“我們這個項目的目標是使用一些數據驅動的方法來加速新分子的發現,這樣就可以訓練一個模型來做預測,而不需要所有這些成本高昂的實驗,”領銜作者、計算機科學與電子工程(EECS)研究生郭明浩(音譯)說。
郭明皓的共同作者包括MIT-IBM沃森人工智能實驗室的研究人員Veronika Thost、Payel Das和Jie Chen;MIT應屆畢業生Samuel Song 23和Adithya Balachandran 23;資深作者Wojciech Matusik,他是電氣工程和計算機科學教授,也是MIT-IBM沃森人工智能實驗室的成員,領導著MIT計算機科學和人工智能實驗室(CSAIL)的計算設計和製造小組。該研究成果將在國際機器學習大會(International Conference for Machine Learning)上發表。
學習分子語言
為了使機器學習模型達到最佳效果,科學家們需要包含數百萬個分子的訓練數據集,這些分子與他們希望發現的分子具有相似的性質。在現實中,這些特定領域的數據集通常非常小。因此,研究人員使用在大型通用分子數據集上預先訓練好的模型,然後將其應用於更小的、有針對性的數據集。然而,由於這些模型沒有獲得太多特定領域的知識,它們的表現往往很差。
麻省理工學院的研究小組採取了不同的方法。他們創建了一個機器學習系統,該系統僅使用一個小型的特定領域數據集,就能自動學習分子的”語言”–即所謂的分子語法。它利用這種語法構建可行的分子並預測其特性。
在語言理論中,人們根據一套語法規則生成單詞、句子或段落。您可以用同樣的方式來理解分子語法。這是一套生產規則,規定如何通過原子和亞結構的組合生成分子或聚合物。
就像語言語法可以使用相同的規則生成大量句子一樣,一個分子語法可以代表大量分子。具有相似結構的分子使用相同的語法生成規則,系統通過學習來理解這些相似性。
由於結構相似的分子往往具有相似的性質,系統利用其分子相似性的基礎知識,更有效地預測新分子的性質。
郭說:”一旦我們有了這個語法作為所有不同分子的表徵,我們就可以用它來促進性質預測過程。”
該系統利用強化學習來學習分子語法的生產規則–在這個試錯過程中,模型會因為更接近實現目標的行為而獲得獎勵。但是,由於原子和子結構的組合方式可能有數十億種,因此學習語法生成規則的過程對於最微小的數據集來說計算成本太高。
研究人員將分子語法解耦為兩部分。第一部分稱為元語法(metagrammar),是一種通用的、廣泛適用的語法,由他們手工設計並在一開始就提供給系統。然後,它只需要從領域數據集中學習更小的特定分子語法。這種分層方法加快了學習過程。
小數據集,大成果
在實驗中,研究人員的新系統同時生成了可行的分子和聚合物,並比幾種流行的機器學習方法更準確地預測了它們的性質,即使特定領域的數據集只有幾百個樣本。其他一些方法還需要昂貴的預訓練步驟,而新系統避免了這一步驟。
該技術在預測聚合物的物理性質方面尤其有效,例如玻璃化轉變溫度,即材料從固態轉變為液態所需的溫度。由於實驗需要極高的溫度和壓力,手動獲取這一信息往往成本極高。
為了進一步推動他們的方法,研究人員將一個訓練集減少了一半以上–僅有94個樣本。他們的模型仍然取得了與使用整個數據集訓練的方法相當的結果。
“這種基於語法的表示方法非常強大。由於語法本身是一種非常通用的表示方法,因此它可以被部署到不同類型的圖形式數據中。我們正試圖確定化學或材料科學以外的其他應用,”郭說。
未來,他們還希望將目前的分子語法擴展到分子和聚合物的三維幾何圖形,這是理解聚合物鏈之間相互作用的關鍵。他們還在開發一個界面,向用戶顯示學習到的語法生成規則,並徵求反饋意見以糾正可能錯誤的規則,從而提高系統的準確性。