機器學習開啟了有機化學研究的預測能力
科學家們已經開發出一種機器學習算法,可以預測有機分子中的電子能量水平。這一突破是在一個超過22000個分子的數據庫中訓練出來的,技術上的進步可以加速像藥品這樣的功能分子的設計。
有機化學即對碳基分子的研究,不僅是生物體科學的基礎,而且對許多當前和未來的技術至關重要,如有機發光二極管(OLED)顯示器。了解一種材料分子的電子結構是預測該材料化學特性的關鍵。
在東京大學工業科學研究所的研究人員最近發表的一項研究中,開發了一種機器學習算法來預測有機分子內的狀態密度,即電子在材料分子內的基態所能佔據的能級數量。這些基於光譜數據的預測對有機化學家和材料科學家分析碳基分子時有很大幫助。
東京大學工業科學研究所的研究人員使用人工智能來幫助解釋材料科學光譜實驗產生的數據,這可以幫助開發新的藥物和有機導體。資料來源:東京大學工業科學研究所
通常用來尋找狀態密度的實驗技術可能很難解釋。被稱為核心損失光譜的方法尤其如此,它結合了能量損失近邊緣光譜(ELNES)和X射線吸收近邊緣結構(XANES)。這些方法在材料樣品上照射一束電子或X射線;由此產生的電子散射和對材料分子發射的能量的測量使得感興趣的分子的狀態密度可以被測量。然而,光譜所具有的信息只是在激發分子的電子缺失(未被佔據)狀態。
為了解決這個問題,東京大學工業科學研究所的團隊訓練了一個神經網絡機器學習模型來分析核心損耗光譜數據並預測電子狀態的密度。首先,通過計算超過22000個分子的狀態密度和相應的核損光譜,構建了一個數據庫。他們還添加了一些模擬的噪聲。然後,在核損光譜上對該算法進行了訓練,並對其進行了優化,以預測基態下佔位和非佔位狀態的正確密度。
“我們試圖用一個由較小分子訓練的模型來推斷對較大分子的預測。我們發現通過排除微小的分子可以提高準確性,”主要作者Po-Yen Chen解釋說。
該團隊還發現,通過使用平滑預處理和向數據添加特定的噪聲,可以改善對狀態密度的預測,這可以加速預測模型在真實數據上的應用。
高級作者Teruyasu Mizoguchi說:”我們的工作可以幫助研究人員了解分子的材料特性,並加速功能分子的設計。這可以包括藥品和其他令人興奮的化合物。”