科學家使用機器學習方法來破解晶體結構的氧化態難題
化學元素幾乎構成了物理世界的一切。截至2016年,人類已知的元素數量為118種,所有這些元素都能在掛在每個化學實驗室和教室內的元素週期表中找到。元素週期表中的每個元素都以1個或者2個字母的縮寫出現,例如“O”代表氧氣,“Al”代表鋁。
同時周期表上還會表明它們的原子序數,這表明該元素的原子核中有多少質子。質子數是非常重要的,因為它還決定了有多少電子圍繞原子核運行,這基本上使元素成為它是什麼,並使它具有化學性質。簡而言之,原子序數是一個元素的身份證。
近日發表在《Nature Chemistry》的論文中,來自EPFL 基礎科學學院的化學工程師在對元素週期表進行深入研究之後,發現了每個元素必須要報告的另一組關鍵數字:元素的氧化態,也稱之為氧化數。簡單地說,氧化態描述了一個原子必須獲得或失去多少個電子,才能與另一個原子形成化學鍵。
領導這項研究的Berend Smit 教授說:“在化學中,氧化態總是在一個化合物的化學名稱中報告。氧化態在化學基礎中發揮著如此重要的作用,以至於有些人認為它們應該被代表為周期表的第三維。一個很好的例子是鉻:在氧化態III 中,它是人體所必需的;在氧化態IV 中,它是極其有毒的”。
如果弄清某個元素的氧化態是非常直接的,但涉及到由多種元素組成的化合物時,事情就變得複雜了。Smit 教授說:“對於復雜的材料,實際上不可能從第一原理來預測氧化態。事實上,大多數量子程序需要金屬的氧化狀態作為輸入”。
目前預測氧化態的最先進技術仍然是基於20 世紀初開發的一種叫做“鍵價理論”(bond valence theory)的東西,它根據組成元素的原子之間的距離來估計一種化合物的氧化態。但是這並不總是有效,特別是在具有晶體結構的材料中。Smit 表示:“眾所周知,重要的不僅是距離,還有金屬複合物的幾何形狀。但考慮到這一點的嘗試還不是很成功”。
在這項研究中,研究人員能夠訓練一種機器學習算法,按照氧化狀態對一組著名的材料–金屬有機框架進行分類。研究小組使用了劍橋結構數據庫(一個晶體結構庫),在材料的名稱中給出了氧化態。Smit 說:“該數據庫非常混亂,有許多錯誤,而且實驗、專家猜測和鍵價理論的不同變化被用來分配氧化態。我們假設化學是自我糾正的,因此,雖然在個人賬戶上有很多錯誤,但作為一個整體,社區會把它弄對”。
EPFL的Smit小組的一名博士生Kevin Jablonka表示:“我們基本上做了一個機器學習模型,它抓住了化學界的集體知識。我們的機器學習不外乎是電視遊戲’誰想成為百萬富翁’?如果一個化學家不知道氧化態,其中一條生命線就是問化學的觀眾他們認為氧化態應該是什麼。通過上傳晶體結構和我們的機器學習模型,是化學家的觀眾會告訴他們最可能的氧化狀態是什麼”。