機器學習如何重新構想材料建模的過程
電子是具有根本重要性的基本粒子。它們之間以及與原子核之間的量子力學相互作用產生了化學和材料科學中觀察到的多種現象。了解和控制物質的電子結構可以深入了解分子的反應性、行星內的結構和能量傳輸以及材料失效的機制。
科學挑戰越來越多地通過計算建模和模擬、利用高性能計算的能力來解決。然而,實現具有量子精度的真實模擬的一個重大障礙是缺乏將高精度與跨不同長度和時間尺度的可擴展性結合起來的預測建模技術。
經典原子模擬方法可以處理大型複雜系統,但其對量子電子結構的省略限制了其適用性。相反,不依賴於經驗建模和參數擬合(第一原理方法)等假設的模擬方法提供了高保真度,但計算要求較高。例如,密度泛函理論(DFT)是一種廣泛使用的第一原理方法,它表現出隨系統尺寸的三次縮放,從而將其預測能力限制在小尺度上。
10000 多個鈹原子的深度學習模擬快照。這種材料中電子的分佈可視化為紅色(離域電子)和藍色(靠近原子核的電子)點雲。使用傳統的DFT 計算該模擬是不可行的。多虧了MALA,僅使用150 個中央處理單元,該過程在大約5 分鐘內就完成了。圖形過濾器已用於提高模擬的清晰度。邊緣的白色區域也是由濾鏡造成的。背景中的方案暗示了深度學習的工作原理。圖片來源:HZDR / C ASUS
基於深度學習的混合方法
研究人員團隊現在提出了一種新穎的模擬方法,稱為材料學習算法(MALA)軟件堆棧。在計算機科學中,軟件堆棧是算法和軟件組件的集合,它們組合在一起創建用於解決特定問題的軟件應用程序。
倫茨·費德勒博士CASUS 的學生兼MALA 的主要開發人員解釋說:“MALA 將機器學習與基於物理的方法相結合來預測材料的電子結構。 它採用了一種混合方法,利用一種稱為深度學習的成熟機器學習方法來準確預測局部量,並輔以物理算法來計算感興趣的全局量。”
MALA 軟件堆棧將空間中原子的排列作為輸入,並生成稱為雙譜分量的指紋,對笛卡爾網格點周圍原子的空間排列進行編碼。MALA 中的機器學習模型經過訓練,可以根據該原子鄰域預測電子結構。MALA 的一個顯著優勢是其機器學習模型能夠獨立於系統規模,使其能夠根據小型系統的數據進行訓練並以任何規模進行部署。
研究小組在其出版物中展示了這一策略的顯著有效性。與傳統算法相比,他們在由數千個原子組成的較小系統尺寸上實現了超過1000 倍的加速。此外,該團隊還證明了MALA 能夠準確執行大規模電子結構計算,涉及超過100000 個原子。值得注意的是,這一成就是通過適度的計算工作實現的,揭示了傳統DFT 代碼的局限性。
CASUS 極端條件下物質部門代理主管Attila Cangi 解釋道:“隨著系統規模的增加和涉及更多原子,DFT 計算變得不切實際,而MALA 的速度優勢持續增長。 MALA 的關鍵突破在於其能夠在局部原子環境中運行,從而實現受系統尺寸影響最小的準確數值預測。 這一突破性的成就開啟了曾經被認為無法實現的計算可能性。”
預計將推動應用研究
Cangi 旨在通過利用機器學習來突破電子結構計算的界限:“我們預計MALA 將引發電子結構計算的變革,因為我們現在有一種方法可以以前所未有的速度模擬更大的系統。 未來,研究人員將能夠在顯著改善的基礎上解決廣泛的社會挑戰,包括開發新疫苗和用於儲能的新型材料、對半導體器件進行大規模模擬、研究材料缺陷以及探索化學將大氣中的溫室氣體二氧化碳轉化為氣候友好型礦物質的反應。”
此外,MALA 的方法特別適合高性能計算(HPC)。隨著系統規模的增長,MALA 可以在其使用的計算網格上進行獨立處理,從而有效地利用HPC 資源,特別是圖形處理單元。
桑迪亞國家實驗室的科學家兼併行計算專家Siva Rajamanickam 解釋說:“MALA 的電子結構計算算法很好地映射到具有分佈式加速器的現代HPC 系統。 分解工作並在不同加速器上並行執行不同網格點的能力使MALA 成為HPC 資源上可擴展機器學習的理想匹配,從而在電子結構計算中實現無與倫比的速度和效率。”