將物理學教授給AI 可對材料屬性有更深入的了解
深度神經網絡(DNN) 在許多研究和商業環境中都取得了顯著成就。但DNN 是一種黑盒模型,並且不知道它們如何工作或為什麼工作。通過運用基礎物理知識以不同的方式指導或約束DNN 的訓練過程或網絡架構,可以緩解傳統DNN 的一些局限性。
近日,來自杜克大學的研究人員已經證明, 將已知的物理知識融入機器學習算法,可以幫助神秘的黑匣子獲得新的透明度,並對材料屬性有更深入的了解。
研究人員構建了一種現代機器學習算法——洛倫茲神經網絡(Lorentz neural network,LNN),一種前饋神經網絡,利用因果關係的物理約束來直接學習完全決定超材料電磁散射特性的電和磁響應函數。
該方法不僅使算法能夠準確地預測超材料的特性,而且比以前的方法更有效,同時提供了新的見解。
該研究結果以“Learning the Physics of All-Dielectric Metamaterials with Deep Lorentz Neural Networks”為題,於5 月9 日發表在《Advanced Optical Materials》雜誌上。
杜克大學電氣和計算機工程教授Willie Padilla 說:“ 通過將已知物理學直接納入機器學習,該算法可以在更少的訓練數據和更短的時間內找到解決方案。 雖然這項研究主要是展示該方法可以重現已知的解決方案,但它也揭示了一些以前沒有人知道的非金屬超材料的內部工作原理。”
超材料 是一類具有特殊性質的人造材料,這些材料是自然界沒有的。它們擁有一些特別的性質,而這樣的效果是傳統材料無法實現的。超材料的成分上沒有什麼特別之處,它們的奇特性質源於其精密的幾何結構以及尺寸大小。
超材料由一個類似於樂高底板的大矽柱網格組成。根據圓柱體的大小和間距,超材料以各種方式與電磁波相互作用,例如吸收、發射或偏轉特定波長。
圖1a 為這項工作中考慮的全電介質超材料(ADM)。圓柱體內部如圖1b 所示。
圖1:ADM。
在這裡,研究人員試圖建立一種稱為神經網絡的機器學習模型,以發現單個圓柱體的一系列高度和寬度如何影響這些相互作用。研究人員施加在神經網絡上的物理特性稱為洛倫茲模型——一組描述材料固有特性如何與電磁場共振的方程。模型不是直接跳到預測圓柱體的響應,而是學習預測洛倫茲參數,然後用於計算圓柱的響應。
物理信息LNN 由一個前饋神經網絡組成,具有四個大小為(100-250-250-100) 的全連接隱藏層。輸入層接收大小為4 的幾何向量g,輸出為洛倫茲振盪器的參數。其架構如圖2 所示。
圖2:LNN 架構。
Padilla 實驗室的博士後研究員Omar Khatib 說:“當你讓神經網絡更具可解釋性時,這在某種意義上是我們在這裡所做的,微調可能更具挑戰性。我們確實在優化培訓以學習模式方面遇到了困難。”
然而,一旦模型開始工作,它就被證明比該小組為相同任務創建的先前神經網絡更有效。特別是,該小組發現這種方法可以顯著減少模型確定超材料特性所需的參數數量。
他們還發現,這種基於物理學的方法能夠自行發現。
當電磁波穿過一個物體時,它在旅程開始時與它的交互方式不一定與結束時完全相同。這種現像被稱為空間色散。由於研究人員必須調整空間色散參數以使模型準確工作,他們發現了他們之前不知道的物理過程。
與傳統DNN 相比,LNN 等信息化神經網絡應該具有更高的數據效率,以及實現更好的域外泛化性。圖3 顯示了LNN 和兩個傳統DNN 模型的比較,兩個DNN 模型的選擇使得第一個網絡(表示為DNN1)具有與LNN 相同的隱藏層結構,而第二個模型(表示為DNN2)旨在為了達到與LNN 相似的性能,尺寸要大得多。
圖3:LNN 和兩個傳統DNN 模型的比較。
研究發現LNN 的性能明顯優於DNN1,這很可能具有足夠的複雜性來充分近似底層物理,並實現了與DNN2 相似的性能,後者俱有兩個數量級的可學習參數。此外,與DNN2 相比,LNN 在訓練邊界外的泛化能力有所提高。最後,發現LNN 在幾何空間的不同區域的性能可變。
研究結果表明,通過在預測複雜散射參數時輔以頻率相關的介電常數和磁導率的因果物理LNN 表現出顯著增強的學習ADM 複雜物理特性的能力,而訓練數據少得多,而且具有階數與傳統DNN 相比,模型參數要少很多。
“現在我們已經證明這是可以做到的,我們希望將這種方法應用於物理未知的系統。”Padilla 說。
“很多人正在使用神經網絡來預測材料特性,但從模擬中獲得足夠的訓練數據是一個巨大的痛苦,”Malof 補充道,“這項工作也為創建不需要太多數據的模型指明了一條道路,這是非常有用的。”
論文鏈接: