機器學習技術開始試圖預測罕見的災難性事件如地震或大流行病
來自布朗大學和麻省理工學院的研究人員表示,科學家們可以使用先進的機器學習和順序採樣技術的組合來預測極端事件,而不需要大型數據集。當涉及到預測極端事件帶來的災難時(例如地震、大流行病或可能摧毀海岸結構的”流氓波浪”),計算模型面臨著一個幾乎不可逾越的挑戰:從統計學上講,這些事件非常罕見,以至於沒有足夠的數據來使用預測模型來準確預測它們下次何時發生。
然而,來自布朗大學和麻省理工學院的一組科學家表明,這不一定是這樣的。
在《自然-計算科學》上發表的一項研究中,研究人員解釋了他們如何利用需要較少數據進行準確預測的統計算法,並與布朗大學開發的機器學習技術相結合。這種結合使他們能夠在缺乏歷史數據的情況下預測罕見事件的情景、概率甚至是時間線。
這樣做,研究小組發現,這個新的框架可以提供一種方法來規避傳統上這些類型的計算所需要的大量數據,而基本上將預測罕見事件的巨大挑戰歸結為質量大於數量的問題。
“你必須意識到這些是隨機事件,”布朗大學應用數學和工程系教授、研究報告作者喬治-卡爾尼亞達基斯說。”像COVID-19這樣的大流行病的爆發,墨西哥灣的環境災難,地震,加利福尼亞的巨大野火,30米高的海浪掀翻了一艘船……這些都是罕見的事件,由於它們是罕見的,我們沒有大量的歷史數據。我們沒有足夠的過去的樣本來預測它們在未來的發展。我們在論文中解決的問題是。什麼是我們可以使用的最佳數據,以盡量減少我們需要的數據點的數量?”
研究人員在一種稱為主動學習的順序採樣技術中找到了答案。這些類型的統計算法不僅能夠分析輸入它們的數據,更重要的是,它們可以從信息中學習,標記新的相關數據點,這些數據點對正在計算的結果同樣重要,甚至更重要。在最基本的層面上,它們允許用更少的錢做更多的事。
這對研究人員在研究中使用的機器學習模型至關重要。該模型被稱為DeepOnet,是一種人工神經網絡,它使用連續層中相互連接的節點,大致模仿人腦中神經元的連接。DeepOnet被稱為深度神經算子。它比典型的人工神經網絡更先進、更強大,因為它實際上是兩個神經網絡合一,在兩個平行網絡中處理數據。這使它能夠以極快的速度分析巨大的數據集和場景,一旦它學會了它所尋找的東西,就能吐出同樣巨大的概率集。
這個強大的工具的瓶頸,特別是在涉及到罕見事件時,是深度神經操作者需要大量的數據來訓練,以進行有效和準確的計算。
在論文中,研究團隊表明,結合主動學習技術,DeepOnet模型可以得到訓練,了解要尋找哪些參數或前兆,導致有人正在分析的災難性事件,即使沒有很多數據點。
Karniadakis說:”主旨不是把每一個可能的數據都放進系統,而是主動尋找將標誌著罕見事件的事件,我們可能沒有很多真實事件的例子,但我們可能有那些前兆。通過數學,我們識別它們,它們與真實事件一起將幫助我們訓練這個數據飢渴的運算裝置。”
在論文中,研究人員將該方法應用於確定大流行期間危險尖峰的參數和不同的概率範圍,尋找和預測”流氓波浪”,以及估計一艘船何時會因壓力而裂成兩半。例如,對於流氓波浪–大於周圍波浪大小兩倍的波浪–研究人員發現他們可以通過觀察可能的波浪條件來發現和量化無賴波何時形成,這些波浪隨著時間的推移非線性地相互作用,導致波浪有時是其原始大小的三倍。
研究人員發現他們的新方法優於更多的傳統建模工作,他們認為它提出了一個框架,可以有效地發現和預測各種罕見事件。
在論文中,研究小組概述了科學家應該如何設計未來的實驗,以便他們能夠最大限度地降低成本並提高預測的準確性。例如,Karniadakis已經在與環境科學家合作,使用這種新方法來預測氣候事件,如颶風。
這項研究由麻省理工學院的Ethan Pickering和Themistoklis Sapsis領導。DeepOnet是由Karniadakis和其他布朗研究人員在2019年推出的。他們目前正在為該技術申請專利。這項研究得到了國防高級研究計劃局、空軍研究實驗室和海軍研究辦公室的資金支持。