有AI學會控制核聚變反應堆了登上今日Nature

DeepMind在蛋白質折疊問題上實現巨大突破後，目標又轉向核聚變了。最近，它開發出了世界上第一個深度強化學習AI——可以在模擬環境和真正的核聚變裝置（託卡馬克）中實現對等離子體的自主控制。陌生名詞不要急，後面馬上解釋。

這比傳統的計算機控制要更高效且精準，成果登上今天的Nature。

作為強化學習最具有挑戰性的一個應用，這一成果也對加速可控核聚變有很大意義。

用強化學習控制核聚變反應

核聚變是未來最有潛力的清潔能源：只靠一個原子核就能產生巨大能量，除了相對少量的放射性廢物（可在一個世紀內分解），不會產生任何溫室氣體。

但要在地球上實現這一反應無比困難，需要製造一個極端高溫和高壓的條件，在其中創建一個由裸原子核組成的“等離子體”。

磁約束聚變裝置——託卡馬克（tokamak），是最有希望的一個實現方法。

它是一個環形反應堆，可以在超過1億攝氏度的環境下把氫加熱（superheat）成等離子體的狀態。

託卡馬克內部圖

由於等離子體溫度太高，任何材料都無法容納，要通過強大的磁場將它懸浮在託卡馬克內部。

在操作磁線圈時必須非常仔細，因為一旦碰壁，就可能導致容器損壞，並減緩聚變反應。

而一個託卡馬克裝共有19個磁線圈，一秒需要調整線圈及其電壓數千次。

傳統的裝置中，每個線圈配備單獨的控制器。

每當研究人員想要改變等離子體的結構，嘗試不同的形狀以產生更高的能量時，就需要大量的工程和設計工作。

DeepMind這個強化學習系統則可以一次控制全部19個線圈，並精確操縱等離子體自主呈現各種形狀，呈現產生科學家們一直在探索的更高能量的新配置：

比如下圖中第二個“負三角”以及第四個“雪花”（這個形狀可以通過將廢能量分散到託卡馬克壁上的不同接觸點來降低冷卻成本）。

以及第一個“droplets”，這也是第一次在託卡馬克內同時穩定兩個等離子體。

這個AI系統由DeepMind和瑞士洛桑聯邦理工學院等離子體中心的物理學家共同完成。

瑞士中心的一位成員表示：“這裡面有的形狀已經逼近裝置的極限，很可能對系統造成損壞，如果不是AI給的信心，我們可能不會冒這個險。”

這個AI是在模擬器中通過反複試驗來訓練的。

在核聚變研究中，模擬器非常有必要，因為目前運行的反應堆一次只能維持等離子體最多幾秒鐘，之後需要時間來重置。

不過一個問題是：該模擬器並沒有準確捕獲真實託卡馬克中存在的所有變量，能遷移到真正的託卡馬克上嗎？

對此，DeepMind研究員表示，通過用隨機數表示足夠訓練出一個靈活的AI。

另一個問題是：為了保持對託卡馬克內部等離子體的控制，控制算法必須能夠做出極快的決定，在短短幾秒鐘內對磁場進行調整。但許多人工智能係統在如此高速的環境下需要很長時間才能做出預測。

為此，該團隊先訓練了一個大型神經網絡，它可以對磁場的變化如何塑造等離子體進行長程預測（longer-term prediction）。

然後用這個網絡來訓練一個遠小得多的系統，學習執行第一個網絡所推薦的決策的最佳方法。

這個較小的網絡能與託卡馬克控制系統直接交互，在不到50微秒（50百萬分之一秒）的時間內做出決定。

最後，作者表示，雖然這個成果意義非凡，但只是朝著人類實現可控核聚變邁出了一小步。

比如實現一秒鐘的實時運行需要模擬託卡馬克數小時的時間，而它的條件每天都可能發生變化，算法還需各方面改進。

此外，還要看現在這個系統能否轉移到更大的託卡馬克裝置中。

聚變能源何時實現商用還很難說，但DeepMind斷言，人工智能可以加速這一過程。

不知道它能否再次像AlphaFold一樣，在核聚變領域實現驚艷全世界的新成果。

拭目以待。

WONGCW 網誌