工程熱物理所在高空太陽能無人機軌跡規劃研究中獲進展
近日,中國科學院工程熱物理研究所無人飛行器實驗室團隊利用深度強化學習技術,開展了基於能量優化的太陽能無人機軌跡規劃研究。 該項研究為增強高空長航時太陽能無人機自主飛行、智慧規劃能力提供了新的解決思路。
高空長航時(HALE)太陽能無人機依靠取之不盡的太陽能可在臨近空間停留數周或更長時間,以執行通信中繼、空中偵察和災害監控等任務。 然而,受儲能電池和光伏電池效率的限制,HALE無人機平臺的尺寸正在不斷增加以滿足更多有效載荷的需求。
因此,研究者正在尋找有效方法幫助無人機充分利用可獲取的能量,軌跡優化作為重點方向之一,是涉及大氣環境、飛行姿態和飛行任務約束的綜合問題。 目前,使用離線優化演算法解決該類問題雖能保證解序列趨於最優化,但無法對飛行過程中的不確定性進行即時糾正以調整飛行狀態;而模型預測控制、動態規劃等在線演算法通常採用滾動方法在有限的視界內進行優化,同時結合反覆運算演演算法進行求解,有限的算力將導致計算效率的下降。
針對以上研究背景,團隊利用強化學習演算法,藉助神經網路實現將動態軌跡生成向端到端控制的轉換,設計並建立完整的高空長航時太陽能飛機數值模擬環境以及強化學習框架(圖1)。
以能量最大化為目標,引入勢能/電能優先策略下的不同獎勵函數,經訓練的神經網路控制器可自主學習充電、爬升、高空巡航、下降、低空盤旋五個階段(圖2),並針對未經重複優化的控制器開展60*24h久航模擬分析(圖3)。
該項研究結果表明,採用強化學習控制器的無人機經過完整晝夜飛行後,電池剩餘能量得到不同程度的提高,同時控制器可以根據當前飛行和輻照資訊重新預測未來的軌跡,平均單步推理僅用時1ms,進一步提升了高空長航時太陽能無人機的自主飛行能力。 目前實驗室正在進行基於高空多種能量的綜合航跡優化進行可行性分析,下一階段將開展相關框架的平臺部署及驗證工作。
相關研究成果已於《Chinese Journal of Aeronautics》發表。 研究工作得到中國科學院特別研究助理項目的支援。
論文連結: https://www.sciencedirect.com/science/article/pii/S1000936121003848
圖1 基於Soft Actor-Critic演算法的控制器框架
(a)勢能優先(b)電能優先
圖2勢能/電量優先策略下的不同飛行剖面
圖3 久航模擬資訊分析