周國峰,嚴大衛(wèi),梁 卓
(1.南京航空航天大學 航空學院,南京 210016;2.中國運載火箭技術研究院,北京 100076)
以沖壓發(fā)動機為動力的飛行器因其結構簡單、質量輕、推重比大等優(yōu)點,相比于傳統(tǒng)動力飛行器在速度、航程方面具有顯著優(yōu)勢,成為近年來研究熱點。沖壓發(fā)動機需要在一定速度下才能產生推力,通常由助推器加速至合適的工作速度,然后點火迅速爬升至巡航工作點,其爬升過程既要滿足終端約束又要適應外界干擾,同時發(fā)動機性能也與高度、動壓、攻角等軌跡參數(shù)耦合,使得爬升段成為沖壓發(fā)動機飛行器軌跡優(yōu)化與跟蹤控制設計中的難點。
飛行器軌跡優(yōu)化方法通常包括間接法和直接法,其中間接法需要利用變分法或極小值原理,推導過程復雜,求解帶約束的復雜軌跡優(yōu)化問題較為困難;直接法通過離散狀態(tài)變量和控制變量,將軌跡優(yōu)化問題轉化為非線性規(guī)劃問題,利用非線性規(guī)劃方法進行求解,具有收斂半徑大、不需要猜測協(xié)態(tài)變量初值等優(yōu)點,其中偽譜法[1]、粒子群算法[2]、遺傳算法[3]在沖壓發(fā)動機飛行器軌跡優(yōu)化問題中得到大量應用。
在飛行器軌跡跟蹤控制方面,文獻[4]應用序列二次規(guī)劃對組合動力高超聲速飛行器上升段進行了軌跡優(yōu)化設計,并利用線性化控制方法實現(xiàn)閉環(huán)穩(wěn)定的軌跡跟蹤控制,文獻[5]針對吸氣式高超聲速飛行器上升段軌跡多約束、非線性的特點,采用粒子群、偽譜法進行軌跡優(yōu)化,再利用動態(tài)逆設計跟蹤制導律,取得了比PID 控制器更好的效果。隨著人工智能的發(fā)展,強化學習方法為飛行器軌跡跟蹤控制提供了一種新的解決思路,文獻[6]研究了深度確定性策略梯度算法(DDPG)在升力式再入飛行器軌跡優(yōu)化與制導中的應用,文獻[7]針對傳統(tǒng)再入飛行器制導方法對強擾動條件適應性不足,難以滿足終端約束的問題,采用DDPG 算法在具有噪聲的環(huán)境中訓練,提升抗干擾能力,文獻[8]針對傳統(tǒng)預測校正算法迭代預測再入軌跡占用大量計算資源的問題,提出了一種基于actor-critic強化學習的跨周期迭代再入飛行器預測修正制導方法。
本文以沖壓發(fā)動機飛行器為研究對象,針對爬升段存在初值偏差以及干擾情況下的軌跡優(yōu)化與跟蹤控制問題,利用近端策略優(yōu)化(Proximal Policy Optimization,PPO)[9]強化學習算法,將爬升段軌跡優(yōu)化問題轉化為基于狀態(tài)給出最優(yōu)動作策略的強化學習問題,考慮到在具有隨機擾動的環(huán)境下進行訓練難以收斂的問題,采用無干擾環(huán)境訓練,通過引入線性擴張狀態(tài)觀測器(Linear Extended State Observer,LESO)進行干擾觀測和補償?shù)姆椒▉碓鰪娖淇垢蓴_能力。
本文研究吸氣式高超聲速飛行器[10]縱向平面內運動特性。忽略了地球自轉與曲率影響,飛行器縱向質點動力學方程為:
式中:V、θ、m、h、α分別表示飛行速度、彈道傾角、質量、高度、攻角;D、L分別表示氣動阻力與升力;T、mc、λ分別表示發(fā)動機推力、燃氣流量、空燃比;f1(·)、f2(·)是發(fā)動機推力、燃氣流量與飛行速度、攻角、高度以及空燃比之間的函數(shù)關系。
強化學習是一種根據(jù)智能體與環(huán)境交互產生的數(shù)據(jù)來優(yōu)化智能體行為策略的方法,在智能體與環(huán)境交互過程中會獲得獎勵,它的優(yōu)化目標是使得累計獎勵最大。強化學習以馬爾科夫決策過程為框架,采用五元組進行描述,其中S是狀態(tài)集,A是動作集,P是狀態(tài)轉移概率,R是獎勵值,γ為折扣因子。
近端策略優(yōu)化(PPO)算法是Open AI 提出的一種基于Actor-Critic 框架[11]的策略梯度強化學習算法,它采用了一個帶有截斷概率比的目標函數(shù),通過動態(tài)修改目標函數(shù)的截斷概率比,可以避免策略出現(xiàn)大幅度的更新,提升算法的魯棒性和數(shù)據(jù)效率。
PPO 算法的目標函數(shù)定義如下:clip(·)為截斷函數(shù),ε為截斷常數(shù),為更
由于沖壓發(fā)動機飛行器爬升過程中在不同高度、速度下動力學特性差異較大,具有明顯的非線性時變特征,不能采用指令跟蹤問題的誤差量建模方法來縮減狀態(tài)空間,因此,選取全狀態(tài)量作為狀態(tài)集S=[Vθh m]。
在動作空間選取上,空燃比λ控制發(fā)動機的推力大小,攻角α控制氣動受力同時也影響發(fā)動機推力,動作集設計為A=[αλ],并且滿足αmin<α(t)<αmax,λmin<λ(t)<λmax。
回報函數(shù)的設計對策略的尋優(yōu)結果產生重大影響,在給出回報函數(shù)前,先對兩種任務結束狀態(tài)做如下定義:
1)任務完成:當飛行器的各狀態(tài)誤差均滿足小于給定容許誤差閾值時刻,爬升段任務完成,即任務完成條件為達到目標區(qū)域其中:
2)任務強制終止:爬升時間大于上限值tmax時任務終止,即任務強制終止條件為t>tmax。
從式(2)所述的優(yōu)化任務出發(fā),回報函數(shù)可設計為在任務完成時,給出關于燃料消耗的獎勵r1。顯然這屬于稀疏獎勵,在訓練過程中大量策略難以到達目標區(qū)域,從而無法獲得有效梯度信息,使得訓練收斂困難。因此,對于未到達目標區(qū)域的策略賦予與目標狀態(tài)相關的廣義距離獎勵r2,到達目標區(qū)域的策略賦予較大常值獎勵r0,用于引導策略靠近目標區(qū)域,回報函數(shù)設計如下:
其中,tf是終止時刻;a1、a2是獎勵系數(shù),分別表征燃料消耗和終端約束精度在獎勵函數(shù)中的權重,一般地,a1取值使得r1與r0相當,a2小于r0,可以獲得較好的訓練收斂效果。
最后,為了提升算法對初值偏差的適應性,訓練中每條軌跡的初值都從初值集合中采樣得到。
由于控制器在理想環(huán)境中訓練,當環(huán)境存在干擾以及模型參數(shù)不確定性時,控制器的適應能力較差。為了提升控制器魯棒性,一種有效的方法是在訓練時給環(huán)境增加擾動,使得訓練結果能夠最大程度的克服擾動影響,如行動者-干擾者-評論家(Actor-Disturber-Critic)算法[12]、域隨機化方法[13]、魯棒對抗強化學習[14],但這些方法的樣本復雜度較高,訓練難以收斂。
為了在提升魯棒性的同時不增加訓練難度,本文將強化學習與線性擴張狀態(tài)觀測器(LESO)相結合,對包含環(huán)境干擾與模型參數(shù)不確定性的總擾動進行觀測和補償,從而使得理想環(huán)境下訓練的強化學習控制器有效工作。
根據(jù)式(1),將環(huán)境擾動與模型不確定性等效為總擾動,將總擾動作為擴張狀態(tài)量,則有:
圖1 帶有LESO 的強化學習軌跡控制Fig.1 Trajectory control with Reinforcement learning and LESO
式中,g1、g2為訓練環(huán)境下的動力學模型,z1、z2為總擾動,ξ1、ξ2為總擾動微分。
采用線性誤差反饋,構建如下線性擴張狀態(tài)觀測器:
式中,β11、β12、β21、β22為觀測器的誤差反饋系數(shù)。
考慮狀態(tài)觀測器的穩(wěn)定性,記e1=V-、e2=θ-、e3=z1-、e4=z2-,則有如下觀測誤差方程:
式(9)可寫為:
對于式(9),可通過極點配置求得LESO 的誤差反饋系數(shù),令:
可以解得:
其中,ω0為觀測器帶寬。
在LESO 觀測得到總擾動后,通過實施干擾補償控制量α*、λ*來抵消干擾的影響,計算方程如下:
對式(12)做一階泰勒展開,并舍去高階小量,可得:
將g1,g2代入式(13),考慮α取值較小,取cosα≈1,sinα≈α,展開可得:
從而解得補償控制量為:
采用上述軌跡優(yōu)化控制方法進行沖壓發(fā)動機飛行器的爬升段仿真驗證,主要條件參數(shù)如表1所示。
表1 主要仿真條件參數(shù)Tab.1 Main simulation condition parameters
動作網絡與評價網絡均采用3 層全連接網絡,隱層節(jié)點數(shù)為 64,激活函數(shù)為 Relu,采用Stable-Baseline3的PPO框架進行訓練,算法的主要參數(shù)如表2所示。
表2 主要算法參數(shù)Tab.2 Main algorithm parameters
為了驗證算法中增加狀態(tài)初值采樣對改進算法初值敏感性的效果,對是否采用初值采樣訓練得到的策略進行對比,如圖2所示。從圖2平均獎勵變化曲線可以看出,考慮狀態(tài)初值偏差時訓練收斂速度明顯降低,無初值偏差約200 k 步數(shù)收斂,有初值偏差約400 k 步數(shù)收斂;表3、表4列出了狀態(tài)初值拉偏設置及仿真測試結果,可以看出增加初值采樣后訓練得到的控制器,在不同初值下能滿足終端條件約束,有效降低狀態(tài)初值敏感性。
圖2 平均獎勵變化曲線Fig.2 Average reward curve
表3 狀態(tài)初值拉偏測試工況設置Tab.3 State initial value deflection test condition configuration
表4 狀態(tài)初值拉偏測試終值誤差Tab.4 Final value error of state initial value deflection test
再驗證算法對環(huán)境干擾的適應性,環(huán)境干擾施加方式為:分別為速度系軸向和法向施加正弦干擾ξ、ζ,即:
其中,Ad1、Ad2為干擾幅值,分別取值為2000 N、4000 N;ωd1、ωd2為干擾頻率,分別取值為0.1 rad/s、1 rad/s;φd1、φd2為干擾隨機初始相位。
圖4 高度曲線Fig.4 Curve of height
圖5 攻角與空燃比曲線(LESO)Fig.5 Curve of angle of attack and air-fuel ratio(LESO)
圖6 攻角與空燃比曲線(無LESO)Fig.6 Curve of angle of attack and air-fuel ratio(no LESO)
圖7 觀測器估計誤差曲線Fig.7 Curve of observer estimation error
圖3-7 給出了干擾作用下的仿真曲線,表5對比了是否采用LESO 的策略在干擾環(huán)境下終端約束滿足情況,可以看出LESO 對干擾的觀測和補償是有效的,終端狀態(tài)約束精度提升了60%以上,實現(xiàn)了在干擾環(huán)境下的高精度軌跡控制。
圖3 速度曲線Fig.3 Curve of speed
表5 干擾環(huán)境下的仿真結果Tab.5 Simulation results in interference environment
本文針對具有初值偏差與環(huán)境干擾的沖壓發(fā)動機爬升段軌跡優(yōu)化控制問題,提出了基于強化學習和擴張狀態(tài)觀測器的控制方法。仿真結果表明,通過狀態(tài)初值采樣能有效降低初值偏差敏感性,但樣本復雜度增高,收斂速度變慢;通過對未完成目標的樣本施加了終端廣義距離獎勵來引導策略靠近目標區(qū)域,可以解決軌跡優(yōu)化獎勵稀疏性問題,有利于提升數(shù)據(jù)效率;將強化學習訓練得到的控制器與線性擴張狀態(tài)觀測器結合,能在不增加訓練難度的情況下有效抑制環(huán)境干擾的影響。