韓楠,羅建軍,馬衛(wèi)華,*
1. 西北工業(yè)大學(xué) 航天學(xué)院,西安 710072 2. 西北工業(yè)大學(xué) 航天飛行動(dòng)力技術(shù)重點(diǎn)實(shí)驗(yàn)室,西安 710072
接管控制技術(shù)為空間失效衛(wèi)星有效載荷的再利用提供了新途徑。微小衛(wèi)星具有研制成本低、研制周期短、發(fā)射方便的優(yōu)點(diǎn)[1],是實(shí)施失效衛(wèi)星姿態(tài)接管控制的新思路。近年來(lái),針對(duì)空間資源再利用和新衛(wèi)星在軌組裝任務(wù),以鳳凰計(jì)劃、iBOSS計(jì)劃為代表的模塊化衛(wèi)星項(xiàng)目被陸續(xù)提出。其所構(gòu)想的輔助連接裝置及標(biāo)準(zhǔn)化接口[2-4],可滿(mǎn)足模塊化衛(wèi)星之間及模塊化衛(wèi)星與失效衛(wèi)星之間的連接需求,是實(shí)現(xiàn)微小衛(wèi)星與失效衛(wèi)星相互連接的有效途徑。當(dāng)多顆微小衛(wèi)星與失效衛(wèi)星互連形成組合體后,便可通過(guò)互相協(xié)同為失效衛(wèi)星的姿態(tài)運(yùn)動(dòng)接管和操作提供控制。
由于微小衛(wèi)星與失效衛(wèi)星所形成的組合體可近似視為一剛性航天器,因此可利用傳統(tǒng)航天器姿態(tài)控制及控制分配方法計(jì)算各顆微小衛(wèi)星的控制力矩[5-8]。然而,這種方法需要中央處理單元進(jìn)行微小衛(wèi)星控制力矩的計(jì)算,當(dāng)微小衛(wèi)星數(shù)量過(guò)多時(shí),中央處理單元會(huì)面臨較大的計(jì)算負(fù)擔(dān)。為了將計(jì)算負(fù)擔(dān)分散在各顆微小衛(wèi)星之間,文獻(xiàn)[9]研究了微小衛(wèi)星的分布式控制分配問(wèn)題,然而,微小衛(wèi)星的控制約束沒(méi)有得到考慮。
微分博弈研究了多個(gè)體的決策互動(dòng)問(wèn)題,其中各個(gè)體通過(guò)局部目標(biāo)函數(shù)的優(yōu)化獲得控制策略[10-11],這為通過(guò)多顆微小衛(wèi)星接管控制失效衛(wèi)星的姿態(tài)運(yùn)動(dòng)提供了新思路。文獻(xiàn)[12-13]針對(duì)失效衛(wèi)星的姿態(tài)接管控制問(wèn)題,設(shè)計(jì)了微小衛(wèi)星的非零和微分博弈控制器。所設(shè)計(jì)的控制器能夠在避免進(jìn)行微小衛(wèi)星控制分配的情況下,通過(guò)各顆微小衛(wèi)星獨(dú)立優(yōu)化各自局部性能指標(biāo)函數(shù)的方式獲得控制策略。由于非零和博弈為非合作博弈,因此文獻(xiàn)[12-13]實(shí)現(xiàn)的是對(duì)各顆微小衛(wèi)星局部性能指標(biāo)函數(shù)的優(yōu)化。為實(shí)現(xiàn)對(duì)所有微小衛(wèi)星全局性能指標(biāo)函數(shù)的優(yōu)化,文獻(xiàn)[14]設(shè)計(jì)了微小衛(wèi)星的合作博弈控制器,與文獻(xiàn)[12-13]中的研究相比,提高了微小衛(wèi)星性能指標(biāo)函數(shù)的優(yōu)化程度。但由于僅獲得了微小衛(wèi)星合作博弈的開(kāi)環(huán)控制策略,難以實(shí)現(xiàn)對(duì)控制誤差的補(bǔ)償。
本文在文獻(xiàn)[12-14]研究的基礎(chǔ)上,考慮并設(shè)計(jì)能夠滿(mǎn)足微小衛(wèi)星控制約束的閉環(huán)合作博弈控制方法。所設(shè)計(jì)的方法通過(guò)過(guò)去與當(dāng)前時(shí)刻數(shù)據(jù)的并行使用,放松了微小衛(wèi)星合作博弈策略學(xué)習(xí)對(duì)持續(xù)激勵(lì)條件的要求,避免了系統(tǒng)抖振的發(fā)生。所獲得的合作博弈方法可有效滿(mǎn)足微小衛(wèi)星控制約束,且能夠在避免進(jìn)行控制分配的情況下獲得各微小衛(wèi)星的控制策略,計(jì)算復(fù)雜度低。
利用微小衛(wèi)星進(jìn)行失效衛(wèi)星的姿態(tài)接管控制需要多顆微小衛(wèi)星通過(guò)互相協(xié)同提供失效衛(wèi)星姿態(tài)運(yùn)動(dòng)所需的控制力矩。圖1給出了失效衛(wèi)星姿態(tài)接管控制示意圖。
假設(shè):
(1) 各微小衛(wèi)星固連于失效衛(wèi)星,且相對(duì)于失效衛(wèi)星的方位保持不變。
(2) 失效衛(wèi)星與微小衛(wèi)星所形成的組合體可視為剛體。
(3) 失效衛(wèi)星姿態(tài)運(yùn)動(dòng)所需的控制力矩完全由微小衛(wèi)星提供。
圖1 失效衛(wèi)星姿態(tài)接管示意圖Fig.1 Shetch of attitude takeover of failed satellite
本文在考慮微小衛(wèi)星控制約束的情況下,設(shè)計(jì)多星閉環(huán)合作博弈控制器。首先,通過(guò)組合體動(dòng)力學(xué)模型的建立及考慮微小衛(wèi)星控制約束的性能指標(biāo)函數(shù)的設(shè)計(jì),建立微小衛(wèi)星合作博弈模型;其次,面向協(xié)同優(yōu)化微小衛(wèi)星全局性能指標(biāo)函數(shù)的需求,設(shè)計(jì)微小衛(wèi)星合作博弈帕累托最優(yōu)策略學(xué)習(xí)方法,以進(jìn)行微小衛(wèi)星閉環(huán)合作博弈策略的學(xué)習(xí);最后,根據(jù)學(xué)習(xí)到的合作博弈策略進(jìn)行微小衛(wèi)星的閉環(huán)協(xié)同控制,并基于此實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的接管控制。
本文所使用的坐標(biāo)系定義如下:
文獻(xiàn)[12]為實(shí)現(xiàn)微小衛(wèi)星控制策略的獨(dú)立計(jì)算,將失效衛(wèi)星姿態(tài)接管控制問(wèn)題建模為非合作博弈問(wèn)題,所實(shí)現(xiàn)的是各顆微小衛(wèi)星局部性能指標(biāo)函數(shù)的優(yōu)化,且未考慮微小衛(wèi)星的控制約束。為實(shí)現(xiàn)對(duì)所有微小衛(wèi)星全局性能指標(biāo)函數(shù)的優(yōu)化,本節(jié)首先在考慮微小衛(wèi)星控制約束的情況下,將失效衛(wèi)星姿態(tài)接管控制問(wèn)題建模為微小衛(wèi)星的合作博弈問(wèn)題。
本文通過(guò)修正羅德里格斯參數(shù)(Modified Rodrigues Parameter, MRP)進(jìn)行組合體姿態(tài)運(yùn)動(dòng)的描述,相應(yīng)的組合體姿態(tài)運(yùn)動(dòng)學(xué)方程為
(1)
(2)
其中:I為單位陣;σ×為σ=[σ1,σ2,σ3]T的反對(duì)稱(chēng)矩陣,σ×=[0,-σ3,σ2;σ3,0,-σ1;-σ2,σ1,0]T。
組合體姿態(tài)動(dòng)力學(xué)方程為
(3)
定義組合體狀態(tài)變量為x=[σT,ωT]T,根據(jù)式(1)與式(3),可得組合體姿態(tài)運(yùn)動(dòng)方程為
(4)
式中:
(5)
為通過(guò)多顆微小衛(wèi)星的互相協(xié)同實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的接管控制,為微小衛(wèi)星設(shè)計(jì)如下的性能指標(biāo)函數(shù):
(6)
式中:ri(x,ui)=xTQix+φi(ui);Qi為一對(duì)稱(chēng)正定矩陣;x0為組合體狀態(tài)變量初值;t0為接管控制初始時(shí)刻。
為了處理微小衛(wèi)星的控制約束,φi(ui)定義為[16]
(7)
(8)
當(dāng)微小衛(wèi)星的合作博弈策略達(dá)到帕累托最優(yōu)時(shí),任意的策略改變至少會(huì)使一顆微小衛(wèi)星性能指標(biāo)函數(shù)的最優(yōu)性受到損失。因此,通過(guò)使用微小衛(wèi)星合作博弈的帕累托最優(yōu)策略,能夠在優(yōu)化微小衛(wèi)星全局性能指標(biāo)函數(shù)的情況下,實(shí)現(xiàn)對(duì)失效衛(wèi)星的姿態(tài)接管控制。
帕累托最優(yōu)策略可通過(guò)優(yōu)化各顆微小衛(wèi)星局部性能指標(biāo)函數(shù)的加權(quán)組合來(lái)獲得,即
(9)
在考慮組合體動(dòng)力學(xué)約束、微小衛(wèi)星控制約束的情況下,微小衛(wèi)星合作博弈可描述為
(10)
(11)
將V(x(t+Δt))通過(guò)泰勒級(jí)數(shù)展開(kāi),可得
(12)
由于在控制策略u(píng)作用下,式(4)中標(biāo)稱(chēng)系統(tǒng)為一定常系統(tǒng),因此?V/?t=0。將式(12)代入式(11)中,并以Δt除之,當(dāng)Δt→0時(shí),可得
(13)
定義哈密爾頓函數(shù)為
(14)
令?H/?ui=0,可得微小衛(wèi)星i最優(yōu)控制顯式表達(dá)式為
(15)
注1由于tanh函數(shù)的值域?yàn)?-1,1),因此,當(dāng)微小衛(wèi)星采取式(15)中的控制策略時(shí),微小衛(wèi)星控制約束將能夠得到滿(mǎn)足。
(16)
將式(16)代入式(13)中,可得HJB方程為
(17)
(18)
將式(18)代入式(17)中,HJB方程可改寫(xiě)為
(19)
本節(jié)通過(guò)過(guò)去與當(dāng)前時(shí)刻數(shù)據(jù)的并行使用,設(shè)計(jì)能夠進(jìn)行微小衛(wèi)星合作博弈策略學(xué)習(xí)的策略迭代方法,并在此基礎(chǔ)上進(jìn)行微小衛(wèi)星合作博弈帕累托最優(yōu)策略數(shù)值解的學(xué)習(xí)。
V*(x)=WTφ(x)+εV(x)
(20)
式中:W為神經(jīng)網(wǎng)絡(luò)理想權(quán)值矢量;φ(x)=[φ1(x),φ2(x),…,φK(x)]為激活函數(shù)矢量;K為隱藏層神經(jīng)元數(shù)量;εV(x)為逼近誤差。
最優(yōu)值函數(shù)關(guān)于x的微分為
(21)
微小衛(wèi)星合作博弈策略為
(22)
式中:εu*為合作博弈策略逼近誤差。
將式(21)代入HJB方程(19)中,可得
(23)
定義HJB方程逼近誤差為
(24)
式(23)可改寫(xiě)為
(25)
(26)
最優(yōu)值函數(shù)關(guān)于x的微分的逼近值為
(27)
微小衛(wèi)星合作博弈策略逼近值為
(28)
將式(27)代入式(19)中,可得
(29)
式中:
(30)
定義:
(31)
式(30)可改寫(xiě)為[19]
(32)
式中:
(33)
為了進(jìn)行式(19)數(shù)值解的學(xué)習(xí),文獻(xiàn)[19]通過(guò)優(yōu)化如下僅依賴(lài)于當(dāng)前時(shí)刻系統(tǒng)狀態(tài)的誤差范數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值矢量的學(xué)習(xí):
(34)
然而,通過(guò)優(yōu)化誤差范數(shù)(34)進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值矢量的學(xué)習(xí)要求信號(hào)θ滿(mǎn)足如下持續(xù)激勵(lì)條件:
(35)
式中:t為當(dāng)前時(shí)刻;T為神經(jīng)網(wǎng)絡(luò)權(quán)值矢量學(xué)習(xí)過(guò)程中的動(dòng)力學(xué)積分步長(zhǎng);κ1與κ2均為正數(shù)。
持續(xù)激勵(lì)條件一般通過(guò)引入噪聲來(lái)得到滿(mǎn)足[12,19],然而,這會(huì)造成系統(tǒng)狀態(tài)持續(xù)不斷的抖振,從而對(duì)系統(tǒng)的穩(wěn)定性甚至安全性產(chǎn)生不利影響。文獻(xiàn)[20]中的研究表明,通過(guò)對(duì)當(dāng)前與過(guò)去時(shí)刻數(shù)據(jù)的并行使用,可放松參數(shù)辨識(shí)方法對(duì)持續(xù)激勵(lì)條件的要求。本文通過(guò)并行學(xué)習(xí)思想進(jìn)行無(wú)需持續(xù)激勵(lì)條件的神經(jīng)網(wǎng)絡(luò)權(quán)值矢量更新律的設(shè)計(jì)。為此,考慮如下的誤差范數(shù):
(36)
式中:ek為e在過(guò)去時(shí)刻系統(tǒng)狀態(tài)變量xk處的取值;p為使用的過(guò)去時(shí)刻系統(tǒng)狀態(tài)變量的數(shù)量。
無(wú)需持續(xù)激勵(lì)條件的神經(jīng)網(wǎng)絡(luò)權(quán)值矢量更新律可設(shè)計(jì)為
(37)
式中:θk與βk分別為θ與β在過(guò)去時(shí)刻系統(tǒng)狀態(tài)變量xk處的取值。
證明:定義如下的Lyapunov函數(shù):
(38)
其導(dǎo)數(shù)為
(39)
(40)
記:
(41)
則有:
(42)
(43)
微小衛(wèi)星合作博弈策略可通過(guò)基于并行學(xué)習(xí)的策略迭代方法進(jìn)行計(jì)算。具體執(zhí)行步驟如下:
(44)
注3式(44)中的合作博弈策略具有反饋控制形式,當(dāng)擾動(dòng)存在并造成失效衛(wèi)星的姿態(tài)接管控制誤差時(shí),反饋控制策略(44)能夠通過(guò)對(duì)微小衛(wèi)星合作博弈策略的調(diào)整進(jìn)行誤差的實(shí)時(shí)補(bǔ)償,以實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的閉環(huán)控制。
本節(jié)通過(guò)數(shù)值仿真對(duì)所設(shè)計(jì)的微小衛(wèi)星合作博弈控制方法的有效性,及其與現(xiàn)有研究相比在放松持續(xù)激勵(lì)條件、處理微小衛(wèi)星控制約束及抑制擾動(dòng)方面的優(yōu)勢(shì)進(jìn)行驗(yàn)證。
不失一般性,假設(shè)有4顆微小衛(wèi)星參與進(jìn)行失效衛(wèi)星的姿態(tài)接管控制。失效衛(wèi)星與微小衛(wèi)星所形成的組合體的轉(zhuǎn)動(dòng)慣量為
4顆微小衛(wèi)星本體坐標(biāo)系到組合體本體坐標(biāo)系的轉(zhuǎn)換矩陣分別為
仿真分2個(gè)階段,第1個(gè)階段通過(guò)并行學(xué)習(xí)策略迭代方法進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值矢量的學(xué)習(xí),以獲得微小衛(wèi)星的合作博弈策略。第2個(gè)階段根據(jù)獲得的合作博弈策略進(jìn)行微小衛(wèi)星的閉環(huán)協(xié)同控制,以實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的接管控制。
仿真中使用50個(gè)過(guò)去時(shí)刻數(shù)據(jù)與當(dāng)前時(shí)刻數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值矢量的并行學(xué)習(xí)。組合體初始姿態(tài)MRPσ0=[1.307 6,1.216 4,0.465 9]T,初始姿態(tài)角速度ω0=[0.002 2,0.012 0,0.059 5]Trad·s-1。
圖2 組合體姿態(tài)MRP隨時(shí)間變化曲線(xiàn)(神經(jīng)網(wǎng)絡(luò)權(quán)值矢量學(xué)習(xí)階段)Fig.2 Variation of attitude MRP of combination (NN weights learning stage)
圖3 組合體姿態(tài)角速度隨時(shí)間變化曲線(xiàn)(神經(jīng)網(wǎng)絡(luò)權(quán)值矢量學(xué)習(xí)階段)Fig.3 Variation of attitude angular velocity of combination (NN weights learning stage)
圖4 神經(jīng)網(wǎng)絡(luò)(NN)權(quán)值矢量估值隨時(shí)間變化曲線(xiàn)Fig.4 Variation of NN weight estimations
獲得神經(jīng)網(wǎng)絡(luò)權(quán)值矢量估值之后,便可根據(jù)式(44)直接計(jì)算各顆微小衛(wèi)星的合作博弈策略,以進(jìn)行失效衛(wèi)星的姿態(tài)接管控制。假設(shè)在姿態(tài)接管控制階段,組合體初始姿態(tài)MRP及角速度分別為σ0=[-0.455 3,0.355 0,0.122 5]T及ω0=[0.015 0,0.006 0,-0.008 6]Trad·s-1。期望姿態(tài)MRP及角速度分別為σf=[0,0,0]T及ωf=[0,0,0]Trad·s-1。
圖5與圖6分別給出了組合體姿態(tài)MRP及角速度隨時(shí)間變化的曲線(xiàn),可以看出,在多顆微小衛(wèi)星的合作博弈控制下,組合體的姿態(tài)MRP與角速度均得到了有效控制。
圖7給出了4顆微小衛(wèi)星控制力矩隨時(shí)間變化的曲線(xiàn),其中藍(lán)綠色實(shí)線(xiàn)為文獻(xiàn)[12]方法所得的微小衛(wèi)星控制力矩曲線(xiàn),綠色虛線(xiàn)表示微小衛(wèi)星的控制約束??梢钥闯?,與文獻(xiàn)[12]方法相比,本文方法能夠在整個(gè)姿態(tài)接管控制過(guò)程中,使微小衛(wèi)星的控制約束得到滿(mǎn)足。
圖5 組合體姿態(tài)MRP隨時(shí)間變化曲線(xiàn)(姿態(tài)接管控制階段)Fig.5 Variation of attitude MRP of combination (attitude takeover control stage)
圖6 組合體姿態(tài)角速度隨時(shí)間變化曲線(xiàn)(姿態(tài)接管控制階段)Fig.6 Variation of attitude angular velocity of combination (attitude takeover control stage)
圖7 微小衛(wèi)星控制力矩隨時(shí)間變化曲線(xiàn)(姿態(tài)接管控制階段)Fig.7 Variation of control torque of microsatellites (attitude takeover control stage)
為驗(yàn)證所獲得的閉環(huán)合作博弈策略對(duì)擾動(dòng)引起的姿態(tài)控制誤差的補(bǔ)償能力,在姿態(tài)接管控制過(guò)程中引入如下的干擾力矩:
組合體初始姿態(tài)MRP 及角速度分別為σ0=[-0.355 3,-0.205 0,0.082 5]T,ω0=[-0.015 3,0.040 0,-0.048 6]Trad·s-1。期望姿態(tài)MRP及角速度為σf=[0,0,0]T,ωf=[0,0,0]Trad·s-1。
圖8與圖9分別給出了組合體姿態(tài)MRP及角速度隨時(shí)間變化的曲線(xiàn),其中藍(lán)綠色實(shí)線(xiàn)為文獻(xiàn)[14]方法所得的姿態(tài)MRP及角速度曲線(xiàn)。由于文獻(xiàn)[14]主要關(guān)注微小衛(wèi)星開(kāi)環(huán)合作博弈策略的確定,因而難以實(shí)現(xiàn)對(duì)擾動(dòng)所造成的失效衛(wèi)星姿態(tài)控制誤差的補(bǔ)償。本文方法得到了微小衛(wèi)星的閉環(huán)合作博弈策略,能夠在擾動(dòng)存在的情況下,實(shí)現(xiàn)對(duì)組合體姿態(tài)MRP與角速度的有效控制。
圖8 組合體姿態(tài)MRP隨時(shí)間變化曲線(xiàn)Fig.8 Variation of attitude MRP of combination
圖9 組合體姿態(tài)角速度隨時(shí)間變化Fig.9 Variation of attitude angular velocity of combination
1) 針對(duì)多顆微小衛(wèi)星接管控制失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的問(wèn)題,提出了一種能夠處理微小衛(wèi)星控制約束的并行學(xué)習(xí)合作博弈控制方法。該方法通過(guò)過(guò)去與當(dāng)前時(shí)刻數(shù)據(jù)的并行使用,放松了微小衛(wèi)星合作博弈策略的學(xué)習(xí)對(duì)持續(xù)激勵(lì)條件的要求,有效避免了博弈策略學(xué)習(xí)過(guò)程中系統(tǒng)抖振的發(fā)生。
2) 所獲得的微小衛(wèi)星合作博弈策略具有反饋控制形式,一旦完成博弈策略的學(xué)習(xí),各顆微小衛(wèi)星便能通過(guò)控制策略的獨(dú)立計(jì)算實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的閉環(huán)控制,以實(shí)現(xiàn)對(duì)控制誤差的補(bǔ)償。