馬 玲,左 燕*,彭冬亮,任金磊
(1.杭州電子科技大學 自動化學院,浙江 杭州 310018;2.中國運載火箭技術研究院,北京 100076)
隨著隱身飛機、反輻射導彈和電子對抗技術的飛速發(fā)展,無源探測系統(tǒng)不主動發(fā)射電磁信號,具有隱蔽性好、覆蓋范圍廣等優(yōu)點,被廣泛應用于目標定位、跟蹤、監(jiān)視、導航和無線通信等領域。
在無源探測系統(tǒng)中,到達時差(Time of Arrival,TOA)是基本的觀測信息之一[1],基于無源時差的定位跟蹤算法相繼提出[2-4]。TOA協(xié)同定位性能不僅與傳感器量測精度有關,還很大程度上受到目標和傳感器之間的幾何位置影響[5]。當無源傳感器部署在多個無人機上,通過優(yōu)化無人機飛行軌跡可有效提高多機協(xié)同跟蹤精度[6]。面向跟蹤目標任務的多機無源傳感器任務規(guī)劃問題成為研究熱點。
多機無源傳感器協(xié)同跟蹤根據一定的最優(yōu)準則,優(yōu)化無人機的運行參數使得目標跟蹤系統(tǒng)整體跟蹤性能達到最優(yōu)[7]。不同優(yōu)化性能指標下的無人機調度方法被相繼提出[8],基于信息驅動的調度通常以信息增量[9-12]為優(yōu)化指標使得多無人機協(xié)同跟蹤下所獲取的目標信息增益最大化。基于跟蹤任務的調度通常以目標跟蹤狀態(tài)估計誤差性能下界[13-14]為優(yōu)化指標。上述調度方法僅考慮以當前調度決策產生的目標跟蹤收益或代價為調度目標,而未考慮當前調度決策帶來的長期跟蹤性能影響,具有短視性。
多無人機遠期調度將無人機飛行規(guī)劃決策視為部分可觀察馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP),其本質屬于高維非線性優(yōu)化問題[7]。由于目標運動狀態(tài)不確定和傳感器量測不確定,加上無人機飛行約束,使得無人機遠期調度策略的求解非常復雜。文獻[15]將調度過程抽象為決策樹問題,采用改進分支定界算法進行求解。文獻[16]提出自適應多種群協(xié)同差分進化算法。上述方法具有較高的計算復雜度,無法滿足任務決策的實時性需求。
對此,本文針對多無人機無源協(xié)同定位跟蹤下傳感器調度問題,提出了遠期調度策略,并提出了一種分布式自主決策優(yōu)化算法,最后仿真實驗結果表明了所提傳感器調度方法的有效性。
NS架無人機上分別裝載一部TOA無源傳感器,通過優(yōu)化多個無人機的運動方向協(xié)同跟蹤目標。將機載無源傳感器看作是一個智能體,面向目標跟蹤任務的多無人機無源傳感器調度可描述為POMDP,模型要素用六元組表示〈S,φ,Z,f,h,R〉。
目標的狀態(tài)轉移方程可描述為:
Xk+1=FkXk+wk,
(1)
式中,Fk為目標狀態(tài)轉移矩陣,不同的目標運動模式(如勻速運動、勻加速運動等)對應不同的目標狀態(tài)轉移矩陣;wk為k時刻過程噪聲,均值為0,方差為Q。
傳感器i位置轉移方程可描述為:
(2)
(3)
式中,f(·)為系統(tǒng)狀態(tài)轉移函數。
定義k時刻系統(tǒng)的決策變量φk為無人機的飛行方向,φk=[φ1(k),φ2(k),…,φNs(k)]T,其中φi(k)為k時刻無人機i的飛行方向。由于機載平臺運動能力受到限制,無人機i運動方向需滿足轉彎率要求[5]:
Φi={φi(k)|φi,min≤φi(k)≤φi,max},
(4)
式中,φi,min和φi,max分別為無人機i飛行方向可改變的最小值和最大值。
將各無人機飛行方向在各自角度范圍內等分,則無人機i的可行飛行方向滿足:
(5)
每一時刻k,無人機i的調度決策空間為
多機無源傳感器協(xié)同跟蹤下傳感器調度決策空間為U=U1×U2×…×UNS。
定義k時刻觀測值集Zk為所有無源傳感器的觀測值組成的集合Zk=[Z1(k),Z2(k),…,ZNS(k)]Τ。由于各個傳感器獨立觀測,k時刻機載無源傳感器i對目標的觀測函數為:
Zi(k)=hi(Sk)+vi(k),
(6)
式中,hi(Sk)為傳感器i的TOA觀測函數,具體為:
(7)
(8)
考慮TOA量測噪聲與距離相關的特點,本文采用GCRLB的跡最小化為優(yōu)化指標進行傳感器調度決策。高斯噪聲下Fisher信息矩陣(Fisher Information Matrix,FIM)滿足以下遞推形式[6]:
(9)
(10)
將式(8)帶入式(7),有:
Jk(Sk,φk)=(Qk-1+Fk-1Jk-1-1Fk-1T)-1+
(11)
GCRLB定義為FIM的逆,以GCRLB的跡為目標跟蹤代價函數,有:
R(Sk,φk)=tr(Jk(Sk,φk)-1)。
(12)
在POMDP框架下,系統(tǒng)的狀態(tài)不完全可觀。為實現(xiàn)目標的持續(xù)穩(wěn)定跟蹤,在獲得量測值之后需要對系統(tǒng)的狀態(tài)進行持續(xù)更新??紤]AOA量測噪聲方差隨目標-傳感器距離變化特點,設計一種變增益無跡卡爾曼濾波(Variable-Gain Unscented Kalman Filter,VUKF)算法對系統(tǒng)狀態(tài)后驗估計。
(13)
(14)
式中,N為Sigma點的維數;λ為標度參數,它確定圍繞狀態(tài)向量Xk均值的Sigma點的分布。
② 預測。計算Sigma點的一步預測及相應量測預測值:
(15)
(16)
(17)
③ 計算增益。根據目標一步預測值更新量測噪聲方差,以此更新濾波器增益:
(18)
(19)
(20)
④ 狀態(tài)更新。根據新的量測更新目標狀態(tài)和狀態(tài)協(xié)方差:
(21)
(22)
基于POMDP的多機載被動傳感器協(xié)同跟蹤任務規(guī)劃的最終目的是在有限任務時域內,優(yōu)化無人機平臺的飛行方向,提高目標的跟蹤性能。
令調度序列Φ1:N=[φ1,φ2,…,φN],在任務周期[1,N]內總目標跟蹤代價函數為:
(23)
POMDP任務規(guī)劃決策模型為:
s.t.φi(k)∈Ui,i=1,2,…,NS;k=1,2,…,N。
(24)
基于POMDP的多機無源傳感器協(xié)同任務規(guī)劃過程如圖1所示。
圖1 基于POMDP的協(xié)同任務規(guī)劃過程Fig.1 Mission planning process based on POMDP
將任務周期[1,N]內傳感器調度問題分解為N個單步決策子問題,每一時刻k(k=1,2,…,N)優(yōu)化決策各無人機的飛行方向φk。由于目標狀態(tài)具有無后效性,k時刻的最優(yōu)決策φk與過去狀態(tài)無關,僅取決于當前狀態(tài)Sk。k時刻,當前調度決策φk產生的目標跟蹤代價為:
V(Sk)=tr(Jk(Sk,φk)-1)+V(Sk+1),
(25)
式中,V(Sk)為從當前狀態(tài)Sk開始產生的目標跟蹤代價,第1項為當前調度決策φk產生的瞬時跟蹤性能,第2項為當前調度決策對未來跟蹤性能的影響。
本文采用滾動策略迭代算法,在k時刻進行單步調度決策優(yōu)化,未來[k+1,N]時段采用基本策略H對值函數V(Sk+1)進行近似。文獻[18]指出,滾動策略迭代算法下調度性能具有策略改進特性,即滾動策略迭代算法性能優(yōu)于基本策略H。
(26)
k時刻,基于單步決策的傳感器遠期調度子問題可描述為:
s.t.φi(k)∈Ui,i=1,2,…,NS。
(27)
基于單步決策的傳感器遠期調度子問題決策空間為U=U1×U2×…×UNS,集中式優(yōu)化求解方法將求解過程描述為決策樹,每一節(jié)點數為可行調度決策,基于改進分支定界算法[17]對其優(yōu)化求解,其計算復雜度為O(|U1|×|U2|×…×|UNS|),在上述離散化決策空間描述下,其計算復雜度為O((L+1)NS)。隨著傳感器個數NS的增加,決策樹的分支呈指數增長。為了降低算法的計算復雜度,提高調度決策的實時性,本文提出了一種分布式求解算法。多傳感器遠期調度分布式優(yōu)化決策過程如圖2所示。
圖2 多傳感器遠期調度分布式優(yōu)化決策過程Fig.2 Distributed optimization of non-myopic sensor scheduling
Vi(S(k),φi(k))=tr(Jk(S(k),φi(k))-1)+
(28)
式中,目標函數包括3項:第1項為傳感器i調度決策產生的瞬時跟蹤代價,第2項為傳感器i調度決策產生的長期跟蹤代價,第3項為其他傳感器j調度決策對目標跟蹤產生的影響。
傳感器i最優(yōu)調度決策為:
(29)
每個傳感器在調度時刻獨立進行控制決策,采用改進分支定界樹算法對式(21)進行求解,其最優(yōu)決策在最小化目標長期跟蹤代價的準則獲得,整個分布式多傳感器遠期調度的計算復雜度為O(NS(L+1))。與集中式調度決策相比,分布式調度決策可以極大地降低計算復雜度,提高計算效率。
仿真場景和參數設置如下:探測區(qū)域內有一個運動目標,目標初始狀態(tài)[0,50,0,50]Τ,飛行時間為150 s,目標在15~25 s做左轉彎運動(轉彎速率為0.02 rad/s),40~50 s做右轉彎運動(轉彎速率為-0.02 rad/s),其余仿真時間目標做勻速直線運動。機載平臺的初始狀態(tài)參數如表1所示。
表1 傳感器初始狀態(tài)信息Tab.1 Sensor initial state information
將本文算法與啟發(fā)式調度[6]、短期調度[14]進行比較。不同算法下目標位置估計總誤差如圖3所示。
圖3 不同算法下目標位置估計總誤差Fig.3 Total error of target position estimation with different algorithms
由圖3可以看出,本文提出的基于單步決策的遠期調度算法性能最好,短期調度算法[14]次之,啟發(fā)式算法[6]性能最差。隨著預測步長增加,基于單步決策的遠期調度算法下目標位置估計誤差逐漸減小。
分別取傳感器個數為2,3,5,10(對應表中前2,3,5,10個傳感器),其他仿真參數不變,采用傳感器遠期調度算法(預測步長為4)進行仿真測試,不同傳感器個數下遠期調度目標位置估計平均誤差如圖4所示。
圖4 不同傳感器個數下目標位置估計平均誤差Fig.4 Average error of target position estimation with different number of sensors
由圖4可以看出,隨著傳感器個數的增加,目標跟蹤誤差減小。對多機載無源傳感器組網協(xié)同跟蹤,增加無人機的個數有望顯著提升目標跟蹤精度。
將分布式優(yōu)化決策與集中式優(yōu)化決策[15]進行對比仿真。仿真場景選取5個傳感器(如表1所示),其他仿真參數不變。遠期調度集中式決策和分布式決策求解算法下目標跟蹤性能和計算性能對比分別如圖5和圖6所示。
圖5 集中式和分布式算法性能對比Fig.5 Performance comparison of centralized and distributed algorithms
圖6 集中式和分布式求解算法計算性能對比Fig.6 Computational efficiency comparison of centralized and distributed algorithms
由圖5和圖6可以看出,分布式優(yōu)化求解算法下目標跟蹤精度與集中式優(yōu)化求解算法的跟蹤性能非常接近,但分布式優(yōu)化求解算法的計算效率顯著提高。隨著預測步長的增加,集中式優(yōu)化求解算法的計算復雜度呈指數增長,無法滿足實時性要求。而分布式優(yōu)化算法能夠在保證一定跟蹤性能的前提下,大大降低算法復雜度,能夠很好地滿足在線調度的實時性需求。隨著多傳感器個數的增加,分布式優(yōu)化求解的優(yōu)勢將更明顯。
針對多機載無源傳感器協(xié)同跟蹤問題,提出了一種基于長期跟蹤代價的多無人機無源傳感器調度算法。首先,在POMDP框架下建立了基于GCRLB指標的傳感器遠期調度模型。隨后,采用滾動時域方法將多階段問題分解為多個單步決策的調度子問題,考慮當前決策對未來長期跟蹤性能的影響。然后,設計了一種基于分布式自主優(yōu)化求解算法,通過對多個傳感器獨立自主決策,在保證目標估計精度的基礎上提高傳感器調度的靈活性和快速性。最后,理論分析和仿真測試驗證了算法的有效性。