陳 輝 魏鳳旗 韓崇昭
①(蘭州理工大學(xué)電氣工程與信息工程學(xué)院 蘭州 730050)
②(西安交通大學(xué)自動化科學(xué)與工程學(xué)院 西安 710049)
無人機(Unmanned Aerial Vehicle,UAV)是執(zhí)行現(xiàn)代偵察與火力打擊任務(wù)的主要角色之一,確保UAV飛行安全是提高任務(wù)成功率的關(guān)鍵,因此實時規(guī)劃UAV路徑[1–3]以降低敵方目標對UAV的威脅有著重大現(xiàn)實意義。偵察的目的是獲取各目標的情報數(shù)據(jù),實時控制UAV按目標威脅度最小的路徑飛行難免會對各目標的情報數(shù)據(jù)(例如目標的多特征信息:包括但不限于目標位置、速度、加速度、航向角、形狀輪廓等)的估計精度造成一定的影響,研究在不損失各目標多特征估計精度的條件下規(guī)劃威脅最小路徑的方法極為困難。
近幾年,UAV路徑規(guī)劃方法[4,5]層出不窮,主要分為:圖搜索方法[6–8]、線性規(guī)劃方法[9]、智能優(yōu)化方法[10–12]以及強化學(xué)習(xí)方法[13]等。圖搜索算法應(yīng)用較為廣泛,但由于實際偵察空間較大,節(jié)點數(shù)量多,會導(dǎo)致算法執(zhí)行效率低。線性規(guī)劃方法簡單高效,易于工程實現(xiàn),但在有限時間內(nèi)難以處理決策變量較多的情況。智能優(yōu)化方法通過模擬生物群體的智能行為進行決策,此類方法通用性強,便于并行處理,但其參數(shù)配置依賴于經(jīng)驗,且尋優(yōu)過程實時性較差。強化學(xué)習(xí)方法可產(chǎn)生較多樣本供監(jiān)督學(xué)習(xí),但亦需要精密調(diào)參。在對UAV進行路徑規(guī)劃之前,首先要準確估計目標的多特征信息[14–17],并據(jù)此對目標威脅度進行有效評估。自有限集統(tǒng)計(FInite Set STatistics,FISST)理論[18–20]問世以來,目標多特征跟蹤估計的方法不斷涌現(xiàn),用于多目標跟蹤的概率假設(shè)密度(Probability Hypothesis Density,PHD)濾波[21–23]、多伯努利(Multi-Bernoulli,MBer)濾波[24]以及標簽多伯努利(Labeled Multi-Bernoulli,LMB)濾波[25–27]等算法由于給出了嚴密而統(tǒng)一的多目標跟蹤的數(shù)學(xué)建模形式而得到廣泛應(yīng)用。另外,基于隨機有限集(Random Finite Sets,RFS)的多目標跟蹤算法便于與目標形狀信息估計算法融合,進而同時估計目標的多特征信息。用于目標形狀估計的方法主要有兩大類,一是Baum等人[28,29]提出的隨機超曲面(Random Hypersurface,RH)模型,它在雷達量測信息比較豐富時對目標不規(guī)則形狀直接建模,利用徑向函數(shù)刻畫任意星凸型目標的形狀;二是Koch和Feldmann等人[30,31]提出的隨機矩陣(Random Matrix,RM)模型,該模型將目標形狀建模為包含目標大小和方向信息的橢圓形,尤其適用于雷達辨識度較低時的稀疏量測集?;诂F(xiàn)代多源信息融合技術(shù),通過目標多特征信息可對目標威脅度進行深度評估,主要方法包括云模型理論[32]、D-S證據(jù)理論[33]、貝葉斯網(wǎng)絡(luò)[34]以及模糊推理[35–37]等,其中模糊推理方法因其能夠更加全面地刻畫現(xiàn)實中的不確定信息成為研究的焦點。根據(jù)目標威脅度的數(shù)值能夠動態(tài)求解最小威脅路徑,但是如何科學(xué)設(shè)計路徑規(guī)劃準則,以保證復(fù)雜偵察環(huán)境中對各目標多特征信息估計的精度,顯然值得深入研究。
鑒于此,本文將多擴展目標狀態(tài)建模為多伯努利RFS,將多目標的形狀建模為RM,通過高斯逆威沙特多伯努利(Gaussian Inverse Wishart Multi-Berboulli,GIW-MBer)濾波器進行多擴展目標跟蹤估計,然后利用三向決策規(guī)則對各目標按威脅度進行分類并用模糊理想解相似性排序技術(shù)(Technique for Order Preference by Similarity to an Ideal Solution,TOPSIS)估計各目標的威脅度。本文的主要貢獻為:對目標的多種威脅屬性進行綜合評估,并綜合多任務(wù)決策聯(lián)合優(yōu)化作為評價準則對UAV進行路徑規(guī)劃,在不損失多目標多特征跟蹤估計精度的同時,降低了敵方目標對UAV的威脅度。
傳統(tǒng)的分類決策方法本質(zhì)上是雙向決策,即目標事物要么被接受,要么被拒絕,缺乏邊界區(qū)域(需要進一步分析才能進行決策)。三向決策[36]不再是非此即彼的決策,由于增添了邊界區(qū)域的猶豫環(huán)節(jié),對實際目標事物的分類決策更加合理。
為了便于推導(dǎo)計算,引入直覺模糊集A的上近似集與下近似集以逼近A,分別表示為
其中,Ω表示論域,[y]表示關(guān)于目標威脅屬性的等價類。集合A的上近似集與下近似集將整個論域劃分為3個不相交的區(qū)域
其中,POS(A)表示正域,BND(A)表示邊界域,NEG(A)表示負域。
可通過條件概率Pr(A|[y])來決定分類結(jié)果:
(1) 若Pr(A|[y])=1,則[y]?POS(A);
(2) 若0<Pr(A|[y])<1,則[y]?BND(A);
(3) 若Pr(A|[y])=0,則[y]?NEG(A)。
其中
其中,|·|表示集合的勢。
上述分類過程中,由于分類條件過于苛刻(條件概率 Pr(A|[y])等于0或1),不便應(yīng)用于實際,因此引入分類風(fēng)險以放寬此限制。
在表1中,aΔ表示將目標事物分類到區(qū)域 Δ的行為,A(P)表示目標事物原本屬于A(正域),?A(N)表示目標事物原本屬于?A(負域),λ12表示將原本屬于區(qū)域2的目標事物劃分到區(qū)域1的風(fēng)險函數(shù)。
表1 分類風(fēng)險函數(shù)Tab.1 Classification risk function
通常情況下,表1給出的分類風(fēng)險函數(shù)滿足
不同分類結(jié)果的預(yù)期風(fēng)險為
由于 Pr(A|[y])+Pr(?A|[y])=1,再根據(jù)最小風(fēng)險決策可得到只基于條件概率Pr(A|[y])和風(fēng)險函數(shù)λ12的三向決策規(guī)則
其中,α與β為決策閾值,滿足α,β∈(0,1),由分類風(fēng)險函數(shù)按式(9),式(10)計算:
根據(jù)三向決策規(guī)則,只要計算出與各目標威脅度相關(guān)的條件概率和分類決策閾值,就可以實時對目標威脅度進行評估。首先需要確定與威脅度相關(guān)的目標屬性(例如目標的位置、速度、運動方向等),由所有參與威脅度評估的目標屬性構(gòu)建綜合評價信息矩陣,然后分別計算條件概率和分類決策的閾值,最后利用三向決策規(guī)則對目標按威脅進行分類,并根據(jù)條件概率的大小對各目標的威脅度進行排序,詳細過程如圖1所示。
圖1 目標威脅評估過程Fig.1 Target threat assessment process
(1) 構(gòu)建綜合信息評價矩陣
對于成本型指標[38],有
(2) 確定正理想解(Positive Ideal Solution,PIS)和負理想解(Negative Ideal Solution,NIS)
對于效益型指標,有
對于成本型指標,有
(3) 計算每個目標的相對接近度[36]
第i個目標Ti與PIS和NIS之間的距離分別為
每個目標的相對接近度表示為
條件概率
此概率的數(shù)值可定量描述目標威脅度。
(4) 構(gòu)造各評價屬性下的風(fēng)險函數(shù)矩陣
(5) 多屬性風(fēng)險函數(shù)聚合
(6) 計算每個目標的決策閾值
由于空間中目標數(shù)量以及量測信息與目標的對應(yīng)關(guān)系都是未知的,因此將各目標狀態(tài)建模為RFS
第i個目標的運動模型為
考慮到復(fù)雜偵察環(huán)境中來自目標的有效雷達量測信息是稀疏量測集,本文將目標的形狀輪廓建模為RM,即
雷達探測到的量測集亦建模為RFS
假設(shè)k-1時刻第i個目標的運動狀態(tài)服從高斯分布
于是,單個目標的共軛先驗服從高斯逆威沙特分布
第i個目標的形狀矩陣的轉(zhuǎn)移密度由威沙特密度表示為
自由度ε反映狀態(tài)演化過程的不確定性。
根據(jù)多目標貝葉斯濾波理論,多擴展目標跟蹤中的濾波過程包括預(yù)測和更新兩個主要步驟[39,40]
其中,單個GIW-MBer分量的預(yù)測和更新過程分別如表2和表3所示。
表2 GIW-MBer預(yù)測過程Tab.2 GIW-MBer prediction process
表3 GIW-MBer更新過程Tab.3 GIW-MBer update process
本節(jié)研究偵察環(huán)境中以降低目標威脅度為目的的UAV路徑規(guī)劃問題,基本原理如圖2所示。
圖2 路徑規(guī)劃的基本原理圖Fig.2 Basic schematic diagram of path planning
圖2中,左邊的回路是多目標多特征估計過程,由貝葉斯濾波理論下的最優(yōu)濾波算法運行;右邊是UAV路徑規(guī)劃過程,該過程嵌入于多目標多特征估計過程中,因此該路徑規(guī)劃方法可使UAV邊偵察目標情報邊改變運動軌跡以降低所受的威脅。
首先構(gòu)建可實現(xiàn)UAV路徑規(guī)劃的控制命令(或方案)集Ck,為了保證較高的計算效率,Ck構(gòu)建為離散數(shù)據(jù)集合的形式
其中,xs,k-1=[xs,k-1,ys,k-1]T為UAV在k-1時刻的位置;vs為UAV的運動速度,它在同一采樣周期內(nèi)是恒定的,不同的采樣周期內(nèi)UAV速度可以不同;Ts為采樣間隔,r=1,2,...,NR,l=1,2,...,Nθ,UAV在每個時刻沿Nθ個方向步進 1~NR個單位距離(注意:此處為假設(shè)步進,實際步進方向和距離由最終求解的結(jié)果確定),考慮到UAV需要快速準確地運動到最佳位置,因此取NR=2,Nθ=8。
已知k-1時刻的多擴展目標后驗概率密度為fk-1(·|·),根據(jù)GIW-MBer濾波器進行預(yù)測,得到k時刻的預(yù)測概率密度fk|k-1(·|·),于是可提取的多擴展目標預(yù)測狀態(tài)(注:Sfun 表示狀態(tài)提取操作)
為了不影響最終決策的準確性,在雷達檢測概率pD(ξk)=1以及零雜波的理想情況下,根據(jù)由量測映射函數(shù)為每個控制命令c構(gòu)造多擴展目標預(yù)測理想量測集(Prediction Ideal Measurement Set,PIMS)[41]
需要說明的是,真實環(huán)境中的雜波由GIWMBer的更新過程處理,上述理想的假設(shè)只適用于為決策提供后驗信息的偽更新過程。
利用Zk(c) 對fk|k-1(·|·)進行偽更新,進而得到c對應(yīng)的偽更新多擴展目標后驗密度fk,c(·|·),于是可提取得多擴展目標的偽后驗狀態(tài)
其中,wV+wD=1。
多目標多特征估計信息在其統(tǒng)計平均周圍的GOSPA距離[42,43]表示為
其中,wx+wX=1,
歸一化后的GOSPA距離表示為
其中
式(46)表示當(dāng)UAV處于第j個假設(shè)位置時相應(yīng)的多擴展目標狀態(tài)在其統(tǒng)計平均周圍的歸一化GOSPA距離。
綜上,本文所提UAV路徑規(guī)劃過程在一個采樣周期內(nèi)的全流程算法如表4所示。
表4 基于威脅規(guī)避的UAV路徑規(guī)劃算法Tab.4 UAV path planning algorithm for threat avoidance
本文算法通過MATLAB語言編程實現(xiàn),運行于配置由表5所示的Windows操作系統(tǒng)中。
表5 硬件配置Tab.5 Hardware configuration
為了驗證目標威脅評估過程的準確性,在空間中設(shè)有6個目標,每個目標選3個屬性參與威脅度評估,分別為目標與UAV之間的距離、目標運動速度以及運動方向(取值范圍:0~180°,其中朝向UAV運動時為 0°),各威脅屬性指標的權(quán)重相等。UAV位于坐標原點,各目標的狀態(tài)如表6所示。
表6 目標狀態(tài)Tab.6 Target status
為了更直觀地呈現(xiàn)各目標的狀態(tài),下面給出可視化圖示(圖3),圖中,每個箭頭代表一個目標,其端點表示目標的位置,其指向表示目標的運動方向,其長度表示目標的速度。
圖3 目標狀態(tài)圖示Fig.3 Target status diagram
由圖3結(jié)合實際經(jīng)驗分析可得,目標1的位置和運動方向與目標3相同,但其速度大于目標3,因此目標1的威脅度高于目標3;同理,目標1的威脅度大于目標2;目標1的威脅度等于目標4;由于目標5向背離UAV的方向運動,因此它不是威脅目標;目標6朝向UAV運動還是背離UAV方向運動尚不明確,它是否屬于威脅目標需要進一步判斷。
目標威脅度評估結(jié)果如圖4所示,圖中虛線代表決策閾值,其中紅色虛線為式(9),粉色虛線為式(10),由圖4可知目標威脅度符合上述討論,威脅度評估過程的準確性得以驗證。
圖4 目標威脅度評估Fig.4 Target threat assessment
為了驗證本文所提算法在偵察環(huán)境中降低目標威脅度的效果,仿真實驗在空間中設(shè)有6個目標,參與威脅度評估的目標屬性包括位置坐標、速度和運動方向,各威脅屬性指標的權(quán)重相等,采樣間隔Ts=1 s,每個采樣周期內(nèi)由目標產(chǎn)生的量測個數(shù)服從強度為λ=15的泊松分布,空間中雜波平均數(shù)為λFA=5,目標存活概率為pS=0.99,雷達檢測概率為pD=0.99。用于評價多目標多特征估計效果的GOSPA 距離的參數(shù)分別設(shè)置為p=1,cg=2,αg=2,cx=10,cX=10,wx=0.7,wX=0.3,目標形狀由RM建模為橢圓,其長半軸和短半軸的長度分別設(shè)置為a=10 m,b=3 m。實驗方案如下:方案1為UAV做勻速直線運動,其運動模型為式(26),方案2為UAV按本文所提的路徑規(guī)劃策略運動,方案3為基于粒子群算法的UAV路徑規(guī)劃策略,其中粒子數(shù)為20個,每個時刻做20次迭代更新,目標函數(shù)亦為式(40),通過對比上述3個方案對應(yīng)的目標威脅度、多擴展目標后驗GOSPA距離以驗證本文所提方法的優(yōu)越性。式(40)中的權(quán)重分別設(shè)為wV=0.8,wD=0.2。目標的運動模型與量測模型分別為式(26)和式(30),其中,
其中,?為克羅內(nèi)克積的運算符,新生目標數(shù)JΓ=6,第j個新生目標的權(quán)重為=0.1,其他相關(guān)參數(shù)的初始化如下
各運動體的初始參數(shù)如表7所示,目標真實運動軌跡如圖5所示。
圖5 目標實際軌跡與UAV原始軌跡Fig.5 Actual target trajectory and UAV original trajectory
表7 各運動體的初始狀態(tài)Tab.7 Initial state of each moving object
圖6繪制了穿越敵占區(qū)的UAV軌跡。由圖6和貪婪決策方法式(40)可知,UAV自動按照目標威脅度與多目標多特征估計的后驗GOSPA距離加權(quán)和最小化動態(tài)改變自身位置,在每個采樣時刻,在保證獲取優(yōu)質(zhì)量測信息的條件下,UAV所受的目標威脅度較小。從圖6還可解讀到,當(dāng)目標數(shù)量發(fā)生變化時,UAV軌跡也會發(fā)生相應(yīng)的變化趨勢,以應(yīng)對目標威脅度與多目標多特征估計的后驗GOSPA距離加權(quán)和的瞬變。
圖6 穿越敵占區(qū)的UAV軌跡Fig.6 UAV track crossing enemy occupied area
如果讓UAV完全避開威脅,則需將式(40)的權(quán)重設(shè)置為wV=1,wD=0,由于“后方”的目標威脅度最小,UAV會直接返航,而不會穿越敵占區(qū)以偵察多目標情報,如圖7所示。
圖7 完全自保的UAV軌跡Fig.7 Fully self insured UAV trajectory
圖8、圖9收集了100次獨立蒙特卡羅(Monte Carlo,MC)仿真實驗中UAV經(jīng)過的所有位置,由于受到環(huán)境等不確定因素的影響,每次MC實驗中UAV軌跡都有一定的差異。其中,圖8全面刻畫了敵占區(qū)目標威脅度較小且具備優(yōu)質(zhì)量測信息的軌跡點分布,圖9刻畫了UAV在逃離威脅過程中目標威脅度較小的軌跡點分布,兩圖反映了不同情況下UAV軌跡的大致分布和走向,有效體現(xiàn)出本文路徑規(guī)劃方法的可靠性。
圖8 MC實驗中穿越敵占區(qū)的UAV軌跡分布Fig.8 Trajectory distribution of UAV crossing enemy occupied area in MC experiment
圖9 MC實驗中完全自保的UAV軌跡分布Fig.9 Trajectory distribution of fully self protected UAV in MC experiment
圖10顯示了100次獨立MC實驗中UAV穿越敵占區(qū)時的目標威脅度評估統(tǒng)計均值,可以看出,UAV按本文所提的路徑規(guī)劃方法運動時,不僅所受的總威脅度較小,且在穿越敵占區(qū)時受到目標威脅的時刻較晚,縮短了UAV所受威脅的時長,其效果優(yōu)于方案3。
圖10 目標威脅度評估統(tǒng)計均值Fig.10 Statistical mean value of target threat assessment
圖11記錄了多目標多特征估計的綜合效果,由其局部放大圖可見,本文所提算法可使UAV偵察到接近于實際的多目標情報信息。
圖11 多擴展目標跟蹤效果圖Fig.11 Multi-extended target tracking rendering
多目標多特征估計效果可由各目標質(zhì)心位置誤差與橢圓半軸長度誤差來評判,圖12為100次獨立MC實驗中多目標多特征估計的目標質(zhì)心位置GOSPA距離的統(tǒng)計均值,圖13為各目標形狀(橢圓長短軸)估計GOSPA距離統(tǒng)計均值。由仿真結(jié)果可知,UAV路徑規(guī)劃后對各目標多特征的估計精度有所優(yōu)化,且本文方案優(yōu)于方案3。
圖12 目標質(zhì)心位置GOSPA距離統(tǒng)計Fig.12 GOSPA distance statistics of target centroid position
圖13 目標形狀(橢圓長短軸)估計GOSPA距離統(tǒng)計Fig.13 Target shape (major and minor axes of ellipse)estimation GOSPA distance statistics
圖14顯示了100次獨立MC實驗中目標數(shù)量估計的統(tǒng)計結(jié)果,可以看出路徑規(guī)劃后并不影響對目標數(shù)量的估計結(jié)果。
圖14 多目標勢估計Fig.14 Multi-objective cardinality estimation
實時性測試:算法的平均耗時為0.008544 s(100次運算的平均值)。
本文的主要工作和創(chuàng)新點是以目標威脅度與多目標后驗GOSPA距離加權(quán)和最小化作為評價準則對UAV進行路徑規(guī)劃,在不損失多目標多特征估計精度的條件下,有效降低了目標對UAV的威脅度。所提算法的意義在于提高了UAV在復(fù)雜偵察環(huán)境中的存活率,進而提高任務(wù)成功率,為后續(xù)的戰(zhàn)略決策提供更加豐富的目標情報信息。
在實際的偵察環(huán)境中,目標威脅屬性還包括目標的類型、滲透能力、干擾能力、攻擊能力以及防御能力等,這些屬性難以精確計算。在模糊多屬性目標威脅度評估過程中,可以融入軍事專家的經(jīng)驗信息(在構(gòu)建綜合評價信息矩陣時給模糊威脅屬性合理賦值),以刻畫模糊威脅屬性,從而提高目標威脅度評估的完備性。根據(jù)本文所提的UAV路徑規(guī)劃算法,可以提高實際偵察環(huán)境中UAV的存活率和任務(wù)成功率。