多擴展目標跟蹤優(yōu)化中基于威脅規(guī)避的無人機路徑規(guī)劃策略

2023-07-04 09:51:30魏鳳旗韓崇昭

雷達學(xué)報 2023年3期

陳輝魏鳳旗韓崇昭

①(蘭州理工大學(xué)電氣工程與信息工程學(xué)院蘭州 730050)

②(西安交通大學(xué)自動化科學(xué)與工程學(xué)院西安 710049)

1 引言

無人機(Unmanned Aerial Vehicle,UAV)是執(zhí)行現(xiàn)代偵察與火力打擊任務(wù)的主要角色之一，確保UAV飛行安全是提高任務(wù)成功率的關(guān)鍵，因此實時規(guī)劃UAV路徑[1–3]以降低敵方目標對UAV的威脅有著重大現(xiàn)實意義。偵察的目的是獲取各目標的情報數(shù)據(jù)，實時控制UAV按目標威脅度最小的路徑飛行難免會對各目標的情報數(shù)據(jù)(例如目標的多特征信息：包括但不限于目標位置、速度、加速度、航向角、形狀輪廓等)的估計精度造成一定的影響，研究在不損失各目標多特征估計精度的條件下規(guī)劃威脅最小路徑的方法極為困難。

近幾年，UAV路徑規(guī)劃方法[4,5]層出不窮，主要分為：圖搜索方法[6–8]、線性規(guī)劃方法[9]、智能優(yōu)化方法[10–12]以及強化學(xué)習(xí)方法[13]等。圖搜索算法應(yīng)用較為廣泛，但由于實際偵察空間較大，節(jié)點數(shù)量多，會導(dǎo)致算法執(zhí)行效率低。線性規(guī)劃方法簡單高效，易于工程實現(xiàn)，但在有限時間內(nèi)難以處理決策變量較多的情況。智能優(yōu)化方法通過模擬生物群體的智能行為進行決策，此類方法通用性強，便于并行處理，但其參數(shù)配置依賴于經(jīng)驗，且尋優(yōu)過程實時性較差。強化學(xué)習(xí)方法可產(chǎn)生較多樣本供監(jiān)督學(xué)習(xí)，但亦需要精密調(diào)參。在對UAV進行路徑規(guī)劃之前，首先要準確估計目標的多特征信息[14–17]，并據(jù)此對目標威脅度進行有效評估。自有限集統(tǒng)計(FInite Set STatistics,FISST)理論[18–20]問世以來，目標多特征跟蹤估計的方法不斷涌現(xiàn)，用于多目標跟蹤的概率假設(shè)密度(Probability Hypothesis Density,PHD)濾波[21–23]、多伯努利(Multi-Bernoulli,MBer)濾波[24]以及標簽多伯努利(Labeled Multi-Bernoulli,LMB)濾波[25–27]等算法由于給出了嚴密而統(tǒng)一的多目標跟蹤的數(shù)學(xué)建模形式而得到廣泛應(yīng)用。另外，基于隨機有限集(Random Finite Sets,RFS)的多目標跟蹤算法便于與目標形狀信息估計算法融合，進而同時估計目標的多特征信息。用于目標形狀估計的方法主要有兩大類，一是Baum等人[28,29]提出的隨機超曲面(Random Hypersurface,RH)模型，它在雷達量測信息比較豐富時對目標不規(guī)則形狀直接建模，利用徑向函數(shù)刻畫任意星凸型目標的形狀；二是Koch和Feldmann等人[30,31]提出的隨機矩陣(Random Matrix,RM)模型，該模型將目標形狀建模為包含目標大小和方向信息的橢圓形，尤其適用于雷達辨識度較低時的稀疏量測集?；诂F(xiàn)代多源信息融合技術(shù)，通過目標多特征信息可對目標威脅度進行深度評估，主要方法包括云模型理論[32]、D-S證據(jù)理論[33]、貝葉斯網(wǎng)絡(luò)[34]以及模糊推理[35–37]等，其中模糊推理方法因其能夠更加全面地刻畫現(xiàn)實中的不確定信息成為研究的焦點。根據(jù)目標威脅度的數(shù)值能夠動態(tài)求解最小威脅路徑，但是如何科學(xué)設(shè)計路徑規(guī)劃準則，以保證復(fù)雜偵察環(huán)境中對各目標多特征信息估計的精度，顯然值得深入研究。

鑒于此，本文將多擴展目標狀態(tài)建模為多伯努利RFS，將多目標的形狀建模為RM，通過高斯逆威沙特多伯努利(Gaussian Inverse Wishart Multi-Berboulli,GIW-MBer)濾波器進行多擴展目標跟蹤估計，然后利用三向決策規(guī)則對各目標按威脅度進行分類并用模糊理想解相似性排序技術(shù)(Technique for Order Preference by Similarity to an Ideal Solution,TOPSIS)估計各目標的威脅度。本文的主要貢獻為：對目標的多種威脅屬性進行綜合評估，并綜合多任務(wù)決策聯(lián)合優(yōu)化作為評價準則對UAV進行路徑規(guī)劃，在不損失多目標多特征跟蹤估計精度的同時，降低了敵方目標對UAV的威脅度。

2 研究背景

傳統(tǒng)的分類決策方法本質(zhì)上是雙向決策，即目標事物要么被接受，要么被拒絕，缺乏邊界區(qū)域(需要進一步分析才能進行決策)。三向決策[36]不再是非此即彼的決策，由于增添了邊界區(qū)域的猶豫環(huán)節(jié)，對實際目標事物的分類決策更加合理。

2.1 直覺模糊集及其近似集

為了便于推導(dǎo)計算，引入直覺模糊集A的上近似集與下近似集以逼近A，分別表示為

其中，Ω表示論域，[y]表示關(guān)于目標威脅屬性的等價類。集合A的上近似集與下近似集將整個論域劃分為3個不相交的區(qū)域

其中，POS(A)表示正域，BND(A)表示邊界域，NEG(A)表示負域。

2.2 直覺模糊多屬性的最小風(fēng)險分類決策

可通過條件概率Pr(A|[y])來決定分類結(jié)果：

(1) 若Pr(A|[y])=1，則[y]?POS(A)；

(2) 若0＜Pr(A|[y])＜1，則[y]?BND(A)；

(3) 若Pr(A|[y])=0，則[y]?NEG(A)。

其中

其中，|·|表示集合的勢。

上述分類過程中，由于分類條件過于苛刻(條件概率 Pr(A|[y])等于0或1)，不便應(yīng)用于實際，因此引入分類風(fēng)險以放寬此限制。

在表1中，aΔ表示將目標事物分類到區(qū)域 Δ的行為，A(P)表示目標事物原本屬于A(正域)，?A(N)表示目標事物原本屬于?A(負域)，λ12表示將原本屬于區(qū)域2的目標事物劃分到區(qū)域1的風(fēng)險函數(shù)。

表1 分類風(fēng)險函數(shù)Tab.1 Classification risk function

通常情況下，表1給出的分類風(fēng)險函數(shù)滿足

不同分類結(jié)果的預(yù)期風(fēng)險為

由于 Pr(A|[y])+Pr(?A|[y])=1，再根據(jù)最小風(fēng)險決策可得到只基于條件概率Pr(A|[y])和風(fēng)險函數(shù)λ12的三向決策規(guī)則

其中，α與β為決策閾值，滿足α,β∈(0,1)，由分類風(fēng)險函數(shù)按式(9)，式(10)計算：

2.3 基于TOPSIS的目標威脅度評估

根據(jù)三向決策規(guī)則，只要計算出與各目標威脅度相關(guān)的條件概率和分類決策閾值，就可以實時對目標威脅度進行評估。首先需要確定與威脅度相關(guān)的目標屬性(例如目標的位置、速度、運動方向等)，由所有參與威脅度評估的目標屬性構(gòu)建綜合評價信息矩陣，然后分別計算條件概率和分類決策的閾值，最后利用三向決策規(guī)則對目標按威脅進行分類，并根據(jù)條件概率的大小對各目標的威脅度進行排序，詳細過程如圖1所示。

圖1 目標威脅評估過程Fig.1 Target threat assessment process

(1) 構(gòu)建綜合信息評價矩陣

對于成本型指標[38]，有

(2) 確定正理想解(Positive Ideal Solution,PIS)和負理想解(Negative Ideal Solution,NIS)

對于效益型指標，有

對于成本型指標，有

(3) 計算每個目標的相對接近度[36]

第i個目標Ti與PIS和NIS之間的距離分別為

每個目標的相對接近度表示為

條件概率

此概率的數(shù)值可定量描述目標威脅度。

(4) 構(gòu)造各評價屬性下的風(fēng)險函數(shù)矩陣

(5) 多屬性風(fēng)險函數(shù)聚合

(6) 計算每個目標的決策閾值

3 多目標多特征跟蹤估計

3.1 多目標多特征信息建模

由于空間中目標數(shù)量以及量測信息與目標的對應(yīng)關(guān)系都是未知的，因此將各目標狀態(tài)建模為RFS

第i個目標的運動模型為

考慮到復(fù)雜偵察環(huán)境中來自目標的有效雷達量測信息是稀疏量測集，本文將目標的形狀輪廓建模為RM，即

雷達探測到的量測集亦建模為RFS

3.2 多擴展目標跟蹤濾波

假設(shè)k-1時刻第i個目標的運動狀態(tài)服從高斯分布

于是，單個目標的共軛先驗服從高斯逆威沙特分布

第i個目標的形狀矩陣的轉(zhuǎn)移密度由威沙特密度表示為

自由度ε反映狀態(tài)演化過程的不確定性。

根據(jù)多目標貝葉斯濾波理論，多擴展目標跟蹤中的濾波過程包括預(yù)測和更新兩個主要步驟[39,40]

其中，單個GIW-MBer分量的預(yù)測和更新過程分別如表2和表3所示。

表2 GIW-MBer預(yù)測過程Tab.2 GIW-MBer prediction process

表3 GIW-MBer更新過程Tab.3 GIW-MBer update process

4 路徑規(guī)劃方法

本節(jié)研究偵察環(huán)境中以降低目標威脅度為目的的UAV路徑規(guī)劃問題，基本原理如圖2所示。

圖2 路徑規(guī)劃的基本原理圖Fig.2 Basic schematic diagram of path planning

圖2中，左邊的回路是多目標多特征估計過程，由貝葉斯濾波理論下的最優(yōu)濾波算法運行；右邊是UAV路徑規(guī)劃過程，該過程嵌入于多目標多特征估計過程中，因此該路徑規(guī)劃方法可使UAV邊偵察目標情報邊改變運動軌跡以降低所受的威脅。

首先構(gòu)建可實現(xiàn)UAV路徑規(guī)劃的控制命令(或方案)集Ck，為了保證較高的計算效率，Ck構(gòu)建為離散數(shù)據(jù)集合的形式

其中，xs,k-1=[xs,k-1,ys,k-1]T為UAV在k-1時刻的位置；vs為UAV的運動速度，它在同一采樣周期內(nèi)是恒定的，不同的采樣周期內(nèi)UAV速度可以不同；Ts為采樣間隔，r=1,2,...,NR,l=1,2,...,Nθ，UAV在每個時刻沿Nθ個方向步進 1～NR個單位距離(注意：此處為假設(shè)步進，實際步進方向和距離由最終求解的結(jié)果確定)，考慮到UAV需要快速準確地運動到最佳位置，因此取NR=2,Nθ=8。

已知k-1時刻的多擴展目標后驗概率密度為fk-1(·|·)，根據(jù)GIW-MBer濾波器進行預(yù)測，得到k時刻的預(yù)測概率密度fk|k-1(·|·)，于是可提取的多擴展目標預(yù)測狀態(tài)(注：Sfun 表示狀態(tài)提取操作)

為了不影響最終決策的準確性，在雷達檢測概率pD(ξk)=1以及零雜波的理想情況下，根據(jù)由量測映射函數(shù)為每個控制命令c構(gòu)造多擴展目標預(yù)測理想量測集(Prediction Ideal Measurement Set,PIMS)[41]

需要說明的是，真實環(huán)境中的雜波由GIWMBer的更新過程處理，上述理想的假設(shè)只適用于為決策提供后驗信息的偽更新過程。

利用Zk(c) 對fk|k-1(·|·)進行偽更新，進而得到c對應(yīng)的偽更新多擴展目標后驗密度fk,c(·|·)，于是可提取得多擴展目標的偽后驗狀態(tài)

其中，wV+wD=1。

多目標多特征估計信息在其統(tǒng)計平均周圍的GOSPA距離[42,43]表示為

其中，wx+wX=1，

歸一化后的GOSPA距離表示為

其中

式(46)表示當(dāng)UAV處于第j個假設(shè)位置時相應(yīng)的多擴展目標狀態(tài)在其統(tǒng)計平均周圍的歸一化GOSPA距離。

綜上，本文所提UAV路徑規(guī)劃過程在一個采樣周期內(nèi)的全流程算法如表4所示。

表4 基于威脅規(guī)避的UAV路徑規(guī)劃算法Tab.4 UAV path planning algorithm for threat avoidance

5 實驗論證

本文算法通過MATLAB語言編程實現(xiàn)，運行于配置由表5所示的Windows操作系統(tǒng)中。

表5 硬件配置Tab.5 Hardware configuration

5.1 目標威脅度評估

為了驗證目標威脅評估過程的準確性，在空間中設(shè)有6個目標，每個目標選3個屬性參與威脅度評估，分別為目標與UAV之間的距離、目標運動速度以及運動方向(取值范圍：0～180°，其中朝向UAV運動時為 0°)，各威脅屬性指標的權(quán)重相等。UAV位于坐標原點，各目標的狀態(tài)如表6所示。

表6 目標狀態(tài)Tab.6 Target status

為了更直觀地呈現(xiàn)各目標的狀態(tài)，下面給出可視化圖示(圖3)，圖中，每個箭頭代表一個目標，其端點表示目標的位置，其指向表示目標的運動方向，其長度表示目標的速度。

圖3 目標狀態(tài)圖示Fig.3 Target status diagram

由圖3結(jié)合實際經(jīng)驗分析可得，目標1的位置和運動方向與目標3相同，但其速度大于目標3，因此目標1的威脅度高于目標3；同理，目標1的威脅度大于目標2；目標1的威脅度等于目標4；由于目標5向背離UAV的方向運動，因此它不是威脅目標；目標6朝向UAV運動還是背離UAV方向運動尚不明確，它是否屬于威脅目標需要進一步判斷。

目標威脅度評估結(jié)果如圖4所示，圖中虛線代表決策閾值，其中紅色虛線為式(9)，粉色虛線為式(10)，由圖4可知目標威脅度符合上述討論，威脅度評估過程的準確性得以驗證。

圖4 目標威脅度評估Fig.4 Target threat assessment

5.2 UAV路徑規(guī)劃

為了驗證本文所提算法在偵察環(huán)境中降低目標威脅度的效果，仿真實驗在空間中設(shè)有6個目標，參與威脅度評估的目標屬性包括位置坐標、速度和運動方向，各威脅屬性指標的權(quán)重相等，采樣間隔Ts=1 s，每個采樣周期內(nèi)由目標產(chǎn)生的量測個數(shù)服從強度為λ=15的泊松分布，空間中雜波平均數(shù)為λFA=5，目標存活概率為pS=0.99，雷達檢測概率為pD=0.99。用于評價多目標多特征估計效果的GOSPA 距離的參數(shù)分別設(shè)置為p=1,cg=2,αg=2,cx=10,cX=10,wx=0.7,wX=0.3，目標形狀由RM建模為橢圓，其長半軸和短半軸的長度分別設(shè)置為a=10 m,b=3 m。實驗方案如下：方案1為UAV做勻速直線運動，其運動模型為式(26)，方案2為UAV按本文所提的路徑規(guī)劃策略運動，方案3為基于粒子群算法的UAV路徑規(guī)劃策略，其中粒子數(shù)為20個，每個時刻做20次迭代更新，目標函數(shù)亦為式(40)，通過對比上述3個方案對應(yīng)的目標威脅度、多擴展目標后驗GOSPA距離以驗證本文所提方法的優(yōu)越性。式(40)中的權(quán)重分別設(shè)為wV=0.8,wD=0.2。目標的運動模型與量測模型分別為式(26)和式(30)，其中，

其中，?為克羅內(nèi)克積的運算符，新生目標數(shù)JΓ=6，第j個新生目標的權(quán)重為=0.1，其他相關(guān)參數(shù)的初始化如下

各運動體的初始參數(shù)如表7所示，目標真實運動軌跡如圖5所示。

圖5 目標實際軌跡與UAV原始軌跡Fig.5 Actual target trajectory and UAV original trajectory

表7 各運動體的初始狀態(tài)Tab.7 Initial state of each moving object

圖6繪制了穿越敵占區(qū)的UAV軌跡。由圖6和貪婪決策方法式(40)可知，UAV自動按照目標威脅度與多目標多特征估計的后驗GOSPA距離加權(quán)和最小化動態(tài)改變自身位置，在每個采樣時刻，在保證獲取優(yōu)質(zhì)量測信息的條件下，UAV所受的目標威脅度較小。從圖6還可解讀到，當(dāng)目標數(shù)量發(fā)生變化時，UAV軌跡也會發(fā)生相應(yīng)的變化趨勢，以應(yīng)對目標威脅度與多目標多特征估計的后驗GOSPA距離加權(quán)和的瞬變。

圖6 穿越敵占區(qū)的UAV軌跡Fig.6 UAV track crossing enemy occupied area

如果讓UAV完全避開威脅，則需將式(40)的權(quán)重設(shè)置為wV=1,wD=0，由于“后方”的目標威脅度最小，UAV會直接返航，而不會穿越敵占區(qū)以偵察多目標情報，如圖7所示。

圖7 完全自保的UAV軌跡Fig.7 Fully self insured UAV trajectory

圖8、圖9收集了100次獨立蒙特卡羅(Monte Carlo,MC)仿真實驗中UAV經(jīng)過的所有位置，由于受到環(huán)境等不確定因素的影響，每次MC實驗中UAV軌跡都有一定的差異。其中，圖8全面刻畫了敵占區(qū)目標威脅度較小且具備優(yōu)質(zhì)量測信息的軌跡點分布，圖9刻畫了UAV在逃離威脅過程中目標威脅度較小的軌跡點分布，兩圖反映了不同情況下UAV軌跡的大致分布和走向，有效體現(xiàn)出本文路徑規(guī)劃方法的可靠性。

圖8 MC實驗中穿越敵占區(qū)的UAV軌跡分布Fig.8 Trajectory distribution of UAV crossing enemy occupied area in MC experiment

圖9 MC實驗中完全自保的UAV軌跡分布Fig.9 Trajectory distribution of fully self protected UAV in MC experiment

圖10顯示了100次獨立MC實驗中UAV穿越敵占區(qū)時的目標威脅度評估統(tǒng)計均值，可以看出，UAV按本文所提的路徑規(guī)劃方法運動時，不僅所受的總威脅度較小，且在穿越敵占區(qū)時受到目標威脅的時刻較晚，縮短了UAV所受威脅的時長，其效果優(yōu)于方案3。

圖10 目標威脅度評估統(tǒng)計均值Fig.10 Statistical mean value of target threat assessment

圖11記錄了多目標多特征估計的綜合效果，由其局部放大圖可見，本文所提算法可使UAV偵察到接近于實際的多目標情報信息。

圖11 多擴展目標跟蹤效果圖Fig.11 Multi-extended target tracking rendering

多目標多特征估計效果可由各目標質(zhì)心位置誤差與橢圓半軸長度誤差來評判，圖12為100次獨立MC實驗中多目標多特征估計的目標質(zhì)心位置GOSPA距離的統(tǒng)計均值，圖13為各目標形狀(橢圓長短軸)估計GOSPA距離統(tǒng)計均值。由仿真結(jié)果可知，UAV路徑規(guī)劃后對各目標多特征的估計精度有所優(yōu)化，且本文方案優(yōu)于方案3。

圖12 目標質(zhì)心位置GOSPA距離統(tǒng)計Fig.12 GOSPA distance statistics of target centroid position

圖13 目標形狀(橢圓長短軸)估計GOSPA距離統(tǒng)計Fig.13 Target shape (major and minor axes of ellipse)estimation GOSPA distance statistics

圖14顯示了100次獨立MC實驗中目標數(shù)量估計的統(tǒng)計結(jié)果，可以看出路徑規(guī)劃后并不影響對目標數(shù)量的估計結(jié)果。

圖14 多目標勢估計Fig.14 Multi-objective cardinality estimation

實時性測試：算法的平均耗時為0.008544 s(100次運算的平均值)。

6 結(jié)語

本文的主要工作和創(chuàng)新點是以目標威脅度與多目標后驗GOSPA距離加權(quán)和最小化作為評價準則對UAV進行路徑規(guī)劃，在不損失多目標多特征估計精度的條件下，有效降低了目標對UAV的威脅度。所提算法的意義在于提高了UAV在復(fù)雜偵察環(huán)境中的存活率，進而提高任務(wù)成功率，為后續(xù)的戰(zhàn)略決策提供更加豐富的目標情報信息。

在實際的偵察環(huán)境中，目標威脅屬性還包括目標的類型、滲透能力、干擾能力、攻擊能力以及防御能力等，這些屬性難以精確計算。在模糊多屬性目標威脅度評估過程中，可以融入軍事專家的經(jīng)驗信息(在構(gòu)建綜合評價信息矩陣時給模糊威脅屬性合理賦值)，以刻畫模糊威脅屬性，從而提高目標威脅度評估的完備性。根據(jù)本文所提的UAV路徑規(guī)劃算法，可以提高實際偵察環(huán)境中UAV的存活率和任務(wù)成功率。