張輝明, 魯 藝, 朱 杰
(空軍工程大學航空航天工程學院,西安 710038)
無人機在執(zhí)行低空突防任務(wù)前必須為其規(guī)劃出安全可飛的飛行航跡以提高其作戰(zhàn)效率和生存概率。目前無人機航跡規(guī)劃研究主要集中在威脅規(guī)避式的突防航跡規(guī)劃[1-6],旨在為無人機尋找一條最優(yōu)或者較優(yōu)的航跡。而在實際突防過程中,各個威脅單元之間時刻都在進行著信息交流和資源共享,協(xié)同完成整個覆蓋范圍內(nèi)的任務(wù),稱之為威脅聯(lián)網(wǎng)[7]。文獻[7]較早提出了威脅聯(lián)網(wǎng)的概念,建立了威脅相互支援信息表,但威脅相互支援表主要是根據(jù)各方面專家的意見和決策者的經(jīng)驗給出,主觀性較強。文獻[8]利用威脅相互
支援表進行了航跡規(guī)劃,但其本質(zhì)上仍然是威脅聯(lián)網(wǎng)條件下的航跡重規(guī)劃問題。文獻[9]在威脅聯(lián)網(wǎng)模型中引入目標指示概率,但其默認當前威脅向所有聯(lián)網(wǎng)威脅傳遞信息,且目標指示概率為威脅之間距離的函數(shù),不符合戰(zhàn)場實際。
為使無人機在威脅聯(lián)網(wǎng)的環(huán)境中順利完成突防任務(wù),不能只依賴于地面站的離線規(guī)劃航跡,必須具備一定的自主路徑?jīng)Q策能力。動態(tài)貝葉斯網(wǎng)絡(luò)在時序過程中對不確定性問題建模具有很大優(yōu)勢,在此基礎(chǔ)上進行的路徑?jīng)Q策更具有合理性,可以保持決策結(jié)果的魯棒性[10-12]。路徑?jīng)Q策問題實際上是一個定性決策問題,因此離散動態(tài)貝葉斯網(wǎng)絡(luò)適合解決此類問題。本文通過變結(jié)構(gòu)離散動態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建無人機突防路徑自主決策模型,采用此模型完成了無人機在威脅聯(lián)網(wǎng)環(huán)境下的一系列突防路徑自主決策。
本文以SVDDBN為基礎(chǔ),設(shè)計無人機在威脅聯(lián)網(wǎng)環(huán)境下的突防路徑自主決策模型,以適應(yīng)動態(tài)變化的環(huán)境。
如果組成一個離散動態(tài)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)或參數(shù)在不同時間片下發(fā)生變化,則這類離散動態(tài)貝葉斯網(wǎng)絡(luò)稱為變結(jié)構(gòu)離散動態(tài)貝葉斯網(wǎng)絡(luò)[13],如圖1所示。
圖1 SVDDBN示意圖Fig.1 The sketch map of SVDDBN
實際應(yīng)用中,隨著時間片的推移,模型變化主要體現(xiàn)在決策變量的個數(shù)和觀測變量的個數(shù)上。可以根據(jù)實際獲得的觀測變量個數(shù)和狀態(tài),獲得決策變量的個數(shù)和狀態(tài),并根據(jù)預先建立的參數(shù)庫,獲得SVDDBN決策模型和可變的參數(shù)。如果待決策的變量發(fā)生變化,則可能是新的決策推理過程的開始。如果決策者的偏好發(fā)生變化,而環(huán)境并無變化,則必將引起條件概率表的變化。同樣可以根據(jù)偏好的變化從預先建立的參數(shù)庫獲得可變的參數(shù)。
對于一個共有T個時間片的SVDDBN,每一個時間片對應(yīng)的SVDDBN的結(jié)構(gòu)為BNTi(i=1,…,T),對應(yīng)的條件概率表為intraCPTi(i=1,…,T);具有ni個決策節(jié)點和mi個觀測節(jié)點,分別記為Xij(i=1,…,T;j=1,…,ni)和Yij(i=1,…,T;j=1,…,mi),下標i為變量所在時間片,下標j為變量在決策變量集合或觀測變量集合中的序號。前后兩個時間片間的條件概率表為interCPTi(i=1,…,T-1),對這個SVDDBN進行推理,本質(zhì)上就是計算所有的觀測變量處于某一個觀測狀態(tài)下決策節(jié)點的聯(lián)合分布,即計算P(X11,…,X1n1,…,XT1,…,XTnT|Y11,…,Y1m1,…,YT1,…,YTmT)。其中,XTi和YTj分別表示時間片T中的第i個決策變量和第j個觀測變量。
貝葉斯網(wǎng)絡(luò)的基礎(chǔ)是條件概率方程和條件獨立假設(shè)。條件概率方程為
(1)
條件獨立假設(shè)為
(2)
式中:X={X1,…,Xn}表示貝葉斯網(wǎng)絡(luò)中的所有變量;P(X)表示X的聯(lián)合概率分布;Pa(Xi)表示節(jié)點Xi的父節(jié)點;P(Xi|Pa(Xi))表示條件概率。
SVDDBN仍然是一個表示變量之間依賴關(guān)系的有向無環(huán)圖,同樣遵循靜態(tài)貝葉斯網(wǎng)絡(luò)的條件獨立假設(shè)和D-分離特性。
由貝葉斯網(wǎng)絡(luò)的條件獨立性可知,所有變量的聯(lián)合概率分布等于所有條件概率的乘積。因此有
P(X11,…,X1n1,…,XT1,…,XTnT,Y11,…,Y1m1,…,YT1,…,
(3)
式中:i=1,…,T;j=1,…,mi;k=1,…,T;l=1,…,nk。因此有
(4)
式中:i,j,k,l都是整數(shù);X11,…,X1n1,…,XT1,…,XTnT代表決策變量的某一個組合狀態(tài),其組合狀態(tài)的數(shù)目等于所有決策變量狀態(tài)數(shù)的乘積;Y11,…,Y1m1,…,YT1,…,YTmT是觀測變量的組合狀態(tài),分子是該觀測變量和決策變量處于某一組合狀態(tài)的聯(lián)合分布,分母是該觀測變量和決策變量所有組合狀態(tài)的聯(lián)合分布的加和。
無人機在威脅聯(lián)網(wǎng)的環(huán)境下,需要完成聯(lián)網(wǎng)后的威脅狀態(tài)評估和無人機的突防路徑自主決策。圖2是無人機的突防可參考路徑,具體的威脅評估和突防路徑?jīng)Q策實現(xiàn)過程如下。
1) 無人機需從起點S到目標點T完成突防任務(wù),在執(zhí)行突防任務(wù)前,需對該戰(zhàn)場區(qū)域進行預先偵察,獲得該區(qū)域各類威脅目標的位置和范圍等。為描述問題方便,本文僅考慮預警雷達和防空導彈,且探測威脅可以穿越,火力威脅不可穿越。經(jīng)偵察,該區(qū)域存在的敵方威脅包括探測威脅R,火力威脅M1和M2。
圖2 無人機突防可參考路徑Fig.2 Referable paths for UAV’s penetration
2) 敵方預警雷達的探測范圍往往非常大。假設(shè)由于地形和禁飛區(qū)的影響,很難找到敵方的探測盲區(qū)進行突防,因此無人機必須穿越探測威脅R,探測威脅R將以一定的概率發(fā)現(xiàn)無人機并對其進行跟蹤,當無人機飛離探測威脅時,探測威脅R會將無人機的速度和方向信息傳遞給后方的火力威脅M1和M2,使其由正常狀態(tài)轉(zhuǎn)為戰(zhàn)備值班狀態(tài),以增大對無人機的攔截概率。
3) 敵方指揮機構(gòu)會根據(jù)探測威脅提供的目標信息,通過調(diào)整防空導彈的目標航路,對無人機進行攔截。因此,無人機在穿越探測威脅時,不同的機動方式將會導致后方的火力威脅不同的響應(yīng)。
4) 當無人機在航跡點A飛向航跡點B1時,火力威脅M1的目標航路捷徑較小,而火力威脅M2的目標航路捷徑較大,因此火力威脅M1聯(lián)網(wǎng),其威脅擴大。同理,當無人機在航跡點A飛向航跡點B3時,火力威脅M2聯(lián)網(wǎng),其威脅擴大。當無人機由航跡點A飛向航跡點B2時,火力威脅M1和M2的目標航路捷徑均較小,因此火力威脅M1,M2均聯(lián)網(wǎng)。
用變結(jié)構(gòu)離散動態(tài)貝葉斯網(wǎng)絡(luò)對突防路徑問題進行決策,需要多級動態(tài)貝葉斯網(wǎng)絡(luò)[14-15]。
在圖2所示的突防路徑?jīng)Q策問題中,第一級有3個選擇,第二級有9個選擇。第一級決策選擇A-B1,A-B2,A-B3。第二級決策選擇B1-C1-T,B1-B2-T,B1-B2-C2-T,B2-C1-T,B2-T,B2-C2-T,B3-B2-C1-T,B3-B2-T,B3-C2-T。為了方便,將上述各個航跡段分別定義為p1-1,p1-2,p1-3和p2-1,p2-2,p2-3,p2-4,p2-5,p2-6,p2-7,p2-8,p2-9。pi-j中的i表示第i級決策考慮的航跡,j表示該級的第j個航跡段。
從廣義上講,決策節(jié)點為父節(jié)點,觀測節(jié)點為子節(jié)點,而且必然在父節(jié)點的狀態(tài)中,有一個狀態(tài)與子節(jié)點直接相關(guān)。在對無人機的飛行航跡pi-j進行決策時,需要對航跡長度Lpi-j和威脅等級Wpi-j進行綜合考慮,以選擇最佳的突防路徑。
假定有n條決策路徑,每條路徑都要考慮其路徑長度和威脅等級2個因素,因此決策節(jié)點有n個,觀測節(jié)點有2n個,分別反映n條路徑的長度和威脅。在上述的突防路徑?jīng)Q策問題中,第一級時間片中共有3條決策路徑,則觀測節(jié)點有6個,第二級時間片中共有9條決策路徑,則觀測節(jié)點有18個。
為了定量反映路徑的長度和威脅等級,本文采用序數(shù)等級法,即根據(jù)這樣一個原則,第一級時間片中有3條決策路徑,將路徑長度由近到遠分別賦值1,2,3,則觀測節(jié)點Lp1-j的觀測值lp1-j有3個狀態(tài),即lp1-j∈{1,2,3},將威脅等級由小到大也分別賦值1,2,3,則觀測節(jié)點Wp1-j的觀測值wp1-j有3個狀態(tài),即wp1-j∈{1,2,3},該威脅等級由路徑位于探測威脅中的長度大小而定。第二級時間片中共有9條決策路徑,將路徑長度由近到遠分別賦值1~9,則觀測節(jié)點Lp2-j的觀測值lp2-j有9個狀態(tài),即lp2-j∈{1,2,…,9}。該時間片內(nèi)決策路徑的威脅等級可以分為4個等級。若路徑周圍僅有一個未聯(lián)網(wǎng)的火力威脅,威脅等級最小,賦值為1;若路徑周圍僅有一個聯(lián)網(wǎng)的火力威脅,威脅等級中等,賦值為2;若路徑周圍有一個未聯(lián)網(wǎng)的威脅和一個聯(lián)網(wǎng)后的威脅,威脅等級較高,賦值為3;若路徑周圍有兩個聯(lián)網(wǎng)后的火力威脅,威脅等級最高,賦值為4,則觀測節(jié)點Wp2-j的觀測值wp2-j有4個狀態(tài),即wp2-j∈{1,2,3,4}。于是可以建立如圖3所示的基于SVDDBN的突防路徑?jīng)Q策模型。
圖3 基于SVDDBN的路徑?jīng)Q策模型
已知決策節(jié)點的某一個狀態(tài),可以發(fā)現(xiàn)其相關(guān)節(jié)點總有一個最優(yōu)狀態(tài),也總有一個最差狀態(tài)。如果將該相關(guān)節(jié)點的狀態(tài)按一定順序排列,則最優(yōu)狀態(tài)和最差狀態(tài)必然分布在兩端。例如選擇路徑pi-j,路徑pi-j的長度最短是其最優(yōu)的,而路徑pi-j的長度最長是其最差的。
以第二級路徑?jīng)Q策節(jié)點為例,其有9個狀態(tài)(p2-1,p2-2,…,p2-9),觀測節(jié)點Lp2-j的觀測值lp2-j有9個狀態(tài),觀測節(jié)點Wp2-j的觀測值wp2-j有4個狀態(tài),條件概率表就是確定P(Lp2-j=lp2-j|p2-j)和P(Wp2-j=wp2-j|p2-j),其中,j=1,2,…,9,lp2-j∈{1,2,…,9},wp2-j∈{1,2,3,4}。
首先確定節(jié)點Lp2-j在j=1時的條件概率表,即P(Lp2-1|p2-1),此時決策節(jié)點的狀態(tài)p2-1與觀測節(jié)點Lp2-1相關(guān),而且Lp2-1的狀態(tài)是從小到大排列。因此必然應(yīng)該是P(Lp2-1=1|p2-1)>P(Lp2-1=2|p2-1)>…>P(Lp2-1=9|p2-1),此時可以構(gòu)成條件概率表,即
(5)
式中:lp2-1∈{1,2,…,9};α∈{1,2,…,n},α的取值可按照該決策節(jié)點的重要性,與決策者的偏好有關(guān)。
然后確定節(jié)點Wp2-j在j=1時的條件概率表,即P(Wp2-1|p2-1),此時決策節(jié)點的狀態(tài)p2-1與觀測節(jié)點Wp2-1相關(guān),而且Wp2-1狀態(tài)是從小到大排列。因此必然應(yīng)該是P(Wp2-1=1|p2-1)>P(Wp2-1=2|p2-1)>…>P(Wp2-1=4|p2-1),此時可以構(gòu)成條件概率表,即
(6)
式中:wp2-1∈{1,2,3,4};β的取值方式與式(5)中的α相同。
而對于決策節(jié)點的狀態(tài)p2-1,Lp2-j和Wp2-j(j=2,…,9)都是與其不相關(guān)的節(jié)點,但是也存在一定的偏好,因為如果選擇航跡p2-1,而此時航跡p2-2長度最近,威脅等級又最低的概率都應(yīng)該是小的,否則就不可能選擇航跡p2-1,這正好與相關(guān)節(jié)點是相反的概率分布。因此有P(Lp2-2=1|p2-1)
(7)
式中:j=2,…,9;lp2-j∈{1,2,…,9};wp2-j∈{1,2,3,4}。
其他決策節(jié)點和觀測節(jié)點都如此處理,就可以自動生成符合要求的條件概率表。
某無人機執(zhí)行一項低空突防任務(wù),起始點為S,目標點為T。經(jīng)預先偵察獲知作戰(zhàn)區(qū)域內(nèi)威脅分布如表1所示。
表1 威脅分布表
假設(shè)由于地形和禁飛區(qū)的影響,無人機必須穿越探測威脅R,在執(zhí)行任務(wù)前為無人機規(guī)劃出的可參考航跡點如圖4所示。
圖4 可參考航跡示意圖
圖4中的各個航跡點的坐標如表2所示。通過計算可以得到航跡pi-j的實際長度L、觀測節(jié)點Lpi-j,Wpi-j的值,結(jié)果如表3所示。
根據(jù)3節(jié)的自適應(yīng)參數(shù)產(chǎn)生算法,可以得出該突防路徑?jīng)Q策模型的條件概率表。式(5)中的α取1,式(6)中的β取2,反映了決策者更偏好于威脅較小的路徑。前后兩個時間片之間的條件概率則是反映前一個時刻的決策對下一個時刻的決策的影響,如表4所示。
表2 航跡點坐標
表3 航跡相關(guān)參數(shù)值
表4 時間片間條件概率表
無人機在穿越探測威脅時,在A點被探測威脅發(fā)現(xiàn),由于威脅聯(lián)網(wǎng)的影響,無人機需做一定的機動決策,以快速通過該區(qū)域,決策結(jié)果如圖5a所示。無人機穿出探測威脅后,需要對后方的火力威脅進行規(guī)避,突防路徑?jīng)Q策結(jié)果如圖5b所示。
圖5 突防路徑?jīng)Q策結(jié)果Fig.5 The result of decision-making for penetration path
從以上結(jié)果可以看出,無人機在被探測威脅發(fā)現(xiàn)后,會做一定的機動決策,盡快穿出探測威脅,因此選擇路徑p1-1,即圖4中的A-B1。在威脅聯(lián)網(wǎng)的情況下,無人機選擇路徑p1-1后,由于火力威脅M2的目標航路捷徑較火力威脅M1的目標航路捷徑大得多,所以火力威脅M1聯(lián)網(wǎng),而火力威脅M2未聯(lián)網(wǎng),因此選擇路徑p2-3進行突防,即圖4中的B1-B2-C2-T,以避開對無人機殺傷概率較大的火力威脅M1,而從火力威脅M2的一側(cè)進行突防,以提高無人機的生存概率。
威脅聯(lián)網(wǎng)環(huán)境下的無人機突防航跡規(guī)劃是近年來的研究熱點與難點。無人機穿越探測威脅的路徑不同會導致后方的火力威脅的響應(yīng)不同,基于SVDDBN的決策模型與傳統(tǒng)的DDBN決策模型相比,克服了限定在各個時間片的靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)完全相同的假設(shè)條件下無法對不確定問題進行建模的缺點,可以較好地適應(yīng)節(jié)點狀態(tài)數(shù)、觀測變量個數(shù)等的突然變化,綜合戰(zhàn)場所有可觀測信息加以推理,從而得到符合當前態(tài)
勢的路徑?jīng)Q策結(jié)果。
[1]SAMAR R,REHAMAN A.Autonomous terrain-following for unmanned air vehicles[J].Mechatronics,2011,21(5):844-860.
[2]李璠,郝應(yīng)光.基于改進混沌遺傳算法的無人機航跡規(guī)劃[J].電光與控制,2012,19(8):15-19.
[3]吳天愛,吳云玉,別曉峰.采用病毒粒子群優(yōu)化算法的飛行器航跡規(guī)劃[J].電光與控制,2014,21(8):102-105,109.
[4]LUGO-CARDENAS,FLORES G,SALAZAR S,et al.Dubins path generation for a fixed wing UAV[C]//International Conference on Unmanned Aircraft Systems(ICUAS),Piscataway,NJ:IEEE Press,2014:339-346.
[5]YAO P,WANG H L,SU Z K.UAV feasible path planning based on disturbed fluid and trajectory propagation[J].Chinese Journal of Aeronautics,2015,28(4):1163-1177.
[6]何仁珂,魏瑞軒,張啟瑞,等.基于擬態(tài)電勢能的飛行器航路規(guī)劃方法[J].北京航空航天大學學報,2016,42(7):1543-1549.
[7]符小衛(wèi),高曉光,何建華.威脅聯(lián)網(wǎng)下的飛行路徑規(guī)劃[J].飛行力學,2003,21(3):67-69.
[8]姜禮平,姚毅,鄒明.威脅聯(lián)網(wǎng)下低突防航路規(guī)劃研究[J].海軍工程大學學報,2008,20(4):51-54.
[9]張?zhí)陨?魯藝,呂躍.威脅聯(lián)網(wǎng)下的飛行器航跡規(guī)劃研究[J].電光與控制,2014,21(9):29-33.
[10]任佳,高曉光,鄭景嵩.復雜環(huán)境下的無人機任務(wù)決策模型[J].系統(tǒng)工程與電子技術(shù),2010,32(1):100-103.
[11]任佳,杜文才,白勇.基于貝葉斯網(wǎng)絡(luò)自適應(yīng)推理的無人機任務(wù)決策[J].系統(tǒng)工程理論與實踐,2013,33(10):2575-2582.
[12]BARUA S,GAO X D,PASMAN H,et al.Bayesian network based dynamic operational risk assessment[J].Journal of Loss Prevention in the Process Industries, 2016,41:399- 410.
[13]SONG Y B,VAN DER SCHAAR M.Dynamic network formation with incomplete information[J].Economic Theory,2015,59:301-331.
[14]KUMAR S,TRILATHI B K.Modelling of threat evaluation for dynamic targets using Bayesian network approach[J].Procedia Technology,2016,24:1268-1275.
[15]史建國,高曉光.動態(tài)貝葉斯網(wǎng)絡(luò)及其在自主智能作戰(zhàn)中的應(yīng)用[M].北京:兵器工業(yè)出版社,2008.