周思羽,范 庚
(海軍航空大學(xué)青島校區(qū),山東 青島 266041)
協(xié)同空戰(zhàn)攻擊決策問題是指根據(jù)作戰(zhàn)目標(biāo)、戰(zhàn)機(jī)性能、敵機(jī)威脅等約束,綜合空戰(zhàn)態(tài)勢(shì)信息,合理分配戰(zhàn)機(jī)武器資源,規(guī)劃最佳目標(biāo)攻擊方案,以達(dá)到協(xié)同空戰(zhàn)的最佳效能,是經(jīng)典的約束優(yōu)化問題[1]。協(xié)同攻擊決策問題作為協(xié)同空戰(zhàn)指揮決策的關(guān)鍵問題之一,具有極高的軍事價(jià)值[2]。
協(xié)同空戰(zhàn)攻擊決策問題為NP 完全問題(nondeterministic polynomial complete,NPC)[3-4],協(xié)同空戰(zhàn)攻擊決策問題隨維度的增加,其計(jì)算量將出現(xiàn)“指數(shù)爆炸”,傳統(tǒng)的目標(biāo)規(guī)劃[5]、博弈論框架[6]、啟發(fā)式算法[7]、拉格朗日松弛法[8]能夠?qū)崿F(xiàn)解決低維協(xié)同空戰(zhàn)攻擊決策問題,但難以應(yīng)對(duì)高維決策,無法滿足實(shí)際空戰(zhàn)要求。智能算法具有尋優(yōu)性能強(qiáng)、收斂性好的優(yōu)點(diǎn),被廣泛應(yīng)用于求解協(xié)同空戰(zhàn)攻擊決策問題[9-11]。動(dòng)態(tài)攻擊決策研究起步較晚,研究主要集中于智能決策算法在尋優(yōu)能力的改進(jìn)[12-15],對(duì)于空戰(zhàn)特殊性的分析不足,且算法魯棒性、快速性等關(guān)鍵性能指標(biāo)有很大研究空間。
動(dòng)態(tài)攻擊決策可以描述為:基于不斷變化的空戰(zhàn)態(tài)勢(shì)、目標(biāo)威脅值、武器對(duì)目標(biāo)殺傷能力等因素的在線綜合評(píng)估,實(shí)時(shí)確定我機(jī)群對(duì)目標(biāo)機(jī)群的理想攻擊分配方案,取得對(duì)敵機(jī)群作戰(zhàn)的滿意效果,并根據(jù)實(shí)際情況不斷調(diào)整方案的動(dòng)態(tài)決策過程。
設(shè)我機(jī)群第i 架戰(zhàn)機(jī)Pi掛載導(dǎo)彈數(shù)為Ki枚,其中,第s 枚導(dǎo)彈為Pi(s),則導(dǎo)彈總數(shù)為
第r 枚導(dǎo)彈Ar攻擊Tj的擊落概率為thrj,Tj對(duì)我機(jī)Pi的威脅為thji。thrj和thji的計(jì)算方法參見文獻(xiàn)[16]。最優(yōu)攻擊方案πopt將最小化目標(biāo)機(jī)群總期望剩余威脅,即
2)任一目標(biāo)不分配過多導(dǎo)彈,即
3)高威脅目標(biāo)優(yōu)先攻擊。
對(duì)空戰(zhàn)環(huán)境的連續(xù)變化而言,協(xié)同空戰(zhàn)攻擊決策目標(biāo)函數(shù)評(píng)估值也是連續(xù)變化的,變化前一段時(shí)間內(nèi)的信息都可以為后續(xù)決策提供有價(jià)值的參考,此時(shí)最優(yōu)或近似最優(yōu)決策變化軌跡也是以先前搜索到的最優(yōu)決策為起點(diǎn)變化的。為此,將最優(yōu)粒子作為哨兵粒子,用于檢測(cè)空戰(zhàn)環(huán)境的連續(xù)變化。
對(duì)空戰(zhàn)環(huán)境的離散變化而言,不僅協(xié)同空戰(zhàn)攻擊決策目標(biāo)函數(shù)評(píng)估值劇烈離散變化,而且粒子群中每個(gè)粒子的維數(shù)和位置矢量都會(huì)相應(yīng)發(fā)生變化,歷史信息難以為后續(xù)決策提供幫助,此時(shí)采用初始化算法,重新確定空戰(zhàn)環(huán)境變化后的最優(yōu)或近似最優(yōu)決策??諔?zhàn)環(huán)境的離散變化主要包括5種情況:1)敵方新的戰(zhàn)機(jī)加入空戰(zhàn);2)我方新的戰(zhàn)機(jī)加入空戰(zhàn);3)我方空空導(dǎo)彈發(fā)射;4)敵方戰(zhàn)機(jī)被擊落;5)我方戰(zhàn)機(jī)被擊落。
對(duì)于確定導(dǎo)彈-目標(biāo)分配方案而言,這5 種情況可以歸結(jié)為兩類:1)我方導(dǎo)彈數(shù)目變化(戰(zhàn)機(jī)數(shù)目變化也可以轉(zhuǎn)化為導(dǎo)彈數(shù)目變化);2)敵方戰(zhàn)機(jī)數(shù)目變化。
所以將我方導(dǎo)彈數(shù)目和敵方戰(zhàn)機(jī)數(shù)目作為空戰(zhàn)環(huán)境離散變化的指標(biāo)。當(dāng)我方導(dǎo)彈數(shù)目變化和/或敵方戰(zhàn)機(jī)數(shù)目變化時(shí),重新初始化粒子群,搜索空戰(zhàn)環(huán)境變化后的最優(yōu)或近似最優(yōu)決策方案。
文獻(xiàn)[16]研究表明,相較于遺傳算法、蟻群算法等傳統(tǒng)智能決策算法而言,基于離散離子群的決策算法有著較好的綜合性能,本文采用文獻(xiàn)[16]中所設(shè)計(jì)的啟發(fā)式策略,將啟發(fā)式改進(jìn)策略運(yùn)用于改進(jìn)變異離散粒子群算法,構(gòu)成了啟發(fā)式變異離散粒子群算法,如下頁(yè)圖1 所示。
圖1 基于啟發(fā)式變異離散粒子群協(xié)同空戰(zhàn)攻擊決策算法Fig.1 The process of cooperative air combat attack decision-making algorithm based on HMDPSO
綜合考慮空戰(zhàn)環(huán)境的動(dòng)態(tài)性特點(diǎn),設(shè)計(jì)的種群多樣性策略為:
Step 1 獲取空戰(zhàn)環(huán)境變化監(jiān)測(cè)結(jié)果,若空戰(zhàn)境連續(xù)變化,且最優(yōu)粒子評(píng)估值變化超過閾值,則執(zhí)行Step 2;若空戰(zhàn)環(huán)境離散變化,則執(zhí)行Step 3;
Step 2 隨機(jī)初始化粒子群中10%的粒子,重新計(jì)算最優(yōu)評(píng)估值粒子,執(zhí)行Step 4;
Step 3 根據(jù)空戰(zhàn)環(huán)境變化情況,重置粒子維數(shù)、粒子位置編號(hào)等粒子群參數(shù),隨機(jī)初始化整個(gè)粒子群,執(zhí)行Step 4;
Step 4 運(yùn)行2.2 節(jié)啟發(fā)式變異離散粒子群算法,跟蹤最優(yōu)決策變化軌跡。
如果在每次迭代中都執(zhí)行空戰(zhàn)環(huán)境監(jiān)測(cè)策略的話,這無疑將增加算法的計(jì)算量。為了減小算法計(jì)算量,提高尋優(yōu)效率,考慮設(shè)計(jì)某種周期性的空戰(zhàn)環(huán)境監(jiān)測(cè)策略,于是引入迭代窗的概念。迭代窗本質(zhì)上是一種迭代次數(shù)周期條件,用T 來表示,只有當(dāng)算法迭代次數(shù)達(dá)到T 時(shí),才啟動(dòng)空戰(zhàn)環(huán)境監(jiān)測(cè)策略,且輸出當(dāng)前空戰(zhàn)決策方案。綜合2.1 節(jié)~2.3節(jié)設(shè)計(jì),基于迭代窗的啟發(fā)式變異離散粒子群動(dòng)態(tài)協(xié)同空戰(zhàn)攻擊決策算法如圖2 所示。
圖2 基于迭代窗的啟發(fā)式變異離散粒子群動(dòng)態(tài)協(xié)同空戰(zhàn)攻擊決策算法流程圖Fig.2 The process of cooperative air combat attack decision-making based on HMDPSO of iterative window
考慮由4 架戰(zhàn)機(jī)構(gòu)成的我機(jī)群對(duì)由8 架戰(zhàn)機(jī)構(gòu)成的目標(biāo)機(jī)群實(shí)施超視距攻擊,我機(jī)群為同型制空戰(zhàn)機(jī)編隊(duì),每機(jī)掛4 枚導(dǎo)彈,空戰(zhàn)想定數(shù)據(jù)如表1所示。
空戰(zhàn)開始10 s 后,我機(jī)剩余3 架,剩余導(dǎo)彈6枚,且K1=2、K2=2、K3=2,目標(biāo)機(jī)剩余4 架,雙方態(tài)勢(shì)如表2 所示。
表2 10 s 時(shí)空戰(zhàn)想定表Table 2 Air combat scenario table at 10 s
空戰(zhàn)15 s 后,我機(jī)剩余2 架,剩余導(dǎo)彈4 枚,且K1=2、K2=2,目標(biāo)機(jī)剩余2 架,雙方態(tài)勢(shì)如表3 所示。
表3 15 s 時(shí)空戰(zhàn)想定表Table 3 Air combat scenario table at 15 s
空戰(zhàn)開始20 s 后,我機(jī)剩余2 架,剩余導(dǎo)彈4枚,且K1=2,K2=2,目標(biāo)機(jī)剩余2 架,且又探明有2 架目標(biāo)機(jī)分別出現(xiàn)于(20 km,90 km)(-20 km,80 km),雙方態(tài)勢(shì)如下頁(yè)表4 所示。
表4 20 s 時(shí)空戰(zhàn)想定表Table 4 Air combat scenario table at 20 s
設(shè)粒子群中總粒子數(shù)為Npso=50,w0=0.4,c1=2,c2=2,迭代窗T=10,基于本節(jié)空戰(zhàn)想定仿真實(shí)驗(yàn),迭代次數(shù)與評(píng)估值變化關(guān)系曲線如圖3 所示。
圖3 威脅值曲線Fig.3 The curve of threat values
空戰(zhàn)第6 s 時(shí),協(xié)同空戰(zhàn)攻擊決策結(jié)果如下頁(yè)圖4 所示。目標(biāo)9~目標(biāo)16 為導(dǎo)彈-目標(biāo)分配中的虛設(shè)目標(biāo),在實(shí)際戰(zhàn)機(jī)-目標(biāo)分配中不予考慮。
圖4 6 s 時(shí)攻擊決策方案Fig.4 The scheme of attack decision-making at 6 s
空戰(zhàn)第12 s 時(shí),協(xié)同空戰(zhàn)攻擊決策結(jié)果如圖5所示。目標(biāo)5~目標(biāo)6 為導(dǎo)彈-目標(biāo)分配中的虛設(shè)目標(biāo),在實(shí)際戰(zhàn)機(jī)-目標(biāo)分配中不予考慮。
圖5 12 s 時(shí)攻擊決策方案Fig.5 The scheme of attack decision-making at 12 s
空戰(zhàn)18 s 時(shí),協(xié)同空戰(zhàn)攻擊決策結(jié)果如圖6 所示。目標(biāo)3~目標(biāo)4 為導(dǎo)彈-目標(biāo)分配中的虛設(shè)目標(biāo),在實(shí)際戰(zhàn)機(jī)-目標(biāo)分配中不予考慮。
圖6 18 s 時(shí)攻擊決策方案Fig.6 The scheme of attack decision-making at 18 s
空戰(zhàn)22 s 時(shí),協(xié)同空戰(zhàn)攻擊決策結(jié)果如圖7所示。
圖7 22 s 時(shí)攻擊決策方案Fig.7 The scheme of attack decision-making at 22 s
仿真結(jié)果證實(shí)了所設(shè)計(jì)的基于迭代窗的啟發(fā)式變異離散粒子群動(dòng)態(tài)協(xié)同空戰(zhàn)攻擊決策算法,能夠在動(dòng)態(tài)空戰(zhàn)態(tài)勢(shì)條件下,有效求解協(xié)同空戰(zhàn)攻擊決策問題。
本文針對(duì)動(dòng)態(tài)協(xié)同攻擊決策3 個(gè)關(guān)鍵環(huán)節(jié),設(shè)計(jì)空戰(zhàn)環(huán)境變化監(jiān)測(cè)策略,以感知和評(píng)估空戰(zhàn)環(huán)境的變化;設(shè)計(jì)啟發(fā)式改進(jìn)策略,以進(jìn)一步提高基于協(xié)同空戰(zhàn)決策算法的快速性;設(shè)計(jì)種群多樣性策略,保持粒子多樣性的同時(shí)合理保存粒子尋優(yōu)歷史經(jīng)驗(yàn)信息,以較快地跟蹤最優(yōu)決策變化,提出了基于滾動(dòng)迭代窗的啟發(fā)式變異離散粒子群動(dòng)態(tài)協(xié)同攻擊決策算法。后續(xù)還可以進(jìn)一步研究迭代窗設(shè)置、隨機(jī)初始化粒子群比例等關(guān)鍵參數(shù)優(yōu)化問題,以進(jìn)一步提升算法的性能。