朱星宇,艾劍良
(復(fù)旦大學(xué) 航空航天系,上海 200433)
近年來,世界各國(guó)紛紛提出六代機(jī)的設(shè)計(jì)理念[1],其中有人駕駛飛機(jī)與無人駕駛飛機(jī)(Unmanned Aerial Vehicle, UAV,簡(jiǎn)稱無人機(jī))集群協(xié)同作戰(zhàn)的觀點(diǎn)讓人耳目一新.有人駕駛飛機(jī)在后方負(fù)責(zé)雷達(dá)偵查、指揮通信、戰(zhàn)術(shù)目標(biāo)制定,無人機(jī)集群負(fù)責(zé)提供戰(zhàn)場(chǎng)信息、對(duì)敵攻擊以及對(duì)有人機(jī)的護(hù)衛(wèi).這一分工協(xié)同理念將大大提升飛機(jī)在戰(zhàn)場(chǎng)的作戰(zhàn)效能,同時(shí)進(jìn)一步降低人員傷亡的可能性.自主空戰(zhàn)決策一直是研究熱點(diǎn),它是指: 利用數(shù)學(xué)優(yōu)化、人工智能等手段,對(duì)作戰(zhàn)態(tài)勢(shì)進(jìn)行分析,模擬真實(shí)空戰(zhàn)狀況下飛行員的決策,消滅對(duì)方、保存己方的過程[2].空戰(zhàn)決策可以分為目標(biāo)分配和機(jī)動(dòng)決策兩個(gè)部分.
目標(biāo)分配即考慮各種約束進(jìn)行敵我的匹配以實(shí)現(xiàn)某種尺度下的群體最優(yōu),目前常用的解決辦法可分為3種: 數(shù)學(xué)規(guī)劃法、協(xié)商法和群智能算法.數(shù)學(xué)規(guī)劃法,例如匈牙利算法[3],具有結(jié)構(gòu)簡(jiǎn)單、易于實(shí)現(xiàn)的特點(diǎn),但其實(shí)質(zhì)是對(duì)所有可行空間的遍歷,計(jì)算量大且運(yùn)算速度慢.協(xié)商法,例如分布式算法[4],具有較強(qiáng)的魯棒性,但對(duì)無人機(jī)的計(jì)算通信能力要求更高.群智能算法[5-7],例如遺傳算法(Genetic Algorithm, GA)、粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法、模擬退火(Simulated Annealing, SA)算法,仿照生物的進(jìn)化或自發(fā)行為在解空間里不斷迭代,直至找到全局最優(yōu)解,具有收斂速度快、算法簡(jiǎn)單等優(yōu)點(diǎn),但由于初始值設(shè)置的隨機(jī)性,算法易陷入局部最優(yōu),解的精度有所降低.
機(jī)動(dòng)決策主要有兩類方法: 基于對(duì)策的機(jī)動(dòng)決策方法,包括矩陣對(duì)策[8]、微分對(duì)策[9]和影響圖對(duì)策[10]等;基于人工智能的空戰(zhàn)決策方法,包括基于專家系統(tǒng)[11]、模糊遺傳[12]、蒙特卡洛樹搜索[13]和混合粒子群[14]的機(jī)動(dòng)決策算法.但上述方法僅針對(duì)1對(duì)1空戰(zhàn)態(tài)勢(shì)下固定或執(zhí)行單一機(jī)動(dòng)的目標(biāo),或僅考慮某一時(shí)刻的機(jī)動(dòng)決策,計(jì)算量大且收斂速度慢,忽視了空戰(zhàn)的連續(xù)性和時(shí)效性,不適合多對(duì)多環(huán)境下連續(xù)變化的空戰(zhàn)機(jī)動(dòng)決策.
本文針對(duì)多對(duì)多空戰(zhàn)過程的動(dòng)態(tài)與變化,基于混合粒子群優(yōu)化算法(Hybrid particle swarm optimi-zation algorithm)進(jìn)行目標(biāo)分配,引入局部最優(yōu)判定參數(shù),在算法陷入局部最優(yōu)時(shí)加入移民粒子,從而提高規(guī)定迭代次數(shù)內(nèi)的全局搜索能力,同時(shí)在無人機(jī)數(shù)量發(fā)生變化時(shí)重新進(jìn)行目標(biāo)分配.基于Double Q -learning算法[15-16]求解機(jī)動(dòng)決策,解決了單純使用Q -learning算法帶來的正向偏置問題,同時(shí)采用變?chǔ)?貪婪法平衡算法探索與利用的關(guān)系,使無人機(jī)的機(jī)動(dòng)決策更加有效.最后通過4對(duì)4空戰(zhàn)的仿真模擬,驗(yàn)證了本文提出的空戰(zhàn)智能決策的有效性與時(shí)效性.
假設(shè)有敵對(duì)的多架無人機(jī),分別屬于藍(lán)(我)、紅(敵)雙方.藍(lán)方多架無人機(jī)分別記為Bi(i=1,2,3,…),紅方多架無人機(jī)分別記為Ri(i=1,2,3,…).以B1為例,在T=k時(shí)刻,B1在空間坐標(biāo)系中具有狀態(tài):
(1)
考慮空戰(zhàn)中紅藍(lán)雙方的空間幾何關(guān)系,以1對(duì)1空戰(zhàn)中兩機(jī)近距離格斗的空間幾何關(guān)系為例,設(shè)一個(gè)整體狀態(tài)量c:
(2)
圖1 1對(duì)1空戰(zhàn)中無人機(jī)的空間幾何關(guān)系Fig.1 Space geometry of UAVs in 1 to 1 air combat
由圖1中的空間幾何關(guān)系可得
(3)
通常飛機(jī)通過各種機(jī)動(dòng)來到相對(duì)敵機(jī)更加優(yōu)勢(shì)的位置來達(dá)成擊毀敵方、保存己方的目的.本文利用優(yōu)勢(shì)函數(shù)來表示某架無人機(jī)對(duì)另一架無人機(jī)相對(duì)優(yōu)勢(shì)的大小.優(yōu)勢(shì)函數(shù)越大,我方無人機(jī)生存并擊毀敵機(jī)的可能性越大.本文采用的優(yōu)勢(shì)函數(shù)包含角度優(yōu)勢(shì)、距離優(yōu)勢(shì)和能量?jī)?yōu)勢(shì)3部分.
(4)
距離優(yōu)勢(shì)函數(shù) 無人機(jī)空戰(zhàn)中優(yōu)勢(shì)的大小和距離也緊密相關(guān).距離優(yōu)勢(shì)函數(shù)設(shè)置為
(5)
其中:d是我機(jī)與敵機(jī)之間的距離;R0是機(jī)載武器的最佳射程;k是無量綱量.
能量?jī)?yōu)勢(shì)函數(shù) 無人機(jī)空戰(zhàn)中優(yōu)勢(shì)也與無人機(jī)的速度、所處的高度,即能量有關(guān).定義
(6)
其中:η=EB/ER,表示我方和敵方無人機(jī)能量之比.無人機(jī)的能量定義為
(7)
其中:H為飛機(jī)的高度;g為重力加速度.
綜上所述,構(gòu)建無人機(jī)的優(yōu)勢(shì)函數(shù)和優(yōu)勢(shì)矩陣如下:
G=ω1GA×GD+ω2GE,
(8)
(9)
其中:ω1和ω2為各優(yōu)勢(shì)函數(shù)的權(quán)重;Gij表示我方第i架無人機(jī)對(duì)敵方第j架無人機(jī)的優(yōu)勢(shì)函數(shù)的值;m為我方無人機(jī)數(shù)量;n為敵方無人機(jī)數(shù)量.
多對(duì)多無人機(jī)空戰(zhàn)的目標(biāo)分配是指在戰(zhàn)場(chǎng)環(huán)境、任務(wù)需求、無人機(jī)性能和敵我無人機(jī)相對(duì)態(tài)勢(shì)下,為我方無人機(jī)分配一個(gè)或多個(gè)敵方無人機(jī)或目標(biāo)點(diǎn),使得所有的敵方目標(biāo)都能被攻擊且整體攻擊效能達(dá)到最優(yōu),即
(10)
(11)
(12)
(13)
這一數(shù)學(xué)模型隨著無人機(jī)數(shù)量的增加,復(fù)雜度呈指數(shù)級(jí)增加,是典型的NP完全問題.本文采用改進(jìn)混合粒子群優(yōu)化算法進(jìn)行求解.
粒子群優(yōu)化算法是模擬鳥類覓食行為的一種智能算法,能通過追隨個(gè)體極值和群體極值完成極值尋優(yōu).如下是粒子群優(yōu)化算法更新粒子的公式:
Vk+1=ωVk+c1r1(Pbest,k-Xk)+c2r2(Gbest,k-Xk),Xk+1=Xk+Vk+1.
(14)
其中:ω是慣性權(quán)重;k為當(dāng)前迭代次數(shù);X表示粒子的位置;V為粒子的速度;c1和c2為學(xué)習(xí)因子;r1和r2是分布于[0,1]區(qū)間的隨機(jī)數(shù);Pbest和Gbest分別是個(gè)體極值和群體極值.
混合粒子群優(yōu)化算法引入了遺傳算法的交叉與變異操作,通過粒子與個(gè)體極值和群體極值進(jìn)行交叉以及粒子本身的變異來搜索最優(yōu)解.
混合粒子群優(yōu)化算法中的交叉操作是指: 隨機(jī)選定兩個(gè)交叉位置,然后將個(gè)體和個(gè)體極值或群體極值位于交叉位置之間的元素進(jìn)行互換,然后檢查新產(chǎn)生的個(gè)體的合法性,對(duì)不合法的元素進(jìn)行調(diào)整.對(duì)新產(chǎn)生的個(gè)體采用保留優(yōu)秀個(gè)體的策略,只有當(dāng)新粒子適應(yīng)度好于舊粒子時(shí)才更新粒子.混合粒子群優(yōu)化算法中的變異操作是指: 隨機(jī)選擇兩個(gè)變異位置,將粒子中的兩個(gè)變異位置的元素互換,同樣對(duì)新產(chǎn)生的個(gè)體采用保留優(yōu)秀個(gè)體的策略.
混合粒子群優(yōu)化算法摒棄了標(biāo)準(zhǔn)粒子群優(yōu)化算法中的通過跟蹤極值來更新粒子位置的方法,避免了人為設(shè)置的慣性權(quán)重、粒子速度以及學(xué)習(xí)率對(duì)更新粒子群的影響,使得混合算法兼具遺傳算法和粒子群優(yōu)化算法的優(yōu)點(diǎn).但混合粒子群優(yōu)化算法的迭代前期較短,收斂速度快,迭代后期則較長(zhǎng),隨著迭代次數(shù)的增加,在種群收斂的同時(shí),各粒子也越來越相似,從而求解可能在局部最優(yōu)解附近無法跳出.
針對(duì)此問題,本文提出改進(jìn)方法,增大迭代后期粒子的變化.引入判定參數(shù)λ,在迭代過程中,如果相鄰若干代數(shù)的群體極值之差小于λ,則認(rèn)為算法陷入局部最優(yōu),此時(shí)引入移民粒子,計(jì)算其適應(yīng)度,并與現(xiàn)有粒子進(jìn)行比較,選擇適應(yīng)度高的粒子保留.當(dāng)相鄰相同代數(shù)的全局極值之差又小于λ時(shí),再次引入移民粒子并更新粒子群,直到迭代結(jié)束.因?yàn)橹辉谒惴ㄏ萑刖植孔顑?yōu)時(shí)才引入新粒子,所以該算法在提高全局搜索能力的同時(shí),不會(huì)額外增加程序的計(jì)算量.
改進(jìn)混合粒子群優(yōu)化算法的步驟如下:
步驟1 初始化,設(shè)定最大迭代次數(shù)H,設(shè)定粒子種群數(shù)K,隨機(jī)產(chǎn)生K個(gè)可行分配方案作為初始粒子,計(jì)算各粒子的適應(yīng)度,記錄初始個(gè)體極值Pbest與全局極值Gbest.
步驟2 對(duì)種群中的每個(gè)粒子與Pbest進(jìn)行交叉操作,計(jì)算交叉產(chǎn)生的兩個(gè)粒子的適應(yīng)度,選擇適應(yīng)度好的成為新粒子,如果新粒子的適應(yīng)度優(yōu)于Pbest,則對(duì)Pbest進(jìn)行更新.
步驟3 對(duì)步驟2中得到的新粒子與Gbest進(jìn)行交叉操作,計(jì)算交叉產(chǎn)生的兩個(gè)粒子的適應(yīng)度,選擇適應(yīng)度好的成為新粒子,如果新粒子的適應(yīng)度優(yōu)于Pbest,則對(duì)Pbest進(jìn)行更新.
步驟4 對(duì)步驟3中得到的新粒子進(jìn)行變異操作,計(jì)算變異操作后粒子的適應(yīng)度,如果新粒子的適應(yīng)度優(yōu)于Pbest,則對(duì)Pbest進(jìn)行更新.
步驟5 根據(jù)更新后的Pbest確定Gbest.判斷是否達(dá)到最大迭代次數(shù),如果不是,轉(zhuǎn)到步驟6,如果是,則結(jié)束迭代.
步驟6 計(jì)算若干代的Gbest之差,如果大于λ,轉(zhuǎn)到步驟2,如果小于λ,則引入移民粒子并更新種群,然后轉(zhuǎn)到步驟2.
實(shí)際空戰(zhàn)中敵我無人機(jī)數(shù)量往往不相等,而且隨著空戰(zhàn)的進(jìn)行,會(huì)有雙方無人機(jī)的加入與擊毀,因此雙方無人機(jī)的數(shù)量不相等與變化是一種常態(tài).同時(shí)應(yīng)用混合粒子群優(yōu)化算法解決實(shí)際目標(biāo)分配問題時(shí),因?yàn)榧s束條件過多,容易遇到粒子群初始化困難的問題.
因此本文建立了一種在不對(duì)稱、動(dòng)態(tài)空戰(zhàn)下的對(duì)策方法,用于解決動(dòng)態(tài)空戰(zhàn)情況下的不平衡分配問題和粒子群初始化困難的問題.當(dāng)交戰(zhàn)雙方無人機(jī)數(shù)量不相等時(shí),同樣建立優(yōu)勢(shì)矩陣,當(dāng)m>n時(shí),在矩陣的右邊補(bǔ)充m-n列常數(shù)P1:
(15)
其中:P1為小于所有矩陣元素的常數(shù).當(dāng)m 當(dāng)m>n時(shí),進(jìn)行分配后會(huì)多出m-n架我方無人機(jī),此時(shí)可以將多余的我方無人機(jī)按照任務(wù)需求進(jìn)行靈活再分配.比如按照防御原則將其分配到對(duì)我方目標(biāo)威脅最大的敵方無人機(jī);按照盯防原則將其分配到敵方性能最強(qiáng)的無人機(jī);按照殲滅原則將其分配到對(duì)戰(zhàn)優(yōu)勢(shì)最小的那架敵方無人機(jī). 當(dāng)有無人機(jī)被擊落,新的無人機(jī)加入戰(zhàn)斗,或者空戰(zhàn)經(jīng)過一段時(shí)間以后,就再次利用改進(jìn)混合粒子群優(yōu)化算法進(jìn)行目標(biāo)分配,以保證目標(biāo)分配的及時(shí)性. 強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它可以用于解決序貫決策優(yōu)化問題.最典型的強(qiáng)化學(xué)習(xí)的模型就是馬爾可夫決策過程(Markov Decision Process, MDP).MDP所具有的要素包括狀態(tài)(S)、行動(dòng)集(A)、策略(π)和獎(jiǎng)勵(lì)(R).在本文中,狀態(tài)即是敵我雙方無人機(jī)的位置與速度矢量,行動(dòng)集是無人機(jī)可以采取的機(jī)動(dòng)動(dòng)作,策略即是我方無人機(jī)機(jī)動(dòng)選擇遵循的原則,獎(jiǎng)勵(lì)即是優(yōu)勢(shì)函數(shù). 本文將無人機(jī)看作3自由度質(zhì)點(diǎn),無人機(jī)在無側(cè)滑中飛行,且發(fā)動(dòng)機(jī)的推力沿著速度的方向,則無人機(jī)質(zhì)心運(yùn)動(dòng)在坐標(biāo)系上的投影方程可以簡(jiǎn)化為 (16) 其中:M為無人機(jī)的質(zhì)量;P為發(fā)動(dòng)機(jī)推力;D為阻力;Y為升力;g為重力加速度;φ為航跡傾斜角;γ為航跡滾轉(zhuǎn)角;ψ為航跡偏轉(zhuǎn)角.過載在坐標(biāo)軸上的投影分量為 (17) 將式(17)代入式(16),則運(yùn)動(dòng)方程可改寫為 (18) 選取具有代表性的7種機(jī)動(dòng)作為可選機(jī)動(dòng):A={左偏置,穩(wěn)定飛行,最大加速,最大減速,右偏置,爬升,俯沖},涉及過載的機(jī)動(dòng)均以最大過載進(jìn)行. Q -learning算法是強(qiáng)化學(xué)習(xí)領(lǐng)域中的一種具有突出優(yōu)勢(shì)的時(shí)間差分學(xué)習(xí)算法,它不依賴于環(huán)境模型,并且可以很好地解決信用分配問題.如何評(píng)價(jià)無人機(jī)空戰(zhàn)中某一機(jī)動(dòng)決策對(duì)未來決策乃至將來能否擊落敵機(jī)的影響,就是其實(shí)際應(yīng)用的典型例子.Q -learning算法利用當(dāng)前決策時(shí)刻T=k往后n步回報(bào)的采樣加上T=k+n步的估計(jì)值來評(píng)估當(dāng)前決策的優(yōu)劣.以某一敵我無人機(jī)配對(duì)為例,算法的決策步驟如下: 步驟1 以敵我雙方無人機(jī)狀態(tài)生成當(dāng)前時(shí)刻到其后n步的優(yōu)勢(shì)函數(shù)矩陣記為獎(jiǎng)勵(lì)矩陣R;以任意的方式初始化Q矩陣,設(shè)定迭代次數(shù)H. 步驟2 用ε-貪婪法,在當(dāng)前狀態(tài)S下選擇機(jī)動(dòng)動(dòng)作,執(zhí)行機(jī)動(dòng)動(dòng)作,獲得獎(jiǎng)勵(lì)R(S,A)和下一步的狀態(tài)S′.利用貝爾曼公式更新Q矩陣: (19) 其中:α是學(xué)習(xí)率;γ是折扣率;ε為一個(gè)常數(shù),當(dāng)生成的隨機(jī)數(shù)大于ε時(shí),選擇Q矩陣中最優(yōu)的機(jī)動(dòng)動(dòng)作,當(dāng)生成的隨機(jī)數(shù)小于等于ε時(shí),則隨機(jī)選擇動(dòng)作.更新當(dāng)前的狀態(tài)S→S′.重復(fù)進(jìn)行n次,視為一次迭代. 步驟3 完成設(shè)定的迭代次數(shù)后,依照生成的Q矩陣,選擇我方無人機(jī)當(dāng)前時(shí)刻的下一步機(jī)動(dòng). 在3.2節(jié)中利用ε-貪婪法進(jìn)行下一步機(jī)動(dòng)動(dòng)作的選擇,其中ε是一個(gè)常數(shù),每一步有ε的概率采用隨機(jī)機(jī)動(dòng)動(dòng)作,有1-ε的概率采用當(dāng)前已知最優(yōu)的機(jī)動(dòng)動(dòng)作,也就是未知的探索與已知的利用.但是將ε設(shè)置為一個(gè)常數(shù)不夠合理,因?yàn)樗惴ㄇ捌?,Q矩陣的大部分處于未探索的狀態(tài),采用已知最優(yōu)機(jī)動(dòng)會(huì)降低Q矩陣探索的效率,而在算法后期,Q矩陣大部分已經(jīng)被探索,繼續(xù)選擇探索會(huì)降低收斂的速度.因此本文采用變?chǔ)?貪婪法: (20) 其中:H′為當(dāng)前正在迭代的輪數(shù),即已經(jīng)完成了H′-1次迭代,正在進(jìn)行第H′次迭代.算法前期ε值相對(duì)較大,鼓勵(lì)算法進(jìn)行探索;算法后期ε逐漸減小,鼓勵(lì)算法進(jìn)行利用,從而平衡了探索與利用的關(guān)系,使得Q矩陣的收斂速度提高. 為了避免正向偏置的問題,本文采用Double Learning算法與Q -learning算法相結(jié)合的Double Q -learning算法.它的核心思想在于交替更新兩個(gè)獨(dú)立的預(yù)測(cè)值: (21) 進(jìn)而解決狀態(tài)值估計(jì)過程中的正向偏置問題.而且即使有兩個(gè)估計(jì)值,每次迭代只需要更新其中的一個(gè)值,實(shí)際的計(jì)算量并不會(huì)增加. 假設(shè)紅方與藍(lán)方的無人機(jī)性能均一致,最大速度為500 m/s,最大法向過載為3g,最大切向過載為8g(g為重力加速)).空戰(zhàn)的決策周期為0.25 s,在同一決策周期內(nèi)執(zhí)行一種機(jī)動(dòng)動(dòng)作.敵方無人機(jī)采用簡(jiǎn)單最大策略,采取能夠使得其優(yōu)勢(shì)函數(shù)最大的機(jī)動(dòng);我方無人機(jī)采用最大最小值策略,采用能夠使得敵方最大優(yōu)勢(shì)函數(shù)值取得最小的機(jī)動(dòng).規(guī)定: 當(dāng)一方無人機(jī)對(duì)對(duì)方無人機(jī)的超前角與滯后角均小于30°(機(jī)載雷達(dá)的掃描角度)且兩機(jī)距離小于500 m時(shí)(機(jī)載武器有效射程)即視為該方無人機(jī)擊敗對(duì)方無人機(jī).一方無人機(jī)擊敗半數(shù)及以上對(duì)方無人機(jī)時(shí),空戰(zhàn)無懸念,視為該方勝利. 以12對(duì)12的無人機(jī)空戰(zhàn)的目標(biāo)分配為例,驗(yàn)證改進(jìn)混合粒子群優(yōu)化算法的性能,將其與遺傳算法和標(biāo)準(zhǔn)混合粒子群優(yōu)化算法做對(duì)比.表1(見第416頁)所示是無人機(jī)的初始位置信息. 表1 12對(duì)12空戰(zhàn)中無人機(jī)的初始位置與速度 算法的參數(shù)設(shè)置如下: 1) 遺傳算法 初始個(gè)體數(shù)為50,交叉概率為90%,變異概率為5%; 2) 標(biāo)準(zhǔn)混合粒子群優(yōu)化算法 初始粒子數(shù)為5; 3) 改進(jìn)混合粒子群優(yōu)化算法 初始粒子數(shù)為5,連續(xù)相鄰代數(shù)為15,是否引入移民粒子的判定參數(shù)為0.1. 圖2是3種算法迭代次數(shù)為50的算法訓(xùn)練圖.由圖中曲線可以看出,遺傳算法、混合粒子群優(yōu)化算法、改進(jìn)的混合粒子群優(yōu)化算法均能有效地求解12架藍(lán)方無人機(jī)對(duì)12架紅方無人機(jī)的目標(biāo)分配問題.總體上看改進(jìn)的混合粒子群優(yōu)化算法的效果最好,能夠使目標(biāo)分配以后,我方無人機(jī)的總優(yōu)勢(shì)函數(shù)最大,對(duì)敵方形成最大的威脅,其次是混合粒子群優(yōu)化算法,遺傳算法的效果最差.圖3~圖5為3種算法的匹配結(jié)果.現(xiàn)對(duì)每種算法仿真20次,每次迭代50代,將仿真計(jì)算出的結(jié)果進(jìn)行統(tǒng)計(jì),并將其與精確解進(jìn)行比較,結(jié)果如表2所示. 圖2 3種算法的訓(xùn)練過程Fig.2 Training process of three algorithms 圖3 遺傳算法的匹配圖Fig.3 Matching graph of genetic algorithm 圖5 改進(jìn)的混合粒子群優(yōu)化算法的匹配圖Fig.5 Matching graph of improved hybrid particle swarm optimization algorithm 表2 3種算法的訓(xùn)練結(jié)果 Tab.2 Training results of three algorithms 圖4 混合粒子群優(yōu)化算法的匹配圖Fig.4 Matching graph of hybrid particle swarm optimization algorithm 算法(精確解)最大值最小值平均值標(biāo)準(zhǔn)方差1)最大值的差異1)/%均值的差異1)/%平均用時(shí)/s精確解 8.14158.14158.1415////遺傳算法 7.91257.37497.62120.1462.806.400.379混合粒子群算法 8.14157.64957.94580.1410.002.400.141改進(jìn)的混合粒子群算法8.14157.80798.01380.0930.001.600.158 選取一組小規(guī)模集團(tuán)作為多對(duì)多無人機(jī)機(jī)動(dòng)決策的仿真算例,為方便起見對(duì)其重新編號(hào),我方和敵方無人機(jī)的位置和速度信息如表3所示. 表3 4對(duì)4空戰(zhàn)中無人機(jī)的初始位置與速度 將無人機(jī)的位置信息繪制到坐標(biāo)系中,俯視圖如圖6所示.圖6中箭頭方向?yàn)闊o人機(jī)的速度方向.利用改進(jìn)的混合粒子群優(yōu)化算法得到的匹配結(jié)果是B1>R2,B2>R1,B3>R3,B4>R4,與精確解一致.圖7為無人機(jī)空戰(zhàn)過程的仿真圖,由程序模擬可得: 在A點(diǎn),T=30(第30次迭代,即進(jìn)行第30次機(jī)動(dòng)決策)時(shí),B4擊敗R4,隨后在B點(diǎn)按照殲滅原則匹配到新目標(biāo)R1,與B2一同追擊R1.最后在C點(diǎn),T=35時(shí),B3擊敗R3.藍(lán)方獲得空戰(zhàn)勝利. 圖6 無人機(jī)的初始位置Fig.6 Initial position of UAVs 圖7 空戰(zhàn)的仿真圖Fig.7 Simulation chart of air combat 圖8所示是藍(lán)方無人機(jī)的優(yōu)勢(shì)函數(shù),藍(lán)方無人機(jī)的優(yōu)勢(shì)函數(shù)始終為正,表明藍(lán)方對(duì)紅方一直保持優(yōu)勢(shì).在D點(diǎn),B4的優(yōu)勢(shì)函數(shù)達(dá)到極大值,對(duì)應(yīng)擊敗R4,隨后R1成為目標(biāo),此時(shí)B4的優(yōu)勢(shì)函數(shù)快速降低.在T=35時(shí),B3的優(yōu)勢(shì)函數(shù)達(dá)到極大值,擊敗R3. 圖8 藍(lán)方的優(yōu)勢(shì)函數(shù)Fig.8 Comprehensive advantage function of Blue 以B3與R3配對(duì)為例進(jìn)行機(jī)動(dòng)決策算法的時(shí)效性驗(yàn)證: 設(shè)置學(xué)習(xí)率α=1,折扣率γ=0.8,迭代次數(shù)為900,決策時(shí)長(zhǎng)為0.025 s.本文程序的運(yùn)行環(huán)境為: 處理器為intel-i7 5700,內(nèi)存8 G,仿真軟件為Matlab R2016a.實(shí)際空戰(zhàn)中目標(biāo)分配和機(jī)動(dòng)決策可由運(yùn)算能力更強(qiáng)的工作站或者長(zhǎng)機(jī)進(jìn)行,因此能夠滿足空戰(zhàn)的要求. 本文對(duì)多對(duì)多無人機(jī)空戰(zhàn)樣式進(jìn)行了決策仿真,仿真結(jié)果表明引入了局部最優(yōu)判定和加入移民粒子的改進(jìn)的混合粒子群優(yōu)化算法的目標(biāo)分配具有比普通算法更快的收斂速度和更優(yōu)的分配結(jié)果,應(yīng)用改進(jìn)的Double Q -learning算法的我方無人機(jī)能夠很好地執(zhí)行追蹤、擊敗敵機(jī)的任務(wù).并且我方無人機(jī)在擊敗敵機(jī)后,能夠加入其他我方無人機(jī)對(duì)敵方目標(biāo)的追擊,最終多機(jī)協(xié)同取得空戰(zhàn)的勝利.未來研究將會(huì)針對(duì)不同性能的無人機(jī),進(jìn)行更多限制條件下的仿真驗(yàn)證.3 機(jī)動(dòng)決策
3.1 無人機(jī)機(jī)動(dòng)
3.2 基于Q -learning算法的機(jī)動(dòng)決策
3.3 改進(jìn)的Double Q -learning算法
4 仿真測(cè)試
5 結(jié) 語