李迎春,程建博,于 堯
(中國人民解放軍裝備學(xué)院 復(fù)雜電子系統(tǒng)仿真重點實驗室,北京 101416)
?
【裝備理論與裝備技術(shù)】
基于博弈論的無人機戰(zhàn)場攻防策略求解模型
李迎春,程建博,于 堯
(中國人民解放軍裝備學(xué)院 復(fù)雜電子系統(tǒng)仿真重點實驗室,北京 101416)
提出基于博弈論的無人機戰(zhàn)場攻防策略求解模型;利用零和博弈求解方法,找出當(dāng)目標(biāo)平均定位時間變化時的不同納什均衡點;案例結(jié)果表明:該納什均衡點即為攻守雙方一定條件下的最佳策略集合;該模型可為實際戰(zhàn)場決策提供參考。
無人機;博弈論;最優(yōu)決策;零和博弈;納什均衡
無人機(Unmanned Aerial Vehicle,UAV)是一種具備自主飛行和獨立執(zhí)行任務(wù)能力的新型作戰(zhàn)平臺,不僅能夠執(zhí)行軍事偵察、監(jiān)視、搜索、目標(biāo)指向等非攻擊性任務(wù),而且還能夠執(zhí)行對地攻擊和目標(biāo)轟炸等作戰(zhàn)任務(wù)。現(xiàn)代戰(zhàn)爭中無人機作為戰(zhàn)場的“先鋒部隊”,一旦任務(wù)失利,可能對整個戰(zhàn)局造成巨大的影響。合理的無人機任務(wù)分配是提高作戰(zhàn)效率的重要手段。面對復(fù)雜的戰(zhàn)場環(huán)境,無人機的任務(wù)分配成為決策方首要考慮的問題[1]。
博弈論主要是研究智能體之間相互依存的理性行為,是研究智能體之間競爭沖突的形式化表示方法,目的是通過理性的決策得到最大化的收益或者最小化的懲罰。這與無人機戰(zhàn)場環(huán)境十分相似,攻守雙方?jīng)Q策者均需使用自己的策略達(dá)到利益最大化或懲罰最小化。特別地,在無人機任務(wù)規(guī)劃中,由于路線和程序設(shè)定后沒有人為干預(yù)很難更改,戰(zhàn)前策略的制定顯得尤為重要[2]。本文將引進博弈論及其相關(guān)策略求解方式,建立簡單的無人機博弈模型,得出決策者特定條件下最佳的策略集。
博弈論是二人在平等的對局中各自利用對方的策略變換自己的對抗策略,達(dá)到取勝的目的[3]。1928年,馮·諾依曼證明了博弈論的基本原理,從而宣告了博弈論的正式誕生。1951年, John Forbes Nash利用不動點定理證明了均衡點的存在,為博弈論的一般化奠定了堅實的基礎(chǔ)[4]。博弈論的本質(zhì)是局中人必須置身其中,站在其他人的角度考慮問題,從別人的決策中找到自己的最佳決策。所以,局中人必須是理性的。每一個博弈論模型中都有三個要素:局中人、收益和策略空間。一個博弈可用G={S1,S2,…,Sn;u1,u2,…,un}來表示,其中Si為第i個局中人的策略空間,ui為第i個局中人的收益值。
納什均衡是博弈論中一種策略組合,它可使得同一時間內(nèi)每個參與人的策略是對其他參與人策略的最優(yōu)反應(yīng)。假設(shè)有n個局中人參與博弈,如果某情況下無一參與者可以獨自行動而增加收益,則此策略組合被稱為納什均衡。納什均衡達(dá)成時,雙方均不可能獨自改變策略而獲得更多收益,所以納什均衡解可以看成是一個局部最優(yōu)解。當(dāng)一個博弈中只有一個納什均衡點時,局中人在不知道其他人的決策時,理性的決策者會趨向納什均衡點來制定策略。
2.1 模型介紹
現(xiàn)有攻守雙方模擬戰(zhàn)場,攻擊方在推進的過程中發(fā)現(xiàn)防御方某重要建筑物,擬派遣無人機群對其進行打擊。防御方建筑物附近安放有一部隱秘性很好的遠(yuǎn)程雷達(dá)。
現(xiàn)攻擊方有4架FY攻擊型無人機,將被派出擊毀防御方某目標(biāo)建筑物與其附近遠(yuǎn)程雷達(dá)。目標(biāo)建筑物自帶近程雷達(dá),位置已知,附近的遠(yuǎn)程雷達(dá)具體坐標(biāo)未知,需等其開機后才能探測到,防御方可以選擇開啟遠(yuǎn)程雷達(dá)或者關(guān)閉。現(xiàn)以目標(biāo)坐標(biāo)為原點建立平面直角坐標(biāo)系,戰(zhàn)場示意圖如圖1。
圖1 戰(zhàn)場示意圖
打擊過程中,攻方無人機先飛往目標(biāo)建筑物或雷達(dá)附近,再實施打擊,最后飛離,由于打擊目標(biāo)建筑物需要信息的協(xié)同,所以至少需要3架無人機同時參與,打擊遠(yuǎn)程雷達(dá)沒有限制[5]。
2.2 模型假設(shè)
為簡化模型,突出博弈論在戰(zhàn)場環(huán)境的應(yīng)用性,對模型進行假設(shè):
作戰(zhàn)雙方都是絕對理性的;由于作戰(zhàn)時間很短,雙方戰(zhàn)術(shù)一旦形成并采用,便不能中途更改;若攻擊方在未知遠(yuǎn)程雷達(dá)具體坐標(biāo)的情況下就飛往雷達(dá)附近,則定位時間t0不能忽略,并且此時間不是一定的,需根據(jù)戰(zhàn)場環(huán)境估計。
2.3 模型博弈論三要素
1) 局中人
Ai={a1,a2},其中a1為攻擊方;a2為防御方。
2) 收益
該博弈符合零和博弈范疇,零和博弈是博弈論的一個概念,指參與博弈的各方,在嚴(yán)格競爭下,一方的收益必然意味著另一方的損失,博弈各方的收益和損失相加總和永遠(yuǎn)為“零”,雙方不存在合作的可能。在本例中,所有無人機暴露在敵方雷達(dá)范圍內(nèi)的時間總和t總為防守方的收益,也為進攻方的懲罰,或?qū)?t總看作進攻方的收益[6-7]。
3) 策略空間
攻擊方已經(jīng)得知防御方遠(yuǎn)程雷達(dá)大致位置,在遠(yuǎn)程雷達(dá)開機的情況下,先攻擊雷達(dá)總能帶來更高的收益,所以戰(zhàn)機的數(shù)量安排構(gòu)成了攻擊方的策略空間。
求解博弈論的最佳策略集合,就是求解博弈的納什均衡點。畫出博弈論框圖如表1所示,由于該博弈是零和博弈,同一策略下,雙方收益為相反數(shù),即u1=-u2,該表以防御方收益為正。
表1 博弈論框圖
表2 代入數(shù)值的博弈論框圖
為方便表示,表2中以序號表示收益。由于t0不是固定的,t0的變化導(dǎo)致雙方策略組合收益排序發(fā)生變化。同樣以防御方為例,t0從小到大變化過程中,出現(xiàn)的收益大小排序:
0 0.74 1.17 2.17 2.6 圖2 動態(tài)博弈圖 在無人機戰(zhàn)場中,雙方?jīng)Q策者應(yīng)該是絕對理性的,所做出的決策應(yīng)該趨向收益的最大化,這也正是博弈論的前提,并且無人機實施攻擊任務(wù)過程中,往往很難再做出人為干預(yù),在博弈論中,最優(yōu)策略組合一旦找到,也不應(yīng)中途做出改變。本文通過一個簡單的案例,證明了博弈論在無人機任務(wù)規(guī)劃中的適用性?,F(xiàn)實的無人機有更加復(fù)雜的策略集合和收益形式,在特定的場合和任務(wù)下,應(yīng)建立不同的模型,但博弈方式和建模思路大同小異,本文的模型可為現(xiàn)實無人機戰(zhàn)場的博弈論建模提供參考。 [1] 詹明明.多無人機任務(wù)規(guī)劃研究[D].合肥:合肥工業(yè)大學(xué),2012. [2] 付超,楊善林.基于博弈論的多無人機協(xié)同作戰(zhàn)仿真系統(tǒng)[J].系統(tǒng)仿真學(xué)報,2009,21(9):2591-2594. [3] 齊格弗里德.納什均衡與博弈論[M].北京:化學(xué)工業(yè)出版社,2011. [4] 謝識予.經(jīng)濟博弈論[M].上海:復(fù)旦大學(xué)出版社,2002. [5] 陳小林.博弈論在鑒定雷達(dá)抗干擾特性中的應(yīng)用[J].航天電子對抗,1986(s1):115-123. [6] 周代平,李康奇,賀琳.誘導(dǎo)信息條件下車輛路徑選擇:基于有限理性模糊博弈[J].重慶工商大學(xué)學(xué)報(自然科學(xué)版),2015,32(12):31-35. [7] 艾瑞卡·S.奧爾森.零和博弈[M].北京:中國財政經(jīng)濟出版社,2014. [8] 韓玉龍,嚴(yán)建鋼,陳榕,等.改進博弈論的艦載無人機編隊協(xié)同對海突擊目標(biāo)分配[J].火力與指揮控制,2016(7):65-70. (責(zé)任編輯 周江川) Solving Model of Unmanned Aerial Vehicle Battle Strategy Based on Game Theory LI Ying-chun, CHEN Jian-bo, YU Yao (Science and Technology on Complex Electronic System Simulation Laboratory, Academy of Equipment of PLA, Beijing 101416, China) A solving model of unmanned aerial vehicle battle strategy based on the game theory is been proposed. Referring to the solving method of zero-sum game, different Nash equilibriums are found out which depends on the average locating time. Results of a case show that these Nash equilibriums are the best strategy profile of offensive and defensive sides under certain conditions. This model can provide a reference for the practical model of battlefield decision. unmanned aerial vehicle; game theory; the best strategy; zero-sum game; Nash equilibrium 2017-02-25; 2017-03-26 李迎春(1993—),男,碩士研究生,主要從事指控系統(tǒng)的建模與評估研究。 10.11809/scbgxb2017.06.015 format:LI Ying-chun, CHEN Jian-bo, YU Yao.Solving Model of Unmanned Aerial Vehicle Battle Strategy Based on Game Theory[J].Journal of Ordnance Equipment Engineering,2017(6):70-72. TJ741 A 2096-2304(2017)06-0070-03 本文引用格式:李迎春,程建博,于堯.基于博弈論的無人機戰(zhàn)場攻防策略求解模型[J].兵器裝備工程學(xué)報,2017(6):70-72.4 總結(jié)