基于Nash-Q的網(wǎng)絡(luò)信息體系對抗仿真技術(shù)

2018-01-15 05:29:38閆雪飛李新明王壽彪

系統(tǒng)工程與電子技術(shù) 2018年1期

關(guān)鍵詞：決策神經(jīng)網(wǎng)絡(luò)函數(shù)

閆雪飛, 李新明, 劉東, 王壽彪

(裝備學(xué)院復(fù)雜電子系統(tǒng)仿真實驗室, 北京 101416)

0 引言

武器裝備體系(簡稱為體系)作戰(zhàn)仿真研究一直是軍事領(lǐng)域的熱點和難點,對于指導(dǎo)體系發(fā)展建設(shè)[1]、進行使命能力論證[2]、開展系統(tǒng)需求評估、輔助戰(zhàn)場指揮決策等均具有重要的意義。網(wǎng)絡(luò)信息體系(network information system-of-systems,NISoS)被認為是體系發(fā)展的高級形態(tài),雖然相關(guān)概念才剛提出,但卻引起了軍事專家的高度重視。目前,針對NISoS的基本概念、內(nèi)涵和架構(gòu)研究已形成共識,對其基本形態(tài)也有了一個初步的認識,但對其更深層次的作戰(zhàn)機理研究則尚未起步,因此,迫切需要開發(fā)新的適合探索NISoS特征規(guī)律和概念演示的作戰(zhàn)仿真平臺,對于NISoS的論證評估研究具有基礎(chǔ)性意義。

通過總結(jié)針對NISoS的相關(guān)研究成果,可知NISoS是指由基礎(chǔ)網(wǎng)、感知網(wǎng)、決策網(wǎng)、火力網(wǎng)、保障網(wǎng)共同組成的,通過集成各種信息共享網(wǎng)絡(luò),將陸、海、空、天、電、網(wǎng)多維戰(zhàn)場空間融為一體的大規(guī)模武器裝備體系?；炯軜?gòu)由基礎(chǔ)網(wǎng)、感知網(wǎng)、決策網(wǎng)、火力網(wǎng)、保障網(wǎng)組成,每個子網(wǎng)又由相應(yīng)類型的武器裝備聚合而成,這是與一般武器裝備體系的主要區(qū)別,如圖1所示。另外,其基本內(nèi)涵為網(wǎng)絡(luò)中心、信息主導(dǎo)與體系支撐,而如何以網(wǎng)絡(luò)為中心、以信息為主導(dǎo)、以體系為支撐則是需要進一步研究的內(nèi)容。NISoS也是一個武器裝備體系,因此NISOS是一個復(fù)雜巨系統(tǒng),同時也是一個復(fù)雜適應(yīng)系統(tǒng),而multi-Agent系統(tǒng)(multi-Agent system,MAS)是復(fù)雜系統(tǒng)以及復(fù)雜適應(yīng)系統(tǒng)研究的主要渠道[3-4],此外,NISOS的復(fù)雜性、非線性、涌現(xiàn)性等體系特征也特別適合于采用MAS進行探索,因此,基于MAS的建模仿真是NISOS試驗研究的最佳選擇。但NISoS的極端復(fù)雜性則是制約將MAS技術(shù)進行成功移植的一大挑戰(zhàn),其中,體系驅(qū)動的核心——Agent認知決策技術(shù),則是最關(guān)鍵也是最棘手的環(huán)節(jié)。

圖1 NISoS架構(gòu)示意圖Fig.1 Schematic diagram of NISoS architecture

文獻[5]對空戰(zhàn)Agent的決策行為進行了理論研究,采用反應(yīng)型Agent決策,并結(jié)合作戰(zhàn)實際將Agent的決策規(guī)則分成了不同的階段,包括起飛階段、巡航階段、攻擊階段、規(guī)避階段以及降落階段等。文獻[6]在海軍作戰(zhàn)任務(wù)中采用了反應(yīng)型Agent對指揮官的決策行為進行了建模,并對每條規(guī)則的權(quán)值進行了設(shè)定,具有最大權(quán)值的規(guī)則被采用,而在實際應(yīng)用時,規(guī)則可以根據(jù)實際情況進行更新。文獻[7]基于信息、愿望和意圖(belief desire intention,BDI)模型對不對稱作戰(zhàn)Agent的決策制定進行了研究,但由于BDI基于邏輯演繹的推理方式,在實現(xiàn)過程中過于復(fù)雜,尤其是對于更復(fù)雜的作戰(zhàn)場景。文獻[8]針對multi-Agent作戰(zhàn)仿真決策機制的復(fù)雜性、不確定性提出了一種基于組件思想的Agent體系結(jié)構(gòu)——基于multi-Agent的非對稱作戰(zhàn)仿真體系結(jié)構(gòu)(multi-Agent based asymmetric combat simulation architecture,ACOMSIM),包括邏輯推理Agent、行動制定Agent、地形分析Agent、己方態(tài)勢感知Agent、敵方態(tài)勢感知Agent、任務(wù)時間調(diào)度Agent、任務(wù)分析Agent等,通過模塊化的思想將復(fù)雜問題簡單化,各個組件Agent相互協(xié)作共同實現(xiàn)問題的求解,其主要不足是各個組件都依賴于豐富的先驗知識,且不同組件之間的通信開銷降低了決策的效率。上述針對作戰(zhàn)Agent的決策行為研究都具有一定的代表性,但僅適用于特定的情形,且都存在一定程度的不足,尤其是當作戰(zhàn)體系更復(fù)雜、環(huán)境的不確定性更高時。

強化學(xué)習(xí)(reinforcement learning,RL)作為一種無師在線決策技術(shù),在無需任何先驗知識的情況下即可實現(xiàn)對未知環(huán)境的學(xué)習(xí),具有對不確定環(huán)境自適應(yīng)的能力,因此被廣泛用于復(fù)雜環(huán)境包括體系對抗仿真情形下的智能體自主決策研究[9]。文獻[10]以戰(zhàn)場仿真中安全隱蔽的尋找模型為例,對基于半自治作戰(zhàn)Agent的Profit-sharing增強學(xué)習(xí)進行了實驗研究;文獻[11]將強化學(xué)習(xí)引入智能體模糊戰(zhàn)術(shù)機動決策模型中,有效地解決了馬爾可夫決策過程(Markov decision process,MDP)狀態(tài)轉(zhuǎn)移規(guī)律難以獲得時的模型求解問題;文獻[12]基于強化學(xué)習(xí)對仿真航空兵的空戰(zhàn)機動決策問題進行了研究;文獻[13]基于高斯徑向基函數(shù)(Gauss radial basis function,GRBF)神經(jīng)網(wǎng)絡(luò)和Q-leaning算法對飛行器三維空間的隱蔽接敵策略進行了學(xué)習(xí)研究。

上述研究表明了RL在進行作戰(zhàn)仿真認知決策方面的可行性,但對于更復(fù)雜的NISoS作戰(zhàn)仿真決策,RL算法則具有其局限性。其根本原因是體系對抗中的Agent,其執(zhí)行每個行為的收益不僅取決于自身的行為,還取決于對手的行為,而對于這一點,RL算法則不能很好地考慮,因此出現(xiàn)收斂較慢甚至決策不夠合理等問題。而博弈論則是專門研究決策主體相互作用時的一門學(xué)問,尤其是在解決非合作博弈方面具有獨特地優(yōu)勢。本文的主要創(chuàng)新工作為①針對體系對抗開展博弈論研究；②建立了戰(zhàn)役層次零和動態(tài)博弈模型；③基于Nash-Q實現(xiàn)了Nash均衡求解；④通過NISoS作戰(zhàn)仿真原型系統(tǒng)驗證了算法的可行性以及相比Q-leaning的優(yōu)勢。

1 聯(lián)合Q-leaning算法

Q-leaning算法是一種模型無關(guān)的RL算法,被廣泛應(yīng)用于復(fù)雜問題、不確定環(huán)境中的Agent認知行為求解。經(jīng)典Q-learning算法是一種基于單Agent的RL算法,學(xué)習(xí)的Q值對應(yīng)于單個Agent的狀態(tài)-動作對,其優(yōu)勢在于即使只知道每個狀態(tài)下的立即獎賞值,也可以基于時間差分(temporal difference,TD)公式完成Q(s,a)的學(xué)習(xí),即

Qt(s,a)=Qt-1(s,a)+

(1)

基于單Agent的Q-leaning算法在選擇下一個動作時,僅僅考慮自身的行動而不去考慮對手動作的影響,這樣做的好處是計算復(fù)雜度低并且實現(xiàn)起來容易,但也面臨學(xué)習(xí)結(jié)果不夠準確的問題,因此,采用聯(lián)合Q-leaning算法是一種有效的解決途徑。相比基于單Agent的Q-leaning算法,聯(lián)合Q-leaning將原來的狀態(tài)-動作對Q函數(shù)擴展為狀態(tài)-聯(lián)合動作對Q函數(shù),即增加了自變量的維數(shù),同樣基于TD公式,其Q函數(shù)的迭代形式[14]為

(2)

2 Nash-Q算法

Nash-Q算法與聯(lián)合Q-learning算法類似,都是基于TD公式迭代求解,并且Q函數(shù)對應(yīng)的動作為所有Agent的聯(lián)合動作,區(qū)別在于其策略選取形式。Nash-Q算法基于Nash均衡選擇新狀態(tài)下的聯(lián)合動作,并且不需要獲取其他Agent的歷史動作信息,但是需要其他Agent的支付函數(shù)以及動作集。對于有兩個Agent的博弈模型,設(shè)QA為A的支付函數(shù),QB為B的支付函數(shù),則Nash-Q的迭代公式為

(3)

3 問題描述

3.1 作戰(zhàn)仿真原型系統(tǒng)及作戰(zhàn)想定

為了實現(xiàn)NISoS的作戰(zhàn)仿真研究,基于Java語言自主開發(fā)了一款作戰(zhàn)仿真原型系統(tǒng)。系統(tǒng)采用分布式進程調(diào)度架構(gòu),采用時間離散方式,通過用戶界面可向紅藍雙方的對抗體系加入不同類別的Agent,共包含6種類型的Agent,分別為通信Agent(communication Agent,CCAgent)、偵察Agent(scout Agent,SCAgent)、補給Agent(supply Agent,SUAgent)、修復(fù)Agent(repair Agent,RPAgent)、打擊Agent(attack Agent,ATAgent)以及指控Agent(canmand Agent,CMAgent),對應(yīng)于NISoS的組成架構(gòu),可支持面向NISoS的地空一體化體系對抗研究,如圖2所示。

圖2 面向NISoS的空地一體化作戰(zhàn)仿真情景Fig.2 NISoS oriented ground to air integrated combat simulation scene

需要說明,雖然仿真時構(gòu)建的NISoS與現(xiàn)實中的NISoS在規(guī)模和復(fù)雜程度上還有很大差距,但是作為真實NISoS的雛形,研究結(jié)果對于真實NISoS的規(guī)劃設(shè)計等相關(guān)研究具有一定的啟發(fā)。原型系統(tǒng)的物理作戰(zhàn)空間為按照JAVA3D標準定制的100 m×100 m的三維幾何地圖,在作戰(zhàn)開始時,紅藍雙方的兵力被分別自動部署在地圖的左右兩側(cè),當仿真開始后,雙方會相向運動,直到在中間區(qū)域遭遇并展開對抗。

從層次上分,NISoS共包含兩個層次:戰(zhàn)術(shù)層次和戰(zhàn)役層次。其中,CCAgent、SCAgent、SUAgent、ATAgent、RPAgent隸屬于戰(zhàn)術(shù)層次,由于其決策行為相對簡單,可采用有限狀態(tài)機實現(xiàn)。而CMAgent隸屬于戰(zhàn)役層次,負責對所屬Agent的指揮與控制,決策行為比較復(fù)雜,是論文研究的重點。

3.2 指控Agent的認知域描述

由于系統(tǒng)基于時間離散模型進行調(diào)度,因此CMAgent的決策行為是以仿真時鐘為單位進行的,其主要目的是在當前感知態(tài)勢的基礎(chǔ)上進行決策,其認知域描述如表1所示,考慮到RPAgent為少量(通常紅藍雙方各有一個,作為雙方“大后方”出現(xiàn)),忽略其影響。

表1 CMAgent的認知域描述表

此外,CMAgent還能夠獲取殺傷敵軍數(shù)目以及死亡數(shù)目的實時信息。然而,CMAgent無法獲取對手Agent的支付函數(shù)以及行為策略,并且對于態(tài)勢感知也是具有不確定性的,這是體系對抗博弈模型求解的難點。

4 基于Nash-Q的CMAgent認知模型

4.1 參數(shù)的規(guī)范化

為了壓縮參數(shù)空間,也為了使學(xué)習(xí)成果更具一般性,需要首先對用到的學(xué)習(xí)參數(shù)進行規(guī)范化,其意義類似于流體力學(xué)中的無量綱化,對于實驗結(jié)果至關(guān)重要。主要包括狀態(tài)空間參數(shù)的歸一化以及獎賞參數(shù)的規(guī)約。狀態(tài)空間的歸一化公式為

式中,δ是一個極小值,其意義是避免除零,根據(jù)歸一化公式,CMAgent的狀態(tài)空間可由四維參數(shù)向量s={NCC,NSC,NSU,NAT}表示。獎賞信息的規(guī)約公式為

式中,EK為殺傷敵軍數(shù)目;OD為死亡友軍數(shù)目;δ的意義同前?？梢钥闯?當r>0時,CMAgent得到的是正獎賞,當r<0時,CMAgent得到的是負獎賞,獎賞的好壞一目了然。通過以上對學(xué)習(xí)參數(shù)的規(guī)范化處理,使得學(xué)習(xí)數(shù)據(jù)更具普遍性,并且限定了范圍。

4.2 狀態(tài)空間的分割

傳統(tǒng)的Q函數(shù)采用表格進行狀態(tài)空間的離散,然而,當狀態(tài)空間是連續(xù)的且維數(shù)較多時,表格離散法會面臨“分割難題”,并且學(xué)習(xí)效率較低?？紤]到GRBF神經(jīng)網(wǎng)絡(luò)的離散性能以及泛化能力,可以采用GRBF神經(jīng)網(wǎng)絡(luò)對Q函數(shù)進行離散[12-13]。所謂泛化能力是指即使某個樣本沒有學(xué)習(xí),GRBF神經(jīng)網(wǎng)絡(luò)也能估計其輸出,而這是表格離散法不能做到的,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 基于GRBF神經(jīng)網(wǎng)絡(luò)的Q離散Fig.3 Q discretization based on GRBF neural network

由圖3可知,GRBF神經(jīng)網(wǎng)絡(luò)由4層組成,第1層為輸入層,第2層為離散層,第3層為隱含層,第4層為輸出層。其中,離散層的等寬離散公式為

(4)

可以算出,輸入狀態(tài)空間的樣本數(shù)目最大為54=625個,可以想象采用傳統(tǒng)離散方法的復(fù)雜性,其輸出層是對應(yīng)聯(lián)合動作a={a1,a2,…}的Q值,共有|A|×|A|=3×3=9個聯(lián)合動作,其計算公式為

式中,徑向基函數(shù)bi(s)的計算公式為

式中,ci是第i個基函數(shù)的中心,與s具有相同的維度；σi是第i個基函數(shù)的寬度;m是隱含層的個數(shù);‖s-ci‖為輸入狀態(tài)與基函數(shù)中心的歐氏距離。

4.3 Nash均衡的計算

定義1(混合策略) 一個Agent的混合策略為其行動空間的一個概率分布為

式中,aij為Agenti對應(yīng)的第j個行動,下面給出混合策略Nash均衡的定義。

Nash-Q算法采用Q函數(shù)代替支付函數(shù),假設(shè)學(xué)習(xí)Agent的支付函數(shù)為矩陣Amn,對手Agent的支付矩陣為Bmn,則根據(jù)Nash均衡的定義,雙方混合策略的求解可轉(zhuǎn)化為線性規(guī)劃問題，即

由于任何時刻

因此QA+QB=0,故CMAgent的博弈模型為零和博弈,故在已知自己的Q函數(shù)情況下,對手的支付函數(shù)可以設(shè)為Q函數(shù)的負,至此,可以實現(xiàn)Nash均衡的求解,而求解的Nash均衡對應(yīng)的Q值即可作為Agent的學(xué)習(xí)目標,如式(3)所示。

4.4 GRBF網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)訓(xùn)練

(5)

式中,idx(at)為執(zhí)行的行動的序號;TDNash為Nash強化信號,其計算公式為

TDNash的計算公式與式(3)是有區(qū)別的,即GRBF神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標為Nash均衡而非單一狀態(tài)-動作對的Q函數(shù)。

4.5 學(xué)習(xí)過程

學(xué)習(xí)過程以周期計數(shù),當一個回合的作戰(zhàn)結(jié)束時視為一個學(xué)習(xí)周期的結(jié)束,其學(xué)習(xí)框架如圖4所示。

圖4 基于Nash-Q的CMAgent認知學(xué)習(xí)框架Fig.4 CMAgent cognitive learning framework based on Nash-Q

基于Nash-Q的NISoS戰(zhàn)役層次CMAgent的決策過程如下:

步驟1初始化CMAgent的GRBF神經(jīng)網(wǎng)絡(luò),通過k-means聚類設(shè)置GRBF的中心和寬度,設(shè)定最大學(xué)習(xí)周期數(shù)K,令k=1;

步驟5執(zhí)行決策at,轉(zhuǎn)到新的狀態(tài)st+1;

步驟6如果仿真沒有分出勝負或者t<最大仿真步數(shù),返回步驟3,否則繼續(xù);

步驟8k=k+1,如果k>K,則結(jié)束學(xué)習(xí),否則轉(zhuǎn)到步驟2繼續(xù)。

5 仿真驗證

為了對本文所提算法的有效性進行充分驗證,在NISoS作戰(zhàn)仿真系統(tǒng)中共實現(xiàn)了3種決策方式,第1種是基于Nash-Q算法的決策,第2種是基于Q-Learning算法的決策,第3種是基于規(guī)則的決策,通過兩兩對抗的方式,驗證Nash-Q算法的優(yōu)越性。

5.1 仿真兵力部署

由于實驗的目的是為驗證基于Nash-Q的指控Agent智能決策算法,因此可以忽略對參戰(zhàn)兵力的指標參數(shù)進行關(guān)注,只研究在相同的兵力結(jié)構(gòu)下,在不同決策算法約束下的體系對抗效果,進而分析決策算法。在地空一體化體系對抗的作戰(zhàn)背景下,設(shè)置紅藍雙方的NISoS結(jié)構(gòu)均相同,且均只有1個編隊,對應(yīng)1個CMAgent,每個編隊由5個地基SCAgent、5個空基SCAgent、5個地基ATAgent、5個空基ATAgent、5個地基CCAgent、5個空基CCAgent、5個地基SUAgent、5個空基SUAgent以及1個地基RPAgent組成,由于性能指標不是研究內(nèi)容,這里省略每種類別Agent的性能指標介紹。

5.2 實驗設(shè)置

5.3 實驗結(jié)果分析

5.3.1 Nash-Q與Rule-based算法的對比

表2 基于Rule-based的CMAgent決策表

圖5 Nash-Q與Rule-based算法的總獎賞值隨周期的變化Fig.5 Total reward value of Nash-Q and Rule-based algorithm varying with the period

從圖5中可以，看出采用Rule-based的紅方在一開始占據(jù)優(yōu)勢,這是由于采用Nash-Q的藍方在初始時刻以探索為主,無任何經(jīng)驗,故在決策上不占優(yōu)勢,然而隨著學(xué)習(xí)周期的增加,Rall快速提升,在20個周期內(nèi)就已基本收斂。此外,采用Nash-Q算法的藍方無論是累積獎賞值還是獲勝率都要遠遠高于采用Rule-based決策算法的紅方,并且藍方獲勝概率幾乎為1,表明了Nash-Q的絕對優(yōu)勢。Nash-Q決策算法能夠優(yōu)于Rule-based決策算法的原因有兩個方面,一方面是由于強化學(xué)習(xí)特有的自適應(yīng)能力,能夠在對抗的過程中逐步掌握對手的弱點并進行相應(yīng)的針對,另一方面是由于相比Rule-based算法,Nash-Q能夠利用更多的態(tài)勢信息(4個維度共625種),從而能夠形成更準確的態(tài)勢判斷。

5.3.2 Nash-Q與Q-learning算法的對比

為了進一步驗證Nash-Q算法的學(xué)習(xí)能力,設(shè)計實現(xiàn)了基于Q-learning的CMAgent決策算法,其學(xué)習(xí)框架同Nash-Q,并且同樣采用GRBF神經(jīng)網(wǎng)絡(luò)對Q表進行離散,其區(qū)別之處在于網(wǎng)絡(luò)權(quán)值的更新,即

由于聯(lián)合Q-learning需要獲取其他CMAgent的歷史決策信息,占據(jù)通信帶寬,且實現(xiàn)起來比較復(fù)雜,采用了單Agent Q-learning算法,其中強化信號為

圖6 Nash-Q與Q-learning算法的總獎賞值隨學(xué)習(xí)周期的變化Fig.6 Total reward value of Nash-Q and Rule-based algorithm varying with the studying period

5.3.3 Nash-Q的離線決策效能評估

當Nash-Q算法學(xué)習(xí)到一個較好的GRBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)后,可以關(guān)閉對網(wǎng)絡(luò)參數(shù)的學(xué)習(xí),只根據(jù)已有的學(xué)習(xí)成果進行決策,即為離線決策。在離線決策試驗中,改變每個陣營編隊的數(shù)目以制造與在線學(xué)習(xí)階段不同的體系對抗情形,并與Rule-based算法進行對比,其中每個編隊的配置同前,得到的離線決策效能試驗結(jié)果如表3所示。其中,Nc代表編隊的數(shù)目,為了提高運行效率,實驗用機的數(shù)目不小于Nc,以確保每個CMAgent被分配到單獨的節(jié)點上。

表3 Nash-Q與Rule-based算法的離線決策效能對比

由表3可以明顯看出采用Nash-Q算法的藍方相比采用Rule-based算法的紅方具有與在線決策相當?shù)臎Q策優(yōu)勢,無論是平均總獎賞值還是獲勝率都要遠遠高于紅方,表明了離線Nash-Q算法學(xué)習(xí)成果的普適性,同時也表明了戰(zhàn)法戰(zhàn)略的通用性,可以作為決策知識庫使用。

6 結(jié)束語

傳統(tǒng)的針對體系作戰(zhàn)Agent的認知決策行為主要以BDI推理、反應(yīng)式為主,主要存在過于依賴專家經(jīng)驗、實現(xiàn)過程復(fù)雜以及無法適應(yīng)動態(tài)變化的環(huán)境等不足。為此,面向NISoS作戰(zhàn)仿真,建立了戰(zhàn)役層次指揮Agent不完全信息動態(tài)博弈模型,并基于Nash-Q實現(xiàn)了模型求解,可充分發(fā)揮強化學(xué)習(xí)以及博弈論各自的優(yōu)勢,滿足對復(fù)雜體系對抗環(huán)境的自適應(yīng)學(xué)習(xí)目的。此外,為了提高模型的泛化能力,采用GRBF神經(jīng)網(wǎng)絡(luò)對Q-table進行擬合離散。仿真實驗證明了Nash-Q算法的可行性和相比Q-leaning以及反應(yīng)式?jīng)Q策算法的優(yōu)越性,并表明了Nash-Q算法較好的離線決策效能。下一步的工作是以動態(tài)博弈模型作為紅藍雙方的共同決策依據(jù),盡可能去除非理性決策因素對對抗過程的影響,實現(xiàn)體系作戰(zhàn)效能的最大化、評估的客觀化、決策的智能化。

[1] GILMORE J M. 2015 Assessment of the ballistic missile defense system (BMDS)[R]. Washington, DC: Defense Technical Information Center, 2016.

[2] PATRICK T H, KEVIN M A. Integrated condition assessment for navy system of systems[J]. International Journal of System of Systems Engineering, 2012, 3(3/4): 356-367.

[3] YANG A, ABBASS H A, SARKER R. Landscape dynamics in multi-agent simulation combat systems[J]. Lecture Notes in Computer Science, 2004, 3339: 121-148.

[4] CONNORS C D. Agent-based modeling methodology for analyzing weapons systems[D]. Ohio: Air Force Institute of Technology, 2015.

[5] GISSELQUIST D E. Artificially intelligent air combat simulation agents[D]. Ohio: Air Force Institute of Technology,1994.

[6] ERCETIN A. Operational-level naval planning using agent-based simulation[R]. Monterey: Naval Post-graduate School, 2001.

[7] TSVETOVAT M,ATEK M. Dynamics of agent organizations: application to modeling irregular warfare[J]. Lecture Notes in Computer Science, 2009,5269: 141-153.

[8] CIL I, MALA M. A multi-agent architecture for modelling and simulation of small military unit combat in asymmetric warfare[J]. Expert Systems with Applications, 2010, 37(2): 1331-1343.

[9] GALSTYAN A. Continuous strategy replicator dynamics for multi-agent Q-learning[J]. Autonomous Agents and Multi-Agent Systems, 2013, 26(1): 37-53.

[10] 楊克巍,張少丁,岑凱輝,等.基于半自治agent的profit-sharing增強學(xué)習(xí)方法研究[J].計算機工程與應(yīng)用,2007,43(15): 72-95.

YANG K W, ZHANG S D, CEN K H, et al. Research of profit-sharing reinforcement learning method based on semi-autonomous agent[J]. Computer Engineering and Applications, 2007, 43(15): 72-75.

[11] 楊萍, 畢義明, 劉衛(wèi)東. 基于模糊馬爾可夫理論的機動智能體決策模型[J]. 系統(tǒng)工程與電子技術(shù), 2008, 30(3): 511-514.

YANG P, BI Y M, LIU W D. Decision-making model of tactics maneuver agent based on fuzzy Markov decision theory[J]. Systems Engineering and Electronics, 2008, 30(3): 511-514.

[12] 馬耀飛, 龔光紅, 彭曉源. 基于強化學(xué)習(xí)的航空兵認知行為模型[J]. 北京航空航天大學(xué)學(xué)報, 2010, 36(4): 379-383.

MA Y F,GONG G H,PENG X Y.Cognition behavior model for air combat based on reinforcement learning[J]. Journal of Beijing University of Aeronautics and Astronautics,2010,36(4): 379-383.

[13] 徐安,寇英信,于雷,等.基于RBF神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)飛行器隱蔽接敵策略[J].系統(tǒng)工程與電子技術(shù),2012,34(1):97-101.

XU A, KOU Y X, YU L, et al. Stealthy engagement maneuvering strategy with Q-learning based on RBFNN for air vehicles[J]. Systems Engineering and Electronics, 2012, 34(1): 97-101.

[14] 段勇, 徐心和. 基于多智能體強化學(xué)習(xí)的多機器人協(xié)作策略研究[J]. 系統(tǒng)工程理論與實踐, 2014, 34(5): 1305-1310.

DUAN Y, XU X H. Research on multi-robot cooperation strategy based on multi-agent reinforcement learning[J]. Systems Engineering-Theory & Practice,2014,34(5):1305-1310.

[15] 賈文生,向淑文,楊劍鋒,等.基于免疫粒子群算法的非合作博弈Nash均衡問題求解[J].計算機應(yīng)用研究,2012,29(1):28-31.

JIA W S, XIANG S W, YANG J F, et al. Solving Nash equilibrium for N-persons non-cooperative game based on immune particle swarm algorithm[J]. Application Research of Computers, 2012, 29(1): 28-31.