曾雋芳 牟佳 劉禹
人工智能技術(shù)的升級發(fā)展及應(yīng)用普及,正在推動(dòng)未來戰(zhàn)爭作戰(zhàn)環(huán)境的復(fù)雜性和作戰(zhàn)樣式的多樣性,許多國家把智能化無人作戰(zhàn)技術(shù)列為其軍事科技的重要發(fā)展方向[1-2].對于狀態(tài)空間趨于無限的陸海空天戰(zhàn)場態(tài)勢而言,如何最大化地獲取戰(zhàn)場信息,并針對不完全博弈對抗信息進(jìn)行有效態(tài)勢分析,從而快速自主制定作戰(zhàn)方案尤為重要.隨著任務(wù)復(fù)雜性和多樣性,單個(gè)無人作戰(zhàn)單元難以滿足任務(wù)需求,通過多個(gè)智能體作戰(zhàn)單元協(xié)調(diào)工作構(gòu)成集群系統(tǒng),可以更好地適用不同任務(wù)的要求.多個(gè)智能體集結(jié)而成的系統(tǒng),不僅僅是無人作戰(zhàn)單元數(shù)量上的擴(kuò)充和功能上的簡單相加,而是在統(tǒng)籌協(xié)調(diào)下有機(jī)地集成到一個(gè)系統(tǒng)之中,高度融合、整體聯(lián)動(dòng),實(shí)現(xiàn)群智感知、群智認(rèn)知、群智決策和作戰(zhàn)協(xié)同.
在多智能體系統(tǒng)(Multi-Agent System,MAS)如導(dǎo)彈集群、無人機(jī)群的協(xié)同作戰(zhàn)場景中,運(yùn)用智能博弈方法,構(gòu)建多種武器裝備協(xié)同作戰(zhàn)體系,可以提高在復(fù)雜戰(zhàn)場環(huán)境中的自適應(yīng)任務(wù)規(guī)劃以及群智決策能力.軍事博弈對抗具有多場景、多目標(biāo)、多層次、多要素的特點(diǎn),而且戰(zhàn)場信息不完全,基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL),能夠有效解決高動(dòng)態(tài)、不確定性及復(fù)雜戰(zhàn)場環(huán)境下的多智能決策問題[3],目前在感知、認(rèn)知、決策、控制等領(lǐng)域得到了廣泛關(guān)注[4].智能體之間的交互分合作和對抗兩種,比如對于導(dǎo)群群智決策,研究導(dǎo)彈間的飛行協(xié)同和任務(wù)協(xié)同,從多智能體對抗的角度來研究飛行器間的實(shí)時(shí)博弈[5-6].
AlphaGo 在棋類游戲中戰(zhàn)勝了人類選手,這標(biāo)志著人工智能技術(shù)取得重大突破[7].它所采用的深度學(xué)習(xí)技術(shù)能夠在棋類游戲中取得成功,一是棋類屬于完全信息博弈,環(huán)境和狀態(tài)的準(zhǔn)確信息已知,二是有效利用了監(jiān)督學(xué)習(xí)方法,基于模型和先驗(yàn)知識(shí),提升訓(xùn)練效率.而軍事博弈對抗是非完全信息博弈對抗,信息的不透明,無法進(jìn)行有效空間搜索和決策,且在對抗過程中需要遠(yuǎn)期計(jì)劃,同時(shí)需要保證極高的實(shí)時(shí)性,這對深度學(xué)習(xí)技術(shù)提出了新的挑戰(zhàn).由于信息的不確定性,無法使用深度學(xué)習(xí)方法進(jìn)行端對端有效的監(jiān)督學(xué)習(xí),針對非完全信息博弈對抗特點(diǎn),使用強(qiáng)化學(xué)習(xí)方法是目前的最優(yōu)選擇.而強(qiáng)化學(xué)習(xí)無法像監(jiān)督學(xué)習(xí)一樣針對明確目標(biāo)和有用信息進(jìn)行快速學(xué)習(xí),其學(xué)習(xí)效率較慢.
多智能體博弈對抗中,智能體和環(huán)境一次交互過程稱為一個(gè)回合,智能體首先通過感知手段對其所處的環(huán)境進(jìn)行觀測(Observation,O),然后對多源觀測信息進(jìn)行綜合處理得到態(tài)勢估計(jì)(Orientation,O),再根據(jù)綜合態(tài)勢進(jìn)行決策(Decision,D),最后按照決策策略采取相應(yīng)行動(dòng)(Action,A).此時(shí)一次完整的OODA 過程結(jié)束.智能體又開始新的一輪循環(huán),依此迭代下去,當(dāng)?shù)竭_(dá)終止?fàn)顟B(tài)(達(dá)到目標(biāo)狀態(tài)、累積收益最大等)時(shí),對抗過程就認(rèn)為結(jié)束了.
從指揮決策OODA 循環(huán)的過程關(guān)鍵點(diǎn)來看,智能體決策能力要素包括:觀測O,通過感知得到客觀狀態(tài)結(jié)果(戰(zhàn)場態(tài)勢圖、情報(bào)、報(bào)告等);判斷O,通過認(rèn)知判斷態(tài)勢趨勢(判斷、預(yù)測、趨勢等);決策D,運(yùn)用理性知識(shí)(指揮機(jī)制、作戰(zhàn)流程、條例條令、經(jīng)驗(yàn)等)和感性直覺(靈感、創(chuàng)造、性格、直覺等)分析決策;行動(dòng)A,根據(jù)決策策略執(zhí)行行動(dòng)(快速響應(yīng)、靈活應(yīng)對、動(dòng)態(tài)重構(gòu)、協(xié)作).
博弈對抗策略算法的設(shè)計(jì)和驗(yàn)證多是在推演平臺(tái)仿真環(huán)境上運(yùn)行,為將博弈算法反復(fù)驗(yàn)證后能夠移植到智能作戰(zhàn)平臺(tái)、武器裝備等無人系統(tǒng)上應(yīng)用部署,有必要研究效率更高、開銷更小的輕量級智能博弈算法.本文從多智能體群智決策存在的挑戰(zhàn)出發(fā),提出了基于深度網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)群智決策模型,討論了其中涉及的關(guān)鍵技術(shù),創(chuàng)新地從OODA 決策循環(huán)4 個(gè)關(guān)鍵環(huán)節(jié)對群智博弈算法提出輕量化思路,包括引入注意力機(jī)制的態(tài)勢感知、基于長短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LTSM)的態(tài)勢認(rèn)知、最優(yōu)Q 值函數(shù)求解和分層強(qiáng)化學(xué)習(xí)的決策策略、基于行為樹跳轉(zhuǎn)的動(dòng)態(tài)任務(wù)重組.
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是以馬爾科夫決策過程(Markov Decision Processes,MDP)為基礎(chǔ)模型進(jìn)行建模,智能體根據(jù)環(huán)境反饋決策其下一步的行動(dòng)策略.這里的策略就是智能體在何種狀態(tài)下采取何種行為,得到環(huán)境獎(jiǎng)勵(lì),并發(fā)生狀態(tài)轉(zhuǎn)移.基于深度網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)框架如圖1所示.智能體在與環(huán)境的交互中學(xué)習(xí),不斷迭代進(jìn)化,從而獲取智能提升.不完全信息的博弈對抗與強(qiáng)化學(xué)習(xí)原理一致,均屬于在不同步驟(狀態(tài))下的動(dòng)作序列和事件調(diào)配[8-9].
提出一種多智能體基于深度網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)群智決策模型,如圖2所示.在構(gòu)建的博弈對抗仿真環(huán)境中,多個(gè)智能體分別進(jìn)行學(xué)習(xí)訓(xùn)練,每個(gè)智能體行為決策生成最優(yōu)子策略,再通過多目標(biāo)的群智決策優(yōu)化模型,“協(xié)商”得到多智能體系統(tǒng)的最終決策.多智能體作用于環(huán)境和改變狀態(tài),通過效用評價(jià)函數(shù),環(huán)境反饋即時(shí)獎(jiǎng)勵(lì)和累積獎(jiǎng)勵(lì)給MAS.
圖1 深度強(qiáng)化學(xué)習(xí)框架Fig.1 Deep reinforcement learning framework
將深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)博弈優(yōu)化決策理論和作戰(zhàn)指揮行為知識(shí)相結(jié)合,結(jié)合數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)的學(xué)習(xí),進(jìn)行對抗空間特征提取、態(tài)勢認(rèn)知和策略優(yōu)化,并利用生成對抗網(wǎng)絡(luò)自動(dòng)生成大量高質(zhì)量對抗數(shù)據(jù),AI(智能體)在對抗過程中也不斷地進(jìn)行數(shù)據(jù)學(xué)習(xí)和迭代進(jìn)化,通過強(qiáng)化學(xué)習(xí)自我博弈提高對弈水平.
監(jiān)督學(xué)習(xí)容易取得突破是因?yàn)樗^為容易訓(xùn)練,監(jiān)督數(shù)據(jù)自帶正確答案,智能體可以快速抽象提取有用信號,每分鐘都在學(xué)到有用的信息.而強(qiáng)化學(xué)習(xí)沒有正確答案知道,無法保證都能提取到有用信息,難以實(shí)現(xiàn)初期的快速訓(xùn)練和對抗水平提高.為了保證訓(xùn)練效果和訓(xùn)練速度,使智能體快速達(dá)到較高對抗水平,首先讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)歷史對抗數(shù)據(jù)和人類經(jīng)驗(yàn),通過監(jiān)督學(xué)習(xí)方法縮短初期訓(xùn)練時(shí)間,訓(xùn)練出一個(gè)具備初始智能的AI 智能體.然后智能體利用強(qiáng)化學(xué)習(xí)的自監(jiān)督學(xué)習(xí)能力,自主地與環(huán)境進(jìn)行交互,在不斷地試錯(cuò)和環(huán)境反饋中實(shí)現(xiàn)進(jìn)步和提高.
模型中AI 的回報(bào)函數(shù)設(shè)計(jì)直接決定了算法的收斂性,它不需要標(biāo)注好的數(shù)據(jù)集,而是根據(jù)基礎(chǔ)規(guī)則利用自博弈產(chǎn)生數(shù)據(jù),再通過海量“試錯(cuò)”(trailand-error)的方法優(yōu)化產(chǎn)生行為的模型.模型的工作流程如圖3所示.
圖2 基于深度網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)群智決策模型結(jié)構(gòu)Fig.2 Structure of deep network based RL swarm intelligence decision making model
博弈對抗是一個(gè)動(dòng)態(tài)環(huán)境下的連續(xù)決策過程,很適合用強(qiáng)化學(xué)習(xí)機(jī)制實(shí)現(xiàn)智能體的自學(xué)習(xí)和自進(jìn)化.智能體利用神經(jīng)網(wǎng)絡(luò)從戰(zhàn)場態(tài)勢中提取作戰(zhàn)要素,在與環(huán)境的交互中學(xué)習(xí),選擇使值函數(shù)最大的動(dòng)作來不斷更新行為策略,生成最優(yōu)策略.多智能體的博弈對抗比單智能體更加復(fù)雜,涉及的關(guān)鍵技術(shù)[10-11]分析如下:
1)復(fù)雜對抗空間的多層次態(tài)勢感知.態(tài)勢感知的目標(biāo)是根據(jù)對抗空間現(xiàn)有狀態(tài),給出雙方最終戰(zhàn)果的概率預(yù)測.對多層次局部態(tài)勢作出判斷,結(jié)合戰(zhàn)場高層次語義理解,給智能體決策提供更多信息;設(shè)計(jì)一個(gè)有效結(jié)合復(fù)雜靜態(tài)數(shù)據(jù)和動(dòng)態(tài)序列數(shù)據(jù)的感知模型和相應(yīng)的學(xué)習(xí)算法,實(shí)現(xiàn)多層次態(tài)勢感知.
圖3 基于深度網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)群智決策模型工作流程Fig.3 Workfl w of deep network based RL swarm intelligence decision making model
2)基于動(dòng)力學(xué)模型的多分枝態(tài)勢分析.根據(jù)無人作戰(zhàn)單元的動(dòng)力學(xué)特性,建立智能體行為特征模型;AI 接收實(shí)時(shí)態(tài)勢數(shù)據(jù),結(jié)合裝備特征庫對敵方目標(biāo)分群;以執(zhí)行任務(wù)過程中遇到事件為分枝節(jié)點(diǎn),生成主分枝和旁路分枝,輸出多分枝態(tài)勢圖.AI 基于多分枝態(tài)勢分析不斷隨機(jī)“試錯(cuò)”以訓(xùn)練出適應(yīng)環(huán)境的決策網(wǎng)絡(luò)模型.
3)基于多算子策略的網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)協(xié)調(diào)優(yōu)化方法.利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行端到端的訓(xùn)練,輸出算子協(xié)同行動(dòng)最優(yōu)策略;基于智能體協(xié)調(diào)優(yōu)化技術(shù)從單一算子的行動(dòng)決策實(shí)現(xiàn)多算子的協(xié)同行動(dòng)決策,實(shí)現(xiàn)多目標(biāo)智能化快速匹配與融合處理的自主決策.
1972年天津手表廠在國內(nèi)批量銷售的“東風(fēng)牌”手表基礎(chǔ)上,專門生產(chǎn)了“海燕牌”手表用于出口國外市場。由于“海燕”一詞的含義不受西方文化認(rèn)可,1973年表廠將“海燕牌”更名為“海鷗牌”(SEA-GULL),并批量出口到國外市場。至1978年天津手表廠共出口“海鷗牌”手表1296萬只,從而成就了“海鷗牌”手表的在國際市場上的品牌地位,也使“海鷗牌”(包括其前身“海燕牌”)手表成為我國第一款出口國外市場的手表(圖17)。
4)多智能體協(xié)同任務(wù)規(guī)劃決策方法.強(qiáng)博弈對抗需要對多層次、多平臺(tái)、多武器、多目標(biāo)的火力打擊分配任務(wù)進(jìn)行合理建模和求解.根據(jù)當(dāng)前感知信息進(jìn)行態(tài)勢判斷,制定最優(yōu)行為決策策略,作出多層級任務(wù)規(guī)劃;采用行為樹跳轉(zhuǎn)的方法實(shí)現(xiàn)多智能體任務(wù)動(dòng)態(tài)重組;按照作戰(zhàn)能力和目標(biāo)特性,制定作戰(zhàn)單元和目標(biāo)分配方案.
從指揮決策OODA 循環(huán)的關(guān)鍵環(huán)節(jié),給出多智能體博弈對抗策略輕量化思路.
在多智能體協(xié)同作戰(zhàn)場景中,環(huán)境的變化并不是由某個(gè)智能體單獨(dú)作用的結(jié)果,而是所有智能體共同作用的結(jié)果,而且環(huán)境的狀態(tài)往往隨著智能體個(gè)數(shù)的增加而劇增,而深度強(qiáng)化學(xué)習(xí)算法是在與環(huán)境交互的數(shù)據(jù)中進(jìn)行學(xué)習(xí),導(dǎo)致在以原始戰(zhàn)場態(tài)勢數(shù)據(jù)作為輸入的DRL 算法中,算法的學(xué)習(xí)速度慢,而且環(huán)境出現(xiàn)新的狀態(tài),需要重新學(xué)習(xí).為更加有效地利用環(huán)境信息和智能體狀態(tài)信息,提出引入注意力機(jī)制的價(jià)值網(wǎng)絡(luò)模型,如圖4所示.
在價(jià)值網(wǎng)絡(luò)中加入自注意力機(jī)制(Selfattention),將環(huán)境中的狀態(tài)動(dòng)作對,作為注意力模塊輸入,計(jì)算注意力分?jǐn)?shù)并進(jìn)行權(quán)重的歸一化,得到注意力機(jī)制的值,引導(dǎo)智能體作出更好的決策[6].比如,在兵棋中從對抗序列(戰(zhàn)場態(tài)勢)中提取態(tài)勢特征,將注意力聚焦在關(guān)鍵特征上,對不同特征計(jì)算出不同注意力值,用于訓(xùn)練態(tài)勢分析網(wǎng)絡(luò);根據(jù)態(tài)勢估計(jì)進(jìn)行任務(wù)重組,將注意力聚焦在關(guān)鍵任務(wù)上,對不同任務(wù)計(jì)算出不同注意力值,用于訓(xùn)練博弈策略網(wǎng)絡(luò).
在多智能體的行為決策中引入注意力機(jī)制,能夠使智能體在態(tài)勢分析中聚焦到關(guān)鍵區(qū)域、關(guān)鍵時(shí)節(jié)和關(guān)鍵幀上,在任務(wù)規(guī)劃中更加有效地關(guān)注到關(guān)鍵智能體的狀態(tài)和行為,聚焦到關(guān)鍵任務(wù)上,從而學(xué)到對自己的行為有益的重要信息,進(jìn)而優(yōu)化自己的行為策略.博弈對抗中多智能體存在著合作和對抗兩種形式的交互,區(qū)別對待各智能體對決策的影響,此外信息通信對多智能體行為決策是非常重要的[13],而當(dāng)前智能體與其他智能體之間的注意力值就是重要的通信內(nèi)容.
圖4 引入注意力機(jī)制的價(jià)值網(wǎng)絡(luò)模型Fig.4 Value network model with attention mechanism
非完全信息博弈過程中由于戰(zhàn)爭迷霧的存在,無法了解全部信息,所以在進(jìn)行決策時(shí),需要對未知區(qū)域、未知對抗單元進(jìn)行有效的預(yù)估,從而制定較為合理、準(zhǔn)確的決策[14-15].由于對抗博弈是連續(xù)性的,在態(tài)勢判斷時(shí)需要綜合過去和現(xiàn)在的信息,通過信息綜合處理,估計(jì)未來態(tài)勢.人類指揮員對戰(zhàn)場態(tài)勢和威脅的整體判斷,依靠直覺和先驗(yàn)知識(shí),經(jīng)過思維分析而作出的快速反應(yīng),是一種“直覺決策”,或者說是大腦無意識(shí)存儲(chǔ)在長時(shí)記憶中的信息被某種外部刺激突然激活所帶來的即時(shí)反饋.借鑒人類的直覺認(rèn)知機(jī)制,我們提出基于LTSM 長時(shí)記憶的態(tài)勢認(rèn)知機(jī)制,對態(tài)勢數(shù)據(jù)進(jìn)行特征抽取和高層級語義理解,這樣在約簡的空間智能體進(jìn)行態(tài)勢判斷,可以有效地減少計(jì)算量.
循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network),可以實(shí)現(xiàn)信息的時(shí)間轉(zhuǎn)移,傳遞當(dāng)下的信息到下一刻的狀態(tài),這個(gè)傳遞過程中包含了記憶,可以把過去的信息往將來不停地迭代,于是神經(jīng)網(wǎng)絡(luò)細(xì)胞當(dāng)中就含有過去很多時(shí)刻的記憶,可以有效實(shí)現(xiàn)信息的綜合利用,為博弈對抗決策提供依據(jù).長短時(shí)記憶網(wǎng)絡(luò)LSTM 在RNN 的基礎(chǔ)上增加了一記憶細(xì)胞層(Cell),基于當(dāng)前得到的特征來更新其記憶單元,可以學(xué)習(xí)長期依賴信息.LSTM 的重復(fù)模塊結(jié)構(gòu)如圖5所示,在t時(shí)刻,LSTM 的輸入包括當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入值Xt、上一時(shí)刻的輸出值ht-1和細(xì)胞狀態(tài)Ct-1;而輸出包括當(dāng)前時(shí)刻的輸出值ht和細(xì)胞狀態(tài)Ct.LSTM 憑借這種結(jié)構(gòu),會(huì)選擇一些當(dāng)前狀態(tài)的信息傳遞下去,能夠利用已經(jīng)學(xué)習(xí)到的東西,同時(shí)遺忘一些信息,因而AI 對戰(zhàn)場態(tài)勢的認(rèn)知變得更聰明、更高效.
1)最優(yōu)Q值函數(shù)求解.利用最優(yōu)Q值函數(shù)的上界保證啟發(fā)式搜索到最優(yōu)解,結(jié)合啟發(fā)式搜索的精確性和蒙特卡洛方法隨機(jī)抽樣的一般性,有效地聯(lián)合歷史信息、動(dòng)作,進(jìn)行擴(kuò)展搜索樹獲得聯(lián)合觀測結(jié)果,得到整合最優(yōu)的Q值函數(shù).避免保存所有值函數(shù),只按需求解,在時(shí)間和內(nèi)存占用上得到改進(jìn).
2)分布式策略訓(xùn)練.針對非完全信息博弈對抗的智能體訓(xùn)練不僅要實(shí)現(xiàn)信息綜合處理和長時(shí)記憶處理,同時(shí)由于對抗單元較多,對抗任務(wù)復(fù)雜,無法利用統(tǒng)一函數(shù)進(jìn)行策略訓(xùn)練.采用“分而治之”的方法,針對不同單元、不同對抗任務(wù)設(shè)置不同的獎(jiǎng)勵(lì)函數(shù)進(jìn)行分別訓(xùn)練,生成子策略,增加訓(xùn)練速度和訓(xùn)練針對性.
3)分層協(xié)調(diào)優(yōu)化.把整體任務(wù)分解為不同層次的子任務(wù),在高層任務(wù)里確定最優(yōu)的策略更快可以收斂,在每個(gè)回合的博弈中,使每個(gè)子任務(wù)的決策在規(guī)模較小的空間求解.將動(dòng)作集和動(dòng)作序列進(jìn)行分組,減小決策次數(shù),實(shí)現(xiàn)決策的分層協(xié)調(diào)優(yōu)化,降低決策的維度.這種分層決策機(jī)制與軍事指揮層級也有契合度.
圖5 LSTM 的重復(fù)模塊結(jié)構(gòu)Fig.5 Repeat module structure of LSTM
面向復(fù)雜多變的戰(zhàn)場環(huán)境,多智能體系統(tǒng)作為一個(gè)協(xié)同作戰(zhàn)單元,應(yīng)具備任務(wù)規(guī)劃和任務(wù)重組能力,提出基于行為樹跳轉(zhuǎn)的任務(wù)動(dòng)態(tài)重組方法,如圖6所示.針對任務(wù)分解構(gòu)建行為樹,動(dòng)態(tài)平衡不同任務(wù)或任務(wù)組合的復(fù)雜度,實(shí)現(xiàn)任務(wù)的可重組和跳轉(zhuǎn);設(shè)計(jì)具有多層級任務(wù)可重組能力的AI 框架,解決可重組任務(wù)在學(xué)習(xí)空間中的平衡問題;研究可重組任務(wù)的回報(bào)函數(shù)與決策風(fēng)格之間的關(guān)系,以及對AI 任務(wù)規(guī)劃能力的影響.
行為樹(Behavior Tree)是一種包含了層級節(jié)點(diǎn)的樹結(jié)構(gòu),通過邏輯分離、邏輯關(guān)聯(lián)、邏輯抽象,可以有效地管理行為邏輯,協(xié)同多智能體決策行為.AI 的上層是一系列的行為樹,每個(gè)行為樹表示一個(gè)作戰(zhàn)任務(wù),如偵查、機(jī)動(dòng)、奪控、攻擊等.多個(gè)行為樹可以按策略重組,組合成能滿足不同需求的AI.樹的葉子節(jié)點(diǎn)就是AI 實(shí)際上要執(zhí)行的動(dòng)作,中間節(jié)點(diǎn)決定了AI 如何從根節(jié)點(diǎn)根據(jù)不同的情況沿著不同的路徑到達(dá)葉子節(jié)點(diǎn)的過程.行為樹是多層級的,通過調(diào)用不同功能的子行為樹,可以創(chuàng)建相互連接的子行為樹庫來構(gòu)造出一個(gè)復(fù)雜的AI.由多個(gè)AI 組合而成的多智能體系統(tǒng)也可以看成是一個(gè)超級AI.
通過規(guī)則任務(wù)編輯器構(gòu)建陸、海、空、聯(lián)合等不同作戰(zhàn)場景下的對抗任務(wù),基于行為樹跳轉(zhuǎn)的方法,將原子級任務(wù)層次化地動(dòng)態(tài)重組為分隊(duì)級任務(wù)和群隊(duì)級復(fù)雜作戰(zhàn)任務(wù),既可按預(yù)置的條件進(jìn)行任務(wù)節(jié)點(diǎn)跳轉(zhuǎn),也可按機(jī)器學(xué)習(xí)得到的概率進(jìn)行更靈活的跳轉(zhuǎn).AI 根據(jù)決策策略進(jìn)行任務(wù)重組,并為整個(gè)作戰(zhàn)過程選擇合理的規(guī)則AI 或?qū)W習(xí)AI,子任務(wù)AI 執(zhí)行分解后的任務(wù).規(guī)則AI 是戰(zhàn)術(shù)原則運(yùn)用,使用更精確的原子行為模型或搜索實(shí)現(xiàn)對經(jīng)驗(yàn)戰(zhàn)法的仿真,學(xué)習(xí)AI 是在與環(huán)境交互中學(xué)習(xí)進(jìn)化,使用不同的初始參數(shù)實(shí)現(xiàn)對新戰(zhàn)法的探索,同時(shí)利用不同噪聲水平生成不同難度級別.不同作戰(zhàn)能力、多種指揮風(fēng)格、不同難度等級的智能體集群,則構(gòu)成了一個(gè)復(fù)雜的多智能體系統(tǒng)MAS.
圖6 基于行為樹跳轉(zhuǎn)的任務(wù)動(dòng)態(tài)重組方法Fig.6 Mission dynamic reorganization method based on behavior tree jump
未來戰(zhàn)爭將是強(qiáng)博弈對抗環(huán)境,作戰(zhàn)空間較大,作戰(zhàn)環(huán)境極為復(fù)雜,進(jìn)行實(shí)時(shí)策略指揮決策相當(dāng)復(fù)雜.在博弈對抗中智能體需要完成復(fù)雜的智能行為,對戰(zhàn)場中的各種突發(fā)事件或事件組合作出符合人類模式的處理和決策.針對多智能體無人系統(tǒng)計(jì)算資源有限、高實(shí)時(shí)性、內(nèi)存空間小、數(shù)據(jù)傳輸受限等問題,本文在分析多智能體群智博弈對抗的關(guān)鍵技術(shù)基礎(chǔ)上,提出了基于深度網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)群智決策模型,并從指揮決策OODA 循環(huán)的關(guān)鍵環(huán)節(jié)給出多智能體博弈對抗策略輕量化思路.在構(gòu)建的動(dòng)態(tài)場景中進(jìn)行多智能體作戰(zhàn)推演,保留所有訓(xùn)練中產(chǎn)生的歷史版本,并在其之間進(jìn)行對戰(zhàn),建立博弈對抗池.而環(huán)境的不穩(wěn)定性使得博弈對抗池中的經(jīng)驗(yàn)失效,智能體需要不斷對抗進(jìn)化,可以利用某些個(gè)體學(xué)到的有效信息,有效地運(yùn)用在博弈里,同時(shí)選擇出那些最強(qiáng)的策略,最終的訓(xùn)練結(jié)果是一個(gè)達(dá)到納什均衡狀態(tài)的最強(qiáng)策略池.多智能體系統(tǒng)通過行為樹跳轉(zhuǎn)動(dòng)態(tài)重構(gòu)任務(wù),應(yīng)對不同場景和事件,有效地挖掘戰(zhàn)場信息,高效地生成作戰(zhàn)策略,以最小的代價(jià)完成作戰(zhàn)任務(wù),實(shí)現(xiàn)在復(fù)雜戰(zhàn)場環(huán)境中自主快速地群智決策和作戰(zhàn)協(xié)同.