陳軍,梁晶,程龍,佟龑
1. 西北工業(yè)大學(xué) 電子信息學(xué)院,西安 710072 2. 空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,西安 710077
為謀求遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手的軍事優(yōu)勢(shì),克服高性能先進(jìn)武器平臺(tái)造價(jià)昂貴、研發(fā)周期過長(zhǎng)等難題,美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)確立了“體系綜合技術(shù)和試驗(yàn)(SOSITE)”項(xiàng)目,旨在通過體系的方法把包含武器、傳感器和任務(wù)等系統(tǒng)的航空作戰(zhàn)能力分布于大量可互操作的有人/無人平臺(tái)上,促進(jìn)最新技術(shù)在現(xiàn)有航空作戰(zhàn)系統(tǒng)中快速且低成本地集成。目前,采用多架小型、低成本,傳感器少但多用途的無人作戰(zhàn)飛機(jī)組成編隊(duì),執(zhí)行壓制敵防空力量(SEAD)任務(wù)成為一種較為典型應(yīng)用模式。
協(xié)同態(tài)勢(shì)感知與決策作為“觀察-判斷-決策-行動(dòng)(OODA)”任務(wù)回路的關(guān)鍵技術(shù)環(huán)節(jié)引起了國(guó)內(nèi)外廣泛的重視,其中,無人機(jī)編隊(duì)在復(fù)雜不確定戰(zhàn)場(chǎng)環(huán)境下,如何自主實(shí)施可解釋的決策推理,提供合理的攻擊決策方案對(duì)于增強(qiáng)指揮人員的決策優(yōu)勢(shì),提升編隊(duì)作戰(zhàn)效能尤為重要。
目前,無人機(jī)攻擊決策建模主要采用的是專家系統(tǒng)、影響圖、貝葉斯網(wǎng)絡(luò)、微分對(duì)策、強(qiáng)化學(xué)習(xí)、模糊規(guī)則等方法,一般可分為基于知識(shí)驅(qū)動(dòng)和基于數(shù)據(jù)驅(qū)動(dòng)2類。知識(shí)驅(qū)動(dòng)的方法具備較強(qiáng)的解釋性,決策推理簡(jiǎn)單高效,但準(zhǔn)確度較低,適用于戰(zhàn)場(chǎng)態(tài)勢(shì)簡(jiǎn)單、熟悉,決策時(shí)效性要求較高的情況;數(shù)據(jù)驅(qū)動(dòng)的方法具有較強(qiáng)的學(xué)習(xí)進(jìn)化能力,但決策推理效率低,對(duì)數(shù)據(jù)的完備性和準(zhǔn)確性要求高,適用于戰(zhàn)場(chǎng)態(tài)勢(shì)復(fù)雜、陌生,決策時(shí)效性要求適中的情況。
按照系統(tǒng)科學(xué)的觀點(diǎn),多無人機(jī)協(xié)同攻擊決策系統(tǒng)可被認(rèn)為是由多個(gè)自主系統(tǒng)構(gòu)成的具有涌現(xiàn)特性的系統(tǒng)的系統(tǒng)(System of System,SoS),其協(xié)同關(guān)系復(fù)雜、約束條件眾多、狀態(tài)空間維數(shù)高,求解難度大,需要從體系的角度構(gòu)建整體的決策建模框架。文獻(xiàn)[11]基于多智能體強(qiáng)化學(xué)習(xí)算法,提出了基于執(zhí)行-評(píng)判算法的集中式評(píng)判和分布式執(zhí)行的算法結(jié)構(gòu),提升無人機(jī)的學(xué)習(xí)能力的同時(shí)保證了訓(xùn)練收斂,并且滿足在線實(shí)時(shí)決策的需求。文獻(xiàn)[12]提出了一種智能自組織算法(ISOA)。采用分布式控制體系結(jié)構(gòu),將全局優(yōu)化問題分解為多個(gè)局部?jī)?yōu)化問題,幫助多無人機(jī)系統(tǒng)做出最優(yōu)決策。文獻(xiàn)[13]建立了多無人機(jī)博弈模型,提出了博弈支付函數(shù),并引入態(tài)勢(shì)矩陣來模擬戰(zhàn)爭(zhēng)信息的不確定性。文獻(xiàn)[14]采用影響圖分析法描述了多無人機(jī)協(xié)同空戰(zhàn)機(jī)動(dòng)決策過程,并建立決策模型,將多對(duì)多空戰(zhàn)模型轉(zhuǎn)換為一對(duì)一的版本。文獻(xiàn)[15]將群決策理論應(yīng)用于多無人機(jī)協(xié)同近距空戰(zhàn)機(jī)動(dòng)決策。首先確定機(jī)群中各決策點(diǎn)的決策偏好和決策效用權(quán)重,然后利用隨機(jī)風(fēng)險(xiǎn)準(zhǔn)則推測(cè)相應(yīng)的敵方?jīng)Q策模式。文獻(xiàn)[16]建立了不確定信息下無人機(jī)模糊態(tài)勢(shì)模型,并提出了一種異步一致性拍賣算法用于解決此種態(tài)勢(shì)模型下的空戰(zhàn)決策問題。
近些年來,將認(rèn)知科學(xué)、人工智能應(yīng)用于無人系統(tǒng)的決策問題研究成為重要趨勢(shì)。其中,模糊認(rèn)知圖(Fuzzy Cognitive Map,F(xiàn)CM)是一種可用于建模和模擬動(dòng)態(tài)系統(tǒng)知識(shí)表示和因果推理,為作戰(zhàn)任務(wù)提供決策支持的有效工具。
因此,本文將借鑒人的決策心智模式,設(shè)計(jì)包含感性和理性2條實(shí)施路線的決策機(jī)制,采用智能體模糊認(rèn)知圖(Agent-Based Fuzzy Cognitive Map,ABFCM)建立多無人機(jī)協(xié)同攻擊決策系統(tǒng)模型框架,采用模糊灰色認(rèn)知圖(Fuzzy Grey Cognitive Map,F(xiàn)GCM)建立多無人機(jī)協(xié)同態(tài)勢(shì)感知模型與攻擊決策模型,并通過引入直覺模糊集提高決策輸出閾值選取的客觀性。同時(shí),為減少對(duì)專家知識(shí)的依賴,采用動(dòng)量梯度下降學(xué)習(xí)算法提高模型的學(xué)習(xí)進(jìn)化能力。
經(jīng)典的FCM模型由概念節(jié)點(diǎn)、有向弧及其關(guān)聯(lián)權(quán)值矩陣組成。節(jié)點(diǎn)表示系統(tǒng)的屬性、特征、性能等;有向弧表示節(jié)點(diǎn)間的影響關(guān)系,影響程度由關(guān)聯(lián)權(quán)值矩陣描述,整個(gè)FCM通過各概念之間的因果關(guān)系以及相互作用來模擬復(fù)雜系統(tǒng)行為。FCM能將輸入映射為輸出的收斂狀態(tài):固定點(diǎn)或極限環(huán),也可能終止于“混沌”發(fā)散狀態(tài)。由于FCM建模方法簡(jiǎn)單、靈活以及在不同應(yīng)用場(chǎng)景良好的適應(yīng)性和易用性,衍生出了許多擴(kuò)展模型。其中,ABFCM模型的每個(gè)節(jié)點(diǎn)可以是不同的智能體(Agent),擁有各自的推理算法,通過消息傳遞機(jī)制(Message)與其他節(jié)點(diǎn)相互作用,當(dāng)每個(gè)節(jié)點(diǎn)算法一致時(shí),又將回歸到經(jīng)典的FCM,適用于分布式?jīng)Q策系統(tǒng)的建模,如圖1所示。
圖1 經(jīng)典FCM與ABFCM的映射關(guān)系Fig.1 Mapping between classical FCM and ABFCM
式(1)為經(jīng)典FCM節(jié)點(diǎn)狀態(tài)推理模型:
(1)
式中:()、()分別表示時(shí)刻原因節(jié)點(diǎn)和結(jié)果節(jié)點(diǎn)的狀態(tài)值;為第個(gè)概念節(jié)點(diǎn)對(duì)第個(gè)概念節(jié)點(diǎn)的因果關(guān)聯(lián)權(quán)值;為系統(tǒng)中概念節(jié)點(diǎn)的總個(gè)數(shù);,∈[0,1],分別表示原因節(jié)點(diǎn)綜合影響和節(jié)點(diǎn)自身狀態(tài)所占的比重。表示概念節(jié)點(diǎn)的激活函數(shù),具有多種表達(dá)形式。
ABFCM是將經(jīng)典FCM中的節(jié)點(diǎn)映射為智能體,其節(jié)點(diǎn)狀態(tài)的推理方程由式(1)變換成式(2)的形式:
,…,)
(2)
相比于經(jīng)典FCM、FGCM的節(jié)點(diǎn)和權(quán)值均用灰數(shù)來表示,可充分表達(dá)系統(tǒng)模型的不確定性特征,如圖2所示。
圖2 經(jīng)典FCM與FGCM關(guān)系示意圖Fig.2 Mapping between classical FCM and FGCM
(3)
(4)
FGCM的節(jié)點(diǎn)狀態(tài)值推理公式為
(5)
式中:表示節(jié)點(diǎn)前一時(shí)刻狀態(tài)值對(duì)當(dāng)前狀態(tài)值的影響,取值范圍為[0,1]。
激活(·)主要有sigmoid型和tanh型,分別對(duì)應(yīng)節(jié)點(diǎn)狀態(tài)值屬于[0,1]和[-1,1]這2種情況。
(6)
(7)
式中:為參數(shù),取值越大,激活函數(shù)越陡峭。
其中,灰數(shù)的加法、乘法運(yùn)算法則為
(8)
?×?=
(9)
將灰數(shù)轉(zhuǎn)化為準(zhǔn)確值的操作過程稱為白化(Whitenization),白化的一般公式為
(10)
將不同類型的無人機(jī)按照SoS的角度進(jìn)行任務(wù)功能集成,可以建立基于ABFCM的多無人機(jī)協(xié)同攻擊決策系統(tǒng)模型框架,它包含態(tài)勢(shì)感知和攻擊決策2個(gè)部分,如圖3所示。
態(tài)勢(shì)感知部分主要由目標(biāo)識(shí)別與狀態(tài)估計(jì)Agent、意圖預(yù)測(cè)與威脅估計(jì)Agent、攻擊任務(wù)安全性估計(jì)Agent和攻擊效果估計(jì)Agent組成。各個(gè)功能的Agent在多無人機(jī)通信組網(wǎng)的支持下,按照ABFCM 的消息機(jī)制協(xié)同工作。
在攻擊決策部分,主要由基于杏仁核決策的感性攻擊決策推理Agent和基于直覺模糊集的理性攻擊決策推理Agent組成。感性攻擊決策主要針對(duì)敵我態(tài)勢(shì)簡(jiǎn)單且有歷史決策案例支持下的快速?zèng)Q策推理;理性攻擊決策主要針對(duì)敵我態(tài)勢(shì)復(fù)雜且缺乏專家知識(shí)支持下的因果決策推理。
圖3 基于ABFCM的協(xié)同攻擊決策系統(tǒng)模型框架Fig.3 Model framework of cooperative attack decision system based on ABFCM
戰(zhàn)場(chǎng)態(tài)勢(shì)感知模塊的主要任務(wù)是基于環(huán)境、目標(biāo)和無人機(jī)編隊(duì)的數(shù)據(jù)和信息進(jìn)行綜合與處理,形成對(duì)態(tài)勢(shì)的理解和預(yù)測(cè),為攻擊決策推理提供信息支持??紤]到戰(zhàn)場(chǎng)環(huán)境的對(duì)抗性,利用FGCM在不確定性表達(dá)和推理上的模型特點(diǎn),分別建立各個(gè)功能Agent的因果推理模型。
如圖4為目標(biāo)狀態(tài)識(shí)別與狀態(tài)估計(jì)FGCM模型,表1為模型概念節(jié)點(diǎn)定義。
圖4 基于FGCM的目標(biāo)識(shí)別與狀態(tài)估計(jì)因果推理模型Fig.4 Causal reasoning model for target recognition and state estimation based on FGCM
參照FGCM模型方法,對(duì)于?、?、?這類可直接由傳感器測(cè)量得到的節(jié)點(diǎn),只需根據(jù)數(shù)據(jù)的最大、最小值將其進(jìn)行灰數(shù)形式表達(dá)即可。目標(biāo)類型?為綜合防空系統(tǒng),一般包括:地面防空雷達(dá)、指揮通信所、導(dǎo)彈發(fā)射車。目標(biāo)載荷類型?一般包括:雷達(dá)、導(dǎo)彈、通信電臺(tái)。對(duì)于目標(biāo)載荷狀態(tài)?,雷達(dá)工作狀態(tài)主要包括:搜素、跟蹤、制導(dǎo)、靜默;導(dǎo)彈工作狀態(tài)主要包括:未發(fā)射、瞄準(zhǔn)、發(fā)射;通信電臺(tái)工作狀態(tài)主要包括:未工作、間歇工作、正常工作?;诠?jié)點(diǎn)?和?的狀態(tài)信息,目標(biāo)識(shí)別與狀態(tài)估計(jì)Agent采用數(shù)據(jù)結(jié)構(gòu)化封裝的形式,將模型推理得到的目標(biāo)狀態(tài)節(jié)點(diǎn)(?)信息通過ABFCM的消息傳遞機(jī)制與態(tài)勢(shì)感知模塊中的其他Agent進(jìn)行信息交互。
表1 目標(biāo)識(shí)別與狀態(tài)估計(jì)FGCM模型節(jié)點(diǎn)定義
如圖5為意圖預(yù)測(cè)與威脅估計(jì)FGCM模型,表2為模型概念節(jié)點(diǎn)定義。
圖5 基于FGCM的意圖預(yù)測(cè)與威脅估計(jì)因果推理模型Fig.5 Causal reasoning model for intention prediction and threat estimation based on FGCM
意圖預(yù)測(cè)與威脅估計(jì)FGCM模型中,輸入節(jié)點(diǎn)狀態(tài)值的量化規(guī)則如下:
由于雷達(dá)的工作過程為先搜索后跟蹤,節(jié)點(diǎn)?的評(píng)估為雷達(dá)搜索能力與跟蹤能力的并聯(lián)綜合,兩者的具體計(jì)算方法見文獻(xiàn)[25]。
表2 意圖預(yù)測(cè)與威脅估計(jì)FGCM模型節(jié)點(diǎn)定義
?=·
(11)
目標(biāo)機(jī)動(dòng)性能?是指目標(biāo)采取一系列機(jī)動(dòng)動(dòng)作來改變相對(duì)態(tài)勢(shì)的能力,由操作效能系數(shù)以及機(jī)動(dòng)參數(shù)來進(jìn)行量化,與的具體計(jì)算方法見文獻(xiàn)[26]。
?=(·)
(12)
目標(biāo)干擾壓制能力?是指敵方干擾設(shè)備干擾我方通信與電子設(shè)備的作戰(zhàn)效能的能力,影響因素較多,不做詳細(xì)贅述,參考文獻(xiàn)[27]。
目標(biāo)火力打擊能力?是指敵方可對(duì)我方造成的最大毀傷程度。表示第種類型武器的命中概率,為第種武器的數(shù)量,為武器類型總數(shù)。
(13)
目標(biāo)載荷狀態(tài)?量化規(guī)則為:雷達(dá){靜默:0.1,搜索:0.3,跟蹤:0.6,制導(dǎo):0.9},導(dǎo)彈{未發(fā)射:0.1,瞄準(zhǔn):0.5,發(fā)射:0.9},通信電臺(tái){未工作:0.1,間歇:0.5;正常:0.8}。
目標(biāo)位置優(yōu)勢(shì)?的評(píng)估為角度優(yōu)勢(shì)、距離優(yōu)勢(shì)、高度優(yōu)勢(shì)的綜合,、以及的計(jì)算方法參考文獻(xiàn)[28]。
(14)
目標(biāo)運(yùn)動(dòng)優(yōu)勢(shì)?即目標(biāo)當(dāng)前速度對(duì)位置的改變能力。其中,為我方速度,為敵方目標(biāo)速度,為我方最佳速度。
(15)
目標(biāo)協(xié)同優(yōu)勢(shì)?包括了目標(biāo)與其他敵方戰(zhàn)場(chǎng)實(shí)體之間信息的通信能力和實(shí)體之間相互協(xié)同工作的能力。
?=(·)
(16)
數(shù)據(jù)鏈的通信能力評(píng)估方法參考文獻(xiàn)[29],目標(biāo)之間的協(xié)同能力的計(jì)算公式為
(17)
式中:為同類目標(biāo)對(duì)任務(wù)過程的輔助度;表示異類目標(biāo)對(duì)任務(wù)的輔助度;,分別為同類目標(biāo)和異類目標(biāo)的數(shù)量。
經(jīng)過模型因果推理可得到目標(biāo)意圖的短暫預(yù)測(cè)和當(dāng)前威脅的估計(jì)。同樣,模型輸出節(jié)點(diǎn)(?)的信息可以通過消息機(jī)制傳遞,支持攻擊決策Agent模型的因果推理工作。
如圖6所示為攻擊任務(wù)安全性估計(jì)FGCM模型,表3為模型概念節(jié)點(diǎn)定義。
圖6 基于FGCM的攻擊任務(wù)安全性估計(jì)因果推理模型Fig.6 Causal reasoning model of attack task security estimation based on FGCM
攻擊任務(wù)安全性估計(jì)FGCM模型的輸入節(jié)點(diǎn)主要是戰(zhàn)場(chǎng)態(tài)勢(shì)信息,具體量化規(guī)則如下:
對(duì)于無人機(jī)來說,自然環(huán)境狀態(tài)?主要考慮地形狀態(tài)Te和大氣環(huán)境狀態(tài)At的影響。
?=(·Te+·At)
(18)
式中:和為影響系數(shù),地形狀態(tài)Te的量化規(guī)則為:{山地:0.9,高原:0.7,丘陵:0.5,盆地:0.3,平原:0.1}。大氣環(huán)境狀態(tài)At的歸一化公式為
表3 攻擊任務(wù)安全性估計(jì)FGCM模型節(jié)點(diǎn)定義
(19)
式中:為標(biāo)準(zhǔn)大氣密度;為飛機(jī)所在海拔的實(shí)際大氣密度。
電磁環(huán)境狀態(tài)?的評(píng)估為頻譜占用度,時(shí)間占有度,相對(duì)功率強(qiáng)度EP的綜合。
(20)
我方無人機(jī)生存狀態(tài)?的評(píng)估函數(shù)如下,其中表示被擊毀或鎖定的無人機(jī)數(shù)量。
?=08-02
(21)
對(duì)抗措施?分為軟對(duì)抗和硬對(duì)抗措施,量化規(guī)則為:{均完備:1,缺少軟對(duì)抗措施:0.7,缺少硬對(duì)抗措施:0.5,無對(duì)抗措施:0}。
數(shù)據(jù)通信能力?與單位時(shí)間內(nèi)傳遞的信息量、節(jié)點(diǎn)數(shù)、傳輸速率有關(guān),同2.2節(jié)的。
攻擊任務(wù)安全性估計(jì)Agent同時(shí)接收意圖預(yù)測(cè)與威脅估計(jì)Agent傳遞的目標(biāo)威脅程度節(jié)點(diǎn)(?)信息,經(jīng)過模型因果推理得到攻擊任務(wù)安全程度節(jié)點(diǎn)(?)狀態(tài)值,用于支持攻擊決策Agent模型的因果推理工作。
如圖7為攻擊效果估計(jì)FGCM模型,表4為模型概念節(jié)點(diǎn)定義。
圖7 基于FGCM的攻擊效果估計(jì)因果推理模型Fig.7 Causal inference model of attack effect estimation based on FGCM
表4 攻擊效果估計(jì)FGCM模型節(jié)點(diǎn)定義Table 4 Meaning of node of attack effect estimation model
攻擊效果估計(jì)FGCM模型中的輸入節(jié)點(diǎn)狀態(tài)值的確定主要基于態(tài)勢(shì)感知模塊中的其他Agent提供的信息。目標(biāo)戰(zhàn)術(shù)協(xié)同能力?由協(xié)同探測(cè)能力、協(xié)同防御能力、電子對(duì)抗能力以及指揮控制角色等因素來綜合評(píng)估。協(xié)同探測(cè)能力、協(xié)同防御能力與目標(biāo)在綜合防空系統(tǒng)中的部署位置有關(guān)。目標(biāo)軍事與戰(zhàn)術(shù)價(jià)值?、電子對(duì)抗能力以及指揮控制角色與目標(biāo)類型有關(guān),具體量化值如表5所示。
表5 目標(biāo)類型與部分節(jié)點(diǎn)狀態(tài)對(duì)應(yīng)表
目標(biāo)防御對(duì)抗能力?是指導(dǎo)彈發(fā)射車的防空能力,表示第個(gè)目標(biāo)可對(duì)我方的攔截次數(shù),max為攔截次數(shù)的最大值。
(22)
最后,經(jīng)過模型因果推理得到攻擊效果節(jié)點(diǎn)(?)狀態(tài)值,用于支持攻擊決策Agent模型的因果推理工作。
借鑒人腦杏仁核對(duì)外部刺激的快速應(yīng)激反應(yīng)機(jī)理,可以采用基于態(tài)勢(shì)-決策模板快速匹配的方法構(gòu)建感性攻擊決策推理模型。
假設(shè)典型的決策條件下,可將輸入節(jié)點(diǎn)狀態(tài)值與決策節(jié)點(diǎn)狀態(tài)值存儲(chǔ),如式(23)所示:
=[?,?,…,?:?+1]
(23)
式中:為存儲(chǔ)的態(tài)勢(shì)-決策模板數(shù)據(jù);為模板中輸入節(jié)點(diǎn)的總個(gè)數(shù);?,?,…,?為輸入節(jié)點(diǎn)的狀態(tài)值,?+1為決策節(jié)點(diǎn)的狀態(tài)值。當(dāng)出現(xiàn)新的態(tài)勢(shì)時(shí),可以快速與態(tài)勢(shì)-決策模板庫進(jìn)行匹配度計(jì)算,如式(24)所示:
(24)
理性攻擊決策模式適用于敵我戰(zhàn)場(chǎng)態(tài)勢(shì)信息非典型,知識(shí)經(jīng)驗(yàn)支持不足,決策時(shí)效性要求適中,推理模型可解釋等應(yīng)用場(chǎng)景。如圖8所示為基于FGCM的理性攻擊決策因果推理模型,表6為模型中各概念節(jié)點(diǎn)的定義。
圖8 基于FGCM的理性攻擊決策因果推理模型Fig.8 Causal reasoning model of rational attack decision based on FGCM
表6 理性攻擊決策FGCM模型節(jié)點(diǎn)定義Table 6 Meaning of node of rational attack decision model
理性攻擊決策FGCM模型的輸入節(jié)點(diǎn)狀態(tài)?、?、?由態(tài)勢(shì)感知模塊中的各個(gè)Agent經(jīng)過推理得到,節(jié)點(diǎn)?、?、?已在態(tài)勢(shì)感知部分進(jìn)行解釋,不再重復(fù)。
攻擊導(dǎo)彈作戰(zhàn)效能?的評(píng)估采用WSEIAC(Weapons System Effectiveness Industcy Advisory Committee)模型方法,將系統(tǒng)效能解析為相互獨(dú)立的3個(gè)部分:可用性′、可信性′和能力′。
?=(′·′·′)
(25)
(26)
式中:MTBF表示系統(tǒng)可靠性,與武器系統(tǒng)可靠度、導(dǎo)彈戰(zhàn)備值班可靠度等相關(guān);MTTR為維修性,與武器控制系統(tǒng)有關(guān)。
′=××
(27)
式中:為可靠性,為目標(biāo)識(shí)別與導(dǎo)引能力,為導(dǎo)彈的抗干擾能力。
(28)
式中:為歸一化后的武器裝備能力因子,共個(gè),為第個(gè)能力因子對(duì)應(yīng)的權(quán)值。
攻擊毀傷能力?由導(dǎo)彈命中概率和毀傷能力2部分確定。表示導(dǎo)彈命中距目標(biāo)第處位置時(shí)的毀傷能力,為命中第處的概率,為導(dǎo)彈有效毀傷范圍。
(29)
圖9 理性攻擊決策閾值的示意圖Fig.9 Description of rational attack decision threshold
3.3.1 直覺模糊集
設(shè)論域是一個(gè)非空集合,則上的直覺模糊集可以表示為
(30)
式中:()和()分別為論域中元素屬于的隸屬度和非隸屬度,即:
():→[0,1],∈|→()∈[0,1]
(31)
():→[0,1],∈|→()∈[0,1]
(32)
同時(shí)滿足∈, 0≤()+()≤1,則有
()=1-()-()
(33)
式中:()為元素屬于的猶豫度,用來描述元素是否屬于集合的不確定程度。對(duì)于任意的,有0≤()≤1。
3.3.2 損失函數(shù)
表7 損失函數(shù)Table 7 Loss function
3.3.3 攻擊決策閾值計(jì)算方法
根據(jù)攻擊決策模型推理節(jié)點(diǎn)狀態(tài)表構(gòu)建一個(gè)×直覺模糊決策矩陣,為攻擊決策模型節(jié)點(diǎn)個(gè)數(shù),為攻擊決策模型推理迭代次數(shù)。矩陣組成元素為(,),其中隸屬度為第個(gè)節(jié)點(diǎn)第次迭代推理后的狀態(tài)白化值,選定一個(gè)猶豫度后,按照公式=1--計(jì)算得到非隸屬度。
將評(píng)估指標(biāo)分為2類:成本性指標(biāo)和效益型指標(biāo),分別構(gòu)建損失函數(shù)矩陣。
效益型損失函數(shù)矩陣:
(34)
成本型損失函數(shù)矩陣:
(35)
式中:為自適應(yīng)風(fēng)險(xiǎn)規(guī)避系數(shù),公式為
(36)
式中:0≤≤05,與猶豫度有關(guān),猶豫度越低,的值就越高,表明對(duì)目標(biāo)信息的獲取越準(zhǔn)確,獲得更充足的目標(biāo)信息,分類越精確。
由于不同時(shí)刻的狀態(tài)值對(duì)攻擊決策的影響是不同的,越接近于當(dāng)前時(shí)刻對(duì)決策結(jié)果的影響越大,因此需要對(duì)不同時(shí)刻進(jìn)行時(shí)間序列賦權(quán),采用逆泊松分布法確定不同時(shí)間點(diǎn)的時(shí)間序列權(quán)值,得到動(dòng)態(tài)融合后的損失函數(shù)矩陣。
(37)
基于貝葉斯最小風(fēng)險(xiǎn)理論求得該目標(biāo)對(duì)應(yīng)的決策閾值:
(38)
(39)
為了減少理性攻擊決策FGCM模型對(duì)專家知識(shí)的依賴,采用學(xué)習(xí)算法來提高模型對(duì)數(shù)據(jù)樣本的參數(shù)學(xué)習(xí)能力具有較好的應(yīng)用前景。常用的FCM模型學(xué)習(xí)算法有:① Hebbain非監(jiān)督學(xué)習(xí)算法,學(xué)習(xí)速度快、精度低;② 種群學(xué)習(xí)算法,學(xué)習(xí)精度高、學(xué)習(xí)速度慢。本文采用基于動(dòng)量梯度下降(MGD)的學(xué)習(xí)算法以求同時(shí)兼顧模型的學(xué)習(xí)精度和速度。
梯度下降算法的基本原理如下:
(40)
常用目標(biāo)函數(shù)為均方誤差損失函數(shù)。
(41)
對(duì)于存在多個(gè)極值的誤差函數(shù),梯度下降算法易陷入局部最優(yōu),因而引入梯度動(dòng)量來克服。
(42)
式中:為時(shí)刻梯度的動(dòng)量,為權(quán)重因子。
① 初始節(jié)點(diǎn)間不存在因果關(guān)系時(shí),在學(xué)習(xí)后也不存在。即
(43)
② 初始節(jié)點(diǎn)之間存在因果關(guān)系時(shí),在學(xué)習(xí)后因果關(guān)系的正負(fù)符號(hào)不變。即
(44)
③ 學(xué)習(xí)過程中,每次迭代都需保持模糊權(quán)值的下界應(yīng)小于等于上界。即
(45)
基于MGD的FGCM學(xué)習(xí)算法實(shí)施步驟為:
按照表6順序獲取模型樣本數(shù)據(jù)。
由專家確定模型的初始關(guān)聯(lián)權(quán)值矩陣。
設(shè)計(jì)模型學(xué)習(xí)誤差損失函數(shù)。
(46)
采用反向傳播算法,權(quán)值變化量為
(47)
式中:Δ()為權(quán)值的變化量,?為學(xué)習(xí)率。當(dāng)采用sigmoid函數(shù)作為激活函數(shù)時(shí),對(duì)于任意連接權(quán)值?,其更新量為
(48)
其中:為動(dòng)量學(xué)習(xí)率。
每個(gè)權(quán)值的更新迭代計(jì)算公式如下:
()=(-1)+Δ()
(49)
經(jīng)過不斷迭代學(xué)習(xí),滿足以下條件時(shí),終止學(xué)習(xí)。
()≤error or≥max_iter
(50)
式中:error為學(xué)習(xí)算法可允許的最大誤差,max_iter為最大可迭代次數(shù)。
以4架無人機(jī)組成異構(gòu)無人機(jī)集群執(zhí)行SEAD(Suppression of Enemy Air Defense)任務(wù)為場(chǎng)景,開展協(xié)同攻擊決策模型和算法的案例仿真與分析,如圖10所示。我方無人機(jī)主要包括無人偵察飛機(jī)、無人機(jī)電子戰(zhàn)飛機(jī)和無人攻擊機(jī)等,敵方目標(biāo)主要是指綜合防空系統(tǒng)(Integrated Air Defense System,IADS),其中包括防空雷達(dá)車、指揮通信所、防空導(dǎo)彈車等類型的目標(biāo)。由于目標(biāo)具有較強(qiáng)的綜合對(duì)抗能力,且我方無人機(jī)由于功能和分工不同,需要在編隊(duì)通信組網(wǎng)的支持下協(xié)同完成戰(zhàn)場(chǎng)態(tài)勢(shì)感知和協(xié)同攻擊決策任務(wù)。
案例仿真與分析主要包括4個(gè)方面的內(nèi)容:① 態(tài)勢(shì)感知模塊仿真與分析,主要驗(yàn)證Agent模型推理的有效性;② 理性攻擊決策模型仿真與分析,重點(diǎn)驗(yàn)證基于直覺模糊集的決策閾值算法的有效性;③ 基于MGD的理性攻擊決策模型仿真與分析,對(duì)比不同學(xué)習(xí)算法在模型應(yīng)用中的性能差異;④ 感性攻擊決策模型仿真分析,驗(yàn)證態(tài)勢(shì)-決策模板快速匹配的有效性。
圖10 基于SEAD任務(wù)的多無人機(jī)協(xié)同攻擊決策示意圖Fig.10 Schematic diagram of multi-UAV cooperative attack decision-making based on SEAD mission
由于目標(biāo)識(shí)別和狀態(tài)估計(jì)的FGCM模型一般采用基于模糊規(guī)則庫的因果推理方法。該方法應(yīng)用較為廣泛,技術(shù)相對(duì)成熟,且仿真想定已明確敵方目標(biāo)為綜合防空系統(tǒng),故在此不再詳述。
1) 意圖預(yù)測(cè)與威脅估計(jì)Agent的仿真與分析
考慮到專家知識(shí)的主觀性,意圖預(yù)測(cè)與威脅估計(jì)FGCM模型的初始灰數(shù)權(quán)值矩陣為
模型各概念節(jié)點(diǎn)的初始狀態(tài)值以及因果推理后的狀態(tài)值如表8所示。
表8 意圖預(yù)測(cè)與威脅估計(jì)FGCM模型仿真結(jié)果
模型各概念節(jié)點(diǎn)的初始狀態(tài)值以及因果推理后的狀態(tài)值如表9所示。
表9 攻擊任務(wù)安全性估計(jì)FGCM模型仿真結(jié)果
3) 攻擊效果估計(jì)Agent的仿真與分析
模型的初始灰數(shù)權(quán)值矩陣為
模型各概念節(jié)點(diǎn)的初始狀態(tài)值以及因果推理后的狀態(tài)值如表10所示。
表10 攻擊效果估計(jì)FGCM模型仿真結(jié)果
通過對(duì)態(tài)勢(shì)感知模塊各個(gè)Agent的仿真,假定目標(biāo)是處于瞄準(zhǔn)狀態(tài)的導(dǎo)彈發(fā)射車,意圖預(yù)測(cè)與威脅估計(jì)Agent輸出的目標(biāo)威脅度為[0.71,0.76],攻擊任務(wù)安全性估計(jì)Agent輸出的攻擊任務(wù)安全度為[0.61,0.72],攻擊效果估計(jì)Agent輸出的攻擊效果為[0.42,0.53],各Agent 仿真推理結(jié)果與信息傳遞關(guān)系如圖11所示。
圖11 多無人機(jī)態(tài)勢(shì)感知模塊仿真過程與結(jié)果Fig.11 Simulation process and results of multi-UAV situation awareness module
在多無人機(jī)態(tài)勢(shì)感知的基礎(chǔ)上,對(duì)理性攻擊決策模型進(jìn)行仿真與分析。
基于專家知識(shí)設(shè)定節(jié)點(diǎn)初始權(quán)值矩陣,激活函數(shù)為sigmoid型,推理節(jié)點(diǎn)狀態(tài)如表11所示。
表11 攻擊決策FGCM模型仿真結(jié)果
推理結(jié)果分析:當(dāng)目標(biāo)威脅度較高,電磁環(huán)境和自然環(huán)境較好,但敵方防御能力較強(qiáng)時(shí),得到的推理決策結(jié)果值為[0.64, 0.72]。
根據(jù)3.3節(jié)攻擊決策閾值計(jì)算方法,此時(shí)的直覺模糊決策矩陣如下:
=
將8個(gè)評(píng)估指標(biāo)節(jié)點(diǎn)分為成本型指標(biāo){?,?}和效益型指標(biāo){?,?, ?,?,?,?},分別根據(jù)式(34) 和式(35)求得各自的損失函數(shù)矩陣。
由權(quán)值矩陣和不同時(shí)刻的時(shí)間序列權(quán)值=[0200 0,0266 7,0533 3]得到目標(biāo)屬性的綜合權(quán)重,動(dòng)態(tài)融合后得出此時(shí)損失函數(shù)矩陣如下:
根據(jù)式(38)和式(39)求得和分別為0.35和0.75,此時(shí)決策函數(shù)為
(51)
推理結(jié)果顯示,當(dāng)前的決策結(jié)果為不確定,需要繼續(xù)觀察分析。進(jìn)一步推理后,對(duì)攻擊決策的未來狀態(tài)進(jìn)行分析,發(fā)現(xiàn)由于?、?、?、?、?這些間接影響決策結(jié)果節(jié)點(diǎn)消息的傳遞成功,決策節(jié)點(diǎn)的狀態(tài)值為[0.78,0.84],白化后節(jié)點(diǎn)值為0.81。此時(shí)的決策結(jié)果為攻擊目標(biāo)。
按照上述仿真流程,假設(shè)2組不同戰(zhàn)場(chǎng)態(tài)勢(shì)下輸入初始節(jié)點(diǎn)狀態(tài)分別為
[03,04],[07,08],[04,04],
[03,04],[03,04],[0,0]]
[06,07],[01,02],[06,07],
[06,07],[05,06],[0,0]]
對(duì)于2個(gè)案例初步定性分析可知,案例1目標(biāo)威脅度高,環(huán)境安全性差,且敵方防御能力較強(qiáng),電磁環(huán)境和自然環(huán)境狀態(tài)一般,從而不利于攻擊;案例2目標(biāo)威脅度低,環(huán)境安全性好,且敵方防御能力較差,電磁環(huán)境和自然環(huán)境狀態(tài)好,此時(shí)的決策結(jié)果應(yīng)為攻擊。
將上述2組初始節(jié)點(diǎn)狀態(tài)分別輸入攻擊決策FGCM模型,案例1因果推理后得到的輸出狀態(tài)節(jié)點(diǎn)狀態(tài)值為[0.38,0.46],白化后節(jié)點(diǎn)狀態(tài)值為0.42,此時(shí)決策閾值和分別為0.53和0.81,即推理輸出結(jié)果為規(guī)避目標(biāo)。案例2因果推理后得到的輸出狀態(tài)節(jié)點(diǎn)狀態(tài)值為[0.76,0.82],白化后節(jié)點(diǎn)狀態(tài)值為0.79,此時(shí)決策閾值分別為0.36和0.68,即推理輸出結(jié)果為攻擊目標(biāo)。因此,2組決策推理輸出與案例初步定性分析結(jié)果吻合。
為了便于驗(yàn)證所提出的動(dòng)量梯度下降學(xué)習(xí)算法在FCM理論模型學(xué)習(xí)中的可行性,將4.2小節(jié)中節(jié)點(diǎn)權(quán)值矩陣、初始節(jié)點(diǎn)狀態(tài)以及各時(shí)刻的推理狀態(tài)值作為學(xué)習(xí)樣本數(shù)據(jù)。使用FCM模型常用的赫布學(xué)習(xí)算法(Hebbian)、遺傳算法(GA)以及本文提出的動(dòng)量梯度下降(MGD)學(xué)習(xí)算法,基于初始參數(shù)和統(tǒng)一迭代終止條件:(誤差error≤0.005,最大迭代次數(shù)max_iter=500)計(jì)算各學(xué)習(xí)算法的終止誤差和耗時(shí),學(xué)習(xí)算法效果如表12所示,誤差曲線如圖12所示。
表12 學(xué)習(xí)算法效果對(duì)比表Table 12 Comparison of effects of learning algorithms
圖12 學(xué)習(xí)算法誤差曲線圖Fig.12 Error curves of learning algorithms
表12中可以看出,Hebbian算法在經(jīng)過迭代后,算法快速滿足了最大迭代次數(shù)終止條件,計(jì)算得到的平均學(xué)習(xí)誤差為0.067,在所有算法中最大,但算法耗時(shí)最短為4.324 82 s。GA算法的學(xué)習(xí)精度為0.014,結(jié)合圖12,雖然在迭代200次后GA算法的誤差值已趨于穩(wěn)定,但由于不滿足迭代終止條件error≤0.005,所以在滿足最大迭代次數(shù)后,算法終止,整個(gè)過程花費(fèi)時(shí)間268.850 87 s。MGD算法的誤差值可以在較短的時(shí)間內(nèi)快速收斂,在計(jì)算到誤差值為0.002 38時(shí),算法耗時(shí)23.993 22 s。因此可以看出所提出的MGD學(xué)習(xí)算法相較于Hebbian算法,雖耗時(shí)長(zhǎng),但精度有大的提升;而相較于GA算法,耗時(shí)方面有大的改進(jìn),精確性和收斂性得到兼顧。
為了進(jìn)一步驗(yàn)證各學(xué)習(xí)算法的性能,考慮到專家知識(shí)可能受各種因素影響,在原有灰數(shù)權(quán)值的基礎(chǔ)上,將其上下限區(qū)間增大1倍和縮小1倍,形成3種不同灰度權(quán)值下的學(xué)習(xí)樣本數(shù)據(jù),使用上述3種學(xué)習(xí)算法進(jìn)行訓(xùn)練,分別得到各自的誤差曲線,如圖13所示。
從圖13可以看出,隨著權(quán)值灰度的減小,Hebbian算法和MGD算法的學(xué)習(xí)誤差值也在減小,而GA算法的表現(xiàn)沒有太大差別。圖13(a)中,在使用Hebbian學(xué)習(xí)算法進(jìn)行訓(xùn)練時(shí),權(quán)值灰度增大1倍,誤差曲線位置明顯升高,而縮小1倍的誤差曲線與基準(zhǔn)誤差曲線差異較小,說明Hebbian學(xué)習(xí)算法對(duì)于權(quán)值灰度變化的敏感性不穩(wěn)定;圖13(b)中,3條誤差曲線差異較小,且相對(duì)位置關(guān)系發(fā)生變化,說明GA算法對(duì)于權(quán)值灰度變化的敏感性較差;圖13(c)中,不同權(quán)值灰數(shù)下,MGD算法均能在較短的時(shí)間內(nèi)快速收斂,并且隨著權(quán)值灰數(shù)的減小,學(xué)習(xí)誤差值也在減小,說明MGD算法在不同權(quán)值灰度條件下的收斂性和敏感性均有較好表現(xiàn)。
圖13 不同權(quán)值灰度下各算法誤差曲線圖Fig.13 Error curve of learning algorithms with different weight greyness
最終,給出動(dòng)量梯度下降算法學(xué)習(xí)得到的FGCM模型權(quán)值矩陣如下:
?=
上述案例仿真結(jié)果表明,所提出的MGD算法可以快速減小誤差,并穩(wěn)定在一定范圍內(nèi),相比于其他學(xué)習(xí)算法能夠兼顧學(xué)習(xí)精度和收斂速度,且對(duì)于權(quán)值灰度變化的敏感性最好。
在獲得典型態(tài)勢(shì)下決策結(jié)果后,將其存儲(chǔ)在杏仁核決策模板庫中??梢詫?.2節(jié)理性攻擊決策FGCM模型的仿真結(jié)果作為典型的態(tài)勢(shì)模板存儲(chǔ)如下:
053],[08,08],[08,08],[04,
04],[06,06],[10,10]:[078,084]]
假設(shè),場(chǎng)景1態(tài)勢(shì)下的輸入節(jié)點(diǎn)的狀態(tài)為
[02,02],[075,075],[04,04],
[04,04],[06,06],[0,0]]
計(jì)算與模板態(tài)勢(shì)的相似度為:0.244 38。取=005,此時(shí)不滿足實(shí)施杏仁核決策的觸發(fā)條件,轉(zhuǎn)入理性攻擊決策推理模式。
假設(shè),場(chǎng)景2態(tài)勢(shì)下的輸入節(jié)點(diǎn)的狀態(tài)為
[08,08],[075,075],[04,04],
[06,06],[09,09],[0,0]]
計(jì)算與模板態(tài)勢(shì)的相似度為:0.034 4,小于誤差門限。此時(shí)觸發(fā)杏仁核決策模型,直接得出決策節(jié)點(diǎn)的狀態(tài)值[0.78,0.84]和決策結(jié)果“執(zhí)行攻擊”。決策計(jì)算過程簡(jiǎn)單快速,計(jì)算耗時(shí)為6.2 ms。
本文基于FCM及其擴(kuò)展模型,開展了復(fù)雜不確定戰(zhàn)場(chǎng)環(huán)境下的多無人機(jī)協(xié)同攻擊決策的建模研究,為提升多無人機(jī)執(zhí)行任務(wù)的決策優(yōu)勢(shì)提供了理論指導(dǎo)和應(yīng)用方法參考,主要工作包括:
1) 基于人的決策心智模式,從SoS的角度對(duì)多無人機(jī)進(jìn)行任務(wù)功能的集成,采用ABFCM建立了包含感性和理性2種決策模式的多無人機(jī)協(xié)同攻擊決策系統(tǒng)模型框架。
2) 基于ABFCM和FGCM建立了包含目標(biāo)識(shí)別與狀態(tài)估計(jì)Agent、意圖預(yù)測(cè)與威脅估計(jì)Agent、攻擊任務(wù)安全性估計(jì)Agent和攻擊效果估計(jì)Agent的多無人機(jī)戰(zhàn)場(chǎng)態(tài)勢(shì)感知模型,模塊化地支撐了協(xié)同攻擊決策模型的建立。
3) 基于人腦杏仁核機(jī)理建立了態(tài)勢(shì)-決策模板快速匹配的感性攻擊決策模型,實(shí)現(xiàn)了簡(jiǎn)單、熟悉戰(zhàn)場(chǎng)態(tài)勢(shì)條件下的快速?zèng)Q策。
4) 基于直覺模糊集的決策閾值算法建立了理性攻擊決策模型,采用MGD學(xué)習(xí)算法進(jìn)一步提高了決策模型的學(xué)習(xí)進(jìn)化能力,降低了建模工作對(duì)專家知識(shí)的依賴。