基于FCM的多無人機(jī)協(xié)同攻擊決策建模方法

2022-09-05 12:26:44陳軍梁晶程龍佟龑

航空學(xué)報(bào) 2022年7期

陳軍，梁晶，程龍，佟龑

1. 西北工業(yè)大學(xué) 電子信息學(xué)院，西安 710072 2. 空軍工程大學(xué) 信息與導(dǎo)航學(xué)院，西安 710077

為謀求遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手的軍事優(yōu)勢(shì)，克服高性能先進(jìn)武器平臺(tái)造價(jià)昂貴、研發(fā)周期過長(zhǎng)等難題，美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)確立了“體系綜合技術(shù)和試驗(yàn)(SOSITE)”項(xiàng)目，旨在通過體系的方法把包含武器、傳感器和任務(wù)等系統(tǒng)的航空作戰(zhàn)能力分布于大量可互操作的有人/無人平臺(tái)上，促進(jìn)最新技術(shù)在現(xiàn)有航空作戰(zhàn)系統(tǒng)中快速且低成本地集成。目前，采用多架小型、低成本，傳感器少但多用途的無人作戰(zhàn)飛機(jī)組成編隊(duì)，執(zhí)行壓制敵防空力量(SEAD)任務(wù)成為一種較為典型應(yīng)用模式。

協(xié)同態(tài)勢(shì)感知與決策作為“觀察-判斷-決策-行動(dòng)(OODA)”任務(wù)回路的關(guān)鍵技術(shù)環(huán)節(jié)引起了國(guó)內(nèi)外廣泛的重視，其中，無人機(jī)編隊(duì)在復(fù)雜不確定戰(zhàn)場(chǎng)環(huán)境下，如何自主實(shí)施可解釋的決策推理，提供合理的攻擊決策方案對(duì)于增強(qiáng)指揮人員的決策優(yōu)勢(shì)，提升編隊(duì)作戰(zhàn)效能尤為重要。

目前，無人機(jī)攻擊決策建模主要采用的是專家系統(tǒng)、影響圖、貝葉斯網(wǎng)絡(luò)、微分對(duì)策、強(qiáng)化學(xué)習(xí)、模糊規(guī)則等方法，一般可分為基于知識(shí)驅(qū)動(dòng)和基于數(shù)據(jù)驅(qū)動(dòng)2類。知識(shí)驅(qū)動(dòng)的方法具備較強(qiáng)的解釋性，決策推理簡(jiǎn)單高效，但準(zhǔn)確度較低，適用于戰(zhàn)場(chǎng)態(tài)勢(shì)簡(jiǎn)單、熟悉，決策時(shí)效性要求較高的情況；數(shù)據(jù)驅(qū)動(dòng)的方法具有較強(qiáng)的學(xué)習(xí)進(jìn)化能力，但決策推理效率低，對(duì)數(shù)據(jù)的完備性和準(zhǔn)確性要求高，適用于戰(zhàn)場(chǎng)態(tài)勢(shì)復(fù)雜、陌生，決策時(shí)效性要求適中的情況。

按照系統(tǒng)科學(xué)的觀點(diǎn)，多無人機(jī)協(xié)同攻擊決策系統(tǒng)可被認(rèn)為是由多個(gè)自主系統(tǒng)構(gòu)成的具有涌現(xiàn)特性的系統(tǒng)的系統(tǒng)(System of System，SoS)，其協(xié)同關(guān)系復(fù)雜、約束條件眾多、狀態(tài)空間維數(shù)高，求解難度大，需要從體系的角度構(gòu)建整體的決策建模框架。文獻(xiàn)[11]基于多智能體強(qiáng)化學(xué)習(xí)算法，提出了基于執(zhí)行-評(píng)判算法的集中式評(píng)判和分布式執(zhí)行的算法結(jié)構(gòu)，提升無人機(jī)的學(xué)習(xí)能力的同時(shí)保證了訓(xùn)練收斂，并且滿足在線實(shí)時(shí)決策的需求。文獻(xiàn)[12]提出了一種智能自組織算法(ISOA)。采用分布式控制體系結(jié)構(gòu)，將全局優(yōu)化問題分解為多個(gè)局部?jī)?yōu)化問題，幫助多無人機(jī)系統(tǒng)做出最優(yōu)決策。文獻(xiàn)[13]建立了多無人機(jī)博弈模型，提出了博弈支付函數(shù)，并引入態(tài)勢(shì)矩陣來模擬戰(zhàn)爭(zhēng)信息的不確定性。文獻(xiàn)[14]采用影響圖分析法描述了多無人機(jī)協(xié)同空戰(zhàn)機(jī)動(dòng)決策過程，并建立決策模型，將多對(duì)多空戰(zhàn)模型轉(zhuǎn)換為一對(duì)一的版本。文獻(xiàn)[15]將群決策理論應(yīng)用于多無人機(jī)協(xié)同近距空戰(zhàn)機(jī)動(dòng)決策。首先確定機(jī)群中各決策點(diǎn)的決策偏好和決策效用權(quán)重，然后利用隨機(jī)風(fēng)險(xiǎn)準(zhǔn)則推測(cè)相應(yīng)的敵方?jīng)Q策模式。文獻(xiàn)[16]建立了不確定信息下無人機(jī)模糊態(tài)勢(shì)模型，并提出了一種異步一致性拍賣算法用于解決此種態(tài)勢(shì)模型下的空戰(zhàn)決策問題。

近些年來，將認(rèn)知科學(xué)、人工智能應(yīng)用于無人系統(tǒng)的決策問題研究成為重要趨勢(shì)。其中，模糊認(rèn)知圖(Fuzzy Cognitive Map，F(xiàn)CM)是一種可用于建模和模擬動(dòng)態(tài)系統(tǒng)知識(shí)表示和因果推理，為作戰(zhàn)任務(wù)提供決策支持的有效工具。

因此，本文將借鑒人的決策心智模式，設(shè)計(jì)包含感性和理性2條實(shí)施路線的決策機(jī)制，采用智能體模糊認(rèn)知圖(Agent-Based Fuzzy Cognitive Map，ABFCM)建立多無人機(jī)協(xié)同攻擊決策系統(tǒng)模型框架，采用模糊灰色認(rèn)知圖(Fuzzy Grey Cognitive Map，F(xiàn)GCM)建立多無人機(jī)協(xié)同態(tài)勢(shì)感知模型與攻擊決策模型，并通過引入直覺模糊集提高決策輸出閾值選取的客觀性。同時(shí)，為減少對(duì)專家知識(shí)的依賴，采用動(dòng)量梯度下降學(xué)習(xí)算法提高模型的學(xué)習(xí)進(jìn)化能力。

1 多無人機(jī)協(xié)同攻擊決策系統(tǒng)模型

1.1 模糊認(rèn)知圖及其擴(kuò)展模型

經(jīng)典的FCM模型由概念節(jié)點(diǎn)、有向弧及其關(guān)聯(lián)權(quán)值矩陣組成。節(jié)點(diǎn)表示系統(tǒng)的屬性、特征、性能等；有向弧表示節(jié)點(diǎn)間的影響關(guān)系，影響程度由關(guān)聯(lián)權(quán)值矩陣描述，整個(gè)FCM通過各概念之間的因果關(guān)系以及相互作用來模擬復(fù)雜系統(tǒng)行為。FCM能將輸入映射為輸出的收斂狀態(tài)：固定點(diǎn)或極限環(huán)，也可能終止于“混沌”發(fā)散狀態(tài)。由于FCM建模方法簡(jiǎn)單、靈活以及在不同應(yīng)用場(chǎng)景良好的適應(yīng)性和易用性，衍生出了許多擴(kuò)展模型。其中，ABFCM模型的每個(gè)節(jié)點(diǎn)可以是不同的智能體(Agent)，擁有各自的推理算法，通過消息傳遞機(jī)制(Message)與其他節(jié)點(diǎn)相互作用，當(dāng)每個(gè)節(jié)點(diǎn)算法一致時(shí)，又將回歸到經(jīng)典的FCM，適用于分布式?jīng)Q策系統(tǒng)的建模，如圖1所示。

圖1 經(jīng)典FCM與ABFCM的映射關(guān)系Fig.1 Mapping between classical FCM and ABFCM

式(1)為經(jīng)典FCM節(jié)點(diǎn)狀態(tài)推理模型：

(1)

式中：()、()分別表示時(shí)刻原因節(jié)點(diǎn)和結(jié)果節(jié)點(diǎn)的狀態(tài)值；為第個(gè)概念節(jié)點(diǎn)對(duì)第個(gè)概念節(jié)點(diǎn)的因果關(guān)聯(lián)權(quán)值；為系統(tǒng)中概念節(jié)點(diǎn)的總個(gè)數(shù)；,∈[0,1]，分別表示原因節(jié)點(diǎn)綜合影響和節(jié)點(diǎn)自身狀態(tài)所占的比重。表示概念節(jié)點(diǎn)的激活函數(shù)，具有多種表達(dá)形式。

ABFCM是將經(jīng)典FCM中的節(jié)點(diǎn)映射為智能體，其節(jié)點(diǎn)狀態(tài)的推理方程由式(1)變換成式(2)的形式：

,…,)

(2)

相比于經(jīng)典FCM、FGCM的節(jié)點(diǎn)和權(quán)值均用灰數(shù)來表示，可充分表達(dá)系統(tǒng)模型的不確定性特征，如圖2所示。

圖2 經(jīng)典FCM與FGCM關(guān)系示意圖Fig.2 Mapping between classical FCM and FGCM

(3)

(4)

FGCM的節(jié)點(diǎn)狀態(tài)值推理公式為

(5)

式中：表示節(jié)點(diǎn)前一時(shí)刻狀態(tài)值對(duì)當(dāng)前狀態(tài)值的影響，取值范圍為[0,1]。

激活(·)主要有sigmoid型和tanh型，分別對(duì)應(yīng)節(jié)點(diǎn)狀態(tài)值屬于[0,1]和[-1,1]這2種情況。

(6)

(7)

式中：為參數(shù)，取值越大，激活函數(shù)越陡峭。

其中，灰數(shù)的加法、乘法運(yùn)算法則為

(8)

?×?=

(9)

將灰數(shù)轉(zhuǎn)化為準(zhǔn)確值的操作過程稱為白化(Whitenization)，白化的一般公式為

(10)

1.2 基于ABFCM的協(xié)同攻擊決策系統(tǒng)模型

將不同類型的無人機(jī)按照SoS的角度進(jìn)行任務(wù)功能集成，可以建立基于ABFCM的多無人機(jī)協(xié)同攻擊決策系統(tǒng)模型框架，它包含態(tài)勢(shì)感知和攻擊決策2個(gè)部分，如圖3所示。

態(tài)勢(shì)感知部分主要由目標(biāo)識(shí)別與狀態(tài)估計(jì)Agent、意圖預(yù)測(cè)與威脅估計(jì)Agent、攻擊任務(wù)安全性估計(jì)Agent和攻擊效果估計(jì)Agent組成。各個(gè)功能的Agent在多無人機(jī)通信組網(wǎng)的支持下，按照ABFCM 的消息機(jī)制協(xié)同工作。

在攻擊決策部分，主要由基于杏仁核決策的感性攻擊決策推理Agent和基于直覺模糊集的理性攻擊決策推理Agent組成。感性攻擊決策主要針對(duì)敵我態(tài)勢(shì)簡(jiǎn)單且有歷史決策案例支持下的快速?zèng)Q策推理；理性攻擊決策主要針對(duì)敵我態(tài)勢(shì)復(fù)雜且缺乏專家知識(shí)支持下的因果決策推理。

圖3 基于ABFCM的協(xié)同攻擊決策系統(tǒng)模型框架Fig.3 Model framework of cooperative attack decision system based on ABFCM

2 多無人機(jī)戰(zhàn)場(chǎng)態(tài)勢(shì)感知建模

戰(zhàn)場(chǎng)態(tài)勢(shì)感知模塊的主要任務(wù)是基于環(huán)境、目標(biāo)和無人機(jī)編隊(duì)的數(shù)據(jù)和信息進(jìn)行綜合與處理，形成對(duì)態(tài)勢(shì)的理解和預(yù)測(cè)，為攻擊決策推理提供信息支持?？紤]到戰(zhàn)場(chǎng)環(huán)境的對(duì)抗性，利用FGCM在不確定性表達(dá)和推理上的模型特點(diǎn)，分別建立各個(gè)功能Agent的因果推理模型。

2.1 目標(biāo)識(shí)別與狀態(tài)估計(jì)Agent的FGCM模型

如圖4為目標(biāo)狀態(tài)識(shí)別與狀態(tài)估計(jì)FGCM模型，表1為模型概念節(jié)點(diǎn)定義。

圖4 基于FGCM的目標(biāo)識(shí)別與狀態(tài)估計(jì)因果推理模型Fig.4 Causal reasoning model for target recognition and state estimation based on FGCM

參照FGCM模型方法，對(duì)于?、?、?這類可直接由傳感器測(cè)量得到的節(jié)點(diǎn)，只需根據(jù)數(shù)據(jù)的最大、最小值將其進(jìn)行灰數(shù)形式表達(dá)即可。目標(biāo)類型?為綜合防空系統(tǒng)，一般包括：地面防空雷達(dá)、指揮通信所、導(dǎo)彈發(fā)射車。目標(biāo)載荷類型?一般包括：雷達(dá)、導(dǎo)彈、通信電臺(tái)。對(duì)于目標(biāo)載荷狀態(tài)?，雷達(dá)工作狀態(tài)主要包括：搜素、跟蹤、制導(dǎo)、靜默；導(dǎo)彈工作狀態(tài)主要包括：未發(fā)射、瞄準(zhǔn)、發(fā)射；通信電臺(tái)工作狀態(tài)主要包括：未工作、間歇工作、正常工作?；诠?jié)點(diǎn)?和?的狀態(tài)信息，目標(biāo)識(shí)別與狀態(tài)估計(jì)Agent采用數(shù)據(jù)結(jié)構(gòu)化封裝的形式，將模型推理得到的目標(biāo)狀態(tài)節(jié)點(diǎn)(?)信息通過ABFCM的消息傳遞機(jī)制與態(tài)勢(shì)感知模塊中的其他Agent進(jìn)行信息交互。

表1 目標(biāo)識(shí)別與狀態(tài)估計(jì)FGCM模型節(jié)點(diǎn)定義

2.2 意圖預(yù)測(cè)與威脅估計(jì)Agent的FGCM模型

如圖5為意圖預(yù)測(cè)與威脅估計(jì)FGCM模型，表2為模型概念節(jié)點(diǎn)定義。

圖5 基于FGCM的意圖預(yù)測(cè)與威脅估計(jì)因果推理模型Fig.5 Causal reasoning model for intention prediction and threat estimation based on FGCM

意圖預(yù)測(cè)與威脅估計(jì)FGCM模型中，輸入節(jié)點(diǎn)狀態(tài)值的量化規(guī)則如下：

由于雷達(dá)的工作過程為先搜索后跟蹤，節(jié)點(diǎn)?的評(píng)估為雷達(dá)搜索能力與跟蹤能力的并聯(lián)綜合，兩者的具體計(jì)算方法見文獻(xiàn)[25]。

表2 意圖預(yù)測(cè)與威脅估計(jì)FGCM模型節(jié)點(diǎn)定義

?=·

(11)

目標(biāo)機(jī)動(dòng)性能?是指目標(biāo)采取一系列機(jī)動(dòng)動(dòng)作來改變相對(duì)態(tài)勢(shì)的能力，由操作效能系數(shù)以及機(jī)動(dòng)參數(shù)來進(jìn)行量化，與的具體計(jì)算方法見文獻(xiàn)[26]。

?=(·)

(12)

目標(biāo)干擾壓制能力?是指敵方干擾設(shè)備干擾我方通信與電子設(shè)備的作戰(zhàn)效能的能力，影響因素較多，不做詳細(xì)贅述，參考文獻(xiàn)[27]。

目標(biāo)火力打擊能力?是指敵方可對(duì)我方造成的最大毀傷程度。表示第種類型武器的命中概率，為第種武器的數(shù)量，為武器類型總數(shù)。

(13)

目標(biāo)載荷狀態(tài)?量化規(guī)則為：雷達(dá){靜默：0.1，搜索：0.3，跟蹤：0.6，制導(dǎo)：0.9}，導(dǎo)彈{未發(fā)射：0.1，瞄準(zhǔn)：0.5，發(fā)射：0.9}，通信電臺(tái){未工作：0.1，間歇：0.5；正常：0.8}。

目標(biāo)位置優(yōu)勢(shì)?的評(píng)估為角度優(yōu)勢(shì)、距離優(yōu)勢(shì)、高度優(yōu)勢(shì)的綜合，、以及的計(jì)算方法參考文獻(xiàn)[28]。

(14)

目標(biāo)運(yùn)動(dòng)優(yōu)勢(shì)?即目標(biāo)當(dāng)前速度對(duì)位置的改變能力。其中，為我方速度，為敵方目標(biāo)速度，為我方最佳速度。

(15)

目標(biāo)協(xié)同優(yōu)勢(shì)?包括了目標(biāo)與其他敵方戰(zhàn)場(chǎng)實(shí)體之間信息的通信能力和實(shí)體之間相互協(xié)同工作的能力。

?=(·)

(16)

數(shù)據(jù)鏈的通信能力評(píng)估方法參考文獻(xiàn)[29]，目標(biāo)之間的協(xié)同能力的計(jì)算公式為

(17)

式中：為同類目標(biāo)對(duì)任務(wù)過程的輔助度;表示異類目標(biāo)對(duì)任務(wù)的輔助度;,分別為同類目標(biāo)和異類目標(biāo)的數(shù)量。

經(jīng)過模型因果推理可得到目標(biāo)意圖的短暫預(yù)測(cè)和當(dāng)前威脅的估計(jì)。同樣，模型輸出節(jié)點(diǎn)(?)的信息可以通過消息機(jī)制傳遞，支持攻擊決策Agent模型的因果推理工作。

2.3 攻擊任務(wù)安全性估計(jì)Agent的FGCM模型

如圖6所示為攻擊任務(wù)安全性估計(jì)FGCM模型，表3為模型概念節(jié)點(diǎn)定義。

圖6 基于FGCM的攻擊任務(wù)安全性估計(jì)因果推理模型Fig.6 Causal reasoning model of attack task security estimation based on FGCM

攻擊任務(wù)安全性估計(jì)FGCM模型的輸入節(jié)點(diǎn)主要是戰(zhàn)場(chǎng)態(tài)勢(shì)信息，具體量化規(guī)則如下：

對(duì)于無人機(jī)來說，自然環(huán)境狀態(tài)?主要考慮地形狀態(tài)Te和大氣環(huán)境狀態(tài)At的影響。

?=(·Te+·At)

(18)

式中：和為影響系數(shù)，地形狀態(tài)Te的量化規(guī)則為：{山地：0.9，高原：0.7，丘陵：0.5，盆地：0.3，平原：0.1}。大氣環(huán)境狀態(tài)At的歸一化公式為

表3 攻擊任務(wù)安全性估計(jì)FGCM模型節(jié)點(diǎn)定義

(19)

式中：為標(biāo)準(zhǔn)大氣密度;為飛機(jī)所在海拔的實(shí)際大氣密度。

電磁環(huán)境狀態(tài)?的評(píng)估為頻譜占用度，時(shí)間占有度，相對(duì)功率強(qiáng)度EP的綜合。

(20)

我方無人機(jī)生存狀態(tài)?的評(píng)估函數(shù)如下，其中表示被擊毀或鎖定的無人機(jī)數(shù)量。

?=08-02

(21)

對(duì)抗措施?分為軟對(duì)抗和硬對(duì)抗措施，量化規(guī)則為：{均完備：1，缺少軟對(duì)抗措施：0.7，缺少硬對(duì)抗措施：0.5，無對(duì)抗措施：0}。

數(shù)據(jù)通信能力?與單位時(shí)間內(nèi)傳遞的信息量、節(jié)點(diǎn)數(shù)、傳輸速率有關(guān)，同2.2節(jié)的。

攻擊任務(wù)安全性估計(jì)Agent同時(shí)接收意圖預(yù)測(cè)與威脅估計(jì)Agent傳遞的目標(biāo)威脅程度節(jié)點(diǎn)(?)信息，經(jīng)過模型因果推理得到攻擊任務(wù)安全程度節(jié)點(diǎn)(?)狀態(tài)值，用于支持攻擊決策Agent模型的因果推理工作。

2.4 攻擊效果估計(jì)Agent的FGCM模型

如圖7為攻擊效果估計(jì)FGCM模型，表4為模型概念節(jié)點(diǎn)定義。

圖7 基于FGCM的攻擊效果估計(jì)因果推理模型Fig.7 Causal inference model of attack effect estimation based on FGCM

表4 攻擊效果估計(jì)FGCM模型節(jié)點(diǎn)定義Table 4 Meaning of node of attack effect estimation model

攻擊效果估計(jì)FGCM模型中的輸入節(jié)點(diǎn)狀態(tài)值的確定主要基于態(tài)勢(shì)感知模塊中的其他Agent提供的信息。目標(biāo)戰(zhàn)術(shù)協(xié)同能力?由協(xié)同探測(cè)能力、協(xié)同防御能力、電子對(duì)抗能力以及指揮控制角色等因素來綜合評(píng)估。協(xié)同探測(cè)能力、協(xié)同防御能力與目標(biāo)在綜合防空系統(tǒng)中的部署位置有關(guān)。目標(biāo)軍事與戰(zhàn)術(shù)價(jià)值?、電子對(duì)抗能力以及指揮控制角色與目標(biāo)類型有關(guān)，具體量化值如表5所示。

表5 目標(biāo)類型與部分節(jié)點(diǎn)狀態(tài)對(duì)應(yīng)表

目標(biāo)防御對(duì)抗能力?是指導(dǎo)彈發(fā)射車的防空能力，表示第個(gè)目標(biāo)可對(duì)我方的攔截次數(shù)，max為攔截次數(shù)的最大值。

(22)

最后，經(jīng)過模型因果推理得到攻擊效果節(jié)點(diǎn)(?)狀態(tài)值，用于支持攻擊決策Agent模型的因果推理工作。

3 多無人機(jī)協(xié)同攻擊決策建模

3.1 感性攻擊決策Agent的杏仁核模板匹配模型

借鑒人腦杏仁核對(duì)外部刺激的快速應(yīng)激反應(yīng)機(jī)理，可以采用基于態(tài)勢(shì)-決策模板快速匹配的方法構(gòu)建感性攻擊決策推理模型。

假設(shè)典型的決策條件下，可將輸入節(jié)點(diǎn)狀態(tài)值與決策節(jié)點(diǎn)狀態(tài)值存儲(chǔ)，如式(23)所示:

=[?,?,…,?:?+1]

(23)

式中：為存儲(chǔ)的態(tài)勢(shì)-決策模板數(shù)據(jù);為模板中輸入節(jié)點(diǎn)的總個(gè)數(shù);?,?,…,?為輸入節(jié)點(diǎn)的狀態(tài)值，?+1為決策節(jié)點(diǎn)的狀態(tài)值。當(dāng)出現(xiàn)新的態(tài)勢(shì)時(shí)，可以快速與態(tài)勢(shì)-決策模板庫進(jìn)行匹配度計(jì)算，如式(24)所示:

(24)

3.2 理性攻擊決策Agent的FGCM模型

理性攻擊決策模式適用于敵我戰(zhàn)場(chǎng)態(tài)勢(shì)信息非典型，知識(shí)經(jīng)驗(yàn)支持不足，決策時(shí)效性要求適中，推理模型可解釋等應(yīng)用場(chǎng)景。如圖8所示為基于FGCM的理性攻擊決策因果推理模型，表6為模型中各概念節(jié)點(diǎn)的定義。

圖8 基于FGCM的理性攻擊決策因果推理模型Fig.8 Causal reasoning model of rational attack decision based on FGCM

表6 理性攻擊決策FGCM模型節(jié)點(diǎn)定義Table 6 Meaning of node of rational attack decision model

理性攻擊決策FGCM模型的輸入節(jié)點(diǎn)狀態(tài)?、?、?由態(tài)勢(shì)感知模塊中的各個(gè)Agent經(jīng)過推理得到，節(jié)點(diǎn)?、?、?已在態(tài)勢(shì)感知部分進(jìn)行解釋，不再重復(fù)。

攻擊導(dǎo)彈作戰(zhàn)效能?的評(píng)估采用WSEIAC(Weapons System Effectiveness Industcy Advisory Committee)模型方法，將系統(tǒng)效能解析為相互獨(dú)立的3個(gè)部分：可用性′、可信性′和能力′。

?=(′·′·′)

(25)

(26)

式中：MTBF表示系統(tǒng)可靠性，與武器系統(tǒng)可靠度、導(dǎo)彈戰(zhàn)備值班可靠度等相關(guān)；MTTR為維修性，與武器控制系統(tǒng)有關(guān)。

′=××

(27)

式中：為可靠性，為目標(biāo)識(shí)別與導(dǎo)引能力，為導(dǎo)彈的抗干擾能力。

(28)

式中：為歸一化后的武器裝備能力因子，共個(gè)，為第個(gè)能力因子對(duì)應(yīng)的權(quán)值。

攻擊毀傷能力?由導(dǎo)彈命中概率和毀傷能力2部分確定。表示導(dǎo)彈命中距目標(biāo)第處位置時(shí)的毀傷能力，為命中第處的概率，為導(dǎo)彈有效毀傷范圍。

(29)

圖9 理性攻擊決策閾值的示意圖Fig.9 Description of rational attack decision threshold

3.3 基于直覺模糊集的理性攻擊決策閾值算法

3.3.1 直覺模糊集

設(shè)論域是一個(gè)非空集合，則上的直覺模糊集可以表示為

(30)

式中：()和()分別為論域中元素屬于的隸屬度和非隸屬度，即：

():→[0,1],∈|→()∈[0,1]

(31)

():→[0,1],∈|→()∈[0,1]

(32)

同時(shí)滿足∈, 0≤()+()≤1，則有

()=1-()-()

(33)

式中：()為元素屬于的猶豫度，用來描述元素是否屬于集合的不確定程度。對(duì)于任意的，有0≤()≤1。

3.3.2 損失函數(shù)

表7 損失函數(shù)Table 7 Loss function

3.3.3 攻擊決策閾值計(jì)算方法

根據(jù)攻擊決策模型推理節(jié)點(diǎn)狀態(tài)表構(gòu)建一個(gè)×直覺模糊決策矩陣，為攻擊決策模型節(jié)點(diǎn)個(gè)數(shù)，為攻擊決策模型推理迭代次數(shù)。矩陣組成元素為(,)，其中隸屬度為第個(gè)節(jié)點(diǎn)第次迭代推理后的狀態(tài)白化值，選定一個(gè)猶豫度后，按照公式=1--計(jì)算得到非隸屬度。

將評(píng)估指標(biāo)分為2類：成本性指標(biāo)和效益型指標(biāo)，分別構(gòu)建損失函數(shù)矩陣。

效益型損失函數(shù)矩陣：

(34)

成本型損失函數(shù)矩陣：

(35)

式中：為自適應(yīng)風(fēng)險(xiǎn)規(guī)避系數(shù)，公式為

(36)

式中：0≤≤05，與猶豫度有關(guān)，猶豫度越低，的值就越高，表明對(duì)目標(biāo)信息的獲取越準(zhǔn)確，獲得更充足的目標(biāo)信息，分類越精確。

由于不同時(shí)刻的狀態(tài)值對(duì)攻擊決策的影響是不同的，越接近于當(dāng)前時(shí)刻對(duì)決策結(jié)果的影響越大，因此需要對(duì)不同時(shí)刻進(jìn)行時(shí)間序列賦權(quán)，采用逆泊松分布法確定不同時(shí)間點(diǎn)的時(shí)間序列權(quán)值，得到動(dòng)態(tài)融合后的損失函數(shù)矩陣。

(37)

基于貝葉斯最小風(fēng)險(xiǎn)理論求得該目標(biāo)對(duì)應(yīng)的決策閾值：

(38)

(39)

3.4 基于MGD的理性攻擊決策模型學(xué)習(xí)算法

為了減少理性攻擊決策FGCM模型對(duì)專家知識(shí)的依賴，采用學(xué)習(xí)算法來提高模型對(duì)數(shù)據(jù)樣本的參數(shù)學(xué)習(xí)能力具有較好的應(yīng)用前景。常用的FCM模型學(xué)習(xí)算法有：① Hebbain非監(jiān)督學(xué)習(xí)算法，學(xué)習(xí)速度快、精度低；② 種群學(xué)習(xí)算法，學(xué)習(xí)精度高、學(xué)習(xí)速度慢。本文采用基于動(dòng)量梯度下降(MGD)的學(xué)習(xí)算法以求同時(shí)兼顧模型的學(xué)習(xí)精度和速度。

梯度下降算法的基本原理如下：

(40)

常用目標(biāo)函數(shù)為均方誤差損失函數(shù)。

(41)

對(duì)于存在多個(gè)極值的誤差函數(shù)，梯度下降算法易陷入局部最優(yōu)，因而引入梯度動(dòng)量來克服。

(42)

式中：為時(shí)刻梯度的動(dòng)量，為權(quán)重因子。

① 初始節(jié)點(diǎn)間不存在因果關(guān)系時(shí)，在學(xué)習(xí)后也不存在。即

(43)

② 初始節(jié)點(diǎn)之間存在因果關(guān)系時(shí)，在學(xué)習(xí)后因果關(guān)系的正負(fù)符號(hào)不變。即

(44)

③ 學(xué)習(xí)過程中，每次迭代都需保持模糊權(quán)值的下界應(yīng)小于等于上界。即

(45)

基于MGD的FGCM學(xué)習(xí)算法實(shí)施步驟為：

按照表6順序獲取模型樣本數(shù)據(jù)。

由專家確定模型的初始關(guān)聯(lián)權(quán)值矩陣。

設(shè)計(jì)模型學(xué)習(xí)誤差損失函數(shù)。

(46)

采用反向傳播算法，權(quán)值變化量為

(47)

式中：Δ()為權(quán)值的變化量，?為學(xué)習(xí)率。當(dāng)采用sigmoid函數(shù)作為激活函數(shù)時(shí)，對(duì)于任意連接權(quán)值?，其更新量為

(48)

其中：為動(dòng)量學(xué)習(xí)率。

每個(gè)權(quán)值的更新迭代計(jì)算公式如下：

()=(-1)+Δ()

(49)

經(jīng)過不斷迭代學(xué)習(xí)，滿足以下條件時(shí)，終止學(xué)習(xí)。

()≤error or≥max_iter

(50)

式中：error為學(xué)習(xí)算法可允許的最大誤差，max_iter為最大可迭代次數(shù)。

4 案例仿真與分析

以4架無人機(jī)組成異構(gòu)無人機(jī)集群執(zhí)行SEAD(Suppression of Enemy Air Defense)任務(wù)為場(chǎng)景，開展協(xié)同攻擊決策模型和算法的案例仿真與分析，如圖10所示。我方無人機(jī)主要包括無人偵察飛機(jī)、無人機(jī)電子戰(zhàn)飛機(jī)和無人攻擊機(jī)等，敵方目標(biāo)主要是指綜合防空系統(tǒng)(Integrated Air Defense System，IADS)，其中包括防空雷達(dá)車、指揮通信所、防空導(dǎo)彈車等類型的目標(biāo)。由于目標(biāo)具有較強(qiáng)的綜合對(duì)抗能力，且我方無人機(jī)由于功能和分工不同，需要在編隊(duì)通信組網(wǎng)的支持下協(xié)同完成戰(zhàn)場(chǎng)態(tài)勢(shì)感知和協(xié)同攻擊決策任務(wù)。

案例仿真與分析主要包括4個(gè)方面的內(nèi)容:① 態(tài)勢(shì)感知模塊仿真與分析，主要驗(yàn)證Agent模型推理的有效性；② 理性攻擊決策模型仿真與分析，重點(diǎn)驗(yàn)證基于直覺模糊集的決策閾值算法的有效性；③ 基于MGD的理性攻擊決策模型仿真與分析，對(duì)比不同學(xué)習(xí)算法在模型應(yīng)用中的性能差異；④ 感性攻擊決策模型仿真分析，驗(yàn)證態(tài)勢(shì)-決策模板快速匹配的有效性。

圖10 基于SEAD任務(wù)的多無人機(jī)協(xié)同攻擊決策示意圖Fig.10 Schematic diagram of multi-UAV cooperative attack decision-making based on SEAD mission

4.1 多無人機(jī)態(tài)勢(shì)感知模塊仿真與分析

由于目標(biāo)識(shí)別和狀態(tài)估計(jì)的FGCM模型一般采用基于模糊規(guī)則庫的因果推理方法。該方法應(yīng)用較為廣泛，技術(shù)相對(duì)成熟，且仿真想定已明確敵方目標(biāo)為綜合防空系統(tǒng)，故在此不再詳述。

1) 意圖預(yù)測(cè)與威脅估計(jì)Agent的仿真與分析

考慮到專家知識(shí)的主觀性，意圖預(yù)測(cè)與威脅估計(jì)FGCM模型的初始灰數(shù)權(quán)值矩陣為

模型各概念節(jié)點(diǎn)的初始狀態(tài)值以及因果推理后的狀態(tài)值如表8所示。

表8 意圖預(yù)測(cè)與威脅估計(jì)FGCM模型仿真結(jié)果

模型各概念節(jié)點(diǎn)的初始狀態(tài)值以及因果推理后的狀態(tài)值如表9所示。

表9 攻擊任務(wù)安全性估計(jì)FGCM模型仿真結(jié)果

3) 攻擊效果估計(jì)Agent的仿真與分析

模型的初始灰數(shù)權(quán)值矩陣為

模型各概念節(jié)點(diǎn)的初始狀態(tài)值以及因果推理后的狀態(tài)值如表10所示。

表10 攻擊效果估計(jì)FGCM模型仿真結(jié)果

通過對(duì)態(tài)勢(shì)感知模塊各個(gè)Agent的仿真，假定目標(biāo)是處于瞄準(zhǔn)狀態(tài)的導(dǎo)彈發(fā)射車，意圖預(yù)測(cè)與威脅估計(jì)Agent輸出的目標(biāo)威脅度為[0.71,0.76]，攻擊任務(wù)安全性估計(jì)Agent輸出的攻擊任務(wù)安全度為[0.61,0.72]，攻擊效果估計(jì)Agent輸出的攻擊效果為[0.42,0.53]，各Agent 仿真推理結(jié)果與信息傳遞關(guān)系如圖11所示。

圖11 多無人機(jī)態(tài)勢(shì)感知模塊仿真過程與結(jié)果Fig.11 Simulation process and results of multi-UAV situation awareness module

4.2 理性攻擊決策模型仿真與分析

在多無人機(jī)態(tài)勢(shì)感知的基礎(chǔ)上，對(duì)理性攻擊決策模型進(jìn)行仿真與分析。

基于專家知識(shí)設(shè)定節(jié)點(diǎn)初始權(quán)值矩陣，激活函數(shù)為sigmoid型，推理節(jié)點(diǎn)狀態(tài)如表11所示。

表11 攻擊決策FGCM模型仿真結(jié)果

推理結(jié)果分析：當(dāng)目標(biāo)威脅度較高，電磁環(huán)境和自然環(huán)境較好，但敵方防御能力較強(qiáng)時(shí)，得到的推理決策結(jié)果值為[0.64, 0.72]。

根據(jù)3.3節(jié)攻擊決策閾值計(jì)算方法，此時(shí)的直覺模糊決策矩陣如下：

將8個(gè)評(píng)估指標(biāo)節(jié)點(diǎn)分為成本型指標(biāo){?,?}和效益型指標(biāo){?,?, ?,?,?,?}，分別根據(jù)式(34) 和式(35)求得各自的損失函數(shù)矩陣。

由權(quán)值矩陣和不同時(shí)刻的時(shí)間序列權(quán)值=[0200 0,0266 7,0533 3]得到目標(biāo)屬性的綜合權(quán)重，動(dòng)態(tài)融合后得出此時(shí)損失函數(shù)矩陣如下：

根據(jù)式(38)和式(39)求得和分別為0.35和0.75，此時(shí)決策函數(shù)為

(51)

推理結(jié)果顯示，當(dāng)前的決策結(jié)果為不確定，需要繼續(xù)觀察分析。進(jìn)一步推理后，對(duì)攻擊決策的未來狀態(tài)進(jìn)行分析，發(fā)現(xiàn)由于?、?、?、?、?這些間接影響決策結(jié)果節(jié)點(diǎn)消息的傳遞成功，決策節(jié)點(diǎn)的狀態(tài)值為[0.78,0.84]，白化后節(jié)點(diǎn)值為0.81。此時(shí)的決策結(jié)果為攻擊目標(biāo)。

按照上述仿真流程，假設(shè)2組不同戰(zhàn)場(chǎng)態(tài)勢(shì)下輸入初始節(jié)點(diǎn)狀態(tài)分別為

[03,04],[07,08],[04,04],

[03,04],[03,04],[0,0]]

[06,07],[01,02],[06,07],

[06,07],[05,06],[0,0]]

對(duì)于2個(gè)案例初步定性分析可知，案例1目標(biāo)威脅度高，環(huán)境安全性差，且敵方防御能力較強(qiáng)，電磁環(huán)境和自然環(huán)境狀態(tài)一般，從而不利于攻擊；案例2目標(biāo)威脅度低，環(huán)境安全性好，且敵方防御能力較差，電磁環(huán)境和自然環(huán)境狀態(tài)好，此時(shí)的決策結(jié)果應(yīng)為攻擊。

將上述2組初始節(jié)點(diǎn)狀態(tài)分別輸入攻擊決策FGCM模型，案例1因果推理后得到的輸出狀態(tài)節(jié)點(diǎn)狀態(tài)值為[0.38,0.46]，白化后節(jié)點(diǎn)狀態(tài)值為0.42，此時(shí)決策閾值和分別為0.53和0.81，即推理輸出結(jié)果為規(guī)避目標(biāo)。案例2因果推理后得到的輸出狀態(tài)節(jié)點(diǎn)狀態(tài)值為[0.76,0.82]，白化后節(jié)點(diǎn)狀態(tài)值為0.79，此時(shí)決策閾值分別為0.36和0.68，即推理輸出結(jié)果為攻擊目標(biāo)。因此，2組決策推理輸出與案例初步定性分析結(jié)果吻合。

4.3 基于MGD的理性攻擊決策模型仿真分析

為了便于驗(yàn)證所提出的動(dòng)量梯度下降學(xué)習(xí)算法在FCM理論模型學(xué)習(xí)中的可行性，將4.2小節(jié)中節(jié)點(diǎn)權(quán)值矩陣、初始節(jié)點(diǎn)狀態(tài)以及各時(shí)刻的推理狀態(tài)值作為學(xué)習(xí)樣本數(shù)據(jù)。使用FCM模型常用的赫布學(xué)習(xí)算法(Hebbian)、遺傳算法(GA)以及本文提出的動(dòng)量梯度下降(MGD)學(xué)習(xí)算法，基于初始參數(shù)和統(tǒng)一迭代終止條件：(誤差error≤0.005，最大迭代次數(shù)max_iter=500)計(jì)算各學(xué)習(xí)算法的終止誤差和耗時(shí)，學(xué)習(xí)算法效果如表12所示，誤差曲線如圖12所示。

表12 學(xué)習(xí)算法效果對(duì)比表Table 12 Comparison of effects of learning algorithms

圖12 學(xué)習(xí)算法誤差曲線圖Fig.12 Error curves of learning algorithms

表12中可以看出，Hebbian算法在經(jīng)過迭代后，算法快速滿足了最大迭代次數(shù)終止條件，計(jì)算得到的平均學(xué)習(xí)誤差為0.067，在所有算法中最大，但算法耗時(shí)最短為4.324 82 s。GA算法的學(xué)習(xí)精度為0.014，結(jié)合圖12，雖然在迭代200次后GA算法的誤差值已趨于穩(wěn)定，但由于不滿足迭代終止條件error≤0.005，所以在滿足最大迭代次數(shù)后，算法終止，整個(gè)過程花費(fèi)時(shí)間268.850 87 s。MGD算法的誤差值可以在較短的時(shí)間內(nèi)快速收斂，在計(jì)算到誤差值為0.002 38時(shí)，算法耗時(shí)23.993 22 s。因此可以看出所提出的MGD學(xué)習(xí)算法相較于Hebbian算法，雖耗時(shí)長(zhǎng)，但精度有大的提升；而相較于GA算法，耗時(shí)方面有大的改進(jìn)，精確性和收斂性得到兼顧。

為了進(jìn)一步驗(yàn)證各學(xué)習(xí)算法的性能，考慮到專家知識(shí)可能受各種因素影響，在原有灰數(shù)權(quán)值的基礎(chǔ)上，將其上下限區(qū)間增大1倍和縮小1倍，形成3種不同灰度權(quán)值下的學(xué)習(xí)樣本數(shù)據(jù)，使用上述3種學(xué)習(xí)算法進(jìn)行訓(xùn)練，分別得到各自的誤差曲線，如圖13所示。

從圖13可以看出，隨著權(quán)值灰度的減小，Hebbian算法和MGD算法的學(xué)習(xí)誤差值也在減小，而GA算法的表現(xiàn)沒有太大差別。圖13(a)中，在使用Hebbian學(xué)習(xí)算法進(jìn)行訓(xùn)練時(shí)，權(quán)值灰度增大1倍，誤差曲線位置明顯升高，而縮小1倍的誤差曲線與基準(zhǔn)誤差曲線差異較小，說明Hebbian學(xué)習(xí)算法對(duì)于權(quán)值灰度變化的敏感性不穩(wěn)定；圖13(b)中，3條誤差曲線差異較小，且相對(duì)位置關(guān)系發(fā)生變化，說明GA算法對(duì)于權(quán)值灰度變化的敏感性較差；圖13(c)中，不同權(quán)值灰數(shù)下，MGD算法均能在較短的時(shí)間內(nèi)快速收斂，并且隨著權(quán)值灰數(shù)的減小，學(xué)習(xí)誤差值也在減小，說明MGD算法在不同權(quán)值灰度條件下的收斂性和敏感性均有較好表現(xiàn)。

圖13 不同權(quán)值灰度下各算法誤差曲線圖Fig.13 Error curve of learning algorithms with different weight greyness

最終，給出動(dòng)量梯度下降算法學(xué)習(xí)得到的FGCM模型權(quán)值矩陣如下：

上述案例仿真結(jié)果表明，所提出的MGD算法可以快速減小誤差，并穩(wěn)定在一定范圍內(nèi)，相比于其他學(xué)習(xí)算法能夠兼顧學(xué)習(xí)精度和收斂速度，且對(duì)于權(quán)值灰度變化的敏感性最好。

4.4 感性攻擊決策模型仿真與分析

在獲得典型態(tài)勢(shì)下決策結(jié)果后，將其存儲(chǔ)在杏仁核決策模板庫中?？梢詫?.2節(jié)理性攻擊決策FGCM模型的仿真結(jié)果作為典型的態(tài)勢(shì)模板存儲(chǔ)如下：

053],[08,08],[08,08],[04,

04],[06,06],[10,10]：[078,084]]

假設(shè)，場(chǎng)景1態(tài)勢(shì)下的輸入節(jié)點(diǎn)的狀態(tài)為

[02,02],[075,075],[04,04],

[04,04],[06,06],[0,0]]

計(jì)算與模板態(tài)勢(shì)的相似度為：0.244 38。取=005，此時(shí)不滿足實(shí)施杏仁核決策的觸發(fā)條件，轉(zhuǎn)入理性攻擊決策推理模式。

假設(shè)，場(chǎng)景2態(tài)勢(shì)下的輸入節(jié)點(diǎn)的狀態(tài)為

[08,08],[075,075],[04,04],

[06,06],[09,09],[0,0]]

計(jì)算與模板態(tài)勢(shì)的相似度為：0.034 4，小于誤差門限。此時(shí)觸發(fā)杏仁核決策模型，直接得出決策節(jié)點(diǎn)的狀態(tài)值[0.78,0.84]和決策結(jié)果“執(zhí)行攻擊”。決策計(jì)算過程簡(jiǎn)單快速，計(jì)算耗時(shí)為6.2 ms。

5 結(jié) 論

本文基于FCM及其擴(kuò)展模型，開展了復(fù)雜不確定戰(zhàn)場(chǎng)環(huán)境下的多無人機(jī)協(xié)同攻擊決策的建模研究，為提升多無人機(jī)執(zhí)行任務(wù)的決策優(yōu)勢(shì)提供了理論指導(dǎo)和應(yīng)用方法參考，主要工作包括：

1) 基于人的決策心智模式，從SoS的角度對(duì)多無人機(jī)進(jìn)行任務(wù)功能的集成，采用ABFCM建立了包含感性和理性2種決策模式的多無人機(jī)協(xié)同攻擊決策系統(tǒng)模型框架。

2) 基于ABFCM和FGCM建立了包含目標(biāo)識(shí)別與狀態(tài)估計(jì)Agent、意圖預(yù)測(cè)與威脅估計(jì)Agent、攻擊任務(wù)安全性估計(jì)Agent和攻擊效果估計(jì)Agent的多無人機(jī)戰(zhàn)場(chǎng)態(tài)勢(shì)感知模型，模塊化地支撐了協(xié)同攻擊決策模型的建立。

3) 基于人腦杏仁核機(jī)理建立了態(tài)勢(shì)-決策模板快速匹配的感性攻擊決策模型，實(shí)現(xiàn)了簡(jiǎn)單、熟悉戰(zhàn)場(chǎng)態(tài)勢(shì)條件下的快速?zèng)Q策。

4) 基于直覺模糊集的決策閾值算法建立了理性攻擊決策模型，采用MGD學(xué)習(xí)算法進(jìn)一步提高了決策模型的學(xué)習(xí)進(jìn)化能力，降低了建模工作對(duì)專家知識(shí)的依賴。