張 棟 王孟陽 唐 碩
1.西北工業(yè)大學(xué)航天學(xué)院 陜西 西安 710072 2.陜西省空天飛行器設(shè)計重點實驗室 陜西 西安 710072
2020年1月, 中國科學(xué)院發(fā)布的《2019年人工智能發(fā)展白皮書》中將“群體智能技術(shù)”列為八大人工智能關(guān)鍵技術(shù)之一[1], 隨著智能系統(tǒng)與復(fù)雜體系、感知與判斷、分布式協(xié)同、人工智能和算法戰(zhàn)等理論與技術(shù)的不斷發(fā)展與突破, 智能系統(tǒng)已呈現(xiàn)出無人化、集群化和自主化等特征[2]. 無人機(jī)集群作為未來集群智能系統(tǒng)的主要形式, 能夠?qū)崿F(xiàn)單平臺行為決策、多平臺任務(wù)協(xié)同, 具有集群涌現(xiàn)特性, 表現(xiàn)出了巨大的應(yīng)用前景. 無人機(jī)集群任務(wù)環(huán)境彈性大、態(tài)勢變化快、傳感器信息不完全、通信結(jié)構(gòu)不穩(wěn)定, 是以決策為主的對抗. 因此, 協(xié)同自主決策作為“感知-判斷-決策-行動(observation-orientation-decision-action,OODA)”環(huán)路循環(huán)中的關(guān)鍵技術(shù)引起了國內(nèi)外廣泛關(guān)注[3-5]. 無人機(jī)集群在復(fù)雜動態(tài)變化的環(huán)境下, 如何根據(jù)不確定的態(tài)勢信息, 實施可解釋的自主決策推理, 確定高效可靠的任務(wù)協(xié)同執(zhí)行方式對保障集群安全, 提升作戰(zhàn)效能至關(guān)重要.
按照系統(tǒng)科學(xué)的觀點[6], 無人機(jī)集群系統(tǒng)多平臺異構(gòu)、任務(wù)需求眾多、輸入態(tài)勢變化、戰(zhàn)術(shù)目的復(fù)雜、約束條件耦合, 為解決以上問題, 需要面向無人機(jī)集群多任務(wù)設(shè)計自主決策規(guī)劃框架, 降低系統(tǒng)研究的復(fù)雜性. 文獻(xiàn)[7]基于不確定攻防博弈態(tài)勢信息搭建了無人機(jī)集群對抗博弈模型, 并設(shè)計博弈成本函數(shù)計算最優(yōu)策略;文獻(xiàn)[8]提出了一種多無人機(jī)分布式智能自組織算法, 將集群偵察-打擊任務(wù)優(yōu)化問題分解為多個局部優(yōu)化問題, 并通過集群與環(huán)境和集群之間的信息交流實現(xiàn)全局優(yōu)化決策;文獻(xiàn)[9]針對區(qū)域偵察等典型集群任務(wù), 采用深度學(xué)習(xí)方法構(gòu)建任務(wù)決策模型, 然后基于遺傳算法對決策模型進(jìn)行優(yōu)化, 為集群實現(xiàn)離線學(xué)習(xí)和在線決策提供了有效支撐, 然而現(xiàn)有成果從多任務(wù)角度出發(fā), 對集群自主決策問題進(jìn)行研究相對較少.
對于集群系統(tǒng)協(xié)同作戰(zhàn)任務(wù)方面的研究, 主要以任務(wù)規(guī)劃問題為主[10], 此類問題大都是事先擬定好了任務(wù)輸入類型和約束, 是一種有目標(biāo)信息的多約束優(yōu)化問題. 然而對于集群如何獲得準(zhǔn)確的任務(wù)目標(biāo)信息, 并根據(jù)態(tài)勢進(jìn)行動態(tài)任務(wù)調(diào)整并沒有考慮,此問題正是集群協(xié)同任務(wù)決策的研究重點. 現(xiàn)階段無人機(jī)決策問題研究大都聚焦于空戰(zhàn)過程中的機(jī)動動作決策[11-12], 或者某個明確任務(wù)場景中的決策, 如集群打擊任務(wù)等[13-14], 沒有從集群協(xié)同作戰(zhàn)過程中戰(zhàn)術(shù)戰(zhàn)略及任務(wù)的多樣性和復(fù)雜性方面開展自主決策研究. 因此, 本文針對這個問題, 分析了集群任務(wù)自主決策概念、任務(wù)定義與分類, 設(shè)計了自主決策的流程;應(yīng)用分層研究思想提出一種自主決策框架, 并根據(jù)通信結(jié)構(gòu)定義不同的決策模式;結(jié)合多種技術(shù)途徑對無人機(jī)集群自主決策建模的體系結(jié)構(gòu)和求解框架進(jìn)行了分析和探討.
無人機(jī)集群的顯著特征是具有較高的自主能力,主要表現(xiàn)在集群能夠不斷感知態(tài)勢信息、自身性能、任務(wù)目標(biāo)以及狀態(tài)約束的動態(tài)變化, 并及時地作出動態(tài)響應(yīng)決策, 從整體效能角度出發(fā)衡量決策結(jié)果的正確性. 通過這種連續(xù)交互響應(yīng)進(jìn)程, 無人機(jī)集群不斷學(xué)習(xí)累積任務(wù)經(jīng)驗, 實現(xiàn)決策知識庫的自發(fā)育,從而改變集群結(jié)構(gòu)和任務(wù)執(zhí)行方式, 因此, 集群自主的核心是集群的學(xué)習(xí)能力.
無人機(jī)集群自主決策系統(tǒng)的輸入依賴于復(fù)雜多變的戰(zhàn)場信息, 通過分析集群作戰(zhàn)自主決策解算流程進(jìn)行系統(tǒng)設(shè)計, 其結(jié)構(gòu)主要由知識庫、推理機(jī)和決策庫組成, 如圖1 所示. 集群系統(tǒng)的先驗知識存儲在知識庫中;決策規(guī)則和決策首選項存儲在決策庫中,根據(jù)IF-ELSE-THEN 的邏輯構(gòu)建規(guī)則進(jìn)行選擇輸出[15].推理機(jī)是集群決策過程的最重要組成部分, 可以集成各種復(fù)雜的輸入信息完成推理和決策任務(wù). 推理機(jī)除了使用先驗知識進(jìn)行推理外, 還可在訓(xùn)練后自動更新知識, 實現(xiàn)知識庫的補(bǔ)充. 因而決策系統(tǒng)的自主特性主要表現(xiàn)為:無人機(jī)集群通過對當(dāng)前態(tài)勢的感知, 從現(xiàn)有知識庫中選擇某一自主行為去執(zhí)行, 而后通過與環(huán)境的交互行為, 學(xué)習(xí)產(chǎn)生新的規(guī)則, 并對原有決策庫進(jìn)行更新, 進(jìn)而調(diào)整自身行為, 這一過程循環(huán)往復(fù)進(jìn)行.
圖1 決策系統(tǒng)自主性結(jié)構(gòu)Fig.1 Autonomous structure of decision-making system
集群任務(wù)依據(jù)作戰(zhàn)場景和態(tài)勢信息表現(xiàn)為不同形式, 為使集群任務(wù)效率最大化, 一方面需要明確集群任務(wù)之間的序貫配合和任務(wù)執(zhí)行流程, 對任務(wù)執(zhí)行類型序列進(jìn)行決策;另一方面, 也需要通過決策明確任務(wù)執(zhí)行約束及任務(wù)執(zhí)行最優(yōu)效能, 因此, 有必要對不同類型的任務(wù)屬性進(jìn)行表征和區(qū)分, 提升集群整體決策效率. 不同任務(wù)類型包括集群潛伏、集群突防、集群偵察、集群打擊、集群封控、集群突擊、集群評估等任務(wù), 介紹如下:
1)集群潛伏, 無人機(jī)集群從起飛點或拋灑點出發(fā), 分布為多個編隊, 形成任務(wù)執(zhí)行前待命狀態(tài), 具有一定的隱蔽性, 根據(jù)作戰(zhàn)地形、氣候和環(huán)境特點決策使得敵方預(yù)警信息最小化且我方燃料損耗最小化.
2)集群突防, 戰(zhàn)場存在地形、敵方雷達(dá)和反導(dǎo)系統(tǒng)等威脅, 集群通過實施電子干擾和光電紅外誘餌等方式進(jìn)行突防, 決策使得集群突防效率最大化, 任務(wù)能力損失最小化,實現(xiàn)集群對敵方威脅的主動遠(yuǎn)離.
3)集群偵察, 由于集群沒有目標(biāo)的先驗狀態(tài)信息, 在太陽光照等環(huán)境信息和我方平臺能力等約束條件下對區(qū)域執(zhí)行偵察搜索任務(wù), 實現(xiàn)為對目標(biāo)位置狀態(tài)的準(zhǔn)確定位, 透明化戰(zhàn)場態(tài)勢.
4)集群打擊, 打擊任務(wù)為無人機(jī)集群對動態(tài)/靜態(tài)目標(biāo)的主動靠近, 考慮到敵方目標(biāo)的機(jī)動性能, 在戰(zhàn)場態(tài)勢、飛行動力學(xué)和集群能力等約束下決策優(yōu)化集群打擊方式, 實現(xiàn)為集群對目標(biāo)實現(xiàn)多方位多波次打擊.
5)集群封控, 封控任務(wù)是將集群拆分為能力相近的效地編隊, 增加集群強(qiáng)度、任務(wù)靈活性和生存能力, 實現(xiàn)為多方向、多波次、長耗時的持續(xù)對敵電磁壓制和電子封控.
6)集群突擊, 當(dāng)敵方出現(xiàn)破綻時需緊急執(zhí)行突擊任務(wù)進(jìn)行針對性打擊, 實現(xiàn)為對集群當(dāng)前任務(wù)狀態(tài)影響最小化迅速地對破綻執(zhí)行突擊任務(wù).
7)集群評估, 評估任務(wù)是指偵察、封控或打擊等任務(wù)執(zhí)行完成后, 通過集群中帶評估載荷無人機(jī)的聯(lián)合, 實現(xiàn)對任務(wù)執(zhí)行效果的評估, 包括集群壓制評估、毀傷評估和生存性能評估等, 實時掌握集群作戰(zhàn)效果.
對于實際態(tài)勢情況下的集群任務(wù)自主決策, 不同的任務(wù)類型決策方式之間存在一定的關(guān)系, 如圖2 所示, 對集群自主決策任務(wù)流程的具體過程描述如下:
圖2 集群任務(wù)決策全流程Fig 2 The whole process of multi-task decision-making of UAVs
1)集群潛伏階段. 是我方無人機(jī)集群面對戰(zhàn)場目標(biāo)前的一種準(zhǔn)備狀態(tài), 在這一階段, 為了避免打草驚蛇, 任務(wù)決策確定集群分簇及構(gòu)型, 發(fā)射/拋灑時間, 優(yōu)化集結(jié)編隊隊形, 利用地形范圍和己方電磁屏蔽范圍等, 掩護(hù)集群分布和自身作戰(zhàn)意圖, 提高集群安全性能.
2)集群突防階段. 集群開始接近敵方作戰(zhàn)區(qū)域,此時戰(zhàn)場空間中存在敵方多種探測設(shè)備威脅, 決策確定編隊隊形保持、切換、拆分和重構(gòu)樣式, 通過不斷地切換和自組合, 提高集群偽裝能力和突防性能;同時根據(jù)對敵方威脅態(tài)勢分析決策突防地理方位、突防時集群航向、集群誘餌釋放時機(jī).
3)集群對抗階段. 當(dāng)集群接近敵方目標(biāo)區(qū)域過程中, 進(jìn)入集群對抗階段, 該階段主要包括集群偵察、集群打擊、集群封控和集群突擊4 種任務(wù)決策類型. 分別實施對目標(biāo)的準(zhǔn)確定位、準(zhǔn)確打擊、目標(biāo)壓制和破綻針對. 上層決策根據(jù)目標(biāo)信息感知與預(yù)測決策獲得任務(wù)序列, 對復(fù)雜動態(tài)的戰(zhàn)場環(huán)境, 存在4 類任務(wù)類型的序貫耦合和拼接, 如“察-打”一體任務(wù)、中繼通信(“偵察-封控”一體)任務(wù)和電磁干擾(“封控-打擊-突擊”一體)任務(wù)等, 不同任務(wù)策略多管齊下發(fā)揮集群優(yōu)勢. 下層決策對上層決策序列中的任務(wù)分別執(zhí)行約束決策, 集群偵察任務(wù)決策結(jié)果為目標(biāo)偵察區(qū)域大小, 集群偵察隊形和偵察方位角,在得到偵察結(jié)果后持續(xù)或中止偵察任務(wù);集群打擊任務(wù)根據(jù)獲取的目標(biāo)信息對目標(biāo)行為進(jìn)行預(yù)測, 決策結(jié)果為多約束條件下多波次、多方位和多時間約束打擊模式;集群封控任務(wù)決策結(jié)果為了最大化封控效率, 確定我方最優(yōu)封控編隊隊形和封控包圍環(huán)(圈)構(gòu)型;集群突擊任務(wù)決策過程需考慮時間和集群碰撞規(guī)避約束, 決策結(jié)果為時間約束和相對幾何約束下的任務(wù)執(zhí)行效能優(yōu)化.
4)集群評估階段. 在完成對敵方目標(biāo)的打擊、封控等任務(wù)后, 根據(jù)戰(zhàn)場態(tài)勢決策進(jìn)入集群評估階段. 由于爆炸煙霧、戰(zhàn)場動態(tài)威脅、不同的目標(biāo)受損態(tài)勢信息、傳感器噪聲和其他不可避免的誤差, 會影響集群傳感器獲取的評估態(tài)勢信息的質(zhì)量, 是一種信息不完全的決策問題. 因此, 結(jié)合一致性理論信息融合和平行仿真修正模型, 在考慮目標(biāo)權(quán)重、集群耐久度和傳感器誤差的情況下, 建立集群的快速評估任務(wù)決策方案, 建立高效準(zhǔn)確的作戰(zhàn)效能評估模型,根據(jù)任務(wù)評估效果決定是否仍需對目標(biāo)執(zhí)行多次迭代任務(wù).
無人機(jī)集群系統(tǒng)本質(zhì)為數(shù)量眾多的同構(gòu)/異構(gòu)無人機(jī)通過通信數(shù)據(jù)鏈路交互構(gòu)成的復(fù)雜系統(tǒng). 隨著系統(tǒng)規(guī)模增加, 集群任務(wù)自主決策復(fù)雜度不論在理論研究還是系統(tǒng)實現(xiàn)上均呈指數(shù)型上升, 體系架構(gòu)設(shè)計也更具挑戰(zhàn). 集群任務(wù)自主決策框架設(shè)計, 一方面要解決該復(fù)雜系統(tǒng)的控制和信息的耦合交互問題,另一方面也需要盡量在決策框架和算法上降低系統(tǒng)的復(fù)雜性. 研究表明, 分層控制可以有效降低集群任務(wù)決策的復(fù)雜性, 提高集群任務(wù)執(zhí)行效率[16-17]. 本文借鑒BOSKOVIC JD 的思想[18], 將無人機(jī)集群OODA 環(huán)中決策問題分為4 個層次, 分別為態(tài)勢通信層(communication, C)、任務(wù)決策層(decision, D)、任務(wù)規(guī)劃層(planning, P)及控制層(control, C), 簡稱為CDPC架構(gòu), 結(jié)構(gòu)關(guān)系如圖3 所示.
圖3 協(xié)同任務(wù)決策分層CDPC 架構(gòu)Fig.3 Hierarchical CDPC architecture for collaborative multi-task decision-making
在該架構(gòu)中, 態(tài)勢通信層負(fù)責(zé)集群網(wǎng)絡(luò)通信, 實現(xiàn)信息共享、信息融合和狀態(tài)預(yù)測等;任務(wù)決策層根據(jù)動態(tài)戰(zhàn)場態(tài)勢確定環(huán)境、目標(biāo)狀態(tài)和集群任務(wù)需求, 基于邏輯推理及多目標(biāo)優(yōu)化技術(shù)得到最優(yōu)化決策信息, 其內(nèi)容包括任務(wù)態(tài)勢評估、任務(wù)制定與協(xié)調(diào)等. 任務(wù)決策是一個動態(tài)的過程, 根據(jù)戰(zhàn)場態(tài)勢在線決策, 并面向任務(wù)規(guī)劃生成集群戰(zhàn)略、戰(zhàn)術(shù)等決策數(shù)據(jù), 調(diào)度一系列任務(wù)規(guī)劃層的過程, 其輸出決策信息作為任務(wù)規(guī)劃層的約束輸入;任務(wù)規(guī)劃層接收決策數(shù)據(jù)并將其轉(zhuǎn)換為在線規(guī)劃輸入, 為集群內(nèi)每架無人機(jī)規(guī)劃從起始位置到目標(biāo)位置的運動軌跡, 實現(xiàn)集群內(nèi)相互避碰以及避免與環(huán)境碰撞, 其內(nèi)容包括任務(wù)分配和航跡規(guī)劃等;任務(wù)決策層與任務(wù)規(guī)劃層研究的出發(fā)點、目的和結(jié)果皆存在較大不同, 如表1 所示.控制層根據(jù)航路信息進(jìn)行集群協(xié)調(diào), 實現(xiàn)自主避障和編隊控制. 通過建立CDPC 架構(gòu)對決策問題進(jìn)行分層優(yōu)化求解, 集群可以針對復(fù)雜的任務(wù)場景和不同的應(yīng)用領(lǐng)域, 實現(xiàn)分層協(xié)調(diào), 快速完成集群任務(wù)決策.
表1 無人機(jī)集群自主決策與任務(wù)規(guī)劃研究異同Table 1 Similarities and differences of autonomous decision making and mission planning of UAVs
通過分層優(yōu)化, 集群可以針對復(fù)雜任務(wù)場景和不同應(yīng)用領(lǐng)域?qū)崿F(xiàn)任務(wù)的分層協(xié)調(diào)和快速完成, 以該結(jié)構(gòu)為基礎(chǔ), 建立CDPC 架構(gòu)信息流向如圖4 所示. 該結(jié)構(gòu)集成了智能、認(rèn)知和信息融合等先進(jìn)概念,包括反應(yīng)、決策、規(guī)劃、執(zhí)行、控制、思考學(xué)習(xí)等6個方面. 無人機(jī)通過通信網(wǎng)絡(luò)獲知地面指揮控制中心和其他無人機(jī)節(jié)點的態(tài)勢信息進(jìn)行推理決策, 將決策信息流向任務(wù)規(guī)劃得到集群更新后的航跡, 航跡流向無人機(jī)控制層實現(xiàn)集群涌現(xiàn)行為. 其中, 集群任務(wù)決策是決策體系架構(gòu)中的一項關(guān)鍵問題, 是集群任務(wù)執(zhí)行的頂層判定, 對最終任務(wù)執(zhí)行質(zhì)量有著最根本的影響.
圖4 CDPC 架構(gòu)信息流向示意圖Fig 4 Schematic diagram of CDPC architecture information flow
無人機(jī)集群任務(wù)自主決策位于整個任務(wù)執(zhí)行過程中的頂層, 態(tài)勢信息的建模為決策基礎(chǔ). 態(tài)勢跟蹤窗口不確定、網(wǎng)絡(luò)通信結(jié)構(gòu)不穩(wěn)定等動態(tài)環(huán)境增加了任務(wù)決策的難度, 集群需要根據(jù)任務(wù)或環(huán)境的動態(tài)變化及時地作出任務(wù)決策. 無人機(jī)集群是否能達(dá)到預(yù)定的戰(zhàn)斗力, 關(guān)鍵在于信息的獲取和傳輸, 根據(jù)集群通信拓?fù)浣Y(jié)構(gòu)可將集群決策依據(jù)分為以下3 類:
1)集中式?jīng)Q策
集中式?jīng)Q策存在一個全局視角的決策節(jié)點, 通過數(shù)據(jù)鏈路獲得其他無人機(jī)的全局感知信息表征,其他無人機(jī)之間不進(jìn)行相互通信,以全局為中心,從集群整體角度出發(fā)進(jìn)行綜合衡量、協(xié)調(diào), 如圖5 所示.中心決策節(jié)點一般是輔助集群內(nèi)個體獲取和處理全局信息, 并在集群內(nèi)進(jìn)行溝通和協(xié)調(diào), 并非自上而下取代集群內(nèi)個體作出決策, 具體的決策過程還是由集群內(nèi)無人機(jī)自主完成. 集中式?jīng)Q策在全局信息輔助下更具宏觀視角, 其最終對個體的作戰(zhàn)任務(wù)行為決策效果不一定最優(yōu), 但集群整體作戰(zhàn)行為產(chǎn)生效果最優(yōu), 具有群體智能性. 該結(jié)構(gòu)通過感受全局信息降低環(huán)境噪聲帶來的信息損失, 對通信負(fù)載要求較高, 若決策中心單元出現(xiàn)異常, 則群體決策有可能陷入癱瘓, 系統(tǒng)容錯性較差, 對通信實時性要求較高,適用于時效性要求較低的無人機(jī)集群任務(wù)決策系統(tǒng).
圖5 集中式?jīng)Q策架構(gòu)示意圖Fig.5 Schematic diagram of centralized decision-making architecture
2)完全分布式?jīng)Q策
由于通信網(wǎng)絡(luò)結(jié)構(gòu)存在通信距離和通信跳躍,完全分布式?jīng)Q策集群內(nèi)無人機(jī)依靠自身觀測信息和局部通信信息, 結(jié)合戰(zhàn)場態(tài)勢的推斷進(jìn)行數(shù)據(jù)融合自主決策, 將決策結(jié)果在集群內(nèi)部共享, 以期涌現(xiàn)出協(xié)同決策結(jié)果, 協(xié)調(diào)一致地完成任務(wù), 如圖6 所示.該結(jié)構(gòu)對通信鏈路中單一節(jié)點的依賴性較低, 將全局優(yōu)化問題分解為多個局部優(yōu)化問題, 每架無人機(jī)解決其局部優(yōu)化問題, 通過機(jī)間信息交換進(jìn)行優(yōu)化決策. 該結(jié)構(gòu)由于缺乏全局態(tài)勢信息, 信息融合不完全, 受環(huán)境因素影響也更大, 易產(chǎn)生不一致的決策結(jié)果, 因此, 在該模式下如何利用通信信息交互, 達(dá)到一致的任務(wù)決策效果是集群效能最大化的有效保證.
圖6 完全分布式?jīng)Q策架構(gòu)示意圖Fig.6 Schematic diagram of fully distributed decision-making architecture
3)混合式?jīng)Q策
當(dāng)集群規(guī)模過大, 無論是集中式?jīng)Q策和分布式?jīng)Q策架構(gòu)都存在容錯性差、通信負(fù)載成比例增加等問題, 對于大規(guī)模集群而言, 若無交互則魯棒性差,若無中心則全局可控性差. 因此, 結(jié)合分層研究的思想構(gòu)建無人機(jī)集群混合式?jīng)Q策架構(gòu), 主要包括3 級:上層決策中心節(jié)點、中間層調(diào)度規(guī)劃節(jié)點和底層執(zhí)行節(jié)點, 如圖7 所示. 當(dāng)?shù)讓訄?zhí)行節(jié)點獲取戰(zhàn)場態(tài)勢時, 逐級上傳給上層決策中心節(jié)點進(jìn)行態(tài)勢分析、任務(wù)戰(zhàn)術(shù)、戰(zhàn)略決策, 并對局部調(diào)度規(guī)劃節(jié)點下達(dá)任務(wù)命令;調(diào)度規(guī)劃節(jié)點接收任務(wù)命令進(jìn)行任務(wù)分配、群航跡生成、任務(wù)評估、狀態(tài)管理等, 中間層調(diào)度規(guī)劃節(jié)點之間通過通信鏈路實現(xiàn)信息共享、態(tài)勢融合、戰(zhàn)術(shù)協(xié)同;底層執(zhí)行節(jié)點根據(jù)任務(wù)要求實時航跡規(guī)劃以執(zhí)行具體任務(wù), 并實時反饋自身狀態(tài)信息及傳感器信息, 執(zhí)行節(jié)點通過數(shù)據(jù)交互實現(xiàn)一致性協(xié)同作戰(zhàn).
圖7 混合式?jīng)Q策架構(gòu)示意圖Fig.7 Schematic diagram of hybrid decision-making architecture
該混合式架構(gòu)通過態(tài)勢共享、指令互連將3 層節(jié)點融為一體, 將自上到下的多層指揮可控性與自下到上的個體涌現(xiàn)性相結(jié)合, 執(zhí)行節(jié)點和調(diào)度規(guī)劃節(jié)點既接受上層命令, 又能與同層無人機(jī)信息共享.因此, 該決策結(jié)構(gòu)具有集群全局性和有序性, 又能兼顧個體自主性和涌現(xiàn)性.
決策是在多種選擇方案中作出選擇的認(rèn)知過程,無人機(jī)集群自主決策問題通常被建模為非完整信息下的多目標(biāo)動態(tài)優(yōu)化問題, 具有高動態(tài)、強(qiáng)實時、不確定等特點, 其研究由基于模板匹配的感性決策和基于自主學(xué)習(xí)的理性決策組成.
感性決策方法基于知識規(guī)則驅(qū)動, 適用于態(tài)勢環(huán)境和任務(wù)需求固定, 知識庫全面、任務(wù)規(guī)則覆蓋、計算實時性要求較高情況下的快速決策, 包括專家知識模板匹配、“黑箱”模板匹配推理等, 此類方法簡單高效, 但準(zhǔn)確度較低, 決策結(jié)果局限于現(xiàn)有知識水平和匹配規(guī)則;理性自主任務(wù)決策方法基于數(shù)據(jù)驅(qū)動, 適用于任務(wù)環(huán)境陌生、態(tài)勢信息復(fù)雜變化, 知識庫缺乏有效模板情況下的自主決策, 包括基于微分博弈、數(shù)值優(yōu)化方法、群體智能算法和深度強(qiáng)化學(xué)習(xí)方法等, 此類方法具有較強(qiáng)的學(xué)習(xí)和自適應(yīng)能力,可實現(xiàn)決策結(jié)果的進(jìn)化和知識庫的自發(fā)育, 但需要建立合理的優(yōu)化指標(biāo), 同時依賴于大量的數(shù)據(jù)集支持以進(jìn)行離線學(xué)習(xí), 對數(shù)據(jù)依賴性較高.
任務(wù)決策過程中, 通過戰(zhàn)場特征提取和通信交流基于模糊認(rèn)知圖建立態(tài)勢模型, 通過我方作戰(zhàn)體系、敵方防御體系、目標(biāo)預(yù)估狀態(tài)和已有決策信息, 形成專家(經(jīng)驗)先驗知識域, 建立先驗決策模型. 最后對不同態(tài)勢建模下集群作戰(zhàn)進(jìn)行模板匹配推理, 若匹配, 則采用專家知識感性推理方法進(jìn)行任務(wù)決策;否則, 根據(jù)當(dāng)前戰(zhàn)場環(huán)境的變化情況和任務(wù)需求, 采用基于數(shù)據(jù)驅(qū)動的微分博弈、數(shù)值優(yōu)化方法、群體智能算法和深度強(qiáng)化學(xué)習(xí)的邏輯推理方法, 實現(xiàn)集群任務(wù)決策, 集群任務(wù)決策系統(tǒng)結(jié)構(gòu)如圖8 所示. 本節(jié)對集群任務(wù)決策過程中涉及的關(guān)鍵技術(shù)途徑進(jìn)行敘述.
圖8 集群任務(wù)決策系統(tǒng)示意圖Fig 8 Schematic diagram of multi-task decision-making system of UAVs
決策過程中的決策環(huán)境根據(jù)處理分析備選方案的類型進(jìn)行區(qū)分:在確定性環(huán)境中, 備選方案的評估是明確的;在高風(fēng)險不確定環(huán)境中, 對備選方案只能以近似的方式進(jìn)行評估. 無人機(jī)集群決策是高動態(tài)、高風(fēng)險、不確定性環(huán)境, 因此, 模糊灰色認(rèn)知圖(fuzzy grey cognitive map, FGCM)因其魯棒性、自適應(yīng)性、計算效率高, 可為綜合形式化模型的驗證提供了一個良好的框架[19-20]等優(yōu)勢, 被認(rèn)為是解決面向任務(wù)的集群決策問題建模的有效途徑. 相比于貝葉斯網(wǎng)絡(luò)、影響圖等工具, 模糊灰色認(rèn)知圖將模糊邏輯與人工智能相結(jié)合, 具有根據(jù)動態(tài)輸入反饋特性, 更加適合集群任務(wù)自主決策. FGCM 由以下四元組構(gòu)成:
由于FGCM 建模方法簡單、具有良好的適應(yīng)性和應(yīng)用性,衍生出眾多拓展模型,其中,智能體模糊灰色認(rèn)知圖(agent-based fuzzy grey cognitive map, ABFGCM)模型的每個節(jié)點可對應(yīng)異構(gòu)無人機(jī), 基于平臺能力建立不同的決策推理模型和求解算法, 節(jié)點間通過信息傳遞機(jī)制相互作用, 適用于無人機(jī)集群決策系統(tǒng)的建模[14]. 基于ABFGCM 建模的無人機(jī)集群任務(wù)決策過程中, 節(jié)點的數(shù)據(jù)量綱互不相同, 統(tǒng)一模糊化轉(zhuǎn)換為無量綱的模糊數(shù), 模糊決策后需進(jìn)行模糊判決再將模糊數(shù)轉(zhuǎn)換為準(zhǔn)確值, 最后根據(jù)標(biāo)度因子獲得決策精確輸出.
基于ABFGCM 模型建立無人機(jī)集群自主任務(wù)決策模型過程中, 將無人機(jī)按照不同任務(wù)能力進(jìn)行劃分, 分別為戰(zhàn)場信息感知無人機(jī)、威脅感知與預(yù)測無人機(jī)、目標(biāo)感知與預(yù)測無人機(jī)、敵方行為預(yù)測無人機(jī)、多任務(wù)執(zhí)行安全性估計無人機(jī)、多任務(wù)執(zhí)行效能估計無人機(jī), 建立模糊輸入態(tài)勢模型和任務(wù)決策模型框架如圖9 所示.
圖9 基于ABFGCM 的集群任務(wù)決策建模Fig.9 ABFGCM-based decision-making modelling for multi-task of UAVs
模糊任務(wù)決策基于感性決策架構(gòu)和理性決策架構(gòu), 可分為專家知識匹配和自我學(xué)習(xí)決策兩種方式.采用智能算法為代表的自主學(xué)習(xí)決策可提高模型的參數(shù)學(xué)習(xí)能力, 降低對現(xiàn)有知識庫的依賴[14,21-22], 同時又能實現(xiàn)專家知識庫的發(fā)育, 具有良好的研究意義.感性決策和理性決策架構(gòu)目的皆是確定任務(wù)決策閾值, 輸出任務(wù)決策信息模糊值, 并將其標(biāo)準(zhǔn)化輸出為精確輸出.
智能化作戰(zhàn)會使知識力量更加突出, 知識較量體現(xiàn)在作戰(zhàn)決策上, 基于態(tài)勢-決策模板匹配構(gòu)建決策知識提取規(guī)則, 其決策流程如下:當(dāng)集群進(jìn)入決策狀態(tài)時, 由推理機(jī)將感知態(tài)勢信息與知識庫中的各個規(guī)則條件進(jìn)行匹配, 直到找到與態(tài)勢信息相符的規(guī)則并提取, 規(guī)則提取策略包括啟發(fā)式搜索[23]和主動學(xué)習(xí)方法等[24], 決策知識庫基于集群任務(wù)需求和集群狀態(tài)等要素建立任務(wù)最優(yōu)決策策略. 在多任務(wù)條件下, 將先驗知識庫中的態(tài)勢-決策模板數(shù)據(jù)表示如下:
圖10 基于專家知識的無人機(jī)集群任務(wù)自主決策結(jié)構(gòu)圖Fig 10 Structure diagram of autonomous decision-making for multi-task of UAVs based on expert knowledge system
博弈論(game theory)是研究多個自主個體在利益相關(guān)情形下決策行為的理論[25]. 在博弈論中每個個體的博弈策略都是通過自身策略以及其他個體策略影響的效能函數(shù)定義,調(diào)整自身策略進(jìn)行優(yōu)化求解[26-27].無人機(jī)集群任務(wù)決策的微分博弈方法是先把任務(wù)對策轉(zhuǎn)化為雙邊極值問題, 然后進(jìn)行求解, 涉及的相關(guān)元素由式中五元組表示:
其中, t 為集群任務(wù)博弈決策的時間變量;Xt為博弈決策中個體狀態(tài)量集合, 在不同任務(wù)中狀態(tài)量不同,如在集群突防任務(wù)中狀態(tài)量為敵方威脅探測半徑和我方無人機(jī)與敵方威脅之間的距離, 在集群打擊中表示我方無人機(jī)和敵方目標(biāo)位置、相對速度等;為決策個體集合,對應(yīng)集群內(nèi)無人機(jī);, si對應(yīng)無人機(jī)vi的任務(wù)策略;Ct為任務(wù)決策過程的約束集合, 主要包括集群能力、飛行動力學(xué)方程以及任務(wù)環(huán)境信息;Ut為集群任務(wù)決策微分博弈中每個決策個體效能函數(shù)的集合.
集群任務(wù)決策微分博弈過程中, 關(guān)鍵在于為任務(wù)策略的設(shè)計常用的微分博弈控制策略, 包括基于梯度的博弈控制策略和基于Hamiltonian 函數(shù)的最優(yōu)化博弈策略[28-29]. 以上兩種博弈控制策略設(shè)計本質(zhì)都是設(shè)計可靠的效能函數(shù), 因此, 將其應(yīng)用到集群任務(wù)決策求解過程中時, 需重點研究能夠反映實際情況的決策效能函數(shù). 雖然微分對策法是一種具有現(xiàn)實意義的方法, 但是該方法存在效能函數(shù)設(shè)定困難、計算量龐大和方法復(fù)雜等缺點, 設(shè)計出符合任務(wù)決策策略的效能函數(shù)難度較大, 其次是最優(yōu)策略求解的困難性, 當(dāng)面對高維度的無人機(jī)集群決策問題時納什均衡解析解求解困難, 難以應(yīng)用于實際.
無人機(jī)集群自主決策態(tài)勢信息具有模糊性和動態(tài)性, 因此, 可將該問題建模為不確定環(huán)境下的在線多目標(biāo)優(yōu)化問題, 基于數(shù)值優(yōu)化思想設(shè)計合理的決策效能函數(shù), 對于鞏固集群作戰(zhàn)優(yōu)勢, 發(fā)揮集群協(xié)同效能具有重要意義. 基于數(shù)值優(yōu)化方法建立無人機(jī)集群自主決策架構(gòu)如圖11 所示, 首先根據(jù)我方集群、目標(biāo)和環(huán)境態(tài)勢設(shè)計合理隸屬函數(shù)實現(xiàn)態(tài)勢信息融合, 采用貝葉斯推理、統(tǒng)計學(xué)優(yōu)化和遺傳算法[30-32]等優(yōu)化方法評估態(tài)勢對集群任務(wù)決策的影響, 自適應(yīng)調(diào)整效能函數(shù)權(quán)重, 優(yōu)化任務(wù)決策結(jié)果.
圖11 基于數(shù)值優(yōu)化方法的無人機(jī)集群決策Fig.11 Numerical optimization methods-based decision-making for UAVs
針對無人機(jī)集群任務(wù)決策高動態(tài)和不確定性的特點, 為了提高決策系統(tǒng)的魯棒性, 一方面利用隸屬函數(shù)對模糊態(tài)勢信息進(jìn)行態(tài)勢信息融合, 并采用可達(dá)集理論對威脅態(tài)勢、目標(biāo)意圖等進(jìn)行預(yù)測[33], 在一定程度上克服信息不準(zhǔn)確的問題;另一方面借助數(shù)值優(yōu)化方法在決策過程中盡可能地根據(jù)態(tài)勢融合結(jié)果自適應(yīng)地調(diào)整決策效能函數(shù)權(quán)重, 提高決策結(jié)果的魯棒性. 雖然該集群決策方法在任務(wù)決策中應(yīng)用較為廣泛, 但由于集群任務(wù)決策問題狀態(tài)空間的復(fù)雜性, 數(shù)值優(yōu)化算法要求很高的計算資源來求解此類高維度、大規(guī)模優(yōu)化問題, 難以保障實時性, 因此,數(shù)值優(yōu)化算法主要解決集群起飛前靜態(tài)、離線環(huán)境的集群任務(wù)決策問題.
自然界生物群體演化過程中存在著多種多樣的集群行為, 例如狼群捕獵、蟻群覓食和鳥群飛行等.從對生物群體行為的研究過程中也衍生出了多種啟發(fā)式智能算法, 如狼群算法(wolf algorithm)、蟻群算法(colony algorithm)和粒子群算法(particle swarm optimization, PSO)[8,34-35]等應(yīng)用于無人機(jī)集群智能決策、規(guī)劃和控制領(lǐng)域. 基于群體智能算法集群決策的研究關(guān)鍵在于如何建立生物個體、群體位置及行為與態(tài)勢變化下的任務(wù)決策規(guī)則解之間的映射關(guān)系, 即將個體和群體合作覓食、移動、狩獵等生物行為映射為集群偵察、突防和突擊等任務(wù)行為, 將生物群體移動的位置、速度能力約束對應(yīng)于無人機(jī)集群的任務(wù)、運動學(xué)能力約束等, 以此來建模優(yōu)化求解.
考慮到集群任務(wù)決策問題建模求解的高維度和復(fù)雜性, 建立基于群體智能算法的雙層優(yōu)化求解架構(gòu)如圖12 所示, 外層用于集群系統(tǒng)性能估計, 內(nèi)層用于集群任務(wù)管理和調(diào)度. 外層決策模型設(shè)計采用受生物啟發(fā)的聚類算法, 基于狼群算法或蟻群算法尋找集群網(wǎng)絡(luò)結(jié)構(gòu)中心點, 從集群構(gòu)造時間、能耗、集群生命周期和集群任務(wù)成功率等多方面評估系統(tǒng)的性能[36].在外層的牽引下,內(nèi)層任務(wù)決策在系統(tǒng)性能的約束下建立系統(tǒng)目標(biāo)函數(shù)并不斷進(jìn)行優(yōu)化. 由于無人機(jī)集群的高動態(tài)性, 外層和內(nèi)層模型需持續(xù)更新以適應(yīng)集群任務(wù)的自主決策需求.
圖12 基于生物群體智能的無人機(jī)集群決策Fig.12 Biological population intelligence-based decision-making for UAVs
通過對自然界中生物行為機(jī)理的研究, 將不同群體行為與無人機(jī)集群任務(wù)行為作相似性對應(yīng), 例如仿照生物群體偽裝機(jī)理設(shè)計的集群潛伏任務(wù)策略、仿照狼群狩獵行為設(shè)計的集群打擊任務(wù)執(zhí)行策略等,從而提高計算得到任務(wù)策略的智能性. 但由于集群決策問題中優(yōu)化目標(biāo)組成較多, 集群求解規(guī)模大, 此類方法容易陷入求解局部最優(yōu)解中, 計算量較大, 因此, 針對特定的決策任務(wù)類型需選用不同的算法及作出相應(yīng)的優(yōu)化.
人工智能類的集群決策方法主要為基于神經(jīng)網(wǎng)絡(luò)的自演進(jìn)機(jī)器學(xué)習(xí)方法. 神經(jīng)網(wǎng)絡(luò)模仿生物神經(jīng)網(wǎng)絡(luò)進(jìn)行設(shè)計, 其基本信息處理單元為神經(jīng)元, 神經(jīng)元主要有連接權(quán)值、累加器和激活函數(shù)3 種基本元素構(gòu)成, 大量神經(jīng)元的相互連接組成神經(jīng)網(wǎng)絡(luò), 增加神經(jīng)網(wǎng)絡(luò)隱層的數(shù)量以達(dá)到更好的學(xué)習(xí)效果, 稱為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[37]. 將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于無人機(jī)集群任務(wù)決策問題, 需要依據(jù)任務(wù)執(zhí)行過程的特點,設(shè)計神經(jīng)網(wǎng)絡(luò)模型, 采用深度強(qiáng)化學(xué)習(xí)實現(xiàn)自演進(jìn)機(jī)器學(xué)習(xí)訓(xùn)練.
深度強(qiáng)化學(xué)習(xí)方法是一種不斷與環(huán)境信息交互、根據(jù)外界反饋的獎懲信號來學(xué)習(xí)和修正動作策略的方法, 一般用馬爾科夫決策過程(Markov decision process, MDP)形式化表示, 與一般的MDP 不同, 面向任務(wù)的集群自主決策M(jìn)DP 包含戰(zhàn)場態(tài)勢感知函數(shù)獲取真實的環(huán)境狀態(tài)信息[38]. 基本原理為:
1)動態(tài)過程中的每個時刻, 無人機(jī)集群感知模塊與決策模塊利用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)構(gòu)成的態(tài)勢認(rèn)知網(wǎng)絡(luò)得到高維度的態(tài)勢觀察及抽象、具體的狀態(tài)特征表示.
2)各無人機(jī)將狀態(tài)特征通過通信層(兼虛擬全局無人機(jī))進(jìn)行充分地溝通和協(xié)調(diào).
3)將溝通和協(xié)調(diào)后的信息反饋到集群在線決策模塊, 在線決策基于任務(wù)效能設(shè)計預(yù)期決策獎勵機(jī)制, 據(jù)此來評價不同任務(wù)決策方案的價值函數(shù), 并建立當(dāng)前狀態(tài)信息到?jīng)Q策方案的映射.
4)決策模型及時作出動態(tài)響應(yīng), 并對作戰(zhàn)執(zhí)行效果進(jìn)行評估, 并改進(jìn)無人機(jī)集群的作戰(zhàn)決策策略選擇, 得到下一狀態(tài)節(jié)點的觀察值, 實現(xiàn)無人機(jī)集群任務(wù)決策最優(yōu)策略.
根據(jù)不同任務(wù)類型及約束特征建立深度強(qiáng)化學(xué)習(xí)的無人機(jī)集群任務(wù)決策模型, 基于現(xiàn)有的決策知識水平, 設(shè)計不同的隨機(jī)變量和動態(tài)觸發(fā)條件, 在地面仿真端機(jī)進(jìn)行大量的Monte Carlo 任務(wù)決策仿真實驗, 獲得樣本數(shù)據(jù)并將其輸入深度學(xué)習(xí)網(wǎng)絡(luò)中, 經(jīng)過網(wǎng)絡(luò)迭代形成無人機(jī)集群任務(wù)策略集合, 利用深度學(xué)習(xí)的數(shù)據(jù)儲存能力記錄輸入態(tài)勢和輸出決策模板數(shù)據(jù)D, 從而實現(xiàn)知識庫自發(fā)育. 深度強(qiáng)化學(xué)習(xí)通過大量的試錯模式, 以最大化預(yù)期獎賞為目標(biāo)進(jìn)化, 獲取集群決策最優(yōu)策略, 其算法框架如圖13 所示. 根據(jù)深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的自組織學(xué)習(xí)特性, 不斷擴(kuò)充決策知識庫, 實現(xiàn)理性和感性推理的結(jié)合, 從而進(jìn)行高效、智能的頂層任務(wù)決策, 獲取最優(yōu)任務(wù)執(zhí)行方案.
圖13 基于深度強(qiáng)化學(xué)習(xí)無人機(jī)集群任務(wù)決策算法框架Fig.13 Deep reinforcement learning based algorithmic framework for multi-task decision making of UAVs
無人機(jī)由于其任務(wù)能力多樣性占據(jù)戰(zhàn)場優(yōu)勢,這會導(dǎo)致任務(wù)決策過程中優(yōu)化目標(biāo)函數(shù)更加復(fù)雜,基于深度強(qiáng)化學(xué)習(xí)的集群決策方法引進(jìn)了神經(jīng)網(wǎng)絡(luò),能夠保證對復(fù)雜任務(wù)決策優(yōu)化目標(biāo)函數(shù)的有效求解,應(yīng)用場景更為廣泛, 通過與任務(wù)環(huán)境持續(xù)交互, 能夠利用復(fù)雜的優(yōu)化目標(biāo)函數(shù)對多任務(wù)類型和決策推理需求進(jìn)行更精細(xì)化的描述, 自我學(xué)習(xí)生成全新的任務(wù)執(zhí)行模式.
集群決策往往意味著有多個決策節(jié)點共同參與決策問題, 每個節(jié)點皆有自己的想法、知識、態(tài)度和動機(jī), 相應(yīng)地每個節(jié)點會存在各自的偏好方案. 在集群決策過程中, 引入共識達(dá)成過程(consensus reaching processes, CRPs)使集群內(nèi)偏好方案更加接近, 形成群體滿意的決策方案, 其主要階段為:1)共識測量, 即確定偏好方案的差異程度;2)共識控制, 確定是否達(dá)到預(yù)期共識標(biāo)準(zhǔn)水平;3)共識達(dá)成, 應(yīng)用反饋機(jī)制, 使偏離程度較遠(yuǎn)的成員偏好方案更接近平均偏好, 提高一致性水平. 在集群資源有限的情況下,通過整合利用節(jié)點關(guān)系信息, 建模分析節(jié)點之間的關(guān)系和意見, 設(shè)計基于最小調(diào)整成本的自動反饋共識達(dá)成機(jī)制, 以發(fā)現(xiàn)和消除集群沖突, 支持高效的一致性決定. 無人機(jī)集群任務(wù)決策中的不同偏好結(jié)構(gòu)和表現(xiàn)形式、重要性水平參差的異構(gòu)群體、緊急決策場景中的一致性保持仍是該領(lǐng)域的一些挑戰(zhàn)和未來研究方向.
基于自然語言處理(natural language processing,NLP)的交流形式是人類在決策過程交流的標(biāo)準(zhǔn)表示形式, 其值是從自然語言中提取的命題單詞, 確定術(shù)語集的語言描述符及其定義, 通過語義術(shù)語代替實數(shù)對集群任務(wù)進(jìn)行評估, 從而使未來決策的發(fā)展回到人類的常識. 由于集群任務(wù)決策的復(fù)雜過程, 使用單一術(shù)語并不能完整決策, 造成術(shù)語與決策結(jié)果不匹配. 因此, 決策過程將允許多個語義術(shù)語, 這就導(dǎo)致了復(fù)雜語言表達(dá)的使用, 這些術(shù)語以人工語言或自然語言為特征, 包括語言模糊限制語、連接詞和語言術(shù)語. 因此, 有必要處理更豐富、限制更少的自然語言表達(dá), 從而不僅能詳細(xì)準(zhǔn)確地對決策的備選方案和標(biāo)準(zhǔn)進(jìn)行評估, 還能準(zhǔn)確描述這些方案和標(biāo)準(zhǔn)之間的相互關(guān)系.
未來集群任務(wù)決策形態(tài)將按照“人為主導(dǎo)的規(guī)則決策”到“人在回路的有限思維決策”到“機(jī)器為主導(dǎo)的認(rèn)知智能決策”進(jìn)行演化. 早期專家知識庫多依賴人類經(jīng)驗建立, 決策結(jié)果固化, 是知識驅(qū)動的規(guī)則型決策. 現(xiàn)今集群任務(wù)決策向著數(shù)據(jù)驅(qū)動的自主化、智能化、認(rèn)知型的趨勢發(fā)展, 基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對海量樣本數(shù)據(jù)的訓(xùn)練結(jié)果, 涌現(xiàn)出超越現(xiàn)有作戰(zhàn)經(jīng)驗和戰(zhàn)術(shù)意圖的全新策略, 實現(xiàn)決策知識庫體系的自發(fā)育, 為決策提供充分的支持. 認(rèn)知型智能決策具有較強(qiáng)的適應(yīng)能力和學(xué)習(xí)能力, 在未來, 隨著人工智能技術(shù)和以6G 為代表的通信技術(shù)的進(jìn)一步發(fā)展, 以腦機(jī)協(xié)同思維模式為主的認(rèn)知型智能將成為集群任務(wù)自主決策的核心, 建立空中任務(wù)動態(tài)基站, 以收集復(fù)雜戰(zhàn)場環(huán)境信息, 從環(huán)境中學(xué)習(xí), 快速適應(yīng)動態(tài)環(huán)境, 實現(xiàn)集群的靈活部署, 充分發(fā)揮集群應(yīng)用優(yōu)勢,驅(qū)動集群智能作戰(zhàn)技術(shù)邁入高級階段.
本文針對未來無人機(jī)集群協(xié)同作戰(zhàn)典型任務(wù)場景, 建立集群自主決策CDPC 架構(gòu), 基于通信拓?fù)浞謩e給出了集中式、完全分布式和混合式?jīng)Q策架構(gòu). 根據(jù)自主決策任務(wù)的不同, 對7 種集群任務(wù)決策類型進(jìn)行了詳細(xì)描述, 并完成集群自主決策任務(wù)流程的設(shè)計. 分別對基于專家知識、模糊認(rèn)知圖、微分決策、數(shù)值優(yōu)化方法、群體智能算法和深度強(qiáng)化學(xué)習(xí)求解決策問題進(jìn)行了分析和研究, 建立集群任務(wù)自主決策求解框架. 最后提出了集群未來的發(fā)展趨勢及面對的技術(shù)挑戰(zhàn), 為后續(xù)研究基于本文的無人機(jī)集群自主決策框架, 以算法優(yōu)勢主導(dǎo)決策優(yōu)勢為目標(biāo)建立具體方案解決集群決策問題提供了新的發(fā)展思路.