基于多智能體強化學(xué)習(xí)的無人機集群攻防對抗策略研究

2021-05-08 09:06:30軒書哲柯良軍

無線電工程 2021年5期

軒書哲，柯良軍

(1.機械制造系統(tǒng)工程國家重點實驗室,陜西西安 710049；2. 西安交通大學(xué) 自動化科學(xué)與工程學(xué)院，陜西西安 710049)

0 引言

無人機集群是一個由多架無人機相互協(xié)作、執(zhí)行共同任務(wù)的統(tǒng)一系統(tǒng)。近年來，無人機集群技術(shù)得到了極大的發(fā)展，在搜索與救援、巡邏與監(jiān)視、消防與作戰(zhàn)等領(lǐng)域得到了廣泛應(yīng)用。相較于單無人機系統(tǒng)，無人機集群擁有更加強大的環(huán)境適應(yīng)能力和更高的控制冗余度，能夠協(xié)同完成更復(fù)雜的任務(wù)。

作為一種具有代表性的無人機集群系統(tǒng)，無人機集群攻防對抗系統(tǒng)規(guī)模龐大、系統(tǒng)復(fù)雜、具有非常高的系統(tǒng)隨機性和狀態(tài)不確定性。無人機集群攻防對抗問題的本質(zhì)是一種“疆土防御”問題[1]和“追捕逃脫”問題[2]。在該問題中入侵者需要盡可能地接近目標(biāo)領(lǐng)地，而防御者試圖攔截入侵者的入侵。環(huán)境中的無人機既要考慮自身個體的自治與發(fā)揮，又要考慮無人機之間的交流與合作。在一個連續(xù)且動態(tài)變化的環(huán)境中，如何教會無人機協(xié)同工作具有十分重要的研究意義。

現(xiàn)有的無人機集群對抗方法有基于微分博弈的方法、基于專家系統(tǒng)的方法和基于引導(dǎo)率的方法等，這些方法在簡單的、小規(guī)模靜態(tài)環(huán)境中擁有較好的表現(xiàn)，但無法適用于規(guī)模較大的、復(fù)雜未知的場景。近年來，隨著深度強化學(xué)習(xí)技術(shù)的提出和發(fā)展，強化學(xué)習(xí)被廣泛應(yīng)用于智能體對抗領(lǐng)域，如雅達利游戲和圍棋等。與微分博弈、專家系統(tǒng)等傳統(tǒng)的集群算法相比，強化學(xué)習(xí)不依賴于環(huán)境模型，主要通過學(xué)習(xí)獎勵函數(shù)優(yōu)化自身的策略，在大規(guī)模、復(fù)雜的環(huán)境中具有更大的優(yōu)勢。運用強化學(xué)習(xí)相關(guān)理論解決無人機集群對抗問題是一種具有廣泛前途的方法。例如文獻[3]首先提出并研究了具有2組對立任務(wù)的智能體決策問題，隨后文獻[4]提出隨機博弈的決策問題可轉(zhuǎn)化為多智能體強化學(xué)習(xí)問題。在微分博弈理論基礎(chǔ)上，強化學(xué)習(xí)算法被用于解決“疆土防御”問題[5-7]。

為解決連續(xù)動作空間的大規(guī)模無人機集群攻防對抗問題，本文基于近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法的思想，提出了一種改進的多智能體強化學(xué)習(xí)算法 M-PPO。算法使用了一個集中式的Critic框架和分布式的Actor框架。其中Critic網(wǎng)絡(luò)包含了所有無人機的信息，保證智能體能夠?qū)W習(xí)到無人機之間的協(xié)作；Actor網(wǎng)絡(luò)僅依賴于自身觀測值進行決策。同時集中訓(xùn)練、分散執(zhí)行的方法使無人機僅在訓(xùn)練階段進行通信，減少了通信開銷。為了研究M-PPO算法，設(shè)計并開發(fā)了一個大型無人機集群攻防對抗平臺，模擬無人機的飛行約束和真實的飛行環(huán)境。利用仿真環(huán)境，將M-PPO與其他幾種常用的強化學(xué)習(xí)算法進行了比較，驗證了本文所提算法的優(yōu)越性。

1 相關(guān)工作

1.1 傳統(tǒng)無人機集群攻防對抗算法

無人機集群攻防對抗問題的復(fù)雜性吸引了眾多學(xué)者的關(guān)注。目前主流的無人機對抗算法包括引導(dǎo)率方法、微分博弈方法和專家系統(tǒng)法等，但這些方法都有一定的局限性。引導(dǎo)率方法是引導(dǎo)無人機到達指定目標(biāo)點的算法，雖然其具有簡單易實現(xiàn)的特點，但需要提前獲知對方的控制策略或者要求對方具有相對固定的運動模式，因此難以適用于復(fù)雜的多智能體環(huán)境；微分博弈方法能夠在智能體沒有最優(yōu)策略先驗知識的前提下學(xué)習(xí)如何行動，但此種方法具有狀態(tài)量多、微分方程復(fù)雜、方程解析式求解困難等問題；專家系統(tǒng)法是借助計算機模擬人類專家處理復(fù)雜問題的方法，其核心是根據(jù)相關(guān)領(lǐng)域的人類專家獲取的先驗知識建立其系統(tǒng)模型，并根據(jù)當(dāng)前無人機的狀態(tài)，通過模糊匹配等方法選擇知識庫中事先定義好的行動策略。專家系統(tǒng)法擁有悠久的研究歷史和較為成熟的研究方案，應(yīng)用較為廣泛，但是其依賴于大量的人類專家制定的針對性規(guī)則，一旦環(huán)境發(fā)生調(diào)整，規(guī)則必須重新制定，可移植性較差。此外，專家系統(tǒng)法只能從事先定義好的規(guī)則庫中選取規(guī)則，無法保證決策的正確性。

1.2 基于強化學(xué)習(xí)的集群攻防對抗算法

強化學(xué)習(xí)是一種不依賴模型和任何先驗信息，通過不斷“試錯”和獲得的獎勵來優(yōu)化自身行為的方法。在單智能體對抗問題中，一種具有代表性的強化學(xué)習(xí)方法是Q-Learning算法[8]，它通過表格的形式記錄環(huán)境的所有狀態(tài)-行為價值函數(shù)Q，并根據(jù)ε-貪婪策略選擇動作。但該方法只適用于狀態(tài)和動作空間離散的小規(guī)模問題。深度強化學(xué)習(xí)(Deep Q Network，DQN)算法[9]使用神經(jīng)網(wǎng)絡(luò)代替Q-Learning中的表格來擬合狀態(tài)-行為價值函數(shù)，并使用經(jīng)驗回放池、雙網(wǎng)絡(luò)等技巧，成功將Q-Learning算法應(yīng)用在連續(xù)狀態(tài)空間中，在單智能體對抗問題上得到了廣泛的應(yīng)用，但仍然無法解決連續(xù)動作空間問題。

DDPG算法[10]是一種用于解決連續(xù)動作空間的強化學(xué)習(xí)算法。該算法基于策略梯度(Policy Gradient)框架，在動作連續(xù)的環(huán)境中取得了較為理想的效果，但當(dāng)環(huán)境的動作空間較大時，算法往往難以收斂。另一方面，DDPG算法采用確定性策略，一個確定的狀態(tài)s下只能采取一種動作，探索能力較差。

PPO算法[11]是OpenAI提出的另一種策略梯度算法。通過在損失函數(shù)中添加懲罰項來約束策略更新的幅度，PPO能夠在復(fù)雜的場景中快速學(xué)習(xí)到正確的策略，被廣泛應(yīng)用于各種離散和連續(xù)的動作空間問題中[12]。此外，相較于DDPG，PPO使用了隨機策略，基于動作的概率分布選取動作，能夠?qū)崿F(xiàn)更好的探索。

在處理無人機集群攻防對抗問題時，一種常用的方法是將多智能體問題直接建模成單智能體問題。這些方法通常假設(shè)一個統(tǒng)一的頂端智能體，該頂端智能體接收所有無人機的狀態(tài)并輸出動作值。但是隨著智能體規(guī)模的擴大，問題的狀態(tài)空間和動作空間維度指數(shù)增加，將造成維度災(zāi)難。同時無人機之間需要實時通信，會產(chǎn)生龐大的通信開銷。

另一種處理多智能體問題的基本方法是將每個智能體視為一個獨立的個體，如Independent Q-Learning[13]。在該算法中，每個智能體只處理自己獲取的信息，因此智能體之間是完全獨立的。但是這些方法不僅沒有考慮智能體之間的相互影響，也不能滿足強化學(xué)習(xí)中的獨立性要求，在復(fù)雜的場景中表現(xiàn)不佳。

2 問題描述與系統(tǒng)建模

本文考慮了一種無人機集群攻防對抗場景，場景模型如圖 1 所示。

圖1 三維連續(xù)空間無人機環(huán)境模型Fig.1 3D continuous space UAV environment model

紅色無人機為進攻無人機，藍色無人機為防御無人機，雙方在一定范圍內(nèi)的建筑群中圍繞目標(biāo)區(qū)域(場景中心體育場)展開對抗。進攻無人機在保護自身的前提下試圖入侵目標(biāo)區(qū)域；防御無人機的目標(biāo)則是阻止目標(biāo)區(qū)域被侵入并盡可能地摧毀敵方。假定進攻無人機數(shù)量為I，防御無人機數(shù)量為J，所有無人機都是同構(gòu)的，擁有相同的性能參數(shù)。無人機在飛行時要服從以下約束：

(1) 初始坐標(biāo)約束

場景中防御無人機在目標(biāo)區(qū)域一定距離內(nèi)隨機產(chǎn)生，進攻無人機在目標(biāo)區(qū)域一定距離外隨機出現(xiàn)。對于進攻無人機i和防御無人機j，其初始時刻到目標(biāo)區(qū)域g的距離分別為di,g和dj,g，di,g和dj,g應(yīng)滿足：

di,g≥dinit，

(1)

dj,g≤dinit，

(2)

式中，dinit為給定的初始安全距離。

(2) 高度與邊界約束

無人機飛行過程中受到高度限制，飛行高度過高或過低將受到懲罰。其飛行高度需滿足如下約束：

hmin≤h≤hmax。

(3)

此外，建筑群四周是有界的，無人機不能超出其范圍。

(3) 速度與加速度約束

由于無人機避障的要求以及自身機能的限制，無人機的速度和加速度不可能無限大。在三維空間中，無人機的速度和加速度需滿足最大值約束：

|vx,y,z|≤vmaxx,y,z，

(4)

|ax,y,z|≤amaxx,y,z。

(5)

(4) 最大偏航角約束

飛行過程中，無人機通過調(diào)整偏航角進行轉(zhuǎn)向。發(fā)動機性能和機身氣動結(jié)構(gòu)的限制使無人機的偏航角無法達到±90°，而是存在一個最大范圍。假設(shè)無人機航跡點i的坐標(biāo)為(xi,yi,zi)，則從點i-1到點i的航跡段的水平投影為αi=(xi-xi-1,yi-yi-1)T，那么最大偏航角φ約束為：

(6)

(5) 障礙物約束

環(huán)境中存在形狀、大小各異的房屋障礙物。障礙物的坐標(biāo)是隨機的，只有當(dāng)無人機與障礙物足夠接近時，才能發(fā)現(xiàn)障礙物。飛行過程中無人機不能越過障礙物也不能與障礙物發(fā)生碰撞。一旦發(fā)生碰撞，則無人機被摧毀。無人機與障礙物的距離l應(yīng)滿足：

l≥Rsafe+lmin+RUAV，

(7)

式中，Rsafe為規(guī)定的安全距離；lmin為障礙物在無人機方向上的長度；RUAV為無人機半徑。

場景中無人機可通過雷達設(shè)備偵測到自身范圍內(nèi)一定數(shù)量的敵方和己方單位坐標(biāo)，防御無人機可摧毀自身攻擊范圍內(nèi)的敵方單位，當(dāng)一架進攻無人機至少暴露在K架防御無人機的攻擊范圍內(nèi)時，進攻無人機被摧毀。此外，考慮到能量消耗，無人機的飛行最大時長為T。T時刻內(nèi)，任何一架進攻無人機足夠接近目標(biāo)區(qū)域，則進攻方獲勝；所有進攻無人機被摧毀或者無任何無人機入侵成功，則防御方獲勝。

3 基于M-PPO的無人機集群對抗

3.1 馬爾科夫決策過程

對于一個強化學(xué)習(xí)環(huán)境，可以使用馬爾科夫決策過程(Markov Decision Process，MDP)描述智能體與環(huán)境的交互過程。一個MDP由一個五元組組成，其中S和A表示狀態(tài)空間和動作空間，P:S×A→S表示狀態(tài)轉(zhuǎn)移概率矩陣，R:S×A×S→[rmin,rmax]表示即時獎勵，γ∈[0,1]為回報折扣因子。在任意時刻t，智能體i根據(jù)當(dāng)前時刻狀態(tài)st∈S和策略π(a|s)選擇動作at∈A，并根據(jù)狀態(tài)轉(zhuǎn)移矩陣P到達下一時刻狀態(tài)st+1∈S，同時得到對應(yīng)的獎勵rt∈R。智能體重復(fù)以上行為直到終止。

3.2 PPO算法

為了解決以上問題，PPO算法將前后策略輸出動作的概率比值作為策略更新的依據(jù)，最大化目標(biāo)函數(shù)：

(8)

式中，At為t時刻的優(yōu)勢函數(shù)估計值；π是一個隨機策略；θold,θ分別表示策略π更新前后的參數(shù)。該目標(biāo)函數(shù)可以解釋為PPO嘗試最大化相對于均值而言取得更大優(yōu)勢的動作的概率，并最小化取得更大劣勢動作的概率。同時，為了防止策略更新幅度過大，算法引入約束項來限制策略更新。一種常用的限制方法是使用KL散度約束。約束后的目標(biāo)函數(shù)為：

LKLPEN(θ)=Et[rt(θ)At-βKL[πθold(·|st),πθ(·|st)]]，

(9)

式中，β是自適應(yīng)KL懲罰系數(shù)，在每次策略更新后被更新。

在實際應(yīng)用中，研究人員發(fā)現(xiàn)，使用截斷的方法進行約束能夠取得更好的效果，此時策略更新的目標(biāo)函數(shù)為：

LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1-,1+)At)],

(10)

PPO算法的核心思想是通過約束策略更新的幅度解決策略梯度算法中步長難以確定的問題，同時使用重要性采樣提高樣本利用效率，大大降低了算法的調(diào)試難度。

3.3 M-PPO算法

傳統(tǒng)的強化學(xué)習(xí)算法很難直接應(yīng)用在多智能體環(huán)境中，一個重要的原因是訓(xùn)練過程中每個智能體都在不斷變換更新。此時對于每個智能體而言，外部環(huán)境都是不穩(wěn)定的，即對于任意的πi≠π′i，存在P(s′|s,a,π1,…,πn)≠P(s′|s,a,π′1,…,π′n)。在多智能體環(huán)境中，如果智能體i僅僅將其他智能體視為環(huán)境的一部分，將會忽略其他智能體的動態(tài)性，無法保證算法的收斂。

為解決這一問題，將PPO算法擴展到多智能體環(huán)境中，本文在PPO的基礎(chǔ)上修改了Critic網(wǎng)絡(luò)，在訓(xùn)練中引入可以觀察全局的Critic來指導(dǎo)Actor的訓(xùn)練，從而將不可預(yù)測的環(huán)境轉(zhuǎn)換成可預(yù)測的環(huán)境。同時，為進一步減小通信開銷，M-PPO采用了集中式Critic和分布式Actor策略，智能體之間擁有自己獨立的Actor網(wǎng)絡(luò)和一個共享的Critic網(wǎng)絡(luò)。M-PPO算法的結(jié)構(gòu)如圖 2 所示。

圖2 M-PPO算法結(jié)構(gòu)Fig.2 Algorithm structure of M-PPO

對于含有n個無人機的強化學(xué)習(xí)環(huán)境，M-PPO算法包含了n個Actor網(wǎng)絡(luò)和1個Critic網(wǎng)絡(luò)。對于智能體i，t時刻時其自身的局部狀態(tài)值為si，Actor網(wǎng)絡(luò)通過自身的局部觀測值輸出對應(yīng)動作概率分布的均值μ和方差σ，然后通過對μ和σ構(gòu)建的正態(tài)分布函數(shù)采樣得到最終的動作ai。環(huán)境執(zhí)行動作ai并將相關(guān)信息(si,ai,ri,s′i)存儲在經(jīng)驗回放池中。

智能體與環(huán)境交互一定次數(shù)后，停止交互并隨機從經(jīng)驗回放池中采樣進行網(wǎng)絡(luò)的訓(xùn)練。訓(xùn)練時Critic的輸入為所有智能體的狀態(tài)S(s1,s2,…,sn)，輸出為智能體對應(yīng)的狀態(tài)價值V(V1,V2,…,Vn)，其優(yōu)化的損失函數(shù)為：

(11)

通過以上方法，無人機在訓(xùn)練階段進行通信，學(xué)習(xí)智能體之間的合作；在執(zhí)行階段僅依賴自身局部感知做出動作，從而實現(xiàn)了不依賴于通信的協(xié)作策略。此外，為了減小網(wǎng)絡(luò)訓(xùn)練的開銷，智能體之間共享相同的Actor網(wǎng)絡(luò)參數(shù)。

3.4 算法元素表示

對于集群中的無人機i，給出其狀態(tài)空間、動作空間和獎勵函數(shù)。

3.4.1 狀態(tài)空間

對于無人機i，狀態(tài)空間si={Xi,Vi,Di,Dij1,Dij2,…,Dijk},其中Xi,Vi,Di表示自身的坐標(biāo)、速度和到目標(biāo)點的距離，Dijk表示無人機i與敵方無人機jk的距離。狀態(tài)空間中所有值都是連續(xù)有界的。

3.4.2 動作空間

對于無人機i，動作空間為加速度Ai(ai,x,ai,y,ai,z),加速度的取值連續(xù)有界。由于無人機的飛行約束和障礙物的限制，不同時刻的可選擇動作是不同的，無人機只能從當(dāng)前可選擇動作空間中選取動作。

3.4.3 獎勵函數(shù)

由于無人機攻防對抗問題的獨特性，無人機只有在回合結(jié)束時才可獲得一個明確的獎勵值，這種延遲獎勵將極大拖慢智能體學(xué)習(xí)的速度。為加快學(xué)習(xí)速度，引入智能體到目標(biāo)點的距離作為回合過程中的獎勵值。

回合過程中，對于坐標(biāo)點為(xi,yi,zi)的進攻無人機i，其目標(biāo)區(qū)域用(x′,y′,z′)為中心，r為半徑的球表示，則獎勵R1,i可以定義為：

(12)

類似的，對于防御無人機j，其獎勵R2,j定義為：

(13)

式中，R1,i表示防御無人機周圍第i個進攻無人機的獎勵值。

回合結(jié)束時，勝利方將獲得一較大的正獎勵，失敗方將獲得一絕對值較大的負獎勵，此時的獎勵R表示為：

(14)

式中，M和N為正整數(shù)。

4 實驗驗證

在實驗中本文采用了含有30架進攻無人機和20架防御無人機的對抗場景，并使用第3節(jié)中介紹的仿真場景進行測試。每架無人機最多能感知周圍3架其他無人機的坐標(biāo)。無人機在三維空間中移動，最大移動速度為10 m/s，場景中長、寬、高分別為1 000,1 000,500 m。實驗中M-PPO算法分別使用2個相互獨立的多層神經(jīng)網(wǎng)絡(luò)表示Actor和Critic，并使用Adam優(yōu)化器進行梯度的更新。其中Actor網(wǎng)絡(luò)隱藏層神經(jīng)元個數(shù)分別為64和64，Critic網(wǎng)絡(luò)隱藏層神經(jīng)元個數(shù)分別為128和64。所有網(wǎng)絡(luò)的隱藏層均使用了ReLU激活函數(shù)。算法的一些超參數(shù)設(shè)置如表1所示。

表1 M-PPO算法超參數(shù)

將M-PPO與2種主流的強化學(xué)習(xí)算法進行了比較，對比算法的網(wǎng)絡(luò)結(jié)構(gòu)與超參數(shù)與M-PPO保持一致。2種對比算法分別為：智能體之間相互獨立的PPO算法(記作I-PPO)和智能體之間相互獨立的DDPG算法(記作I-DDPG)。分別使用3種算法訓(xùn)練環(huán)境中的防御無人機，并使用事先用I-DDPG訓(xùn)練好的網(wǎng)絡(luò)模型控制進攻無人機。場景進行2 000回合的訓(xùn)練，每回合步長為400步，共80萬步。訓(xùn)練曲線如圖3所示。

由圖3可以看出，在經(jīng)過80萬步的訓(xùn)練后，3種算法均成功收斂，其中M-PPO算法在訓(xùn)練10萬步后得到收斂，而I-PPO和I-DDPG算法則收斂在20萬步之后，這表明I-PPO和I-DDPG算法需要更長時間的探索與嘗試。此外，相較于I-DDPG算法，I-PPO算法和M-PPO算法在實驗中取得了更高的平均獎勵值。

圖3 不同算法下防御無人機集群平均獎勵Fig.3 Average reward for defense UAV swarm under different algorithms

訓(xùn)練過程中每隔4 000步對不同算法進行50個回合的測試并記錄防御無人機的防御成功率，結(jié)果如圖4所示。由圖4可知，收斂后的M-PPO算法比I-PPO、I-DDPG算法擁有更高、更穩(wěn)定的成功率。其中M-PPO算法在10萬步后成功率保持穩(wěn)定，I-PP0和I-DDPG算法在20萬步后成功率穩(wěn)定，與圖 3 中獎勵曲線相一致。

圖4 不同算法下防御無人機測試成功率Fig.4 Success rate of defense UAV under different algorithms

5 結(jié)束語

本文研究了無人機集群攻防對抗場景，設(shè)計了一個基于真實環(huán)境約束的大規(guī)模無人機集群仿真平臺，并提出了一種基于近端策略優(yōu)化的改進多智能體強化學(xué)習(xí)算法 M-PPO。該算法使用了全局感知的Critic網(wǎng)絡(luò)和局部感知的Actor網(wǎng)絡(luò)，并使用了集中訓(xùn)練、分散執(zhí)行的框架，訓(xùn)練后的網(wǎng)絡(luò)能夠在無通信的條件下學(xué)會合作。實驗結(jié)果表明，相較于智能體相互獨立的PPO和DDPG算法，M-PPO算法訓(xùn)練所需時間更短，訓(xùn)練之后的成功率更高。