• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于PER-IDQN的多無人飛行器圍捕研究

    2023-10-10 07:09:10楊志鵬陳子浩李金亮
    兵器裝備工程學報 2023年9期
    關鍵詞:飛行器無人智能

    楊志鵬,李 波,林 松,陳子浩,曾 長,李金亮

    (1.湖北航天技術研究院總體設計所,武漢 430040;2.西北工業(yè)大學 電子信息學院,西安 710114;3.中國電子科技集團公司第二十九研究所,成都 610036)

    0 引言

    近年來,無人飛行器在搜索救援、地面勘探、農業(yè)種植、特殊物流等諸多領域取得了不錯的成績,也開始在軍事領域中大放異彩,出色的完成了許多有人機難以完成的任務[1-3]。隨著無人飛行器性能的提升,無人飛行器將在未來空戰(zhàn)中扮演更加重要的角色,其在空戰(zhàn)上發(fā)揮的作用將不單單是戰(zhàn)場偵查與監(jiān)視,也應該包括執(zhí)行對敵機動追蹤、決策博弈任務,逐步完成從常規(guī)的偵察平臺到作戰(zhàn)平臺的轉換[4]。

    由于單體飛行器能力有限,難以完成復雜的任務[5]。因此,通過選擇多飛行器組成集群,共同完成任務,能夠有效克服飛行器的能力限制,提高任務執(zhí)行效率[6]。為在空戰(zhàn)中取得優(yōu)勢,提升無人飛行器集群智能化水平,讓飛行器編隊能夠根據(jù)態(tài)勢環(huán)境而自動進行對目標圍捕成為主要的研究方向[7]。

    現(xiàn)有的多無人飛行器圍捕相關研究大部分基于分布式控制,即通過將集群圍捕問題轉換為一致性問題,然后設計分布式算法使得集群向目標位置接近和收斂,實現(xiàn)對敵目標的包圍捕獲效果。黃天云等[8]提出了一種基于松散偏好規(guī)則的自組織方法,通過分解圍捕行為,利用松散偏好規(guī)則使個體機器人自發(fā)形成理想的圍捕隊形,并運用Lyapunov穩(wěn)定性定理證明系統(tǒng)的穩(wěn)定性。李瑞珍等[9]提出了一種基于動態(tài)圍捕點的多機器人協(xié)同圍捕策略。根據(jù)目標位置設置動態(tài)圍捕點,并利用任務分配方法為圍捕機器人分配最佳圍捕點,綜合考慮圍捕路徑損耗和包圍效果,計算圍捕機器人的最優(yōu)航向角,實現(xiàn)集群對目標的圍捕。張子迎等[10]提出一種多層環(huán)狀伏擊圍捕模型,并依據(jù)能量均衡原則,對系統(tǒng)能量消耗進行平衡。然而,這類圍捕方法是一種程序式的圍捕,換言之,盡管該類方法不用人為手動控制,但面對環(huán)境變化和突發(fā)狀況時,需要消耗大量資源重新對外界環(huán)境模型進行建模和解算,大大影響飛行器決策的實時性和有效性,難以應用于未知復雜環(huán)境下的多飛行器圍捕任務中[11]。

    為了實現(xiàn)多無人飛行器的協(xié)同自主決策,構建一個合理有效的多無人飛行器控制模型是有意義的[12]。深度強化學習結合了深度學習的環(huán)境感知能力和強化學習的決策控制能力,被廣泛運用于智能體的智能控制任務中[13]。各飛行器利用深度神經網(wǎng)絡對數(shù)據(jù)進行提取和特征學習,進而通過和環(huán)境的交互訓練,不斷優(yōu)化策略,實現(xiàn)大系統(tǒng)下的多無人飛行器協(xié)同決策控制,完成對目標的有效圍捕。

    本文中所進行的多無人飛行器圍捕研究代表了無人飛行器在軍事領域中的潛在應用之一。通過提出一種基于深度強化學習PER-IDQN算法的新方法,采用離線學習對神經網(wǎng)絡進行訓練,將訓練時產生的數(shù)據(jù)存儲于經驗池中,為神經網(wǎng)絡的優(yōu)化提供學習樣本[14]。并結合多飛行器機動控制和協(xié)同圍捕任務要求,對飛行器動作和狀態(tài)進行設計,實現(xiàn)對多無人飛行器的智能決策控制。最后,結合仿真結果,對多無人飛行器圍捕任務研究進行了進一步的分析說明。

    1 多無人飛行器圍捕任務

    1.1 無人飛行器飛行場景

    由于無人飛行器底層控制中涉及到的變量因素太多,較為復雜[15]。為重點關注二維環(huán)境下飛行器高層決策控制,本研究假設無人飛行器為定高飛行,以對飛行器控制模型和飛行場景進行簡化。具體的,采用柵格法對無人飛行器飛行環(huán)境進行表示和限制,其中柵格邊長為c,環(huán)境長度為L,寬度為W,則環(huán)境中包含的柵格數(shù)量為LW。

    在無人飛行器飛行過程中,可能面臨實體障礙物或雷達干擾等影響。因此,為了訓練無人飛行器對威脅區(qū)的規(guī)避能力,我們在環(huán)境中引入了障礙物作為干擾,各無人飛行器需要在機動飛行過程中,完成對威脅區(qū)的規(guī)避,最終實現(xiàn)對目標的圍捕任務。圖1描述了柵格化環(huán)境下的飛行場景。

    圖1 無人飛行器飛行場景

    1.2 圍捕任務定義

    本研究計劃采用的場景是多對單的圍捕場景。在圍捕任務中,包含信息獲取、軌跡預測、包圍攔截、合圍捕獲等環(huán)節(jié)和戰(zhàn)術,各飛行器需協(xié)調自身行為和團隊策略,實現(xiàn)對目標的最終合圍。在二維受限制的場景中,圍捕飛行器和目標點的位置隨機給出,通過設定圍捕飛行器數(shù)量、飛行方向、飛行速度、探測半徑等相關參數(shù),對雙方機動能力進行設定約束??紤]到硬件能力和資源有限,圍捕飛行器編隊需要在一定時間內完成對目標的捕獲,目標可以制定有效的機動逃避策略與圍捕飛行器完成對抗。各飛行器在機動運動時,需要對環(huán)境中的障礙物進行規(guī)避。當目標處于每個圍捕飛行器的探測范圍內,視為圍捕成功。

    2 深度強化學習算法

    2.1 強化學習

    強化學習是一種用于實現(xiàn)智能體自主決策控制的有效方法。在強化學習的過程中,智能體每一時刻下回根據(jù)自身的狀態(tài)做出有效的動作,并獲得相應的獎勵。智能體通過與環(huán)境的不斷交互積累經驗,進而建立對周圍環(huán)境的知識,實現(xiàn)自主決策。

    強化學習實現(xiàn)的基本過程如圖2所示。一般情況下,可以使用馬爾可夫決策過程(Markov Decision Process,MDP)來對基于強化學習的訓練過程進行描述。標準的MDP通常由五元組〈S,A,R,P,γ〉來表示,其中S表示在訓練過程中每個時間步長智能體與環(huán)境交互獲得的觀察狀態(tài)信息,即智能體的狀態(tài)量;每回合,智能體執(zhí)行動作A并根據(jù)預先設計的獎勵函數(shù)獲得獎勵R;P表示當前狀態(tài)轉移到新狀態(tài)的概率分布。γ為折扣因子,用于平衡當前時刻獎勵和長遠獎勵對累積獎勵的影響。

    圖2 強化學習理論框架

    2.2 基于深度強化學習的IDQN算法

    IDQN(Independent DQN)是一種結合Independent Q-Learning(IQL)和DQN的多智能體深度強化學習算法,用于解決多智能體環(huán)境中的協(xié)同決策問題。IDQN是一種集中式訓練,分布式執(zhí)行的策略方法。對于每一個智能體i,在t時刻時,其執(zhí)行的動作為

    (1)

    式中:εgreedy為貪婪系數(shù),e服從區(qū)間(0,1)之間的均勻分布。智能體執(zhí)行動作at后,會得到rt和st+1,將一組樣本[st,at,rt,st+1]存入到經驗回放隊列中。在滿足學習條件的t時刻,隨機從經驗回放隊列中批量提取m個樣本[si,ai,ri,si+1]作為訓練樣本。結合目標網(wǎng)絡θ′,可以計算得到IDQN的目標值Yt:

    (2)

    式中:γ為獎勵折扣因子。在當前t時刻,計算均方差損失函數(shù)L(θ)并更新在線網(wǎng)絡:

    (3)

    IDQN算法對目標網(wǎng)絡采用軟更新策略進行更新,用軟更新系數(shù)τ對目標網(wǎng)絡的更新幅度進行控制:

    θ′=τθ+(1-τ)θ′

    (4)

    2.3 PER-IDQN算法

    IDQN算法繼承了DQN算法的優(yōu)勢,通過構建經驗回放機制,幫助智能體對學習數(shù)據(jù)和樣本進行收集,進而用于智能體訓練過程中。在訓練過程中,從經驗回放隊列里隨機抽取經驗樣本進行訓練,有效的打破了經驗樣本的相關性。然而,在該方法中,由于各個經驗樣本抽取的幾率是相同的,一些有益于智能體學習的經驗樣本在訓練過程中利用率較低,導致學習效率不高和收斂速度較慢等問題。

    在IDQN算法基礎上,引入重要性采樣方法,提出一種新的PER-IDQN算法,既保證能夠對高優(yōu)先級的樣本進行高效利用,提升智能體學習效率;又可以使不同樣本對梯度下降的影響是相同的。針對多智能體無人飛行器系統(tǒng)中,對于序號為i的飛行器,其TD-error可以表示為

    (5)

    式中:TD-error表示期望值與當前Q值之間的差值??梢钥闯?TD-error越大,表示計算出的期望值與當前Q值之間差距較大,這意味著當前時刻智能體距離期望狀態(tài)具有較大的差距,需要重點對該樣本進行學習。具體地,引入重要性采樣的權重系數(shù)wj,設定新的損失函數(shù)為

    (6)

    式中:重要性采樣的權重系數(shù)wj為

    (7)

    式中:超參數(shù)β用于調節(jié)重要性采樣對PER算法和模型收斂速率的影響。最終,結合了經驗優(yōu)先回放策略的PER-IDQN算法流程如下表所示。

    3 基于PER-IDQN算法的多無人飛行器圍捕設計

    3.1 狀態(tài)空間

    在柵格環(huán)境中,設定單元格長度為l,則每個柵格為l×l,代表一個飛行器在單位決策時刻下的活動空域。設定任務場景柵格數(shù)量為b×c,則任務場景寬度為b×l,記作lwidth;任務場景長度為c×l,記作llength。結合任務場景,設定無人飛行器狀態(tài):

    S=[Suav,Steamer,Sobser,Starget,Sfinish]

    (8)

    對于第i個圍捕飛行器,其狀態(tài)輸入包含圍捕飛行器自身位置信息Suavi和隊伍中其他飛行器信息Steameri,其中:

    (9)

    (10)

    式中:xi、yi分別表示第i個圍捕飛行器的橫、縱坐標值。此外,圍捕飛行器的觀測信息Sobseri表示該圍捕飛行器對周邊九宮格位置的探索信息,具體可以表示為

    (11)

    此外,Stargeti表示目標相對我方飛行器i的相對距離和方位信息,可由我方預警機機載雷達或地面雷達系統(tǒng)進行探測獲取,進而利用通信設備傳遞給我方圍捕飛行器。圖3描述了圍捕飛行器與目標的位置關系。其中,紅色、黃色、綠色的星星表示我方圍捕飛行器,藍色圓表示移動目標,黑色矩形表示環(huán)境中的障礙物,di和θi分別表示我方圍捕飛行器與目標的距離和相對方位角,Stargeti可以表示為

    圖3 圍捕飛行器與目標的位置關系

    (12)

    同時,設定子狀態(tài)量Sfinishi:

    (13)

    表示飛行器任務完成或失敗時受到的獎懲。

    3.2 動作空間

    本研究中,設定圍捕場景如下:任務中有一個逃跑防守者和3個圍捕進攻者,它們具有相反的目的:逃跑者要躲避圍捕,而圍捕者要捕獲逃跑者,并且圍捕者與逃跑者呈追擊關系。當3個圍捕者都距離逃跑目標一個單位距離(在本場景中為一個柵格),視作圍捕成功。在圍捕過程中,各圍捕者之間不能發(fā)生碰撞,切圍捕者需要對途中隨機運動的障礙物進行規(guī)避。設定動作集A為

    A=[(0,-b),(0,b),(-b,0),(0,b)]

    (14)

    式中:b表示單元格的寬度;A表示飛行器可以執(zhí)行的動作集,分別為向上運動,向下運動,向左運動,向右運動。

    3.3 獎勵函數(shù)

    為了保證各無人飛行器能夠安全飛行,并完成對目標的接近,最終實現(xiàn)合圍??紤]接近、避障等因素,設立獎勵函數(shù)為

    R=σ1rpos+σ2rsafe+σ3reffi+σ4rtask

    (15)

    式中:rpos、rsafe、reffi、rtask分別表示位置獎勵、安全飛行獎勵、高效飛行獎勵、任務完成獎勵;σ1~4為各項獎勵相應的權重值,具體的:

    rpos=(|xe-xi|+|ye-yi|)′-(|xe-xi|+|ye-yi|)

    (16)

    表示柵格環(huán)境下當前時刻和上一時刻飛行器到目標的距離之差。這意味著當飛行器靠近目標時,會獲得正獎勵。設置安全飛行器獎勵:

    (17)

    表示飛行器碰撞時會受到懲罰。設置高效飛行獎勵:

    reffi=-nstay

    (18)

    式中:nstay表示飛行器在該柵格內停留的次數(shù),停留次數(shù)約大,表明飛行器重復路徑越多,受到越大懲罰。此外,設置:

    (19)

    表示飛行器在完成圍捕任務時,受到的任務完成獎勵。最終,基于構建的狀態(tài)輸入和動作輸出模型,并利用設定的獎勵函數(shù)完成信號反饋,可完成對多無人飛行器的自適應感知和協(xié)同決策模型訓練。

    4 仿真實驗與結果分析

    4.1 仿真環(huán)境

    為了驗證本文中所提出方法對多無人飛行器圍捕策略學習的有效性。仿真實驗在Windows 10、Python 3.6、Tensorflow 1.14.0的環(huán)境下對多無人飛行器進行訓練。基于Tkinter對訓練環(huán)境進行了建模和設計,設定環(huán)境中的無人飛行器個數(shù)為3,目標個數(shù)為1。設定每回合我方無人飛行器移動一步,目標無人飛行器移動3步,此時可視為目標機動性優(yōu)于我方無人飛行器。

    在本仿真實驗中,設定PER-IDQN人工神經網(wǎng)絡及其目標網(wǎng)絡的層數(shù)為4層,包含一層輸入層、兩層隱含層、一層輸出層,其中隱含層中包含的神經元個數(shù)為64。當滿足學習條件時,網(wǎng)絡采用ReLU激活函數(shù)方法進行訓練,每次批量從經驗池抽取的學習樣本個數(shù)為16。設定PER-IDQN網(wǎng)絡的學習率為0.01,并隨著訓練進行衰減,衰減頻率為每回合一次,衰減率為0.99。當神經網(wǎng)絡學習率衰減至0.000 1時,學習率不再衰減,此時訓練仍繼續(xù)進行。此外,設定獎勵函數(shù)衰減系數(shù)為0.95,目標網(wǎng)絡進行更新的軟更新系數(shù)為0.02。

    4.2 實驗結果分析

    在場景1中,設定環(huán)境大小為(80×40),逃跑方為雙步隨機運動,即追捕者每運動一次,逃跑者運動2次。同時,設立環(huán)境中的障礙物占環(huán)境總柵格數(shù)的比值為20%,障礙物移動率為10%。訓練過程中多無人飛行器獎勵曲線如圖4所示。其中,橫坐標表示訓練間隔的回合數(shù),縱坐標表示每回合內飛行器獲得的獎勵合計值??梢钥闯?基于PER-IDQN算法的紅色曲線在1 235回合時開始逐漸提升,大約到2 350回合時開始收斂穩(wěn)定,最終獎勵均值逐漸穩(wěn)定在17.2左右,峰值為21.3?;贗DQN算法的藍色曲線在1 692回合開始提升,直到3 000回合后才逐漸開始收斂,最終獎勵均值收斂在14.6,波動較大。對比可以得出,引入經驗優(yōu)先回放策略的PER-IDQN算法能夠提升飛行器學習效率。并且由于在訓練過程中,智能體有更高的幾率選擇更好的樣本進行學習,最終訓練得到的模型能夠適應動態(tài)變化的環(huán)境,能夠獲得較為穩(wěn)定高額的回報。

    圖4 多無人飛行器執(zhí)行圍捕戰(zhàn)術獲得的獎勵之和曲線

    場景1下訓練好的飛行器圍捕仿真測試,如圖5所示。其中,紅色矩形和淡紅色矩形分別表示1號追捕者和1號追捕者路徑;綠色矩形和淡綠色矩形分別表示2號追捕者和2號追捕者路徑;黃色矩形和淡黃色矩形分別表示3號追捕者和3號追捕者路徑;可以看出,在復雜的場景下,圍捕者可以自主生成圍攻避障策略。

    圖5 場景1下的多無人飛行器圍捕仿真

    為比較2種算法的有效性,通過設置障礙物覆蓋率以改變環(huán)境復雜程度,并統(tǒng)計1 000個測試回合下2種算法圍捕成功率表現(xiàn)如圖6所示。

    圖6 不同環(huán)境下圍捕成功率

    在障礙物覆蓋率為0.05、0.10、0.15時,2種算法下飛行器圍捕成功率都能保持在較高水平。當障礙物覆蓋率提升至0.20時,IDQN算法下的多無人機圍捕任務成功率降低至0.412,明顯低于PER-IDQN算法下的成功0.631,這意味著基于PER-IDQN算法的多無人機圍捕戰(zhàn)術模型具有更高的魯棒性。

    為了模擬飛行器在低威脅、大邊界場景下的圍捕戰(zhàn)術,同時驗證模型的泛化能力,拓展120×120場景2,設定障礙物數(shù)量為720,障礙物移動率為20%。此外,設置圍捕飛行器與目標機動能力比為1∶5,即圍捕飛行器每運動一步,目標運動五步。

    場景2下基于深度強化學習PER-IDQN算法的多無人飛行器圍捕仿真如圖7所示??梢钥吹?訓練好的模型在場景2中也有不錯的表現(xiàn)。盡管目標擁有更強的機動能力和速度,各追捕者一直朝向正確的方向運動并不斷逼近逃跑的目標。同時,各圍捕飛行器在運動過程中,通過對移動障礙物的自主規(guī)避,保證了安全飛行。最終,在仿真步長為345時,完成了對目標的圍捕任務。這表示經過深度強化學習算法訓練過的多無人飛行器圍捕模型,具有優(yōu)秀的泛化性能,可以拓展在新的任務場景中使用。

    5 結論

    本文中針對多無人飛行器對機動目標的圍捕問題,提出了一種基于深度強化學習PER-IDQN的策略方法。包括多無人飛行器系統(tǒng)深度強化學習算法設計、多無人飛行器圍捕模型設計、多無人飛行器模型訓練,通過不同場景下的仿真測試結果,證實了本方法的合理性和有效性,并得出以下結論:

    1) 在基于深度強化學習算法的多無人飛行器模型中,通過對多個飛行器狀態(tài)輸入、動作輸出、獎勵函數(shù)進行針對性設計,可以實現(xiàn)多無人飛行器協(xié)同機動決策,能夠完成自主避障,并最終實現(xiàn)對目標的圍捕任務。

    2) 提出的PER-IDQN算法,能夠有效提升模型訓練效率和模型穩(wěn)定性,構建的多無人飛行器圍捕模型,可移植至新的場景中進行使用,不受環(huán)境所限制,具有一定應用性。

    猜你喜歡
    飛行器無人智能
    高超聲速飛行器
    無人戰(zhàn)士無人車
    反擊無人機
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    復雜飛行器的容錯控制
    電子制作(2018年2期)2018-04-18 07:13:25
    詩到無人愛處工
    岷峨詩稿(2017年4期)2017-04-20 06:26:43
    無人超市會流行起來嗎?
    徐水县| 外汇| 微博| 马关县| 宣恩县| 祁门县| 云龙县| 安福县| 中西区| 镇康县| 黄浦区| 偃师市| 常熟市| 博湖县| 图们市| 安远县| 东乡族自治县| 逊克县| 宜兰市| 章丘市| 长垣县| 北安市| 宝兴县| 汕尾市| 新营市| 栾城县| 威信县| 大洼县| 资溪县| 含山县| 巩义市| 高阳县| 香格里拉县| 耿马| 北安市| 化州市| 武功县| 西丰县| 师宗县| 大理市| 准格尔旗|