• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)雙延遲深度確定性策略梯度法的無人機(jī)反追擊機(jī)動(dòng)決策

      2021-09-23 13:25:26郭萬春解武杰董文瀚
      關(guān)鍵詞:步長(zhǎng)重構(gòu)經(jīng)驗(yàn)

      郭萬春, 解武杰, 尹 暉, 董文瀚

      (1.空軍工程大學(xué)航空工程學(xué)院, 西安, 710038; 2.空軍工程大學(xué)教研保障中心, 西安, 710051)

      近年來,各種控制理論和方法研究為自主空戰(zhàn)決策提供了解決方案。文獻(xiàn)[1]利用差分博弈論,將空戰(zhàn)模型建模為一個(gè)確定的、完全信息的追逃博弈模型。文獻(xiàn)[2]研究了一種實(shí)時(shí)自主一對(duì)一的近似動(dòng)態(tài)規(guī)劃空戰(zhàn)方法。文獻(xiàn)[3]采用了一種基于可達(dá)性的方法來解決追逃博弈問題。此外,還有多級(jí)影響圖法[4]、滾動(dòng)時(shí)域法[5]和基于統(tǒng)計(jì)學(xué)原理的方法[6]等。由于現(xiàn)實(shí)環(huán)境的不確定性以及真實(shí)測(cè)試昂貴、耗時(shí)和危險(xiǎn)等原因,這些探索大多停留在理論研究階段,難以付諸工程實(shí)踐和實(shí)戰(zhàn)。

      深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)正成為利用AI解決決策問題的主流研究方向[7-10]。文獻(xiàn)[11]采用了深度Q學(xué)習(xí)(deep Q-learning network,DQN)的方法控制無人機(jī)的速度和轉(zhuǎn)角,然而DQN對(duì)次優(yōu)動(dòng)作高估的狀態(tài)動(dòng)作值超過最優(yōu)動(dòng)作的動(dòng)作值時(shí)將無法找到最優(yōu)動(dòng)作,并且它只能處理離散的、低維的動(dòng)作空間,這與大多實(shí)際情境不符。文獻(xiàn)[12]使用異步的優(yōu)勢(shì)行動(dòng)者評(píng)論家算法(asynchronous advantage actor-critic,A3C)訓(xùn)練無人機(jī)進(jìn)行空戰(zhàn),利用多線程的方法,同時(shí)在多個(gè)線程里分別與環(huán)境進(jìn)行交互學(xué)習(xí),避免了DQN中出現(xiàn)的經(jīng)驗(yàn)回放相關(guān)性過強(qiáng)的問題,但是訓(xùn)練出的無人機(jī)空戰(zhàn)性能有待提高。文獻(xiàn)[13]假定對(duì)戰(zhàn)的兩架飛機(jī)速度恒定,使用深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)訓(xùn)練了無人機(jī),雖然取得了良好的訓(xùn)練效果,但是訓(xùn)練出的追擊策略較為單一,并且沒有考慮飛機(jī)的火力打擊區(qū)域,僅僅以兩機(jī)間的距離在某一范圍內(nèi)作為成功打擊目標(biāo)的準(zhǔn)則。

      本文討論自主空戰(zhàn)中深度強(qiáng)化學(xué)習(xí)在無人機(jī)反追擊的應(yīng)用??紤]非對(duì)稱性的追逃博弈問題,具有扇形火力打擊區(qū)域的兩架無人機(jī)進(jìn)行追擊/反追擊的空中對(duì)抗,攻擊(以下標(biāo)注為ATTACK)無人機(jī)采用純追蹤法(pure pursuit)打擊目標(biāo),目的是訓(xùn)練速度不大于ATTACK無人機(jī)的智能(以下標(biāo)注為RL)無人機(jī)擺脫其追擊并進(jìn)行反制。

      1 問題描述

      無人機(jī)自主機(jī)動(dòng)反追擊使用參數(shù)化動(dòng)作空間馬爾科夫決策過程[14]的形式化框架,由一個(gè)五元組構(gòu)成:。RL無人機(jī)通過與環(huán)境交互學(xué)習(xí)狀態(tài)到動(dòng)作的映射關(guān)系以此獲得最大累計(jì)期望回報(bào)。假設(shè)這是一個(gè)理想模型,環(huán)境的動(dòng)態(tài)特性P(·|(s,a))=1是確定的,即不存在風(fēng)等對(duì)無人機(jī)飛行有干擾的因素。時(shí)間步為t時(shí)觀測(cè)到的無人機(jī)狀態(tài)st∈S。RL無人機(jī)從可用的行動(dòng)集合A中選用行動(dòng)at∈A,環(huán)境在at的作用下,轉(zhuǎn)換至新狀態(tài)st+1,在進(jìn)行狀態(tài)轉(zhuǎn)移到下一個(gè)新狀態(tài)的同時(shí)產(chǎn)生獎(jiǎng)勵(lì)r(st,at)。RL無人機(jī)根據(jù)新觀測(cè)到的狀態(tài)st+1,再做出新的決策,采取行為at+1,依次反復(fù)進(jìn)行直至達(dá)到環(huán)境的終止?fàn)顟B(tài)。γ∈[0,1]為未來回報(bào)折扣因子,RL無人機(jī)旨在尋找一個(gè)策略π使得其從任意初始狀態(tài)s0出發(fā)在達(dá)到終止?fàn)顟B(tài)時(shí)獲得最大的累計(jì)獎(jiǎng)勵(lì):

      (1)

      根據(jù)文獻(xiàn)[15],無人機(jī)反追擊模型可描述為:

      (3)

      設(shè)ATTACK無人機(jī)和RL無人機(jī)的偏航角分別為α和β,則其位置信息分別為XATTACK=(x1,y1,α),XRL=(x2,y2,β)。

      根據(jù)文獻(xiàn)[11],ATTACK無人機(jī)對(duì)RL無人機(jī)進(jìn)行火力打擊的示意圖如圖1所示。

      圖1 火力打擊示意圖

      ATTACK無人機(jī)進(jìn)行火力打擊的規(guī)則為純追蹤法:其速度方向?qū)r(shí)刻指向RL無人機(jī),試圖將RL無人機(jī)追擊在自己的打擊范圍內(nèi),該策略在文獻(xiàn)[16]中被證明是十分有效的追擊手段。根據(jù)最優(yōu)追逃策略[17],設(shè)ATTACK無人機(jī)相鄰兩次時(shí)間步長(zhǎng)內(nèi)的偏航角變化量φATT滿足:

      (3)

      2 無人機(jī)反追擊Markov決策過程建模

      2.1 無人機(jī)飛行狀態(tài)空間

      由于兩架無人機(jī)在同一高度上進(jìn)行追擊與反追擊的空中對(duì)抗,記位置信息為D=(x1,y1,α,x2,y2,β),在每個(gè)時(shí)間步長(zhǎng)的開始,以ATTACK無人機(jī)的位置和偏航角為基準(zhǔn),將原有的坐標(biāo)系逆時(shí)針旋轉(zhuǎn)α角,使新坐標(biāo)系的原點(diǎn)位于ATTACK無人機(jī)處,并且x軸方向與ATTACK無人機(jī)的偏航角重合。在新坐標(biāo)系下,得出RL無人機(jī)的位置滿足以下關(guān)系:

      (4)

      (5)

      β′=β-α

      (6)

      新坐標(biāo)系下無人機(jī)的相對(duì)位置信息為:

      D′=(0,0,0,(x2-x1)cosα+(y2-y1)sinα,

      (x2-x1)sinα-(y2-y1)cosα,β-α)

      (7)

      值得注意的是,這個(gè)新坐標(biāo)系是隨著ATTACK無人機(jī)的位置和偏航角實(shí)時(shí)變化的,由于ATTACK無人機(jī)也在做機(jī)動(dòng),所以每一時(shí)間步的原點(diǎn)和坐標(biāo)的橫縱軸方向,在真實(shí)物理空間上是不一樣的,引入這個(gè)坐標(biāo)系只是為了描述它們的相對(duì)位置。相對(duì)位置信息的6維向量有3維始終為0,因此通過相對(duì)坐標(biāo)系可以進(jìn)一步將無人機(jī)的飛行狀態(tài)空間壓縮一倍。構(gòu)造新的觀測(cè)狀態(tài)為:

      s=((x2-x1)cosα+(y2-y1)sinα,

      (x2-x1)sinα-(y2-y1)cosα,β-α,Nz)

      (8)

      2.2 無人機(jī)飛行動(dòng)作空間與終止獎(jiǎng)勵(lì)函數(shù)

      在每個(gè)時(shí)間步的開始,無人機(jī)從其動(dòng)作空間允許的速度和轉(zhuǎn)向過載向環(huán)境提供一個(gè)動(dòng)作,給定的動(dòng)作會(huì)立即更新當(dāng)前的速度和偏航角,在剩余的時(shí)間步長(zhǎng)中保持不變。其中ATTACK無人機(jī)采用純追蹤法的策略,保持一個(gè)恒定的速度,可以選擇從一個(gè)連續(xù)范圍的轉(zhuǎn)彎角度,使用純追蹤法可以讓ATTACK無人機(jī)穩(wěn)步拉近與對(duì)手的距離并接近對(duì)手使其置于火力打擊范圍。RL無人機(jī)使用強(qiáng)化學(xué)習(xí)算法,它的動(dòng)作空間包含速度和轉(zhuǎn)向過載值,定義為:

      A={v,Na}

      (9)

      兩種無人機(jī)機(jī)動(dòng)能力數(shù)據(jù)見表1。

      表1 機(jī)動(dòng)能力數(shù)據(jù)

      定義反追擊成功時(shí)的回報(bào),即:

      (10)

      3 基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)反追擊算法

      值函數(shù)過估計(jì)的問題既在DQN中存在,也存在于“行動(dòng)者-評(píng)論家”網(wǎng)絡(luò)。在DQN中采用的雙重深度Q學(xué)習(xí)[17](double deep Q-learning network,DDQN)方法可以一定程度上降低過估計(jì)的誤差,但在“行動(dòng)者—評(píng)論家”網(wǎng)絡(luò)中使用類似DDQN的方法是無效的,因此本文采用雙延遲深度確定性策略梯度算法TD3來解決值函數(shù)過估計(jì)的問題;為了提高訓(xùn)練前期的效率和訓(xùn)練后期的穩(wěn)定收斂,將經(jīng)驗(yàn)回放區(qū)進(jìn)行重構(gòu)并改進(jìn)傳統(tǒng)的隨機(jī)抽樣策略。

      3.1 無人機(jī)反追擊算法框架

      經(jīng)驗(yàn)回放區(qū)重構(gòu)將成功經(jīng)驗(yàn)和失敗經(jīng)驗(yàn)分為兩個(gè)經(jīng)驗(yàn)回放區(qū)。如果RL無人機(jī)反追擊任務(wù)滿足式(10)中r(s,a)=1,則被認(rèn)為是暫時(shí)的成功經(jīng)驗(yàn)儲(chǔ)存在成功經(jīng)驗(yàn)回放區(qū)中,記為Rs;相反,滿足r(s,a)=0,則將失敗經(jīng)驗(yàn)儲(chǔ)存在失敗經(jīng)驗(yàn)回放區(qū)中,記為Rf。由于RL的獎(jiǎng)勵(lì)過程中存在著時(shí)間延遲,所以存儲(chǔ)在Rs中的一些即將達(dá)到失敗前的經(jīng)驗(yàn)也與失敗有關(guān)。因此,可以把這些經(jīng)驗(yàn)從Rs以ηf的比例提取出來。具體來說,對(duì)每一個(gè)時(shí)間步,如果是成功經(jīng)驗(yàn),將被直接儲(chǔ)存在Rs中;如果是失敗經(jīng)驗(yàn),將存放至Rf,同時(shí)以ηf的比例從Rs中提取出上述的失敗經(jīng)驗(yàn)。

      改進(jìn)傳統(tǒng)的隨機(jī)采樣策略:更新時(shí),行動(dòng)者和評(píng)論家同時(shí)從Rs以ξs比例以及從Rf抽取(1-ξs)的樣本來進(jìn)行優(yōu)化。其中,考慮訓(xùn)練前期的效率和訓(xùn)練后期局部最優(yōu)的制衡,ξs應(yīng)隨著訓(xùn)練總迭代次數(shù)M衰減:

      (11)

      經(jīng)驗(yàn)回放區(qū)重構(gòu)的TD3方法見圖2。

      圖2 經(jīng)驗(yàn)回放區(qū)重構(gòu)的TD3方法框架圖

      傳統(tǒng)TD3使用經(jīng)驗(yàn)回放區(qū)解決訓(xùn)練數(shù)據(jù)間的相關(guān)性,在環(huán)境中探索得到的樣本數(shù)據(jù),以狀態(tài)轉(zhuǎn)換序列為單元存放于回放區(qū)中,當(dāng)記憶庫滿時(shí),則刪掉舊的樣本數(shù)據(jù),保證回放庫中的容量不變。每次更新時(shí),行動(dòng)者和評(píng)論家都會(huì)從中隨機(jī)的抽取一部分樣本進(jìn)行優(yōu)化,來減少一些不穩(wěn)定性。但是,隨機(jī)采樣會(huì)導(dǎo)致訓(xùn)練效率低,收斂性能差。本文提出的經(jīng)驗(yàn)回放區(qū)重構(gòu)可以一定程度上解決這一問題。

      從重構(gòu)經(jīng)驗(yàn)回放區(qū)采樣得到一個(gè)小批量的訓(xùn)練數(shù)據(jù),TD3通過梯度上升/下降算法更新當(dāng)前網(wǎng)絡(luò)的參數(shù)。然后再通過優(yōu)化的滑動(dòng)平均方法更新目標(biāo)網(wǎng)絡(luò)的參數(shù),使得目標(biāo)網(wǎng)絡(luò)參數(shù)緩慢變化,以此提高學(xué)習(xí)的穩(wěn)定性。

      3.2 基于改進(jìn)TD3的無人機(jī)反追擊決策算法

      TD3采用行動(dòng)者-評(píng)論家框架,包含6個(gè)神經(jīng)網(wǎng)絡(luò),見表2。

      表2 TD3中的神經(jīng)網(wǎng)絡(luò)

      擬合策略函數(shù)的策略網(wǎng)絡(luò)πφ,參數(shù)為φ,輸入為當(dāng)前狀態(tài)st,輸出無人機(jī)的動(dòng)作:

      at=πφ(st|φ)

      (12)

      策略網(wǎng)絡(luò)圖見圖3,網(wǎng)絡(luò)參數(shù)見表3。

      圖3 策略網(wǎng)絡(luò)

      表3 策略網(wǎng)絡(luò)的參數(shù)

      網(wǎng)絡(luò)參數(shù)通過確定性策略網(wǎng)絡(luò)梯度定理更新:

      (13)

      目標(biāo)策略網(wǎng)絡(luò)πφ′的參數(shù)為φ′,輸入為下一狀態(tài),輸出下一狀態(tài)的動(dòng)作:

      at+1=πφ′(st+1|φ′)

      (14)

      擬合狀態(tài)動(dòng)作值函數(shù)的Q1網(wǎng)絡(luò)Qθ1和Q2網(wǎng)絡(luò)Qθ2,參數(shù)分別為θ1和θ2,輸入為當(dāng)前狀態(tài)st和實(shí)際執(zhí)行的動(dòng)作at,輸出為狀態(tài)動(dòng)作值即Q1值和Q2值:

      Qi=Qθi(st,at|θi)

      (15)

      Q1網(wǎng)絡(luò)還輸出狀態(tài)動(dòng)作值函數(shù)對(duì)動(dòng)作的梯度?aQθ1(st,at|θ1)用于式(13)的參數(shù)更新。

      狀態(tài)動(dòng)作值網(wǎng)絡(luò)見圖4,網(wǎng)絡(luò)參數(shù)見表4。

      圖4 狀態(tài)動(dòng)作值網(wǎng)絡(luò)

      表4 狀態(tài)動(dòng)作值網(wǎng)絡(luò)的參數(shù)

      (16)

      TD3在兩個(gè)目標(biāo)Q網(wǎng)絡(luò)中選擇較小的Q值,防止DDPG中評(píng)論家網(wǎng)絡(luò)對(duì)動(dòng)作Q值過估計(jì)的問題:

      Q′=min{Q1′,Q2′}

      (17)

      對(duì)于Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò),定義損失函數(shù):

      (18)

      通過損失函數(shù)的反向傳播算法更新得到Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)的參數(shù)。其中y表示時(shí)序差分(temporal-difference,TD)目標(biāo)值:

      (19)

      (20)

      Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)的TD誤差分別為:

      TDerrori=y-Qθi(st,at|θi)

      (21)

      對(duì)評(píng)論家更新2次后,行動(dòng)家再進(jìn)行更新,策略網(wǎng)絡(luò)πφ、Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)的參數(shù)通過滑動(dòng)平均分別得到目標(biāo)策略πφ′網(wǎng)絡(luò)和目標(biāo)Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)的參數(shù):

      (22)

      無人機(jī)反追擊決策算法訓(xùn)練流程如下:

      初始化經(jīng)驗(yàn)回放庫Rf、Rs、策略網(wǎng)絡(luò)πφ、Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò),并將它們的參數(shù)復(fù)制給目標(biāo)策略網(wǎng)絡(luò)πφ'和目標(biāo)Q1網(wǎng)絡(luò)和目標(biāo)Q2網(wǎng)絡(luò)。For episode = 1,2,…,M: a←πθμ(s)+ε,其中ε~N(0,σ),給行為添加噪聲; 獲取無人機(jī)飛行仿真環(huán)境的初始狀態(tài)。 For t = 1,2,…,T: 根據(jù)當(dāng)前策略和探索噪聲,獲得行為a; 執(zhí)行行為a,獲得回報(bào)r(s,a)和下一個(gè)狀態(tài)s';

      狀態(tài)轉(zhuǎn)換序列存儲(chǔ)于回放記憶庫Rf、Rs中; Rf、Rs中分別以ξs和(1-ξs)的比例抽取N個(gè)狀態(tài)轉(zhuǎn)換序列,作為策略網(wǎng)絡(luò)和Qi網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù); 根據(jù)式(20)計(jì)算 a; 根據(jù)式(19)計(jì)算時(shí)序差分值y; 根據(jù)式(18)更新Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)參數(shù); IFt mod 2: 根據(jù)式(13)計(jì)算樣本策略梯度,更新策略網(wǎng)絡(luò); 根據(jù)式(22)更新目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)。 End if End forEnd for輸出最優(yōu)策略網(wǎng)絡(luò)參數(shù)以及最優(yōu)策略。

      4 仿真驗(yàn)證與分析

      設(shè)置訓(xùn)練集為M=10 000,隨機(jī)初始化兩架無人機(jī)初始位置與姿態(tài)信息。其中ATTACK無人機(jī)的初始位置在原點(diǎn),偏航角在[0,2π]內(nèi)均勻分布;RL無人機(jī)的初始位置是以原點(diǎn)為中心的橫縱坐標(biāo)x、y變量呈正態(tài)分布的隨機(jī)分布,其中x、y方向標(biāo)準(zhǔn)差均為0.5 km。這樣的隨機(jī)初始化可以做到讓RL無人機(jī)在一個(gè)時(shí)間步長(zhǎng)后擺脫追擊并進(jìn)行反制,實(shí)際上加快了收斂速度。超參數(shù)設(shè)置見表5。

      表5 超參數(shù)

      分別使用面向連續(xù)動(dòng)作空間的確定性策略方法TD3算法和DDPG算法進(jìn)行訓(xùn)練,每100次訓(xùn)練記錄當(dāng)前100次訓(xùn)練的勝率。訓(xùn)練效果見圖5。

      圖5 訓(xùn)練效果對(duì)比圖

      可以看出,與基準(zhǔn)DDPG算法相比,本文方法的勝率約高出10%左右。改進(jìn)后的TD3算法雖然在訓(xùn)練的后期與傳統(tǒng)的TD3算法能達(dá)到的勝率相差不大,但是由于經(jīng)驗(yàn)回放區(qū)的重構(gòu),新的采樣策略代替原始的隨機(jī)采樣策略,使得在訓(xùn)練伊始可以更多學(xué)習(xí)到任務(wù)成功經(jīng)驗(yàn)序列,使改進(jìn)后的TD3算法在訓(xùn)練前期的收斂速度較快,波動(dòng)也較弱。

      算法訓(xùn)練完成后,對(duì)訓(xùn)練集進(jìn)行大量仿真測(cè)試,在訓(xùn)練集中進(jìn)行4 000次對(duì)抗,每次包括100個(gè)時(shí)間步長(zhǎng),該時(shí)間步之內(nèi)未能分出勝負(fù)則為平局。仿真表明,RL無人機(jī)成功實(shí)施反追擊的次數(shù)為3 761次,成功率為94.025%,達(dá)到了預(yù)定目的。與TD3算法和DDPG算法的對(duì)比見表6。

      表6 測(cè)試效果對(duì)比表

      可以看到,改進(jìn)后的TD3算法勝率略高于TD3算法,明顯高于DDPG算法,但是由于整個(gè)算法當(dāng)中比DDPG多了兩個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù),所以從決策時(shí)間來看,決策時(shí)間均略長(zhǎng)于DDPG 算法。

      在測(cè)試集中,RL無人機(jī)使用本文訓(xùn)練好的策略進(jìn)行反追擊的勝率也很難低于93%。圖6~10展示了測(cè)試集中具有代表性的雙機(jī)軌跡,從中可以觀察到典型的RL反追擊策略。圖6~9顯示了RL無人機(jī)為了獲勝所采用的最常見的策略,圖10展示了RL平局時(shí)的大部分場(chǎng)景。

      圖6 軌跡1

      圖7 軌跡2

      圖8 軌跡3

      圖9 軌跡4

      圖10 軌跡5

      如圖6所示,RL無人機(jī)通過在被追擊的早期改變速度同時(shí)調(diào)整轉(zhuǎn)向過載值來做出長(zhǎng)期決策:一開始加速是防止在前期就被擊中,隨后進(jìn)行減速和轉(zhuǎn)彎?rùn)C(jī)動(dòng),誘騙對(duì)手也進(jìn)行轉(zhuǎn)彎大機(jī)動(dòng),從而拉開與對(duì)手的距離,再之后采用的策略類似于圖7。

      如圖7所示,RL無人機(jī)在ATTACK無人機(jī)前面先進(jìn)行轉(zhuǎn)彎?rùn)C(jī)動(dòng),隨即降低速度,由于ATTACK無人機(jī)按照純追蹤法以不小于RL無人機(jī)的恒定速度向其方向移動(dòng),最終,ATTACK無人機(jī)最終被鎖定在RL無人機(jī)的前方的火力打擊區(qū)域內(nèi)。

      如圖8所示,RL無人機(jī)通過調(diào)整速度和轉(zhuǎn)向過載圍繞ATTACK無人機(jī)軌跡兩側(cè)蜿蜒的方式進(jìn)行機(jī)動(dòng),逐漸縮小與對(duì)手的距離,最后同樣采用類似圖7的策略,使ATTACK無人機(jī)飛行至自己的前方,被鎖定在自己的火力打擊范圍內(nèi)。

      如圖9所示,RL無人機(jī)還可以學(xué)習(xí)到的策略是機(jī)會(huì)性的,不需要做過多的機(jī)動(dòng)即可以在較短的時(shí)間步長(zhǎng)內(nèi)取得對(duì)抗的勝利而非依靠上述提及的策略。根據(jù)一些合適的初始條件,RL無人機(jī)基本不調(diào)整轉(zhuǎn)向過載地徑直飛行,只是在前期需要采用類似于圖6的策略調(diào)整速度防止前期被攻擊。

      如圖10所示,還可以學(xué)到一種在規(guī)定時(shí)間步長(zhǎng)內(nèi)平局的策略,即RL無人機(jī)誘導(dǎo)ATTACK無人機(jī)一起做圓周運(yùn)動(dòng),以此讓ATTACK無人機(jī)的扇形火力區(qū)域無法攻擊自己。

      5 結(jié)論

      本文針對(duì)無人機(jī)近距空戰(zhàn)的自主機(jī)動(dòng)反追擊問題,提出經(jīng)驗(yàn)回放區(qū)重構(gòu)TD3算法。該方法將經(jīng)驗(yàn)回放區(qū)重構(gòu)為成功、失敗兩個(gè)經(jīng)驗(yàn)回放區(qū),取代傳統(tǒng)的隨機(jī)采樣使用基于成功、失敗經(jīng)驗(yàn)區(qū)的采樣策略。仿真結(jié)果表明,RL無人機(jī)學(xué)到的策略在訓(xùn)練集上兼顧了訓(xùn)練前期的學(xué)習(xí)效率與訓(xùn)練后期的穩(wěn)定收斂,在測(cè)試集上展示了較好的性能。

      本文研究基于無人機(jī)的狀態(tài)全局可觀測(cè)這一假設(shè)條件,而真實(shí)空戰(zhàn)環(huán)境下,受我機(jī)感知范圍限制,敵機(jī)位置等態(tài)勢(shì)信息并不能時(shí)刻被精確獲取。針對(duì)不完全信息博弈條件進(jìn)行空戰(zhàn)決策研究,更具挑戰(zhàn)性和實(shí)用性,將是本文下一步研究的重點(diǎn)。

      猜你喜歡
      步長(zhǎng)重構(gòu)經(jīng)驗(yàn)
      長(zhǎng)城敘事的重構(gòu)
      攝影世界(2022年1期)2022-01-21 10:50:14
      基于Armijo搜索步長(zhǎng)的BFGS與DFP擬牛頓法的比較研究
      2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
      黨課參考(2021年20期)2021-11-04 09:39:46
      經(jīng)驗(yàn)
      北方大陸 重構(gòu)未來
      2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
      黨課參考(2018年20期)2018-11-09 08:52:36
      北京的重構(gòu)與再造
      商周刊(2017年6期)2017-08-22 03:42:36
      論中止行為及其對(duì)中止犯的重構(gòu)
      當(dāng)你遇見了“零經(jīng)驗(yàn)”的他
      都市麗人(2015年4期)2015-03-20 13:33:22
      基于逐維改進(jìn)的自適應(yīng)步長(zhǎng)布谷鳥搜索算法
      梅州市| 红河县| 威海市| 周口市| 平江县| 开鲁县| 镇雄县| 同仁县| 晋州市| 耒阳市| 子洲县| 正阳县| 大竹县| 武夷山市| 禄丰县| 宾川县| 灯塔市| 汾阳市| 三原县| 望谟县| 沙田区| 千阳县| 沾化县| 葫芦岛市| 左贡县| 合阳县| 甘洛县| 维西| 新泰市| 清水河县| 乐山市| 荔浦县| 山东| 永平县| 桐乡市| 西丰县| 建水县| 麟游县| 宽城| 巧家县| 福鼎市|