• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于信任域策略優(yōu)化的末制導(dǎo)控制量學(xué)習(xí)算法

    2023-01-03 10:35:32劉士榮王天一
    導(dǎo)航定位與授時 2022年6期
    關(guān)鍵詞:制導(dǎo)梯度導(dǎo)彈

    劉士榮,王天一,劉 揚

    (哈爾濱工業(yè)大學(xué)計算學(xué)部,哈爾濱 150001)

    0 引言

    近年來,隨著深度學(xué)習(xí)的崛起,深度強化學(xué)習(xí)被廣泛研究,涌現(xiàn)出了許多優(yōu)秀的強化學(xué)習(xí)算法,在游戲[1]、機(jī)器人控制任務(wù)中取得了出色的表現(xiàn)[2]。無模型強化學(xué)習(xí)算法在智能體與環(huán)境的不斷交互中采集數(shù)據(jù)學(xué)習(xí)策略,一般有兩種方法:值函數(shù)迭代法和策略梯度法。值函數(shù)迭代法通過學(xué)習(xí)狀態(tài)動作值函數(shù)來隱式學(xué)習(xí)一個確定性的策略,而策略梯度法顯式建模策略分布,通過計算策略梯度不斷學(xué)習(xí)出好的策略分布。值函數(shù)迭代法中,最廣為人知的便是DeepMind公司開發(fā)的深度Q學(xué)習(xí)(Deep Q-Learning,DQN)[3]算法,其將深度學(xué)習(xí)與Q-learning算法相結(jié)合,使用神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)圖像這種高維輸入的低維表示,并且可以端對端的訓(xùn)練,是第一個可以在雅達(dá)利游戲中接近人類水平的人工智能體。DQN還有一系列變體,如緩解DQN中值函數(shù)過估計的Double DQN[4],用于連續(xù)動作空間的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[5]、緩解DDPG中值函數(shù)過估計的TD3[6]算法等。幕上的反向更新(Episodic Backward Update,EBU)[7]在整個幕上采樣,并連續(xù)將狀態(tài)的值傳遞到前面的狀態(tài),優(yōu)先經(jīng)驗回放(Prioritized Experience Replay,PER)[8]根據(jù)優(yōu)先級選擇訓(xùn)練樣本,可以顯著提高DQN算法的采樣效率,事后經(jīng)驗回放(Hindsi-ght Experience Replay,HER)[9]算法可以高效解決稀疏獎勵問題。由于策略梯度法可以顯式建模策略分布,更天然地適用于連續(xù)動作問題,通常在機(jī)器人控制等連續(xù)動作問題中被廣泛使用,但需要一些技術(shù)來降低策略梯度的方差。最直接的策略梯度算法為REINFORCE[10],信任域策略優(yōu)化(Trust Region Policy Optimization,TRPO)[11]為了讓策略能夠穩(wěn)定提升,顯式增加了一個約束,限制每次策略更新的最大偏移量,可以提高策略梯度法學(xué)習(xí)過程中的穩(wěn)定性。為了平衡優(yōu)勢函數(shù)的偏差和方差,還使用了廣義優(yōu)勢估計器(General Advantage Estimation,GAE)[12]。進(jìn)化策略(Evolution Strategy, ES)[13]通過突變操作改變原始參數(shù),并檢驗改變后參數(shù)的效果,保留那些結(jié)果較好的進(jìn)化策略類似于神經(jīng)進(jìn)化和直接策略搜索,在搜索過程中沒有使用梯度信息,本質(zhì)上相當(dāng)于在使用獎勵函數(shù)作為啟發(fā)式函數(shù)在參數(shù)空間中直接進(jìn)行搜索。

    在末制導(dǎo)領(lǐng)域中,比例制導(dǎo)律[14]是很常見的方法,在理想條件下有很好的表現(xiàn),但其導(dǎo)航比是一個常數(shù),無法為每個狀態(tài)自適應(yīng)地調(diào)整該比率,很難適應(yīng)復(fù)雜環(huán)境。文獻(xiàn)[15]使用Q-learning學(xué)習(xí)比例系數(shù),文獻(xiàn)[16]使用DDPG算法學(xué)習(xí)制導(dǎo)策略,文獻(xiàn)[17]也使用DDPG算法通過優(yōu)化導(dǎo)航比來學(xué)習(xí)末制導(dǎo)律,學(xué)習(xí)比例制導(dǎo)律中的導(dǎo)航比,算法效果優(yōu)于比例制導(dǎo)律;但其實驗環(huán)境相對簡單,沒有考慮空氣動力學(xué),其作者發(fā)現(xiàn)在考慮空氣動力學(xué)的環(huán)境中會有訓(xùn)練不穩(wěn)定的問題。本文方法關(guān)注末制導(dǎo)策略的在線學(xué)習(xí),在導(dǎo)彈與目標(biāo)在仿真環(huán)境的在線交互過程中,直接學(xué)習(xí)末制導(dǎo)控制量,即不借助已有末制導(dǎo)律,直接為導(dǎo)彈提供加速度,并在考慮空氣動力學(xué)的環(huán)境中進(jìn)行實驗,實驗結(jié)果表明,本文提出的方法在提升訓(xùn)練穩(wěn)定性的同時也學(xué)習(xí)到了高效的策略。

    本文第1章介紹了強化學(xué)習(xí)算法的基本原理,包括強化學(xué)習(xí)算法概述、策略梯度算法及信任域策略優(yōu)化算法的原理與推導(dǎo);第2章介紹了本文的實驗部分,首先給出了強化學(xué)習(xí)末制導(dǎo)問題的模擬環(huán)境,以及如何將信任域策略優(yōu)化算法應(yīng)用到末制導(dǎo)控制量的學(xué)習(xí)中,介紹了馬爾可夫模型中的狀態(tài)空間設(shè)計、動作空間設(shè)計以及獎勵函數(shù)設(shè)計;在實驗部分又找到兩個強化學(xué)習(xí)算法作為基準(zhǔn),分別是EBDQN算法和ES算法,然后將本文提出的獎勵函數(shù)與另外兩種獎勵進(jìn)行對比,同時給出實驗對比結(jié)果;最后,在第3章對本文的工作進(jìn)行了總結(jié)。

    1 強化學(xué)習(xí)算法介紹

    1.1 強化學(xué)習(xí)概述

    序列決策問題通常被形式化為馬爾可夫決策過程(Markov Decision Process,MDP)。MDP定義為一個六元組(S,A,T,r,γ,ρ0),S為狀態(tài)空間,A為動作空間,T:S×A×S→R為狀態(tài)轉(zhuǎn)移概率,r:S×A→R為獎勵函數(shù),γ∈(0,1)為折扣因子,ρ0:S→R為初始狀態(tài)分布。

    強化學(xué)習(xí)考慮智能體在與環(huán)境交互過程中學(xué)習(xí)到能夠最大化獎勵的行為。在每個時刻t,智能體處在狀態(tài)st∈S下,根據(jù)自己的策略π:S×A→[0,1]選擇一個動作at∈A,然后得到獎勵rt,并進(jìn)入下一個狀態(tài)st+1∈S。

    (1)

    其中,at~π(·|st),st+1=T(st,at)。強化學(xué)習(xí)的目標(biāo)是找到一個最優(yōu)策略π*,使得期望回報最大,即π*=argmaxπJ(π)。為了便于學(xué)習(xí)策略,定義狀態(tài)值函數(shù)

    (2)

    以及狀態(tài)動作值函數(shù)

    Q(s,a)=

    (3)

    1.2 策略梯度法

    策略梯度法[10]通過計算目標(biāo)函數(shù)在策略參數(shù)處的梯度,得到策略的更新方向,用π(θ)表示待學(xué)習(xí)的參數(shù)化策略,θ為策略參數(shù),則策略梯度法的目標(biāo)函數(shù)如下

    J(θ)=Et[logπθ(at|st)*A(st,at)]

    (4)

    其中,A(st,at)=Q(st,at)-V(st),為t時刻的優(yōu)勢函數(shù)。策略梯度法的主要問題是估計得到的梯度有很大方差,容易造成策略崩塌,影響訓(xùn)練穩(wěn)定性。

    1.3 信任域策略優(yōu)化算法

    信任域策略優(yōu)化[11]算法在策略梯度法的基礎(chǔ)上加入了一個用來限制策略偏移的約束,以避免策略偏移帶來的梯度偏差所引發(fā)的策略崩塌,使得學(xué)習(xí)過程更加穩(wěn)定。信任域策略優(yōu)化算法的優(yōu)化問題如下

    (5)

    Et[DKL(πθ(at|st)||πθold(at|st))]≤δ

    (6)

    其中,πθold表示采樣策略;θold表示采樣策略的參數(shù);Et表示采樣策略πθold采集到的每個時刻樣本下的期望;DKL表示KL散度;δ是一個超參數(shù),表示策略偏移的最大幅度。

    為了求解該優(yōu)化問題,對目標(biāo)函數(shù)和約束項分別做一階、二階泰勒近似,得到如下近似優(yōu)化問題

    maxθJ(θold,θ)≈gT(θ-θold)

    (7)

    (8)

    其中

    (9)

    (10)

    該近似優(yōu)化問題可求出最優(yōu)解

    (11)

    近似優(yōu)化問題雖然有最優(yōu)解,但不一定是原問題的最優(yōu)解,故信任域策略優(yōu)化在此基礎(chǔ)上還做了線搜索(line search),將近似優(yōu)化問題求得的最優(yōu)解作為最大步長進(jìn)行指數(shù)衰減線搜索,找到可以真正優(yōu)化原始目標(biāo)函數(shù)的步長。令α為指數(shù)衰減速度,j為搜索次數(shù),則得到如下參數(shù)更新公式

    (12)

    信任域策略優(yōu)化算法需要計算KL散度的Hessian陣,是一種二階優(yōu)化算法,需要一些代碼上的優(yōu)化來加速求解,如費雪向量積和共軛梯度法。同時,信任域策略優(yōu)化算法使用了GAE估計優(yōu)勢函數(shù),可以權(quán)衡優(yōu)勢函數(shù)估計器的偏差和方差。此外,二階優(yōu)化算法也意味著信任域策略優(yōu)化更適合低維問題,在高維問題中會面臨Hessian陣估計不準(zhǔn)、計算量大的問題,從而影響算法訓(xùn)練效果和訓(xùn)練速度。末制導(dǎo)問題的狀態(tài)維度和動作維度都比較低,故本文將信任域策略優(yōu)化算法應(yīng)用到末制導(dǎo)控制量的學(xué)習(xí)中,使策略的學(xué)習(xí)變得更加穩(wěn)定,提升習(xí)得策略的表現(xiàn)。信任域策略優(yōu)化算法的偽代碼如表1和表2所示。

    表1 算法整體流程

    表2 信任域策略優(yōu)化算法

    2 使用信任域策略優(yōu)化算法學(xué)習(xí)末制導(dǎo)控制量

    2.1 仿真環(huán)境建模

    為了將強化學(xué)習(xí)算法應(yīng)用于末制導(dǎo)問題中,需要對實際制導(dǎo)問題進(jìn)行仿真模擬。導(dǎo)彈作為一種高速飛行的打擊武器,通常應(yīng)用于遠(yuǎn)距離打擊范圍任務(wù)中,在這種情況下,導(dǎo)彈與目標(biāo)本身的尺寸可以被忽略,只關(guān)注二者的相對位置關(guān)系即可,即將導(dǎo)彈與目標(biāo)簡化成為兩個質(zhì)點。

    將制導(dǎo)問題應(yīng)用在真實的三維環(huán)境中,經(jīng)大量的研究顯示,三維空間的仿真建模復(fù)雜且計算量太大。文獻(xiàn)[18]的研究結(jié)果表明,二維空間與三維空間中的運動存在相似性,可以通過降維等手段將三維空間的運動問題分解成兩個相互正交的二維平面中的運動問題。

    本文的導(dǎo)彈-目標(biāo)仿真環(huán)境建模即采用上述的思想,選擇在二維平面內(nèi)對末制導(dǎo)問題進(jìn)行仿真環(huán)境建模,并基于質(zhì)點模型,忽略了導(dǎo)彈和目標(biāo)雙方的機(jī)身尺寸,整個攔截場景處于慣性參考系下,仿真場景如圖1所示。其中,M與T分別表示導(dǎo)彈與目標(biāo)質(zhì)點;θM與θT為導(dǎo)彈和目標(biāo)的彈道傾角;q與r為視線角與彈目相對距離;aM與aT為控制導(dǎo)彈和目標(biāo)轉(zhuǎn)向的法向加速度。整個仿真過程遵循如下運動學(xué)公式

    (13)

    (14)

    (15)

    圖1 仿真場景示意圖Fig.1 Schematic diagram of simulation environment

    此外,在真實環(huán)境下,考慮到傳輸噪聲對彈頭指揮部的制導(dǎo)系統(tǒng)可能會產(chǎn)生的干擾,以及空氣動力學(xué)所產(chǎn)生的各種噪聲(如空氣密度不同帶來的聲速不同進(jìn)而影響到攔截彈飛行的情況),本文在本次仿真環(huán)境中額外加入對于噪聲的考量。首先,由于不同高度下空氣的密度和聲速是不同的,因此在這里首先對給定高度下的空氣密度和聲速進(jìn)行計算,具體方式如下:

    1)位勢高度計算:本次仿真模型均設(shè)定在標(biāo)準(zhǔn)大氣壓下。首先計算在給定目標(biāo)高度下的位勢高度

    (16)

    其中,r0為地球半徑,取6356766m;yM為彈體或者目標(biāo)的縱向高度,單位為m。

    2)實時攝氏溫度計算:此處取常壓下地面溫度15℃,由熱力學(xué)溫度轉(zhuǎn)化公式可知地面熱力學(xué)溫度為288.25K,據(jù)此計算給定高度的攝氏溫度如下

    T=Tb+cT×(Z-Zb)

    (17)

    其中,Tb為熱力學(xué)溫度;cT為一衰減系數(shù),由高度與溫度變化關(guān)聯(lián)公式可知,高度每升高1000m氣溫降低6.5℃,即設(shè)定為-6.5×10-3;Zb為擾動系數(shù),此處取0.0。

    3)空氣壓力計算:已知給定溫度,即可計算定高度下的空氣氣壓,其計算公式如下

    (18)

    其中,Pb為標(biāo)準(zhǔn)大氣壓下的毫米水柱,取值為10332.3mm H2O;g0為重力加速度,取值為9.80665;cP為干燥空氣的摩爾氣體常數(shù),通常取287.05287。

    4)空氣密度計算:在已知空氣壓力的情況下,空氣密度可由式(19)求得

    (19)

    5)聲速計算:聲速計算公式在已知攝氏溫度的情況下可以根據(jù)式(20)求得

    (20)

    單位為m/s。

    在不同的空氣密度和聲速下,模型的氣動參數(shù)也是不停變化的。不同的氣動參數(shù)會影響導(dǎo)彈的一階特性與二階特性,進(jìn)而影響到導(dǎo)彈的實時速度。此處假定導(dǎo)彈速度的初始變化率為-25m/s,結(jié)合導(dǎo)彈的特征面積,給出導(dǎo)彈受空氣密度噪聲影響的速度變化公式如下

    Vdot=

    (21)

    其中,CD、CK、CLafa均為氣動參數(shù);α為攻角指令,由過載指令結(jié)合空氣密度計算而來;ρ為前述空氣密度;VM為導(dǎo)彈的實時速度;Sxsf為導(dǎo)彈的特征面積,一般取0.2;m為導(dǎo)彈質(zhì)量,此處取m=400kg;θm為導(dǎo)彈的彈道傾角。此外,為增加算法的魯棒性,本文對于環(huán)境中也施加了部分隨機(jī)噪聲,具體方法如下:通過對導(dǎo)彈運動的角噪聲進(jìn)行處理,從而對視線轉(zhuǎn)率施加噪聲,進(jìn)而影響視線轉(zhuǎn)率的二階特性,使得訓(xùn)練更具有普遍性,減小因過擬合帶來的誤差。由上述公式,即式(16)~式(21),可以考慮真實戰(zhàn)場下的空空攻防戰(zhàn)空氣噪聲參數(shù),從而實現(xiàn)更加普遍、通用、包容性強的算法模型。

    2.2 MDP建模

    2.2.1 狀態(tài)空間設(shè)計

    在實驗中,將智能體的狀態(tài)定義為一個8維向量,前4維分別表示導(dǎo)彈和目標(biāo)雙方的坐標(biāo)在X坐標(biāo)軸和Y坐標(biāo)軸方向的分量,后4維分別表示導(dǎo)彈和目標(biāo)雙方的速度在X坐標(biāo)軸和Y坐標(biāo)軸方向的分量。

    s=(XM,YM,XT,YT,VM,X,VM,Y,VT,X,VT,Y)

    (22)

    2.2.2 動作空間設(shè)計

    將智能體的動作定義為一個標(biāo)量,表示提供給導(dǎo)彈的加速度,是一個連續(xù)的值。動作的取值范圍通過超參數(shù)A_MAX設(shè)置,在實驗中將其設(shè)置為300。

    at∈(-A_MAX,A_MAX)

    (23)

    2.2.3 獎勵函數(shù)設(shè)計

    獎勵定義為上一時刻的預(yù)測脫靶量與當(dāng)前時刻的預(yù)測脫靶量的差值,表示當(dāng)前時刻動作對預(yù)測脫靶量的降低量

    rt=-1*(zemt-zemt-1)

    (24)

    其中,zemt為t時刻的預(yù)測脫靶量,是導(dǎo)彈和目標(biāo)相對距離的最小值的預(yù)測值,計算公式參考文獻(xiàn)[18-19]。直觀上說,預(yù)測脫靶量是以導(dǎo)彈為參照系,導(dǎo)彈相對靜止,而目標(biāo)在進(jìn)行勻速直線運動,目標(biāo)不斷運動直到與導(dǎo)彈的距離達(dá)到最近,此時的距離稱為預(yù)測脫靶量。可見,與當(dāng)前時刻雙方的相對距離不同,預(yù)測脫靶量的計算考慮了導(dǎo)彈和目標(biāo)的實際運動情況。但預(yù)測脫靶量只考慮了導(dǎo)彈和目標(biāo)當(dāng)前時刻的相對速度,沒有考慮它們在未來時刻的速度變化,是對實際脫靶量的近似估計,而實際脫靶量是不可能精準(zhǔn)預(yù)測的,所以本文采取這種簡單的方法,通過預(yù)測脫靶量來近似估計實際脫靶量,進(jìn)而計算獎勵。

    上述MDP建模盡量少地使用末制導(dǎo)領(lǐng)域?qū)I(yè)知識,只使用位置和速度這些簡單易懂的量作為狀態(tài),動作也是直接為導(dǎo)彈提供的加速度,沒有制導(dǎo)律相關(guān)知識,更能驗證強化學(xué)習(xí)在末制導(dǎo)領(lǐng)域應(yīng)用的潛力。如果使用末制導(dǎo)領(lǐng)域?qū)I(yè)知識來設(shè)計狀態(tài)和獎勵,可能會提升算法的表現(xiàn)和泛化性,但降低了設(shè)計的通用性,所以本文決定采取這種簡單有效的MDP設(shè)計。

    2.3 算法超參數(shù)設(shè)置

    TRPO算法具體超參數(shù)設(shè)置如表3所示,環(huán)境中導(dǎo)彈和目標(biāo)的初始參數(shù)如表4所示。

    表3 TRPO算法超參數(shù)

    表4 導(dǎo)彈和目標(biāo)初始的參數(shù)

    2.4 實驗結(jié)果與分析

    為了驗證本文提出的算法的高效性能,對比了其他兩種強化學(xué)習(xí)制導(dǎo)律算法,分別是基于進(jìn)化策略的ES算法和基于EBDQN的自適應(yīng)導(dǎo)航比末制導(dǎo)律算法[20]。ES算法使用進(jìn)化算法直接優(yōu)化策略,EBDQN算法通過從經(jīng)驗回放池中采樣整個軌跡,并從結(jié)束狀態(tài)從后向前更新值函數(shù),可以提高樣本的使用效率。

    在2.1節(jié)介紹的仿真環(huán)境中,在2.2節(jié)介紹的MDP設(shè)置下,基于表3所示的TRPO算法超參數(shù)與表4所示的導(dǎo)彈和目標(biāo)的初始參數(shù),使用TRPO算法學(xué)習(xí)末制導(dǎo)控制量,測試脫靶量,與直接學(xué)習(xí)末制導(dǎo)控制量的ES算法和學(xué)習(xí)引導(dǎo)率參數(shù)的EBDQN算法相比,其脫靶量累積分布圖如圖2所示。在圖2中,橫軸為脫靶量大小,單位為m,縱軸為累積分布概率,實驗重復(fù)次數(shù)為500次,脫靶量分布結(jié)果如表5所示。可以看出,同是直接學(xué)習(xí)末制導(dǎo)控制量的TRPO和ES算法,TRPO算法的脫靶量比ES算法更低,而且TRPO算法的脫靶量優(yōu)于學(xué)習(xí)引導(dǎo)率導(dǎo)航比參數(shù)的EBDQN算法,說明TRPO學(xué)習(xí)到的控制量比引導(dǎo)率的效果更好,在復(fù)雜場景中直接學(xué)習(xí)控制量的方法有希望超過學(xué)習(xí)引導(dǎo)率的方法。

    圖2 脫靶量累計分布Fig.2 Cumulative distribution of miss distance

    表5 制導(dǎo)律脫靶量分布

    此外,本文將在線強化學(xué)習(xí)算法應(yīng)用于末制導(dǎo)控制量的學(xué)習(xí)中,由于末制導(dǎo)常常強調(diào)機(jī)動性,故需要通過實驗測試算法的響應(yīng)時間,即智能體做出決策所需要的時間。表6展示了三種強化學(xué)習(xí)算法的響應(yīng)時間,單位為ms,實驗運行環(huán)境為i5 7300HQ CPU,16G內(nèi)存,沒有用到 GPU。可以看到,三種算法的響應(yīng)時間都是ms級的,響應(yīng)都很快速,這是因為它們的策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)都是簡單的全連接層,參數(shù)較少,計算時間短。

    表6 三種算法的響應(yīng)時間

    2.5 實驗對比不同的獎勵設(shè)計方法

    在強化學(xué)習(xí)中,獎勵承擔(dān)著重要的作用,它負(fù)責(zé)傳遞這一次動作的獎懲情況,智能體根據(jù)獎勵的變化進(jìn)行策略的優(yōu)化。本節(jié)通過實驗對比不同的獎勵函數(shù),包括稀疏獎勵、樸素獎勵以及本文提出的新穎獎勵,從而驗證本文所提的獎勵函數(shù)的高效性。

    首先介紹稀疏獎勵。在末制導(dǎo)的實際物理環(huán)境中,只有當(dāng)導(dǎo)彈命中目標(biāo)時,才會收到命中的獎勵,其他時間無論導(dǎo)彈怎么改變方向、調(diào)節(jié)速度,在命中之前都不會獲得任何獎勵,這種獎勵函數(shù)是一個典型的稀疏獎勵。將其設(shè)計為式(25),當(dāng)一條軌跡最終距離目標(biāo)小于5m時,給予10的獎勵,其余時刻全都是0的獎勵。然而,稀疏獎勵問題會導(dǎo)致強化學(xué)習(xí)算法收斂緩慢,甚至是無法收斂。

    (25)

    樸素稠密獎勵函數(shù)是最符合人類直覺的一種獎勵,將導(dǎo)彈與目標(biāo)之間的距離作為衡量獎勵的尺度,距離目標(biāo)越近,則給出越大的獎勵,距離目標(biāo)越遠(yuǎn),則給出越小的獎勵。獎勵的具體形式如式(26)所示,在每一時刻,將導(dǎo)彈與目標(biāo)之間距離的負(fù)數(shù)作為獎勵。然而,這種負(fù)獎勵會促使智能體盡早結(jié)束軌跡,影響策略學(xué)習(xí)。

    (26)

    為了解決在末制導(dǎo)環(huán)境中的稀疏獎勵問題以及樸素稠密獎勵的學(xué)習(xí)效率低下的問題,提出了一種創(chuàng)新性的獎勵函數(shù)設(shè)計。將獎勵定義為上一時刻的預(yù)測脫靶量與當(dāng)前時刻的預(yù)測脫靶量的差值,表示當(dāng)前時刻動作對預(yù)測脫靶量的降低量,關(guān)于該獎勵的更詳盡的介紹請參考2.2.3節(jié)式(24)。

    為了說明本文設(shè)計的新穎獎勵函數(shù)的高效性,圖3對比了與三種獎勵函數(shù)在相同實驗環(huán)境下訓(xùn)練時的脫靶量變化曲線,橫軸為訓(xùn)練輪數(shù),共訓(xùn)練500輪,縱軸為每一輪訓(xùn)練后的脫靶量,單位為m,每輪測試次數(shù)為5次。可以發(fā)現(xiàn),本文提出的獎勵函數(shù)能夠使訓(xùn)練更穩(wěn)定,并且能達(dá)到更低的脫靶量。

    圖3 三種獎勵在訓(xùn)練時的脫靶量變化曲線Fig.3 Curves of miss distance of three rewards during training

    3 結(jié)論

    1)本文將TRPO算法應(yīng)用于末制導(dǎo)問題,在與環(huán)境交互的過程中直接學(xué)習(xí)末制導(dǎo)控制量,而非學(xué)習(xí)末制導(dǎo)律中的參數(shù),有助于發(fā)現(xiàn)更優(yōu)的制導(dǎo)策略。設(shè)計了簡單的狀態(tài),避免引入末制導(dǎo)專業(yè)知識,并設(shè)計了一種新穎的獎勵函數(shù),該獎勵函數(shù)考慮了導(dǎo)彈和目標(biāo)的運動情況,更適合末制導(dǎo)問題。仿真環(huán)境中考慮了空氣動力學(xué),更接近真實場景。

    2)實驗結(jié)果表明,通過使用本文算法和提出的獎勵,智能體學(xué)到的控制策略可以達(dá)到更低的脫靶量,命中效果更好。

    3)本文只在仿真環(huán)境中進(jìn)行實驗,使用強化學(xué)習(xí)算法在真實場景中進(jìn)行控制量學(xué)習(xí)是未來有價值的研究方向。

    猜你喜歡
    制導(dǎo)梯度導(dǎo)彈
    一個改進(jìn)的WYL型三項共軛梯度法
    導(dǎo)彈燃料知多少
    軍事文摘(2020年14期)2020-12-17 06:27:16
    一種自適應(yīng)Dai-Liao共軛梯度法
    正在發(fā)射的岸艦導(dǎo)彈
    兵器知識(2019年1期)2019-01-23 02:20:44
    一類扭積形式的梯度近Ricci孤立子
    攔截那枚導(dǎo)彈
    導(dǎo)彈轉(zhuǎn)運
    基于MPSC和CPN制導(dǎo)方法的協(xié)同制導(dǎo)律
    基于在線軌跡迭代的自適應(yīng)再入制導(dǎo)
    帶有攻擊角約束的無抖振滑模制導(dǎo)律設(shè)計
    久久久久久久亚洲中文字幕| 妹子高潮喷水视频| av又黄又爽大尺度在线免费看| 狠狠婷婷综合久久久久久88av| 亚洲国产毛片av蜜桃av| 高清欧美精品videossex| 日韩三级伦理在线观看| 免费女性裸体啪啪无遮挡网站| 男人添女人高潮全过程视频| 国产精品一区www在线观看| 成人影院久久| 国产精品偷伦视频观看了| 欧美人与善性xxx| av线在线观看网站| av国产久精品久网站免费入址| 少妇的丰满在线观看| 久久久久久久久久久久大奶| 97超碰精品成人国产| 飞空精品影院首页| 99九九在线精品视频| 国产男人的电影天堂91| 日韩人妻精品一区2区三区| 日韩成人伦理影院| 久久久久久久国产电影| 中文字幕精品免费在线观看视频 | av国产久精品久网站免费入址| 大码成人一级视频| 美女大奶头黄色视频| 亚洲成av片中文字幕在线观看 | 成人漫画全彩无遮挡| 一区在线观看完整版| 欧美最新免费一区二区三区| 久久国产精品男人的天堂亚洲 | 天天操日日干夜夜撸| 国产毛片在线视频| 亚洲精品国产av蜜桃| 日韩免费高清中文字幕av| 欧美国产精品一级二级三级| av免费观看日本| 你懂的网址亚洲精品在线观看| 国产av一区二区精品久久| 如何舔出高潮| 日韩免费高清中文字幕av| 成人影院久久| 亚洲国产精品专区欧美| 纵有疾风起免费观看全集完整版| a级片在线免费高清观看视频| 18禁观看日本| 在线 av 中文字幕| 国产精品久久久久久av不卡| 久久 成人 亚洲| 精品一区二区三区四区五区乱码 | 日韩中文字幕视频在线看片| 免费人妻精品一区二区三区视频| 狠狠婷婷综合久久久久久88av| 人体艺术视频欧美日本| av.在线天堂| 欧美激情国产日韩精品一区| av线在线观看网站| 伊人久久国产一区二区| 丝瓜视频免费看黄片| 亚洲国产精品国产精品| 欧美日韩亚洲高清精品| 女性被躁到高潮视频| 国产视频首页在线观看| 一本—道久久a久久精品蜜桃钙片| 久久久久久久久久久久大奶| 91精品三级在线观看| 丝袜喷水一区| 最近手机中文字幕大全| 国产亚洲午夜精品一区二区久久| 2022亚洲国产成人精品| 国产精品.久久久| 国产日韩欧美在线精品| 黄色视频在线播放观看不卡| 欧美性感艳星| 国产欧美日韩综合在线一区二区| 日韩熟女老妇一区二区性免费视频| 97在线人人人人妻| 亚洲精品日本国产第一区| 国产日韩欧美在线精品| 久久人人爽人人片av| 国产成人a∨麻豆精品| 亚洲熟女精品中文字幕| 亚洲人成77777在线视频| 青春草视频在线免费观看| 亚洲欧美中文字幕日韩二区| 久久热在线av| 精品一区二区免费观看| 中文字幕另类日韩欧美亚洲嫩草| 日韩视频在线欧美| 人妻系列 视频| 精品卡一卡二卡四卡免费| 亚洲欧洲日产国产| 成人国产麻豆网| 精品福利永久在线观看| 久久精品国产亚洲av涩爱| 天天影视国产精品| 亚洲精品国产av蜜桃| 欧美国产精品va在线观看不卡| 国产国拍精品亚洲av在线观看| 两性夫妻黄色片 | 中文欧美无线码| 成人亚洲欧美一区二区av| 秋霞伦理黄片| 亚洲国产成人一精品久久久| 又黄又粗又硬又大视频| 欧美精品av麻豆av| 亚洲欧洲国产日韩| 人成视频在线观看免费观看| 亚洲成av片中文字幕在线观看 | 国产精品久久久久久av不卡| 观看美女的网站| 国产激情久久老熟女| 人人妻人人澡人人看| 久久99精品国语久久久| 一级毛片黄色毛片免费观看视频| 日韩一区二区视频免费看| 国产69精品久久久久777片| 久久精品国产综合久久久 | 国产高清三级在线| 中文字幕制服av| 侵犯人妻中文字幕一二三四区| 久久99热这里只频精品6学生| 免费不卡的大黄色大毛片视频在线观看| 天天躁夜夜躁狠狠久久av| 欧美激情极品国产一区二区三区 | 亚洲av男天堂| 亚洲精品,欧美精品| 国产精品久久久久久久电影| 另类亚洲欧美激情| 亚洲美女搞黄在线观看| 欧美成人午夜精品| 国产片特级美女逼逼视频| 久久99热这里只频精品6学生| 欧美少妇被猛烈插入视频| 777米奇影视久久| 美女国产视频在线观看| 欧美日韩成人在线一区二区| 日韩av在线免费看完整版不卡| 男女下面插进去视频免费观看 | 亚洲情色 制服丝袜| 男女边吃奶边做爰视频| 一级毛片 在线播放| 精品国产乱码久久久久久小说| 波多野结衣一区麻豆| 制服诱惑二区| 国产一区二区三区av在线| 日本与韩国留学比较| 只有这里有精品99| 亚洲一区二区三区欧美精品| 日韩一本色道免费dvd| 亚洲精品自拍成人| 中文天堂在线官网| 亚洲国产精品一区二区三区在线| 在线天堂最新版资源| 免费av不卡在线播放| 日韩,欧美,国产一区二区三区| av视频免费观看在线观看| 免费少妇av软件| 精品人妻一区二区三区麻豆| 久热久热在线精品观看| a级毛色黄片| 97人妻天天添夜夜摸| 日本欧美国产在线视频| 国产成人a∨麻豆精品| 黄片播放在线免费| 黄片播放在线免费| 夫妻午夜视频| xxx大片免费视频| 日韩制服骚丝袜av| 人人妻人人澡人人看| 美女主播在线视频| 国产精品国产三级专区第一集| 日韩av不卡免费在线播放| 永久免费av网站大全| 大话2 男鬼变身卡| 成年美女黄网站色视频大全免费| 中文字幕另类日韩欧美亚洲嫩草| 肉色欧美久久久久久久蜜桃| 精品熟女少妇av免费看| 久久人妻熟女aⅴ| 亚洲av日韩在线播放| 男女下面插进去视频免费观看 | 中文字幕av电影在线播放| 99久久中文字幕三级久久日本| 亚洲熟女精品中文字幕| 日韩熟女老妇一区二区性免费视频| av有码第一页| 精品国产露脸久久av麻豆| 国产熟女欧美一区二区| 永久网站在线| a级毛片在线看网站| 18在线观看网站| 一区二区三区精品91| 亚洲熟女精品中文字幕| 99热国产这里只有精品6| 久久久久精品久久久久真实原创| 99香蕉大伊视频| 制服诱惑二区| 婷婷色综合大香蕉| 国产一区二区三区av在线| 国产精品成人在线| 亚洲美女黄色视频免费看| 91aial.com中文字幕在线观看| 2022亚洲国产成人精品| 国产黄色免费在线视频| 男女边摸边吃奶| 亚洲激情五月婷婷啪啪| 日韩人妻精品一区2区三区| 国产精品 国内视频| 亚洲精品乱码久久久久久按摩| 91午夜精品亚洲一区二区三区| 日韩av不卡免费在线播放| 最新的欧美精品一区二区| 最新的欧美精品一区二区| 91aial.com中文字幕在线观看| 99香蕉大伊视频| 少妇人妻久久综合中文| 黑人高潮一二区| 一级a做视频免费观看| 狂野欧美激情性xxxx在线观看| 国产成人av激情在线播放| 99久久综合免费| 曰老女人黄片| 性色av一级| 日日啪夜夜爽| 亚洲国产看品久久| 亚洲欧美成人精品一区二区| 在线天堂中文资源库| 插逼视频在线观看| 永久免费av网站大全| 在线观看免费日韩欧美大片| av免费观看日本| 亚洲国产av新网站| 国产一区亚洲一区在线观看| 少妇的逼好多水| 久久午夜综合久久蜜桃| 免费观看无遮挡的男女| 咕卡用的链子| 五月天丁香电影| 少妇熟女欧美另类| 超碰97精品在线观看| 中文字幕亚洲精品专区| 极品少妇高潮喷水抽搐| 亚洲三级黄色毛片| 亚洲欧美成人精品一区二区| 99re6热这里在线精品视频| 女人久久www免费人成看片| 色网站视频免费| 午夜福利网站1000一区二区三区| 日韩av不卡免费在线播放| 蜜臀久久99精品久久宅男| 亚洲美女黄色视频免费看| 亚洲av成人精品一二三区| 亚洲一级一片aⅴ在线观看| 国产精品三级大全| xxxhd国产人妻xxx| 丰满少妇做爰视频| 亚洲欧美中文字幕日韩二区| 免费看av在线观看网站| 精品人妻一区二区三区麻豆| 人妻 亚洲 视频| 99国产精品免费福利视频| 九九在线视频观看精品| 一区二区三区精品91| 亚洲一级一片aⅴ在线观看| 亚洲av电影在线观看一区二区三区| 99久久综合免费| 一级黄片播放器| 国内精品宾馆在线| 中文字幕精品免费在线观看视频 | 一级毛片黄色毛片免费观看视频| 国产极品天堂在线| 日本vs欧美在线观看视频| 日韩av免费高清视频| 国产av国产精品国产| 99久久精品国产国产毛片| 天堂俺去俺来也www色官网| av线在线观看网站| 国产av一区二区精品久久| 国产成人精品福利久久| 国产免费一级a男人的天堂| 91国产中文字幕| 女人精品久久久久毛片| 欧美另类一区| 卡戴珊不雅视频在线播放| 婷婷色综合www| 青春草国产在线视频| 久久人人97超碰香蕉20202| av黄色大香蕉| 久久久久国产精品人妻一区二区| 51国产日韩欧美| 我要看黄色一级片免费的| 久久久精品区二区三区| 乱码一卡2卡4卡精品| 大香蕉久久网| 婷婷色麻豆天堂久久| 最近最新中文字幕免费大全7| www.熟女人妻精品国产 | 热99久久久久精品小说推荐| 成人免费观看视频高清| 国产精品 国内视频| 极品人妻少妇av视频| 中国国产av一级| 2021少妇久久久久久久久久久| 妹子高潮喷水视频| 亚洲三级黄色毛片| 久久久国产精品麻豆| 男女啪啪激烈高潮av片| www.色视频.com| 国产精品女同一区二区软件| 99久久精品国产国产毛片| 欧美成人精品欧美一级黄| 久久精品熟女亚洲av麻豆精品| 99re6热这里在线精品视频| 国产av码专区亚洲av| 街头女战士在线观看网站| 国产成人免费观看mmmm| 国产激情久久老熟女| 久久97久久精品| 水蜜桃什么品种好| 久久精品国产a三级三级三级| 97超碰精品成人国产| 大香蕉久久网| 交换朋友夫妻互换小说| 精品国产乱码久久久久久小说| √禁漫天堂资源中文www| 亚洲成人手机| 韩国高清视频一区二区三区| 免费少妇av软件| 女人久久www免费人成看片| 亚洲一区二区三区欧美精品| 久久久久久伊人网av| 国产精品女同一区二区软件| 中文乱码字字幕精品一区二区三区| 亚洲美女搞黄在线观看| 熟女av电影| 国产免费一级a男人的天堂| 日韩制服骚丝袜av| 国产成人av激情在线播放| 九色亚洲精品在线播放| 涩涩av久久男人的天堂| 国产成人精品福利久久| 只有这里有精品99| 国产精品三级大全| 99久久精品国产国产毛片| 免费黄网站久久成人精品| 伦精品一区二区三区| 伊人亚洲综合成人网| 日日撸夜夜添| 91精品伊人久久大香线蕉| 亚洲精品456在线播放app| 久久久欧美国产精品| 亚洲av欧美aⅴ国产| 精品午夜福利在线看| 丝袜美足系列| 成年av动漫网址| 亚洲精品美女久久久久99蜜臀 | 在线天堂中文资源库| 亚洲精品,欧美精品| av天堂久久9| 水蜜桃什么品种好| 久久婷婷青草| 亚洲精品aⅴ在线观看| 一本色道久久久久久精品综合| 亚洲国产最新在线播放| 亚洲伊人色综图| 免费av不卡在线播放| 搡女人真爽免费视频火全软件| 免费观看无遮挡的男女| 晚上一个人看的免费电影| 久久av网站| 国产精品国产三级专区第一集| 男女国产视频网站| 一边摸一边做爽爽视频免费| 国产精品人妻久久久久久| 最新的欧美精品一区二区| 国产精品欧美亚洲77777| 中文乱码字字幕精品一区二区三区| 成人综合一区亚洲| 中文字幕另类日韩欧美亚洲嫩草| 99久久中文字幕三级久久日本| 最后的刺客免费高清国语| 久久精品国产亚洲av天美| 少妇高潮的动态图| 91在线精品国自产拍蜜月| 久久99热6这里只有精品| 欧美变态另类bdsm刘玥| 午夜福利在线观看免费完整高清在| 中文字幕人妻熟女乱码| 精品少妇久久久久久888优播| 人妻系列 视频| 久久久欧美国产精品| 国产女主播在线喷水免费视频网站| 国产成人91sexporn| 在线观看免费高清a一片| 狠狠精品人妻久久久久久综合| 国产欧美亚洲国产| 久久精品国产自在天天线| 国精品久久久久久国模美| 免费看av在线观看网站| 中国美白少妇内射xxxbb| 91国产中文字幕| 日本av手机在线免费观看| 国产精品蜜桃在线观看| 欧美日本中文国产一区发布| 免费在线观看黄色视频的| 免费观看无遮挡的男女| 国产欧美日韩一区二区三区在线| 成人免费观看视频高清| 欧美精品一区二区免费开放| 国产精品国产三级国产av玫瑰| 国产在视频线精品| 在线免费观看不下载黄p国产| 日韩欧美一区视频在线观看| 伊人亚洲综合成人网| 中国国产av一级| 晚上一个人看的免费电影| 成人亚洲精品一区在线观看| 十分钟在线观看高清视频www| 老司机影院成人| 国产又色又爽无遮挡免| 男人操女人黄网站| 亚洲婷婷狠狠爱综合网| 国产日韩欧美在线精品| 一级片免费观看大全| 免费大片18禁| 久久人人97超碰香蕉20202| 精品国产露脸久久av麻豆| 久久久国产一区二区| 99热全是精品| 久久久久国产网址| 亚洲综合色惰| 男人爽女人下面视频在线观看| 少妇被粗大的猛进出69影院 | 亚洲国产av新网站| 夜夜骑夜夜射夜夜干| 成年动漫av网址| 国产精品国产三级专区第一集| 亚洲国产精品一区三区| 如何舔出高潮| 免费av不卡在线播放| 亚洲精品色激情综合| 日韩 亚洲 欧美在线| 欧美激情国产日韩精品一区| 国产 一区精品| 国精品久久久久久国模美| 97在线人人人人妻| 久久人妻熟女aⅴ| 伦理电影免费视频| 飞空精品影院首页| 插逼视频在线观看| 国产精品三级大全| 妹子高潮喷水视频| 90打野战视频偷拍视频| 亚洲国产精品专区欧美| 午夜91福利影院| 国产淫语在线视频| 国产精品偷伦视频观看了| 日本av手机在线免费观看| 韩国精品一区二区三区 | 人人妻人人添人人爽欧美一区卜| 久久午夜福利片| 国产亚洲av片在线观看秒播厂| 亚洲av日韩在线播放| 久久午夜综合久久蜜桃| 男人舔女人的私密视频| 国产av精品麻豆| 午夜激情久久久久久久| 侵犯人妻中文字幕一二三四区| 国产一区二区激情短视频 | 一边摸一边做爽爽视频免费| 亚洲国产日韩一区二区| 少妇人妻久久综合中文| a级毛片黄视频| 99re6热这里在线精品视频| 美女国产视频在线观看| 欧美精品亚洲一区二区| 99国产精品免费福利视频| 一级毛片 在线播放| 免费黄色在线免费观看| av有码第一页| 一边亲一边摸免费视频| 丝袜在线中文字幕| 寂寞人妻少妇视频99o| 人人澡人人妻人| videos熟女内射| 久久99精品国语久久久| 精品卡一卡二卡四卡免费| 午夜免费观看性视频| 最新中文字幕久久久久| av女优亚洲男人天堂| 成年人免费黄色播放视频| 亚洲国产欧美在线一区| 婷婷成人精品国产| 亚洲欧美精品自产自拍| 日韩成人av中文字幕在线观看| tube8黄色片| 如日韩欧美国产精品一区二区三区| 国产在视频线精品| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 极品少妇高潮喷水抽搐| 亚洲一区二区三区欧美精品| 丝袜美足系列| 日韩在线高清观看一区二区三区| 亚洲国产精品专区欧美| 少妇熟女欧美另类| 成人亚洲欧美一区二区av| 国产亚洲最大av| av在线app专区| 另类精品久久| 插逼视频在线观看| 欧美日韩视频高清一区二区三区二| 老女人水多毛片| 如日韩欧美国产精品一区二区三区| 大香蕉97超碰在线| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 亚洲第一av免费看| 99香蕉大伊视频| 一二三四在线观看免费中文在 | 波多野结衣一区麻豆| 亚洲精品日本国产第一区| 大香蕉久久网| 亚洲精品国产色婷婷电影| 91成人精品电影| 波多野结衣一区麻豆| 下体分泌物呈黄色| 成人亚洲欧美一区二区av| 亚洲情色 制服丝袜| 夜夜爽夜夜爽视频| 婷婷色综合大香蕉| 水蜜桃什么品种好| 最近中文字幕2019免费版| 两个人看的免费小视频| 国产又爽黄色视频| 亚洲av成人精品一二三区| 建设人人有责人人尽责人人享有的| 狠狠婷婷综合久久久久久88av| 久久精品久久精品一区二区三区| h视频一区二区三区| 亚洲精品乱码久久久久久按摩| 亚洲情色 制服丝袜| 日韩视频在线欧美| 日韩人妻精品一区2区三区| 欧美日韩视频高清一区二区三区二| 男人添女人高潮全过程视频| 日本wwww免费看| 999精品在线视频| 亚洲精品视频女| 免费日韩欧美在线观看| 国产成人精品在线电影| 国产精品女同一区二区软件| h视频一区二区三区| 99久久中文字幕三级久久日本| 18禁动态无遮挡网站| av在线观看视频网站免费| 2021少妇久久久久久久久久久| 久久久久久久久久久免费av| 久久人人爽av亚洲精品天堂| 午夜免费观看性视频| 久久久久视频综合| 黑人巨大精品欧美一区二区蜜桃 | 99久国产av精品国产电影| 亚洲av电影在线进入| 久久精品久久精品一区二区三区| 免费看不卡的av| 精品久久国产蜜桃| 国产日韩欧美在线精品| 精品久久久久久电影网| 久久久久久久大尺度免费视频| av在线观看视频网站免费| 水蜜桃什么品种好| 国产免费一级a男人的天堂| 亚洲精品国产av成人精品| 黄色一级大片看看| 在线观看美女被高潮喷水网站| kizo精华| 激情五月婷婷亚洲| 日韩电影二区| 国产精品人妻久久久影院| 涩涩av久久男人的天堂| 少妇人妻 视频| 亚洲精品国产av蜜桃| 成人黄色视频免费在线看| 99热这里只有是精品在线观看| 国产永久视频网站| a级毛片黄视频| 制服丝袜香蕉在线| 春色校园在线视频观看| 99精国产麻豆久久婷婷| 亚洲婷婷狠狠爱综合网| 女人久久www免费人成看片| 久久99热这里只频精品6学生| 色5月婷婷丁香| 制服人妻中文乱码| 国产成人午夜福利电影在线观看| 一级a做视频免费观看| 国产xxxxx性猛交| xxx大片免费视频| 少妇精品久久久久久久| 视频区图区小说| 狠狠精品人妻久久久久久综合| 五月伊人婷婷丁香| 国产精品久久久久久精品古装| 只有这里有精品99| 三级国产精品片| 2022亚洲国产成人精品| 韩国av在线不卡| 日本与韩国留学比较| 国产乱来视频区| 免费高清在线观看视频在线观看| 少妇 在线观看| 亚洲av国产av综合av卡| 一二三四在线观看免费中文在 |