• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于元權(quán)值學(xué)習(xí)方法的智能博弈對(duì)抗研究

    2022-11-15 07:54:34徐志雄王鋒
    關(guān)鍵詞:坦克權(quán)值梯度

    徐志雄 王鋒

    (陸軍邊海防學(xué)院,陜西 西安710100)

    1 引言

    近年來(lái),DARPA 發(fā)布游戲AI 技術(shù)征詢啟事并資助《星際爭(zhēng)霸》游戲AI 研究,美國(guó)海軍陸戰(zhàn)隊(duì)研發(fā)“雅典娜”戰(zhàn)爭(zhēng)游戲,蘭德公司探索人工智能輔助任務(wù)規(guī)劃,從中可以看出,美軍正在關(guān)注智能博弈對(duì)抗技術(shù)的發(fā)展,為獲取未來(lái)智能化戰(zhàn)爭(zhēng)中的決策優(yōu)勢(shì)提供理論支撐和技術(shù)儲(chǔ)備。這對(duì)我軍發(fā)展軍事人工智能具有重要的借鑒意義。國(guó)內(nèi)采用智能方法進(jìn)行指揮決策問(wèn)題研究也取得很多成果。文獻(xiàn)[1][2]基于模型分析和仿真評(píng)估研制了聯(lián)合作戰(zhàn)方案生成與評(píng)估系統(tǒng)、空軍戰(zhàn)役智能決策支持系統(tǒng)。文獻(xiàn)[3]~[5]從信息、決策、資源和結(jié)構(gòu)四個(gè)方面對(duì)方案進(jìn)行建模,可以對(duì)方案執(zhí)行效果實(shí)時(shí)跟蹤。文獻(xiàn)[6]基于多Agent 智能技術(shù)和行動(dòng)方案生成專家系統(tǒng)開(kāi)發(fā)了作戰(zhàn)計(jì)劃協(xié)同制定系統(tǒng)。文獻(xiàn)[7]研究了制導(dǎo)航彈的任務(wù)規(guī)劃系統(tǒng),提出了一種任務(wù)規(guī)劃系統(tǒng)的設(shè)計(jì)方案,但并未對(duì)該方案予以實(shí)現(xiàn)和驗(yàn)證。文獻(xiàn)[8]提出了基于陸軍指揮所模型的作戰(zhàn)計(jì)劃獨(dú)立生成方法,研究了基于大數(shù)據(jù)的軍事情報(bào)分析與服務(wù)系統(tǒng)體系結(jié)構(gòu)。文獻(xiàn)[9]開(kāi)發(fā)了人工智能程序“CASIA-先知v1.0”,利用知識(shí)和數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)架構(gòu),構(gòu)建了戰(zhàn)術(shù)團(tuán)隊(duì)的智能作戰(zhàn)行為模型。

    目前,國(guó)內(nèi)大部分研究工作采用有監(jiān)督或半監(jiān)督的機(jī)器學(xué)習(xí)方法。然而當(dāng)前我軍缺乏實(shí)戰(zhàn)數(shù)據(jù),且作戰(zhàn)裝備訓(xùn)練數(shù)據(jù)數(shù)量有限,這一現(xiàn)實(shí)條件限制了以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)方法在作戰(zhàn)實(shí)體行為建模問(wèn)題上的進(jìn)一步應(yīng)用。相比之下,以強(qiáng)化學(xué)習(xí)方法為代表的人工智能技術(shù)在作戰(zhàn)實(shí)體博弈行為建模應(yīng)用方面有了長(zhǎng)足發(fā)展,為下一步突破作戰(zhàn)實(shí)體智能決策的“瓶頸”提供了可能。

    2 基于加權(quán)梯度更新的無(wú)模型元深度強(qiáng)化學(xué)習(xí)方法

    2.1 算法設(shè)計(jì)思路

    基于深度強(qiáng)化學(xué)習(xí)方法的智能博弈對(duì)抗是利用以深度強(qiáng)化學(xué)習(xí)為代表的智能技術(shù),訓(xùn)練出具有認(rèn)知能力的智能體,可對(duì)環(huán)境進(jìn)行感知與認(rèn)知,利用規(guī)則和學(xué)到的經(jīng)驗(yàn)知識(shí),通過(guò)與對(duì)手的對(duì)抗性博弈,實(shí)現(xiàn)對(duì)最優(yōu)行為的選擇。

    作戰(zhàn)博弈對(duì)抗過(guò)程中,基于強(qiáng)化學(xué)習(xí)方法的指揮作戰(zhàn)實(shí)體,在參與博弈過(guò)程中不斷試錯(cuò),與戰(zhàn)場(chǎng)環(huán)境持續(xù)交互,通過(guò)行動(dòng)探索學(xué)習(xí)決策經(jīng)驗(yàn),從而循環(huán)更新自身策略網(wǎng)絡(luò)來(lái)不斷調(diào)整其作戰(zhàn)行動(dòng)。強(qiáng)化學(xué)習(xí)訓(xùn)練得到的策略網(wǎng)絡(luò),可以理解為作戰(zhàn)人員決策經(jīng)驗(yàn)知識(shí)的隱性表達(dá),是指揮決策思維過(guò)程的表征。然而,在此過(guò)程中還存在諸多難題。傳統(tǒng)深度強(qiáng)化學(xué)習(xí)模型在解決博弈對(duì)抗決策問(wèn)題時(shí),初始策略模型是從隨機(jī)初始化后的網(wǎng)絡(luò)上開(kāi)始訓(xùn)練的,由于復(fù)雜戰(zhàn)場(chǎng)環(huán)境下的狀態(tài)和動(dòng)作維度高,采樣低效,且訓(xùn)練時(shí)作戰(zhàn)行動(dòng)的效果反饋稀疏或反饋不準(zhǔn)確,即在采取一定的戰(zhàn)術(shù)決策后,無(wú)法對(duì)當(dāng)前決策進(jìn)行及時(shí)、準(zhǔn)確的評(píng)價(jià),需要進(jìn)行到一定階段后,才會(huì)得到一個(gè)整體的反饋信息。這導(dǎo)致基于傳統(tǒng)深度強(qiáng)化學(xué)習(xí)方法的初始策略模型的優(yōu)化存在冷啟動(dòng)問(wèn)題。針對(duì)這一問(wèn)題,提出基于歷史行動(dòng)軌跡梯度的元深度強(qiáng)化學(xué)習(xí)方法,通過(guò)為初始策略模型提供一種高效的網(wǎng)絡(luò)初始化辦法來(lái)解決冷啟動(dòng)問(wèn)題,提高學(xué)習(xí)效率和模型性能。

    元學(xué)習(xí)的最新進(jìn)展為深度強(qiáng)化學(xué)習(xí)方法提供了一種新的學(xué)習(xí)方式。通過(guò)在任務(wù)分布上進(jìn)行訓(xùn)練,學(xué)習(xí)元知識(shí),元深度強(qiáng)化學(xué)習(xí)方法可以憑借很少的交互數(shù)據(jù)解決新的任務(wù)。目前基于梯度的元學(xué)習(xí)方法不僅在強(qiáng)化學(xué)習(xí)領(lǐng)域取得了很大成功,而且在監(jiān)督學(xué)習(xí)任務(wù)上也獲得了顯著成效。

    基于梯度的元學(xué)習(xí)方法的核心思想是通過(guò)利用多個(gè)歷史行動(dòng)軌跡中的梯度特征學(xué)習(xí)來(lái)得到網(wǎng)絡(luò)初始化參數(shù)和初始化模型,以便策略模型能夠高效地解決新任務(wù)[10~15]。然而,目前已經(jīng)提出的基于梯度的元深度強(qiáng)化學(xué)習(xí)中普遍存在的問(wèn)題是,訓(xùn)練得到的初始的基于梯度的網(wǎng)絡(luò)模型可能會(huì)偏向于某些任務(wù),特別是元訓(xùn)練階段性能較好的一些任務(wù)。在這種情況下,最終訓(xùn)練得到的實(shí)際上是有偏的基于梯度的網(wǎng)絡(luò)模型。有偏的初始化模型對(duì)新任務(wù)的泛化能力差,特別是那些與元訓(xùn)練任務(wù)有較大差別的新任務(wù)。針對(duì)這一問(wèn)題,本文提出了一種通用的元權(quán)值(Meta Weight Learning,MWL)學(xué)習(xí)方法,通過(guò)直接最小化不同任務(wù)間的性能差異來(lái)訓(xùn)練一個(gè)無(wú)偏的初始網(wǎng)絡(luò)模型,使基于梯度的元深度強(qiáng)化學(xué)習(xí)方法對(duì)新的任務(wù)有更強(qiáng)的泛化能力,同時(shí)提供一種更加高效的網(wǎng)絡(luò)初始化辦法來(lái)解決策略模型訓(xùn)練前期冷啟動(dòng)問(wèn)題,提高學(xué)習(xí)效率和模型性能。

    本文提出的基于元權(quán)值學(xué)習(xí)的無(wú)模型元學(xué)習(xí)算法(Meta Weight Learning based Model-Agnostic Meta-Learning,MWL-MAML)的網(wǎng)絡(luò)架構(gòu)是在基于梯度的無(wú)模型元學(xué)習(xí)方法基礎(chǔ)上,結(jié)合元權(quán)值學(xué)習(xí)機(jī)制構(gòu)建而成。此外,本文還設(shè)計(jì)了一種端到端的訓(xùn)練方法,來(lái)高效地訓(xùn)練權(quán)值和網(wǎng)絡(luò)模型初始化參數(shù)。

    2.2 無(wú)模型元學(xué)習(xí)算法

    本文以無(wú)模型元學(xué)習(xí)(Model-Agnostic Meta-Learning,MAML)[16]為視角,重點(diǎn)研究元深度強(qiáng)化學(xué)習(xí)的目標(biāo)。MAML 的目標(biāo)是在從策略πθ下采集得到的K條軌跡中學(xué)習(xí)之后找到一個(gè)策略πφ,該策略能夠最小化新任務(wù)分布D(T)上的預(yù)期損失。具體來(lái)說(shuō),MAML 通過(guò)使用損失函數(shù)的梯度來(lái)優(yōu)化策略πφ的參數(shù)φ:

    式(1)中,θ,φ分別代表策略πθ、策略πφ的參數(shù),β是元學(xué)習(xí)率,表示K條軌跡的平均損失函數(shù)。

    2.3 基于元權(quán)值學(xué)習(xí)的無(wú)模型元學(xué)習(xí)方法

    MAML 算法更新目標(biāo)函數(shù)中的平均方法實(shí)際上并不能解決策略模型在某些任務(wù)上過(guò)優(yōu)化的問(wèn)題,訓(xùn)練最終得到的仍然是一個(gè)有偏的初始化網(wǎng)絡(luò)模型[17]。

    為了解決這一問(wèn)題,本文提出了一種加權(quán)梯度更新機(jī)制來(lái)最小化初始網(wǎng)絡(luò)模型對(duì)任意給定任務(wù)的偏差。

    具體來(lái)說(shuō),給每個(gè)軌跡一個(gè)梯度更新的權(quán)重。為了滿足權(quán)重歸一化的條件,假設(shè)第k條軌跡的權(quán)重為:

    MAML 算法中目標(biāo)函數(shù)更新為:

    本文通過(guò)梯度更新權(quán)重代替人工設(shè)置權(quán)重。權(quán)重的更新目標(biāo)是將w的值設(shè)置為在下一次迭代中使目標(biāo)函數(shù)的值最小化的值w*。在上一時(shí)間步的權(quán)重值基礎(chǔ)上執(zhí)行一個(gè)梯度下降步驟,梯度計(jì)算為:

    因此,下一時(shí)刻權(quán)值更新估計(jì)為:

    式(6)中,δ是權(quán)值w的學(xué)習(xí)率。需要注意的是,梯度的計(jì)算要根據(jù)批次測(cè)試集上的損失大小,依據(jù)更新目標(biāo)函數(shù)來(lái)完成。具體地說(shuō),由MAML訓(xùn)練的初始網(wǎng)絡(luò)模型可能偏向于某些任務(wù),并且可能無(wú)法有效地解決與元訓(xùn)練任務(wù)有很大偏離的新任務(wù),而本文提出的MWL-MAML 算法通過(guò)對(duì)不同訓(xùn)練任務(wù)的軌跡在更新時(shí)賦予權(quán)值來(lái)提高對(duì)不同任務(wù)的適應(yīng)性。MAML 和MWL-MAML 算法的更新過(guò)程比較如圖1 所示。

    圖1 MAML 和MWL-MAML 方法參數(shù)更新過(guò)程比較

    MWL-MAML 的訓(xùn)練思想是對(duì)初始網(wǎng)絡(luò)模型進(jìn)行無(wú)偏訓(xùn)練,通過(guò)直接最小化模型在元訓(xùn)練階段中不同任務(wù)上損失的不平衡性,使得元學(xué)習(xí)器能夠?qū)W習(xí)一個(gè)無(wú)偏的初始網(wǎng)絡(luò)模型,而不會(huì)在某些特定的任務(wù)上產(chǎn)生過(guò)優(yōu)化問(wèn)題。MWL-MAML 算法的端到端的訓(xùn)練方法見(jiàn)表1。

    表1 MWL-MAML 算法流程

    MAML 旨在找到對(duì)任務(wù)變化敏感的模型參數(shù),當(dāng)模型參數(shù)在訓(xùn)練任務(wù)的損失梯度方向上改變時(shí),參數(shù)的微小變化將對(duì)任何從D(T)中采樣的任務(wù)產(chǎn)生很大的影響,MWL-MAML 的目標(biāo)就是增強(qiáng)這種模型參數(shù)的敏感性,并在參數(shù)空間中找到一組參數(shù),使得模型不僅能夠適應(yīng)不同任務(wù),而且能夠高效地解決所有任務(wù)(使用很少的交互數(shù)據(jù))。

    本文提出的MWL-MAML 算法只使用了學(xué)習(xí)過(guò)程中采集的軌跡數(shù)據(jù),并沒(méi)有為MAML 算法中引入額外的需要精調(diào)的超參數(shù),這確保了提出的方法能夠完全基于歷史軌跡來(lái)自動(dòng)調(diào)整學(xué)習(xí)方向,一定程度上減少了人工調(diào)整帶來(lái)的不確定性。通過(guò)從歷史軌跡的梯度特征中最大化提煉知識(shí)來(lái)調(diào)整未來(lái)的學(xué)習(xí)方向,提高學(xué)習(xí)效率。

    3 無(wú)人化裝備博弈對(duì)抗驗(yàn)證

    本節(jié)選用無(wú)人坦克作戰(zhàn)行動(dòng)序列優(yōu)化問(wèn)題進(jìn)行實(shí)驗(yàn)測(cè)試。以國(guó)際公測(cè)平臺(tái)Robocode 為實(shí)驗(yàn)平臺(tái),分別利用多種基于學(xué)習(xí)算法的智能坦克(紅方)和基于專家系統(tǒng)的規(guī)則坦克(藍(lán)方)進(jìn)行對(duì)戰(zhàn),采用2V2 無(wú)人坦克對(duì)戰(zhàn)模式,來(lái)驗(yàn)證本文所提方法在博弈對(duì)抗任務(wù)中的有效性和健壯性。

    3.1 對(duì)抗場(chǎng)景

    Robocode[18~20]是由美國(guó)IBM 發(fā)布的先進(jìn)仿真實(shí)驗(yàn)平臺(tái)。在Robocode 中,無(wú)人坦克分為3 個(gè)部件:機(jī)身(Vehicle)、炮塔(Gun)、雷達(dá)(Radar)。

    仿真對(duì)戰(zhàn)場(chǎng)景為1 200×1 200 單位像素的2D環(huán)境,坦克自身大小為36×45 個(gè)單位像素。

    Robocode 中一場(chǎng)戰(zhàn)斗開(kāi)始時(shí),每一個(gè)機(jī)器人都能得到100 個(gè)單位能量,在不同的狀態(tài)下,如撞墻、撞到機(jī)器人、打中敵人和被敵人打中時(shí),機(jī)器人的能量都會(huì)發(fā)生改變,而且不同的狀態(tài)都有不同的能量轉(zhuǎn)換規(guī)則。

    (1)發(fā)射炮彈能量大?。禾箍藱C(jī)器人在開(kāi)始時(shí)能以不同的能量發(fā)射炮彈,炮彈能量在0.1~3 之間。

    (3)當(dāng)坦克機(jī)器人被敵人炮彈打中時(shí):如果敵人炮彈的能量小于等于1,能量損傷度計(jì)算公式為4×power;如果敵人炮彈能量大于1,則能量損傷度計(jì)算方式為4× power +2×(power-1)。

    (4)本文為每回合每輛坦克設(shè)置的炮彈數(shù)量為100。

    每個(gè)回合開(kāi)始時(shí),紅藍(lán)雙方坦克位置隨機(jī)分配,雙方坦克能量值均為100,若其中一方坦克能量值低于0,則坦克被摧毀,回合結(jié)束并重新初始化開(kāi)始下一輪。

    3.2 紅藍(lán)對(duì)抗智能設(shè)計(jì)

    紅藍(lán)無(wú)人坦克對(duì)抗模式包含了2V2 紅藍(lán)坦克協(xié)同對(duì)戰(zhàn)模式。用2V2 坦克協(xié)同對(duì)戰(zhàn)模式來(lái)驗(yàn)證基于歷史行動(dòng)軌跡梯度的策略模型優(yōu)化方法的有效性。采用的學(xué)習(xí)算法有近端策略優(yōu)化(PPO)算法、MAML(基于探索的無(wú)模型元學(xué)習(xí))算法、EMAML 算法以及MWL-MAML 算法。藍(lán)方坦克為一系列基于專家系統(tǒng)的規(guī)則坦克的集合,每次對(duì)抗時(shí),敵方坦克從集合中隨機(jī)選取一種規(guī)則坦克進(jìn)行對(duì)戰(zhàn),集合中的坦克有Walls 坦克、Fire 坦克、Spinbot 坦克、Crazy 坦克以及JuniorRobot 坦克。坦克對(duì)抗設(shè)計(jì)見(jiàn)表2。

    表2 坦克對(duì)抗設(shè)計(jì)

    Walls 坦克運(yùn)動(dòng)的基本規(guī)則是躲藏在戰(zhàn)場(chǎng)邊緣進(jìn)行隨機(jī)移動(dòng),雷達(dá)對(duì)戰(zhàn)場(chǎng)進(jìn)行分區(qū)域掃描,一旦掃描到敵方坦克,獲取當(dāng)前幀的敵人位置和自己位置以及射擊的角度、子彈的速度,當(dāng)有足夠多的數(shù)據(jù)后,根據(jù)當(dāng)前的位置和角度,獲取最有可能打中敵方的攻擊方式。Fire 坦克的對(duì)戰(zhàn)策略是在對(duì)戰(zhàn)前期保持車(chē)身靜止不動(dòng),同時(shí)雷達(dá)和炮管協(xié)同轉(zhuǎn)動(dòng),轉(zhuǎn)動(dòng)范圍是0~360°,一旦發(fā)現(xiàn)目標(biāo)就采取攻擊,發(fā)射炮彈,當(dāng)自身受到攻擊時(shí),立刻進(jìn)行隨機(jī)移動(dòng)。Spinbot 坦克的對(duì)戰(zhàn)策略是始終進(jìn)行圓周運(yùn)動(dòng),如果運(yùn)動(dòng)過(guò)程中受到攻擊,立即變化圓周運(yùn)動(dòng)的方向和半徑大小,同時(shí)雷達(dá)和炮管協(xié)同轉(zhuǎn)動(dòng),轉(zhuǎn)動(dòng)范圍是0~180°,一旦發(fā)現(xiàn)目標(biāo)立即采取攻擊。Crazy 坦克的對(duì)戰(zhàn)策略是在對(duì)戰(zhàn)的過(guò)程中一直保持高速的隨機(jī)運(yùn)動(dòng),同時(shí)保持機(jī)身的加速度時(shí)刻處于變化之中,同時(shí)雷達(dá)和炮管協(xié)同轉(zhuǎn)動(dòng),發(fā)現(xiàn)目標(biāo)時(shí)立即射擊。JuniorRobot 坦克的對(duì)戰(zhàn)策略是保持機(jī)身始終以蹺蹺板的運(yùn)動(dòng)方式移動(dòng),當(dāng)它看不到任何敵人坦克時(shí),會(huì)保持在機(jī)身左右兩端旋轉(zhuǎn)雷達(dá),當(dāng)發(fā)現(xiàn)敵方坦克時(shí),立刻轉(zhuǎn)動(dòng)炮管開(kāi)火。

    3.3 算法參數(shù)設(shè)置

    對(duì)于MWL-MAML 方法,超參數(shù)的具體設(shè)置見(jiàn)表3。

    表3 MWL-MAML 方法中超參數(shù)設(shè)置

    此外,PPO,MAML,E-MAML 方法的超參數(shù)設(shè)置見(jiàn)文獻(xiàn)[21]~[23]。

    訓(xùn)練和測(cè)試時(shí),MWL-MAML 算法坦克、EMAML 算法坦克、MAML 算法坦克、PPO 算法坦克分別與基于專家系統(tǒng)的規(guī)則坦克進(jìn)行對(duì)戰(zhàn)。每次從集合中隨機(jī)選取一種規(guī)則坦克,每種對(duì)戰(zhàn)設(shè)置為50 000 回合,以100 回合為一個(gè)學(xué)習(xí)周期,共有500個(gè)學(xué)習(xí)周期,每個(gè)學(xué)習(xí)周期結(jié)束后記錄一次算法坦克得分。每個(gè)學(xué)習(xí)周期結(jié)束后,清零雙方得分,開(kāi)始下一個(gè)學(xué)習(xí)周期的得分統(tǒng)計(jì)。

    3.4 仿真結(jié)果分析

    根據(jù)前面設(shè)置的實(shí)驗(yàn)場(chǎng)景進(jìn)行實(shí)驗(yàn)。坦克總得分由坦克存活得分和炮彈擊中得分相加而來(lái),每一個(gè)學(xué)習(xí)周期記錄一次坦克總得分。綜合四種算法實(shí)驗(yàn)結(jié)果,得到四種算法坦克得分結(jié)果如圖2 所示。

    圖2 四種算法坦克得分對(duì)比

    由圖2 可知,四種算法中,MWL-MAML 算法的最終平均得分最高。收斂速度方面,MWLMAML 算法和MAML 算法略高于E-MAML 算法,明顯快于PPO 算法。表4 記錄了四種學(xué)習(xí)算法收斂后的平均得分和標(biāo)準(zhǔn)差。MWL-MAML 算法相比PPO 算法、MAML 算法、E-MAML 算法而言,平均得分提高了48.7%,14.1%,7.1%;在算法穩(wěn)定性上,標(biāo)準(zhǔn)差分別減小了22.8%,10.8%,4.5%??梢钥闯觯跉v史行動(dòng)軌跡梯度的策略模型優(yōu)化方法有效地提高了基于學(xué)習(xí)算法坦克對(duì)抗策略的勝率,即使在2V2 坦克對(duì)戰(zhàn)想定中,狀態(tài)和動(dòng)作空間維度急劇增大的情況下,仍然能夠提升學(xué)習(xí)效率和算法性能。

    表4 2V2 坦克對(duì)戰(zhàn)想定下算法平均得分和標(biāo)準(zhǔn)差

    圖3 為2V2 坦克對(duì)戰(zhàn)想定下四種學(xué)習(xí)算法的臨界差分圖(Critical Difference Diagrams),可以看出,MWL-MAML 的平均得分確實(shí)高于其他比較算法。

    圖3 四種學(xué)習(xí)算法平均得分臨界差分圖

    仿真顯示,在紅方與藍(lán)方坦克對(duì)戰(zhàn)時(shí)(選取Crazy 坦克作為對(duì)手進(jìn)行測(cè)試),紅方坦克最終學(xué)習(xí)得到了兩種博弈對(duì)抗策略:當(dāng)紅方坦克處于對(duì)抗優(yōu)勢(shì)時(shí)(能量值較高且彈藥充足),紅方兩輛坦克能夠迅速針對(duì)敵方一輛坦克采取前后夾攻的策略進(jìn)行攻擊;當(dāng)紅方坦克處于對(duì)抗弱勢(shì)時(shí)(能量值較低或彈藥缺乏),紅方兩輛坦克能夠主動(dòng)找到戰(zhàn)場(chǎng)邊緣處進(jìn)行防守,同時(shí)雷達(dá)能夠分區(qū)域掃描,協(xié)同防御藍(lán)方坦克。

    綜合以上實(shí)驗(yàn)結(jié)果表明,基于歷史行動(dòng)軌跡梯度的策略模型優(yōu)化方法進(jìn)一步提高了深度強(qiáng)化學(xué)習(xí)方法的健壯性和學(xué)習(xí)效率。該方法對(duì)優(yōu)化無(wú)人坦克博弈對(duì)抗策略具有重要作用,坦克作戰(zhàn)能力得到有效提升。

    4 結(jié)束語(yǔ)

    本文提出了一種基于元權(quán)值學(xué)習(xí)的無(wú)模型元學(xué)習(xí)算法,用少量交互數(shù)據(jù)就能高效訓(xùn)練新任務(wù),提升對(duì)新任務(wù)的泛化能力。同時(shí),引入了端到端的訓(xùn)練方法,直接通過(guò)從多個(gè)歷史行動(dòng)軌跡的梯度特征,來(lái)學(xué)習(xí)訓(xùn)練初始網(wǎng)絡(luò)參數(shù),優(yōu)化初始策略模型,解決模型訓(xùn)練存在的冷啟動(dòng)問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該算法提升了模型前期采樣效率,縮短了訓(xùn)練時(shí)長(zhǎng),同時(shí)提升了模型最終性能。

    猜你喜歡
    坦克權(quán)值梯度
    第一輛現(xiàn)代坦克的“前世今生”
    學(xué)與玩(2022年8期)2022-10-31 02:41:58
    一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
    一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
    CONTENTS
    T-90 坦克
    一種自適應(yīng)Dai-Liao共軛梯度法
    一類扭積形式的梯度近Ricci孤立子
    超級(jí)坦克大亂斗
    基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
    河南科技(2014年3期)2014-02-27 14:05:45
    桃红色精品国产亚洲av| 国产av不卡久久| 1000部很黄的大片| 国产乱人伦免费视频| 18+在线观看网站| 中文字幕人妻熟人妻熟丝袜美 | 国产色爽女视频免费观看| 尤物成人国产欧美一区二区三区| 久久久国产成人精品二区| 国产高清videossex| 国产激情欧美一区二区| 国产熟女xx| 三级男女做爰猛烈吃奶摸视频| 精品电影一区二区在线| 色在线成人网| 18禁国产床啪视频网站| 美女黄网站色视频| 午夜福利欧美成人| 啦啦啦免费观看视频1| 悠悠久久av| 99久久久亚洲精品蜜臀av| 熟女电影av网| 日本成人三级电影网站| 日韩精品中文字幕看吧| 一级毛片高清免费大全| 久久人妻av系列| 久久国产精品人妻蜜桃| 内地一区二区视频在线| 亚洲天堂国产精品一区在线| 一本精品99久久精品77| 91麻豆av在线| 少妇人妻精品综合一区二区 | 9191精品国产免费久久| 国产欧美日韩精品一区二区| 亚洲天堂国产精品一区在线| 国产在视频线在精品| 国产精品永久免费网站| 一卡2卡三卡四卡精品乱码亚洲| 国产69精品久久久久777片| 国内精品久久久久久久电影| 亚洲人与动物交配视频| 给我免费播放毛片高清在线观看| 欧美黑人巨大hd| 夜夜爽天天搞| 免费观看人在逋| 成年女人永久免费观看视频| 波多野结衣高清作品| 久久99热这里只有精品18| 丁香欧美五月| 亚洲精品日韩av片在线观看 | 国产一区二区激情短视频| 国产欧美日韩精品亚洲av| 黄片小视频在线播放| 国产精品免费一区二区三区在线| 久久精品国产清高在天天线| 久久精品国产亚洲av香蕉五月| 久久精品夜夜夜夜夜久久蜜豆| 日本与韩国留学比较| 亚洲美女黄片视频| 神马国产精品三级电影在线观看| 91字幕亚洲| 大型黄色视频在线免费观看| 大型黄色视频在线免费观看| 国产精品影院久久| 精品久久久久久,| 亚洲真实伦在线观看| 亚洲精品日韩av片在线观看 | 91在线精品国自产拍蜜月 | 亚洲国产日韩欧美精品在线观看 | 午夜福利免费观看在线| 天堂√8在线中文| 91在线精品国自产拍蜜月 | 亚洲av电影不卡..在线观看| av片东京热男人的天堂| 久99久视频精品免费| 热99re8久久精品国产| 日韩有码中文字幕| 日韩有码中文字幕| 亚洲欧美激情综合另类| 午夜激情欧美在线| 热99re8久久精品国产| 一进一出抽搐动态| 国产中年淑女户外野战色| 国产亚洲精品久久久com| 久久亚洲真实| 一个人免费在线观看电影| 淫秽高清视频在线观看| 中文字幕人妻丝袜一区二区| 国产一区二区在线av高清观看| 欧美一区二区国产精品久久精品| 综合色av麻豆| 久久6这里有精品| 国产成人影院久久av| 一级作爱视频免费观看| 色视频www国产| 老司机福利观看| 99久久成人亚洲精品观看| 国内久久婷婷六月综合欲色啪| 精品人妻一区二区三区麻豆 | 在线观看免费午夜福利视频| 亚洲欧美日韩高清专用| 国模一区二区三区四区视频| 国产精品女同一区二区软件 | 无限看片的www在线观看| 成人欧美大片| 久久国产精品人妻蜜桃| 亚洲不卡免费看| 91麻豆av在线| 校园春色视频在线观看| 欧美一级毛片孕妇| 欧美中文综合在线视频| 精品99又大又爽又粗少妇毛片 | 亚洲国产精品sss在线观看| 欧美bdsm另类| 色噜噜av男人的天堂激情| 精品乱码久久久久久99久播| 久久中文看片网| 变态另类丝袜制服| 免费大片18禁| 丝袜美腿在线中文| 欧美成人一区二区免费高清观看| 日韩有码中文字幕| 色视频www国产| 亚洲欧美精品综合久久99| 色尼玛亚洲综合影院| 日韩欧美国产在线观看| 国产成人av激情在线播放| 国产在视频线在精品| 免费在线观看日本一区| 中文字幕高清在线视频| 欧美日本视频| 欧美日韩国产亚洲二区| 国产精品99久久99久久久不卡| 国产午夜福利久久久久久| 男人舔奶头视频| 日韩 欧美 亚洲 中文字幕| av欧美777| 男女做爰动态图高潮gif福利片| 亚洲av美国av| 亚洲熟妇熟女久久| 国产精品爽爽va在线观看网站| 99久久无色码亚洲精品果冻| 最后的刺客免费高清国语| 精品欧美国产一区二区三| aaaaa片日本免费| 欧美另类亚洲清纯唯美| xxx96com| 成人欧美大片| 国产色婷婷99| 在线播放无遮挡| av天堂中文字幕网| 12—13女人毛片做爰片一| 午夜福利在线在线| 国产一区二区在线观看日韩 | 欧美xxxx黑人xx丫x性爽| 欧美3d第一页| 国产探花在线观看一区二区| 香蕉久久夜色| 色老头精品视频在线观看| 小说图片视频综合网站| 国产精品久久久久久亚洲av鲁大| 黄色女人牲交| 亚洲av一区综合| 一本一本综合久久| 性欧美人与动物交配| 久久国产精品人妻蜜桃| 在线观看舔阴道视频| 999久久久精品免费观看国产| 日韩欧美精品v在线| 久久精品91蜜桃| 久久国产精品影院| 2021天堂中文幕一二区在线观| av欧美777| 最近视频中文字幕2019在线8| 亚洲aⅴ乱码一区二区在线播放| 欧美黄色淫秽网站| 黑人欧美特级aaaaaa片| 国产亚洲精品一区二区www| 黄色日韩在线| 女人高潮潮喷娇喘18禁视频| 亚洲18禁久久av| 欧美性感艳星| tocl精华| 久久草成人影院| 亚洲av中文字字幕乱码综合| 男女之事视频高清在线观看| 国产亚洲精品久久久com| 99久国产av精品| 91在线观看av| 免费无遮挡裸体视频| 我的老师免费观看完整版| 国产成人系列免费观看| 一进一出好大好爽视频| 变态另类丝袜制服| 亚洲狠狠婷婷综合久久图片| 岛国在线免费视频观看| a在线观看视频网站| 午夜激情欧美在线| 级片在线观看| 午夜视频国产福利| 婷婷精品国产亚洲av| 欧美乱码精品一区二区三区| 91在线观看av| 麻豆一二三区av精品| 在线观看舔阴道视频| 国产99白浆流出| 亚洲精品亚洲一区二区| 搡老岳熟女国产| 久久久成人免费电影| 少妇的逼好多水| 亚洲av熟女| 三级毛片av免费| 色尼玛亚洲综合影院| 18+在线观看网站| 99久久久亚洲精品蜜臀av| 18禁黄网站禁片免费观看直播| 天堂√8在线中文| 亚洲精华国产精华精| 99热6这里只有精品| 尤物成人国产欧美一区二区三区| 丁香六月欧美| 在线观看66精品国产| 久久久久亚洲av毛片大全| 国产三级黄色录像| 嫁个100分男人电影在线观看| 亚洲成人久久爱视频| av片东京热男人的天堂| 淫妇啪啪啪对白视频| 又黄又爽又免费观看的视频| 不卡一级毛片| 国产真人三级小视频在线观看| 中文字幕熟女人妻在线| 亚洲最大成人手机在线| 国内精品久久久久久久电影| 国产 一区 欧美 日韩| 成人精品一区二区免费| 一个人看视频在线观看www免费 | 成人午夜高清在线视频| 成人av在线播放网站| 成人亚洲精品av一区二区| 日日夜夜操网爽| 欧美日韩国产亚洲二区| 黄色成人免费大全| 女人高潮潮喷娇喘18禁视频| 国产成年人精品一区二区| 丝袜美腿在线中文| 99久久精品国产亚洲精品| 亚洲在线观看片| 特级一级黄色大片| 午夜福利高清视频| 亚洲激情在线av| 国内毛片毛片毛片毛片毛片| 午夜免费激情av| 亚洲成a人片在线一区二区| 午夜久久久久精精品| 757午夜福利合集在线观看| 日韩欧美国产一区二区入口| 老汉色av国产亚洲站长工具| 亚洲国产精品成人综合色| 国产淫片久久久久久久久 | 国产一区二区亚洲精品在线观看| 一个人观看的视频www高清免费观看| e午夜精品久久久久久久| 久久久精品大字幕| 国产精品1区2区在线观看.| 久久精品国产自在天天线| 国产亚洲欧美在线一区二区| 黄片大片在线免费观看| 欧美极品一区二区三区四区| 色综合婷婷激情| 国产99白浆流出| 国产一区在线观看成人免费| 床上黄色一级片| 亚洲精品久久国产高清桃花| 日本黄色片子视频| 91九色精品人成在线观看| 亚洲精品亚洲一区二区| 亚洲精品色激情综合| 亚洲av熟女| 美女 人体艺术 gogo| 久久伊人香网站| 婷婷亚洲欧美| 啦啦啦免费观看视频1| 国产精品三级大全| av视频在线观看入口| 女警被强在线播放| 最近最新中文字幕大全电影3| 欧美高清成人免费视频www| 夜夜看夜夜爽夜夜摸| 亚洲成人中文字幕在线播放| 天堂√8在线中文| 一个人观看的视频www高清免费观看| 国产麻豆成人av免费视频| 午夜精品一区二区三区免费看| 成年版毛片免费区| 亚洲国产精品999在线| 久久香蕉国产精品| 麻豆国产av国片精品| 怎么达到女性高潮| 国产99白浆流出| 深夜精品福利| 久久久久九九精品影院| 天堂影院成人在线观看| 国产视频一区二区在线看| 一区福利在线观看| 日韩av在线大香蕉| 成熟少妇高潮喷水视频| 国产精品乱码一区二三区的特点| 成人国产一区最新在线观看| 露出奶头的视频| 亚洲人与动物交配视频| 亚洲午夜理论影院| 国产极品精品免费视频能看的| 丰满的人妻完整版| 18禁美女被吸乳视频| 两人在一起打扑克的视频| 亚洲人成网站高清观看| 国产免费男女视频| 色在线成人网| 99国产综合亚洲精品| 一级黄片播放器| a级一级毛片免费在线观看| 全区人妻精品视频| 久久婷婷人人爽人人干人人爱| 18禁美女被吸乳视频| 久久精品国产99精品国产亚洲性色| 亚洲av中文字字幕乱码综合| 亚洲精品在线美女| 久久中文看片网| 中亚洲国语对白在线视频| 99久国产av精品| 一个人看视频在线观看www免费 | 亚洲成av人片免费观看| 色综合欧美亚洲国产小说| 韩国av一区二区三区四区| 国产男靠女视频免费网站| 露出奶头的视频| 熟女人妻精品中文字幕| 亚洲国产欧美网| 精品人妻1区二区| 亚洲狠狠婷婷综合久久图片| xxxwww97欧美| 一区二区三区国产精品乱码| www日本黄色视频网| 欧美黑人巨大hd| 国产久久久一区二区三区| 国语自产精品视频在线第100页| 久久婷婷人人爽人人干人人爱| 啪啪无遮挡十八禁网站| 国产精品 欧美亚洲| 国产视频一区二区在线看| 一二三四社区在线视频社区8| 真人一进一出gif抽搐免费| 国产激情欧美一区二区| 91久久精品电影网| 久久精品综合一区二区三区| 女警被强在线播放| 成人永久免费在线观看视频| 日韩成人在线观看一区二区三区| 午夜亚洲福利在线播放| 欧美一级毛片孕妇| 欧美日韩精品网址| 国产精品一区二区三区四区久久| 亚洲最大成人手机在线| 最近最新中文字幕大全电影3| 免费av不卡在线播放| www.色视频.com| 国产亚洲精品久久久com| 亚洲国产日韩欧美精品在线观看 | 久9热在线精品视频| 成人一区二区视频在线观看| 两个人的视频大全免费| 亚洲av日韩精品久久久久久密| bbb黄色大片| 欧美高清成人免费视频www| 亚洲国产精品999在线| 亚洲av第一区精品v没综合| 国产单亲对白刺激| 国产精品一区二区三区四区免费观看 | 欧美成人一区二区免费高清观看| 国产av一区在线观看免费| 国产99白浆流出| 国产成人福利小说| aaaaa片日本免费| 亚洲国产精品合色在线| 国产高清激情床上av| 午夜免费激情av| 淫妇啪啪啪对白视频| 日本黄大片高清| 久久久国产精品麻豆| 在线免费观看不下载黄p国产 | 国产av不卡久久| 一进一出抽搐动态| 国产亚洲精品av在线| 国内揄拍国产精品人妻在线| 男女视频在线观看网站免费| 国产色爽女视频免费观看| 12—13女人毛片做爰片一| 精品久久久久久久毛片微露脸| 中出人妻视频一区二区| 免费无遮挡裸体视频| 亚洲av美国av| 精品无人区乱码1区二区| 国产黄片美女视频| 一二三四社区在线视频社区8| 女同久久另类99精品国产91| 婷婷六月久久综合丁香| 男插女下体视频免费在线播放| 丁香六月欧美| 欧美在线黄色| 一本久久中文字幕| 真人做人爱边吃奶动态| 欧美av亚洲av综合av国产av| 99久久无色码亚洲精品果冻| 久久人妻av系列| 中文字幕av成人在线电影| av视频在线观看入口| 国产在视频线在精品| 国产爱豆传媒在线观看| 亚洲av第一区精品v没综合| 日韩欧美在线二视频| 夜夜看夜夜爽夜夜摸| 久久久国产精品麻豆| 免费看日本二区| 女同久久另类99精品国产91| 波多野结衣高清作品| 欧美丝袜亚洲另类 | 极品教师在线免费播放| 久久伊人香网站| 欧美一区二区精品小视频在线| 亚洲欧美日韩卡通动漫| 男女那种视频在线观看| 嫩草影视91久久| 国产高清有码在线观看视频| 国产成人av激情在线播放| 国产精品影院久久| 男女视频在线观看网站免费| 国产成人a区在线观看| 亚洲av成人不卡在线观看播放网| 偷拍熟女少妇极品色| 级片在线观看| 久久欧美精品欧美久久欧美| 99国产精品一区二区蜜桃av| 亚洲人成网站高清观看| 欧美+亚洲+日韩+国产| 亚洲欧美一区二区三区黑人| 两个人看的免费小视频| 男人舔奶头视频| 天天躁日日操中文字幕| 麻豆一二三区av精品| 国产高清激情床上av| 国产精品美女特级片免费视频播放器| 内射极品少妇av片p| 亚洲av电影在线进入| 国产精品一区二区免费欧美| 99国产极品粉嫩在线观看| 给我免费播放毛片高清在线观看| 免费看光身美女| 99在线人妻在线中文字幕| 老司机午夜福利在线观看视频| 国产高清视频在线播放一区| 亚洲欧美一区二区三区黑人| 免费一级毛片在线播放高清视频| 国产主播在线观看一区二区| 午夜日韩欧美国产| 国产精品香港三级国产av潘金莲| 成人性生交大片免费视频hd| 亚洲成人免费电影在线观看| 69av精品久久久久久| 色综合婷婷激情| 美女黄网站色视频| 亚洲欧美激情综合另类| 久久精品91蜜桃| 亚洲欧美一区二区三区黑人| 国产精品野战在线观看| 日本 av在线| 18禁黄网站禁片午夜丰满| 欧美区成人在线视频| 欧美性猛交╳xxx乱大交人| 日日摸夜夜添夜夜添小说| 国产精品一区二区三区四区久久| 99久久综合精品五月天人人| 日韩精品青青久久久久久| 久久性视频一级片| 亚洲av五月六月丁香网| 一个人免费在线观看的高清视频| 国产色爽女视频免费观看| eeuss影院久久| 很黄的视频免费| 国内精品美女久久久久久| 欧美zozozo另类| 人人妻人人看人人澡| 欧美黄色片欧美黄色片| 少妇的丰满在线观看| 国产精品综合久久久久久久免费| 欧美黑人巨大hd| 欧美高清成人免费视频www| 免费电影在线观看免费观看| 亚洲精品456在线播放app | 91久久精品国产一区二区成人 | 国内精品美女久久久久久| 免费人成视频x8x8入口观看| 波多野结衣巨乳人妻| 国产91精品成人一区二区三区| 免费看日本二区| 国产精品综合久久久久久久免费| 亚洲国产精品成人综合色| 在线国产一区二区在线| 亚洲18禁久久av| 国产精品久久电影中文字幕| 欧美又色又爽又黄视频| 日本一二三区视频观看| 岛国在线观看网站| 亚洲av日韩精品久久久久久密| av黄色大香蕉| 少妇人妻一区二区三区视频| 99精品久久久久人妻精品| 变态另类成人亚洲欧美熟女| 欧美性感艳星| 日韩大尺度精品在线看网址| 国产伦精品一区二区三区视频9 | 亚洲欧美日韩高清在线视频| 最新中文字幕久久久久| 日本黄色片子视频| 一区二区三区高清视频在线| 一区二区三区免费毛片| 特级一级黄色大片| 久久香蕉国产精品| 免费在线观看日本一区| 国产精品久久久久久精品电影| 老司机午夜福利在线观看视频| 亚洲专区中文字幕在线| 美女cb高潮喷水在线观看| 婷婷亚洲欧美| 听说在线观看完整版免费高清| 中文字幕久久专区| 黄色女人牲交| 亚洲avbb在线观看| 无遮挡黄片免费观看| 无人区码免费观看不卡| 不卡一级毛片| 欧美xxxx黑人xx丫x性爽| 亚洲va日本ⅴa欧美va伊人久久| 欧美一区二区国产精品久久精品| 真实男女啪啪啪动态图| 国产高清激情床上av| 中出人妻视频一区二区| 99久久精品国产亚洲精品| 成人av一区二区三区在线看| 免费看十八禁软件| 亚洲色图av天堂| 夜夜爽天天搞| 日本熟妇午夜| 男女视频在线观看网站免费| 99国产精品一区二区三区| 欧美性猛交╳xxx乱大交人| 窝窝影院91人妻| 岛国视频午夜一区免费看| 高清在线国产一区| 国产精品av视频在线免费观看| 成年女人毛片免费观看观看9| 波多野结衣高清无吗| 成人av在线播放网站| 国产99白浆流出| 日本一二三区视频观看| 中文亚洲av片在线观看爽| 母亲3免费完整高清在线观看| 老司机深夜福利视频在线观看| 久久久国产精品麻豆| 丁香六月欧美| 变态另类丝袜制服| 一区二区三区国产精品乱码| 制服丝袜大香蕉在线| 波野结衣二区三区在线 | av黄色大香蕉| 99精品欧美一区二区三区四区| 怎么达到女性高潮| 亚洲精品粉嫩美女一区| 亚洲成av人片在线播放无| 欧美日韩乱码在线| 日本熟妇午夜| 啪啪无遮挡十八禁网站| av福利片在线观看| 男插女下体视频免费在线播放| av在线蜜桃| 国产视频内射| 欧美bdsm另类| 精品久久久久久久久久久久久| 久久中文看片网| 亚洲在线观看片| 国产亚洲欧美在线一区二区| 99久久99久久久精品蜜桃| 国产高清有码在线观看视频| 国产精品99久久99久久久不卡| 久久性视频一级片| 悠悠久久av| 一级黄片播放器| 少妇人妻一区二区三区视频| 亚洲第一欧美日韩一区二区三区| 国产一区在线观看成人免费| 日本三级黄在线观看| 国产欧美日韩一区二区三| 精品一区二区三区av网在线观看| 国产亚洲欧美在线一区二区| 国产熟女xx| 国产黄色小视频在线观看| 老司机在亚洲福利影院| 性色avwww在线观看| 国产高清视频在线播放一区| 三级毛片av免费| 国产真实伦视频高清在线观看 | 18禁国产床啪视频网站| 亚洲在线观看片| 久久久久久国产a免费观看| 91在线观看av|