• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    逆向強(qiáng)化學(xué)習(xí)研究概述

    2021-07-19 21:24:45劉旖菲
    電腦知識(shí)與技術(shù) 2021年15期
    關(guān)鍵詞:深度學(xué)習(xí)人工智能

    劉旖菲

    摘要:深度強(qiáng)化學(xué)習(xí)在可以手動(dòng)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的領(lǐng)域取得了優(yōu)異的效果。逆向強(qiáng)化學(xué)習(xí)利用專(zhuān)家演示數(shù)據(jù)推斷獎(jiǎng)勵(lì)函數(shù),可以有效解決強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難的問(wèn)題。為了全面反映逆向強(qiáng)化學(xué)習(xí)的研究進(jìn)展,本文對(duì)國(guó)內(nèi)外公開(kāi)發(fā)表的具有代表性的論文進(jìn)行了概述。本文首先介紹了逆向強(qiáng)化學(xué)習(xí)的簡(jiǎn)介,然后概述了逆向強(qiáng)化學(xué)習(xí)的研究進(jìn)展,最后提出了逆向強(qiáng)化學(xué)習(xí)存在的問(wèn)題以及未來(lái)的研究方向。

    關(guān)鍵詞:人工智能;深度學(xué)習(xí);逆向強(qiáng)化學(xué)習(xí)

    中圖分類(lèi)號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):1009-3044(2021)15-0190-02

    近年來(lái),強(qiáng)化學(xué)習(xí)在復(fù)雜問(wèn)題的處理上取得了不錯(cuò)的效果。強(qiáng)化學(xué)習(xí)利用獎(jiǎng)勵(lì)函數(shù)表示優(yōu)化目標(biāo),優(yōu)化目標(biāo)決定了智能體的所學(xué)策略的最終形式。但是,好的獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是困難的。一方面,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)具有主觀性和經(jīng)驗(yàn)性;另一方面,一些任務(wù)的獎(jiǎng)勵(lì)信號(hào)是稀疏的,無(wú)法用嚴(yán)格的理論知識(shí)推導(dǎo)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)。因此,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是阻礙強(qiáng)化學(xué)習(xí)算法得到普遍應(yīng)用的一個(gè)難點(diǎn)。

    Ng等人提出[1],專(zhuān)家在完成某項(xiàng)任務(wù)時(shí),其決策往往是最優(yōu)的或接近最優(yōu)的,當(dāng)所有的策略產(chǎn)生的累積回報(bào)函數(shù)期望都不比專(zhuān)家策略產(chǎn)生的累積回報(bào)期望大時(shí),強(qiáng)化學(xué)習(xí)所對(duì)應(yīng)的回報(bào)函數(shù)就是根據(jù)示例學(xué)到的回報(bào)函數(shù)。通過(guò)逆向強(qiáng)化學(xué)習(xí)算法,智能體從專(zhuān)家的演示數(shù)據(jù)中推斷出獎(jiǎng)勵(lì)函數(shù),并利用該獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)策略,使得在該獎(jiǎng)勵(lì)函數(shù)下所學(xué)習(xí)的最優(yōu)策略與專(zhuān)家的執(zhí)行策略接近。因此,逆向強(qiáng)化學(xué)習(xí)是解決強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難的問(wèn)題的一個(gè)解決方案。

    1 逆向強(qiáng)化學(xué)習(xí)的簡(jiǎn)介

    馬爾可夫決策過(guò)程(Markov Decision Process, MDP)由一個(gè)四元組構(gòu)成,[M={S,A,T,r}]。其中,S表示狀態(tài)空間,A表示動(dòng)作空間,T表示狀態(tài)轉(zhuǎn)移概率模型,r表示獎(jiǎng)勵(lì)函數(shù)。在已知MDP的前提下,[π*]是累計(jì)獎(jiǎng)勵(lì)值最大的最優(yōu)策略。此外,考慮到未來(lái)對(duì)現(xiàn)在的影響,故引入了貼現(xiàn)系數(shù)[γ]。

    逆向強(qiáng)化學(xué)習(xí)考慮的情況是MDP的獎(jiǎng)勵(lì)函數(shù)未知,提供一組從專(zhuān)家的執(zhí)行策略[π]中采樣得到的演示數(shù)據(jù)[D={?1,?2,…,?N}],每個(gè)演示數(shù)據(jù)由一組狀態(tài)動(dòng)作對(duì)組成,[?i={(s0,a0),(s1,a1),…(sN,aN)}]。逆向強(qiáng)化學(xué)習(xí)的目標(biāo)是利用演示數(shù)據(jù)學(xué)習(xí)隱藏的獎(jiǎng)勵(lì)函數(shù)。

    2 逆向強(qiáng)化學(xué)習(xí)的研究進(jìn)展

    早期的研究假設(shè)獎(jiǎng)勵(lì)函數(shù)是特征向量的線性組合。Abbeel等人[2]利用線性函數(shù)表示獎(jiǎng)勵(lì)函數(shù),雖然無(wú)法保證算法可以正確地學(xué)習(xí)專(zhuān)家所執(zhí)行的策略產(chǎn)生的累計(jì)匯報(bào)函數(shù),但是結(jié)果表明,該算法所學(xué)習(xí)的策略的表現(xiàn)效果與專(zhuān)家所執(zhí)行的策略的表現(xiàn)效果相當(dāng)。Ziebart等人[3]提出基于最大熵的逆向強(qiáng)化學(xué)習(xí),它可以有效地模擬大規(guī)模用戶(hù)的駕駛行為。在給定的起點(diǎn)和終點(diǎn)之間有多條行駛路徑,專(zhuān)家在任意一條路徑上行駛的概率與沿著該條路徑行駛所獲得的獎(jiǎng)勵(lì)的指數(shù)成比例關(guān)系,通過(guò)最大化專(zhuān)家的行駛軌跡的后驗(yàn)概率學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。該算法能通過(guò)改變行駛軌跡的分布特征解決專(zhuān)家的演示數(shù)據(jù)的次優(yōu)和隨機(jī)的問(wèn)題。

    Levine等人[4]使用擴(kuò)展的高斯過(guò)程學(xué)習(xí)非線性化的獎(jiǎng)勵(lì)函數(shù),同時(shí)還確定了每個(gè)特征與專(zhuān)家策略的相關(guān)性。該基于概率模型的算法可以從次優(yōu)和隨機(jī)的演示數(shù)據(jù)中學(xué)習(xí)復(fù)雜的行為,同時(shí)可以自動(dòng)平衡智能體學(xué)到的獎(jiǎng)勵(lì)函數(shù)的簡(jiǎn)單性和觀察到的動(dòng)作的一致性。

    逆向強(qiáng)化學(xué)習(xí)有兩個(gè)基本挑戰(zhàn),其一是獎(jiǎng)勵(lì)函數(shù)存在模糊性的問(wèn)題,即智能體可以從一組專(zhuān)家演示數(shù)據(jù)中推斷出不同的獎(jiǎng)勵(lì)函數(shù),其二是控制任務(wù)所涉及的系統(tǒng)動(dòng)力學(xué)的復(fù)雜性的問(wèn)題,許多早期的方法都是在每次迭代優(yōu)化的內(nèi)循環(huán)中求解MDP,而這些方法需要完善的系統(tǒng)動(dòng)力學(xué)知識(shí)體系和一個(gè)有效的離線解算器,因此限制了它們?cè)趶?fù)雜的現(xiàn)實(shí)場(chǎng)景中的應(yīng)用,如機(jī)器人控制。Finn等人[5]提出引導(dǎo)成本學(xué)習(xí),該方法可以學(xué)習(xí)復(fù)雜的非線性成本表示,如神經(jīng)網(wǎng)絡(luò),這消除了對(duì)成本特征的手工設(shè)計(jì)的精細(xì)程度的要求。此外,它可以應(yīng)用于具有未知?jiǎng)恿W(xué)特征的高維系統(tǒng)。它是基于最大熵的逆向強(qiáng)化學(xué)習(xí)模型,且是一種基于樣本的有效近似方法,其中,通過(guò)基于局部線性模型的策略學(xué)習(xí)算法生成樣本。將該方法應(yīng)用于各種真實(shí)世界的機(jī)器人操作任務(wù),評(píng)估表明,在一組模擬基準(zhǔn)上,該方法優(yōu)于先前的逆向強(qiáng)化學(xué)習(xí)算法,并在多個(gè)真實(shí)世界的任務(wù)上取得了良好的結(jié)果。

    3 存在的問(wèn)題與未來(lái)研究方向

    逆向強(qiáng)化學(xué)習(xí)學(xué)到的策略往往是次優(yōu)的,其表現(xiàn)效果低于專(zhuān)家的表現(xiàn)效果。這主要是由于兩個(gè)原因,一方面,樣本不具有完整性,考慮到訓(xùn)練示例是由專(zhuān)家執(zhí)行的參考策略抽樣得到,從而導(dǎo)致用于訓(xùn)練獎(jiǎng)勵(lì)函數(shù)的訓(xùn)練集是按照專(zhuān)家策略執(zhí)行時(shí)所訪問(wèn)的狀態(tài)的子集,因此在大部分情況下,智能體的演示水平低于專(zhuān)家水平。此外,為智能體提供高質(zhì)量的演示數(shù)據(jù)是困難的,因此,實(shí)際的最優(yōu)水平有可能遠(yuǎn)高于專(zhuān)家水平。另一方面,逆向強(qiáng)化學(xué)習(xí)的目標(biāo)僅僅是找到專(zhuān)家的執(zhí)行策略的隱含的獎(jiǎng)勵(lì)函數(shù),卻沒(méi)有對(duì)專(zhuān)家的執(zhí)行策略的改進(jìn)做進(jìn)一步的探索。Brown等人[6]研究了傳統(tǒng)的逆向強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效果不能超越專(zhuān)家的原因,并提出了軌跡排名獎(jiǎng)勵(lì)外推(trajectory-ranked reward extrapolation, T-REX)。T-REX首先根據(jù)每個(gè)軌跡中的累積獎(jiǎng)勵(lì)對(duì)采樣軌跡進(jìn)行排序。然后,T-REX推斷一個(gè)由深度神經(jīng)網(wǎng)絡(luò)參數(shù)化的獎(jiǎng)勵(lì)函數(shù)。最后,對(duì)該網(wǎng)絡(luò)進(jìn)行訓(xùn)練。該方法遵循最大似然法的模式,該模式通過(guò)推斷的獎(jiǎng)勵(lì)函數(shù)來(lái)解釋觀測(cè)的和排序得到的軌跡。TREX探索潛在的獎(jiǎng)勵(lì)空間以推斷高質(zhì)量的獎(jiǎng)勵(lì)函數(shù),從而學(xué)習(xí)有效的策略。仿真結(jié)果表明,T-REX在多個(gè)Atari和MuJoCo基準(zhǔn)任務(wù)上優(yōu)于最先進(jìn)的模仿學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)方法,且其性能往往可以達(dá)到最佳演示性能的兩倍以上。此外,即使在存在顯著的排名噪聲的情況下,T-REX也表現(xiàn)良好。

    大多數(shù)逆向強(qiáng)化學(xué)習(xí)算法是兩階段的,即首先推斷一個(gè)獎(jiǎng)勵(lì)函數(shù),然后通過(guò)強(qiáng)化學(xué)習(xí)學(xué)習(xí)策略。由于采用了兩個(gè)獨(dú)立的過(guò)程,從而導(dǎo)致兩階段的逆向強(qiáng)化學(xué)習(xí)算法的計(jì)算復(fù)雜度高,魯棒性差。與兩階段算法相比,單階段算法具有更高的效率和魯棒性。Justin等人[7]提出了對(duì)抗性逆強(qiáng)化學(xué)習(xí),它在推斷獎(jiǎng)勵(lì)函數(shù)的同時(shí)學(xué)習(xí)策略。對(duì)抗性逆強(qiáng)化學(xué)習(xí)將逆強(qiáng)化學(xué)習(xí)問(wèn)題轉(zhuǎn)化為生成對(duì)抗方式,即策略產(chǎn)生軌跡,并由判別器判別軌跡是否來(lái)自專(zhuān)家。同時(shí),將判別器的評(píng)判分?jǐn)?shù)設(shè)置為策略的獎(jiǎng)勵(lì)函數(shù)。為了使累計(jì)回報(bào)最大化,策略應(yīng)與專(zhuān)家的執(zhí)行策略高度匹配,從而獲得更高的分?jǐn)?shù)。訓(xùn)練結(jié)束后,智能體同時(shí)學(xué)會(huì)了獎(jiǎng)勵(lì)函數(shù)和策略。對(duì)抗性逆強(qiáng)化學(xué)習(xí)算法是一種特殊的單階段算法,它基于推斷的獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)策略。此外,獎(jiǎng)勵(lì)函數(shù)的推斷與策略的學(xué)習(xí)密切相關(guān),實(shí)現(xiàn)了相互監(jiān)督,并有效地減小了方差。

    4 結(jié)語(yǔ)

    綜上所述,強(qiáng)化學(xué)習(xí)的目標(biāo)是使智能體學(xué)習(xí)決策過(guò)程以產(chǎn)生行為,并使某些預(yù)定義的累計(jì)獎(jiǎng)勵(lì)最大化。但是設(shè)計(jì)一個(gè)可以有效優(yōu)化并表征所學(xué)策略的最終形式的獎(jiǎng)勵(lì)函數(shù)是困難的,因此獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是阻礙強(qiáng)化學(xué)習(xí)算法得到普遍應(yīng)用的一大障礙。逆向強(qiáng)化學(xué)習(xí)的目標(biāo)是從專(zhuān)家的演示數(shù)據(jù)中提取獎(jiǎng)勵(lì)函數(shù),它可以有效解決手動(dòng)設(shè)定獎(jiǎng)勵(lì)函數(shù)存在困難的問(wèn)題。在已知獎(jiǎng)勵(lì)函數(shù)的情況下,問(wèn)題可以簡(jiǎn)化為利用強(qiáng)化學(xué)習(xí)方法使智能體學(xué)習(xí)最優(yōu)策略。由于演示數(shù)據(jù)的不完整性和質(zhì)量較低,可能導(dǎo)致逆向強(qiáng)化學(xué)習(xí)學(xué)到的策略是次優(yōu)的,其表現(xiàn)效果低于專(zhuān)家的表現(xiàn)效果。此外,兩階段的逆向強(qiáng)化學(xué)習(xí)算法的計(jì)算復(fù)雜度高,魯棒性差。因此,超越演示的逆向強(qiáng)化學(xué)習(xí)算法和單階段的逆向強(qiáng)化學(xué)習(xí)算法將是未來(lái)的一大發(fā)展趨勢(shì)。

    參考文獻(xiàn):

    [1]? Ng A Y, Russell S J. Algorithms for inverse reinforcement learning[C]//Icml. 2000(1): 2.

    [2] Abbeel P,Ng A Y.Apprenticeship learning via inverse reinforcement learning[C]//Twenty-first international conference on Machine learning - ICML '04.July 4-8,2004.Banff,Alberta,Canada.New York:ACM Press,2004:1.

    [3]? Ziebart B D, Maas A L, Bagnell J A, et al. Maximum entropy inverse reinforcement learning[C]//Aaai,2008(8):1433-1438.

    [4] Levine S, Popovic Z, Koltun V. Nonlinear inverse reinforcement learning with gaussian processes[J]. Advances in neural information processing systems, 2011, 24: 19-27.

    [5]? Finn C, Levine S, Abbeel P. Guided cost learning: Deep inverse optimal control via policy optimization[C]//International conference on machine learning. PMLR, 2016: 49-58.

    [6]? Brown D, Goo W, Nagarajan P, et al. Extrapolating beyond suboptimal demonstrations via inverse reinforcement learning from observations[C]//International Conference on Machine Learning. PMLR, 2019: 783-792.

    [7]? Fu J, Luo K, Levine S. Learning robust rewards with adversarial inverse reinforcement learning[J]. arXiv preprint arXiv:1710.11248, 2017.

    【通聯(lián)編輯:李雅琪】

    猜你喜歡
    深度學(xué)習(xí)人工智能
    我校新增“人工智能”本科專(zhuān)業(yè)
    2019:人工智能
    商界(2019年12期)2019-01-03 06:59:05
    人工智能與就業(yè)
    數(shù)讀人工智能
    小康(2017年16期)2017-06-07 09:00:59
    有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
    電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
    MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
    大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
    軟件工程(2016年8期)2016-10-25 15:47:34
    文安县| 璧山县| 离岛区| 久治县| 海伦市| 余干县| 敖汉旗| 宁德市| 静安区| 海阳市| 陆河县| 萝北县| 龙岩市| 朝阳市| 集安市| 靖江市| 嘉荫县| 聂拉木县| 察雅县| 若尔盖县| 保康县| 柘荣县| 大新县| 靖安县| 柳林县| 高清| 施甸县| 吉安市| 大兴区| 抚松县| 涟源市| 金湖县| 通渭县| 林州市| 舟山市| 沾益县| 揭阳市| 德惠市| 法库县| 黑龙江省| 洪洞县|