• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    機(jī)器人操作技能學(xué)習(xí)方法綜述

    2019-04-11 12:14:20劉乃軍魯濤蔡瑩皓王碩
    自動(dòng)化學(xué)報(bào) 2019年3期
    關(guān)鍵詞:操作技能機(jī)器人函數(shù)

    劉乃軍 魯濤 蔡瑩皓 王碩

    各式機(jī)器人正逐漸應(yīng)用于家庭、工廠(chǎng)、國(guó)防以及外太空探索等領(lǐng)域[1?2],具備諸如衣服整理、機(jī)械零件裝配、炸彈拆除等操作技能.隨著機(jī)器人技術(shù)的發(fā)展,人們期望機(jī)器人具備更強(qiáng)的自主操作能力,在更多領(lǐng)域代替人類(lèi)完成更加復(fù)雜的操作任務(wù).在人工分析機(jī)器人行為特性和工作任務(wù)要求的基礎(chǔ)上,采用傳統(tǒng)復(fù)雜編程、遙操作或示教編程等常規(guī)方法可使機(jī)器人具備一定的操作技能,較好地勝任于諸多結(jié)構(gòu)化工作環(huán)境和單一固定任務(wù)的工作場(chǎng)景,快速準(zhǔn)確地完成可重復(fù)位置和力控制的任務(wù).然而伴隨機(jī)器人應(yīng)用領(lǐng)域的不斷擴(kuò)大,機(jī)器人往往會(huì)面臨未知、動(dòng)態(tài)及難預(yù)測(cè)的復(fù)雜環(huán)境.采用傳統(tǒng)常規(guī)方法設(shè)計(jì)的機(jī)器人操作技能不能動(dòng)態(tài)地適應(yīng)該類(lèi)非結(jié)構(gòu)化工作環(huán)境或場(chǎng)景多變的工作場(chǎng)合,且機(jī)器人操作技能開(kāi)發(fā)過(guò)程中存在周期長(zhǎng)、效率低、工作量大及不能滿(mǎn)足需求的多樣性等諸多難題[3].隨著人工智能技術(shù)研究的快速發(fā)展及關(guān)鍵技術(shù)的突破,采用機(jī)器學(xué)習(xí)方法[4?5]設(shè)計(jì)具備一定自主決策和學(xué)習(xí)能力的機(jī)器人操作技能學(xué)習(xí)系統(tǒng),使機(jī)器人在復(fù)雜、動(dòng)態(tài)的環(huán)境中學(xué)習(xí)并獲取操作技能,能彌補(bǔ)傳統(tǒng)編程等常規(guī)方法的缺陷,極大提高機(jī)器人對(duì)環(huán)境的適應(yīng)能力.機(jī)器人操作技能學(xué)習(xí)作為未來(lái)機(jī)器人應(yīng)具備的重要性能之一,對(duì)未來(lái)機(jī)器人技術(shù)的發(fā)展具有重要意義,是未來(lái)機(jī)器人在各領(lǐng)域得以廣泛應(yīng)用的重要基礎(chǔ).近年來(lái),機(jī)器人操作技能學(xué)習(xí)研究正逐漸成為機(jī)器人研究領(lǐng)域的前沿和熱點(diǎn)[6?8],新的學(xué)習(xí)方法被逐漸應(yīng)用于機(jī)器人的操作技能學(xué)習(xí)中,諸多著名研究機(jī)構(gòu)和公司,如DeepMind[9?10]、加州大學(xué)伯克利分校[11?12]、OpenAI[13?14]、Google Brain[15]等在此領(lǐng)域取得了一定的成果,但仍面臨著巨大挑戰(zhàn).本文針對(duì)近年來(lái)機(jī)器人操作技能學(xué)習(xí)領(lǐng)域的主要研究工作進(jìn)行概述,并以此為基礎(chǔ)列舉了機(jī)器人操作技能學(xué)習(xí)未來(lái)的主要研究方向.

    1 研究進(jìn)展概述

    機(jī)器人操作技能學(xué)習(xí)方法涉及眾多機(jī)器學(xué)習(xí)算法,機(jī)器人訓(xùn)練數(shù)據(jù)的產(chǎn)生方式?jīng)Q定了機(jī)器人學(xué)習(xí)所要采用的具體方法[16].機(jī)器人操作技能學(xué)習(xí)所需數(shù)據(jù)大致可由機(jī)器人與環(huán)境交互產(chǎn)生或由專(zhuān)家提供[5,17].基于此,本文將機(jī)器人操作技能學(xué)習(xí)方法分為基于強(qiáng)化學(xué)習(xí)的方法、基于示教學(xué)習(xí)的方法和基于小數(shù)據(jù)學(xué)習(xí)的方法(如圖1所示),并基于該分類(lèi)對(duì)機(jī)器人操作技能學(xué)習(xí)的研究現(xiàn)狀進(jìn)行概述和分析.

    圖1 操作技能學(xué)習(xí)方法分類(lèi)Fig.1 The categories of robot manipulation skills learning methods

    1.1 基于強(qiáng)化學(xué)習(xí)

    在基于強(qiáng)化學(xué)習(xí)的機(jī)器人操作技能學(xué)習(xí)中,機(jī)器人以試錯(cuò)的機(jī)制與環(huán)境進(jìn)行交互,通過(guò)最大化累計(jì)獎(jiǎng)賞的方式學(xué)習(xí)到最優(yōu)操作技能策略[18?19].該類(lèi)方法分為執(zhí)行策略、收集樣本及優(yōu)化策略三個(gè)階段,如圖2所示.

    圖2 基于強(qiáng)化學(xué)習(xí)的操作技能學(xué)習(xí)示意圖Fig.2 Illustration of manipulation skills learning method based on reinforcement learning

    在執(zhí)行策略階段,機(jī)器人在狀態(tài)st依據(jù)當(dāng)前策略π執(zhí)行動(dòng)作at得到獎(jiǎng)賞值rt+1并根據(jù)狀態(tài)轉(zhuǎn)移概率p(st+1/st,at)到達(dá)新?tīng)顟B(tài)st+1,重復(fù)該過(guò)程,直到機(jī)器人到達(dá)終止?fàn)顟B(tài).

    在收集樣本階段,得到軌跡序列τ:s0,a0,s1,a1,···,sH,其中H為軌跡序列長(zhǎng)度.機(jī)器人在環(huán)境中執(zhí)行策略π后,所得累計(jì)獎(jiǎng)賞值R(τ)為

    其中,γ為折扣因子.機(jī)器人在狀態(tài)s對(duì)應(yīng)的價(jià)值函數(shù)Vπ(s)表示其在狀態(tài)s執(zhí)行策略π后得到的累計(jì)獎(jiǎng)賞值.

    在狀態(tài)s實(shí)施動(dòng)作a后得到的動(dòng)作–狀態(tài)值函數(shù)Qπ(s,a)的定義為

    由貝爾曼(Bellman)方程[20]可得動(dòng)作–狀態(tài)值函數(shù)的迭代關(guān)系式為

    機(jī)器人在狀態(tài)st所要執(zhí)行的最優(yōu)動(dòng)作為

    在策略?xún)?yōu)化階段,對(duì)機(jī)器人操作技能策略進(jìn)行優(yōu)化.依據(jù)最優(yōu)動(dòng)作的獲得是否需要價(jià)值函數(shù)Vπ(s)或動(dòng)作–狀態(tài)值函數(shù)Qπ(s,a),將強(qiáng)化學(xué)習(xí)方法分為值函數(shù)強(qiáng)化學(xué)習(xí)和策略搜索強(qiáng)化學(xué)習(xí).近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,諸多學(xué)者采用由深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合得到的深度強(qiáng)化學(xué)習(xí)方法來(lái)獲取機(jī)器人的操作技能策略.

    1.1.1 值函數(shù)強(qiáng)化學(xué)習(xí)方法

    值函數(shù)強(qiáng)化學(xué)習(xí)方法依據(jù)機(jī)器人與環(huán)境交互是否需要依靠先驗(yàn)知識(shí)或交互數(shù)據(jù)學(xué)習(xí)得到系統(tǒng)的狀態(tài)轉(zhuǎn)移模型,可分為基于學(xué)習(xí)模型的值函數(shù)方法和基于無(wú)模型的值函數(shù)方法.

    1)基于學(xué)習(xí)模型的值函數(shù)強(qiáng)化學(xué)習(xí).Lioutikov等[21]基于局部線(xiàn)性系統(tǒng)估計(jì)(Local linear system estimation)得到系統(tǒng)的狀態(tài)轉(zhuǎn)移概率模型,實(shí)現(xiàn)了二連桿機(jī)械臂對(duì)乒乓球拍的操作(如圖3(a)所示).Schenck等[22]基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建立了推斷挖取和傾倒動(dòng)作的預(yù)測(cè)模型,實(shí)現(xiàn)了KUKA機(jī)器人挖取豆粒物體的操作技能任務(wù)(如圖3(b)所示).Hester等[23]基于決策樹(shù)得到系統(tǒng)的狀態(tài)轉(zhuǎn)移概率模型,實(shí)現(xiàn)了人形機(jī)器人踢足球的操作技能.

    2)基于無(wú)模型的值函數(shù)強(qiáng)化學(xué)習(xí).機(jī)器人各狀態(tài)的價(jià)值函數(shù)采用諸如蒙特卡洛[24]、TD(λ)[25]、Q-leaning[26]及SARSA[27]等算法進(jìn)行估計(jì),進(jìn)而得到各狀態(tài)的最優(yōu)動(dòng)作.Konidaris等[28?29]基于CST(Constructing skill tree)算法將機(jī)器人所要執(zhí)行的任務(wù)序列化,完成了機(jī)器人在室內(nèi)環(huán)境中移動(dòng)到指定位置并執(zhí)行開(kāi)門(mén)的操作任務(wù)(如圖3(c)所示).Asada等[30]基于視覺(jué)信息構(gòu)建得到了機(jī)器人工作環(huán)境中目標(biāo)物體的幾何尺寸及方位信息,采用Q-leaning算法成功實(shí)現(xiàn)了機(jī)器人將球擊打到指定位置的操作任務(wù).Kroemer等[31]提出了一種基于強(qiáng)化學(xué)習(xí)和視覺(jué)反饋策略的混合控制器,以處理抓取任務(wù)中的不確定性問(wèn)題,成功實(shí)現(xiàn)了機(jī)器人抓取不同種類(lèi)物體的任務(wù)目標(biāo)(如圖3(d)所示).

    圖3 基于值函數(shù)強(qiáng)化學(xué)習(xí)的操作技能Fig.3 Manipulation skills based on value function of reinforcement learning

    總體而言,基于無(wú)模型的值函數(shù)方法不需對(duì)系統(tǒng)建模,計(jì)算量小,但價(jià)值函數(shù)的獲取需要通過(guò)機(jī)器人與環(huán)境的不斷交互采樣估計(jì)得到.基于學(xué)習(xí)模型的值函數(shù)方法首先需要依據(jù)機(jī)器人與環(huán)境的交互數(shù)據(jù)學(xué)習(xí)得到系統(tǒng)模型,并基于該模型采用仿真形式得到最優(yōu)策略,故其在真實(shí)環(huán)境中所需的樣本少,但計(jì)算量大.

    1.1.2 策略搜索強(qiáng)化學(xué)習(xí)方法

    與基于通過(guò)價(jià)值函數(shù)推導(dǎo)間接得到最優(yōu)策略不同,基于策略搜索的強(qiáng)化學(xué)習(xí)算法直接基于給定的策略評(píng)價(jià)函數(shù)在策略空間內(nèi)搜索得到最優(yōu)控制策略.將策略表示為參數(shù)θ的函數(shù)πθ,則對(duì)策略的優(yōu)化間接轉(zhuǎn)化為對(duì)參數(shù)θ的優(yōu)化.給定的策略評(píng)價(jià)函數(shù)為

    依據(jù)策略搜索是否需要求導(dǎo),可將策略搜索分為免求導(dǎo)方法和策略梯度方法.常見(jiàn)的免求導(dǎo)方法包含 CEM(Cross-entropy method)[32]、CMA(Covariance matrix adaptation)[33]等.策略梯度方法通過(guò)求解策略評(píng)價(jià)函數(shù)關(guān)于參數(shù)θ的導(dǎo)數(shù),得到策略參數(shù)θ的搜索方向?θη(θ)

    其中,p(τ;θ)表示執(zhí)行策略πθ得到軌跡τ的概率分布.進(jìn)而得到更新后的策略參數(shù)θi+1為

    其中,α為更新步長(zhǎng).Endo等[34]基于策略梯度,實(shí)現(xiàn)了雙足機(jī)器人行走的操作技能任務(wù).Peters等[35]將策略梯度與運(yùn)動(dòng)基元相結(jié)合,訓(xùn)練得到了機(jī)械臂擊打棒球的操作技能策略(如圖4(a)所示).Deisenroth等[36]提出了一種基于模型的策略搜索方法,將深度相機(jī)提供的環(huán)境圖像信息和機(jī)器人操作任務(wù)的空間約束加入到學(xué)習(xí)過(guò)程,實(shí)現(xiàn)了機(jī)器人搭積木的操作任務(wù)(如圖4(b)所示),之后采用高斯過(guò)程[37]建立系統(tǒng)狀態(tài)轉(zhuǎn)移概率模型,減小了模型偏差對(duì)機(jī)器人操作技能學(xué)習(xí)的不利影響.

    圖4 基于策略搜索強(qiáng)化學(xué)習(xí)的操作技能Fig.4 Manipulation skills based on policy search of reinforcement learning

    相較而言,在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,策略搜索比基于價(jià)值函數(shù)的強(qiáng)化學(xué)習(xí)方法更具優(yōu)勢(shì),主要體現(xiàn)在:1)采用策略搜索方法可以較為方便地融入專(zhuān)家知識(shí),可依據(jù)獲取的專(zhuān)家策略對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,以加速策略?xún)?yōu)化的收斂過(guò)程;2)策略函數(shù)比價(jià)值函數(shù)具有更少的學(xué)習(xí)參數(shù),基于策略搜索的強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)效率更加高效[38].

    1.1.3 深度強(qiáng)化學(xué)習(xí)方法

    基于深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的新分支,通過(guò)組合低層特征形成更加抽象的高層表示,得到數(shù)據(jù)的分布式特征.近年來(lái),諸多學(xué)者將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合得到的深度強(qiáng)化學(xué)習(xí)算法[39]成功應(yīng)用于視頻游戲[40]和圍棋[41?42]等領(lǐng)域.

    1)基于價(jià)值函數(shù)的深度強(qiáng)化學(xué)習(xí).Deep-Mind[40]提出的DQN(Deep Q-network)首次在視頻游戲領(lǐng)域超越了人類(lèi)游戲玩家.DQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖5所示,輸入是距離當(dāng)前時(shí)刻最近的若干幀圖像,經(jīng)過(guò)若干層卷積網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)非線(xiàn)性變換后,最后輸出各動(dòng)作對(duì)應(yīng)的狀態(tài)–動(dòng)作值.其通過(guò)最小化誤差函數(shù)

    對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新,式中yi為目標(biāo)狀態(tài)–動(dòng)作值.

    其中,θi為第i次迭代更新后的網(wǎng)絡(luò)參數(shù)值.為了防止學(xué)習(xí)過(guò)程中過(guò)高估計(jì)動(dòng)作–狀態(tài)值,van Hasselt等[43]提出了雙DQN(Double DQN),其目標(biāo)狀態(tài)–動(dòng)作值為

    之后競(jìng)爭(zhēng)網(wǎng)路(Dueling network)[44]和深度循環(huán)網(wǎng)絡(luò)(Deep recurrent network)[45]相繼被提出.Zhang等[46?47]創(chuàng)建虛擬訓(xùn)練環(huán)境將DQN算法用于訓(xùn)練三關(guān)節(jié)機(jī)器人抓取任務(wù)的控制策略,然而由于訓(xùn)練環(huán)境與真實(shí)場(chǎng)景存在一定差異并且其將動(dòng)作空間進(jìn)行了離散化,導(dǎo)致訓(xùn)練后的控制器在真實(shí)場(chǎng)景下的抓取效果欠佳.Google Brain和DeepMind聯(lián)合提出了基于連續(xù)動(dòng)作空間和學(xué)習(xí)模型的DQN改進(jìn)算法[48],在虛擬環(huán)境中成功實(shí)現(xiàn)了機(jī)器人抓取、夾手移動(dòng)等操作任務(wù).

    圖5 DQN網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.5 Illustration of DQN neural network

    2)基于策略搜索的深度強(qiáng)化學(xué)習(xí).為解決連續(xù)動(dòng)作空間上的控制問(wèn)題,Lillicrap等[9]通過(guò)對(duì)確定性策略梯度(Deterministic policy gradient,DPG)[49]方法進(jìn)行改造,提出了一種基于A(yíng)ctor-Critic框架的深度確定性策略梯度(Deep deterministic policy gradient,DDPG)算法,并在模擬仿真環(huán)境Mujoco中實(shí)現(xiàn)了機(jī)器人的抓取操作任務(wù)目標(biāo).為了保證策略?xún)?yōu)化過(guò)程中性能漸進(jìn)提高,Schulman等[50]提出了TRPO(Trust region policy optimization)算法,其通過(guò)優(yōu)化目標(biāo)函數(shù)

    對(duì)策略參數(shù)進(jìn)行更新,式中t為優(yōu)勢(shì)函數(shù)(Advantage function)在時(shí)刻t的估計(jì)值,πθ,πθold分別表示在同一批次訓(xùn)練數(shù)據(jù)上優(yōu)化前后的新舊策略,δ為較小值,用于限制新舊策略分布的KL散度差異.TRPO算法被成功應(yīng)用于虛擬場(chǎng)景下的機(jī)器人操作技能學(xué)習(xí).隨后,DeepMind和OpenAI提出了基于TRPO一階近似形式的改進(jìn)型算法PPO(Proximal policy optimization)[10,13],在虛擬仿真環(huán)境機(jī)器人的操作技能學(xué)習(xí)中取得了優(yōu)于TRPO的效果.基于異步梯度下降形式actor-critic的A3C(Asynchronous advantage actor-critic)[51]算法也被用于機(jī)器人的操作技能策略學(xué)習(xí).

    鑒于在策略?xún)?yōu)化的每個(gè)迭代步中,都需要采集一定量的訓(xùn)練數(shù)據(jù)來(lái)更新策略,而在真實(shí)機(jī)器人工作場(chǎng)景中,訓(xùn)練數(shù)據(jù)的獲取成本高昂,為此加州大學(xué)伯克利分校的Levine等[11?12,52?53]提出了引導(dǎo)策略搜索(Guided policy search,GPS)算法,通過(guò)使用優(yōu)化軌跡分布來(lái)生成具有引導(dǎo)作用的訓(xùn)練樣本,并采用監(jiān)督學(xué)習(xí)方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)策略.之后Levine等[12]又將環(huán)境的圖像信息作為機(jī)器人策略狀態(tài)的一部分,進(jìn)行端到端的訓(xùn)練,獲取了機(jī)器人抓取、搭衣服等多種操作技能(如圖6所示).

    與常規(guī)強(qiáng)化學(xué)習(xí)方法相比,深度強(qiáng)化學(xué)習(xí)算法將具有強(qiáng)表征能力的深度神經(jīng)網(wǎng)絡(luò)用于強(qiáng)化學(xué)習(xí)中價(jià)值函數(shù)和策略函數(shù)的表達(dá),避免了人為手工設(shè)計(jì)特征,同時(shí)也易融入環(huán)境中的圖像感知信息,較適合于機(jī)器人操作技能學(xué)習(xí).

    強(qiáng)化學(xué)習(xí)方法在機(jī)器人的操作技能學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用,基于機(jī)器人操作技能學(xué)習(xí)的任務(wù)特點(diǎn),應(yīng)用于機(jī)器人操作技能學(xué)習(xí)領(lǐng)域的強(qiáng)化學(xué)習(xí)有別于其他應(yīng)用領(lǐng)域的不同之處,主要體現(xiàn)在其狀態(tài)及動(dòng)作空間均為高維連續(xù)空間、收集訓(xùn)練樣本代價(jià)高等方面,具體如表1所示.

    圖6 基于引導(dǎo)策略搜索的機(jī)器人操作技能[12]Fig.6 Manipulation skills based on guided policy search[12]

    表1 機(jī)器人和其他應(yīng)用中強(qiáng)化學(xué)習(xí)比較Table 1 Comparison of reinforcement learning methods applied in robotics and other fields

    1.2 基于示教學(xué)習(xí)

    在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,示教學(xué)習(xí)通過(guò)模仿給定的專(zhuān)家數(shù)據(jù)學(xué)習(xí)得到操作技能策略.示教學(xué)習(xí)可降低機(jī)器人搜索策略空間的復(fù)雜度,在一定程度上提高了機(jī)器人操作技能的學(xué)習(xí)效率.近年來(lái),示教學(xué)習(xí)已成為機(jī)器人操作技能學(xué)習(xí)的熱點(diǎn)領(lǐng)域之一[54].依據(jù)對(duì)示教數(shù)據(jù)的使用方式,大致可將示教學(xué)習(xí)分為行為克隆(Behavior cloning)[55]和逆強(qiáng)化學(xué)習(xí)(Inverse reinforcement learning)[56]兩大類(lèi),如圖7所示.

    行為克隆是基于給定的多個(gè)示教軌跡序列τ1,τ2,···,τm,其中τi為,ni為軌跡τi的軌跡長(zhǎng)度,收集得到狀態(tài)–動(dòng)作對(duì)樣本集合D[57]

    采用常見(jiàn)的監(jiān)督學(xué)習(xí)方法,直接學(xué)習(xí)到狀態(tài)到動(dòng)作的映射關(guān)系.日本東北大學(xué)基于隱馬爾科夫模型(Hidden Markov model,HMM)[58]訓(xùn)練得到了能與人共跳華爾茲舞的機(jī)器人策略.Calinon等[59]基于高斯混合模型(Gaussian mixture model,GMM)學(xué)習(xí)到機(jī)器人移動(dòng)棋子以及抓取糖塊并放到嘴里的操作技能,之后該課題組又通過(guò)可穿戴式運(yùn)動(dòng)傳感器采集示教數(shù)據(jù),采用高斯混合回歸(Gaussian mixture regression,GMR)[60],實(shí)現(xiàn)了人形機(jī)器人完成籃球裁判員諸多判罰動(dòng)作的操作機(jī)能.Rahmatizadeh等[61]通過(guò)在虛擬仿真環(huán)境中采集大量示教數(shù)據(jù)訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN)策略,在真實(shí)機(jī)械臂上實(shí)現(xiàn)了抓取不同位置物體的目標(biāo).Calinon等[62]通過(guò)結(jié)合隱馬爾科夫模型、高斯混合回歸與機(jī)器人的系統(tǒng)動(dòng)態(tài)特性建立冗余策略模型,實(shí)現(xiàn)了機(jī)器人擊打乒乓球的操作任務(wù).Levine等[15]通過(guò)在多臺(tái)機(jī)械臂上收集大量抓取種類(lèi)各異物體數(shù)據(jù)(如圖8所示),對(duì)深度卷積網(wǎng)絡(luò)控制策略進(jìn)行訓(xùn)練,在無(wú)需對(duì)相機(jī)標(biāo)定的情況下,實(shí)現(xiàn)了高效準(zhǔn)確抓取不同物體的目標(biāo).Zhang等[63]采用VR虛擬設(shè)備采集示教數(shù)據(jù)(如圖9所示),通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練神經(jīng)網(wǎng)絡(luò)控制策略,實(shí)現(xiàn)了PR2機(jī)器人抓取、到達(dá)指定位置等若干操作技能.

    圖7 示教學(xué)習(xí)分類(lèi)示意圖Fig.7 Illustration of classification of imitation learning methods

    圖8 多臺(tái)機(jī)器人收集訓(xùn)練數(shù)據(jù)[15]Fig.8 Collecting training data by many robots[15]

    圖9 基于VR虛擬現(xiàn)實(shí)設(shè)備的示教學(xué)習(xí)[63]Fig.9 Imitation learning based on VR device[63]

    在有限樣本條件下,直接基于監(jiān)督學(xué)習(xí)得到的策略適用性不強(qiáng),逆向強(qiáng)化學(xué)習(xí)能夠基于給定的有限示教數(shù)據(jù)反推得到獎(jiǎng)賞函數(shù),從而提高學(xué)習(xí)策略的泛化性能.逆強(qiáng)化學(xué)習(xí)分為兩個(gè)階段,第一階段基于給定的示教軌跡推導(dǎo)出能使示教軌跡最優(yōu)的獎(jiǎng)賞函數(shù),第二階段基于推導(dǎo)出的獎(jiǎng)賞函數(shù)采用強(qiáng)化學(xué)習(xí)算法得到機(jī)器人執(zhí)行該示教操作任務(wù)的技能策略.Abbeel等[64]提出了依據(jù)示教數(shù)據(jù)得到獎(jiǎng)賞函數(shù)的最大邊際原則(Max margin principle),依據(jù)該原則可使基于獎(jiǎng)賞函數(shù)學(xué)習(xí)到的最優(yōu)策略和其他次優(yōu)策略之間的差異最大.Ratliff等[65]基于最大邊際原則提出了最大邊際規(guī)劃框架,將獎(jiǎng)賞函數(shù)的學(xué)習(xí)問(wèn)題轉(zhuǎn)化為結(jié)構(gòu)化預(yù)測(cè)問(wèn)題,并通過(guò)四足機(jī)器人對(duì)該方法進(jìn)行了驗(yàn)證.然而,基于最大邊際原則得到的獎(jiǎng)賞函數(shù)往往存在二義性問(wèn)題,同時(shí)基于真實(shí)機(jī)器人得到的示教數(shù)據(jù)往往混有噪聲,導(dǎo)致在一些機(jī)器人的應(yīng)用場(chǎng)景中效果不佳.為此,Ziebart等[66]基于最大熵原則構(gòu)建了序列決策的概率模型獎(jiǎng)賞函數(shù),能保證在示教數(shù)據(jù)非最優(yōu)及示教數(shù)據(jù)混有噪聲的情況下,機(jī)器人控制策略也具有較優(yōu)的性能表現(xiàn).上述均為基于線(xiàn)性特征得到獎(jiǎng)賞函數(shù)的方法,基于非線(xiàn)性特征的方法如高斯過(guò)程[67]、boosting[68]也被用來(lái)求解示教軌跡中潛在的獎(jiǎng)賞函數(shù),其表現(xiàn)效果在一些任務(wù)領(lǐng)域優(yōu)于基于線(xiàn)性特征得到獎(jiǎng)賞函數(shù).

    為了避免人工設(shè)計(jì)獎(jiǎng)賞函數(shù)特征,同時(shí)保證易于處理機(jī)器人狀態(tài)為高維、連續(xù)空間,深度神經(jīng)網(wǎng)絡(luò)[69?70]已逐漸應(yīng)用于獎(jiǎng)賞函數(shù)的表達(dá).

    此外,Finn等[71]提出了引導(dǎo)式獎(jiǎng)賞函數(shù)的逆強(qiáng)化學(xué)習(xí)方法,將獎(jiǎng)賞函數(shù)作為優(yōu)化目標(biāo)生成接近專(zhuān)家示例軌跡數(shù)據(jù)的獎(jiǎng)賞函數(shù).Ho等[72]采用生成式對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)[73]的思想,將獎(jiǎng)賞函數(shù)的優(yōu)化比作判別器,同時(shí)將策略的優(yōu)化比作生成器,使獎(jiǎng)賞函數(shù)優(yōu)化與策略?xún)?yōu)化交替迭代以生成能夠判別示教軌跡為較優(yōu)軌跡的獎(jiǎng)賞函數(shù).加州大學(xué)伯克利分校提出了deepmimic算法[73],給定示教范例,采用強(qiáng)化學(xué)習(xí)中的PPO算法[13]對(duì)虛擬仿真環(huán)境中的人形機(jī)器人等進(jìn)行訓(xùn)練,實(shí)現(xiàn)了武術(shù)、跳舞及多種雜技等高難度操作技能(如圖10所示).

    圖10 人形機(jī)器人高難度操作技能[73]Fig.10 Difficulty manipulation skills learned by human robots[73]

    相比于強(qiáng)化學(xué)習(xí)方法策略起始狀態(tài)的隨機(jī)導(dǎo)致的學(xué)習(xí)效率低,示教學(xué)習(xí)方法基于示教數(shù)據(jù)對(duì)策略進(jìn)行初始化,可加快機(jī)器人操作技能學(xué)習(xí)速率.然而示教學(xué)習(xí)中也存在收集示教數(shù)據(jù)成本高昂和訓(xùn)練所得策略易陷入局部最優(yōu)解的問(wèn)題,從而可能導(dǎo)致機(jī)器人操作技能的學(xué)習(xí)效果欠佳.為此有學(xué)者將示教學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合,以更加高效地獲取機(jī)器人的操作技能.Zhu等[74]提出了無(wú)模型的深度強(qiáng)化學(xué)習(xí)方法,采用強(qiáng)化學(xué)習(xí)與示教學(xué)習(xí)相結(jié)合的方式在合成的逼真虛擬仿真環(huán)境中對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,之后將訓(xùn)練得到的策略直接應(yīng)用到真實(shí)環(huán)境中(如圖11所示).Hester等[75]提出了一種將示教數(shù)據(jù)添加到DQN回放記憶單元(Replay memory)中的示教學(xué)習(xí)方法,提升了操作技能學(xué)習(xí)效率.

    圖11 虛擬環(huán)境中訓(xùn)練策略應(yīng)用于真實(shí)環(huán)境[74]Fig.11 Policies trained in simulated environment applied in real-world environment[74]

    1.3 基于小數(shù)據(jù)學(xué)習(xí)

    無(wú)論是基于強(qiáng)化學(xué)習(xí)還是基于示教學(xué)習(xí)的機(jī)器人操作技能學(xué)習(xí)方法都需要一定量的訓(xùn)練數(shù)據(jù).使用少量訓(xùn)練數(shù)據(jù)就可學(xué)習(xí)到新的操作技能成為了機(jī)器人快速應(yīng)用于各領(lǐng)域的關(guān)鍵.

    近年來(lái)發(fā)展的遷移學(xué)習(xí)(Transfer learning)和元學(xué)習(xí)(Meta learning)[76]具有利用先前數(shù)據(jù)經(jīng)驗(yàn)的機(jī)制,在面對(duì)新任務(wù)少量數(shù)據(jù)時(shí),能夠?qū)崿F(xiàn)基于小樣本數(shù)據(jù)的快速任務(wù)學(xué)習(xí).

    遷移學(xué)習(xí)是從一個(gè)或多個(gè)源域(Source domain)中抽取知識(shí)、經(jīng)驗(yàn),然后應(yīng)用于目標(biāo)域(Target domain)的學(xué)習(xí)方法[77],已在諸如計(jì)算機(jī)視覺(jué)[78?79]及控制[80?81]等領(lǐng)域取得了一定的進(jìn)展.在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,遷移學(xué)習(xí)可將基于一種或多種任務(wù)上學(xué)習(xí)到的能力遷移到另一種新的任務(wù)上,以提高機(jī)器人操作技能的學(xué)習(xí)效率.Ammar等[82]提出了一種基于策略梯度的多任務(wù)學(xué)習(xí)方法,通過(guò)從不同的工作任務(wù)中遷移知識(shí)實(shí)現(xiàn)了機(jī)器人的高效學(xué)習(xí).Gupta等[83]通過(guò)構(gòu)建多個(gè)機(jī)器人之間共有的特征空間,采用多任務(wù)學(xué)習(xí)的形式在虛擬仿真環(huán)境中實(shí)現(xiàn)了將3連桿機(jī)器人抓取、移動(dòng)指定物體的操作技能通過(guò)少量數(shù)據(jù)遷移給4連桿機(jī)器人的目標(biāo).Tzeng等[84]通過(guò)在虛擬環(huán)境中合成與真實(shí)環(huán)境中相對(duì)應(yīng)的圖像信息對(duì)機(jī)器人的操作技能進(jìn)行訓(xùn)練,之后采用遷移學(xué)習(xí)的方式將機(jī)器人的操作技能應(yīng)用于真實(shí)環(huán)境中.

    機(jī)器人的遷移學(xué)習(xí)在一定程度上可提高機(jī)器人學(xué)習(xí)操作技能的效率,然而在面對(duì)新任務(wù)時(shí),仍然需要以機(jī)器人與環(huán)境進(jìn)行一定的交互為前提,即仍然不能使機(jī)器人通過(guò)一次或極少次示教數(shù)據(jù)成功學(xué)習(xí)到新的操作技能.

    元學(xué)習(xí)(Meta learning)及以此為基礎(chǔ)的一次性學(xué)習(xí)(One-shot learning)是一種基于少量訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行學(xué)習(xí)的機(jī)器學(xué)習(xí)方法.元學(xué)習(xí)通過(guò)在大量相關(guān)任務(wù)且每種任務(wù)包含少量標(biāo)記數(shù)據(jù)的任務(wù)集上對(duì)策略進(jìn)行訓(xùn)練,能夠自動(dòng)學(xué)得訓(xùn)練任務(wù)集中的共有知識(shí).諸多學(xué)者將該方法應(yīng)用于圖像識(shí)別[85?87]、生成式模型[88?89]、強(qiáng)化學(xué)習(xí)中智能體的快速學(xué)習(xí)[90?91]等領(lǐng)域.還有一些學(xué)者嘗試將元學(xué)習(xí)應(yīng)用在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域.Duan等[92]提出了一次性模仿(One-shot imitation)學(xué)習(xí)方法(如圖12所示),基于多種任務(wù)采用元學(xué)習(xí)算法訓(xùn)練得到元學(xué)習(xí)策略,學(xué)習(xí)完成后基于新任務(wù)的一次示教就可完成執(zhí)行新任務(wù)的操作技能,并通過(guò)搭積木的操作任務(wù)驗(yàn)證了該方法的有效性.Finn等[93]提出了MAML(Model-agnostic meta-learning)元學(xué)習(xí)方法,通過(guò)多種任務(wù)采用梯度下降方法對(duì)同一個(gè)深度網(wǎng)絡(luò)策略模型的參數(shù)進(jìn)行元學(xué)習(xí)更新,利用少量訓(xùn)練數(shù)據(jù)和較少步的梯度下降更新策略參數(shù)進(jìn)行新任務(wù)學(xué)習(xí)(如圖13所示),在虛擬仿真環(huán)境中快速學(xué)習(xí)到了機(jī)器人的前進(jìn)、后退等操作技能.OpenAI[14]基于策略梯度提出了一種適用于動(dòng)態(tài)環(huán)境中的元學(xué)習(xí)算法,在虛擬環(huán)境中實(shí)現(xiàn)了多種構(gòu)型機(jī)器人之間的競(jìng)爭(zhēng)操作技能學(xué)習(xí).

    圖12 一次性模仿學(xué)習(xí)算法示意圖[92]Fig.12 Illustration of one-shot imitation learning algorithm[92]

    圖13 MAML元學(xué)習(xí)方法策略參數(shù)梯度更新示意圖[93]Fig.13 Illustration of gradient update for policy parameters with MAML meta learning algorithm[93]

    另外,一些學(xué)者提出了面對(duì)新任務(wù)少數(shù)據(jù)學(xué)習(xí)的其他方法.Xu等[94]通過(guò)采用神經(jīng)網(wǎng)絡(luò)推理方法[95]將機(jī)器人的操作技能任務(wù)進(jìn)行分解,在采用大量監(jiān)督數(shù)據(jù)對(duì)模型訓(xùn)練的基礎(chǔ)上,通過(guò)在虛擬環(huán)境中進(jìn)行一次示教,就可使機(jī)器人完成諸如整理餐桌等操作任務(wù).Tobin等[96]提出了域隨機(jī)化(Domain randomization)方法,通過(guò)在虛擬環(huán)境中改變物體的紋理、光照以及相機(jī)的位置等條件對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,之后不需額外數(shù)據(jù)訓(xùn)練即可將在虛擬環(huán)境中訓(xùn)練得到的策略直接應(yīng)用到了真實(shí)環(huán)境中.

    在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,遷移學(xué)習(xí)及元學(xué)習(xí)都可認(rèn)為是通過(guò)少量數(shù)據(jù)學(xué)習(xí)到新操作技能的方法,但不同之處在于,遷移學(xué)習(xí)是將機(jī)器人在某一或某幾種任務(wù)上已經(jīng)學(xué)習(xí)好的技能遷移到新任務(wù)上,元學(xué)習(xí)是通過(guò)大量任務(wù)對(duì)元學(xué)習(xí)策略進(jìn)行訓(xùn)練,基于新任務(wù)的少量數(shù)據(jù)實(shí)現(xiàn)機(jī)器人操作技能策略的跨任務(wù)泛化.

    本文將機(jī)器人操作技能學(xué)習(xí)方法分為基于強(qiáng)化學(xué)習(xí)的方法、基于示教學(xué)習(xí)的方法和基于小數(shù)據(jù)學(xué)習(xí)的方法,并基于此進(jìn)行了綜述分析,基于機(jī)器人操作技能策略訓(xùn)練數(shù)據(jù)的使用量、學(xué)習(xí)效率和學(xué)習(xí)成本的對(duì)比如表2所示.

    表2 三類(lèi)操作技能學(xué)習(xí)方法特點(diǎn)對(duì)比Table 2 Comparison of three kinds of manipulation skills learning methods

    2 未來(lái)發(fā)展方向

    通過(guò)分析已有的機(jī)器人操作技能學(xué)習(xí)研究工作,機(jī)器人操作技能學(xué)習(xí)問(wèn)題主要聚焦于兩方面:1)如何使機(jī)器人學(xué)習(xí)得到的技能策略具有更好的泛化性能;2)如何采用較少的訓(xùn)練數(shù)據(jù)、較低的訓(xùn)練代價(jià)學(xué)習(xí)得到新的操作技能.如何解決這兩方面的問(wèn)題是機(jī)器人操作技能學(xué)習(xí)的研究重點(diǎn).為此,本文列舉了如下的未來(lái)研究方向.

    2.1 高效學(xué)習(xí)算法設(shè)計(jì)

    以兼俱感知、決策能力的深度強(qiáng)化學(xué)習(xí)為核心算法的機(jī)器學(xué)習(xí)方法在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域取得了一定進(jìn)展,但由于采用深度學(xué)習(xí)方法對(duì)價(jià)值函數(shù)或策略函數(shù)進(jìn)行擬合,通常需要通過(guò)多步梯度下降方法進(jìn)行迭代更新,采用強(qiáng)化學(xué)習(xí)得到機(jī)器人不同狀態(tài)所要執(zhí)行的最優(yōu)動(dòng)作也需機(jī)器人在環(huán)境中經(jīng)過(guò)多步探索得到,這就導(dǎo)致了該類(lèi)算法的學(xué)習(xí)效率較低.例如人類(lèi)花費(fèi)數(shù)小時(shí)學(xué)會(huì)的操作技能,機(jī)器人需花費(fèi)數(shù)倍時(shí)間才能到達(dá)同等水平.

    現(xiàn)有的深度強(qiáng)化學(xué)習(xí)算法,諸如DQN,DDPG,A3C,TRPO,PPO等均為通用的深度強(qiáng)化學(xué)習(xí)算法,既能適用于電子游戲,也能適用于虛擬環(huán)境下的機(jī)器人控制策略訓(xùn)練.但在機(jī)器人實(shí)際操作環(huán)境中,存在數(shù)據(jù)樣本獲取困難、數(shù)據(jù)噪聲干擾大等特點(diǎn),導(dǎo)致現(xiàn)有操作技能學(xué)習(xí)方法學(xué)習(xí)效率低,學(xué)習(xí)效果欠佳.因此,結(jié)合機(jī)器人操作技能學(xué)習(xí)的固有特性及先驗(yàn)知識(shí)設(shè)計(jì)高效學(xué)習(xí)算法,實(shí)現(xiàn)有限樣本下操作技能策略的快速迭代和優(yōu)化對(duì)于機(jī)器人操作技能學(xué)習(xí)具有重要價(jià)值.

    2.2 技能遷移學(xué)習(xí)

    基于機(jī)器人操作技能學(xué)習(xí)中的遷移學(xué)習(xí)主要包含兩個(gè)方面:1)基于環(huán)境,將虛擬環(huán)境中學(xué)習(xí)到的操作技能遷移到真實(shí)環(huán)境中;2)基于任務(wù),將在一種任務(wù)上學(xué)習(xí)到的操作技能遷移到另一種任務(wù)上.

    在仿真環(huán)境中,機(jī)器人操作技能學(xué)習(xí)的訓(xùn)練成本低廉,并可避免使用真實(shí)機(jī)器人訓(xùn)練所帶來(lái)的諸多不便性和危險(xiǎn)性.但由于仿真環(huán)境與機(jī)器人真實(shí)工作場(chǎng)景不同,導(dǎo)致仿真環(huán)境中學(xué)習(xí)到的操作技能策略在真實(shí)環(huán)境中表現(xiàn)效果欠佳,為此如何將在虛擬環(huán)境中學(xué)習(xí)到的策略較好地應(yīng)用于真實(shí)環(huán)境是機(jī)器人操作技能學(xué)習(xí)中研究的關(guān)鍵問(wèn)題之一.

    通過(guò)基于一種或多種任務(wù)學(xué)習(xí)的技能策略初始化新任務(wù)技能策略,可加快機(jī)器人對(duì)新任務(wù)操作技能策略的學(xué)習(xí)效率,但這僅限于機(jī)器人的任務(wù)類(lèi)型和工作環(huán)境存在極小差異的情況.為此如何在具有一定差異的不同任務(wù)之間實(shí)現(xiàn)操作技能的遷移,并且避免可能出現(xiàn)的負(fù)遷移(Negative transfer)現(xiàn)象,也是機(jī)器人操作技能學(xué)習(xí)中要解決的重要問(wèn)題.

    2.3 層次化任務(wù)學(xué)習(xí)

    在機(jī)器人的操作技能學(xué)習(xí)任務(wù)中,復(fù)雜操作任務(wù)都可以分解成若干簡(jiǎn)單子任務(wù).例如機(jī)器人倒水操作任務(wù)可以分解成機(jī)器人從當(dāng)前位置移動(dòng)到水杯位置、機(jī)器人末端夾手抓住水杯、移動(dòng)機(jī)器人到指定容器位置、轉(zhuǎn)動(dòng)末端夾手將水倒入容器中.機(jī)器人開(kāi)門(mén)操作任務(wù)可以分解為移動(dòng)機(jī)器人夾手到門(mén)把手位置、夾手抓住門(mén)把手、轉(zhuǎn)動(dòng)末端夾手將門(mén)打開(kāi).上述任務(wù)雖不相同,但均包含機(jī)器人末端執(zhí)行器到達(dá)、末端夾手夾持等子任務(wù),為此對(duì)機(jī)器人要執(zhí)行的任務(wù)進(jìn)行層次化分解可有利于操作技能的學(xué)習(xí).針對(duì)復(fù)雜操作技能任務(wù),訓(xùn)練學(xué)習(xí)將復(fù)雜任務(wù)分解成多個(gè)子任務(wù)的高級(jí)策略和執(zhí)行子任務(wù)的低級(jí)策略,可使操作技能的學(xué)習(xí)過(guò)程更加高效.

    2.4 元學(xué)習(xí)

    元學(xué)習(xí)作為一種學(xué)會(huì)學(xué)習(xí)(Learning to learn)的方法,在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域已取得了一定的進(jìn)展.將元學(xué)習(xí)思想應(yīng)用于機(jī)器人操作技能學(xué)習(xí)領(lǐng)域可能存在的問(wèn)題基于兩方面:1)要確定機(jī)器人操作技能學(xué)習(xí)的訓(xùn)練環(huán)境和訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)形式;2)是設(shè)計(jì)適宜的元學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu).目前在計(jì)算機(jī)視覺(jué)領(lǐng)域,研究者提出了多種類(lèi)型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),而在基于機(jī)器人操作技能學(xué)習(xí)領(lǐng)域的特定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還不多見(jiàn).為此借鑒其他研究領(lǐng)域,設(shè)計(jì)學(xué)習(xí)效率高,性能優(yōu)異的元學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是機(jī)器人操作技能學(xué)習(xí)的重要研究方向.

    元學(xué)習(xí)作為一種少數(shù)據(jù)學(xué)習(xí)方法,當(dāng)前還僅限于面對(duì)新任務(wù)的測(cè)試階段需少量數(shù)據(jù),而在元學(xué)習(xí)的訓(xùn)練階段,仍需提供大量訓(xùn)練數(shù)據(jù).為此基于訓(xùn)練環(huán)境、訓(xùn)練數(shù)據(jù)形式及網(wǎng)絡(luò)結(jié)構(gòu)等方面,設(shè)計(jì)高效的元學(xué)習(xí)訓(xùn)練算法,實(shí)現(xiàn)真正的少數(shù)據(jù)學(xué)習(xí),是機(jī)器人操作技能學(xué)習(xí)的未來(lái)發(fā)展方向之一.

    3 結(jié)論

    相比于傳統(tǒng)復(fù)雜編程、遙操作及示教編程等常規(guī)方法,機(jī)器人操作技能學(xué)習(xí)方法可使機(jī)器人具備一定的決策和學(xué)習(xí)能力,動(dòng)態(tài)地適應(yīng)諸多非結(jié)構(gòu)化工作環(huán)境或場(chǎng)景多變的工作場(chǎng)合,是機(jī)器人能夠廣泛應(yīng)用于各領(lǐng)域的基礎(chǔ).機(jī)器人操作技能學(xué)習(xí)作為機(jī)器人研究領(lǐng)域的前沿方向吸引了諸多學(xué)者的研究興趣.

    目前,人工智能技術(shù)的發(fā)展為機(jī)器人操作技能的學(xué)習(xí)提供了新的方法,開(kāi)拓了新的思路.相比于計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域,機(jī)器人的操作技能學(xué)習(xí)所需代價(jià)更高、成本更大.因此,基于如何使機(jī)器人的操作技能學(xué)習(xí)更加高效,如何使學(xué)習(xí)的操作技能策略泛化性能更強(qiáng)等問(wèn)題的研究,也將對(duì)機(jī)器學(xué)習(xí)及人工智能技術(shù)的發(fā)展起到促進(jìn)作用.近年來(lái),人工智能技術(shù)中的深度學(xué)習(xí)技術(shù)已開(kāi)始廣泛應(yīng)用于機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,除與強(qiáng)化學(xué)習(xí)結(jié)合外,還應(yīng)用于示教學(xué)習(xí)以及元學(xué)習(xí)中.但由于機(jī)器人應(yīng)用場(chǎng)景和操作技能學(xué)習(xí)的特殊性,決定了應(yīng)用于機(jī)器人領(lǐng)域的深度學(xué)習(xí)技術(shù)與其他應(yīng)用領(lǐng)域具有不同的特性,例如在機(jī)器人操作技能學(xué)習(xí)應(yīng)用領(lǐng)域,深度學(xué)習(xí)技術(shù)除應(yīng)用于物體識(shí)別外還需進(jìn)行物體的空間定位.此外,深度學(xué)習(xí)技術(shù)目前還缺乏一定的理論支持,基于深度學(xué)習(xí)技術(shù)獲取的機(jī)器人操作技能可解釋性差,在操作任務(wù)中需要的定位精確性、運(yùn)動(dòng)靈巧性和平穩(wěn)性以及執(zhí)行任務(wù)的實(shí)時(shí)性暫時(shí)還不能從理論上得到保證,還需進(jìn)一步開(kāi)展相關(guān)的研究和論證.

    猜你喜歡
    操作技能機(jī)器人函數(shù)
    機(jī)械裝配中鉗工的操作技能分析
    二次函數(shù)
    第3講 “函數(shù)”復(fù)習(xí)精講
    二次函數(shù)
    函數(shù)備考精講
    關(guān)于學(xué)生實(shí)驗(yàn)操作技能省級(jí)測(cè)試的思考——以高中生物學(xué)為例
    機(jī)器人來(lái)幫你
    認(rèn)識(shí)機(jī)器人
    機(jī)器人來(lái)啦
    認(rèn)識(shí)機(jī)器人
    汉川市| 邵武市| 仁寿县| 炎陵县| 阳朔县| 朝阳县| 沅江市| 太湖县| 呼伦贝尔市| 潜江市| 遂宁市| 拉萨市| 青神县| 古浪县| 武胜县| 中宁县| 重庆市| 大关县| 黄浦区| 舟山市| 台东县| 潢川县| 大荔县| 茌平县| 陇川县| 固原市| 怀化市| 温州市| 南乐县| 宜兰市| 漳平市| 怀安县| 东丽区| 嘉定区| 永顺县| 福鼎市| 兴隆县| 衡南县| 探索| 宁明县| 阳西县|