• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強化學(xué)習(xí)的移動機器人導(dǎo)航策略研究

    2019-08-29 08:03:36
    計算機測量與控制 2019年8期
    關(guān)鍵詞:移動機器人卷積機器人

    (廣東工業(yè)大學(xué) 計算機學(xué)院,廣州 510006)

    0 引言

    移動機器人的研究起源月上世紀(jì)60年代末,最初是用來在惡劣、危險的條件下或者復(fù)雜環(huán)境中來代替人類完成工作。移動機器人技術(shù)處于當(dāng)前科技研究的前沿,代表著當(dāng)代高新技術(shù)的發(fā)展方向,是各國競相研究發(fā)展的重點,是當(dāng)前科學(xué)研究的熱點之一。隨著計算機技術(shù)、傳感技術(shù)、網(wǎng)絡(luò)技術(shù)和通信技術(shù)的飛速發(fā)展,移動機器人技術(shù)也得到了更加深入的而廣泛的研究。

    現(xiàn)在移動機器人的研究重點逐漸向智能化發(fā)展,如何讓機器人體現(xiàn)人工智能是目前移動機器人的研究難點[1-2]。移動機器人的智能化即是實現(xiàn)其高度的自主性,能夠使機器人在沒有人的引導(dǎo)下,無需對環(huán)境進行特殊的限制和改變的情況下,能夠有目的地、準(zhǔn)確的完成任務(wù),這需要機器人具備環(huán)境感知、行為決策、動作控制等能力。在移動機器人的智能化的研究中,導(dǎo)航技術(shù)的保障是其研究的核心,也是其實現(xiàn)智能化以及完全自主的關(guān)鍵技術(shù)和前提。

    移動機器人的導(dǎo)航是指“基于移動機器人自身攜帶的傳感器感知的周圍的環(huán)境信息以及移動機器人的自身狀態(tài)信息,在包含有限數(shù)量障礙物的環(huán)境中,安全地實現(xiàn)移動機器人面向目標(biāo)的運動”。隨著現(xiàn)在機器人應(yīng)用越來越廣泛,應(yīng)用領(lǐng)域不斷拓展,機器人需要完成的任務(wù)也越來越復(fù)雜,現(xiàn)階段的大部分機器人在確定的、靜態(tài)的、單一環(huán)境中執(zhí)行導(dǎo)航任務(wù),可以通過技術(shù)人員對機器人固定的導(dǎo)航任務(wù)人為的預(yù)先編程來實現(xiàn),但這樣的機器人往往不具備應(yīng)變突發(fā)事件的能力。對于場景的動態(tài)變化、機器人的“綁架”等問題,設(shè)計人員難以對機器人遇到的問題作出合理的預(yù)測以及預(yù)設(shè)相應(yīng)決策,都不能得到有效的解決。

    不論是傳統(tǒng)的機器人導(dǎo)航控制方法還是針對特定任務(wù)的預(yù)處理,要解決機器人應(yīng)對突發(fā)事件的處理必須具備比較強的對周圍環(huán)境信息感知和分析能力以及之后的動作執(zhí)行能力。由此,基于強化學(xué)習(xí)(Reinforcement Learning,RL)的機器人導(dǎo)航成為國內(nèi)外學(xué)者對于該領(lǐng)域的研究熱點?;趶娀瘜W(xué)習(xí)的導(dǎo)航優(yōu)勢在于:模型簡單、算法編程簡易、魯棒性強。但是傳統(tǒng)的強化學(xué)習(xí)方法由于環(huán)境的多樣性和復(fù)雜性,存在學(xué)習(xí)時間長、收斂速度慢、機器人狀態(tài)信息提取困難等問題。近年來深度學(xué)習(xí)的研究進展能夠有效的彌補強化學(xué)習(xí)的劣勢,谷歌的人工智能研究團隊DeepMind創(chuàng)新地將具有感知能力的深度學(xué)習(xí)(Deep Learning,DL)相結(jié)合,開創(chuàng)了一個新的研究熱點,即深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[3],因此本文使用基于DRL的研究策略實現(xiàn)機器人在復(fù)雜環(huán)境下的導(dǎo)航。基于DRL的導(dǎo)航策略研究采用端對端的學(xué)習(xí)方式,利用經(jīng)驗回放機制,將包含機器人感知到的周圍環(huán)境信息、當(dāng)前所處的狀態(tài)以及動作產(chǎn)生反饋的圖像信息存儲到經(jīng)驗回放池中,再定期每一個時間步從經(jīng)驗回放池隨機提取一組參數(shù)作為輸入傳遞到卷積神經(jīng)網(wǎng)絡(luò)中來不斷的迭代更新網(wǎng)絡(luò)參數(shù),最終求取網(wǎng)絡(luò)參數(shù)的最大值,即為一次導(dǎo)航的最優(yōu)策略。

    1 相關(guān)研究

    1.1 卷積神經(jīng)網(wǎng)絡(luò)

    卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN[4])從本質(zhì)上來說是一個前向的反饋神經(jīng)網(wǎng)絡(luò),來源于生物視覺神經(jīng)結(jié)構(gòu)啟發(fā),是以最簡化預(yù)操作為目的的多層感知器的變形。CNN提供了一種端對端的學(xué)習(xí)模型,通過把圖像作為參數(shù)輸入到模型中,使用傳統(tǒng)的梯度下降的方法對其進行訓(xùn)練,經(jīng)過訓(xùn)練后的CNN網(wǎng)絡(luò)能夠?qū)W習(xí)圖像中的特征,最終完成對圖像特征的提取,所提取到的特征具有平移,旋轉(zhuǎn)不變性[5]等特性。近年來,CNN被很好的應(yīng)用在了強化學(xué)習(xí)的任務(wù)上,如Atari游戲,機器操縱和模仿學(xué)習(xí)等方面。

    卷積神經(jīng)網(wǎng)絡(luò)主要包括4個方面的技術(shù):1)局部感知域,當(dāng)需要訓(xùn)練的參數(shù)過多時,全連接網(wǎng)絡(luò)訓(xùn)練難度極大,極難收斂。因此CNN與人類視覺類似采用局部感知信息,低層次神經(jīng)元感知局部信息,高層次神經(jīng)元整合低層次神經(jīng)元感知的局部信息得到全局信息,由此大大降低了訓(xùn)練參數(shù)的量級;2)參數(shù)共享,利用對圖像順序的進行卷積的方式提取圖像的某種特征,將多個具有相同統(tǒng)計特征的參數(shù)統(tǒng)一,進而進一步降低訓(xùn)練參數(shù)的量級;3)多卷積核,對圖像進行的一個卷積便是一種提取方式,通常在對一幅圖像來說,單個卷積核提取的特征是遠遠不夠的,因此使用多重卷積核才能提取多種不同的特征;4)池化,解決使用特征圖訓(xùn)練分類器時可能產(chǎn)生的特征維度過多計算復(fù)雜、過擬合等問題。近年來卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成功應(yīng)用于人臉識別、字符識別、行為檢測和目標(biāo)檢測等方面。

    1.2 強化學(xué)習(xí)

    強化學(xué)習(xí)[6]的基本原理是利用自身與周圍環(huán)境的即時交互產(chǎn)生的反饋信號來對所采取的行動進行評價,如果反饋信號越強,代表環(huán)境對這個動作的正獎勵,則這個動作的趨勢便加強;反之,這個動作的產(chǎn)生趨勢就減弱。強化學(xué)習(xí)的本質(zhì)上就是個不斷試錯來逐步改進策略的過程,目的就是學(xué)習(xí)一個行為策略來獲得環(huán)境最大的獎勵。

    強化學(xué)習(xí)的基本模型如圖1所示,智能體agent采取一個動作a作用到環(huán)境中,環(huán)境接收到這個動作后,產(chǎn)生一個獎勵r反饋給agent,agent再根據(jù)反饋回來的獎勵r和當(dāng)前的環(huán)境狀態(tài)信息e來選擇下一個動作,如此循環(huán)往復(fù),不斷改進策略。

    圖1 強化學(xué)習(xí)基本模型

    1.2.1 馬爾科夫模型與貝爾曼方程

    強化學(xué)習(xí)的目的可以轉(zhuǎn)化為求解馬爾科夫決策過程(markov decision process,MDP)的最優(yōu)策略,MDP的本質(zhì)是:下一狀態(tài)的概率和獎勵值由且僅由當(dāng)前狀態(tài)和動作決定,與其他任何歷史狀態(tài)和歷史動作無關(guān)。

    (1)

    用價值函數(shù)v表示MDP求解的值,價值函數(shù)模型如式(2)、(3)所示:

    (2)

    vπ(s)=Eπ[r0+γr1+γ2r2+γ3r3+…|s0=s]=

    Eπ[r0+γE[γr1+γ2r2+γ3r3+…]|s0=s]=

    Eπ[r(s′|s,a)+γVπ(s′)|s0=s]

    (3)

    其中:γ表示折扣系數(shù),代表后續(xù)動作對當(dāng)前值的影響程度。其取值范圍是[0,1],0表示只考慮當(dāng)前動作,不考慮后續(xù)動作的影響,而1表示當(dāng)前動作和后續(xù)每步動作都有均等的影響。通常為了避免使問題陷入局部最優(yōu),隨著步數(shù)的增加,折扣系數(shù)應(yīng)當(dāng)減小,影響變小。使用貝爾曼方程來求解價值函數(shù)。求解過程如式(4)、(5)所示:

    Eπ[r(s′|s,a)+γVπ(s′)|s0=s]

    (4)

    Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]

    (5)

    在式(4)中,π表示當(dāng)前的策略,Qπ(s,a)是針對實際問題在vπ(s)基礎(chǔ)上引入的動作值a,Qπ(s,a)表示動作值函數(shù),式(5)表示動作值函數(shù)模型。對貝爾曼方程求解最優(yōu)解得到貝爾曼最優(yōu)方程(6)、(7)為:

    (6)

    (7)

    求解上述貝爾曼最優(yōu)方程(6)、(7)有兩種方法:策略迭代和價值迭代。

    1.2.2 策略迭代

    策略迭代共有兩個步驟:策略評估和策略改進,首先對已有的策略進行評估,獲得狀態(tài)值函數(shù),然后根據(jù)評估結(jié)果,如果新策略更好則取代之前策略,否則,保持原有策略。具體算法流程如下所示:

    1)策略評估

    Inputπ(輸入策略π)

    Initialize an arrayv(s)=0,for all s∈δ+

    Repeat

    Δ←0

    For eachS∈δ:

    temp←v(s)

    v(s)←∑aπ(a|s)∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]Δ←max(Δ,|temp-v(s)|)

    UntilΔ<θ(a smalll positive number)

    Outputv≈vπ

    2)策略迭代

    policy-stable←true

    For eachs∈δ:

    temp←π(s)

    π(s)←argmaxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]

    Iftemp≠π(s),then policy-stable←false

    If policy-stable,then stop and returnvandπ

    Else go to evalue policy

    1.2.3 值迭代

    值迭代使用貝爾曼最優(yōu)方程來更新value,經(jīng)過反復(fù)迭代使得最終的value收斂于Vπ,即在當(dāng)前狀態(tài)下最優(yōu)值為value時,該最優(yōu)值value對應(yīng)的策略即為最優(yōu)策略。其算法流程如下:

    Initialize arrayvarbitrarily(e.g.,v(s)=0for all

    s∈δ′)

    Repeat

    Δ←0

    For eachs∈δ

    temp←v(s)

    v(s)←maxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]

    Δ←max(Δ,|temp-v(s)|)

    UntilΔ<θ(a small positive number)

    Output a determinisitc policyπ,such like

    π(s)=argmaxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]

    1.3 深度強化學(xué)習(xí)

    在高級人工智能領(lǐng)域,智能體感知和決策能力是衡量智能體智能化的關(guān)鍵性指標(biāo)。強化學(xué)習(xí)雖然具有優(yōu)秀的決策能力,但是其應(yīng)用大部分均依賴于人工提取特征,難以處理高維度狀態(tài)空間下的問題。而深度學(xué)習(xí)具有優(yōu)秀的感知能力,能夠從高維原始數(shù)據(jù)提取特征。這兩者優(yōu)勢互補、結(jié)合成深度強化學(xué)習(xí)。目前DRL技術(shù)在游戲[7-8],機器人控制[9-10],參數(shù)優(yōu)化[11]和機器視覺[12]等領(lǐng)域均有廣泛的應(yīng)用。

    1.3.1 基于值函數(shù)

    基于值函數(shù)的深度強化學(xué)習(xí)最典型的的代表就是Mnih[7]等人將CNN與Q學(xué)習(xí)算法[14-15]結(jié)合提出的深度Q網(wǎng)絡(luò)(Deep Q-network,DQN)模型。其基本原理就是將Q學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)化,利用深度卷積神經(jīng)網(wǎng)絡(luò)不斷迭代更新值函數(shù)的優(yōu)化目標(biāo),即目標(biāo)Q值,從而得到最優(yōu)的學(xué)習(xí)策略。

    1.3.2 基于策略梯度

    基于值函數(shù)的深度強化學(xué)習(xí)主要用于解決在離散動作空間下的任務(wù),對于連續(xù)動作空間的任務(wù)采用基于策略梯度的深度強化學(xué)習(xí)算法可以或得更好的決策效果。策略梯度通過不斷計算策略的總獎勵期望值關(guān)于策略參數(shù)的梯度來更新參數(shù),得到最優(yōu)策略[13]。其優(yōu)勢在于:直接優(yōu)化策略的總獎勵期望,以端對端的方式直接在策略空間里搜索最優(yōu)策略,比基于DQN的模型適用范圍更廣泛,優(yōu)化效果也更好。

    2 基于DQN的移動機器人導(dǎo)航策略研究

    本文將DQN網(wǎng)絡(luò)、經(jīng)驗回放機制、搜索與利用平衡策略[16]以及隨機梯度下降法等方法結(jié)合應(yīng)用到機器人導(dǎo)航研究中,提出一種基于深度強化學(xué)習(xí)的移動機器人導(dǎo)航策略的研究方法。通過OpenCV仿真平臺的檢驗,驗證本文提出的算法能夠高效準(zhǔn)確的完成導(dǎo)航任務(wù)。

    2.1 DQN網(wǎng)絡(luò)參數(shù)預(yù)處理

    OpenCV仿真平臺生成的地圖原始圖像是RGB圖像,有3個通道。直接將其輸入網(wǎng)絡(luò)計算量較大。因此本文采用了基本的圖像預(yù)處理來降低輸入維度,通過將圖像等比例縮放至大小為80×80,然后利用二值法將其轉(zhuǎn)換為只有兩個通道的灰度圖像,這樣可以降低輸入?yún)?shù)一個維度和數(shù)據(jù)量,有利于之后網(wǎng)絡(luò)的特征提取和處理。

    2.2 模型結(jié)構(gòu)與圖像處理過程

    本文采用的網(wǎng)絡(luò)模型是2015年,由DeepMind提出的深度Q網(wǎng)絡(luò)(deep Q network,DQN)[3],DQN的輸入是經(jīng)過預(yù)處理后當(dāng)前時刻連續(xù)的4幅圖像。經(jīng)過3個卷積層和兩個全連接層的處理后,最終輸出動作的Q值。圖2表示DQN的模型結(jié)構(gòu)。

    圖2 DQN網(wǎng)絡(luò)模型結(jié)構(gòu)

    圖3描述了本文采用的DQN網(wǎng)絡(luò)模型對圖像進行處理的具體過程。

    圖3 圖像處理過程

    1)將經(jīng)過預(yù)處理后的連續(xù)四幅圖像80×80×4(4表示4個通道,四張圖即是4個通道)經(jīng)過卷積核為8×8×4×32,步長為4的卷積,得到32張大小為20×20的特征圖,即20×20×32。將其進行池化核為2×2的池化得到10×10的圖像,即此時為10×10×32;

    2)將上一步所得圖像進行卷積核為4×4×32×64,步長為2的卷積得到64張5×5的圖像,即5×5×64;

    3)再進行一次卷積核為3×3×64×64,步長為1的卷積,此時依舊得到5×5×64的圖像,但此時經(jīng)過了再一輪卷積的圖像,其圖像信息更加抽象,更具全局性;

    4)對第二次卷積后5×5×64的圖像進行1 600×512的全連接,得到一個512維的特征向量,即512×1;

    5)再次進行全連接,最終輸出二位向量[0,1]和[1,0],表示仿真實驗中的正反饋和負反饋。

    2.3 DQN算法訓(xùn)練流程

    DQN算法是在傳統(tǒng)q學(xué)習(xí)算法的基礎(chǔ)上將其神經(jīng)網(wǎng)絡(luò)化實現(xiàn)的。傳統(tǒng)q學(xué)習(xí)是最早的在線學(xué)習(xí)算法,是基于值迭代的具有代表性的強化學(xué)習(xí)算法。圖4描述了DQN算法的訓(xùn)練流程。

    圖4 DQN訓(xùn)練流程圖

    具體算法流程為:

    1)初始化樣本池D,容量為N;

    2)將卷積神經(jīng)網(wǎng)絡(luò)進行隨機權(quán)重初始化,得到初始Q函數(shù);

    3)進入循環(huán)A,i=1,…,M;

    4)選擇初始狀態(tài),對仿真環(huán)境圖像進行預(yù)處理;

    5)進入循環(huán)B,t=1,…,T;

    6)采用隨機策略ε選擇一個動作at;

    7)執(zhí)行動作at,得到獎勵rt和下一時刻仿真環(huán)境圖像xt+1;

    8)令St+1=St,at,xt+1,對狀態(tài)進行預(yù)處理φt+1=φ(st+1);

    9)將(φt,at,rt,φt+1)存儲到樣本池D中;

    10)從樣本池D中隨機采集m個訓(xùn)練樣本(φj,aj,rj,φj+1);

    11)令樣本標(biāo)簽值為:

    12)用梯度下降法更新網(wǎng)絡(luò)參數(shù),計算損失函數(shù);

    13)退出循環(huán)B;

    14)退出循環(huán)A。

    DQN算法在傳統(tǒng)的Q學(xué)習(xí)算法上進行了改進,采用經(jīng)驗回放機制和固定目標(biāo)網(wǎng)絡(luò)兩個關(guān)鍵技術(shù)來提升算法的穩(wěn)定性。

    經(jīng)驗回放機制:經(jīng)驗回放最初是由Linux在其博士論文中提出[17],其原理是將訓(xùn)練過程中的樣本依次存儲在樣本池中,訓(xùn)練時再從中隨機抽取一定量的樣本,使用隨機梯度下降法(SGD)更新網(wǎng)絡(luò)參數(shù)。經(jīng)驗回放機制的使用,對歷史數(shù)據(jù)也能進行重復(fù)采樣,提高了數(shù)據(jù)的使用效率,同時也打破了樣本間的關(guān)聯(lián),使樣本間相互獨立,提升的算法的穩(wěn)定性。

    固定目標(biāo)網(wǎng)絡(luò):將q網(wǎng)絡(luò)迭代優(yōu)化的目標(biāo)Q值采用時序差分法由另一個單獨的較慢的目標(biāo)網(wǎng)絡(luò)產(chǎn)生,這樣提高了算法的收斂性。

    DQN算法的主要特點有3個:

    1)是一種端到端的訓(xùn)練方法,以原始圖像和獎勵函數(shù)作為的輸入和每個動作和對應(yīng)Q值的輸出相映射;

    2)使用經(jīng)驗回放機制和固定目標(biāo)網(wǎng)絡(luò)提升整個訓(xùn)練過程的穩(wěn)定性和收斂性;

    3)可以再不同的仿真平臺中采用大致相同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練算法,僅需根據(jù)訓(xùn)練情況調(diào)整相應(yīng)的獎勵函數(shù)。

    2.4 搜索與利用平衡策略

    在2.3節(jié)中的DQN算法中步驟(6)使用了一個策略來生成移動機器人的下一步動作,這個策略并不是求解優(yōu)化過程得到的策略,是單獨用來生成機器人動作的策略。因此,本文所用的Q-learning算法屬于off-policy,整個DQN的算法流程也是無模型的,只考慮當(dāng)前的環(huán)境信息和獎勵函數(shù)reward的反饋,即model-free的方法。一般來說,使用策略生成機器人動作主要有兩種策略:

    1)greedy policy,即貪心策略,讓機器人盡可能朝獎勵函數(shù)大的方向行進,當(dāng)機器人執(zhí)行一個動作如果得到的獎勵是正的,積極的則下一次繼續(xù)朝該方向行進,反之,則朝其他方向前進。

    2)randomized policy,即隨機策略,不考慮機器人執(zhí)行動作后得到的反饋,每次都均等的隨機選取一個動作執(zhí)行。

    考慮到greedy policy容易導(dǎo)致過擬合的現(xiàn)象,使得機器人導(dǎo)航的策略陷入局部最優(yōu),只能執(zhí)行單一或少數(shù)情況下的導(dǎo)航,不具備良好的泛化能力。因此,本文采用randomized policy來隨機生成機器人的動作,相應(yīng)的也增加了一定的訓(xùn)練時間來保證良好實驗的效果。

    3 實驗仿真與分析

    3.1 實驗平臺描述

    本文仿真實驗使用的平臺如表1所示。

    表1 仿真使用平臺

    使用OpenCV構(gòu)建的移動機器人仿真實驗環(huán)境如圖5所示,仿真環(huán)境是由一個800*800像素大小的圖像構(gòu)成,其中黑色邊框代表圍墻,黑色矩形代表障礙物,圓點表示出發(fā)點,方塊表示導(dǎo)航的目的地,起點和終點均是隨機出現(xiàn)在地圖中非障礙物的地方。

    圖5 移動機器人仿真環(huán)境

    3.2 實驗結(jié)果

    3.2.1 初始地圖下的導(dǎo)航

    圖6(a)和圖6(b)分別展示地圖環(huán)境未發(fā)生變化時,兩次機器人從隨機起點到隨機終點的順利導(dǎo)航。如圖中所示,機器人有上下左右4個方向維度的動作,每次5個像素點移動一次。

    圖6 初始地圖下的導(dǎo)航

    3.2.2 增量環(huán)境下的導(dǎo)航

    圖7(a)和圖7(b)展示了增量環(huán)境下,即地圖中障礙物增加的情況下,移動機器人也能夠順利完成導(dǎo)航任務(wù),并且在此情況下,依舊采用的是之前訓(xùn)練好的模型,相同的網(wǎng)絡(luò)結(jié)構(gòu),相同的參數(shù)。

    圖7 增量環(huán)境下的導(dǎo)航

    4 結(jié)束語

    本文針對復(fù)雜動態(tài)變化的室內(nèi)環(huán)境下采用了區(qū)別于以往A*算法等的只能解決固定兩點位置間的路徑規(guī)劃的算法,使用當(dāng)下人工智能最新的研究領(lǐng)域深度強化學(xué)習(xí),將其運用在機器人導(dǎo)航策略的研究上,有效的解決了在室內(nèi)環(huán)境中,場景的發(fā)生改變的情況下也能完成移動機器人從任意一個位置到任意另一個位置的導(dǎo)航。不過該研究方法也有一些難點:

    1)樣本利用率低,需要大量實驗迭代次數(shù)才能達到較好的結(jié)果,因此導(dǎo)致訓(xùn)練所需時間較長;

    2)獎勵函數(shù)較難設(shè)置,需要根據(jù)使用的實際平臺訓(xùn)練時的實驗結(jié)果進行細微調(diào)整;

    3)過擬合嚴(yán)重,場景發(fā)生較大改變時實驗結(jié)果不太理想,需要重新訓(xùn)練;

    4)導(dǎo)航成功率需待提高,當(dāng)環(huán)境信息較為復(fù)雜是,移動機器人的導(dǎo)航難以保持比較高的準(zhǔn)確性。

    雖然深度強化學(xué)習(xí)應(yīng)用于機器人導(dǎo)航策略研究有以上難點,但是隨著硬件性能的逐步提升大量的實驗訓(xùn)練次數(shù)的需求將不是問題,樣本利用率低的問題也能得到有效的解決,此外越來越多的學(xué)者對于獎勵函數(shù)的設(shè)置和更優(yōu)的訓(xùn)練模型展開了研究,因此利用深度強化學(xué)習(xí)進行機器人導(dǎo)航策略的研究一定會是今后一個研究的熱點,能成為滿足人們對移動機器人智能化的要求的有利手段。

    猜你喜歡
    移動機器人卷積機器人
    移動機器人自主動態(tài)避障方法
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    基于Twincat的移動機器人制孔系統(tǒng)
    機器人來幫你
    認識機器人
    機器人來啦
    認識機器人
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
    51午夜福利影视在线观看| 天堂俺去俺来也www色官网| 欧美国产精品一级二级三级| 婷婷色综合大香蕉| 在线天堂最新版资源| 秋霞伦理黄片| 激情视频va一区二区三区| 亚洲四区av| 久久ye,这里只有精品| av免费观看日本| 精品免费久久久久久久清纯 | 这个男人来自地球电影免费观看 | 免费av中文字幕在线| 制服诱惑二区| 成人亚洲精品一区在线观看| 男人添女人高潮全过程视频| 女人被躁到高潮嗷嗷叫费观| 午夜91福利影院| 看免费av毛片| xxxhd国产人妻xxx| 国产人伦9x9x在线观看| 成年人免费黄色播放视频| 女的被弄到高潮叫床怎么办| 19禁男女啪啪无遮挡网站| 免费看av在线观看网站| 夜夜骑夜夜射夜夜干| 亚洲,一卡二卡三卡| 亚洲精品国产色婷婷电影| 国产男人的电影天堂91| 日本色播在线视频| 国产av码专区亚洲av| 久久av网站| 亚洲欧美色中文字幕在线| 国产无遮挡羞羞视频在线观看| 亚洲五月色婷婷综合| 久久人人爽av亚洲精品天堂| 爱豆传媒免费全集在线观看| 国产极品粉嫩免费观看在线| av网站免费在线观看视频| 十八禁网站网址无遮挡| 国产一卡二卡三卡精品 | 黄网站色视频无遮挡免费观看| av卡一久久| 久久久精品94久久精品| 女性生殖器流出的白浆| a级片在线免费高清观看视频| 欧美av亚洲av综合av国产av | 亚洲美女黄色视频免费看| 制服丝袜香蕉在线| 人体艺术视频欧美日本| 国产av码专区亚洲av| 90打野战视频偷拍视频| 在线精品无人区一区二区三| 搡老岳熟女国产| 天天躁夜夜躁狠狠躁躁| 亚洲熟女毛片儿| 中文乱码字字幕精品一区二区三区| 日韩成人av中文字幕在线观看| 一边亲一边摸免费视频| 日韩不卡一区二区三区视频在线| 哪个播放器可以免费观看大片| 男的添女的下面高潮视频| 亚洲男人天堂网一区| 精品视频人人做人人爽| 亚洲国产毛片av蜜桃av| 国产成人欧美| 亚洲欧美日韩另类电影网站| 女人爽到高潮嗷嗷叫在线视频| 黄色怎么调成土黄色| 大片电影免费在线观看免费| 极品人妻少妇av视频| 69精品国产乱码久久久| 美女主播在线视频| 久久精品久久久久久噜噜老黄| 日本色播在线视频| 日韩av在线免费看完整版不卡| 母亲3免费完整高清在线观看| 在线天堂中文资源库| 精品人妻熟女毛片av久久网站| 亚洲国产毛片av蜜桃av| 国产成人系列免费观看| 国产精品麻豆人妻色哟哟久久| 久久精品国产a三级三级三级| 精品人妻一区二区三区麻豆| 亚洲专区中文字幕在线 | 亚洲第一区二区三区不卡| 欧美黑人欧美精品刺激| 久久天堂一区二区三区四区| 巨乳人妻的诱惑在线观看| 精品亚洲成国产av| 亚洲少妇的诱惑av| 天天躁狠狠躁夜夜躁狠狠躁| 乱人伦中国视频| 在线观看一区二区三区激情| 午夜免费观看性视频| 国产一卡二卡三卡精品 | 最近最新中文字幕大全免费视频 | 男女床上黄色一级片免费看| 午夜免费观看性视频| 午夜免费男女啪啪视频观看| 国产av一区二区精品久久| 成人午夜精彩视频在线观看| 蜜桃在线观看..| 人人妻人人爽人人添夜夜欢视频| 国产成人午夜福利电影在线观看| 亚洲,欧美精品.| 亚洲久久久国产精品| 国产av码专区亚洲av| 天天操日日干夜夜撸| 久久人人爽人人片av| 国产精品一区二区精品视频观看| 成人18禁高潮啪啪吃奶动态图| 久久久久国产一级毛片高清牌| bbb黄色大片| 久久女婷五月综合色啪小说| 午夜影院在线不卡| 久久久国产欧美日韩av| 水蜜桃什么品种好| 精品少妇内射三级| 国产高清国产精品国产三级| 亚洲av福利一区| 免费久久久久久久精品成人欧美视频| 国产成人欧美在线观看 | 午夜老司机福利片| 精品一区二区三区四区五区乱码 | 国产一级毛片在线| 妹子高潮喷水视频| 一边摸一边做爽爽视频免费| 在线观看免费高清a一片| 国产免费一区二区三区四区乱码| 亚洲国产最新在线播放| 国产1区2区3区精品| 王馨瑶露胸无遮挡在线观看| 啦啦啦视频在线资源免费观看| 久久ye,这里只有精品| 免费观看性生交大片5| 在线观看免费高清a一片| netflix在线观看网站| 观看美女的网站| 在线亚洲精品国产二区图片欧美| 水蜜桃什么品种好| 一级黄片播放器| 成年av动漫网址| 涩涩av久久男人的天堂| 国产又色又爽无遮挡免| 久久鲁丝午夜福利片| 成人亚洲欧美一区二区av| 香蕉丝袜av| 天天躁夜夜躁狠狠久久av| 久久99精品国语久久久| 亚洲精品视频女| 又大又黄又爽视频免费| 国产精品免费大片| 亚洲情色 制服丝袜| 亚洲国产最新在线播放| 久久久久网色| 国产欧美日韩一区二区三区在线| 日本91视频免费播放| 日韩一区二区视频免费看| 久久毛片免费看一区二区三区| 日韩,欧美,国产一区二区三区| 亚洲人成77777在线视频| 伊人亚洲综合成人网| 欧美精品一区二区免费开放| 国产成人免费观看mmmm| 免费久久久久久久精品成人欧美视频| 久久ye,这里只有精品| 丝袜美足系列| 水蜜桃什么品种好| 自线自在国产av| 欧美精品高潮呻吟av久久| 蜜桃在线观看..| 香蕉丝袜av| 亚洲色图 男人天堂 中文字幕| 亚洲精品乱久久久久久| 一级毛片电影观看| 毛片一级片免费看久久久久| 少妇人妻精品综合一区二区| 纯流量卡能插随身wifi吗| 日本91视频免费播放| 国产av一区二区精品久久| 色94色欧美一区二区| 纵有疾风起免费观看全集完整版| 久久久久久久久久久久大奶| 久久99精品国语久久久| 看非洲黑人一级黄片| 七月丁香在线播放| 我的亚洲天堂| 亚洲精品国产av成人精品| 美女大奶头黄色视频| 国产在线免费精品| av女优亚洲男人天堂| 中文字幕精品免费在线观看视频| 在现免费观看毛片| www日本在线高清视频| 老司机在亚洲福利影院| 黄色视频在线播放观看不卡| 久久久久国产精品人妻一区二区| 亚洲精品第二区| 国产成人欧美| 美女视频免费永久观看网站| 国产乱人偷精品视频| 精品人妻在线不人妻| 91精品三级在线观看| 久久精品国产亚洲av高清一级| 免费高清在线观看视频在线观看| 午夜老司机福利片| 亚洲精品国产一区二区精华液| 男女高潮啪啪啪动态图| 欧美日韩视频高清一区二区三区二| 毛片一级片免费看久久久久| 老司机亚洲免费影院| 久久久久国产精品人妻一区二区| 中文字幕制服av| 天天躁狠狠躁夜夜躁狠狠躁| 久久毛片免费看一区二区三区| 欧美人与善性xxx| 国产男女超爽视频在线观看| 秋霞伦理黄片| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲精品美女久久久久99蜜臀 | 午夜福利视频精品| 欧美人与性动交α欧美软件| 最近2019中文字幕mv第一页| 国产精品久久久久久久久免| 免费黄频网站在线观看国产| 免费看不卡的av| 国产成人精品在线电影| 高清黄色对白视频在线免费看| 只有这里有精品99| 婷婷色综合大香蕉| 香蕉国产在线看| av福利片在线| 亚洲国产精品一区三区| 一本久久精品| 亚洲欧美激情在线| 18禁观看日本| 老司机靠b影院| 精品一区二区三区av网在线观看 | 日韩大片免费观看网站| 久久国产精品男人的天堂亚洲| 成人亚洲欧美一区二区av| 性高湖久久久久久久久免费观看| 亚洲精品视频女| 精品久久蜜臀av无| 久久99热这里只频精品6学生| 在线 av 中文字幕| 自线自在国产av| 成人午夜精彩视频在线观看| 国产精品一区二区在线观看99| 亚洲精品久久久久久婷婷小说| 桃花免费在线播放| 黑人猛操日本美女一级片| 日韩欧美精品免费久久| 国产成人欧美| 国产亚洲精品第一综合不卡| 亚洲精品久久成人aⅴ小说| 成人亚洲精品一区在线观看| 成人毛片60女人毛片免费| 国产熟女午夜一区二区三区| 美女扒开内裤让男人捅视频| 天美传媒精品一区二区| 美女国产高潮福利片在线看| 国产欧美日韩一区二区三区在线| 国产av一区二区精品久久| 久久国产精品大桥未久av| 久久性视频一级片| 欧美精品av麻豆av| www日本在线高清视频| 最近的中文字幕免费完整| 美女午夜性视频免费| 男女床上黄色一级片免费看| 欧美激情高清一区二区三区 | 99久国产av精品国产电影| 中文字幕亚洲精品专区| kizo精华| 亚洲一码二码三码区别大吗| 国产成人免费观看mmmm| 国精品久久久久久国模美| 水蜜桃什么品种好| 国产成人系列免费观看| 久久鲁丝午夜福利片| 国产黄频视频在线观看| 国产精品 欧美亚洲| 亚洲欧美清纯卡通| 涩涩av久久男人的天堂| 国产欧美亚洲国产| 国产黄频视频在线观看| 久久热在线av| 欧美精品亚洲一区二区| 精品一区二区三卡| 久久天躁狠狠躁夜夜2o2o | av国产久精品久网站免费入址| 欧美人与性动交α欧美精品济南到| 精品一区二区免费观看| 精品第一国产精品| 九色亚洲精品在线播放| 国产深夜福利视频在线观看| 午夜免费观看性视频| 午夜福利在线免费观看网站| 日韩av不卡免费在线播放| 一区二区av电影网| av天堂久久9| 最近2019中文字幕mv第一页| h视频一区二区三区| 国产有黄有色有爽视频| 男人操女人黄网站| 成人影院久久| 97人妻天天添夜夜摸| 嫩草影视91久久| 看十八女毛片水多多多| 久久久久精品久久久久真实原创| 精品少妇久久久久久888优播| 丰满饥渴人妻一区二区三| 在线观看免费视频网站a站| 黄频高清免费视频| 亚洲美女视频黄频| 久久韩国三级中文字幕| 老汉色∧v一级毛片| 1024香蕉在线观看| 十八禁人妻一区二区| 男女边吃奶边做爰视频| 亚洲欧美中文字幕日韩二区| 巨乳人妻的诱惑在线观看| 亚洲av日韩在线播放| 在线观看三级黄色| 免费日韩欧美在线观看| 一个人免费看片子| 人体艺术视频欧美日本| 日日撸夜夜添| 女人爽到高潮嗷嗷叫在线视频| 女的被弄到高潮叫床怎么办| 久久狼人影院| 国产在线免费精品| 丝袜人妻中文字幕| 中文字幕最新亚洲高清| 亚洲一区中文字幕在线| 美女中出高潮动态图| 欧美精品一区二区大全| 亚洲免费av在线视频| 欧美日韩国产mv在线观看视频| 人人妻,人人澡人人爽秒播 | 国产成人a∨麻豆精品| 亚洲熟女毛片儿| 亚洲第一青青草原| 制服诱惑二区| 久久韩国三级中文字幕| 悠悠久久av| 性高湖久久久久久久久免费观看| 制服诱惑二区| 国产成人a∨麻豆精品| 亚洲专区中文字幕在线 | 国产成人啪精品午夜网站| 国产片特级美女逼逼视频| 欧美黑人精品巨大| 视频在线观看一区二区三区| 一级毛片电影观看| 搡老乐熟女国产| 亚洲五月色婷婷综合| 80岁老熟妇乱子伦牲交| 免费高清在线观看视频在线观看| 两个人看的免费小视频| 欧美成人精品欧美一级黄| 91精品三级在线观看| 91aial.com中文字幕在线观看| 啦啦啦中文免费视频观看日本| 999久久久国产精品视频| 看十八女毛片水多多多| 日本一区二区免费在线视频| 色播在线永久视频| 久久久国产欧美日韩av| 黑丝袜美女国产一区| 操美女的视频在线观看| 天天躁日日躁夜夜躁夜夜| 国产色婷婷99| 麻豆av在线久日| 国精品久久久久久国模美| 国产乱人偷精品视频| 亚洲第一区二区三区不卡| 国产精品女同一区二区软件| 999精品在线视频| 免费高清在线观看日韩| 国产精品亚洲av一区麻豆 | 亚洲久久久国产精品| 免费观看a级毛片全部| 王馨瑶露胸无遮挡在线观看| 午夜影院在线不卡| 18在线观看网站| 最近中文字幕高清免费大全6| 97人妻天天添夜夜摸| 午夜福利,免费看| 午夜老司机福利片| 国产精品久久久久成人av| 精品国产一区二区三区四区第35| 欧美精品人与动牲交sv欧美| √禁漫天堂资源中文www| 亚洲三区欧美一区| 女人久久www免费人成看片| 中文字幕色久视频| www日本在线高清视频| 午夜免费观看性视频| 亚洲一码二码三码区别大吗| 亚洲欧洲国产日韩| 中文字幕av电影在线播放| 97精品久久久久久久久久精品| 考比视频在线观看| 日本一区二区免费在线视频| 日本欧美国产在线视频| 少妇被粗大的猛进出69影院| 欧美日韩福利视频一区二区| 高清欧美精品videossex| 成年动漫av网址| 波多野结衣一区麻豆| 9191精品国产免费久久| 久久久精品免费免费高清| 大香蕉久久成人网| 大片免费播放器 马上看| 精品一品国产午夜福利视频| 日韩伦理黄色片| 九色亚洲精品在线播放| 黄片小视频在线播放| 一级,二级,三级黄色视频| 欧美日韩视频高清一区二区三区二| 亚洲图色成人| 又大又爽又粗| 一级毛片我不卡| 久久精品aⅴ一区二区三区四区| 在线观看免费日韩欧美大片| 王馨瑶露胸无遮挡在线观看| 亚洲国产看品久久| 伊人亚洲综合成人网| 久久午夜综合久久蜜桃| 热re99久久精品国产66热6| 国产高清不卡午夜福利| 国产视频首页在线观看| 亚洲av在线观看美女高潮| 制服丝袜香蕉在线| 国产成人av激情在线播放| 国产精品麻豆人妻色哟哟久久| 欧美在线一区亚洲| 国产99久久九九免费精品| 美女中出高潮动态图| 亚洲天堂av无毛| 老司机影院成人| 不卡视频在线观看欧美| 可以免费在线观看a视频的电影网站 | 亚洲av电影在线观看一区二区三区| 女人被躁到高潮嗷嗷叫费观| 性少妇av在线| 天天影视国产精品| 亚洲成色77777| 美女主播在线视频| 国产日韩一区二区三区精品不卡| 老司机在亚洲福利影院| 精品视频人人做人人爽| 最近最新中文字幕大全免费视频 | 不卡视频在线观看欧美| 在线观看免费日韩欧美大片| 亚洲av电影在线观看一区二区三区| 欧美日韩精品网址| 精品一区二区三卡| 亚洲欧美一区二区三区黑人| 日韩大片免费观看网站| 男男h啪啪无遮挡| 国产在线一区二区三区精| 国产成人精品在线电影| 欧美日韩成人在线一区二区| 9色porny在线观看| 久久精品久久久久久久性| 国产伦理片在线播放av一区| 日韩一本色道免费dvd| 色综合欧美亚洲国产小说| 日本爱情动作片www.在线观看| 美女国产高潮福利片在线看| 久久精品熟女亚洲av麻豆精品| 99热国产这里只有精品6| 一区二区av电影网| 国产日韩欧美视频二区| 色94色欧美一区二区| 欧美精品av麻豆av| 日本欧美视频一区| 国产精品无大码| 最近2019中文字幕mv第一页| 欧美日韩亚洲综合一区二区三区_| 国产片内射在线| 免费少妇av软件| 国产麻豆69| 999精品在线视频| 视频在线观看一区二区三区| 日韩免费高清中文字幕av| 99re6热这里在线精品视频| 亚洲av福利一区| av在线app专区| 青草久久国产| a级毛片黄视频| 叶爱在线成人免费视频播放| 久久久久久久久免费视频了| 80岁老熟妇乱子伦牲交| 各种免费的搞黄视频| 亚洲伊人色综图| 少妇 在线观看| 高清视频免费观看一区二区| 精品第一国产精品| 一区二区日韩欧美中文字幕| 又大又黄又爽视频免费| 日韩人妻精品一区2区三区| 中文字幕av电影在线播放| 精品一品国产午夜福利视频| 国产成人91sexporn| 久久精品久久久久久久性| 美女大奶头黄色视频| 一本久久精品| 国产精品一区二区在线观看99| 色视频在线一区二区三区| 欧美变态另类bdsm刘玥| 精品久久久久久电影网| 老汉色∧v一级毛片| 电影成人av| 婷婷色综合www| 国产成人精品在线电影| 中文字幕av电影在线播放| 亚洲精品一二三| 日韩av免费高清视频| 亚洲少妇的诱惑av| 亚洲美女视频黄频| 三上悠亚av全集在线观看| 欧美精品一区二区免费开放| 国产精品免费视频内射| 男的添女的下面高潮视频| 女人爽到高潮嗷嗷叫在线视频| 国产一区二区三区综合在线观看| 黑人猛操日本美女一级片| 日本欧美视频一区| 99久久精品国产亚洲精品| 亚洲专区中文字幕在线 | 欧美久久黑人一区二区| 亚洲精品久久成人aⅴ小说| 少妇人妻 视频| 狠狠精品人妻久久久久久综合| 亚洲av欧美aⅴ国产| 下体分泌物呈黄色| 国产免费福利视频在线观看| 中文字幕高清在线视频| 亚洲久久久国产精品| 欧美中文综合在线视频| 青春草视频在线免费观看| 中文字幕色久视频| 日日啪夜夜爽| 又大又黄又爽视频免费| 久久久久久免费高清国产稀缺| 又大又爽又粗| 97人妻天天添夜夜摸| 国产福利在线免费观看视频| 婷婷色综合www| 亚洲成色77777| 男男h啪啪无遮挡| 19禁男女啪啪无遮挡网站| 青青草视频在线视频观看| 深夜精品福利| 久久综合国产亚洲精品| 亚洲视频免费观看视频| 国产亚洲午夜精品一区二区久久| 秋霞伦理黄片| 啦啦啦在线观看免费高清www| 国产成人系列免费观看| 国产成人91sexporn| 乱人伦中国视频| 一区在线观看完整版| 亚洲精品中文字幕在线视频| 国产成人精品无人区| 久久韩国三级中文字幕| 久久久久久久久久久免费av| 亚洲 欧美一区二区三区| 亚洲,欧美,日韩| 人人澡人人妻人| 国产毛片在线视频| 综合色丁香网| videosex国产| 最近中文字幕高清免费大全6| av有码第一页| 王馨瑶露胸无遮挡在线观看| 美女脱内裤让男人舔精品视频| 国产精品 国内视频| 国产成人免费无遮挡视频| 黄色一级大片看看| 国产极品粉嫩免费观看在线| 国产1区2区3区精品| www.av在线官网国产| 国精品久久久久久国模美| 免费在线观看完整版高清| 青春草亚洲视频在线观看| 热99久久久久精品小说推荐| 国产精品免费大片| 久久久久久久国产电影| 亚洲精品久久久久久婷婷小说| 亚洲熟女毛片儿| 欧美日韩视频精品一区| 女人被躁到高潮嗷嗷叫费观| bbb黄色大片| 无遮挡黄片免费观看| 777米奇影视久久| 青春草视频在线免费观看| 啦啦啦在线观看免费高清www| 日韩欧美一区视频在线观看| 搡老乐熟女国产| 不卡视频在线观看欧美| 卡戴珊不雅视频在线播放| 色94色欧美一区二区| 一区二区三区乱码不卡18| 久久99一区二区三区| 免费黄色在线免费观看| 在线观看免费日韩欧美大片| 欧美亚洲日本最大视频资源| 人人妻人人澡人人看| 波多野结衣av一区二区av|