• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強化學(xué)習(xí)的移動機器人導(dǎo)航策略研究

    2019-08-29 08:03:36
    計算機測量與控制 2019年8期
    關(guān)鍵詞:移動機器人卷積機器人

    (廣東工業(yè)大學(xué) 計算機學(xué)院,廣州 510006)

    0 引言

    移動機器人的研究起源月上世紀(jì)60年代末,最初是用來在惡劣、危險的條件下或者復(fù)雜環(huán)境中來代替人類完成工作。移動機器人技術(shù)處于當(dāng)前科技研究的前沿,代表著當(dāng)代高新技術(shù)的發(fā)展方向,是各國競相研究發(fā)展的重點,是當(dāng)前科學(xué)研究的熱點之一。隨著計算機技術(shù)、傳感技術(shù)、網(wǎng)絡(luò)技術(shù)和通信技術(shù)的飛速發(fā)展,移動機器人技術(shù)也得到了更加深入的而廣泛的研究。

    現(xiàn)在移動機器人的研究重點逐漸向智能化發(fā)展,如何讓機器人體現(xiàn)人工智能是目前移動機器人的研究難點[1-2]。移動機器人的智能化即是實現(xiàn)其高度的自主性,能夠使機器人在沒有人的引導(dǎo)下,無需對環(huán)境進行特殊的限制和改變的情況下,能夠有目的地、準(zhǔn)確的完成任務(wù),這需要機器人具備環(huán)境感知、行為決策、動作控制等能力。在移動機器人的智能化的研究中,導(dǎo)航技術(shù)的保障是其研究的核心,也是其實現(xiàn)智能化以及完全自主的關(guān)鍵技術(shù)和前提。

    移動機器人的導(dǎo)航是指“基于移動機器人自身攜帶的傳感器感知的周圍的環(huán)境信息以及移動機器人的自身狀態(tài)信息,在包含有限數(shù)量障礙物的環(huán)境中,安全地實現(xiàn)移動機器人面向目標(biāo)的運動”。隨著現(xiàn)在機器人應(yīng)用越來越廣泛,應(yīng)用領(lǐng)域不斷拓展,機器人需要完成的任務(wù)也越來越復(fù)雜,現(xiàn)階段的大部分機器人在確定的、靜態(tài)的、單一環(huán)境中執(zhí)行導(dǎo)航任務(wù),可以通過技術(shù)人員對機器人固定的導(dǎo)航任務(wù)人為的預(yù)先編程來實現(xiàn),但這樣的機器人往往不具備應(yīng)變突發(fā)事件的能力。對于場景的動態(tài)變化、機器人的“綁架”等問題,設(shè)計人員難以對機器人遇到的問題作出合理的預(yù)測以及預(yù)設(shè)相應(yīng)決策,都不能得到有效的解決。

    不論是傳統(tǒng)的機器人導(dǎo)航控制方法還是針對特定任務(wù)的預(yù)處理,要解決機器人應(yīng)對突發(fā)事件的處理必須具備比較強的對周圍環(huán)境信息感知和分析能力以及之后的動作執(zhí)行能力。由此,基于強化學(xué)習(xí)(Reinforcement Learning,RL)的機器人導(dǎo)航成為國內(nèi)外學(xué)者對于該領(lǐng)域的研究熱點?;趶娀瘜W(xué)習(xí)的導(dǎo)航優(yōu)勢在于:模型簡單、算法編程簡易、魯棒性強。但是傳統(tǒng)的強化學(xué)習(xí)方法由于環(huán)境的多樣性和復(fù)雜性,存在學(xué)習(xí)時間長、收斂速度慢、機器人狀態(tài)信息提取困難等問題。近年來深度學(xué)習(xí)的研究進展能夠有效的彌補強化學(xué)習(xí)的劣勢,谷歌的人工智能研究團隊DeepMind創(chuàng)新地將具有感知能力的深度學(xué)習(xí)(Deep Learning,DL)相結(jié)合,開創(chuàng)了一個新的研究熱點,即深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[3],因此本文使用基于DRL的研究策略實現(xiàn)機器人在復(fù)雜環(huán)境下的導(dǎo)航。基于DRL的導(dǎo)航策略研究采用端對端的學(xué)習(xí)方式,利用經(jīng)驗回放機制,將包含機器人感知到的周圍環(huán)境信息、當(dāng)前所處的狀態(tài)以及動作產(chǎn)生反饋的圖像信息存儲到經(jīng)驗回放池中,再定期每一個時間步從經(jīng)驗回放池隨機提取一組參數(shù)作為輸入傳遞到卷積神經(jīng)網(wǎng)絡(luò)中來不斷的迭代更新網(wǎng)絡(luò)參數(shù),最終求取網(wǎng)絡(luò)參數(shù)的最大值,即為一次導(dǎo)航的最優(yōu)策略。

    1 相關(guān)研究

    1.1 卷積神經(jīng)網(wǎng)絡(luò)

    卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN[4])從本質(zhì)上來說是一個前向的反饋神經(jīng)網(wǎng)絡(luò),來源于生物視覺神經(jīng)結(jié)構(gòu)啟發(fā),是以最簡化預(yù)操作為目的的多層感知器的變形。CNN提供了一種端對端的學(xué)習(xí)模型,通過把圖像作為參數(shù)輸入到模型中,使用傳統(tǒng)的梯度下降的方法對其進行訓(xùn)練,經(jīng)過訓(xùn)練后的CNN網(wǎng)絡(luò)能夠?qū)W習(xí)圖像中的特征,最終完成對圖像特征的提取,所提取到的特征具有平移,旋轉(zhuǎn)不變性[5]等特性。近年來,CNN被很好的應(yīng)用在了強化學(xué)習(xí)的任務(wù)上,如Atari游戲,機器操縱和模仿學(xué)習(xí)等方面。

    卷積神經(jīng)網(wǎng)絡(luò)主要包括4個方面的技術(shù):1)局部感知域,當(dāng)需要訓(xùn)練的參數(shù)過多時,全連接網(wǎng)絡(luò)訓(xùn)練難度極大,極難收斂。因此CNN與人類視覺類似采用局部感知信息,低層次神經(jīng)元感知局部信息,高層次神經(jīng)元整合低層次神經(jīng)元感知的局部信息得到全局信息,由此大大降低了訓(xùn)練參數(shù)的量級;2)參數(shù)共享,利用對圖像順序的進行卷積的方式提取圖像的某種特征,將多個具有相同統(tǒng)計特征的參數(shù)統(tǒng)一,進而進一步降低訓(xùn)練參數(shù)的量級;3)多卷積核,對圖像進行的一個卷積便是一種提取方式,通常在對一幅圖像來說,單個卷積核提取的特征是遠遠不夠的,因此使用多重卷積核才能提取多種不同的特征;4)池化,解決使用特征圖訓(xùn)練分類器時可能產(chǎn)生的特征維度過多計算復(fù)雜、過擬合等問題。近年來卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成功應(yīng)用于人臉識別、字符識別、行為檢測和目標(biāo)檢測等方面。

    1.2 強化學(xué)習(xí)

    強化學(xué)習(xí)[6]的基本原理是利用自身與周圍環(huán)境的即時交互產(chǎn)生的反饋信號來對所采取的行動進行評價,如果反饋信號越強,代表環(huán)境對這個動作的正獎勵,則這個動作的趨勢便加強;反之,這個動作的產(chǎn)生趨勢就減弱。強化學(xué)習(xí)的本質(zhì)上就是個不斷試錯來逐步改進策略的過程,目的就是學(xué)習(xí)一個行為策略來獲得環(huán)境最大的獎勵。

    強化學(xué)習(xí)的基本模型如圖1所示,智能體agent采取一個動作a作用到環(huán)境中,環(huán)境接收到這個動作后,產(chǎn)生一個獎勵r反饋給agent,agent再根據(jù)反饋回來的獎勵r和當(dāng)前的環(huán)境狀態(tài)信息e來選擇下一個動作,如此循環(huán)往復(fù),不斷改進策略。

    圖1 強化學(xué)習(xí)基本模型

    1.2.1 馬爾科夫模型與貝爾曼方程

    強化學(xué)習(xí)的目的可以轉(zhuǎn)化為求解馬爾科夫決策過程(markov decision process,MDP)的最優(yōu)策略,MDP的本質(zhì)是:下一狀態(tài)的概率和獎勵值由且僅由當(dāng)前狀態(tài)和動作決定,與其他任何歷史狀態(tài)和歷史動作無關(guān)。

    (1)

    用價值函數(shù)v表示MDP求解的值,價值函數(shù)模型如式(2)、(3)所示:

    (2)

    vπ(s)=Eπ[r0+γr1+γ2r2+γ3r3+…|s0=s]=

    Eπ[r0+γE[γr1+γ2r2+γ3r3+…]|s0=s]=

    Eπ[r(s′|s,a)+γVπ(s′)|s0=s]

    (3)

    其中:γ表示折扣系數(shù),代表后續(xù)動作對當(dāng)前值的影響程度。其取值范圍是[0,1],0表示只考慮當(dāng)前動作,不考慮后續(xù)動作的影響,而1表示當(dāng)前動作和后續(xù)每步動作都有均等的影響。通常為了避免使問題陷入局部最優(yōu),隨著步數(shù)的增加,折扣系數(shù)應(yīng)當(dāng)減小,影響變小。使用貝爾曼方程來求解價值函數(shù)。求解過程如式(4)、(5)所示:

    Eπ[r(s′|s,a)+γVπ(s′)|s0=s]

    (4)

    Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]

    (5)

    在式(4)中,π表示當(dāng)前的策略,Qπ(s,a)是針對實際問題在vπ(s)基礎(chǔ)上引入的動作值a,Qπ(s,a)表示動作值函數(shù),式(5)表示動作值函數(shù)模型。對貝爾曼方程求解最優(yōu)解得到貝爾曼最優(yōu)方程(6)、(7)為:

    (6)

    (7)

    求解上述貝爾曼最優(yōu)方程(6)、(7)有兩種方法:策略迭代和價值迭代。

    1.2.2 策略迭代

    策略迭代共有兩個步驟:策略評估和策略改進,首先對已有的策略進行評估,獲得狀態(tài)值函數(shù),然后根據(jù)評估結(jié)果,如果新策略更好則取代之前策略,否則,保持原有策略。具體算法流程如下所示:

    1)策略評估

    Inputπ(輸入策略π)

    Initialize an arrayv(s)=0,for all s∈δ+

    Repeat

    Δ←0

    For eachS∈δ:

    temp←v(s)

    v(s)←∑aπ(a|s)∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]Δ←max(Δ,|temp-v(s)|)

    UntilΔ<θ(a smalll positive number)

    Outputv≈vπ

    2)策略迭代

    policy-stable←true

    For eachs∈δ:

    temp←π(s)

    π(s)←argmaxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]

    Iftemp≠π(s),then policy-stable←false

    If policy-stable,then stop and returnvandπ

    Else go to evalue policy

    1.2.3 值迭代

    值迭代使用貝爾曼最優(yōu)方程來更新value,經(jīng)過反復(fù)迭代使得最終的value收斂于Vπ,即在當(dāng)前狀態(tài)下最優(yōu)值為value時,該最優(yōu)值value對應(yīng)的策略即為最優(yōu)策略。其算法流程如下:

    Initialize arrayvarbitrarily(e.g.,v(s)=0for all

    s∈δ′)

    Repeat

    Δ←0

    For eachs∈δ

    temp←v(s)

    v(s)←maxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]

    Δ←max(Δ,|temp-v(s)|)

    UntilΔ<θ(a small positive number)

    Output a determinisitc policyπ,such like

    π(s)=argmaxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]

    1.3 深度強化學(xué)習(xí)

    在高級人工智能領(lǐng)域,智能體感知和決策能力是衡量智能體智能化的關(guān)鍵性指標(biāo)。強化學(xué)習(xí)雖然具有優(yōu)秀的決策能力,但是其應(yīng)用大部分均依賴于人工提取特征,難以處理高維度狀態(tài)空間下的問題。而深度學(xué)習(xí)具有優(yōu)秀的感知能力,能夠從高維原始數(shù)據(jù)提取特征。這兩者優(yōu)勢互補、結(jié)合成深度強化學(xué)習(xí)。目前DRL技術(shù)在游戲[7-8],機器人控制[9-10],參數(shù)優(yōu)化[11]和機器視覺[12]等領(lǐng)域均有廣泛的應(yīng)用。

    1.3.1 基于值函數(shù)

    基于值函數(shù)的深度強化學(xué)習(xí)最典型的的代表就是Mnih[7]等人將CNN與Q學(xué)習(xí)算法[14-15]結(jié)合提出的深度Q網(wǎng)絡(luò)(Deep Q-network,DQN)模型。其基本原理就是將Q學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)化,利用深度卷積神經(jīng)網(wǎng)絡(luò)不斷迭代更新值函數(shù)的優(yōu)化目標(biāo),即目標(biāo)Q值,從而得到最優(yōu)的學(xué)習(xí)策略。

    1.3.2 基于策略梯度

    基于值函數(shù)的深度強化學(xué)習(xí)主要用于解決在離散動作空間下的任務(wù),對于連續(xù)動作空間的任務(wù)采用基于策略梯度的深度強化學(xué)習(xí)算法可以或得更好的決策效果。策略梯度通過不斷計算策略的總獎勵期望值關(guān)于策略參數(shù)的梯度來更新參數(shù),得到最優(yōu)策略[13]。其優(yōu)勢在于:直接優(yōu)化策略的總獎勵期望,以端對端的方式直接在策略空間里搜索最優(yōu)策略,比基于DQN的模型適用范圍更廣泛,優(yōu)化效果也更好。

    2 基于DQN的移動機器人導(dǎo)航策略研究

    本文將DQN網(wǎng)絡(luò)、經(jīng)驗回放機制、搜索與利用平衡策略[16]以及隨機梯度下降法等方法結(jié)合應(yīng)用到機器人導(dǎo)航研究中,提出一種基于深度強化學(xué)習(xí)的移動機器人導(dǎo)航策略的研究方法。通過OpenCV仿真平臺的檢驗,驗證本文提出的算法能夠高效準(zhǔn)確的完成導(dǎo)航任務(wù)。

    2.1 DQN網(wǎng)絡(luò)參數(shù)預(yù)處理

    OpenCV仿真平臺生成的地圖原始圖像是RGB圖像,有3個通道。直接將其輸入網(wǎng)絡(luò)計算量較大。因此本文采用了基本的圖像預(yù)處理來降低輸入維度,通過將圖像等比例縮放至大小為80×80,然后利用二值法將其轉(zhuǎn)換為只有兩個通道的灰度圖像,這樣可以降低輸入?yún)?shù)一個維度和數(shù)據(jù)量,有利于之后網(wǎng)絡(luò)的特征提取和處理。

    2.2 模型結(jié)構(gòu)與圖像處理過程

    本文采用的網(wǎng)絡(luò)模型是2015年,由DeepMind提出的深度Q網(wǎng)絡(luò)(deep Q network,DQN)[3],DQN的輸入是經(jīng)過預(yù)處理后當(dāng)前時刻連續(xù)的4幅圖像。經(jīng)過3個卷積層和兩個全連接層的處理后,最終輸出動作的Q值。圖2表示DQN的模型結(jié)構(gòu)。

    圖2 DQN網(wǎng)絡(luò)模型結(jié)構(gòu)

    圖3描述了本文采用的DQN網(wǎng)絡(luò)模型對圖像進行處理的具體過程。

    圖3 圖像處理過程

    1)將經(jīng)過預(yù)處理后的連續(xù)四幅圖像80×80×4(4表示4個通道,四張圖即是4個通道)經(jīng)過卷積核為8×8×4×32,步長為4的卷積,得到32張大小為20×20的特征圖,即20×20×32。將其進行池化核為2×2的池化得到10×10的圖像,即此時為10×10×32;

    2)將上一步所得圖像進行卷積核為4×4×32×64,步長為2的卷積得到64張5×5的圖像,即5×5×64;

    3)再進行一次卷積核為3×3×64×64,步長為1的卷積,此時依舊得到5×5×64的圖像,但此時經(jīng)過了再一輪卷積的圖像,其圖像信息更加抽象,更具全局性;

    4)對第二次卷積后5×5×64的圖像進行1 600×512的全連接,得到一個512維的特征向量,即512×1;

    5)再次進行全連接,最終輸出二位向量[0,1]和[1,0],表示仿真實驗中的正反饋和負反饋。

    2.3 DQN算法訓(xùn)練流程

    DQN算法是在傳統(tǒng)q學(xué)習(xí)算法的基礎(chǔ)上將其神經(jīng)網(wǎng)絡(luò)化實現(xiàn)的。傳統(tǒng)q學(xué)習(xí)是最早的在線學(xué)習(xí)算法,是基于值迭代的具有代表性的強化學(xué)習(xí)算法。圖4描述了DQN算法的訓(xùn)練流程。

    圖4 DQN訓(xùn)練流程圖

    具體算法流程為:

    1)初始化樣本池D,容量為N;

    2)將卷積神經(jīng)網(wǎng)絡(luò)進行隨機權(quán)重初始化,得到初始Q函數(shù);

    3)進入循環(huán)A,i=1,…,M;

    4)選擇初始狀態(tài),對仿真環(huán)境圖像進行預(yù)處理;

    5)進入循環(huán)B,t=1,…,T;

    6)采用隨機策略ε選擇一個動作at;

    7)執(zhí)行動作at,得到獎勵rt和下一時刻仿真環(huán)境圖像xt+1;

    8)令St+1=St,at,xt+1,對狀態(tài)進行預(yù)處理φt+1=φ(st+1);

    9)將(φt,at,rt,φt+1)存儲到樣本池D中;

    10)從樣本池D中隨機采集m個訓(xùn)練樣本(φj,aj,rj,φj+1);

    11)令樣本標(biāo)簽值為:

    12)用梯度下降法更新網(wǎng)絡(luò)參數(shù),計算損失函數(shù);

    13)退出循環(huán)B;

    14)退出循環(huán)A。

    DQN算法在傳統(tǒng)的Q學(xué)習(xí)算法上進行了改進,采用經(jīng)驗回放機制和固定目標(biāo)網(wǎng)絡(luò)兩個關(guān)鍵技術(shù)來提升算法的穩(wěn)定性。

    經(jīng)驗回放機制:經(jīng)驗回放最初是由Linux在其博士論文中提出[17],其原理是將訓(xùn)練過程中的樣本依次存儲在樣本池中,訓(xùn)練時再從中隨機抽取一定量的樣本,使用隨機梯度下降法(SGD)更新網(wǎng)絡(luò)參數(shù)。經(jīng)驗回放機制的使用,對歷史數(shù)據(jù)也能進行重復(fù)采樣,提高了數(shù)據(jù)的使用效率,同時也打破了樣本間的關(guān)聯(lián),使樣本間相互獨立,提升的算法的穩(wěn)定性。

    固定目標(biāo)網(wǎng)絡(luò):將q網(wǎng)絡(luò)迭代優(yōu)化的目標(biāo)Q值采用時序差分法由另一個單獨的較慢的目標(biāo)網(wǎng)絡(luò)產(chǎn)生,這樣提高了算法的收斂性。

    DQN算法的主要特點有3個:

    1)是一種端到端的訓(xùn)練方法,以原始圖像和獎勵函數(shù)作為的輸入和每個動作和對應(yīng)Q值的輸出相映射;

    2)使用經(jīng)驗回放機制和固定目標(biāo)網(wǎng)絡(luò)提升整個訓(xùn)練過程的穩(wěn)定性和收斂性;

    3)可以再不同的仿真平臺中采用大致相同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練算法,僅需根據(jù)訓(xùn)練情況調(diào)整相應(yīng)的獎勵函數(shù)。

    2.4 搜索與利用平衡策略

    在2.3節(jié)中的DQN算法中步驟(6)使用了一個策略來生成移動機器人的下一步動作,這個策略并不是求解優(yōu)化過程得到的策略,是單獨用來生成機器人動作的策略。因此,本文所用的Q-learning算法屬于off-policy,整個DQN的算法流程也是無模型的,只考慮當(dāng)前的環(huán)境信息和獎勵函數(shù)reward的反饋,即model-free的方法。一般來說,使用策略生成機器人動作主要有兩種策略:

    1)greedy policy,即貪心策略,讓機器人盡可能朝獎勵函數(shù)大的方向行進,當(dāng)機器人執(zhí)行一個動作如果得到的獎勵是正的,積極的則下一次繼續(xù)朝該方向行進,反之,則朝其他方向前進。

    2)randomized policy,即隨機策略,不考慮機器人執(zhí)行動作后得到的反饋,每次都均等的隨機選取一個動作執(zhí)行。

    考慮到greedy policy容易導(dǎo)致過擬合的現(xiàn)象,使得機器人導(dǎo)航的策略陷入局部最優(yōu),只能執(zhí)行單一或少數(shù)情況下的導(dǎo)航,不具備良好的泛化能力。因此,本文采用randomized policy來隨機生成機器人的動作,相應(yīng)的也增加了一定的訓(xùn)練時間來保證良好實驗的效果。

    3 實驗仿真與分析

    3.1 實驗平臺描述

    本文仿真實驗使用的平臺如表1所示。

    表1 仿真使用平臺

    使用OpenCV構(gòu)建的移動機器人仿真實驗環(huán)境如圖5所示,仿真環(huán)境是由一個800*800像素大小的圖像構(gòu)成,其中黑色邊框代表圍墻,黑色矩形代表障礙物,圓點表示出發(fā)點,方塊表示導(dǎo)航的目的地,起點和終點均是隨機出現(xiàn)在地圖中非障礙物的地方。

    圖5 移動機器人仿真環(huán)境

    3.2 實驗結(jié)果

    3.2.1 初始地圖下的導(dǎo)航

    圖6(a)和圖6(b)分別展示地圖環(huán)境未發(fā)生變化時,兩次機器人從隨機起點到隨機終點的順利導(dǎo)航。如圖中所示,機器人有上下左右4個方向維度的動作,每次5個像素點移動一次。

    圖6 初始地圖下的導(dǎo)航

    3.2.2 增量環(huán)境下的導(dǎo)航

    圖7(a)和圖7(b)展示了增量環(huán)境下,即地圖中障礙物增加的情況下,移動機器人也能夠順利完成導(dǎo)航任務(wù),并且在此情況下,依舊采用的是之前訓(xùn)練好的模型,相同的網(wǎng)絡(luò)結(jié)構(gòu),相同的參數(shù)。

    圖7 增量環(huán)境下的導(dǎo)航

    4 結(jié)束語

    本文針對復(fù)雜動態(tài)變化的室內(nèi)環(huán)境下采用了區(qū)別于以往A*算法等的只能解決固定兩點位置間的路徑規(guī)劃的算法,使用當(dāng)下人工智能最新的研究領(lǐng)域深度強化學(xué)習(xí),將其運用在機器人導(dǎo)航策略的研究上,有效的解決了在室內(nèi)環(huán)境中,場景的發(fā)生改變的情況下也能完成移動機器人從任意一個位置到任意另一個位置的導(dǎo)航。不過該研究方法也有一些難點:

    1)樣本利用率低,需要大量實驗迭代次數(shù)才能達到較好的結(jié)果,因此導(dǎo)致訓(xùn)練所需時間較長;

    2)獎勵函數(shù)較難設(shè)置,需要根據(jù)使用的實際平臺訓(xùn)練時的實驗結(jié)果進行細微調(diào)整;

    3)過擬合嚴(yán)重,場景發(fā)生較大改變時實驗結(jié)果不太理想,需要重新訓(xùn)練;

    4)導(dǎo)航成功率需待提高,當(dāng)環(huán)境信息較為復(fù)雜是,移動機器人的導(dǎo)航難以保持比較高的準(zhǔn)確性。

    雖然深度強化學(xué)習(xí)應(yīng)用于機器人導(dǎo)航策略研究有以上難點,但是隨著硬件性能的逐步提升大量的實驗訓(xùn)練次數(shù)的需求將不是問題,樣本利用率低的問題也能得到有效的解決,此外越來越多的學(xué)者對于獎勵函數(shù)的設(shè)置和更優(yōu)的訓(xùn)練模型展開了研究,因此利用深度強化學(xué)習(xí)進行機器人導(dǎo)航策略的研究一定會是今后一個研究的熱點,能成為滿足人們對移動機器人智能化的要求的有利手段。

    猜你喜歡
    移動機器人卷積機器人
    移動機器人自主動態(tài)避障方法
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    基于Twincat的移動機器人制孔系統(tǒng)
    機器人來幫你
    認識機器人
    機器人來啦
    認識機器人
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
    一进一出抽搐gif免费好疼| 国产伦一二天堂av在线观看| 草草在线视频免费看| 欧美国产日韩亚洲一区| 国产午夜精品久久久久久| 久久久精品大字幕| 国产成人精品无人区| 在线观看舔阴道视频| 国产真实乱freesex| 99热只有精品国产| 99视频精品全部免费 在线 | 最新中文字幕久久久久 | 欧美在线一区亚洲| 日本成人三级电影网站| 精品日产1卡2卡| 97超视频在线观看视频| 中文字幕高清在线视频| 久久这里只有精品19| 欧美午夜高清在线| 精品不卡国产一区二区三区| 久久久久性生活片| 舔av片在线| 国产乱人视频| 亚洲人与动物交配视频| 热99在线观看视频| 午夜日韩欧美国产| 国产成人福利小说| 免费在线观看日本一区| 深夜精品福利| 国产毛片a区久久久久| 欧美成人一区二区免费高清观看 | 亚洲精品在线美女| 日本黄色片子视频| 亚洲aⅴ乱码一区二区在线播放| 成年女人看的毛片在线观看| 亚洲18禁久久av| 岛国在线观看网站| 久久久久国产一级毛片高清牌| 在线观看午夜福利视频| 在线免费观看的www视频| 免费在线观看日本一区| 韩国av一区二区三区四区| 午夜精品久久久久久毛片777| 国产三级黄色录像| 日韩精品青青久久久久久| 久久久久久久久免费视频了| 久9热在线精品视频| 波多野结衣高清作品| 国产亚洲精品久久久久久毛片| 精品国产乱子伦一区二区三区| 精品久久久久久久末码| 亚洲自偷自拍图片 自拍| 18禁裸乳无遮挡免费网站照片| 老汉色∧v一级毛片| 中文在线观看免费www的网站| 久久久久久久精品吃奶| 色在线成人网| 亚洲在线观看片| 男女之事视频高清在线观看| 搡老岳熟女国产| 啦啦啦韩国在线观看视频| 最新中文字幕久久久久 | 别揉我奶头~嗯~啊~动态视频| av欧美777| 亚洲欧美日韩东京热| 欧美乱妇无乱码| 国产一区二区三区在线臀色熟女| av中文乱码字幕在线| 在线播放国产精品三级| 欧美黑人巨大hd| 国产蜜桃级精品一区二区三区| 99精品在免费线老司机午夜| 丝袜人妻中文字幕| 午夜a级毛片| 看片在线看免费视频| x7x7x7水蜜桃| 久久久水蜜桃国产精品网| 日本免费一区二区三区高清不卡| 看黄色毛片网站| 高清毛片免费观看视频网站| 日本a在线网址| 日韩中文字幕欧美一区二区| 亚洲无线观看免费| 亚洲av电影不卡..在线观看| 中国美女看黄片| 国产欧美日韩一区二区三| 在线十欧美十亚洲十日本专区| 婷婷丁香在线五月| 性色avwww在线观看| 宅男免费午夜| 国内少妇人妻偷人精品xxx网站 | 欧美乱码精品一区二区三区| 精品久久蜜臀av无| 两个人视频免费观看高清| 美女黄网站色视频| 一个人看视频在线观看www免费 | 人妻夜夜爽99麻豆av| 少妇的逼水好多| 夜夜夜夜夜久久久久| 国产免费av片在线观看野外av| 国产亚洲精品久久久久久毛片| 国产成+人综合+亚洲专区| 亚洲av电影不卡..在线观看| 这个男人来自地球电影免费观看| 国产精品乱码一区二三区的特点| 可以在线观看的亚洲视频| 日本a在线网址| 亚洲中文字幕日韩| 最近最新中文字幕大全电影3| a级毛片在线看网站| 免费av毛片视频| 亚洲熟女毛片儿| 精品国内亚洲2022精品成人| 熟女人妻精品中文字幕| 黄色视频,在线免费观看| 99re在线观看精品视频| 99久久国产精品久久久| 国产精品久久久av美女十八| 小说图片视频综合网站| 国产av麻豆久久久久久久| 亚洲成a人片在线一区二区| 老鸭窝网址在线观看| 国产成年人精品一区二区| 亚洲成人免费电影在线观看| 国产1区2区3区精品| 日本黄色片子视频| 午夜免费激情av| 久久香蕉国产精品| 精华霜和精华液先用哪个| 免费在线观看视频国产中文字幕亚洲| 性欧美人与动物交配| 久久精品91无色码中文字幕| 亚洲精品国产精品久久久不卡| 18禁观看日本| 国产精品一区二区三区四区免费观看 | 国产极品精品免费视频能看的| 亚洲 欧美一区二区三区| 国产精品美女特级片免费视频播放器 | 久久国产乱子伦精品免费另类| 日韩精品中文字幕看吧| 精品久久久久久久久久免费视频| 热99re8久久精品国产| 五月玫瑰六月丁香| 又粗又爽又猛毛片免费看| 国产免费男女视频| 91麻豆av在线| 免费观看的影片在线观看| 亚洲九九香蕉| 女人高潮潮喷娇喘18禁视频| 亚洲最大成人中文| 亚洲av成人精品一区久久| 午夜激情欧美在线| 久久精品国产清高在天天线| 亚洲精品一区av在线观看| 激情在线观看视频在线高清| 日韩大尺度精品在线看网址| x7x7x7水蜜桃| 1024手机看黄色片| 欧美黑人巨大hd| 在线免费观看的www视频| 亚洲成人久久性| av天堂中文字幕网| 男女那种视频在线观看| av女优亚洲男人天堂 | 欧美日韩乱码在线| 色综合亚洲欧美另类图片| 亚洲成人久久性| 国产亚洲av高清不卡| 看黄色毛片网站| 久久精品国产99精品国产亚洲性色| 俺也久久电影网| 91av网站免费观看| 国产伦精品一区二区三区视频9 | 精品一区二区三区四区五区乱码| 日本精品一区二区三区蜜桃| 国产精品香港三级国产av潘金莲| 国产精品99久久99久久久不卡| 99热这里只有精品一区 | 色噜噜av男人的天堂激情| 国产精品98久久久久久宅男小说| 欧美日本视频| 免费看日本二区| 欧美日韩一级在线毛片| 成人无遮挡网站| 麻豆国产97在线/欧美| 色哟哟哟哟哟哟| 精品午夜福利视频在线观看一区| 免费观看的影片在线观看| 亚洲专区中文字幕在线| 国产97色在线日韩免费| 一级作爱视频免费观看| 国产高清有码在线观看视频| 波多野结衣高清无吗| 日本熟妇午夜| 可以在线观看毛片的网站| 精品欧美国产一区二区三| 精品国产乱码久久久久久男人| 国产一区二区在线观看日韩 | 1000部很黄的大片| 网址你懂的国产日韩在线| 国产v大片淫在线免费观看| 18禁美女被吸乳视频| 99久久精品热视频| 女人高潮潮喷娇喘18禁视频| 夜夜看夜夜爽夜夜摸| 高清在线国产一区| 男人和女人高潮做爰伦理| 19禁男女啪啪无遮挡网站| 他把我摸到了高潮在线观看| 日韩欧美精品v在线| 麻豆久久精品国产亚洲av| 亚洲国产欧美网| 日韩欧美国产在线观看| 日本在线视频免费播放| 国产伦人伦偷精品视频| 亚洲精品国产精品久久久不卡| 他把我摸到了高潮在线观看| 久久这里只有精品中国| 美女免费视频网站| 亚洲 国产 在线| 两个人的视频大全免费| 99视频精品全部免费 在线 | 精品久久久久久成人av| 国产97色在线日韩免费| 一级作爱视频免费观看| 国模一区二区三区四区视频 | 亚洲黑人精品在线| 69av精品久久久久久| 日韩欧美免费精品| 午夜福利在线观看吧| 69av精品久久久久久| 国产成人福利小说| 亚洲一区二区三区色噜噜| 中文字幕av在线有码专区| 亚洲欧美精品综合久久99| 丝袜人妻中文字幕| 亚洲国产精品成人综合色| 国产蜜桃级精品一区二区三区| 美女免费视频网站| 99视频精品全部免费 在线 | 欧美精品啪啪一区二区三区| 国内精品久久久久精免费| 伦理电影免费视频| 亚洲第一电影网av| 国产人伦9x9x在线观看| 在线播放国产精品三级| 亚洲avbb在线观看| 少妇的丰满在线观看| 国产成人欧美在线观看| 国内精品久久久久久久电影| 成人性生交大片免费视频hd| 欧美乱妇无乱码| 国产成人影院久久av| 亚洲精品久久国产高清桃花| 亚洲aⅴ乱码一区二区在线播放| 国产成年人精品一区二区| 91av网一区二区| avwww免费| 亚洲 国产 在线| 午夜福利高清视频| 老汉色∧v一级毛片| 麻豆久久精品国产亚洲av| 老司机在亚洲福利影院| 老司机深夜福利视频在线观看| 曰老女人黄片| 午夜福利18| 琪琪午夜伦伦电影理论片6080| 好男人在线观看高清免费视频| 国产精品久久电影中文字幕| 搡老熟女国产l中国老女人| 日韩免费av在线播放| 成人三级黄色视频| 久久人人精品亚洲av| 久久久久久国产a免费观看| 久久久久久久精品吃奶| 国产成人av教育| 观看免费一级毛片| 中文字幕av在线有码专区| 怎么达到女性高潮| 国产av一区在线观看免费| 亚洲一区高清亚洲精品| 国模一区二区三区四区视频 | 亚洲欧美精品综合一区二区三区| 免费无遮挡裸体视频| 国产激情偷乱视频一区二区| av黄色大香蕉| 亚洲精品乱码久久久v下载方式 | 日日夜夜操网爽| 亚洲成av人片在线播放无| 好看av亚洲va欧美ⅴa在| 无限看片的www在线观看| h日本视频在线播放| 又紧又爽又黄一区二区| 麻豆久久精品国产亚洲av| 午夜福利高清视频| 18禁观看日本| 看片在线看免费视频| 国产激情偷乱视频一区二区| 人妻久久中文字幕网| 亚洲avbb在线观看| svipshipincom国产片| 伦理电影免费视频| 国产高清三级在线| 丰满人妻熟妇乱又伦精品不卡| 狂野欧美白嫩少妇大欣赏| 午夜精品在线福利| 中文字幕精品亚洲无线码一区| 久久久色成人| 性欧美人与动物交配| 欧美成人免费av一区二区三区| 嫁个100分男人电影在线观看| 亚洲精华国产精华精| 亚洲精华国产精华精| 18禁黄网站禁片午夜丰满| 国产成人欧美在线观看| 国产人伦9x9x在线观看| 波多野结衣巨乳人妻| 又爽又黄无遮挡网站| cao死你这个sao货| 午夜福利视频1000在线观看| 国产真实乱freesex| 男女之事视频高清在线观看| 色精品久久人妻99蜜桃| 久久久久国内视频| 啪啪无遮挡十八禁网站| 日韩高清综合在线| 日日干狠狠操夜夜爽| 母亲3免费完整高清在线观看| 给我免费播放毛片高清在线观看| 国内精品久久久久久久电影| 亚洲成人久久爱视频| 亚洲精品456在线播放app | 久久久久免费精品人妻一区二区| 国产探花在线观看一区二区| 少妇的逼水好多| 熟妇人妻久久中文字幕3abv| 亚洲成人免费电影在线观看| 一级毛片女人18水好多| 亚洲 欧美一区二区三区| 熟妇人妻久久中文字幕3abv| 国产乱人伦免费视频| 一级毛片精品| 亚洲无线观看免费| 国产乱人伦免费视频| 国产亚洲精品综合一区在线观看| 国产伦在线观看视频一区| 天堂av国产一区二区熟女人妻| 国产 一区 欧美 日韩| 我的老师免费观看完整版| 国产精品av久久久久免费| 精品99又大又爽又粗少妇毛片 | 亚洲成人免费电影在线观看| 欧美+亚洲+日韩+国产| 极品教师在线免费播放| 国产视频内射| 搞女人的毛片| av欧美777| 欧美xxxx黑人xx丫x性爽| 久久国产精品人妻蜜桃| 全区人妻精品视频| www.999成人在线观看| bbb黄色大片| 亚洲av中文字字幕乱码综合| 大型黄色视频在线免费观看| 哪里可以看免费的av片| 国产成人一区二区三区免费视频网站| 午夜日韩欧美国产| 国产野战对白在线观看| 亚洲欧美一区二区三区黑人| 欧美中文综合在线视频| 久久香蕉精品热| 亚洲熟妇熟女久久| av片东京热男人的天堂| 国内精品一区二区在线观看| 日本 av在线| 男人的好看免费观看在线视频| 久久久久国产精品人妻aⅴ院| 亚洲国产精品sss在线观看| 免费人成视频x8x8入口观看| 欧美大码av| 一进一出抽搐gif免费好疼| 女生性感内裤真人,穿戴方法视频| av女优亚洲男人天堂 | 美女高潮喷水抽搐中文字幕| 成人av在线播放网站| 搡老熟女国产l中国老女人| 一级a爱片免费观看的视频| 嫩草影院入口| 午夜精品一区二区三区免费看| 色在线成人网| 欧美成人一区二区免费高清观看 | 香蕉av资源在线| 亚洲国产色片| 啦啦啦韩国在线观看视频| 亚洲真实伦在线观看| 黄频高清免费视频| 国产aⅴ精品一区二区三区波| 精品电影一区二区在线| 亚洲精品中文字幕一二三四区| 蜜桃久久精品国产亚洲av| 99视频精品全部免费 在线 | 色尼玛亚洲综合影院| 999精品在线视频| 久久久精品欧美日韩精品| 色尼玛亚洲综合影院| 麻豆久久精品国产亚洲av| 亚洲狠狠婷婷综合久久图片| 国产激情久久老熟女| 精品国产超薄肉色丝袜足j| 88av欧美| bbb黄色大片| 欧美精品啪啪一区二区三区| 亚洲成人中文字幕在线播放| 欧美xxxx黑人xx丫x性爽| 午夜精品一区二区三区免费看| www.自偷自拍.com| 黄频高清免费视频| 午夜久久久久精精品| 色哟哟哟哟哟哟| 长腿黑丝高跟| 国产成人aa在线观看| 岛国在线观看网站| 亚洲av成人av| 久久草成人影院| 日韩中文字幕欧美一区二区| 淫秽高清视频在线观看| 熟女人妻精品中文字幕| 欧美不卡视频在线免费观看| 波多野结衣高清作品| 日本黄色片子视频| 国语自产精品视频在线第100页| 深夜精品福利| 欧美黄色淫秽网站| 国产亚洲av高清不卡| 视频区欧美日本亚洲| 欧洲精品卡2卡3卡4卡5卡区| 亚洲成人久久性| 欧美在线一区亚洲| 一级毛片精品| 久久精品国产亚洲av香蕉五月| 亚洲人与动物交配视频| 三级男女做爰猛烈吃奶摸视频| 欧美日韩中文字幕国产精品一区二区三区| 亚洲国产精品久久男人天堂| 午夜视频精品福利| 精品国产乱码久久久久久男人| 精品一区二区三区av网在线观看| 亚洲精品在线观看二区| 嫁个100分男人电影在线观看| www日本在线高清视频| 久久久成人免费电影| 男插女下体视频免费在线播放| 国内揄拍国产精品人妻在线| 欧美午夜高清在线| 国产美女午夜福利| 国产精品99久久99久久久不卡| 床上黄色一级片| 亚洲avbb在线观看| 每晚都被弄得嗷嗷叫到高潮| 国产高清有码在线观看视频| 精品国产乱子伦一区二区三区| 午夜福利欧美成人| 国产成人一区二区三区免费视频网站| 变态另类成人亚洲欧美熟女| 制服丝袜大香蕉在线| 成人精品一区二区免费| 欧美黑人欧美精品刺激| 欧洲精品卡2卡3卡4卡5卡区| 亚洲成人精品中文字幕电影| 日本撒尿小便嘘嘘汇集6| 国产高潮美女av| 男人的好看免费观看在线视频| 激情在线观看视频在线高清| 成人午夜高清在线视频| 亚洲午夜精品一区,二区,三区| 一夜夜www| 免费在线观看视频国产中文字幕亚洲| 国产伦人伦偷精品视频| 欧美最黄视频在线播放免费| 国产精品av视频在线免费观看| aaaaa片日本免费| 欧美日韩黄片免| 亚洲国产精品成人综合色| 日韩欧美在线乱码| 99精品欧美一区二区三区四区| 精品日产1卡2卡| 日韩欧美国产一区二区入口| 性色avwww在线观看| 亚洲欧美日韩东京热| 亚洲九九香蕉| 波多野结衣巨乳人妻| 丰满人妻一区二区三区视频av | 欧美日韩中文字幕国产精品一区二区三区| 国产人伦9x9x在线观看| 五月伊人婷婷丁香| 国内精品久久久久久久电影| 悠悠久久av| 色播亚洲综合网| 可以在线观看毛片的网站| 亚洲国产看品久久| 男人和女人高潮做爰伦理| 不卡av一区二区三区| 亚洲熟妇中文字幕五十中出| 又爽又黄无遮挡网站| 国产一区二区三区视频了| 观看美女的网站| 一区二区三区国产精品乱码| 老汉色av国产亚洲站长工具| 99久久成人亚洲精品观看| 一a级毛片在线观看| 久久精品国产99精品国产亚洲性色| 一区二区三区高清视频在线| 嫁个100分男人电影在线观看| 亚洲av片天天在线观看| 国产成人系列免费观看| 中文字幕人妻丝袜一区二区| 夜夜爽天天搞| 级片在线观看| 久久国产精品影院| 视频区欧美日本亚洲| 少妇的丰满在线观看| 三级男女做爰猛烈吃奶摸视频| 露出奶头的视频| 亚洲天堂国产精品一区在线| 国产三级在线视频| 国产精品久久久久久人妻精品电影| 国产精品 欧美亚洲| av在线蜜桃| 国产一区二区激情短视频| 99热这里只有精品一区 | 国产免费av片在线观看野外av| 夜夜夜夜夜久久久久| 一区二区三区高清视频在线| 男插女下体视频免费在线播放| 亚洲av片天天在线观看| 18禁国产床啪视频网站| 两人在一起打扑克的视频| 小说图片视频综合网站| 久久久精品欧美日韩精品| 日韩欧美国产在线观看| 村上凉子中文字幕在线| 毛片女人毛片| 亚洲熟女毛片儿| 欧美xxxx黑人xx丫x性爽| 岛国在线观看网站| 久久久久久大精品| 国内精品久久久久精免费| 国产精品久久久久久精品电影| 在线免费观看不下载黄p国产 | bbb黄色大片| 国产99白浆流出| 成人无遮挡网站| 国产乱人伦免费视频| 中亚洲国语对白在线视频| 三级男女做爰猛烈吃奶摸视频| 母亲3免费完整高清在线观看| 国产黄片美女视频| 丝袜人妻中文字幕| 999精品在线视频| 精品无人区乱码1区二区| 午夜影院日韩av| 亚洲avbb在线观看| 国产私拍福利视频在线观看| 亚洲av成人精品一区久久| 亚洲国产欧洲综合997久久,| 欧美最黄视频在线播放免费| 欧美日韩中文字幕国产精品一区二区三区| 中文字幕av在线有码专区| 偷拍熟女少妇极品色| 一个人看视频在线观看www免费 | 色精品久久人妻99蜜桃| 日本成人三级电影网站| 欧美乱妇无乱码| 国内少妇人妻偷人精品xxx网站 | 老熟妇仑乱视频hdxx| 99久久国产精品久久久| 2021天堂中文幕一二区在线观| 国产成人欧美在线观看| 最新中文字幕久久久久 | 国产高清三级在线| 97人妻精品一区二区三区麻豆| 午夜福利成人在线免费观看| 1024香蕉在线观看| 久久久精品大字幕| 亚洲狠狠婷婷综合久久图片| 99久久99久久久精品蜜桃| 偷拍熟女少妇极品色| 欧美绝顶高潮抽搐喷水| 18美女黄网站色大片免费观看| 国产视频一区二区在线看| 久久久久国内视频| 又紧又爽又黄一区二区| a级毛片在线看网站| 精品国产超薄肉色丝袜足j| 亚洲人与动物交配视频| 2021天堂中文幕一二区在线观| 熟女少妇亚洲综合色aaa.| 男人舔女人下体高潮全视频| 成人亚洲精品av一区二区| 岛国视频午夜一区免费看| 看免费av毛片| 最近视频中文字幕2019在线8| 日本熟妇午夜| 日本一二三区视频观看| 色哟哟哟哟哟哟| 中文字幕精品亚洲无线码一区| 亚洲国产精品999在线| 国产日本99.免费观看| 成人三级黄色视频| 欧美大码av| 国产欧美日韩一区二区三| 一区二区三区国产精品乱码| 叶爱在线成人免费视频播放| 国产精品99久久99久久久不卡| 母亲3免费完整高清在线观看|