• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    結(jié)合LSTM的強(qiáng)化學(xué)習(xí)動(dòng)態(tài)環(huán)境路徑規(guī)劃算法

    2021-03-13 06:00:44曲,張義,郭坤,王
    關(guān)鍵詞:編碼器規(guī)劃動(dòng)作

    武 曲,張 義,郭 坤,王 璽

    (青島理工大學(xué) 信息與控制工程學(xué)院,山東 青島 266520)

    1 引 言

    路徑規(guī)劃是人工智能領(lǐng)域的一個(gè)重要研究方向,在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用.迄今已經(jīng)有許多經(jīng)典的路徑規(guī)劃算法被提出.

    Dijkstra算法是一種很早就被提出的路徑規(guī)劃算法[1],它將環(huán)境抽象為一個(gè)圖問(wèn)題,利用廣度優(yōu)先搜索策略遍歷圖,直到找到最短路徑.A*算法是Dijkstra算法[2]的改進(jìn).在原有算法的基礎(chǔ)上增加了啟發(fā)式函數(shù),并定義了一種當(dāng)區(qū)域與擴(kuò)展點(diǎn)之間的一種度量作為擴(kuò)展優(yōu)先級(jí),在進(jìn)行路徑擴(kuò)展時(shí)會(huì)優(yōu)先擴(kuò)展優(yōu)先級(jí)高的節(jié)點(diǎn).但當(dāng)該方法用于處理多維復(fù)雜問(wèn)題時(shí),無(wú)論是把環(huán)境抽象為圖模型還是對(duì)圖模型求解都將變得很復(fù)雜.勢(shì)場(chǎng)法[3]把規(guī)劃空間看作物理學(xué)中的場(chǎng),把智能體看作一種粒子.障礙物對(duì)粒子產(chǎn)生排斥力,目標(biāo)對(duì)粒子產(chǎn)生引力.兩者的合力即為智能體的最終運(yùn)動(dòng)的方向.這種方法實(shí)時(shí)性較好,產(chǎn)生的路徑通常十分平滑,適合于機(jī)械臂一類(lèi)的應(yīng)用,缺點(diǎn)是在合力為0的位置智能體容易陷入局部最優(yōu)解.

    近年來(lái),隨機(jī)人工智能的興起,很多基于人工智能的路徑規(guī)劃方法被提出,Chen等[4]提出了一種雙向神經(jīng)網(wǎng)絡(luò)來(lái)解決未知環(huán)境下的路徑規(guī)劃問(wèn)題.Wu等[5]將路徑規(guī)劃任務(wù)轉(zhuǎn)化為環(huán)境分類(lèi)任務(wù),使用CNN來(lái)進(jìn)行路徑規(guī)劃.Yu等[6]提出了一種基于神經(jīng)網(wǎng)絡(luò)的魯棒控制方案,并結(jié)合自適應(yīng)補(bǔ)償器和自適應(yīng)控制增益來(lái)實(shí)現(xiàn)具有避障能力的編隊(duì)控制.

    強(qiáng)化學(xué)習(xí)是一類(lèi)應(yīng)用在未知環(huán)境的算法,作為機(jī)器學(xué)習(xí)的3大分支之一,不同于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)無(wú)需提供數(shù)據(jù),所有的學(xué)習(xí)資料都將從環(huán)境中獲取.智能體通過(guò)不斷的探索環(huán)境,根據(jù)不同的動(dòng)作產(chǎn)生的不同的反饋進(jìn)行模型的學(xué)習(xí),最終智能體將能以最優(yōu)策略在指定環(huán)境中完成任務(wù).

    自V. Mnih等提出DQN[7]以來(lái),深度強(qiáng)化學(xué)習(xí)不斷取得突破性進(jìn)展,也有一些研究者嘗試通過(guò)深度強(qiáng)化學(xué)習(xí)解決路徑規(guī)劃問(wèn)題.Piotr Mirowski等[8]以多模態(tài)感知信息作為輸入,通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行決策來(lái)完成網(wǎng)格空間中的導(dǎo)航任務(wù).Panov等[9]使用神經(jīng)Q-Learning算法來(lái)完成網(wǎng)格環(huán)境下的路徑規(guī)劃任務(wù).Lei等[10]采用CNN和DDQN進(jìn)行動(dòng)態(tài)環(huán)境下的路徑規(guī)劃.Lv 等[11]提出了一種改進(jìn)的基于DQN的學(xué)習(xí)策略,在學(xué)習(xí)的初始階段,創(chuàng)建一個(gè)體驗(yàn)價(jià)值評(píng)價(jià)網(wǎng)絡(luò),當(dāng)發(fā)生路徑漫游現(xiàn)象時(shí),利用并行探索結(jié)構(gòu)考慮對(duì)漫游點(diǎn)之外的其他點(diǎn)的探索,提高體驗(yàn)池的廣度.

    盡管上述方法在各自的領(lǐng)域都取得了不錯(cuò)的效果,但是他們實(shí)現(xiàn)路徑規(guī)劃仍存在一些不足之處.他們大多數(shù)只是在靜態(tài)環(huán)境中進(jìn)行路徑規(guī)劃,缺乏處理動(dòng)態(tài)場(chǎng)景的能力;動(dòng)作空間或狀態(tài)空間是離散的,這與連續(xù)的現(xiàn)實(shí)環(huán)境是不符合的,而且在某些情況下,離散動(dòng)作得出的最優(yōu)解還可以被連續(xù)動(dòng)作進(jìn)一步優(yōu)化;上述方法實(shí)現(xiàn)的路徑規(guī)劃多是從固定起點(diǎn)到固定終點(diǎn)的路徑規(guī)劃,這相當(dāng)于模型只學(xué)習(xí)到了一個(gè)局部最優(yōu)解,并不能完成整個(gè)環(huán)境的路徑規(guī)劃,這對(duì)指導(dǎo)現(xiàn)實(shí)應(yīng)用具有很大的局限性.

    為了實(shí)現(xiàn)全局動(dòng)態(tài)環(huán)境下的路徑規(guī)劃任務(wù),本文提出了一種結(jié)合了LSTM的路徑規(guī)劃算法.本文算法以環(huán)境圖像作為輸入,通過(guò)預(yù)訓(xùn)練的自動(dòng)編碼器進(jìn)行降維提取特征.在訓(xùn)練模型時(shí),以連續(xù)4幀圖片降維后的特征信息作為輸入,通過(guò)LSTM構(gòu)建的DDPG模型進(jìn)行路徑規(guī)劃,利用LSTM處理時(shí)序數(shù)據(jù)的特性,實(shí)現(xiàn)了在動(dòng)作選擇時(shí)進(jìn)行有預(yù)測(cè)的規(guī)避環(huán)境中的危險(xiǎn)區(qū)域的動(dòng)態(tài)路徑規(guī)劃.

    2 相關(guān)工作

    2.1 自動(dòng)編碼器

    自動(dòng)編碼器(Autoencoder)可以看做是利用深度學(xué)習(xí)的對(duì)數(shù)據(jù)進(jìn)行降維的一種方式,通過(guò)一系列的神經(jīng)網(wǎng)絡(luò)計(jì)算將高維數(shù)據(jù)壓縮到低維,再以對(duì)稱(chēng)的方式將數(shù)據(jù)復(fù)原,其結(jié)構(gòu)圖如圖1所示.

    圖1 自動(dòng)編碼器Fig.1 Autoencoder

    當(dāng)編碼器模型收斂后即可認(rèn)為中間的低維數(shù)據(jù)為壓縮后的降維數(shù)據(jù),再對(duì)低維數(shù)據(jù)進(jìn)行其他操作,即可在保證達(dá)到與原數(shù)據(jù)相同效果的同時(shí),亦能極大地降低操作過(guò)程的復(fù)雜度.

    2.2 LSTM

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一種處理時(shí)序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),RNN以一條時(shí)序數(shù)據(jù)為輸入,其結(jié)構(gòu)單元如圖2(a)所示,在一個(gè)計(jì)算單元的計(jì)算中,輸入部分除當(dāng)前時(shí)刻數(shù)據(jù)xt之外,還有一項(xiàng)ht-1,該數(shù)據(jù)是由之前的t-1個(gè)時(shí)刻的數(shù)據(jù)傳導(dǎo)計(jì)算而得,同樣地,RNN在t時(shí)刻的輸出,除了yt之外,還會(huì)生成一項(xiàng)ht,而ht則是包含了前t個(gè)時(shí)刻的信息,ht將被傳送到t+1時(shí)刻參與到t+1時(shí)刻的輸出的計(jì)算過(guò)程中.

    RNN的這種結(jié)構(gòu)設(shè)計(jì),使得RNN網(wǎng)絡(luò)具有了預(yù)測(cè)的能力.但是,在經(jīng)典的RNN網(wǎng)絡(luò)中,隱藏單元ht所攜帶的信息是所有前t個(gè)時(shí)刻的信息,這樣的結(jié)構(gòu)產(chǎn)生了兩個(gè)問(wèn)題:有些前序時(shí)刻信息對(duì)當(dāng)前時(shí)刻的輸出而言并沒(méi)有價(jià)值,參與到當(dāng)前時(shí)刻輸出的計(jì)算過(guò)程中反而會(huì)造成誤差;大量的前序信息參與當(dāng)前時(shí)刻輸出的處理過(guò)程將增加計(jì)算的負(fù)擔(dān),該問(wèn)題在序列較長(zhǎng)時(shí)將會(huì)變得尤為突出.

    長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)是一種改進(jìn)的RNN,該網(wǎng)絡(luò)結(jié)構(gòu)在產(chǎn)生當(dāng)前時(shí)刻的輸出時(shí)又增加了一項(xiàng)遺忘門(mén)的設(shè)計(jì),通過(guò)一個(gè)狀態(tài)參量c來(lái)實(shí)現(xiàn)遺忘功能,LSTM的結(jié)構(gòu)但愿如圖2(b)所示.

    圖2 RNN結(jié)構(gòu)單元Fig.2 RNN unit

    在LSTM的當(dāng)前時(shí)刻,計(jì)算單元首先通過(guò)xt和ht-1計(jì)算出一個(gè)中間結(jié)果,而后通過(guò)狀態(tài)參量ct-1參與構(gòu)建的遺忘門(mén)進(jìn)行選擇,最終輸出yt、ht以及ct.LSTM的設(shè)計(jì)方式以一種更有效的方式利用了前序信息,同時(shí)也減少了中間過(guò)程攜帶的數(shù)據(jù)量,相對(duì)于經(jīng)典RNN具有更好的效果.

    2.3 DDPG

    2.3.1 馬爾科夫決策

    強(qiáng)化學(xué)習(xí)過(guò)程普遍遵循馬爾科夫決策過(guò)程( Markov Decision Process,MDP ).MDP由一個(gè)的四元組組成,其中S(State)為狀態(tài)空間,表示智能體在環(huán)境中可能存在的狀態(tài)描述的集合.A(Action)為動(dòng)作空間,表示智能體在環(huán)境中可能采取的動(dòng)作描述的集合.P(Policy)為轉(zhuǎn)移策略,處在某個(gè)狀態(tài)的智能體將依P進(jìn)行動(dòng)作選擇,進(jìn)而從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài).R(Reward)為回報(bào),表示智能體在某個(gè)狀態(tài)下采取某個(gè)動(dòng)作而從環(huán)境中獲得的回報(bào)值.強(qiáng)化學(xué)習(xí)的目標(biāo)即為一個(gè)求取最佳策略P,在環(huán)境中進(jìn)行執(zhí)行一系列的動(dòng)作,使智能體以最佳的回合回報(bào)完成給定任務(wù).

    2.3.2 Actor-Critic

    Actor-Critic[12]是Vijay R. Konda和John N. Tsitsiklis提出的一種應(yīng)用在馬爾科夫決策過(guò)程中的算法,該算法由兩部分構(gòu)成,用來(lái)生成決策動(dòng)作了Actor部分和用來(lái)對(duì)動(dòng)作進(jìn)行評(píng)價(jià)的Critic部分,Actor是動(dòng)作生成器,以當(dāng)前狀態(tài)作為輸入,輸出一個(gè)當(dāng)前狀態(tài)下的要執(zhí)行的動(dòng)作.Critic則是一個(gè)評(píng)價(jià)器,即值函數(shù)生成器,以當(dāng)前狀態(tài)和Actor生成的動(dòng)作為輸入,生成一個(gè)價(jià)值量,該量用以衡量Actor生成的動(dòng)作的優(yōu)劣.

    在訓(xùn)練過(guò)程中,模型按式(1)所示對(duì)探索過(guò)程中產(chǎn)生的數(shù)據(jù)進(jìn)行處理.

    (1)

    使Critic模型學(xué)會(huì)為Actor生成的動(dòng)作進(jìn)行評(píng)估,Actor則向著Critic評(píng)價(jià)高的方向?qū)W習(xí).

    2.3.3 Policy Grident

    策略梯度(Policy Grident,PG)是由Richard S. Sutton等人提出的一種獨(dú)立與價(jià)值函數(shù)的、根據(jù)期望回報(bào)進(jìn)行策略更新的強(qiáng)化學(xué)習(xí)方式[13],PG采用回合更新的方式,在得到一條完成回合序列之后,對(duì)于序列中的狀態(tài)的值函數(shù)定義如式(3)所示.

    (2)

    多個(gè)回合后,st的值應(yīng)表示為多個(gè)回合的期望值,其定義如式(3)所示.

    (3)

    在PG方法中,策略π按式(4)所示進(jìn)行參數(shù)更新.

    θ←θ+α▽?duì)萳ogπθ(st,at)Vt

    (4)

    2.3.4 DQN

    深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)是深度強(qiáng)化學(xué)習(xí)的一個(gè)重要算法,它通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)造狀態(tài)價(jià)值函數(shù),直接生成Q值,解決了傳統(tǒng)Q-Learning方法維度受限、無(wú)法處理未參與訓(xùn)練的狀態(tài)數(shù)據(jù)的問(wèn)題;通過(guò)off policy的策略解決了強(qiáng)化學(xué)習(xí)數(shù)據(jù)的強(qiáng)相關(guān)性導(dǎo)致的很難應(yīng)用深度學(xué)習(xí)方法處理的問(wèn)題.DQN由兩個(gè)結(jié)構(gòu)相同,時(shí)間差分的網(wǎng)絡(luò)構(gòu)成,通過(guò)式(5)所示的算法進(jìn)行網(wǎng)絡(luò)參數(shù)的更新,由DQN開(kāi)始,圍繞深度強(qiáng)化學(xué)習(xí)不斷涌現(xiàn)出許多優(yōu)秀的研究成果.

    (5)

    2.3.5 DDPG

    DDPG[14](Deep Deterministic Policy Gradient)算法結(jié)合了AC、PG、DQN中的諸多特點(diǎn),率先將深度強(qiáng)化學(xué)習(xí)擴(kuò)展到連續(xù)空間領(lǐng)域.DDPG整體采用Actor-Critic的框架結(jié)構(gòu),DDPG中的Actor和Critic兩部分都由神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建,兩部分的網(wǎng)絡(luò)各自采用DQN的設(shè)計(jì)思路,分別為是兩個(gè)時(shí)間差分的網(wǎng)絡(luò).在Critic更新時(shí),采用策略梯度的更新方式、與傳統(tǒng)的策略梯度不同的是,DDPG采用一種確定性策略進(jìn)行動(dòng)作選擇.

    3 結(jié)合LSTM的強(qiáng)化學(xué)習(xí)動(dòng)態(tài)環(huán)境路徑規(guī)劃算法

    在很多路徑規(guī)劃研究中,通常為智能體設(shè)置掃描射線,以此來(lái)觀察周?chē)沫h(huán)境,智能體需要對(duì)當(dāng)前周?chē)牟煌?lèi)型的實(shí)體進(jìn)行掃描,然后構(gòu)建包含到這些物體距離的向量,提供給模型進(jìn)行動(dòng)作選擇.使用掃描射線的方式雖然可以盡可能的使得智能體獲取周?chē)男畔?,但是仍然不可避免地?huì)信息遺漏,針對(duì)這種情況,本文采用圖像為模型提供輸入.圖像雖然極大地保留了環(huán)境的真實(shí)數(shù)據(jù),但是同樣存在著維度過(guò)大,模型難收斂的問(wèn)題.自動(dòng)編碼器是一種采用深度學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行降維的方式,本文在處理圖像數(shù)據(jù)時(shí),首先采用預(yù)訓(xùn)練的編碼器對(duì)圖像數(shù)據(jù)進(jìn)行了降維.

    3.1 預(yù)訓(xùn)練圖像編碼器

    為了降低高維圖像對(duì)模型收斂增加的復(fù)雜度問(wèn)題,本文設(shè)計(jì)了圖像編碼器對(duì)圖像數(shù)據(jù)進(jìn)行特征降維,本文構(gòu)建的圖像編碼器結(jié)構(gòu)如圖3所示.

    圖3 LSTM DDPG結(jié)構(gòu)圖Fig.3 Structure of LSTM DDPG

    編碼器首先對(duì)圖片進(jìn)行預(yù)處理,包括通過(guò)常規(guī)方法降低圖片尺寸和灰度化,然后對(duì)得到的灰色圖片進(jìn)行編碼和解碼過(guò)程,通過(guò)解碼后的圖像與編碼器的圖像的差值作為損失來(lái)擬合編碼器的參數(shù).表1所示為本文設(shè)計(jì)的編碼器參數(shù)表,本文編碼器由5層組成,前2層為編碼部分,后3層為解碼部分.

    表1 編碼器參數(shù)Table 1 Parameters of autoencoder

    3.2 結(jié)合LSTM的DDPG

    本文算法的主要目標(biāo)是更好的避開(kāi)動(dòng)態(tài)危險(xiǎn)區(qū)域,根據(jù)到動(dòng)態(tài)危險(xiǎn)區(qū)域的距離來(lái)進(jìn)行規(guī)避誠(chéng)然是一種可行方式,但是這種被動(dòng)的響應(yīng)方式對(duì)整體的路徑規(guī)劃是不利的,它仍然避免不了智能體需要探索對(duì)應(yīng)區(qū)域才能進(jìn)行規(guī)避,這造成規(guī)劃路線上增加了一些額外的長(zhǎng)度.如果模型能預(yù)測(cè)環(huán)境的變化趨勢(shì),就可以避開(kāi)某些未來(lái)不能通過(guò)的區(qū)域,避免一些沒(méi)有結(jié)果的探索工作,直接規(guī)劃出一條最佳的可行路徑.本文利用

    了循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了這一設(shè)想,循環(huán)神經(jīng)網(wǎng)絡(luò)是一種用來(lái)處理時(shí)序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),會(huì)結(jié)合前序信息來(lái)生成當(dāng)前時(shí)刻的輸出,當(dāng)前時(shí)刻的輸出參考了之前時(shí)刻信息的變化趨勢(shì),所以循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有預(yù)測(cè)功能的網(wǎng)絡(luò).LSTM的RNN的一種改進(jìn),解決了經(jīng)典RNN無(wú)差別攜帶前序信息帶來(lái)的弊端.DDPG是一個(gè)在連續(xù)動(dòng)作上有很好表現(xiàn)的強(qiáng)化學(xué)習(xí)算法,本文將LSTM融合到DDPG的框架中,構(gòu)建了如圖3所示的LSTM-DDPG算法.

    其中Actor網(wǎng)絡(luò)由3層構(gòu)成,分別是兩層LSTM和1層全連接層,對(duì)于LSTM設(shè)置input size為400,隱藏層單元為64,之后接一個(gè)全連接層以64維數(shù)據(jù)為輸入計(jì)算生成2維的動(dòng)作輸出.Critic網(wǎng)絡(luò)首先對(duì)輸入的環(huán)境數(shù)據(jù)和動(dòng)作數(shù)據(jù)做分別處理,其中環(huán)境數(shù)據(jù)利用LSTM進(jìn)行處理,網(wǎng)絡(luò)設(shè)置與Actor中的LSTM部分設(shè)置相同;對(duì)于Actor產(chǎn)生的Action,用一個(gè)全連接層將2維輸入映射到20維;然后將上面兩步的輸出拼接一個(gè)向量傳遞給下一層的全連接層,由這個(gè)全連接層計(jì)算生成對(duì)Action的評(píng)價(jià)Q值.

    3.3 動(dòng)作空間

    本文模擬人類(lèi)的動(dòng)作行為方式設(shè)計(jì)了智能體的動(dòng)作空間,采用連續(xù)的動(dòng)作空間設(shè)計(jì),將動(dòng)作空間設(shè)計(jì)為兩個(gè)維度(δ,l),其中δ表示智能體的轉(zhuǎn)動(dòng)角度,取值范圍設(shè)定為(-180,180),其中當(dāng)δ<0時(shí),智能體向左轉(zhuǎn)動(dòng)相應(yīng)角度,當(dāng)δ>0時(shí),智能體向右轉(zhuǎn)動(dòng)相應(yīng)角度.l表示智能體執(zhí)行動(dòng)作的位移大小,取值范圍為(-0.7,0.7),其中l(wèi)<0當(dāng)時(shí),表示智能體后退相應(yīng)距離,l>0時(shí),表示智能體前進(jìn)相應(yīng)距離.

    3.4 環(huán)境回報(bào)

    在強(qiáng)化學(xué)習(xí)中,智能體通過(guò)在環(huán)境獲得的累計(jì)回報(bào)來(lái)修正策略函數(shù)的參數(shù),因此,環(huán)境回報(bào)的設(shè)定對(duì)策略函數(shù)能否收斂到理想的狀態(tài)而言至關(guān)重要.為了驗(yàn)證本文方法處理動(dòng)態(tài)環(huán)境的能力,本文除了設(shè)計(jì)墻體這種單純的靜態(tài)障礙之外,還設(shè)計(jì)一種危險(xiǎn)區(qū)域,智能體接觸該區(qū)域即死亡,回合結(jié)束,視為一次失敗的路徑規(guī)劃.結(jié)合現(xiàn)實(shí)經(jīng)驗(yàn)和多次試驗(yàn)結(jié)果作為參考,本文進(jìn)行了以下環(huán)境回報(bào)的設(shè)定.

    3.4.1 決策回報(bào)

    在一條路徑生成的過(guò)程中,智能體通過(guò)一系列的動(dòng)作選擇在不同狀態(tài)間切換,為了能保證智能體能以最少的狀態(tài)切換次數(shù)即為了使智能體盡可能規(guī)劃出一條更短的路徑,智能體每執(zhí)行一步動(dòng)作,為智能體設(shè)置-1的回報(bào),即rstep=1.

    3.4.2 碰壁回報(bào)

    本文在環(huán)境中設(shè)置了墻體,用來(lái)圈圍邊界和構(gòu)建智能體前進(jìn)的障礙.對(duì)于智能體而言“撞墻”的行為是無(wú)意義的,不但增加了動(dòng)作執(zhí)行次數(shù),也不會(huì)增加位移,因此對(duì)于智能體撞墻這種行為應(yīng)該給予一定的負(fù)回報(bào),在本文中設(shè)置rwall=-1.

    3.4.3 遇險(xiǎn)回報(bào)

    本文設(shè)置了動(dòng)態(tài)變化的危險(xiǎn)區(qū)域來(lái)對(duì)提出的算法進(jìn)行驗(yàn)證,該區(qū)域設(shè)置在智能體和目標(biāo)位置之間,其體積會(huì)隨著時(shí)間動(dòng)態(tài)變化,對(duì)于智能體而言該區(qū)域的效果為在智能體接觸到該區(qū)域時(shí),智能體即死亡,回合結(jié)束,路徑規(guī)劃任務(wù)失敗,因此應(yīng)該對(duì)涉足該區(qū)域的智能體以最低的回報(bào)來(lái)使智能體遠(yuǎn)離該區(qū)域,在本文中設(shè)置rdanger=-50.

    3.4.4 目標(biāo)回報(bào)

    目標(biāo)區(qū)域是路徑規(guī)劃任務(wù)的最終目標(biāo),應(yīng)該給予其全局最大的回報(bào),引導(dǎo)智能體向著最終目標(biāo)進(jìn)行路徑規(guī)劃.在本文中設(shè)置rtarget=200.

    綜上,設(shè)置環(huán)境回報(bào)如式(6)所示.

    (6)

    4 實(shí)驗(yàn)及結(jié)果分析

    本文通過(guò)Unity-3D引擎構(gòu)進(jìn)行了強(qiáng)化學(xué)習(xí)環(huán)境的搭建,實(shí)驗(yàn)所用的軟硬件配置如下:CPU i7-8750H,內(nèi)存24G,顯卡GTX1060,顯存6G,軟件環(huán)境Unity2019.4.2f1,深度學(xué)習(xí)框架使用Pytorch.

    4.1 實(shí)驗(yàn)環(huán)境搭建

    在Unity工具中構(gòu)建如圖4所示的環(huán)境.

    圖4 實(shí)驗(yàn)環(huán)境 Fig.4 Experimental environment

    該環(huán)境由面積為40×20矩形區(qū)域構(gòu)成,在地面平面建立坐標(biāo)系,以矩形區(qū)域中點(diǎn)為坐標(biāo)原點(diǎn),分別以向右和向上為x軸,y軸的正方向.其中中部較小的圓形個(gè)體為智能體,半徑為0.5,在每個(gè)回合訓(xùn)練開(kāi)始時(shí)智能體將會(huì)隨機(jī)生成在環(huán)境中的任意位置.兩處黑色圓形區(qū)域?yàn)槲kU(xiǎn)區(qū)域,智能體碰撞到該區(qū)域即死亡,回合結(jié)束.該區(qū)域?yàn)閯?dòng)態(tài)變化區(qū)域,兩處危險(xiǎn)區(qū)域各自由初始半徑為0.5的規(guī)格隨智能體決策次數(shù)的增加而擴(kuò)大,其半徑依0.3單位/次的速度增加,此處之所以設(shè)置危險(xiǎn)區(qū)域依智能體決策次而變化,是因?yàn)閳?zhí)行一個(gè)回合的具體時(shí)間會(huì)因計(jì)算機(jī)處在不同狀態(tài)而有所差異,從而造成訓(xùn)練結(jié)果不穩(wěn)定.左邊危險(xiǎn)區(qū)域的底面圓心坐標(biāo)為(-6.5,-1.5),右邊危險(xiǎn)區(qū)域的底面圓心坐標(biāo)為(6,-6).圖中的灰色條形實(shí)體為墻體,該區(qū)域?yàn)殪o態(tài)障礙.左右兩面邊界墻的中線分別為x=±20.5,上下兩面邊界墻的中線分別為y=±10.5,內(nèi)部的障礙墻的中心線為x=10,墻的長(zhǎng)度為12.圖中右下角的深灰色區(qū)域?yàn)榘踩隹?,智能體到達(dá)此處視為路徑規(guī)劃成功的標(biāo)志.

    根據(jù)上述設(shè)定,隨著智能體決策次數(shù)的增加,障礙墻下方的通道將會(huì)被危險(xiǎn)區(qū)域封堵,智能體只能選擇從上方的通道繞行到達(dá)終點(diǎn).另外,為了避免智能體在訓(xùn)練前期探索環(huán)境的階段不停地在環(huán)境中往返而不能結(jié)束一個(gè)回合,設(shè)定智能體單個(gè)回合的最大步數(shù)為200.

    4.2 圖形編碼器訓(xùn)練結(jié)果

    首先,通過(guò)隨機(jī)動(dòng)作的方式令智能體在環(huán)境中探索,獲得不同狀態(tài)下的環(huán)境截圖,為了減小模型訓(xùn)練的難度,在訓(xùn)練時(shí)將環(huán)境地面設(shè)置為白色,并為智能體設(shè)置添加一個(gè)箭頭用來(lái)指示方向.截取的原始圖像大小為1200×600.

    在本文實(shí)驗(yàn)中,共截取1萬(wàn)張環(huán)境圖像用來(lái)訓(xùn)練編碼器.在正式訓(xùn)練之前,為了降低模型的處理難度,首先使用OpenCV模塊下的函數(shù)將截圖初步降維到200×100, 再對(duì)圖片進(jìn)行灰度化處理,處理后如圖5(a)所示.本文使用小批量梯度下降的方式訓(xùn)練自動(dòng)編碼器,設(shè)置學(xué)習(xí)率為0.01,經(jīng)過(guò)1000輪訓(xùn)練之后,模型趨于收斂.提取訓(xùn)練好的模型,對(duì)一張環(huán)境截圖進(jìn)行編碼解碼過(guò)程,得到如圖5所示“編碼-解碼”過(guò)程前后的兩張圖片對(duì)比,可以看到降維后的數(shù)據(jù)被比較完整的復(fù)原了,說(shuō)明本文構(gòu)建額的編碼器成功的完成了圖像數(shù)據(jù)降維的工作,訓(xùn)練的編碼器可以應(yīng)用到后續(xù)的任務(wù)中.

    圖5 “編碼-解碼”過(guò)程前后的圖片F(xiàn)ig.5 Images before and after encode-decode

    4.3 LSTM DDPG實(shí)驗(yàn)結(jié)果

    通過(guò)上一步的編碼器,環(huán)境圖像被壓縮到了400維的大小.通過(guò)連續(xù)4幀圖像編碼后的數(shù)據(jù)構(gòu)成時(shí)序數(shù)據(jù)作為L(zhǎng)STM-DDPG算法的輸入數(shù)據(jù).實(shí)驗(yàn)設(shè)置Actor學(xué)習(xí)率為0.001,Critic學(xué)習(xí)率為0.001,回報(bào)衰減設(shè)置為0.95,采用小批量梯度下降的方式進(jìn)行模型訓(xùn)練,批次大小設(shè)置為128;模型收斂后,收集到的訓(xùn)練過(guò)程中的數(shù)據(jù)變化如圖6所示.

    圖6 LSTM DDPG模型訓(xùn)練數(shù)據(jù)Fig.6 Training data of LSTM DDPG

    其中圖6(a)為Actor部分的損失變化曲線,圖6(b)為Critic部分的損失變化曲線,觀察兩圖可以發(fā)現(xiàn),模型的兩個(gè)部分都可以收斂,說(shuō)明本文設(shè)計(jì)的模型是合理的,具有可行性.圖6(c)為平均回合步數(shù)(/1000步)的變化,圖6(d)為平均回合回報(bào)(/1000步)的變化,結(jié)合兩圖可以發(fā)現(xiàn),在訓(xùn)練的前期,算法模型還不能進(jìn)行正確的路徑規(guī)劃,動(dòng)作選擇多為隨機(jī)動(dòng)作,智能體在環(huán)境中執(zhí)行較多的步數(shù)才能結(jié)束一個(gè)回合,結(jié)合圖6(d)可以發(fā)現(xiàn),此時(shí)智能體結(jié)束一個(gè)回合多因?yàn)橄萑胛kU(xiǎn)區(qū)域或達(dá)到回合步數(shù)上限而結(jié)束.在訓(xùn)練后期,算法模型逐漸收斂,平均回合步數(shù)和平均回報(bào)都趨于穩(wěn)定,回報(bào)穩(wěn)定在140上下,回合步數(shù)穩(wěn)定在60步左右,這基本上可以說(shuō)明智能體可以在不碰到墻壁和危險(xiǎn)區(qū)域的情況下到達(dá)目標(biāo)位置,進(jìn)一步說(shuō)明了本文的算法是可行的.

    本文除了通過(guò)上述方式驗(yàn)證了提出算法的可行性,還在相同的環(huán)境下,設(shè)計(jì)了與經(jīng)典的A*算法、遺傳算法以及文獻(xiàn)[11](Improved DQN)和文獻(xiàn)[14](DDPG)中的深度強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)效果的對(duì)比實(shí)驗(yàn).對(duì)比實(shí)驗(yàn)分別以環(huán)境中的3處為起點(diǎn)測(cè)試3種算法的路徑規(guī)劃能力,這3個(gè)點(diǎn)分別是(5,0)、(-10,5)和(-10,-5),圖7給出了LSTM-DDPG與其他4種算法的規(guī)劃路徑結(jié)果對(duì)比.

    *為了避免軌跡被危險(xiǎn)區(qū)域遮擋,在展示軌跡時(shí)將危險(xiǎn)區(qū)域設(shè)定為了初始化狀態(tài),其中(b)和(c)中A*算法產(chǎn)生的路徑在中途停止是因?yàn)榻佑|危險(xiǎn)區(qū)域而結(jié)束.

    其中圖7(a)表示以(-10,5)為起點(diǎn)時(shí)5種路徑規(guī)劃算法所規(guī)劃的路徑,圖7(b)表示以(-10,-5)為起點(diǎn)時(shí)5種路徑規(guī)劃算法所規(guī)劃的路徑.表2所示是LSTM-DDPG同其他4種算法進(jìn)行路徑規(guī)劃的相關(guān)數(shù)據(jù).

    表2 LSTM-DDPG與其他算法的路徑規(guī)劃對(duì)比Table 2 Comparison of LSTM-DDPG with other algorithms in path planning

    通過(guò)就表2中的數(shù)據(jù)進(jìn)行橫向?qū)Ρ?,發(fā)現(xiàn)本文提出的算法在同等條件下?lián)碛休^好的表現(xiàn).在以離目標(biāo)點(diǎn)比較近的(0,5)點(diǎn)為起點(diǎn)時(shí),A*算法取得了最好的表現(xiàn),可以看到 A*算法所規(guī)劃的軌跡為直線,是以距離最短,回報(bào)值最佳.離散動(dòng)作的強(qiáng)化學(xué)習(xí)算法Improved DQN的取得了次之的效果.遺傳算法和DDPG在躲避動(dòng)態(tài)危險(xiǎn)時(shí)產(chǎn)生了撞墻的動(dòng)作,LSTM-DDPG算法所規(guī)劃的路徑雖然并非最短,但是相對(duì)較為平滑,也沒(méi)有產(chǎn)生撞墻的行為.在選擇較遠(yuǎn)處的點(diǎn)為起點(diǎn),其中與目標(biāo)之間的環(huán)境更復(fù)雜時(shí),A*算法的表現(xiàn)不佳,不能完成路徑規(guī)劃任務(wù),這是因?yàn)锳*算法在進(jìn)行路徑規(guī)劃時(shí)只能以初始環(huán)境為參考進(jìn)行規(guī)劃,可以看出A*算法缺乏處理動(dòng)態(tài)環(huán)境的能力.同樣是離散動(dòng)作的強(qiáng)化學(xué)習(xí)算法Improved DQN雖然完成了路徑規(guī)劃,但是在面對(duì)危險(xiǎn)區(qū)域時(shí)沒(méi)有預(yù)測(cè)能力,又因?yàn)榭晒┻x擇的動(dòng)作有限,規(guī)劃出的路徑不如連續(xù)動(dòng)作的算法所規(guī)劃的路徑效果好.在連續(xù)動(dòng)作的算法中,相較于遺傳算法和DDPG,可以看到本文算法生成的軌跡更加平滑,路徑更短,回報(bào)更高,這是因?yàn)檫z傳算法和DDPG雖然具有處理動(dòng)態(tài)環(huán)境的能力,但是也只是被動(dòng)的應(yīng)對(duì)變化的環(huán)境,規(guī)劃的路徑中增加了對(duì)某些區(qū)域的探索.而本文的算法具有預(yù)測(cè)環(huán)境變化的能力,該特性在圖7(b)有較為明顯的體現(xiàn),可以看到其他算法會(huì)向右下方的通道進(jìn)行探索,本文算法則預(yù)測(cè)到了右下方的通道將會(huì)被封堵,直接選擇從右上方通過(guò)到達(dá)目標(biāo)地點(diǎn),減少了探索過(guò)程的路徑長(zhǎng)度,使規(guī)劃的總路徑最短.綜上,本文的算法在動(dòng)態(tài)路徑規(guī)劃任務(wù)中能夠取得較好的表現(xiàn).

    5 總 結(jié)

    本文針對(duì)傳統(tǒng)的路徑規(guī)劃算法多基于靜態(tài)環(huán)境;缺乏對(duì)動(dòng)態(tài)環(huán)境的處理能力的問(wèn)題,提出了一種結(jié)合LSTM的強(qiáng)化學(xué)習(xí)路徑規(guī)劃算法.本文的方法以環(huán)境圖像作為輸入,首先構(gòu)造了能夠壓縮圖像特征的編碼器,在盡可能完整地保留環(huán)境圖像原始信息的前提下,降低圖像的特征維度,進(jìn)而從整體上降低了路徑規(guī)劃任務(wù)的復(fù)雜程度.本文基于在連續(xù)動(dòng)作空間上具有良好表現(xiàn)的DDPG算法,在DDPG算法中結(jié)合了LSTM結(jié)構(gòu),利用LSTM能夠處理時(shí)序數(shù)據(jù)的特性,使其在生成動(dòng)作時(shí)能夠有選擇的參考之前時(shí)刻的信息,做出基于對(duì)環(huán)境預(yù)測(cè)的動(dòng)作輸出,預(yù)先規(guī)避環(huán)境中可能發(fā)生的危險(xiǎn).最后通過(guò)實(shí)驗(yàn)與經(jīng)典路徑規(guī)劃算法和其他強(qiáng)化學(xué)習(xí)算法進(jìn)行性能對(duì)比,證明了本文算法對(duì)動(dòng)態(tài)環(huán)境的預(yù)測(cè)能力以及路徑規(guī)劃的高效性.

    猜你喜歡
    編碼器規(guī)劃動(dòng)作
    基于FPGA的同步機(jī)軸角編碼器
    動(dòng)作描寫(xiě)要具體
    規(guī)劃引領(lǐng)把握未來(lái)
    快遞業(yè)十三五規(guī)劃發(fā)布
    商周刊(2017年5期)2017-08-22 03:35:26
    畫(huà)動(dòng)作
    動(dòng)作描寫(xiě)不可少
    基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
    多管齊下落實(shí)規(guī)劃
    迎接“十三五”規(guī)劃
    JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
    電子器件(2015年5期)2015-12-29 08:42:24
    久久亚洲真实| 亚洲 国产 在线| 黄色片一级片一级黄色片| 中亚洲国语对白在线视频| 一区二区三区精品91| 国产黄色免费在线视频| 欧美在线一区亚洲| 国产伦人伦偷精品视频| 狠狠婷婷综合久久久久久88av| 久久国产精品大桥未久av| 捣出白浆h1v1| 妹子高潮喷水视频| 免费日韩欧美在线观看| 一本综合久久免费| 亚洲精品一卡2卡三卡4卡5卡| 欧美日韩亚洲高清精品| 欧美日韩亚洲高清精品| 丝袜喷水一区| 男女床上黄色一级片免费看| 少妇裸体淫交视频免费看高清 | 999精品在线视频| 欧美+亚洲+日韩+国产| 久久精品熟女亚洲av麻豆精品| 男女床上黄色一级片免费看| 美女高潮喷水抽搐中文字幕| 亚洲专区中文字幕在线| 999久久久国产精品视频| 中文亚洲av片在线观看爽 | 亚洲欧美日韩高清在线视频 | 欧美老熟妇乱子伦牲交| 国产av精品麻豆| 精品免费久久久久久久清纯 | 99精品久久久久人妻精品| 老司机午夜十八禁免费视频| 国产97色在线日韩免费| 精品欧美一区二区三区在线| 最新美女视频免费是黄的| 99精品在免费线老司机午夜| 老司机亚洲免费影院| 又紧又爽又黄一区二区| 中亚洲国语对白在线视频| 黑人巨大精品欧美一区二区mp4| 丝袜美足系列| 成人永久免费在线观看视频 | 国产在线观看jvid| 精品亚洲成a人片在线观看| 亚洲第一av免费看| 亚洲国产看品久久| 搡老岳熟女国产| 欧美激情 高清一区二区三区| 亚洲精华国产精华精| 国产精品欧美亚洲77777| 成年版毛片免费区| 亚洲视频免费观看视频| 波多野结衣一区麻豆| 怎么达到女性高潮| 亚洲伊人色综图| 成人免费观看视频高清| 操美女的视频在线观看| 欧美日韩av久久| 日韩欧美一区视频在线观看| 一级,二级,三级黄色视频| 亚洲国产中文字幕在线视频| 少妇 在线观看| 18禁国产床啪视频网站| 一进一出抽搐动态| 午夜福利影视在线免费观看| 天天影视国产精品| 交换朋友夫妻互换小说| av网站在线播放免费| 亚洲一区中文字幕在线| 两个人免费观看高清视频| 51午夜福利影视在线观看| 狂野欧美激情性xxxx| 欧美国产精品va在线观看不卡| 新久久久久国产一级毛片| 欧美激情高清一区二区三区| av又黄又爽大尺度在线免费看| 不卡av一区二区三区| 丝袜喷水一区| 亚洲av欧美aⅴ国产| 夫妻午夜视频| 亚洲精品国产区一区二| 90打野战视频偷拍视频| 777米奇影视久久| 亚洲一区中文字幕在线| 99精品欧美一区二区三区四区| 亚洲色图 男人天堂 中文字幕| 精品国产乱子伦一区二区三区| 美女视频免费永久观看网站| 国产精品一区二区在线观看99| 夜夜夜夜夜久久久久| 无限看片的www在线观看| 天天影视国产精品| 亚洲精华国产精华精| 91大片在线观看| 日本黄色视频三级网站网址 | 免费在线观看黄色视频的| 久久 成人 亚洲| 日韩欧美国产一区二区入口| 18禁美女被吸乳视频| 欧美中文综合在线视频| 欧美亚洲日本最大视频资源| 国产精品.久久久| 日本vs欧美在线观看视频| 国产亚洲精品一区二区www | 一级,二级,三级黄色视频| 最新美女视频免费是黄的| 999精品在线视频| 精品国产乱码久久久久久男人| 麻豆国产av国片精品| 精品国内亚洲2022精品成人 | 天天影视国产精品| 在线观看免费日韩欧美大片| 日日爽夜夜爽网站| 国产不卡一卡二| 久久免费观看电影| 久久 成人 亚洲| 一个人免费看片子| 久久亚洲真实| 久久人人爽av亚洲精品天堂| av线在线观看网站| 18禁美女被吸乳视频| 欧美国产精品一级二级三级| 美女视频免费永久观看网站| 国内毛片毛片毛片毛片毛片| 国产激情久久老熟女| 一边摸一边做爽爽视频免费| av有码第一页| 国产亚洲午夜精品一区二区久久| 亚洲国产欧美日韩在线播放| 免费观看人在逋| 大片电影免费在线观看免费| 热re99久久精品国产66热6| 国产一区二区激情短视频| 夜夜夜夜夜久久久久| 亚洲午夜精品一区,二区,三区| 国产不卡av网站在线观看| 久9热在线精品视频| 午夜日韩欧美国产| 欧美老熟妇乱子伦牲交| 一进一出抽搐动态| 水蜜桃什么品种好| 五月开心婷婷网| 老司机午夜福利在线观看视频 | 国产免费福利视频在线观看| 制服人妻中文乱码| 亚洲伊人色综图| 最近最新中文字幕大全免费视频| 色视频在线一区二区三区| av线在线观看网站| 日韩大码丰满熟妇| 91精品国产国语对白视频| tube8黄色片| 亚洲一区二区三区欧美精品| 91精品国产国语对白视频| 久久国产精品男人的天堂亚洲| 这个男人来自地球电影免费观看| 91精品国产国语对白视频| 天天影视国产精品| 国产欧美日韩综合在线一区二区| 女性被躁到高潮视频| 考比视频在线观看| 午夜福利一区二区在线看| 少妇猛男粗大的猛烈进出视频| 91大片在线观看| 成人特级黄色片久久久久久久 | 日韩视频一区二区在线观看| 99精国产麻豆久久婷婷| 久久性视频一级片| 亚洲精品国产色婷婷电影| 亚洲专区国产一区二区| 欧美老熟妇乱子伦牲交| 欧美人与性动交α欧美精品济南到| 日日爽夜夜爽网站| 悠悠久久av| 亚洲男人天堂网一区| 国产伦人伦偷精品视频| 亚洲国产av影院在线观看| 欧美另类亚洲清纯唯美| 一区二区三区国产精品乱码| 国产精品亚洲一级av第二区| 无遮挡黄片免费观看| 国产三级黄色录像| 十八禁人妻一区二区| 午夜激情久久久久久久| 王馨瑶露胸无遮挡在线观看| 丝袜在线中文字幕| 亚洲,欧美精品.| 亚洲精品中文字幕一二三四区 | 少妇粗大呻吟视频| 美女午夜性视频免费| 性色av乱码一区二区三区2| 欧美黄色淫秽网站| 王馨瑶露胸无遮挡在线观看| 日本五十路高清| 老汉色av国产亚洲站长工具| 一级片免费观看大全| 麻豆国产av国片精品| 国产在线精品亚洲第一网站| 老司机亚洲免费影院| 极品少妇高潮喷水抽搐| 五月开心婷婷网| 香蕉国产在线看| 一级毛片电影观看| 高清欧美精品videossex| www.自偷自拍.com| 精品乱码久久久久久99久播| 交换朋友夫妻互换小说| 亚洲精品乱久久久久久| 在线观看舔阴道视频| 免费在线观看影片大全网站| 亚洲久久久国产精品| 一进一出抽搐动态| 精品国产亚洲在线| 日韩人妻精品一区2区三区| 日日爽夜夜爽网站| a级片在线免费高清观看视频| 亚洲国产av新网站| 国产精品久久久久久精品古装| 国内毛片毛片毛片毛片毛片| 窝窝影院91人妻| 男女无遮挡免费网站观看| 欧美日韩福利视频一区二区| 久热爱精品视频在线9| 国产一区二区三区在线臀色熟女 | av又黄又爽大尺度在线免费看| 婷婷成人精品国产| 这个男人来自地球电影免费观看| 午夜福利影视在线免费观看| 捣出白浆h1v1| 国产aⅴ精品一区二区三区波| 精品亚洲成a人片在线观看| 在线观看免费日韩欧美大片| 欧美日韩精品网址| 免费观看av网站的网址| 丝袜美足系列| 成年人免费黄色播放视频| 亚洲国产中文字幕在线视频| 午夜视频精品福利| 日本欧美视频一区| 无限看片的www在线观看| 日本五十路高清| 老司机影院毛片| 岛国毛片在线播放| bbb黄色大片| 啦啦啦中文免费视频观看日本| 亚洲精品中文字幕在线视频| 99re在线观看精品视频| 最近最新中文字幕大全免费视频| 一本色道久久久久久精品综合| 香蕉久久夜色| 日韩欧美国产一区二区入口| 久久久国产精品麻豆| 一区二区av电影网| 国产亚洲精品一区二区www | 亚洲熟女毛片儿| 亚洲av成人不卡在线观看播放网| 深夜精品福利| 久久免费观看电影| 成人18禁在线播放| 国产精品久久久久久精品电影小说| 午夜福利一区二区在线看| 久久久久国内视频| av天堂久久9| 老司机亚洲免费影院| 在线观看免费视频网站a站| 国产成人精品无人区| 天堂8中文在线网| 18禁观看日本| 国产免费福利视频在线观看| 国产成人av激情在线播放| 色在线成人网| 久久天躁狠狠躁夜夜2o2o| 亚洲精品久久午夜乱码| 午夜视频精品福利| 国产在线视频一区二区| 日本av免费视频播放| 久久人人爽av亚洲精品天堂| 超碰97精品在线观看| 高清视频免费观看一区二区| 如日韩欧美国产精品一区二区三区| 丁香六月欧美| 成人国产一区最新在线观看| 免费观看av网站的网址| 黄色a级毛片大全视频| 亚洲精品久久成人aⅴ小说| 操美女的视频在线观看| 久久精品国产a三级三级三级| 香蕉国产在线看| 黄色成人免费大全| cao死你这个sao货| a级毛片黄视频| 久久中文字幕一级| 色综合婷婷激情| 中文字幕人妻丝袜一区二区| 91大片在线观看| 国产主播在线观看一区二区| 亚洲成国产人片在线观看| 久久久久久久大尺度免费视频| 色精品久久人妻99蜜桃| 国产精品98久久久久久宅男小说| 国产福利在线免费观看视频| 欧美性长视频在线观看| 一夜夜www| 午夜91福利影院| 大香蕉久久网| 亚洲色图综合在线观看| 男女床上黄色一级片免费看| 最近最新中文字幕大全电影3 | 欧美变态另类bdsm刘玥| 男女高潮啪啪啪动态图| 国产淫语在线视频| 人妻久久中文字幕网| 亚洲伊人色综图| 国产欧美日韩综合在线一区二区| 久久久久久久国产电影| 美女主播在线视频| 在线观看www视频免费| 免费看十八禁软件| 国产视频一区二区在线看| 国产精品久久久久久人妻精品电影 | 久久久久网色| 欧美在线一区亚洲| 激情在线观看视频在线高清 | 色综合欧美亚洲国产小说| 99久久人妻综合| 日韩有码中文字幕| 好男人电影高清在线观看| 国产熟女午夜一区二区三区| 久久久久久久大尺度免费视频| 日本av免费视频播放| 亚洲熟女毛片儿| 午夜福利在线观看吧| 亚洲午夜精品一区,二区,三区| 51午夜福利影视在线观看| 午夜福利影视在线免费观看| 免费观看av网站的网址| 久久精品亚洲熟妇少妇任你| 国产成人精品无人区| 不卡av一区二区三区| 中文字幕人妻丝袜制服| 757午夜福利合集在线观看| 少妇裸体淫交视频免费看高清 | 人妻久久中文字幕网| 亚洲国产毛片av蜜桃av| 欧美成人免费av一区二区三区 | 人妻一区二区av| 亚洲精品国产色婷婷电影| 精品人妻在线不人妻| 久久久久久亚洲精品国产蜜桃av| 亚洲成人免费电影在线观看| 老汉色av国产亚洲站长工具| 大码成人一级视频| 激情在线观看视频在线高清 | 在线观看一区二区三区激情| 人成视频在线观看免费观看| 国产人伦9x9x在线观看| 999久久久国产精品视频| av网站免费在线观看视频| 怎么达到女性高潮| 在线观看一区二区三区激情| 国产熟女午夜一区二区三区| 久久久久久人人人人人| 人人妻人人澡人人看| 狠狠精品人妻久久久久久综合| 99精品久久久久人妻精品| 国产高清视频在线播放一区| 日韩有码中文字幕| 精品亚洲乱码少妇综合久久| 亚洲成国产人片在线观看| tube8黄色片| 日韩中文字幕视频在线看片| 在线观看一区二区三区激情| 国产精品久久电影中文字幕 | 欧美激情极品国产一区二区三区| 热re99久久国产66热| 人人妻人人澡人人爽人人夜夜| 窝窝影院91人妻| 欧美变态另类bdsm刘玥| 可以免费在线观看a视频的电影网站| 99久久精品国产亚洲精品| 最新在线观看一区二区三区| 精品国产超薄肉色丝袜足j| 亚洲精华国产精华精| 欧美性长视频在线观看| 老司机影院毛片| 午夜免费鲁丝| 欧美老熟妇乱子伦牲交| www.精华液| 久久久国产欧美日韩av| 久久午夜亚洲精品久久| 国产精品国产高清国产av | 国产有黄有色有爽视频| 看免费av毛片| 午夜福利,免费看| 国产高清国产精品国产三级| 久久狼人影院| 狂野欧美激情性xxxx| 亚洲少妇的诱惑av| 国产极品粉嫩免费观看在线| 欧美日韩黄片免| 亚洲人成电影观看| 曰老女人黄片| 性色av乱码一区二区三区2| 亚洲成人手机| 成人免费观看视频高清| 色视频在线一区二区三区| 亚洲精品一二三| 多毛熟女@视频| 久久久国产欧美日韩av| 别揉我奶头~嗯~啊~动态视频| 不卡一级毛片| 亚洲一区二区三区欧美精品| 国产精品国产高清国产av | 精品熟女少妇八av免费久了| 精品国产亚洲在线| 国产免费福利视频在线观看| 欧美乱码精品一区二区三区| 亚洲精品美女久久av网站| svipshipincom国产片| 国产深夜福利视频在线观看| 99riav亚洲国产免费| 国产亚洲精品一区二区www | 黄色视频,在线免费观看| 色视频在线一区二区三区| 日本黄色日本黄色录像| 欧美日韩国产mv在线观看视频| 一夜夜www| 在线十欧美十亚洲十日本专区| 90打野战视频偷拍视频| 啦啦啦中文免费视频观看日本| 国产一卡二卡三卡精品| 首页视频小说图片口味搜索| 天天躁夜夜躁狠狠躁躁| 波多野结衣一区麻豆| 国产精品久久久久久精品古装| 18在线观看网站| 老司机亚洲免费影院| 性色av乱码一区二区三区2| 又黄又粗又硬又大视频| 99国产综合亚洲精品| 久久精品国产综合久久久| 色94色欧美一区二区| 亚洲精品av麻豆狂野| 精品人妻熟女毛片av久久网站| 国产片内射在线| 国产欧美日韩一区二区三| 久久这里只有精品19| 中文字幕制服av| 免费观看a级毛片全部| 亚洲熟女毛片儿| 国产在线视频一区二区| 中文字幕色久视频| 蜜桃在线观看..| 啦啦啦中文免费视频观看日本| 日韩视频一区二区在线观看| 一边摸一边抽搐一进一出视频| 中国美女看黄片| 亚洲国产欧美日韩在线播放| 日韩大片免费观看网站| 欧美午夜高清在线| 一区二区三区国产精品乱码| 国产成人精品久久二区二区91| 日韩一区二区三区影片| 欧美日韩一级在线毛片| 日本欧美视频一区| 欧美久久黑人一区二区| 色94色欧美一区二区| 色婷婷久久久亚洲欧美| 两性夫妻黄色片| 人人妻,人人澡人人爽秒播| 欧美日韩亚洲国产一区二区在线观看 | 麻豆成人av在线观看| 制服诱惑二区| 国产精品影院久久| √禁漫天堂资源中文www| 精品人妻熟女毛片av久久网站| 91九色精品人成在线观看| 老鸭窝网址在线观看| 激情视频va一区二区三区| 女警被强在线播放| 国产淫语在线视频| 看免费av毛片| 51午夜福利影视在线观看| 欧美成人午夜精品| 三级毛片av免费| 国产不卡一卡二| 淫妇啪啪啪对白视频| 国产精品自产拍在线观看55亚洲 | 他把我摸到了高潮在线观看 | 国产成人精品久久二区二区91| 成人特级黄色片久久久久久久 | 老汉色∧v一级毛片| 菩萨蛮人人尽说江南好唐韦庄| 在线观看免费视频网站a站| 午夜免费鲁丝| 性色av乱码一区二区三区2| 日韩一区二区三区影片| 色婷婷av一区二区三区视频| 国产精品国产av在线观看| 在线观看免费高清a一片| 国产免费福利视频在线观看| 欧美日韩黄片免| 在线av久久热| 亚洲男人天堂网一区| 精品久久久精品久久久| 最近最新免费中文字幕在线| 国产欧美日韩一区二区三区在线| 人妻久久中文字幕网| 99国产精品免费福利视频| 一区二区三区乱码不卡18| 丝袜人妻中文字幕| 欧美+亚洲+日韩+国产| www.精华液| 国产一区二区激情短视频| 国产精品国产高清国产av | 91老司机精品| 中文字幕另类日韩欧美亚洲嫩草| 日韩一区二区三区影片| 女人精品久久久久毛片| 久久中文看片网| 丰满少妇做爰视频| 嫁个100分男人电影在线观看| 精品人妻1区二区| 国产高清videossex| 一个人免费在线观看的高清视频| 九色亚洲精品在线播放| 免费在线观看黄色视频的| 国产淫语在线视频| 免费一级毛片在线播放高清视频 | 午夜视频精品福利| 亚洲精品国产一区二区精华液| 日韩三级视频一区二区三区| 美女国产高潮福利片在线看| 精品国产乱码久久久久久小说| avwww免费| 日日夜夜操网爽| 人成视频在线观看免费观看| 亚洲全国av大片| 亚洲欧洲日产国产| 国产成人精品在线电影| 黑人巨大精品欧美一区二区mp4| 性少妇av在线| 1024香蕉在线观看| 国产亚洲精品一区二区www | 日日夜夜操网爽| 亚洲av欧美aⅴ国产| 亚洲专区中文字幕在线| 久久久精品94久久精品| 成人亚洲精品一区在线观看| 女同久久另类99精品国产91| 最新在线观看一区二区三区| 亚洲成av片中文字幕在线观看| 不卡av一区二区三区| 一区在线观看完整版| 国产不卡一卡二| 99国产精品99久久久久| 丝袜人妻中文字幕| 在线观看人妻少妇| 欧美久久黑人一区二区| 久久精品国产亚洲av高清一级| 午夜视频精品福利| 国产精品 欧美亚洲| 日韩视频一区二区在线观看| 一区二区三区激情视频| 精品欧美一区二区三区在线| 欧美激情极品国产一区二区三区| 国产精品一区二区精品视频观看| 极品人妻少妇av视频| 亚洲av美国av| 老司机深夜福利视频在线观看| 久久久国产成人免费| 亚洲精品久久成人aⅴ小说| 精品卡一卡二卡四卡免费| 亚洲五月婷婷丁香| 啦啦啦免费观看视频1| 少妇猛男粗大的猛烈进出视频| 亚洲一区二区三区欧美精品| 色在线成人网| 日韩一卡2卡3卡4卡2021年| 国产免费av片在线观看野外av| 欧美乱码精品一区二区三区| 如日韩欧美国产精品一区二区三区| 欧美在线黄色| 热re99久久国产66热| 在线观看免费日韩欧美大片| 国产真人三级小视频在线观看| 午夜福利视频精品| 一区二区三区精品91| 亚洲第一av免费看| 精品高清国产在线一区| 亚洲五月婷婷丁香| 久久狼人影院| 久久精品国产综合久久久| 制服诱惑二区| 人妻 亚洲 视频| 成人永久免费在线观看视频 | 国产男靠女视频免费网站| 国产在线精品亚洲第一网站| cao死你这个sao货| 女人高潮潮喷娇喘18禁视频| 黄色怎么调成土黄色| 亚洲国产欧美一区二区综合| 精品亚洲成国产av| 高潮久久久久久久久久久不卡| 欧美精品一区二区大全| av线在线观看网站| 亚洲欧美日韩高清在线视频 | 天天躁夜夜躁狠狠躁躁| 久久人妻av系列| 大型av网站在线播放| 亚洲伊人色综图| 久久青草综合色| 日韩大码丰满熟妇|