• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多重指數(shù)移動平均評估的DDPG算法

    2021-11-20 03:22:02范晶晶陳建平傅啟明1悠1吳宏杰1
    計算機(jī)工程與設(shè)計 2021年11期
    關(guān)鍵詞:評論家行動者經(jīng)驗

    范晶晶,陳建平,傅啟明1,,4+,陸 悠1,,4,吳宏杰1,,4

    (1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009;2.蘇州科技大學(xué) 江蘇省建筑智慧節(jié)能重點實驗室,江蘇 蘇州 215009;3.蘇州科技大學(xué) 蘇州市移動網(wǎng)絡(luò)技術(shù)與應(yīng)用重點實驗室,江蘇 蘇州 215009;4.蘇州科技大學(xué) 蘇州市虛擬現(xiàn)實智能交互及應(yīng)用技術(shù)重點實驗室,江蘇 蘇州 215009;5.珠海米棗智能科技有限公司 科研部,廣東 珠海 519000)

    0 引 言

    近年來,強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)在很多科學(xué)領(lǐng)域取得的成就較為顯著。通常的講,強(qiáng)化學(xué)習(xí)是一個智能體(Agent)與未知環(huán)境相交互,進(jìn)而學(xué)習(xí)得出一種最優(yōu)策略的方法[1]。強(qiáng)化學(xué)習(xí)可以分為3種方法,行動者方法、評論家方法、行動者-評論家方法。行動者方法通常利用策略梯度優(yōu)化。評論家方法的核心為值函數(shù)逼近。而行動者-評論家方法則結(jié)合了兩個方法的優(yōu)點,評論家結(jié)構(gòu)是值函數(shù)的近視函數(shù),以最大化累積獎賞為目標(biāo)指導(dǎo)行動者選取最優(yōu)動作[2]。

    深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)采用大型神經(jīng)網(wǎng)絡(luò)策略,通過值函數(shù)取代了經(jīng)典的線性函數(shù)逼近器。并且深度強(qiáng)化學(xué)習(xí)在各類具有挑戰(zhàn)性的問題上都有了成功的結(jié)果,例如Atari游戲、圍棋問題和機(jī)器人控制任務(wù)等[3,4]。Minh等[5]提出深度Q網(wǎng)絡(luò)(deep Q-network,DON)算法,該算法主要是結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)以及強(qiáng)化學(xué)習(xí),并引入經(jīng)驗回放技術(shù)解決了神經(jīng)網(wǎng)絡(luò)去擬合值函數(shù)導(dǎo)致訓(xùn)練結(jié)果不收斂的問題。然而DQN等算法僅在離散低維動作空間比較適用,而對于連續(xù)動作空間的問題很難適應(yīng)。策略梯度是用來解決連續(xù)狀態(tài)空間問題的基礎(chǔ),經(jīng)過反復(fù)計算跟策略參數(shù)的梯度相關(guān)的策略期望的總回報,進(jìn)而更新策略參數(shù),達(dá)到策略的收斂。Silver等提出確定性策略梯度(deterministic policy gradient,DPG)算法,隨機(jī)選擇動作的依據(jù)為概率分布,而DPG算法則是直接學(xué)習(xí)輸出動作,輸出動作增加了確定性。然而DPG的適用范圍不廣,策略優(yōu)化也有待提高,依據(jù)策略梯度的深度強(qiáng)化學(xué)習(xí)方法所優(yōu)化的效果更佳。Lillicrap等[6]提出DDPG(deep deterministic policy gradient,DDPG)算法,更好解決了連續(xù)動作空間的問題,取得最優(yōu)解的時間步也遠(yuǎn)少于DQN。陳建平等[7]針對DDPG算法需要大量數(shù)據(jù)樣本的問題,提出了一種增強(qiáng)型深度確定策略梯度算法,提高了DDPG算法的收斂性。何豐愷等[8]優(yōu)化DDPG算法并成功應(yīng)用于選擇順應(yīng)性裝配機(jī)器臂。此外,張浩昱等[9]改進(jìn)DDPG算法并應(yīng)用在車輛控制上,體現(xiàn)了DDPG算法很好的控制前景。

    本文針對DDPG算法網(wǎng)絡(luò)結(jié)構(gòu)的不穩(wěn)定性以及單評論家評估不準(zhǔn)確的問題,提出基于多重指數(shù)移動平均評估的DDPG算法,介紹一種EMA-Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)合作得出目標(biāo)更新值,并針對DDPG訓(xùn)練過程中行動者的學(xué)習(xí)過于依賴評論家,對多個評論家給出的Q值求平均,這樣多個獨立的評論家網(wǎng)絡(luò)可以充分在環(huán)境中進(jìn)行學(xué)習(xí),降低單個評論家的不準(zhǔn)確性。實驗結(jié)果表明,比傳統(tǒng)的DDPG算法相比,基于多重指數(shù)移動平均評估的DDPG算法準(zhǔn)確性更好,穩(wěn)定性更高。樣本池部分引入雙重經(jīng)驗回放方法,采用兩個樣本池分別存儲不同的經(jīng)驗,實驗結(jié)果表明,改進(jìn)后的算法求得最優(yōu)解需要的時間步更少,收斂速度也有明顯提升。

    1 相關(guān)理論

    1.1 強(qiáng)化學(xué)習(xí)

    在強(qiáng)化學(xué)習(xí)中,一個智能體(Agent)在不同時間步與環(huán)境交互盡可能得到累積最大獎賞。強(qiáng)化學(xué)習(xí)問題可以以一個五元組的形式 建模成一個馬爾可夫決策過程(Markov decision process,MDP)。其中,S表示狀態(tài)空間,A表示動作空間,P:S×A×S→[0,1] 表示概率轉(zhuǎn)移函數(shù),R:S×R→r∈R獎賞函數(shù),γ∈(0,1) 是折扣因子。Agent的目標(biāo)是通過學(xué)習(xí)到一個最優(yōu)策略從而最大化累積折扣獎賞的期望值,通常用累積折扣獎賞來定義t時刻的狀態(tài)回報,即

    (1)

    其中,t為時間步,T為終止時間步,r(st,at) 為在狀態(tài)st采取動作at所得到的回報。

    尋找出最優(yōu)策略是強(qiáng)化學(xué)習(xí)的關(guān)鍵,并在該策略基礎(chǔ)上進(jìn)行決策。在強(qiáng)化學(xué)習(xí)中,策略為π,π(s,a) 是指在狀態(tài)s下選擇動作a的概率。如果策略π是一個確定的策略,在任意狀態(tài)s∈S,π(s) 表示在狀態(tài)s下所選擇的動作a。

    強(qiáng)化學(xué)習(xí)中用來評估策略π的好壞的是值函數(shù),由狀態(tài)值函數(shù)Vπ、 動作值函數(shù)Qπ組成,Vπ(s) 表示在狀態(tài)s下,根據(jù)策略π得到的期望回報,Qπ(s) 表示在狀態(tài)s下,選擇動作a并根據(jù)策略π得到的期望回報。通常用Qπ(s) 來評估策略π的好壞

    (2)

    式(2)為Bellman方程。

    強(qiáng)化學(xué)習(xí)中π*表示最優(yōu)策略,該策略能最大化獎賞函數(shù),對應(yīng)的Q*(s,a) 可以表示為

    (3)

    式(3)為最優(yōu)Bellman方程。

    1.2 DDPG算法

    無模型強(qiáng)化學(xué)習(xí)方法可以不需要一個完整、準(zhǔn)確的環(huán)境模型而直接學(xué)習(xí)得到最優(yōu)策略。DDPG算法屬于行動者-評論家方法的一種,是屬于無模型、離策略的強(qiáng)化學(xué)習(xí)方法。

    Deepmind提出DDPG,聯(lián)合深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)以及DPG,由此得到的更優(yōu)的策略學(xué)習(xí)方法。在DPG的基礎(chǔ)上,它的優(yōu)點在于策略函數(shù)μ和Q函數(shù)分別用卷積神經(jīng)網(wǎng)絡(luò)去模擬,也就是策略網(wǎng)絡(luò)和Q網(wǎng)絡(luò),后續(xù)用深度學(xué)習(xí)對上述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,Q函數(shù)用的是Alpha Go同樣的Q函數(shù)方法。

    DDPG方法包含AC算法,經(jīng)驗回放,目標(biāo)網(wǎng)絡(luò)和確定性策略梯度理論,其主要貢獻(xiàn)是證明了確定性策略μw的存在:S→A, 通過給agent一個狀態(tài)得到一個確切的動作,而不是得到所有動作的概率分布。在DDPG中,性能目標(biāo)定義為

    (4)

    ρπ(s) 代表狀態(tài)分布,確定性策略的目標(biāo)是

    (5)

    θ和w分別是評論家網(wǎng)絡(luò)Q(st,at,θ) 和行動者網(wǎng)絡(luò)μ(st,w) 的參數(shù),在DDPG方法中分別用于逼近動作值函數(shù)和參與者函數(shù),用于訓(xùn)練的經(jīng)驗取自于經(jīng)驗回放。經(jīng)驗回放通常是一個用來存儲四元組 (st,at,rt,st+1) 的緩沖器,其中的一部分用于行動者和評論家網(wǎng)絡(luò)的更新。當(dāng)緩沖器容量滿時,較新的經(jīng)驗會代替舊的經(jīng)驗,因此只有一小部分舊經(jīng)驗得到保留。另外,通過給訓(xùn)練過程一個目標(biāo),利用目標(biāo)網(wǎng)絡(luò)來更新評論家網(wǎng)絡(luò),目標(biāo)網(wǎng)絡(luò)的參數(shù)通常與評論家網(wǎng)絡(luò)的參數(shù)一樣。目標(biāo)網(wǎng)絡(luò)定義為Qtar, 損失函數(shù)定義為

    Ltar(θ)=(r(st,at)+γQtar(st+1,at+1,θ-)-Q(st,at,θ))2

    (6)

    其中,θ-是先前迭代的參數(shù),經(jīng)驗回放和目標(biāo)網(wǎng)絡(luò)對于穩(wěn)定DDPG方法的訓(xùn)練過程具有重要意義,并且有利于深度神經(jīng)網(wǎng)絡(luò)的建立。

    2 基于多重指數(shù)移動平均評估的DDPG算法

    基于多重指數(shù)移動平均評估的DDPG算法針對DDPG算法雙網(wǎng)絡(luò)結(jié)構(gòu)的不穩(wěn)定性以及單評論家評估不準(zhǔn)確的問題,介紹一種EMA-Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)合作得出目標(biāo)更新值,并針對DDPG訓(xùn)練過程中行動者的學(xué)習(xí)過于依賴評論家,對多個評論家給出的Q值求平均,多個獨立的評論家網(wǎng)絡(luò)可以充分的在環(huán)境中進(jìn)行學(xué)習(xí),降低單個評論家的不準(zhǔn)確性,提高算法穩(wěn)定性。樣本池部分引入雙重經(jīng)驗回放方法,提高算法的收斂性能。

    2.1 指數(shù)移動平均DQN

    在DQN算法的基礎(chǔ)上,平均DQN算法又做了進(jìn)一步的改進(jìn)。在平均DQN的訓(xùn)練過程中,目標(biāo)Q網(wǎng)絡(luò)對以前學(xué)習(xí)的K個Q網(wǎng)絡(luò)求平均得到,而不是直接在一個固定長度的時間步后,直接從目標(biāo)Q網(wǎng)絡(luò)復(fù)制值。平均DQN通過降低目標(biāo)近似誤差(target approximation error,TAE)的方差來提高整個訓(xùn)練過程的穩(wěn)定性。

    (7)

    (8)

    在平均DQN中

    (9)

    (10)

    顯而易見,平均DQN的性能隨著值K的上升而提高,換句話說,要得到一個更好的策略需要更多的神經(jīng)網(wǎng)絡(luò)來存儲參數(shù),也意味著需要大量的內(nèi)存。

    為了處理需要過多的神經(jīng)網(wǎng)絡(luò)的需求,采取了式(11)中的遞歸形式,而不像平均DQN那樣降低TAE的方差

    (11)

    并且與平均DQN的方差估計相比減小了一半[10]。

    2.2 關(guān)于樣本池的改進(jìn)

    優(yōu)先經(jīng)驗回放的核心是頻繁選取TD誤差大的經(jīng)驗,以加快訓(xùn)練進(jìn)程。然而,這要求必須在整個訓(xùn)練過程中掌握采樣TD誤差的概率,本文提出一種雙重經(jīng)驗回放,使用兩個經(jīng)驗池B1和B2來存儲Agent的經(jīng)驗,其中B1和B2的工作方式相同,B2的大小為50,B1的大小為200,在雙重經(jīng)驗回放中,非常好或者非常差的經(jīng)驗被視為具有高TD誤差的經(jīng)驗,其中TD誤差的公式為

    φi=r(si,ai)+γQ′(si+1,μ′(si+1|θμ′)|θQ′)-Q(si,ai|θQ)

    (12)

    TD誤差的閾值設(shè)置為0.4,當(dāng)TD誤差的值大于0.4時視為具有高TD誤差,存儲在B1和B2中,其它經(jīng)驗則存儲在B1中。當(dāng)進(jìn)行采樣時,從B1中采樣40個樣本,B2中10個樣本,約占20%。隨著訓(xùn)練過程的進(jìn)行,Agent的學(xué)習(xí)的表現(xiàn)效果會更好,甚至取得最好的分?jǐn)?shù),因此B2中的經(jīng)驗不再具有高TD誤差,對雙重經(jīng)驗回放的需求隨著訓(xùn)練過程的進(jìn)行應(yīng)該降低。

    概率函數(shù)Pder用來表示從B2中采樣的概率,隨著時間的后移該概率隨之降低,具體公式見下式

    (13)

    該步驟對訓(xùn)練過程的收斂至關(guān)重要,一個好的訓(xùn)練模型總是根據(jù)以前的成功經(jīng)驗進(jìn)行更新,這可能會導(dǎo)致Agent在大部分狀態(tài)具有較差的魯棒性和靈活性??傊?,使用概率函數(shù)能在訓(xùn)練前期加快訓(xùn)練過程,并且在模型趨于收斂時降低自身的作用,進(jìn)一步加快收斂。

    2.3 基于多重指數(shù)移動平均評估的DDPG算法

    雖然DDPG在連續(xù)控制領(lǐng)域表現(xiàn)出了其優(yōu)異的性能,但是穩(wěn)定性方面仍然可以得到提高,在訓(xùn)練過程中,行動者的學(xué)習(xí)依賴于評論家,使得DDPG方法的訓(xùn)練對評論家學(xué)習(xí)的有效性過于敏感,為了進(jìn)一步提高評論家網(wǎng)絡(luò)的準(zhǔn)確性,提出采取K個評論家求平均得

    (14)

    其中,θi表示第i個評論家的參數(shù),該方法包含K個獨立的評價網(wǎng)絡(luò),因此,當(dāng)一個評論家為行動者提供指導(dǎo)時表現(xiàn)較差時(例如該評論家的估計值突然下降),多個評論家求平均會在一定程度上降低不良影響。并且,多個獨立的評論家網(wǎng)絡(luò)可以充分的在環(huán)境中進(jìn)行學(xué)習(xí)。

    有兩種方法訓(xùn)練評論家網(wǎng)絡(luò),一種是利用評論家的平均值與目標(biāo)評論家的平均值之間的誤差(TD errors)

    (15)

    LMC(θi)=αLavg(θ)+βLtar(θi)+η(Qi(s,a,θi)-
    Qavg(s,a,θ))2

    (16)

    其中,LMC(θi) 為平均評論家的損失函數(shù)平均值,α,β和η為權(quán)重,α,β和η都是0到1之間的浮點數(shù),α和β加起來等于1,Lavg(θ) 為評論家網(wǎng)絡(luò)的損失函數(shù)平均值,Ltar(θi) 為目標(biāo)評論家網(wǎng)絡(luò)的損失函數(shù)值。因為當(dāng)K為1時,LMC應(yīng)該等于Ltar, 即損失函數(shù)可以看作是3個兩兩相關(guān)部分的總和:兩組評論家之間的全局平均誤差、單個評論家和其對應(yīng)的目標(biāo)評論家之間的獨立TD誤差、用來減小評論家方差的單個評論家與K個評論家平均值的差值。

    針對DDPG中的雙網(wǎng)絡(luò)結(jié)構(gòu)的不穩(wěn)定的問題,介紹一種EMA-Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)合作得到目標(biāo)更新值,目標(biāo)網(wǎng)絡(luò)具體更新公式

    θEMA←αθQavg+(1-α)θEMA

    (17)

    (18)

    θμ′←βθμ+(1-β)θμ′

    (19)

    行動者網(wǎng)絡(luò)的參數(shù)更新

    (20)

    根據(jù)上述具體優(yōu)化過程,下面給出基于多重指數(shù)移動平均評估的DDPG算法的流程,如算法1所示。

    算法1:基于多重指數(shù)移動平均評估的DDPG算法

    (1)隨機(jī)初始化K個評論家網(wǎng)絡(luò)Qi(s,a|θQi), 行動者網(wǎng)絡(luò)μ(s|θμ) 及它們相對應(yīng)的權(quán)重分別為θQi和θμ,i=0,1…k-1, 初始化EMA網(wǎng)絡(luò)QEMA, 權(quán)重為θEMA←θQavg,K個目標(biāo)評論家網(wǎng)絡(luò)Q′i, 目標(biāo)行動者網(wǎng)絡(luò)μ′, 權(quán)重為θQ′i和θμ′,θQ′i←θQi,θμ′←θμ, 原始樣本池B1, 高誤差樣本池B2初始為空,B2內(nèi)存較小,時間步T

    (2)while episode do

    (3) 初始化一個隨機(jī)過程Nt用于探索動作

    (4) 獲得初始觀察狀態(tài)s0

    (5) while t=0,T do

    (6) 根據(jù)當(dāng)前策略和高斯噪聲at=μ(st|θμ)+Nt選擇動作

    (7) 執(zhí)行動作at, 得到rt,st+1

    (8) 將 (st,at,rt,st+1) 存儲在兩個樣本池B1,B2中

    (9) 從樣本池B1中隨機(jī)采樣一部分,B2隨機(jī)采樣一小部分,約占10%

    (10) 通過最小化損失函數(shù)來更新每個評論家網(wǎng)絡(luò):LMC(θi)=αLavg(θ)+βLtar(θi)+η(Qi(s,a,θi)-Qavg(s,a,θ))2,Lavg(θ) 為評論家網(wǎng)絡(luò)的損失函數(shù)平均值,Ltar(θi) 為目標(biāo)評論家網(wǎng)絡(luò)的損失函數(shù)值,LMC(θi) 為平均評論家的損失函數(shù)平均值。

    (12) 更新目標(biāo)網(wǎng)絡(luò)的參數(shù):

    θEMA←mθQavg+(1-m)θEMAθQ′avg←nθQavg+(1-n)θQ′avg,θμ′←qθμ+(1-q)θμ′, 其中,θEMA,θQavg,θμ分別為EMA網(wǎng)絡(luò)、評論家網(wǎng)絡(luò)、策略網(wǎng)絡(luò)的權(quán)重,m,n,q都是(0,1)之間的浮點數(shù)。

    (13) end

    (14)end

    3 實驗部分

    為了驗證基于多重指數(shù)移動平均評估的DDPG算法的有效性,本文將原始DDPG算法和基于多重指數(shù)移動平均評估的DDPG算法分別實驗于經(jīng)典的Pendulum問題和MountainCar問題,實驗環(huán)境為OpenAI gym,為一個開源的仿真平臺。OpenAI Gym是開發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包。OpenAI Gym由兩部分組成:①gym開源庫:gym開源庫為用于強(qiáng)化學(xué)習(xí)算法開發(fā)環(huán)境,環(huán)境有共享接口,用于設(shè)計通用的算法;②OpenAI Gym服務(wù):用于對訓(xùn)練的算法進(jìn)行性能比較。

    3.1 實驗描述

    3.1.1 MountainCar 問題

    在MountainCar問題中,一輛小車沿著一維軌道行駛,停在了兩座小山之間,小車企圖到達(dá)較高的一座山上,然而由于其動力不足不能直接到達(dá)山頂,而是需要來回行駛獲取更多的動能,才能到達(dá)山頂。如果消耗的能量越少,則回報值越大。圖1給出了Mountain Car問題。

    圖1 Mountain Car

    狀態(tài)為2維狀態(tài),分別通過位置、速度來表示,可以表示為:s=(p,v), 其中p∈[-1.2,0.6],v∈[-0.07,0.07], 動作為1維動作,有3個能夠選擇的動作:向左加速,向右加速,不加速,分別用+1,-1,0表示,即動作a={-1,0,+1}。 一開始,會隨機(jī)地給小車一個位置以及速度,小車來回行使的過程中不斷學(xué)習(xí)。當(dāng)小車到山頂之后(“星”形標(biāo)記處),或者是當(dāng)時間步超1500時,情節(jié)會立即結(jié)束,重新開始另一個情節(jié)。

    3.1.2 Pendulum問題

    倒立擺是控制方面中的經(jīng)典問題,鐘擺從一個隨機(jī)的位置開始,通過施加一個力(作用力的范圍是[-2,2]),Agent的主要任務(wù)為學(xué)習(xí)到一個最優(yōu)的策略,使它先擺動起來,最終保持鐘擺直立。圖2給出了Pendulum問題。

    圖2 Pendulum

    狀態(tài)為3維狀態(tài),鐘擺的位置代表其中的2維,速度代表另一維。具體可以表示為:s=(cosθ,sinθ,v), 其中θ∈[-1,1],v∈[-8,8], 動作為1維動作,代表了對鐘擺所施加的力,具體可以表示為:a∈[-2,+2]

    3.2 實驗設(shè)置

    實驗運行硬件環(huán)境為Inter(R) Xeon(R) CPU E5-2660處理器、NVIDIA Geforce GTX 1060顯卡、16 GB內(nèi)存;軟件環(huán)境為Windows 10操作系統(tǒng)、python 3.5、TensorFlow_GPU-1.4.0。

    對于每個實驗,一些實驗參數(shù)是固定的。使用Adam 優(yōu)化器對神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,行動者網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的學(xué)習(xí)率分別為2×10-5、 2×10-4, 折扣率為0.99。目標(biāo)網(wǎng)絡(luò)的更新參數(shù)為0.01,在探索過程中,方差為0.2的零均值高斯噪聲被加進(jìn)行動中。對于每個訓(xùn)練過程包含300個情節(jié),每個情節(jié)有15次循環(huán),每個循環(huán)中有100個時間步。批處理固定值為64,經(jīng)驗回放緩沖器是長度為105的循環(huán)隊列。在DDPG中,行動者及評論家網(wǎng)絡(luò)均含有兩個隱藏層(128個單元),在基于多重指數(shù)移動平均評估的DDPG算法中,參數(shù)α,β,η分別設(shè)置為0.6、0.4、0.05,評論家的個數(shù)設(shè)置為5。

    3.3 實驗結(jié)果分析

    DDPG算法和指數(shù)移動平均的DDPG算法以及基于多重指數(shù)移動平均評估的DDPG算法在Mountain Car和Pendulum環(huán)境中實驗,實驗結(jié)果在本部分詳細(xì)說明,并進(jìn)一步客觀地分析實驗結(jié)果。

    為了評估評論家的可靠性和穩(wěn)定性,采用平均回報值進(jìn)行評估。在DDPG方法、指數(shù)移動平均的DDPG方法及基于多重指數(shù)移動平均評估的DDPG方法中,agent與獨立環(huán)境交互,得到每7個周期的10條路徑的平均獎賞作為性能的評估,損失函數(shù)的值顯示了整個訓(xùn)練過程的收斂性。

    DDPG算法、指數(shù)移動平均的DDPG算法以及基于多重指數(shù)移動平均評估的DDPG算法分別在Pendulum、Mountain Car環(huán)境中進(jìn)行實驗,對于圖中的實驗結(jié)果,在兩個實驗中,平均回報值增加然后收斂,損失函數(shù)隨著訓(xùn)練進(jìn)程的加快直至結(jié)束逐漸趨向于0,如圖3(a)、圖3(b)所示,由指數(shù)移動平均的DDPG算法獲得的平均回報值在大部分情節(jié)遠(yuǎn)大于原始DDPG算法所獲得的平均回報值,而加入多評論家的指數(shù)移動平均的DDPG算法獲得的平均回報值比指數(shù)移動平均的DDPG方法更大,此外,從圖3(a)、圖3(b)中兩幅圖可以很明顯看出,與原始DDPG算法和指數(shù)移動平均的DDPG算法相比,基于多重指數(shù)移動平均評估的DDPG算法的平均回報值變化范圍最小,因此,基于多重指數(shù)移動平均評估的DDPG算法的穩(wěn)定性和有效性得到了有效的驗證。此外,基于多重指數(shù)移動平均評估的DDPG算法中平均回報值突然下降較少且很快回歸正常。在Mountain Car環(huán)境中,盡管3種方法的獎賞很相似,但是可以看出在整個路徑中基于多重指數(shù)移動平均評估的DDPG算法大部分情節(jié)不存在獎賞的突然下降。圖4(a)、圖4(b)所示的平均損失函數(shù)也相當(dāng)不同,從實驗結(jié)果可以明顯看出,基于多重指數(shù)移動平均評估的DDPG算法的損失函數(shù)值相比指數(shù)移動平均的DDPG算法更小,且隨著訓(xùn)練進(jìn)程的加快更快的趨向于0,驗證了基于多重指數(shù)移動平均評估的DDPG算法的收斂性能更好。

    圖3 3種算法的平均回報值實驗對比

    圖4 3種算法的損失函數(shù)值實驗對比

    對于雙重經(jīng)驗回放部分,我們將DDPG算法與加入雙重經(jīng)驗回放的DDPG算法在Pendulum實驗中測試了這部分改進(jìn)內(nèi)容。如圖5所示,黑色的虛線部分代表了收斂的近

    圖5 Pendulum問題中DDPG算法是否引入雙重經(jīng)驗回放的實驗對比

    似時間,由圖5(a)中,可以看出引入雙重經(jīng)驗回放的DDPG算法在160個情節(jié)處逐漸收斂,而原始DDPG算法的收斂時間大致在250個情節(jié),圖5(b)中可以看出引入雙重經(jīng)驗回放的DDPG算法大致在470個情節(jié)收斂,而未引入雙重經(jīng)驗回放的DDPG算法在630個情節(jié)收斂,因此由實驗結(jié)果可以明顯可見雙重經(jīng)驗回放確實加快了訓(xùn)練的過程。

    4 結(jié)束語

    本文針對DDPG算法雙網(wǎng)絡(luò)結(jié)構(gòu)的不穩(wěn)定性以及單評論家評估不準(zhǔn)確的問題,提出基于多重指數(shù)移動平均評估的DDPG算法,介紹一種EMA-Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)合作得出目標(biāo)更新值,并針對DDPG訓(xùn)練過程中行動者的學(xué)習(xí)過于依賴評論家,對多個評論家給出的Q值求平均,多個獨立的評論家網(wǎng)絡(luò)可以充分的在環(huán)境中進(jìn)行學(xué)習(xí),降低單個評論家的不準(zhǔn)確性。樣本池部分引入雙重經(jīng)驗回放方法,提高算法的收斂性能,實驗結(jié)果表明,比傳統(tǒng)的DDPG算法相比,基于多重指數(shù)移動平均評估的DDPG算法的收斂性能更好,穩(wěn)定性更高。

    本文主要針對Pendulum和Mountain Car兩個實驗驗證基于多重指數(shù)移動平均評估的DDPG算法的性能,從實驗結(jié)果可以看出,基于多重指數(shù)移動平均評估的DDPG算法的收斂性更好,穩(wěn)定性更高。但是算法中的超參數(shù)的設(shè)置均為人工設(shè)置,因此在未來的工作中將重在調(diào)整損失函數(shù)的參數(shù)為可訓(xùn)練的變量,使得算法收斂性更好,穩(wěn)定性也有所提升。

    猜你喜歡
    評論家行動者經(jīng)驗
    與異質(zhì)性行動者共生演進(jìn):基于行動者網(wǎng)絡(luò)理論的政策執(zhí)行研究新路徑
    音樂評論家的“內(nèi)功”修煉——論八項追求
    中國音樂(2022年3期)2022-06-10 06:28:36
    2021年第20期“最值得推廣的經(jīng)驗”評選
    黨課參考(2021年20期)2021-11-04 09:39:46
    著名詩人、評論家
    鴨綠江(2021年29期)2021-02-28 05:44:26
    著名詩人、評論家 吳思敬
    鴨綠江(2020年29期)2020-11-15 07:05:52
    評論家楊占平
    火花(2019年8期)2019-08-28 08:45:06
    經(jīng)驗
    2018年第20期“最值得推廣的經(jīng)驗”評選
    黨課參考(2018年20期)2018-11-09 08:52:36
    敬仰中國大地上的綠色行動者
    綠色中國(2016年1期)2016-06-05 09:02:59
    網(wǎng)絡(luò)行動者的新媒體使用特征、影響及媒介民主化
    新聞傳播(2015年3期)2015-07-12 12:22:28
    飞空精品影院首页| 最近中文字幕2019免费版| 久久久久国产精品人妻一区二区| 亚洲内射少妇av| 一级片免费观看大全| 美女中出高潮动态图| 午夜福利影视在线免费观看| 国产精品秋霞免费鲁丝片| 狠狠婷婷综合久久久久久88av| 亚洲精品456在线播放app| 啦啦啦中文免费视频观看日本| 最新中文字幕久久久久| 全区人妻精品视频| 另类亚洲欧美激情| 亚洲欧美日韩另类电影网站| 国产综合精华液| 国产欧美另类精品又又久久亚洲欧美| 成年美女黄网站色视频大全免费| 天堂俺去俺来也www色官网| 国产成人a∨麻豆精品| 亚洲欧美成人综合另类久久久| 90打野战视频偷拍视频| 欧美精品高潮呻吟av久久| 日韩一区二区三区影片| 高清不卡的av网站| 精品午夜福利在线看| h视频一区二区三区| 大片免费播放器 马上看| 亚洲国产av影院在线观看| 免费女性裸体啪啪无遮挡网站| 80岁老熟妇乱子伦牲交| 黄色 视频免费看| 黄片播放在线免费| 国产一区亚洲一区在线观看| 亚洲精品久久久久久婷婷小说| 亚洲国产精品999| 高清毛片免费看| 女性被躁到高潮视频| 人人妻人人添人人爽欧美一区卜| 丝袜人妻中文字幕| 亚洲在久久综合| 亚洲少妇的诱惑av| 99热6这里只有精品| 亚洲 欧美一区二区三区| 亚洲成国产人片在线观看| 这个男人来自地球电影免费观看 | 中国美白少妇内射xxxbb| 日本91视频免费播放| 午夜老司机福利剧场| 99热网站在线观看| 蜜臀久久99精品久久宅男| 精品国产一区二区三区久久久樱花| 老女人水多毛片| 成人二区视频| 亚洲四区av| 亚洲色图综合在线观看| 中文精品一卡2卡3卡4更新| 午夜av观看不卡| 久久99一区二区三区| 久久鲁丝午夜福利片| 精品视频人人做人人爽| 久久久久久久大尺度免费视频| 成人影院久久| 美女国产视频在线观看| 日本与韩国留学比较| 国产精品 国内视频| 日韩成人伦理影院| 国产精品久久久久久精品古装| 美女国产高潮福利片在线看| 国产精品99久久99久久久不卡 | av女优亚洲男人天堂| 在线观看免费高清a一片| 2018国产大陆天天弄谢| 欧美精品一区二区免费开放| 欧美日韩成人在线一区二区| 伊人亚洲综合成人网| 国产成人一区二区在线| 又黄又爽又刺激的免费视频.| 欧美日韩亚洲高清精品| a 毛片基地| 亚洲欧美清纯卡通| 综合色丁香网| 高清av免费在线| 欧美性感艳星| 一级片'在线观看视频| 中文字幕人妻丝袜制服| 亚洲成人av在线免费| 欧美激情国产日韩精品一区| 97超碰精品成人国产| 欧美 日韩 精品 国产| 亚洲欧美日韩卡通动漫| 精品一区二区免费观看| 国产免费一级a男人的天堂| 国产男女超爽视频在线观看| 深夜精品福利| 亚洲人成网站在线观看播放| 久久久a久久爽久久v久久| 如何舔出高潮| 最近2019中文字幕mv第一页| 高清欧美精品videossex| 亚洲,一卡二卡三卡| 日日爽夜夜爽网站| 国产精品国产三级国产av玫瑰| 中文字幕人妻熟女乱码| 黄片无遮挡物在线观看| 国产精品国产三级专区第一集| 国产男女超爽视频在线观看| 欧美+日韩+精品| 精品亚洲成a人片在线观看| 亚洲国产精品国产精品| 久久精品国产a三级三级三级| 妹子高潮喷水视频| 国产乱来视频区| 性色avwww在线观看| 啦啦啦中文免费视频观看日本| 一级片'在线观看视频| 菩萨蛮人人尽说江南好唐韦庄| 美女主播在线视频| 2022亚洲国产成人精品| 成人毛片a级毛片在线播放| 最近中文字幕2019免费版| 久久久久久久久久久免费av| 九草在线视频观看| 欧美激情国产日韩精品一区| 久久婷婷青草| 亚洲国产毛片av蜜桃av| av黄色大香蕉| 久久人人97超碰香蕉20202| 在线 av 中文字幕| 中文字幕精品免费在线观看视频 | 国产精品麻豆人妻色哟哟久久| 伊人久久国产一区二区| av线在线观看网站| 丝瓜视频免费看黄片| 香蕉精品网在线| 一边摸一边做爽爽视频免费| 丝袜脚勾引网站| 中文乱码字字幕精品一区二区三区| 一本大道久久a久久精品| 美女内射精品一级片tv| 亚洲高清免费不卡视频| 国产免费视频播放在线视频| 最近中文字幕高清免费大全6| 久久热在线av| 青春草亚洲视频在线观看| 成人影院久久| 亚洲av电影在线观看一区二区三区| 久久久久人妻精品一区果冻| 亚洲av福利一区| 免费不卡的大黄色大毛片视频在线观看| 中国三级夫妇交换| av又黄又爽大尺度在线免费看| 国产一区二区在线观看av| 视频区图区小说| 国产一区二区在线观看日韩| 日日撸夜夜添| 国产成人精品婷婷| 男女国产视频网站| 欧美性感艳星| 国产精品女同一区二区软件| 亚洲精品国产色婷婷电影| 亚洲一级一片aⅴ在线观看| 久久精品国产自在天天线| 一区二区av电影网| 爱豆传媒免费全集在线观看| 亚洲av.av天堂| 国产极品粉嫩免费观看在线| 搡女人真爽免费视频火全软件| 99久久中文字幕三级久久日本| 大香蕉久久成人网| 亚洲熟女精品中文字幕| 免费播放大片免费观看视频在线观看| 国产精品国产三级国产av玫瑰| 一本色道久久久久久精品综合| 黄片无遮挡物在线观看| 如日韩欧美国产精品一区二区三区| 国产精品国产三级专区第一集| 国产精品国产三级专区第一集| 国产精品偷伦视频观看了| xxx大片免费视频| 久久午夜综合久久蜜桃| 国产亚洲午夜精品一区二区久久| 夫妻午夜视频| 亚洲情色 制服丝袜| 日韩成人av中文字幕在线观看| 国产av国产精品国产| 亚洲婷婷狠狠爱综合网| 在现免费观看毛片| 色婷婷久久久亚洲欧美| 人妻少妇偷人精品九色| 天堂俺去俺来也www色官网| 久久久国产欧美日韩av| 国产日韩欧美亚洲二区| 精品视频人人做人人爽| 精品少妇黑人巨大在线播放| 久久久久国产网址| 日本-黄色视频高清免费观看| 丝袜人妻中文字幕| 欧美日韩精品成人综合77777| 亚洲精品视频女| 99热国产这里只有精品6| av福利片在线| 国产成人免费观看mmmm| av又黄又爽大尺度在线免费看| 多毛熟女@视频| 欧美性感艳星| 卡戴珊不雅视频在线播放| 午夜老司机福利剧场| 国产精品嫩草影院av在线观看| 一级黄片播放器| 亚洲国产成人一精品久久久| 精品人妻一区二区三区麻豆| 日韩视频在线欧美| 亚洲精品久久成人aⅴ小说| 亚洲欧美成人精品一区二区| 十八禁网站网址无遮挡| 99国产综合亚洲精品| a级毛片在线看网站| 亚洲精品自拍成人| av免费观看日本| 我的女老师完整版在线观看| 午夜久久久在线观看| 日本av手机在线免费观看| 丰满少妇做爰视频| 日韩 亚洲 欧美在线| 丝袜在线中文字幕| 精品亚洲成a人片在线观看| 美女中出高潮动态图| 亚洲国产日韩一区二区| 熟女电影av网| 亚洲精品自拍成人| 99热国产这里只有精品6| 精品一区在线观看国产| 国产精品免费大片| 成人18禁高潮啪啪吃奶动态图| 高清不卡的av网站| 久久久久国产精品人妻一区二区| 99久久人妻综合| 18禁国产床啪视频网站| 久久女婷五月综合色啪小说| 日韩av在线免费看完整版不卡| 久久精品久久久久久噜噜老黄| 久久久久视频综合| 久久热在线av| 欧美 亚洲 国产 日韩一| 超碰97精品在线观看| 国产一区有黄有色的免费视频| 中国美白少妇内射xxxbb| 精品人妻熟女毛片av久久网站| 99国产综合亚洲精品| 久久久亚洲精品成人影院| 国产精品国产三级专区第一集| 日韩伦理黄色片| 亚洲伊人久久精品综合| 精品久久蜜臀av无| xxxhd国产人妻xxx| 青春草国产在线视频| 韩国精品一区二区三区 | 成人毛片60女人毛片免费| 91国产中文字幕| 日韩精品有码人妻一区| 国产精品三级大全| 男男h啪啪无遮挡| 欧美xxxx性猛交bbbb| 自线自在国产av| 国产成人午夜福利电影在线观看| 久久女婷五月综合色啪小说| 亚洲av中文av极速乱| 国产欧美日韩综合在线一区二区| 成人国语在线视频| 久久99热这里只频精品6学生| 最近手机中文字幕大全| 久久久久久人妻| 男人添女人高潮全过程视频| 国产成人精品在线电影| 精品人妻偷拍中文字幕| 中国三级夫妇交换| 午夜91福利影院| 最近2019中文字幕mv第一页| 亚洲少妇的诱惑av| 久久久欧美国产精品| 久久久久久久久久人人人人人人| 亚洲av国产av综合av卡| 啦啦啦在线观看免费高清www| 国产免费一区二区三区四区乱码| 久热久热在线精品观看| 考比视频在线观看| 熟女电影av网| 精品国产乱码久久久久久小说| 综合色丁香网| 在现免费观看毛片| 内地一区二区视频在线| a级片在线免费高清观看视频| 亚洲成色77777| 男女下面插进去视频免费观看 | av国产久精品久网站免费入址| 三级国产精品片| 考比视频在线观看| 99精国产麻豆久久婷婷| 只有这里有精品99| 欧美精品国产亚洲| 丝袜美足系列| 热re99久久精品国产66热6| 男人添女人高潮全过程视频| 女人久久www免费人成看片| 久久久亚洲精品成人影院| 国产欧美另类精品又又久久亚洲欧美| 丰满少妇做爰视频| 欧美日韩亚洲高清精品| 国产免费又黄又爽又色| 女人久久www免费人成看片| 只有这里有精品99| 日韩av免费高清视频| 人妻人人澡人人爽人人| 亚洲精品中文字幕在线视频| 欧美97在线视频| 美女脱内裤让男人舔精品视频| 五月伊人婷婷丁香| 制服人妻中文乱码| 男人爽女人下面视频在线观看| 丝瓜视频免费看黄片| 91精品三级在线观看| 这个男人来自地球电影免费观看 | 黑人巨大精品欧美一区二区蜜桃 | 久久综合国产亚洲精品| 五月天丁香电影| 精品亚洲成a人片在线观看| 五月开心婷婷网| 婷婷色综合大香蕉| 久久综合国产亚洲精品| 黄网站色视频无遮挡免费观看| 久久久国产欧美日韩av| 国产在线免费精品| 成人手机av| 制服人妻中文乱码| 久久久精品区二区三区| 人妻 亚洲 视频| 国产福利在线免费观看视频| 亚洲精品乱久久久久久| 国产1区2区3区精品| 美女视频免费永久观看网站| 久久亚洲国产成人精品v| 亚洲av欧美aⅴ国产| 欧美精品国产亚洲| 精品久久久精品久久久| 亚洲国产精品国产精品| 欧美最新免费一区二区三区| 欧美bdsm另类| 天堂8中文在线网| 日韩一区二区三区影片| 国产av一区二区精品久久| 男女下面插进去视频免费观看 | 成人二区视频| 国产免费又黄又爽又色| 免费女性裸体啪啪无遮挡网站| 美女国产视频在线观看| 卡戴珊不雅视频在线播放| 18禁观看日本| 国产有黄有色有爽视频| 欧美bdsm另类| 久久青草综合色| 国产精品蜜桃在线观看| 久久久久精品人妻al黑| 在线观看免费日韩欧美大片| 制服人妻中文乱码| 国产日韩欧美视频二区| 国产av一区二区精品久久| a级毛片在线看网站| 国产亚洲午夜精品一区二区久久| 曰老女人黄片| 久久这里有精品视频免费| av网站免费在线观看视频| 五月玫瑰六月丁香| 女性被躁到高潮视频| 国产色婷婷99| 精品人妻偷拍中文字幕| 又粗又硬又长又爽又黄的视频| 一级毛片我不卡| 精品亚洲成a人片在线观看| 精品国产露脸久久av麻豆| 国产一区亚洲一区在线观看| 人妻人人澡人人爽人人| 精品人妻一区二区三区麻豆| 成人亚洲精品一区在线观看| 亚洲av欧美aⅴ国产| 国产亚洲最大av| 秋霞在线观看毛片| 国产在线视频一区二区| av在线观看视频网站免费| 丰满乱子伦码专区| 久久99热6这里只有精品| 久久久久久久久久成人| 久久99蜜桃精品久久| 一边亲一边摸免费视频| 欧美xxxx性猛交bbbb| 午夜福利,免费看| av免费观看日本| 国产成人a∨麻豆精品| 国产高清三级在线| 欧美精品一区二区大全| 亚洲欧洲精品一区二区精品久久久 | 国产在线免费精品| 91国产中文字幕| 国产成人av激情在线播放| 18禁观看日本| 成年美女黄网站色视频大全免费| 国产片内射在线| 日韩制服丝袜自拍偷拍| av网站免费在线观看视频| 久久久久人妻精品一区果冻| 青春草国产在线视频| 国产成人午夜福利电影在线观看| 国产精品偷伦视频观看了| 亚洲,一卡二卡三卡| 日日啪夜夜爽| 亚洲av日韩在线播放| 国产亚洲最大av| 久热久热在线精品观看| 亚洲经典国产精华液单| 亚洲精品乱久久久久久| a 毛片基地| 伦精品一区二区三区| 亚洲欧洲国产日韩| 欧美人与性动交α欧美软件 | 精品国产乱码久久久久久小说| 精品国产国语对白av| 亚洲第一av免费看| 18在线观看网站| 亚洲欧美日韩卡通动漫| 精品亚洲成a人片在线观看| 国产免费一级a男人的天堂| 亚洲情色 制服丝袜| 韩国精品一区二区三区 | 看免费av毛片| 在线亚洲精品国产二区图片欧美| 中文字幕人妻丝袜制服| www.熟女人妻精品国产 | 中文天堂在线官网| 国产高清国产精品国产三级| 亚洲精品国产av蜜桃| 99视频精品全部免费 在线| 一级a做视频免费观看| 欧美日韩亚洲高清精品| 日本-黄色视频高清免费观看| 一级毛片电影观看| 亚洲国产色片| 深夜精品福利| 国产一区二区在线观看av| 美女国产高潮福利片在线看| 宅男免费午夜| 亚洲综合色惰| 亚洲欧美一区二区三区国产| av视频免费观看在线观看| 中文字幕人妻熟女乱码| 男人爽女人下面视频在线观看| 十八禁网站网址无遮挡| 一二三四中文在线观看免费高清| 麻豆乱淫一区二区| 成人亚洲精品一区在线观看| 在线观看三级黄色| 啦啦啦啦在线视频资源| 最近中文字幕2019免费版| 欧美另类一区| 日韩制服丝袜自拍偷拍| 男的添女的下面高潮视频| 美女福利国产在线| 国产精品人妻久久久久久| 精品国产乱码久久久久久小说| 色婷婷久久久亚洲欧美| 性高湖久久久久久久久免费观看| 少妇的逼好多水| 国产爽快片一区二区三区| 男女边摸边吃奶| 人妻人人澡人人爽人人| 尾随美女入室| 最近最新中文字幕免费大全7| 韩国高清视频一区二区三区| 最近中文字幕2019免费版| 国产亚洲最大av| 男女午夜视频在线观看 | 丰满少妇做爰视频| 18禁国产床啪视频网站| 亚洲av男天堂| 韩国高清视频一区二区三区| 在线天堂最新版资源| 天堂8中文在线网| 欧美97在线视频| 免费在线观看黄色视频的| a级毛片黄视频| 欧美日本中文国产一区发布| 国产国拍精品亚洲av在线观看| 欧美 日韩 精品 国产| 欧美精品一区二区大全| 午夜福利视频精品| 考比视频在线观看| 亚洲一级一片aⅴ在线观看| 国产精品久久久久久精品古装| 亚洲精品aⅴ在线观看| 午夜福利视频精品| 国产精品不卡视频一区二区| 国产精品人妻久久久影院| 狠狠精品人妻久久久久久综合| 亚洲激情五月婷婷啪啪| 国产在视频线精品| 欧美激情极品国产一区二区三区 | 亚洲av在线观看美女高潮| 国产黄色免费在线视频| 最近手机中文字幕大全| 国产在线免费精品| 久久ye,这里只有精品| 免费少妇av软件| 草草在线视频免费看| 国产69精品久久久久777片| 国产免费一级a男人的天堂| 国产成人a∨麻豆精品| 在线观看免费视频网站a站| 视频区图区小说| 成年人免费黄色播放视频| 大码成人一级视频| 男人舔女人的私密视频| 丝袜人妻中文字幕| 亚洲四区av| 国产熟女欧美一区二区| 天美传媒精品一区二区| 午夜福利乱码中文字幕| 一级毛片 在线播放| 晚上一个人看的免费电影| 婷婷色麻豆天堂久久| 老司机影院成人| 老司机影院毛片| av国产精品久久久久影院| 久久毛片免费看一区二区三区| 日韩中文字幕视频在线看片| 在线亚洲精品国产二区图片欧美| 亚洲av国产av综合av卡| 日本欧美国产在线视频| 夫妻性生交免费视频一级片| 日韩成人av中文字幕在线观看| 午夜福利乱码中文字幕| 免费不卡的大黄色大毛片视频在线观看| 久久久久久人人人人人| 日产精品乱码卡一卡2卡三| 亚洲四区av| 精品国产露脸久久av麻豆| 啦啦啦视频在线资源免费观看| 亚洲性久久影院| 青青草视频在线视频观看| 美女视频免费永久观看网站| 亚洲欧美一区二区三区黑人 | 国产亚洲午夜精品一区二区久久| 丁香六月天网| 亚洲国产av新网站| 纯流量卡能插随身wifi吗| 一区二区三区精品91| 狂野欧美激情性bbbbbb| 满18在线观看网站| 春色校园在线视频观看| 免费av不卡在线播放| 久久97久久精品| 久久精品国产亚洲av涩爱| 久久影院123| 久久精品aⅴ一区二区三区四区 | 夫妻性生交免费视频一级片| av在线播放精品| 99re6热这里在线精品视频| 在线观看国产h片| 国产午夜精品一二区理论片| 欧美国产精品一级二级三级| 亚洲国产看品久久| xxx大片免费视频| h视频一区二区三区| 国产亚洲欧美精品永久| 国产成人精品一,二区| 少妇的丰满在线观看| 乱码一卡2卡4卡精品| 亚洲国产av影院在线观看| 久久精品国产鲁丝片午夜精品| 又大又黄又爽视频免费| 18禁动态无遮挡网站| 国产一区二区三区av在线| 久久久精品区二区三区| 大香蕉久久成人网| 热re99久久精品国产66热6| 91国产中文字幕| 国产69精品久久久久777片| 大香蕉久久成人网| 黄网站色视频无遮挡免费观看| 天天躁夜夜躁狠狠久久av| 9热在线视频观看99| 纵有疾风起免费观看全集完整版| 国产精品嫩草影院av在线观看| 美女脱内裤让男人舔精品视频| 亚洲国产最新在线播放| 国产高清不卡午夜福利| videossex国产| 精品国产一区二区三区久久久樱花| 亚洲成人手机| 人人妻人人澡人人爽人人夜夜| 精品少妇内射三级| 波野结衣二区三区在线| 国产免费一区二区三区四区乱码| 黑丝袜美女国产一区| 精品久久久精品久久久| 你懂的网址亚洲精品在线观看| 亚洲精品国产av成人精品| 中文字幕人妻丝袜制服| 国产亚洲精品久久久com| 国产成人精品久久久久久| 国产片特级美女逼逼视频| 久久久久久久久久久久大奶| 狂野欧美激情性bbbbbb| 汤姆久久久久久久影院中文字幕| 国产日韩欧美视频二区| 亚洲精品,欧美精品| 国产成人欧美|