• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于雙評論家的多智能體深度確定性策略梯度方法

    2023-10-27 02:51:08丁世飛郭麗麗
    計算機(jī)研究與發(fā)展 2023年10期
    關(guān)鍵詞:評論家行動者網(wǎng)絡(luò)結(jié)構(gòu)

    丁世飛 杜 威 郭麗麗 張 健 徐 曉

    1(中國礦業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇徐州 221116)

    2(礦山數(shù)字化教育部工程研究中心(中國礦業(yè)大學(xué))江蘇徐州 221116)

    強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)作為一種機(jī)器學(xué)習(xí)方法,其主要思想是使智能體通過最大化從環(huán)境中獲得的累積獎勵來學(xué)習(xí)最優(yōu)策略.Q-learning是單智能體強(qiáng)化學(xué)習(xí)領(lǐng)域中的經(jīng)典方法之一,但其難以應(yīng)對動作空間和狀態(tài)空間維數(shù)較高的環(huán)境.深度Q網(wǎng)絡(luò)(deepQ-network,DQN)利用深度神經(jīng)網(wǎng)絡(luò)逼近價值函數(shù)來解決這個困難.得益于DQN 在高維空間中展現(xiàn)出的優(yōu)越性能,學(xué)者們基于此方法提出諸多深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)[1-4]方法.

    隨著DRL 在機(jī)器控制[5-7]、人機(jī)游戲[8-10]等單智能體領(lǐng)域取得顯著成功,許多工作將單智能體DRL方法擴(kuò)展到多智能體設(shè)置并應(yīng)用到真實環(huán)境中,如自動駕駛[11-12]、交通控制[13-14].然而,實現(xiàn)高效的多智能體強(qiáng)化學(xué)習(xí)通常會面臨2 個主要困難:可擴(kuò)展性問題和部分可觀測性限制.一方面,利用環(huán)境的所有信息進(jìn)行決策可能會導(dǎo)致大規(guī)模的聯(lián)合狀態(tài)動作空間.隨著智能體的數(shù)量增加,狀態(tài)動作空間規(guī)模將呈指數(shù)增長,這導(dǎo)致智能體的規(guī)模難以擴(kuò)展,即產(chǎn)生可擴(kuò)展性問題.另一方面,部分可觀測性限制要求智能體只根據(jù)自己的局部觀測歷史來選擇動作和做出決策.這雖然提高了決策效率,但也嚴(yán)重限制智能體探索最優(yōu)動作的能力,同時造成了環(huán)境的不穩(wěn)定性.

    為應(yīng)對部分可觀測性限制帶來的問題,Lowe 等人[15]提出了多智能體深度確定性策略梯度(multiagent deep deterministic policy gradient,MADDPG)方法.該方法引入集中訓(xùn)練和分散執(zhí)行(centralized training with decentralized execution,CTDE)框架:在集中訓(xùn)練階段,智能體可以訪問全局信息;在分散執(zhí)行階段智能體只根據(jù)局部觀測歷史選擇動作[16-18].隨著MADDPG 方法在應(yīng)對部分可觀測限制情況時展現(xiàn)出的優(yōu)越性能,基于CTDE 框架的多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)方法不斷涌現(xiàn),CTDE 框架也成為MARL 中最常用的框架之一.此外,為了解決CTDE 范式的可擴(kuò)展性問題,學(xué)者們提出了各種價值函數(shù)分解方法[19-22].盡管MADDPG 已成為MARL 中最常用的基線方法之一,以MADDPG 為代表的CTDE 方法存在的Q值高估問題沒有得到廣泛研究.Q值高估問題源于bootstrapping 目標(biāo)中常用的max 算子.具體地,Qlearning 中的max 算子用最大估計值逼近最大期望值,這將導(dǎo)致價值高估:其中表示給定狀態(tài)下動作ai的Q值的隨機(jī)變量.Q值高估問題會損害智能體的行為,導(dǎo)致智能體學(xué)得次優(yōu)的策略[23-24].

    在CTDE 方法中,Q值高估問題同樣存在.具體地,假設(shè)有n個智能體,每個智能體有L個動作,每個動作的Q值獨(dú)立地由均勻分布U(0,1)得到,則1/2.同時=Ln/(Ln+1),由于聯(lián)合動作空間的大小L隨智能體的數(shù)量呈指數(shù)增長,趨向于1,且大于,由此可得CTDE 方法存在Q值高估問題.在CTDE 方法中,個體智能體的決策質(zhì)量取決于集中訓(xùn)練的評論家網(wǎng)絡(luò),評論家網(wǎng)絡(luò)的價值函數(shù)高估問題可能會造成更嚴(yán)重的影響.因此,研究MADDPG 為代表的CTDE 方法中存在的價值高估問題顯得尤為必要和具有挑戰(zhàn)性.

    為應(yīng)對這個挑戰(zhàn),本文提出基于雙評論家的多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法來避免價值函數(shù)的過高估計.本文的核心思想是通過在雙評論家網(wǎng)絡(luò)上的最小值操作來避免價值高估.此外,為保證學(xué)習(xí)的穩(wěn)定性和效率,本文采用延遲策略更新技術(shù).通過延遲行動者網(wǎng)絡(luò)更新,減少了使用沒變化的評論家網(wǎng)絡(luò)得到的Q值來指導(dǎo)行動者網(wǎng)絡(luò)重復(fù)更新的可能性,從而實現(xiàn)更高質(zhì)量的策略更新.本文的主要貢獻(xiàn)和創(chuàng)新點有3 點:

    1)從理論和實驗層面上分別證明了MADDPGDC 存在嚴(yán)重的高估問題,并通過引入雙評論家網(wǎng)絡(luò)結(jié)構(gòu)避免價值高估,從而促進(jìn)更好的策略學(xué)習(xí).

    2)為保證策略學(xué)習(xí)的效率和穩(wěn)定性,在提出的MADDPG-DC 中引入延遲行動者網(wǎng)絡(luò)更新的方法,進(jìn)一步提高策略更新的質(zhì)量,使智能體更高效地學(xué)習(xí)最優(yōu)策略.

    3)在多智能體粒子環(huán)境和交通信號控制環(huán)境上對所提出的MADDPG-DC 方法進(jìn)行了實驗評估,實驗結(jié)果表明提出的方法在仿真環(huán)境和實際系統(tǒng)上都具有可行性和優(yōu)越性.

    1 基礎(chǔ)理論

    1.1 Dec-POMDP

    MARL 問題一般建模為去中心化部分可觀測馬爾可夫決策過程(decentralized partially observable Markov decision process,Dec-POMDPs)[25].具體地,Dec-POMDPs 用元組G=〈S,A,P,R,O,n,γ〉表示,其中部分可觀測環(huán)境的狀態(tài)記為s∈S,智能體i可獲得的局部觀測值記為oi∈Oi.智能體i根據(jù)其局部觀測值oi決定其動作ai∈A,聯(lián)合動作表示為a=(a1,a2,…,aN)∈A,環(huán)境狀態(tài)基于狀態(tài)轉(zhuǎn)移函數(shù)P:S×A→S和聯(lián)合動作轉(zhuǎn)移至下一個狀態(tài).智能體i的學(xué)習(xí)目標(biāo)是最大化其累計折扣獎勵值,其中γ ∈[0,1]為折扣因子,rit表示智能體i在時間步t獲得的獎勵值.

    1.2 多智能體深度確定性策略梯度

    MADDPG 方法的關(guān)鍵思想是:在訓(xùn)練階段,每個智能體都接收全局信息來學(xué)習(xí)一個集中的Q函數(shù);在執(zhí)行階段,每個智能體只使用局部信息來選擇動作.MADDPG 利用CTDE 框架與行動者-評論家結(jié)構(gòu),其中集中訓(xùn)練的評論家網(wǎng)絡(luò)獲得了全局信息,而分散的行動者網(wǎng)絡(luò)只能獲得個體的局部觀測歷史.

    具體地,假設(shè)一個包含N個智能體的環(huán)境,智能體的策略是連續(xù)的,用μ={μ1,μ2,…,μN(yùn)}表示,策略的參數(shù)是φ={φ1,φ2,…,φN},智能體i的策略梯度J(φi)=E[Ri]表示為

    2 MADDPG-DC 方法

    在本節(jié)中,首先通過理論和實驗證明,MADDPG存在過高估計價值函數(shù)的問題,然后介紹提出的改進(jìn)方法,即基于雙評論家網(wǎng)絡(luò)的多智能體深度確定性策略梯度方法.

    2.1 MADDPG 中的價值函數(shù)高估問題

    首先,給出理論證明以論證MADDPG 中存在價值函數(shù)的過高估計問題.定義策略參數(shù) φ,表示智能體i的由對應(yīng)評論家網(wǎng)絡(luò)指導(dǎo)的行動者網(wǎng)絡(luò)的近似參數(shù),并用表示由真實價值函數(shù)指導(dǎo)的行動者網(wǎng)絡(luò)的參數(shù):

    2.2 MADDPG-DC

    MADDPG 中存在的價值函數(shù)過高估計一般會導(dǎo)致2 個問題:一方面,價值高估會在多次更新后導(dǎo)致顯著的偏差;另一方面,價值估計偏差會進(jìn)一步導(dǎo)致策略更新的不準(zhǔn)確.評論家網(wǎng)絡(luò)對次優(yōu)動作進(jìn)行過高的評估,從而導(dǎo)致在接下來的策略更新中引導(dǎo)行動者網(wǎng)絡(luò)對次優(yōu)動作的選擇.

    在降低單智能體深度強(qiáng)化學(xué)習(xí)中的價值函數(shù)過高估計問題方面,已有多項工作取得了成功,其中深度雙Q網(wǎng)絡(luò)采用目標(biāo)值網(wǎng)絡(luò)和當(dāng)前值網(wǎng)絡(luò)結(jié)構(gòu)來進(jìn)行獨(dú)立的價值估計,利用當(dāng)前值網(wǎng)絡(luò)的價值估計來選擇最優(yōu)動作,利用目標(biāo)值網(wǎng)絡(luò)的價值估計來評估最優(yōu)動作,將最優(yōu)動作的選擇和價值估計分開,降低了對次優(yōu)動作過高估計價值的可能性[2].

    MADDPG 方法中的評論家網(wǎng)絡(luò)也采取相似的目標(biāo)值網(wǎng)絡(luò)和當(dāng)前值網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行更新:

    然而,由于MADDPG 方法的策略變化緩慢,導(dǎo)致目標(biāo)值網(wǎng)絡(luò)與當(dāng)前值網(wǎng)絡(luò)過于相似,難以進(jìn)行有效的獨(dú)立的價值估計,過高估計的問題仍然存在.如圖1 所示,本文實驗評估了MADDPG 中存在的估計偏差問題.

    Fig.1 Comparison of estimation biases for MADDPG and MADDPG-DC圖1 MADDPG 和MADDPG-DC 的估計偏差對比

    在多智能體粒子環(huán)境(multi-agent particle environment)中的捕食者獵物(predator-prey)環(huán)境上,測量MADDPG 和MADDPG-DC 在學(xué)習(xí)過程中的價值估計的估計偏差、采樣狀態(tài)和經(jīng)驗回放池的動作,確定真實的和估計的Q值.結(jié)果如圖1 所示,一個非常明顯的過高估計偏差發(fā)生在MADDPG 的學(xué)習(xí)過程中,而MADDPG-DC 在學(xué)習(xí)過程中不存在明顯的估計偏差.

    MADDPG-DC 使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)來避免價值高估,2 個評論家網(wǎng)絡(luò)的目標(biāo)函數(shù)分別為

    MADDPG-DC 通過在雙評論家網(wǎng)絡(luò)上進(jìn)行最小值操作,能夠避免價值估計過高的問題.雖然該更新規(guī)則可能會導(dǎo)致價值低估,但價值低估不會在策略更新過程中顯式傳播[26-28].MADDPG-DC 方法的評論家網(wǎng)絡(luò)的目標(biāo)函數(shù)為

    MADDPG-DC 方法利用目標(biāo)網(wǎng)絡(luò)來減少目標(biāo)更新過程中的誤差.由于高誤差狀態(tài)下的策略更新會導(dǎo)致智能體動作的發(fā)散,MADDPG-DC 方法引入延遲行動者網(wǎng)絡(luò)更新的方法,將行動者網(wǎng)絡(luò)的更新頻率設(shè)置為低于評論家網(wǎng)絡(luò)的更新頻率,以使得行動者網(wǎng)絡(luò)的策略更新前的誤差最小化.具體地,設(shè)定評論家網(wǎng)絡(luò)每更新3 次后,行動者網(wǎng)絡(luò)更新1 次.同時為確保誤差最小,緩慢地更新目標(biāo)網(wǎng)絡(luò):

    在評論家網(wǎng)絡(luò)每3 次迭代后,對于智能體i,基于評論家網(wǎng)絡(luò)利用確定性策略梯度方法更新行動者網(wǎng)絡(luò).通過延遲行動者網(wǎng)絡(luò)更新,MADDPG-DC 方法減少了使用沒變化的評論家網(wǎng)絡(luò)得到的Q值來指導(dǎo)行動者網(wǎng)絡(luò)重復(fù)更新的可能性,從而實現(xiàn)更高質(zhì)量的策略更新.

    圖2 展示了MADDPG-DC 的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練階段,只對行動者網(wǎng)絡(luò)和雙評論家網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而行動者目標(biāo)網(wǎng)絡(luò)和評論家目標(biāo)網(wǎng)絡(luò)用于穩(wěn)定行動者網(wǎng)絡(luò)和雙評論家網(wǎng)絡(luò)的學(xué)習(xí)效果.算法1 給出了MADDPG-DC 的偽代碼.

    Fig.2 Network structure of MADDPG-DC圖2 MADDPG-DC 的網(wǎng)絡(luò)結(jié)構(gòu)

    算法1.MADDPG-DC.

    2.3 方法復(fù)雜度分析

    MADDPG-DC 方法使用神經(jīng)網(wǎng)絡(luò)來促進(jìn)評論家的訓(xùn)練,其中神經(jīng)網(wǎng)絡(luò)使用多層感知器(multilayer perceptron,MLP)架構(gòu).首先,對于使用MLP 架構(gòu)的單智能體強(qiáng)化學(xué)習(xí)方法而言,其訓(xùn)練復(fù)雜度是O(M×T(S×H+H×A)).其中M為回合數(shù),T是每回合的時間步數(shù);S表示輸入層的大小,也表示智能體的觀測集合的大小,H表示神經(jīng)網(wǎng)絡(luò)隱藏層的大??;A表示輸出層的大小,也表示智能體的動作集合的大小.

    對于MADDPG-DC 的訓(xùn)練階段,每個評論家網(wǎng)絡(luò)用單一的值來評估多個智能體的聯(lián)合動作和觀測結(jié)果,其復(fù)雜度為O(M×T(N×(A+S)×H+H×1)),N表示智能體的數(shù)量.在執(zhí)行階段的復(fù)雜度方面,由于每個智能體都是獨(dú)立行動,不需要評論家網(wǎng)絡(luò)和其他智能體的交互,因此每個智能體在給定時間步數(shù)上執(zhí)行1 個動作的復(fù)雜度為O(S×H+H×A).MADDPG方法的復(fù)雜度與MADDPG-DC 一致.

    3 實驗結(jié)果

    本節(jié)在各種復(fù)雜的平臺和任務(wù)上進(jìn)行了實驗,以驗證MADDPG-DC 方法的優(yōu)越性和有效性.首先在MARL 領(lǐng)域中廣泛使用的多智能體粒子環(huán)境進(jìn)行了仿真實驗;然后在交通信號控制環(huán)境的真實系統(tǒng)中評估MADDPG-DC 方法,以證明該方法在真實環(huán)境中應(yīng)用的可行性.

    3.1 多智能體粒子環(huán)境

    首先使用MARL 中常用的多智能體粒子環(huán)境進(jìn)行實驗.實驗配置如表1 所示.環(huán)境是2 維連續(xù)的,包含K個相互協(xié)作的智能體、Z個地標(biāo)和L個敵對的智能體.本文在多智能體粒子環(huán)境中的3 個環(huán)境上進(jìn)行了實驗,以驗證所提方法的有效性.

    Table 1 Experimental Configuration for Multi-Agent Particle Environments表1 多智能體粒子環(huán)境的實驗配置

    1)捕食者-獵物環(huán)境.如圖3 所示,這個環(huán)境包含了3 個合作的捕食者,即智能體1,2,3;1 個移動速度更快的獵物,即敵方智能體和2 個阻礙前進(jìn)的障礙.捕食者需要協(xié)作來追趕獵物,如果捕食者成功捕獲獵物,捕食者得到獎勵,而獵物得到懲罰.

    2)物理欺騙(physical deception)環(huán)境.該環(huán)境包括2 個合作的智能體、1 個敵對的智能體和2 個地標(biāo)物體.2 個合作智能體的目標(biāo)是在敵對智能體不知道地標(biāo)物體的情況下,從一個地標(biāo)到達(dá)另一個地標(biāo).合作智能體的獎勵取決于其中一個智能體到達(dá)目的地的最小距離.

    3)世界(world)環(huán)境.在包含4 個移動較慢的智能體和2 個移動較快的敵對智能體的世界環(huán)境中,較慢的智能體的目標(biāo)是學(xué)會合作以捕獲2 個移動較快的敵對智能體.

    本文將提出的MADDPG-DC 方法與多種基線方法在以上3 個環(huán)境中進(jìn)行對比實驗.實驗選擇了MADDPG[15]、反事實的多智能體策略梯度[18](counterfactual multi-agent policy gradient,COMA)、值分解網(wǎng)絡(luò)[19](value-decomposition networks,VDN)方法、QMIX[20]這4 種基于CTDE 框架的方法作為基線方法.COMA使用一個基于反事實基線的評論家網(wǎng)絡(luò)結(jié)構(gòu)來推導(dǎo)智能體學(xué)習(xí)策略的優(yōu)勢函數(shù).VDN 和QMIX 是價值函數(shù)分解方法的代表性方法,使用個體價值函數(shù)的組合來估計聯(lián)合價值函數(shù).

    由于這些基線方法全部基于CTDE 框架,于是都存在價值函數(shù)高估問題.所有實驗在CPU Intel Xeon Silver 4210 和GPU Nvidia RTX 2080 上使用5 個隨機(jī)種子構(gòu)建.對于MADDPG 和COMA,使用與MADDPGDC 相同的參數(shù),如表2 所示.VDN 和QMIX 包括更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)如表3 所示.

    Table 3 Hyperparameters of VDN and QMIX on Multi-Agent Particle Environments表3 VDN 和QMIX 在多智能體粒子環(huán)境上的超參數(shù)

    圖4~6 展示了各方法的平均獎勵值.在捕食者-獵物環(huán)境中,在參數(shù)相對一致的情況下,MADDPG和QMIX 方法下的智能體未學(xué)得穩(wěn)定的策略,導(dǎo)致平均獎勵呈下降狀態(tài).本文提出的MADDPG-DC 方法在訓(xùn)練一開始的表現(xiàn)低于價值函數(shù)分解方法VDN,但最終收斂到更高的平均獎勵值.在物理欺騙環(huán)境下,MADDPG-DC 收斂得最快且學(xué)得的平均獎勵值最高,而MADDPG,COMA,VDN 方法未能學(xué)得最優(yōu)的策略.在世界環(huán)境下,除了QMIX 以外的大部分方法都采用收斂到穩(wěn)定的策略,而MADDPG-DC 同樣取得了最好的表現(xiàn).綜上,對比其他存在價值高估問題的基線方法,MADDPG-DC 方法取得了更好的性能.

    Fig.4 Performance comparison on predator-prey environment圖4 捕食者-獵物環(huán)境下的性能比較

    Fig.6 Performance comparison on world environment圖6 世界環(huán)境下的性能比較

    此外,為探討雙評論家網(wǎng)絡(luò)結(jié)構(gòu)和延遲行動者網(wǎng)絡(luò)更新這2 個因素對性能提升的影響,本文設(shè)計了消融實驗.實驗中使用2 個變體:使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)但不延遲行動者網(wǎng)絡(luò)更新的MADDPG-D 和不使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)但延遲行動者網(wǎng)絡(luò)更新的MADDPG-C.將這2 個變體與原始MADDPG 方法以及同時使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)和延遲行動者網(wǎng)絡(luò)更新的MADDPG-DC 進(jìn)行了比較.首先,比較MADDPGD 與MADDPG 的性能表現(xiàn).圖7~9 展示了不同多智能體粒子環(huán)境環(huán)境下的消融實驗.實驗結(jié)果表明,在捕食者-獵物環(huán)境和世界環(huán)境下,MADDPG-D 的學(xué)習(xí)性能顯著,并持續(xù)優(yōu)于MADDPG 且收斂到穩(wěn)定的策略.在物理欺騙環(huán)境下,雖然MADDPG-D 的表現(xiàn)持續(xù)優(yōu)于MADDPG,但其學(xué)習(xí)曲線在后期也呈現(xiàn)下降趨勢.

    Fig.7 Ablation experiment on predator-prey environment圖7 捕食者-獵物環(huán)境下的消融實驗

    Fig.8 Ablation experiment on physical deception environment圖8 物理欺騙環(huán)境下的消融實驗

    Fig.9 Ablation experiment on world environment圖9 世界環(huán)境下的消融實驗

    進(jìn)一步,為驗證延遲行動者網(wǎng)絡(luò)的有效性,首先對比MADDPG,MADDPG-C,MADDPG-D 在3 個環(huán)境中,MADDPG-C 的性能相比MADDPG 有一定的提升,但無法超過MADDPG-D 的性能.接下來,對比MADDPG-D 和MADDPG-DC 的表現(xiàn).如圖7~9 所示,在捕食者-獵物環(huán)境和世界環(huán)境下,MADDPG-DC 收斂更快,且收斂至更高的獎勵值.在物理欺騙環(huán)境下,MADDPG-DC 相比MADDPG-D,其可以收斂到穩(wěn)定的最優(yōu)策略.由此可見雙評論家網(wǎng)絡(luò)結(jié)構(gòu)和延遲行動者網(wǎng)絡(luò)更新這2 個因素對方法的性能都有提升作用,且同時使用2 個改進(jìn)因素的效果大于單獨(dú)使用任意1 個的效果.

    3.2 交通信號控制環(huán)境

    隨著城市化的快速發(fā)展,車輛數(shù)量的增加不可避免地導(dǎo)致交通擁堵程度的增加.通過優(yōu)化管理方法可以實現(xiàn)交通系統(tǒng)的可持續(xù)發(fā)展[29].交通信號控制(traffic signal control,TSC)是一種有效的優(yōu)化策略,它有助于改善交通狀況、減少擁堵、縮短出行時間[30-31].為了應(yīng)對TSC 的規(guī)模需求,學(xué)者們嘗試在多智能體系統(tǒng)中使用RL.

    在局部觀測和通信受限的情況下,將TSC 定義為由分散的強(qiáng)化學(xué)習(xí)智能體控制交叉口的協(xié)作MARL 問題是一種有效且通用的方法.其中一種思路是使用獨(dú)立Q學(xué)習(xí)(independentQ-learning,IQL)方法建模[32],在這種方法中,分散的強(qiáng)化學(xué)習(xí)智能體獨(dú)立地學(xué)習(xí)各自的策略,并將其他智能體當(dāng)作環(huán)境的一部分.IQL 方法可以解決可擴(kuò)展性問題,但當(dāng)其他智能體改變自己的策略[33]時,IQL 會出現(xiàn)不收斂和不穩(wěn)定性問題.

    然而,現(xiàn)有的工作包括IQL 方法通常采用分散訓(xùn)練和分散執(zhí)行框架,這個框架通常會存在環(huán)境不穩(wěn)定性問題[34].基于CTDE 框架的MARL 是一種有效的改進(jìn),如MADDPG 方法.然而,在TSC 中,MADDPG方法的性能表現(xiàn)一般[35].其原因可能是在復(fù)雜環(huán)境下,MADDPG 中價值估計的不準(zhǔn)確導(dǎo)致了智能體行為的發(fā)散或者智能體學(xué)得了次優(yōu)的策略.同時,MADDPG在分散執(zhí)行階段缺乏通信學(xué)習(xí)機(jī)制[36-38],而通信學(xué)習(xí)機(jī)制對于保證整體交通狀態(tài)的控制穩(wěn)定性和效果具有重要意義.

    本文應(yīng)用MADDPG-DC 和CTDE 框架來處理TSC 問題.為驗證MADDPG-DC 在實際系統(tǒng)中的可行性和有效性,本文在成都市實際交通網(wǎng)絡(luò)[39-40]上進(jìn)行了實驗.利用城市交通平臺模擬真實的交通狀況.實驗將每個交叉口的交通信號控制器建模為一個智能體,將網(wǎng)絡(luò)交通狀態(tài)建模為全局狀態(tài).

    在真實的交通信號控制環(huán)境中,為證明MADDPDC 方法的有效性,選擇IQL[32]、MADDPG[15]和最大壓力控制(max pressure control)[41]等3 種方法作為基線方法.IQL[32]基于分散訓(xùn)練分散執(zhí)行框架,分散的智能體獨(dú)立地學(xué)習(xí)各自的策略,而MADDPG 利用CTDE 框架.最大壓力控制是TSC 領(lǐng)域最先進(jìn)的控制方法之一,通過選擇信號相位,最大化通過交叉口的車輛數(shù)量.

    評價結(jié)果以各交叉口的交通擁堵情況和車輛通行效率為主要評價指標(biāo),包括3 個主要指標(biāo): 平均隊列長度、平均延遲和平均行駛時間.平均隊列長度是指在交叉口的所有車輛的平均等待隊列長度.平均延遲是指交通路口的所有車輛的平均等待時間除以隊列長度.這二者的值越高,表示方法的性能越差.平均行駛時間是指整個交通網(wǎng)絡(luò)中車輛從起點行駛到終點所花費(fèi)的平均時間.同樣地,平均行駛時間的值越高,表示該方法的性能越差.

    首先,本文從合成道路數(shù)據(jù)集中隨機(jī)選取合成交通網(wǎng)絡(luò)來訓(xùn)練MADDPG-DC 方法以及其他基線方法,仿真實驗運(yùn)行了8 000 回合.交通信號控制環(huán)境下的MADDPG-DC 的超參數(shù)如表4 所示.基線MADDPG和MADDPG-D 也設(shè)置相同的超參數(shù)進(jìn)行訓(xùn)練.IQL的超參數(shù)如表5 所示.最大壓力控制不是一種MARL方法,其參數(shù)設(shè)置保持和文獻(xiàn)[41]一致.

    Table 4 Hyperparameters of MADDPG,MADDPG-D,MADDPG-DC Under Traffic Signal Control Environments表4 交通信號控制環(huán)境下MADDPG,MADDPG-D,MADDPG-DC 的超參數(shù)

    Table 5 Hyperparameters of IQL Under Traffic Signal Control Environments表5 交通信號控制環(huán)境下IQL 的參數(shù)

    然后,在真實交通網(wǎng)絡(luò)中對訓(xùn)練后的方法分別進(jìn)行1h 的時變交通流訓(xùn)練.考慮到計算成本,實驗在1h 后停止評估.圖10 和圖11 分別展示了各方法下的真實交通網(wǎng)絡(luò)中的平均隊列長度和平均延遲.從圖11 可以看出,MADDPG-DC 方法的平均隊列長度小于其他基線方法.在模擬時間為2 700 s 時,MADDPG-DC 方法下的平均隊列長度達(dá)到峰值,約為0.63 輛.而對于其他基線方法,MADDPG 方法在2 980 s時達(dá)到約為1.41 輛的峰值,MADDPC-D 方法在2 980 s時的峰值在0.92 輛以上,IQL 方法在3 010 s 時的峰值在2.69 輛以上,最大壓力控制方法在2 730 s 時的峰值在1.65 輛左右.

    Fig.10 Average queues for different methods in real traffic networks圖10 真實交通網(wǎng)絡(luò)中不同方法的平均隊列

    Fig.11 Average delay of different methods in real traffic networks圖11 真實交通網(wǎng)絡(luò)中不同方法的平均延遲

    對比圖10 和圖11 可以發(fā)現(xiàn),不同方法的曲線大部分都有相似的趨勢.大多數(shù)曲線在前期增加,然后在不同的時間到達(dá)峰值,最后趨于下降.因此,可以推斷這2 個指標(biāo)是相關(guān)的.隨著車輛隊列的增加,交叉口的平均延遲也會增加.值得注意的是,所有方法通過積累的交通數(shù)據(jù)進(jìn)行學(xué)習(xí)后,都不同程度地減少了隊列長度.

    表6 給出了不同方法在實際 下的表現(xiàn).可以發(fā)現(xiàn),MADDPG-DC 的表現(xiàn)優(yōu)于MADDPG-D,說明延遲行動者網(wǎng)絡(luò)更新的有效性.同時MADDPG-D 的表現(xiàn)其次,證明雙評論家網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)了更準(zhǔn)確的價值估計,進(jìn)而促進(jìn)更高質(zhì)量的策略學(xué)習(xí).

    Table 6 Performance of Different Methods in Real Traffic Networks表6 不同方法在真實交通網(wǎng)絡(luò)中的性能

    圖11 展示了所有方法的平均隊列長度變化曲線.如圖11 所示,MADDPG-DC 方法在所有方法中表現(xiàn)最好,且MADDPG-D 的表現(xiàn)其次.2 種變體方法在初期的曲線非常接近,但MADDPG-DC 在3 050 s 達(dá)到約26.42 s/輛的峰值,而MADDPG-D 在時間3 250 s達(dá)到的峰值超過44.02 s/輛.MADDPG曲線雖然在模擬時間1 700~1 900 s 之間有所下降,但之后一直呈現(xiàn)上升趨勢.IQL 方法和最大壓力控制方法都直到結(jié)束時才出現(xiàn)一定程度的下降.

    此外,值得注意的是,所有平均延遲曲線在前期均呈平穩(wěn)上升趨勢.最大壓力控制方法和IQL 方法在后期仍然呈上升趨勢,而MADDPG-D 方法和MADDPG-DC 方法在前期達(dá)到峰值,但在后期趨于下降.無論是IQL 方法還是最大壓力控制方法都不能依靠一種可持續(xù)的策略來快速恢復(fù)擁堵的交通網(wǎng)絡(luò). 與 MADDPG 相比,MADDPG-D 受益于更準(zhǔn)確的價值估計可以學(xué)得更好的策略.與MADDPG-D相比,MADDPG-DC 傾向于一種更穩(wěn)定和可持續(xù)的策略,能夠?qū)崿F(xiàn)更快的交通擁堵恢復(fù).MADDPG-DC的平均隊列長度趨于0,說明該方法對于減少交叉口擁堵,提高車輛行駛效率發(fā)揮了重要作用.

    4 總結(jié)和展望

    為更好地估計MARL 方法中的價值函數(shù),本文提出基于雙評論家網(wǎng)絡(luò)的多智能體深度確定性策略梯度方法.通過理論和實驗論證MADDPG 存在價值高估問題,并提出雙評論家網(wǎng)絡(luò)結(jié)構(gòu)來避免價值高估.此外,為提高策略更新的質(zhì)量,延遲行動者網(wǎng)絡(luò)更新.實驗結(jié)果表明,本文提出的方法在多智能體粒子環(huán)境的多個環(huán)境上的表現(xiàn)顯著優(yōu)于MADDPG 等其他基線方法.此外,交通信號控制環(huán)境上的實驗結(jié)果證明所提方法在真實環(huán)境中的可行性.

    然而,大多數(shù)基于CTDE 框架的MARL 方法可能都存在價值高估或低估的問題,本文沒有對其他基于CTDE 的MARL 方法進(jìn)行深入研究,這是未來的一個有趣且有價值的研究方向.同時,在價值函數(shù)分解方法和其他CTDE 方法中實現(xiàn)更好的價值估計將是我們下一步的工作.

    作者貢獻(xiàn)聲明:丁世飛提出論文的研究方向及指導(dǎo)論文寫作;杜威負(fù)責(zé)論文的撰寫及研究框架設(shè)計;郭麗麗、張健、徐曉負(fù)責(zé)實驗指導(dǎo)及論文寫作指導(dǎo).

    猜你喜歡
    評論家行動者網(wǎng)絡(luò)結(jié)構(gòu)
    與異質(zhì)性行動者共生演進(jìn):基于行動者網(wǎng)絡(luò)理論的政策執(zhí)行研究新路徑
    音樂評論家的“內(nèi)功”修煉——論八項追求
    中國音樂(2022年3期)2022-06-10 06:28:36
    著名詩人、評論家
    鴨綠江(2021年29期)2021-02-28 05:44:26
    著名詩人、評論家 吳思敬
    鴨綠江(2020年29期)2020-11-15 07:05:52
    評論家楊占平
    火花(2019年8期)2019-08-28 08:45:06
    敬仰中國大地上的綠色行動者
    綠色中國(2016年1期)2016-06-05 09:02:59
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
    滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
    復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對算法研究進(jìn)展
    久久99蜜桃精品久久| 久久av网站| 中文乱码字字幕精品一区二区三区| 亚洲欧美日韩卡通动漫| 久久久久人妻精品一区果冻| 欧美精品av麻豆av| 亚洲精品国产色婷婷电影| 亚洲av福利一区| 亚洲成国产人片在线观看| av免费在线看不卡| 成人黄色视频免费在线看| 久久99蜜桃精品久久| 免费观看a级毛片全部| 婷婷色麻豆天堂久久| 纵有疾风起免费观看全集完整版| 亚洲第一区二区三区不卡| 女人久久www免费人成看片| 日韩,欧美,国产一区二区三区| 国产毛片在线视频| 欧美老熟妇乱子伦牲交| 久久久欧美国产精品| 免费看光身美女| 国产又爽黄色视频| 日日啪夜夜爽| 99久久人妻综合| 欧美成人精品欧美一级黄| 久久久精品区二区三区| 亚洲精品成人av观看孕妇| 国产精品99久久99久久久不卡 | 青春草亚洲视频在线观看| 又大又黄又爽视频免费| 免费大片黄手机在线观看| www.av在线官网国产| 青春草国产在线视频| 最后的刺客免费高清国语| 综合色丁香网| 黄片播放在线免费| 成人漫画全彩无遮挡| 多毛熟女@视频| 777米奇影视久久| 成人国语在线视频| 亚洲国产精品专区欧美| 国产极品粉嫩免费观看在线| 国产精品偷伦视频观看了| 久久99精品国语久久久| 亚洲av国产av综合av卡| 亚洲激情五月婷婷啪啪| 亚洲激情五月婷婷啪啪| 精品人妻偷拍中文字幕| 国产精品国产三级专区第一集| 伊人亚洲综合成人网| 欧美精品一区二区大全| 99视频精品全部免费 在线| 欧美人与善性xxx| 自线自在国产av| 亚洲av免费高清在线观看| 天美传媒精品一区二区| 国产精品一区二区在线不卡| 久久午夜综合久久蜜桃| 久久久久人妻精品一区果冻| 国产成人av激情在线播放| 人人澡人人妻人| 日日摸夜夜添夜夜爱| 日本av手机在线免费观看| 校园人妻丝袜中文字幕| 久久精品久久精品一区二区三区| 视频中文字幕在线观看| av在线播放精品| 国产免费视频播放在线视频| 卡戴珊不雅视频在线播放| 日日摸夜夜添夜夜爱| 国产成人a∨麻豆精品| 国产1区2区3区精品| 中文字幕av电影在线播放| 日本av手机在线免费观看| 国产成人免费无遮挡视频| 卡戴珊不雅视频在线播放| 成人无遮挡网站| 大香蕉97超碰在线| 欧美国产精品va在线观看不卡| 亚洲四区av| 一二三四在线观看免费中文在 | 一级爰片在线观看| 久久久a久久爽久久v久久| 97在线人人人人妻| 国产成人精品一,二区| 成年动漫av网址| 赤兔流量卡办理| 男女啪啪激烈高潮av片| 你懂的网址亚洲精品在线观看| 亚洲第一区二区三区不卡| 天天操日日干夜夜撸| 制服丝袜香蕉在线| 亚洲精品视频女| 久久久亚洲精品成人影院| av在线观看视频网站免费| 亚洲精品日韩在线中文字幕| 一级片免费观看大全| av在线观看视频网站免费| 只有这里有精品99| 99热国产这里只有精品6| 极品人妻少妇av视频| 九色成人免费人妻av| 亚洲欧洲日产国产| 国产视频首页在线观看| 国产日韩一区二区三区精品不卡| 欧美性感艳星| 久久99热这里只频精品6学生| 亚洲欧美日韩卡通动漫| 中文字幕精品免费在线观看视频 | 免费在线观看完整版高清| 捣出白浆h1v1| 少妇高潮的动态图| 精品国产露脸久久av麻豆| 人成视频在线观看免费观看| 国产 一区精品| av播播在线观看一区| 中文欧美无线码| 搡女人真爽免费视频火全软件| 视频区图区小说| 精品午夜福利在线看| 久久久久人妻精品一区果冻| 人人妻人人添人人爽欧美一区卜| 最近中文字幕高清免费大全6| 啦啦啦视频在线资源免费观看| 精品少妇内射三级| 婷婷色综合www| 亚洲精品第二区| 精品亚洲乱码少妇综合久久| 又黄又爽又刺激的免费视频.| 青春草视频在线免费观看| 热99久久久久精品小说推荐| 国产一区二区激情短视频 | 一区二区三区乱码不卡18| 丝袜脚勾引网站| 久久久久久人人人人人| 亚洲美女搞黄在线观看| 在线观看一区二区三区激情| 午夜福利乱码中文字幕| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 丰满少妇做爰视频| 亚洲欧美中文字幕日韩二区| 亚洲国产欧美日韩在线播放| 97在线人人人人妻| 男人添女人高潮全过程视频| 欧美人与善性xxx| 波野结衣二区三区在线| 一级毛片黄色毛片免费观看视频| 2022亚洲国产成人精品| 男人操女人黄网站| 日韩大片免费观看网站| 欧美另类一区| 91久久精品国产一区二区三区| av国产精品久久久久影院| 亚洲婷婷狠狠爱综合网| 国产精品99久久99久久久不卡 | 91aial.com中文字幕在线观看| 99久久中文字幕三级久久日本| 国产视频首页在线观看| 亚洲精品久久午夜乱码| 熟女人妻精品中文字幕| 三级国产精品片| 亚洲国产精品国产精品| 日韩一区二区视频免费看| 九草在线视频观看| 你懂的网址亚洲精品在线观看| 国产黄频视频在线观看| 国产精品国产三级国产av玫瑰| 国产高清国产精品国产三级| 黄色毛片三级朝国网站| av女优亚洲男人天堂| 国产一级毛片在线| 在线观看一区二区三区激情| 久久久久久久久久成人| 国产女主播在线喷水免费视频网站| 国产一区二区三区av在线| 亚洲精品乱久久久久久| 校园人妻丝袜中文字幕| 国产精品熟女久久久久浪| 丝瓜视频免费看黄片| 久热这里只有精品99| 日韩,欧美,国产一区二区三区| av网站免费在线观看视频| 看非洲黑人一级黄片| 男女国产视频网站| 美女内射精品一级片tv| 国产精品一区www在线观看| 欧美日韩亚洲高清精品| 免费人成在线观看视频色| 性高湖久久久久久久久免费观看| av网站免费在线观看视频| 国产精品.久久久| 欧美精品一区二区大全| 26uuu在线亚洲综合色| 日韩av免费高清视频| av卡一久久| 国产乱来视频区| 久久久久久久亚洲中文字幕| 在线天堂中文资源库| 精品人妻偷拍中文字幕| 精品一区二区免费观看| 日本av手机在线免费观看| 国产黄色视频一区二区在线观看| 在线亚洲精品国产二区图片欧美| 考比视频在线观看| 国产熟女欧美一区二区| 最黄视频免费看| 成人18禁高潮啪啪吃奶动态图| 99久国产av精品国产电影| 如何舔出高潮| 另类亚洲欧美激情| 免费观看av网站的网址| 欧美bdsm另类| 中文字幕最新亚洲高清| 春色校园在线视频观看| 中文字幕制服av| 人人妻人人爽人人添夜夜欢视频| av网站免费在线观看视频| 极品人妻少妇av视频| 亚洲,一卡二卡三卡| 中文乱码字字幕精品一区二区三区| 在线观看人妻少妇| 最近中文字幕2019免费版| 日韩中字成人| 男女边吃奶边做爰视频| 亚洲av免费高清在线观看| 丁香六月天网| 国产免费现黄频在线看| 日本午夜av视频| 久久久久人妻精品一区果冻| 亚洲四区av| 丁香六月天网| 国产在线免费精品| 欧美精品一区二区免费开放| 久久热在线av| 亚洲欧美中文字幕日韩二区| 老女人水多毛片| 波野结衣二区三区在线| 只有这里有精品99| 亚洲欧洲日产国产| 高清欧美精品videossex| 久久人人97超碰香蕉20202| 亚洲精华国产精华液的使用体验| 国产高清不卡午夜福利| 国产黄色免费在线视频| 国产男人的电影天堂91| 欧美日韩国产mv在线观看视频| 高清毛片免费看| 深夜精品福利| 最新的欧美精品一区二区| 精品久久蜜臀av无| 一本久久精品| 黑人巨大精品欧美一区二区蜜桃 | 一本色道久久久久久精品综合| av在线播放精品| 久久99热6这里只有精品| av视频免费观看在线观看| 久久人妻熟女aⅴ| 美女国产视频在线观看| 日日摸夜夜添夜夜爱| 超碰97精品在线观看| 久久毛片免费看一区二区三区| 日本黄大片高清| 久久久久精品久久久久真实原创| 美女xxoo啪啪120秒动态图| www日本在线高清视频| 亚洲图色成人| 日韩熟女老妇一区二区性免费视频| 两性夫妻黄色片 | a 毛片基地| 久久久国产欧美日韩av| 亚洲经典国产精华液单| 如日韩欧美国产精品一区二区三区| 夫妻午夜视频| www日本在线高清视频| 午夜影院在线不卡| 肉色欧美久久久久久久蜜桃| 又大又黄又爽视频免费| 日日摸夜夜添夜夜爱| 天天躁夜夜躁狠狠躁躁| 亚洲国产日韩一区二区| 只有这里有精品99| 久久热在线av| 久久精品久久久久久久性| 在线精品无人区一区二区三| 免费人妻精品一区二区三区视频| 亚洲内射少妇av| 9191精品国产免费久久| 老女人水多毛片| 欧美日韩综合久久久久久| 99热网站在线观看| 成人无遮挡网站| 久久精品国产鲁丝片午夜精品| 99re6热这里在线精品视频| 91国产中文字幕| 精品少妇久久久久久888优播| 黄网站色视频无遮挡免费观看| 成人午夜精彩视频在线观看| 交换朋友夫妻互换小说| 国产亚洲欧美精品永久| 国产精品熟女久久久久浪| 涩涩av久久男人的天堂| 最近中文字幕2019免费版| 久久久久久伊人网av| 国产1区2区3区精品| 高清毛片免费看| 性高湖久久久久久久久免费观看| 成人国产麻豆网| 王馨瑶露胸无遮挡在线观看| 亚洲图色成人| 国产白丝娇喘喷水9色精品| 草草在线视频免费看| 人妻人人澡人人爽人人| 涩涩av久久男人的天堂| 在线天堂最新版资源| 黑人欧美特级aaaaaa片| 韩国av在线不卡| 免费看不卡的av| 国产精品成人在线| 国产综合精华液| 国产欧美日韩一区二区三区在线| 女人久久www免费人成看片| 美女国产视频在线观看| 精品久久久精品久久久| 国产色爽女视频免费观看| 99视频精品全部免费 在线| 美女国产视频在线观看| 高清欧美精品videossex| 精品视频人人做人人爽| 男女啪啪激烈高潮av片| 中国国产av一级| 亚洲精品中文字幕在线视频| 人人妻人人爽人人添夜夜欢视频| 国产精品成人在线| 视频中文字幕在线观看| 国产精品久久久久久久久免| 99国产精品免费福利视频| av免费观看日本| 啦啦啦中文免费视频观看日本| 在线亚洲精品国产二区图片欧美| 国产精品.久久久| www.色视频.com| 性色avwww在线观看| 国产又爽黄色视频| 制服丝袜香蕉在线| 国产片内射在线| a级毛色黄片| 日韩成人伦理影院| 波多野结衣一区麻豆| 免费观看性生交大片5| 中文字幕免费在线视频6| 在线看a的网站| 久久久精品94久久精品| 久久99热6这里只有精品| 不卡视频在线观看欧美| 久久精品久久久久久噜噜老黄| av卡一久久| 久久久久久久亚洲中文字幕| 边亲边吃奶的免费视频| 国产激情久久老熟女| 人妻系列 视频| 久久鲁丝午夜福利片| 亚洲av成人精品一二三区| 嫩草影院入口| 97在线人人人人妻| 中文天堂在线官网| 免费大片18禁| av黄色大香蕉| 男的添女的下面高潮视频| 亚洲av电影在线观看一区二区三区| 女人被躁到高潮嗷嗷叫费观| 久久久久久久久久人人人人人人| 自拍欧美九色日韩亚洲蝌蚪91| 国产成人aa在线观看| 国产成人午夜福利电影在线观看| 免费人妻精品一区二区三区视频| 9色porny在线观看| 免费黄网站久久成人精品| 日本黄大片高清| 成人影院久久| 免费看av在线观看网站| 人人妻人人澡人人爽人人夜夜| 少妇的丰满在线观看| 99热6这里只有精品| 少妇高潮的动态图| 日韩中文字幕视频在线看片| 日韩一区二区三区影片| 亚洲在久久综合| 亚洲一级一片aⅴ在线观看| 中文乱码字字幕精品一区二区三区| 宅男免费午夜| 国产一区二区在线观看日韩| 男男h啪啪无遮挡| 夜夜爽夜夜爽视频| 只有这里有精品99| 国产精品久久久久久av不卡| 久久久国产欧美日韩av| 日韩av不卡免费在线播放| 免费观看性生交大片5| 在线观看人妻少妇| 亚洲av中文av极速乱| 激情五月婷婷亚洲| av女优亚洲男人天堂| 成年人免费黄色播放视频| 伊人亚洲综合成人网| 亚洲欧洲精品一区二区精品久久久 | 色婷婷久久久亚洲欧美| 免费在线观看完整版高清| 亚洲av成人精品一二三区| 九色亚洲精品在线播放| 看免费成人av毛片| 日韩中文字幕视频在线看片| 麻豆精品久久久久久蜜桃| 久久久国产精品麻豆| 亚洲av男天堂| 韩国av在线不卡| 老司机影院毛片| 久久热在线av| 国产又爽黄色视频| 国产精品无大码| 亚洲欧美清纯卡通| 18+在线观看网站| 日韩精品有码人妻一区| 97人妻天天添夜夜摸| 伦理电影大哥的女人| 一级片'在线观看视频| 欧美亚洲日本最大视频资源| 成年美女黄网站色视频大全免费| 在线观看美女被高潮喷水网站| 在线观看人妻少妇| 国产精品成人在线| 日本欧美国产在线视频| 精品少妇黑人巨大在线播放| xxx大片免费视频| 亚洲国产成人一精品久久久| 亚洲欧美一区二区三区黑人 | av一本久久久久| 国产乱人偷精品视频| freevideosex欧美| 午夜福利影视在线免费观看| 久久亚洲国产成人精品v| 成人国语在线视频| a级毛色黄片| 成年美女黄网站色视频大全免费| 天美传媒精品一区二区| 欧美97在线视频| 极品人妻少妇av视频| 秋霞在线观看毛片| 精品国产一区二区三区久久久樱花| 丰满乱子伦码专区| 久久精品国产自在天天线| 亚洲 欧美一区二区三区| 日韩欧美一区视频在线观看| 菩萨蛮人人尽说江南好唐韦庄| 中文乱码字字幕精品一区二区三区| 九草在线视频观看| 国产片内射在线| 欧美精品高潮呻吟av久久| av福利片在线| 一二三四在线观看免费中文在 | 日韩制服骚丝袜av| a级毛色黄片| 国产福利在线免费观看视频| 少妇猛男粗大的猛烈进出视频| 18禁国产床啪视频网站| 亚洲伊人久久精品综合| 妹子高潮喷水视频| 国产成人精品无人区| 国产免费一区二区三区四区乱码| 欧美老熟妇乱子伦牲交| 精品久久蜜臀av无| 欧美日韩亚洲高清精品| 最新的欧美精品一区二区| 亚洲欧美清纯卡通| 久久鲁丝午夜福利片| 精品一区在线观看国产| 老女人水多毛片| 五月伊人婷婷丁香| 少妇熟女欧美另类| 永久网站在线| 亚洲婷婷狠狠爱综合网| 欧美激情国产日韩精品一区| 夫妻午夜视频| 在线观看一区二区三区激情| 人人妻人人澡人人看| 丰满饥渴人妻一区二区三| 国产永久视频网站| 午夜老司机福利剧场| 亚洲精品美女久久久久99蜜臀 | 成人18禁高潮啪啪吃奶动态图| 考比视频在线观看| 黑人高潮一二区| 国产欧美日韩一区二区三区在线| 日韩av在线免费看完整版不卡| 99久久精品国产国产毛片| 成人亚洲精品一区在线观看| 青青草视频在线视频观看| 国产一区有黄有色的免费视频| 亚洲精品,欧美精品| 免费大片18禁| 久热久热在线精品观看| 少妇高潮的动态图| 国产精品秋霞免费鲁丝片| 一级毛片我不卡| 亚洲第一av免费看| 成年美女黄网站色视频大全免费| 草草在线视频免费看| 最后的刺客免费高清国语| 国产又色又爽无遮挡免| 亚洲成国产人片在线观看| 三上悠亚av全集在线观看| 亚洲av中文av极速乱| 在线 av 中文字幕| 国产高清不卡午夜福利| 免费观看无遮挡的男女| 91精品三级在线观看| 久久热在线av| 97超碰精品成人国产| 2018国产大陆天天弄谢| 国产日韩欧美亚洲二区| 一区二区av电影网| 纯流量卡能插随身wifi吗| av播播在线观看一区| 51国产日韩欧美| 中文天堂在线官网| 女性被躁到高潮视频| 最近中文字幕2019免费版| 国产精品久久久久久av不卡| 国产白丝娇喘喷水9色精品| 久久 成人 亚洲| 亚洲在久久综合| 国产视频首页在线观看| 在线观看免费视频网站a站| 大码成人一级视频| 午夜福利视频在线观看免费| 亚洲av男天堂| 亚洲国产精品国产精品| 精品久久久久久电影网| 亚洲美女搞黄在线观看| 观看av在线不卡| 999精品在线视频| 国产精品偷伦视频观看了| 国产精品国产三级国产专区5o| 亚洲av欧美aⅴ国产| 亚洲av免费高清在线观看| 国产精品久久久久久久电影| 精品卡一卡二卡四卡免费| 国产在线免费精品| 国产av国产精品国产| 岛国毛片在线播放| 啦啦啦视频在线资源免费观看| 欧美激情 高清一区二区三区| 国产亚洲最大av| 国产精品人妻久久久久久| 国产精品一区二区在线不卡| 国产午夜精品一二区理论片| 免费av中文字幕在线| 考比视频在线观看| 日本猛色少妇xxxxx猛交久久| 精品一品国产午夜福利视频| 国产成人精品婷婷| 日韩视频在线欧美| 午夜激情久久久久久久| 男女无遮挡免费网站观看| 日本猛色少妇xxxxx猛交久久| 秋霞伦理黄片| 国国产精品蜜臀av免费| 成年女人在线观看亚洲视频| 免费久久久久久久精品成人欧美视频 | 欧美丝袜亚洲另类| 成人黄色视频免费在线看| 香蕉精品网在线| 少妇人妻 视频| 亚洲美女搞黄在线观看| 色婷婷av一区二区三区视频| 久久精品国产鲁丝片午夜精品| 极品人妻少妇av视频| 久久精品国产鲁丝片午夜精品| av片东京热男人的天堂| 丝袜喷水一区| 精品久久蜜臀av无| 精品一品国产午夜福利视频| 少妇的逼好多水| 热99久久久久精品小说推荐| 狂野欧美激情性xxxx在线观看| 亚洲精品一二三| 久久综合国产亚洲精品| 欧美激情国产日韩精品一区| 啦啦啦视频在线资源免费观看| 国产一区二区激情短视频 | 永久网站在线| 久久久久网色| 男女啪啪激烈高潮av片| 国产日韩欧美视频二区| 欧美亚洲 丝袜 人妻 在线| 韩国av在线不卡| 观看av在线不卡| 丝瓜视频免费看黄片| 日韩中文字幕视频在线看片| 秋霞伦理黄片| 国产精品欧美亚洲77777| 免费看不卡的av| 黄色怎么调成土黄色| 欧美最新免费一区二区三区| 日本欧美国产在线视频| 久久免费观看电影| 在线观看www视频免费| 亚洲熟女精品中文字幕| 高清毛片免费看| 亚洲成国产人片在线观看| 日韩电影二区| 丰满迷人的少妇在线观看| 亚洲成av片中文字幕在线观看 | 中文字幕人妻熟女乱码| 亚洲av在线观看美女高潮|