• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于不確定性的貝葉斯策略重用方法

    2025-03-20 00:00:00付可陳浩王宇劉權(quán)黃健
    關(guān)鍵詞:強(qiáng)化學(xué)習(xí)

    摘 要:針對多智能體對抗中因?qū)κ植呗宰兓瘜?dǎo)致的非平穩(wěn)性問題,在對手動作不可獲取的限制下,提出一種基于不確定性的貝葉斯策略重用算法。在離線階段,在策略學(xué)習(xí)的同時(shí),通過自編碼器建模智能體軌跡與對手動作之間的關(guān)系表征以構(gòu)建對手模型。在在線階段,依據(jù)對手模型和有限交互信息,估計(jì)對手策略類型的不確定性,并基于此選擇最優(yōu)應(yīng)對策略并重用。最后,在兩種對抗場景下的實(shí)驗(yàn)結(jié)果表明所提算法相比3種先進(jìn)的基線方法識別精度更高,且識別速度更快。

    關(guān)鍵詞: 多智能體對抗; 貝葉斯策略重用; 強(qiáng)化學(xué)習(xí); 關(guān)系表征

    中圖分類號: TP 301.6

    文獻(xiàn)標(biāo)志碼: ADOI:10.12305/j.issn.1001 506X.2025.02.20

    Uncertainty based Bayesian policy reuse method

    FU Ke, CHEN Hao, WANG Yu, LIU Quan, HUANG Jian*

    (College of Intelligence Science and Technology, National University of Defense Technology, Changsha 410073, China)

    Abstract:To solve the non stationarity problem caused by opponent policy changes in multi agent competitions, this paper proposes an algorithm called uncertainty based Bayesian policy reuse under the restriction of unavailability of the online opponent’s actions. In the offline phase, use an autoencoder to model the relationship representation between agent trajectories and the opponent actions during policy learning. In the online phase, the agent evaluates the uncertainty of the opponent type only conditioning on limited interaction information and the built opponent models. Afterward, optimal response policy is selected for execution. The proposed algorithm on two scenarios and demonstrate that it has higher recognition accuracy and faster speed than three state of the art baseline methods.

    Keywords:multi agent competition; Bayesian policy reuse; reinforcement learning; relationship representation

    0 引 言

    多智能體系統(tǒng)(multi agent systems, MAS)通過在一個(gè)系統(tǒng)中考慮多個(gè)智能體來擴(kuò)展經(jīng)典的決策問題1-2。多智能體對抗作為其子方向之一,已被廣泛應(yīng)用于游戲3-4、軍事5-6、機(jī)器人7-8等領(lǐng)域。然而,在現(xiàn)實(shí)世界的對抗交互中,對手方可能會采取不同的策略,策略會隨著時(shí)間的推移而發(fā)生變化。MAS中的智能體共享同一個(gè)環(huán)境并相互影響,導(dǎo)致系統(tǒng)非平穩(wěn),(藍(lán)方)智能體難以快速適應(yīng)變化的對手策略9-10。例如,若每個(gè)玩家都配備一個(gè)策略庫,并根據(jù)交互信息選擇適當(dāng)?shù)牟呗灾赜脕碜畲蠡约旱睦?,在這種情況下,如何快速、準(zhǔn)確地識別和適應(yīng)在線交互中突然切換策略的非平穩(wěn)對手是一個(gè)具有挑戰(zhàn)性的問題。

    貝葉斯策略重用(Bayesian policy reuse, BPR)框架及其衍生方法可以在面對一個(gè)未標(biāo)記(但之前見過的)任務(wù)時(shí),有效地識別和重用已有策略11-12。BPR+[13將BPR擴(kuò)展到非平穩(wěn)對手的多智能體設(shè)定中。面向策略層面的貝葉斯心智理論策略(Bayesian theory of mind on policy, Bayes ToMoP)14算法引入了心智理論(theory of mind, TOM)[15-16來應(yīng)對具備更高層次策略推理能力的對手,即假設(shè)對手同樣也可以采用BPR推理。盡管這些方法有所成效,但其信念高度依賴只使用回合獎勵作為更新信號的性能模型,不足以快速、準(zhǔn)確地識別對手的策略。

    將對手行為融入BPR框架是提高識別精度的有效方法。深度BPR (deep BPR, Deep BPR+)17算法使用一個(gè)神經(jīng)網(wǎng)絡(luò)模型擬合對手策略,即從對手的歷史交互序列中描述其行為。這樣處理的優(yōu)點(diǎn)是即便在面對未訪問過的狀態(tài)時(shí),依舊可以推斷對手的行為。然而,該方法假設(shè)在交互中可以準(zhǔn)確獲取對手的私有動作信息,這一假設(shè)在現(xiàn)實(shí)應(yīng)用中難以保證。例如,在空戰(zhàn)中,很難即時(shí)準(zhǔn)確判斷對方的機(jī)動動作,但卻可以感知由該動作引起的態(tài)勢變化。

    本文重點(diǎn)關(guān)注在執(zhí)行階段對手動作信息不可獲取的對抗場景下,如何快速應(yīng)對策略可切換的非平穩(wěn)對手。針對該問題,提出基于不確定性的BPR(uncertainty based BPR, Uncertainty BPR)算法,該算法結(jié)合了BPR的推理能力和識別能力。Uncertainty BPR分為離線階段和在線階段。離線階段旨在學(xué)習(xí)智能體的軌跡和對手動作之間的關(guān)系表征。具體地,通過自編碼器(auto encoder, AE)[18-19在潛在空間中構(gòu)建智能體軌跡與對手動作的關(guān)系模型,并提取潛在特征。然后,將潛在特征作為下游強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)任務(wù)的輸入增益。同時(shí),統(tǒng)計(jì)AE重建對手動作的回合累積熵,并將其擬合為高斯分布,作為對手模型。在線階段通過對手模型以在線交互所得到的回合累積熵修正關(guān)于對手策略類型與當(dāng)前所使用策略匹配度的信念,然后基于信念和性能模型,從策略庫中選擇最優(yōu)應(yīng)對策略并重用。最后,本文在兩個(gè)對抗場景中,證明所提算法相比于3個(gè)基準(zhǔn)算法在識別精度和識別速度方面性能更優(yōu)。

    本文主要貢獻(xiàn)總結(jié)如下:

    (1) 本文結(jié)合AE模型,提出了一個(gè)基于回合累積熵的對手模型,以衡量對手策略類型的不確定性程度。

    (2) 本文提出了Uncertainty BPR方法,該方法在執(zhí)行過程中不需要訪問對手行為即可以準(zhǔn)確識別對手類型。

    (3) 經(jīng)過與3個(gè)基線方法的實(shí)驗(yàn)對比,本文所提算法在識別速度和識別精度方面均表現(xiàn)出優(yōu)異的性能。

    1 準(zhǔn)備知識

    1.1 問題定義

    Uncertainty BPR算法的決策過程可以建模為雙人馬爾可夫博弈20-21,并由一個(gè)5元組組成〈S,A,O,P,R 〉。其中,S是有限狀態(tài)集;A和O是智能體和對手的有限動作集;P:S×A×O×S→[0,1]是狀態(tài)轉(zhuǎn)移函數(shù)。其中,“×”表示笛卡爾積。每個(gè)玩家i有一個(gè)獎勵函數(shù)R:S×A×O→R,且試圖最大化總預(yù)期折扣回報(bào)Ri=∑t=Tt=0γtrit,以找到最優(yōu)策略π*i。其中,R是實(shí)數(shù)集,T是回合步長,r是立即獎勵,r∈[0,1]是用于平衡即時(shí)獎勵和未來獎勵的折扣因子。

    然后,定義智能體的軌跡為={st,at}t=Tt=0。

    如果對手策略固定,那么雙人馬爾可夫博弈可簡化為馬爾可夫決策過程(Markov decision process, MDP),可通過RL算法求解,如近端策略優(yōu)化(proximal policy optimization, PPO)[22和優(yōu)勢演員-評論家(advantage actor critic, A2C)[23等。

    1.2 智能體結(jié)構(gòu)及訓(xùn)練

    本文設(shè)計(jì)的智能體的內(nèi)部結(jié)構(gòu)如圖1所示,該框架結(jié)合了AE模型和RL。其中,AE模型包含一個(gè)編碼器和一個(gè)解碼器,目的是學(xué)習(xí)智能體軌跡和對手動作之間的關(guān)系表征。假設(shè)空間Z中的潛在特征zt隱含了每個(gè)時(shí)間步t對手的動作信息。接著,采用帶有長短時(shí)記憶網(wǎng)絡(luò)(long short term memory, LSTM)的編碼器學(xué)習(xí)智能體軌跡與潛在特征之間的關(guān)系,即fω:1→Z,參數(shù)為ω。然后,同樣使用參數(shù)為u的解碼器來學(xué)習(xí)對手動作和潛在特征之間的關(guān)系,定義解碼器為fu:Z→O,即重建對手動作的模型。編碼器僅以智能體軌跡為條件關(guān)聯(lián)對手動作,并生成潛在特征,并將潛在特征輸入到下游RL任務(wù)中。

    在每個(gè)時(shí)間步t,編碼器基于智能體的信息(s:t,a:t-1)生成潛在特征zt。同樣地,在每個(gè)時(shí)間步t,解碼器基于zt學(xué)習(xí)重建對手動作ot,即輸出對手動作的類別分布。此時(shí),AE模型的損失函數(shù)可以寫為

    LAE=-1T∑Tt=1[ln fu(ot∣zt)](1)

    式中:zt=fw(s:t,a:t-1),t為時(shí)間步;T為回合步長。在本文的實(shí)驗(yàn)中,采用A2C[23來求解智能體策略,但也可以使用其他RL算法替代。給定批次數(shù)據(jù)B,A2C的損失可以寫為

    LA2C=E(st,at,rt+1,st+1)~B12(rt+1+γV(st+1,zt+1)-

    V(st,zt))2-A^lnπθ(at∣st,zt)-λH(πθ(at∣st,zt))(2)

    式中:V為值函數(shù);E是數(shù)學(xué)期望;A^是基本優(yōu)勢項(xiàng);H是熵;超參數(shù)λ控制了熵正則化項(xiàng)的強(qiáng)度。

    1.3 BPR

    BPR框架可以在面對未標(biāo)記(但之前見過的) MDP任務(wù)時(shí)有效地選擇和重用最優(yōu)策略。具體的步驟是先從離線經(jīng)驗(yàn)中學(xué)習(xí)任務(wù)x∈χ的最優(yōu)應(yīng)對策略π∈Π,其中χ是任務(wù)庫,Π是智能體的策略庫。然后,將其作為任務(wù)空間上的貝葉斯先驗(yàn),并通過來自當(dāng)前任務(wù)的新觀測信號σ∈Σ進(jìn)行更新。信號σ可以是一個(gè)與策略π性能相關(guān)的任意信息,如即時(shí)獎勵、效用(回合獎勵、回報(bào))或狀態(tài)-動作-狀態(tài)元組。此外,觀測模型P(σ∣x,π)是將策略π作用于任務(wù)x所產(chǎn)生的信號的概率分布。信念β是χ上的一個(gè)概率分布,它衡量了當(dāng)前任務(wù)x*與χ中已知任務(wù)的匹配程度。信念可以用先驗(yàn)概率來初始化。在每次試驗(yàn)k個(gè)回合后,根據(jù)智能體觀察到的信號,使用貝葉斯規(guī)則更新信念βk(x):

    βk(x)=P(αk∣x,πk)βk-1(x)Σx′∈χP(αk∣x′,πk)βk-1(x′)(3)

    BPR使用性能模型P(U|x,π)來描述每個(gè)策略π在先前解決過的任務(wù)x上獲得的效用值的概率分布。文獻(xiàn)[11]提出了一些探索啟發(fā)式方法,來選擇最優(yōu)策略的BPR變體。BPR 預(yù)期改進(jìn)(BPR expected improvement, BPR EI)啟發(fā)式算法在所有BPR變體中表現(xiàn)最佳。假設(shè)U-=maxπ∈Π∑x∈χ·β(x)E[U|x,π]是當(dāng)前信念下的最優(yōu)估計(jì),那么BPR EI選擇最優(yōu)策略的表達(dá)式如下:

    π=arg maxπ∈Π∫UmaxU-∑x∈χβ(τ)P(U+∣x,π)dU+(4)

    式中:U-lt;U+lt;Umax,U+為積分變量,Umax為最大回合累積效用。這里回顧的BPR方法主要參考文獻(xiàn)[15],文獻(xiàn)中將使用不同策略的對手視為不同的任務(wù)。

    2 Uncertainty BPR

    本節(jié)詳細(xì)描述了Uncertainty BPR算法的理論推導(dǎo)和實(shí)現(xiàn)過程。如圖2所示,圖2上半部分表示離線階段策略學(xué)習(xí)和模型生成的過程,下半部分表示在線階段信念修正和策略重用的過程。

    2.1 離線策略學(xué)習(xí)和模型生成

    假設(shè)紅藍(lán)雙方都分別伴隨著一個(gè)策略庫的形式而存在,那么首先需要在離線階段對藍(lán)方策略庫進(jìn)行填充。對于特定任務(wù)x*∈χ,固定對手策略τ∈T,智能體使用圖1結(jié)構(gòu)與對手進(jìn)行交互,以學(xué)習(xí)最優(yōu)應(yīng)對策略。然后,將學(xué)習(xí)到的應(yīng)對策略添加到最優(yōu)應(yīng)對策略庫Π中(算法1中的第1~3行)。此時(shí),智能體的應(yīng)對策略已存放于最優(yōu)應(yīng)對策略庫Π中。為了從策略庫Π中準(zhǔn)確地選擇應(yīng)對策略,在線執(zhí)行時(shí)選擇輔助識別信息是一種挑戰(zhàn)。熵或信息熵是香農(nóng)利用熱力學(xué)知識引入的一個(gè)概念,描述了信息源中每個(gè)可能事件發(fā)生的不確定性24。它遵循一個(gè)性質(zhì),即熵值越大,不確定性越大,反之亦然。熵是機(jī)器學(xué)習(xí)(machine learning, ML)中理解各種概念的有用工具,在ML研究中被廣泛應(yīng)用25,概率分布的熵可以解釋為對不確定性的度量26-27。

    定義 1 定義分布p在M個(gè)狀態(tài)的離散隨機(jī)變量Y的熵為

    H(Y)=-∑Mm=1p(Y=m)ln p(Y=m)(5)

    本文使用熵來衡量重建對手動作的準(zhǔn)確性,從而評估對手策略類型的不確定性。參考BPR建立性能模型的過程,本文統(tǒng)計(jì)了潛在特征重建對手動作時(shí)的回合累積熵。累積熵的概念與文獻(xiàn)[28]不同,指在整個(gè)回合中重建對手動作的熵累積和,可以表示為

    h-=-∑Tt=0fu(ot|zt)ln fu(ot|zt)(6)

    式中:fu(ot|zt)表示對手在時(shí)間步t時(shí)的動作類別分布;h-的值反映了重建對手動作的準(zhǔn)確性。理論上,當(dāng)智能體所使用的策略恰好是應(yīng)對對手的最優(yōu)策略時(shí),h-的值最小。算法1中的第4~10行描述了性能模型和對手模型的生成過程。

    算法 1 離線策略學(xué)習(xí)和模型生成

    輸入 智能體策略庫Π,對手策略庫Ξ

    輸出 性能模型P(U|Ξ,Π),對手模型P(H-|T,Π)

    1. for 每個(gè)對手策略τ∈Ξ do

    2." 學(xué)習(xí)最優(yōu)應(yīng)對策略并將其添加到Π

    3. end

    4. for 每個(gè)對手策略τ∈Ξ do

    5.nbsp;" for 每個(gè)應(yīng)對策略π∈Π do

    6.使用策略π對抗策略τ

    7.收集回合獎勵u和回合累積熵h-

    8."" end

    9."" 將u,h-擬合為高斯分布以生成性能模型

    P(u|Ξ,Π)和對手模型P(h-|Ξ,Π)

    10. end

    2.2 在線信念修正和策略重用

    識別對手策略類型的準(zhǔn)確度將直接影響策略重用的性能。標(biāo)準(zhǔn)BPR中的信念僅依賴性能模型。然而,針對不同對手的性能模型可能是相同的。例如,在稀疏獎勵下,只有任務(wù)成功才能獲得收益,而任何的失誤都可能導(dǎo)致零收益。假設(shè)在某個(gè)回合中,智能體以策略πi對抗對手策略τj,如果i≠j,那么性能模型可能為

    p(u=0|πi,τ1)=…=p(u=0|πi,τi-1)=…=p(u=0|π1,τn)

    這導(dǎo)致在不同對手策略上的信念模型無法區(qū)分,即:

    β(τ1)=…=β(τi-1)=β(τi+1)=…=β(τi+n)

    因此,僅依靠性能模型難以準(zhǔn)確識別對手策略類型。為了克服此問題,本文使用對手模型P(H-|Ξ,Π)來糾正信念,并且不需要在在線執(zhí)行期間直接訪問對手的動作。直觀地說,修正后的信念可以理解為識別對手策略類型的后驗(yàn)概率。

    性能模型和對手模型是相互獨(dú)立的,因?yàn)樗鼈兎謩e依賴于u和h-。因此,可以直接將兩個(gè)模型相乘,以衡量對手使用策略τ時(shí)的概率,從而得到一個(gè)更準(zhǔn)確的對手策略預(yù)測模型。此時(shí),重寫公式中的信念更新公式為

    β-k(τ)=P(h-k|τ,πk)P(uk|τ,πk)β-k-1(τ)∑τ′∈TP(h-k|τ′,πk)P(uk|τ′,πk)β-k-1(τ′)(7)

    在每一回合開始時(shí),根據(jù)信念選擇最優(yōu)匹配策略π*執(zhí)行:

    π=arg maxπ∈Π∫UmaxU-∑τ∈Tβ-(τ)P(U+∣τ,π)dU+(8)

    式中:U-=maxπ∈Π∑τ∈τβ-(τ)E[U∣τ,π]。算法2詳細(xì)描述了在線階段的信念修正和策略重用過程。值得注意的是,上述信念修正的思路類似于Deep BPR+[17,但也存在幾點(diǎn)差異:① Uncertainty BPR中的對手模型關(guān)注的是預(yù)測對手動作準(zhǔn)確性的熵分布,而不是從離線經(jīng)驗(yàn)中學(xué)習(xí)對手的真實(shí)策略;② Deep BPR+使用神經(jīng)網(wǎng)絡(luò)來建立對手模型,但本文使用了統(tǒng)計(jì)的方法;③ Deep BPR+在在線執(zhí)行時(shí)需要獲取整個(gè)回合中的對手動作來識別應(yīng)對策略。但是,本文所提方法不需要直接訪問對手動作。

    算法 2 在線信念修正和策略重用

    輸入 智能體策略庫Π,對手策略庫Ξ,性能模型P(U|Ξ,Π),對手模型P(H-|Ξ,Π),最大化回合數(shù)K,回合步長T

    輸出 應(yīng)對策略

    1. 以均勻分布初始化信念β-0(τ)

    2. for 回合k=1,2,…,K do

    3."" 初始化環(huán)境狀態(tài)

    4."" a-1←零向量,uk=hk=0

    5."" 重置編碼器中LSTM的隱藏狀態(tài)

    6."" 使用公式(8)選擇應(yīng)對策略π*k

    7."" While tlt;T and 游戲未停止 do

    8.計(jì)算隱藏特征zt=fw(s:t,a:t-1)

    9.智能體獲取環(huán)境狀態(tài)st并選擇動作

    at=π*k(at|st,zt),對手選擇動作ot

    10.計(jì)算編碼器重建對手動作的熵值

    ht=fu(ot|zt)ln fu(ot|zt)

    11.執(zhí)行動作并獲得立即獎勵rt

    12.h-k=h-k+ht,uk=uk+rt

    13."" end while

    14."" 將uk和h-k代入公式(7),更新信念β-k(τ)

    15. end

    3 實(shí)驗(yàn)分析

    在本節(jié)中,本文在足球游戲和追捕游戲兩種對抗環(huán)境中比較了最具代表性的3種算法,包括BPR+[13、Bayes ToMoP[14和Deep BPR+[17。BPR+將標(biāo)準(zhǔn)BPR擴(kuò)展到對抗環(huán)境,特別是那些從一個(gè)固定策略切換到另一個(gè)的設(shè)置13。Bayes ToMoP假設(shè)對手也使用BPR推理。Deep BPR+提出使用神經(jīng)網(wǎng)絡(luò)來近似對手的歷史軌跡,并將其視為對手模型16。在實(shí)驗(yàn)中,所有的算法都使用相同的性能模型,并且Deep BPR+可以在在線執(zhí)行中獲取真實(shí)的對手動作。實(shí)驗(yàn)環(huán)境包括二維網(wǎng)絡(luò)世界的足球游戲以及粒子群環(huán)境29-30中的追捕游戲,其中足球游戲的全局狀態(tài)采用獨(dú)熱編碼,由球員的位置和控球權(quán)組成,而追捕游戲中的全局狀態(tài)由相應(yīng)智能體的位置和速度數(shù)值組成。在離線階段,著重分析了足球游戲的實(shí)驗(yàn)結(jié)果。在在線階段,分別在兩種對抗環(huán)境中評估了累積獎勵、回合獎勵以及識別對手策略準(zhǔn)確度的指標(biāo)。

    3.1 環(huán)境描述

    3.1.1 足球游戲

    球員在足球游戲世界中的初始位置如圖3所示。紅色機(jī)器人表示智能體,藍(lán)色機(jī)器人代表對手。在每一回合開始時(shí),對手都擁有控球權(quán)。圖中的每個(gè)網(wǎng)格只能容納一個(gè)球員,而球總是與球員一起存在于同一位置。當(dāng)球員之間發(fā)生碰撞時(shí),交換球權(quán),但球員的位置不會改變。在每個(gè)時(shí)間步t,玩家從動作空間{上,下,左,右,不動}中選擇一個(gè)動作并執(zhí)行。一旦球員進(jìn)球或達(dá)到最大回合步長(T=50)時(shí),游戲結(jié)束,球員和足球的位置就會被重置。在該環(huán)境中,實(shí)驗(yàn)設(shè)定了3個(gè)不同的目標(biāo)。當(dāng)智能體帶球達(dá)到3個(gè)目標(biāo)時(shí),相應(yīng)的即時(shí)獎勵分別為:rG1=100,rG2=50,rG3=20。

    在足球游戲的實(shí)驗(yàn)中,如圖3所示,共設(shè)計(jì)了6個(gè)對手策略,分別對應(yīng)圖中的(1)~(6)。G1、G2和G3分別表示3個(gè)不同的目標(biāo),每個(gè)目標(biāo)對應(yīng)2個(gè)對手策略。實(shí)驗(yàn)設(shè)定是只有當(dāng)智能體的目標(biāo)位置與當(dāng)前對手策略的目標(biāo)位置相匹配時(shí),該目標(biāo)才有效且可以獲得獎勵。例如,在某一任務(wù)中,如果對手使用圖3中的策略(2),那么只有當(dāng)智能體將球帶入右邊的G2目標(biāo)時(shí),該結(jié)果才有效。在這種情況下,只有當(dāng)智能體準(zhǔn)確地識別到對手策略時(shí),才能從環(huán)境中獲得相應(yīng)獎勵。

    3.1.2 追捕游戲

    追捕游戲的初始玩家位置如圖4所示,其中包含3個(gè)捕食者和1個(gè)獵物。紅色圓球代表捕食者,藍(lán)色圓球代表獵物,四周表示黑色圍墻,智能體不可越過圍墻。在每個(gè)時(shí)間步t中,捕食者試圖與獵物相撞,而獵物的目標(biāo)是避免碰撞。在每個(gè)時(shí)間步t,智能體可從動作空間{上,下,左,右,不動}中選擇一個(gè)動作并執(zhí)行。如果獵物成功避免與捕食者發(fā)生碰撞,它將得到r0=0.1的獎勵。當(dāng)碰撞次數(shù)分別為1、2和3時(shí),獎勵則分別為r1=-1、r2=-5和r3=-10。一旦達(dá)到最大回合步長(T=50),游戲結(jié)束。

    在實(shí)驗(yàn)中,藍(lán)方控制獵物,將3個(gè)捕食者視為一個(gè)對手整體,并為對手設(shè)計(jì)了4種策略,即優(yōu)先垂直追蹤、優(yōu)先水平追蹤、順時(shí)針追蹤、逆時(shí)針追蹤,4種策略的具體定義如下:優(yōu)先垂直追蹤:捕食者首先通過上下移動來縮小與獵物的垂直距離,然后在垂直距離足夠小時(shí)再向左或向右移動;優(yōu)先水平追蹤:捕食者首先向左或向右移動,以減少與獵物的水平距離,然后在水平距離足夠小時(shí)再向上或向下移動;順時(shí)針追蹤:捕食者以順時(shí)針的運(yùn)動軌跡追蹤獵物;逆時(shí)針追蹤:捕食者以逆時(shí)針的運(yùn)動軌跡追蹤獵物。

    3.2 離線階段實(shí)驗(yàn)結(jié)果分析

    本節(jié)重點(diǎn)分析了離線訓(xùn)練階段足球游戲的實(shí)驗(yàn)結(jié)果,圖5(a)和圖5(b)展示了性能模型的數(shù)值可視化,圖5(c)和圖5(d)則展示了對手模型的數(shù)值可視化,其中藍(lán)色系和橙色系分別表示效用值u和回合累積熵h-擬合為高斯分布后的均值和方差。從圖5(a)可以看出,性能模型中的均值在對角線位置時(shí),效用值是最大的,即回合獎勵最大,此時(shí)恰好智能體面對某一對手時(shí)采取最優(yōu)應(yīng)對策略。但是從圖中也可以看出,由于只有在達(dá)成目標(biāo)時(shí)才會得到獎勵,因此在藍(lán)方智能體某個(gè)策略πi應(yīng)對不同對手策略時(shí),可能會出現(xiàn)性能模型相同的情況,所以如果只依賴性能模型來識別對手類型,將會導(dǎo)致識別結(jié)果不準(zhǔn)確。

    對手模型的分析與前面類似,如圖5(c)和圖5(d)所示,對角線位置依舊表示智能體的最優(yōu)應(yīng)對策略,此時(shí)均值最小,即回合累積熵值最小,不確定性也最低。相比于性能模型,對手模型中每一行內(nèi)的色塊之間顏色深淺變化更多,更能區(qū)分。因此,在性能模型的基礎(chǔ)上通過對手模型修正的信念會更加準(zhǔn)確。除此之外,圖6展示了離線訓(xùn)練階段解碼器重建對手動作的準(zhǔn)確度。圖6中,πi表示智能體i;τj表示對手j。從圖6中可以看出,隨著訓(xùn)練的進(jìn)行,該模型能夠準(zhǔn)確地重建出對手動作,并以此來關(guān)聯(lián)對手策略,由此也能證明本文所構(gòu)建出的對手模型是較為準(zhǔn)確的。

    3.3 在線階段實(shí)驗(yàn)結(jié)果分析

    3.3.1 足球游戲

    在在線階段,實(shí)驗(yàn)分為3個(gè)階段,共運(yùn)行400個(gè)回合,重復(fù)100次。在前100個(gè)回合中,對手同樣采用BPR的方式推斷智能體的策略類型并切換策略,切換間隔為20回合/次。在第100~200回合中,對手一開始采用策略(1),然后,在每3個(gè)回合中,按[(1)→(3)→(6)]或[(5)→(2)]或[(1)→(4)]的順序切換策略。在第200~400回合中,對手按照[(3)→(1)→(5)→(3)]的順序,以50回合/次的間隔切換策略。

    圖7和圖8分別展示了累積獎勵和回合獎勵,圖9表示在不同階段面對不同對手策略時(shí)的識別準(zhǔn)確率。圖中不同的顏色圖例表示不同的算法,陰影區(qū)域和灰線表示標(biāo)準(zhǔn)差。圖7和圖8中部分交替的背景顏色用以區(qū)分對手策略的切換。在第一階段的前100個(gè)回合中,對手同樣也使用性能模型對紅方智能體進(jìn)行推斷。從實(shí)驗(yàn)圖可以看出,4種算法性能基本保持一致,識別準(zhǔn)確率均可達(dá)到90%以上。

    在第100~200回合中,對手每隔幾個(gè)回合就會切換一次策略。與第一階段相比,從圖8和圖9可以看出,Uncertainty BPR在第二階段的性能優(yōu)勢明顯,且能夠更快速地識別對手策略類型。特別地,在一個(gè)回合結(jié)束、更新信念后,對手就可以被識別且延遲較小。雖然Deep BPR+同樣也使用對手模型修正原始信念,但從圖中可以看出,當(dāng)策略切換間隔小于5個(gè)回合時(shí),該算法的識別效率會降低。此外,BPR+和Beyes ToMoP都是僅依賴回合獎勵識別對手策略類型的方法。然而,當(dāng)對手策略切換間隔減小時(shí),這兩種方法的性能皆呈現(xiàn)下降趨勢(見圖7和圖8),且Beyes ToMoP的波動較大。

    在第200~400回合中,BPR+,Deep BPR+和Uncertainty BPR算法表現(xiàn)一致,皆可較快識別對手策略類型。但是,Beyes ToMoP波動最大,尤其是在第200回合開始時(shí)(見圖8),因?yàn)锽ayes ToMoP需要額外的時(shí)間判斷對手是否同樣使用BPR推理。綜上,如表1所示,Uncertainty BPR在整個(gè)實(shí)驗(yàn)過程中的識別準(zhǔn)確率最高,達(dá)到87.7%,第2位是BPR+;識別準(zhǔn)確率為84.5%,Deep BPR+和Beyes ToMoP位列第3和第4位,識別準(zhǔn)確率分別為84.1%和81.8%。

    3.3.2 追捕游戲

    在在線階段,追捕游戲?qū)嶒?yàn)同樣分為3個(gè)階段運(yùn)行400個(gè)回合,重復(fù)100次。在前100回合中,對手采用BPR模型推斷紅方智能體的策略類型,并以20回合/次的間隔切換策略。在第100~200回合中,對手最初采用策略(1),接著以每5個(gè)回合1次的間隔按[(1)→(2)→(4)→(3)]的順序改變策略。在第200~400回合中,對手從4個(gè)候選策略中選擇1個(gè)策略,并以50回合/次的間隔進(jìn)行切換,策略切換順序?yàn)椋郏?)→(3)→(1)→(2)]。

    同樣,分析追捕游戲在在線重用階段的實(shí)驗(yàn)結(jié)果,圖例表示與足球游戲相同。在前100個(gè)回合中,對手仍然具備推理能力,如圖10所示。如圖11所示,4個(gè)算法在此階段整體表現(xiàn)優(yōu)越,識別準(zhǔn)確率皆可達(dá)到90%以上。然而,Beyes ToMoP相對其他3個(gè)算法略有波動(見圖10和圖11),這是因?yàn)锽eyes ToMoP在對手切換策略時(shí)需要額外的時(shí)間判斷對手是否使用BPR推斷。

    在第100~200回合中,對手在4種策略內(nèi)以5回合/次的間隔按設(shè)定的順序切換策略。由于智能體需要在回合間更新信息,所以難以立即檢測到對手策略的類型,至少需要一次交互來更新信念。因此,從圖10和圖11可以看出,當(dāng)切換間隔減小時(shí),所有算法的性能皆有所下降。其中,Beyes ToMoP和BPR+的識別準(zhǔn)確率相對較低,這是因?yàn)锽PR+和Beyes ToMoP過度依賴性能模型,使得當(dāng)性能模型相似時(shí),很難區(qū)分對手。此外,Deep BPR+的識別準(zhǔn)確率僅略低于Uncertainty BPR。

    在第200~400回合中,對手以50回合/次的間隔切換策略。如圖11和圖12所示,4個(gè)算法皆有較好的性能,可以快速識別和應(yīng)對對手策略切換。不過,Beyes ToMoP相對于其他3個(gè)算法性能依舊有所波動。綜上所述,如表1所示,Uncertainty BPR在整個(gè)實(shí)驗(yàn)過程中的識別準(zhǔn)確率最高,達(dá)到92.5%;第2位是Deep BPR+,識別準(zhǔn)確率為91.6%,BPR+、Beyes ToMoP排名第3和第4,識別準(zhǔn)確率分別為90.7%和89.7%。

    3.3.3 對策略切換間隔影響的分析

    為了研究對手策略切換間隔對識別精度的影響,實(shí)驗(yàn)比較不同算法在不同時(shí)間間隔切換策略時(shí)的性能。實(shí)驗(yàn)將對手的切換間隔分別設(shè)置為20、10、5和3回合/次,并且在每次切換時(shí)隨機(jī)從對手策略庫T中選擇一個(gè)策略。然后,在400個(gè)回合中分別重復(fù)100次實(shí)驗(yàn)。

    圖13和圖14分別描述了足球游戲和追捕游戲中對手使用不同切換間隔時(shí)的識別精度。從圖中可以看出,4個(gè)算法在切換間隔較小時(shí)都有較好的效果。但是,隨著切換間隔的減小,各個(gè)算法的性能皆有所下降。其中Bayes ToMoP算法性能損失最為明顯,因?yàn)樵撍惴ㄐ枰~外的時(shí)間來判斷對手是否使用BPR推斷。而Deep BPR+的表現(xiàn)明顯優(yōu)于BPR+和Bayes ToMoP。Uncertainty BPR算法的性能則依舊是最好的。綜上所述,本文所提算法在適應(yīng)一個(gè)回合后就能識別出對手的策略。

    4 結(jié) 論

    在多智能體對抗中,快速地識別和適應(yīng)在線執(zhí)行中動作不可獲取的非平穩(wěn)對手是一個(gè)具有挑戰(zhàn)性的問題。本文提出合理的假設(shè),并對具體的方法和實(shí)驗(yàn)進(jìn)行描述性分析。在理論上,為了避免在線執(zhí)行時(shí)直接獲取對手動作,本文以離線建模、在線使用的思路,結(jié)合AE模型,通過統(tǒng)計(jì)重建對手動作的回合累積熵建立對手模型。然后,利用對手模型以在線交互回合累積熵修正信念,選擇最優(yōu)策略并重用,并通過實(shí)驗(yàn)驗(yàn)證所提方法的有效性。具體地,Uncertainty BPR相比于僅依賴回合獎勵作為更新信號的BPR+和Bayes ToMoP,識別速度更快。此外,雖然Uncertainty BPR不能直接訪問對手動作,但是依舊可以取得與Deep BPR+相同、甚至更好的識別效果。

    參考文獻(xiàn)

    [1] ZHOU Z Y, LIU G J, TANG Y. Multi agent reinforcement learning: methods, applications, visionary prospects, and cha llenges[EB/OL]. [2023-09-05]. https:∥doi.org/10.48550/arXiv.2305.10091.

    [2]WEN M N, KUBA J, LIN R J, et al. Multi agent reinforcement learning is a sequence modeling problem[J]. Advances in Neural Information Processing Systems, 2022, 35: 16509-16521.

    [3]VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.

    [4]GAO Y M, LIU F Y, WANG L, et al. Towards effective and interpretable human agent collaboration in MOBA games: a communication perspective[C]∥Proc.of the 11th International Conference on Learning Representations, 2023.

    [5]張磊, 李姜, 侯進(jìn)永, 等. 基于改進(jìn)強(qiáng)化學(xué)習(xí)的多無人機(jī)協(xié)同對抗算法研究[J]. 兵器裝備工程學(xué)報(bào), 2023, 44(5): 230-238.

    ZHANG L, LI J, HOU J Y, et al. Research on multi UAV cooperative confrontation algorithm based on improved reinforcement learning[J]. Journal of Ordnance Equipment Engineering, 2023, 44(5): 230-238.

    [6]POPE A P, IDE J S, MICOVIC D, et al. Hierarchical reinforcement learning for air combat at DARPA's Alpha dog fight trials[J]. IEEE Trans.on Artificial Intelligence, 2022, 4(6): 1371-1385.

    [7]ANDRIES S, HERMAN A E, WILLIE B, et al. Scaling multi agent reinforcement learning to full 11 versus 11 simulated robotic football[J]. Autonomous Agents and Multi Agent Systems, 2023, 37(1): 30.

    [8]孫輝輝, 胡春鶴, 張軍國. 基于主動風(fēng)險(xiǎn)防御機(jī)制的多機(jī)器人強(qiáng)化學(xué)習(xí)協(xié)同對抗策略[J]. 控制與決策, 2023, 38(5): 1429-1450.

    SUN H H, HU C H, ZHANG J G. Cooperative countermeasure strategy based on active risk defense multiagent reinforcement learning[J]. Control and Decision, 2023, 38(5): 1429-1450.

    [9]ZHANG T. Opponent modelling in multi agent systems[D]. London: University College London, 2021.

    [10]HU H M, SHI D X, YANG H H, et al. Independent multi agent reinforcement learning using common knowledge[C]∥Proc.of the IEEE International Conference on Systems, Man, and Cybernetics, 2022: 2703-2708.

    [11]ROSMAN B, HAWASLY M, RAMAMOORTHY S. Bayesian policy reuse[J]. Machine Learning, 2016, 104: 99-127.

    [12]何立, 沈亮, 李輝, 等. 強(qiáng)化學(xué)習(xí)中的策略重用:研究進(jìn)展[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(3): 884-899.

    HE L, SHEN L, LI H, et al. Survey on policy reuse in reinforcement learning[J]. Systems Engineering and Electronics, 2022, 44(3): 884-899.

    [13]HERNANDEZ LEAL P, TAYLOR M E, ROSMAN B, et al. Identifying and tracking switching, non stationary opponents: a Bayesian approach[C]∥Proc.of the 30th Conference on Artificial Intelligence, 2016.

    [14]YANG T P, MENG Z P, HAO J Y, et al. Towards efficient detection and optimal response against sophisticated opponents[C]∥Proc.of the 28th International Joint Conference on Artificial Intelligence, 2019: 623-629.

    [15]WEERD H D, VERBRUFFE R, VERHEIJ B. How much does it help to know what she knows you know? an agent based simulation study[J]. Artificial Intelligence, 2013, 199: 67-92.

    [16]HERNANDEZ LEAL P, KARTAL B, TAYLOR M E. A survey and critique of multiagent deep reinforcement learning[J]. Autonomous Agents and Multi Agent Systems, 2019, 33: 750-797.

    [17]ZHENG Y, MENG Z P, HAO J Y, et al. A deep Bayesian policy reuse approach against non stationary agents[C]∥Proc.of the Advances in Neural Information Processing Systems, 2018.

    [18]BANK D, KOENIGSTEIN N, GIRYES R. Autoencoders[J]. Machine Learning for Data Science Handbook, 2023. DOI:https:∥doi.org/10.1007/978 3 031 24628 9_16.

    [19]ZHAI J H, ZHANG S F, CHEN J F, et al. Autoencoder and its various variants[C]∥Proc.of the IEEE International Conference on Systems, Man, and Cybernetics, 2018: 415-419.

    [20]LI C J, ZHOU D, GU Q, et al. Learning two player Markov games: neural function approximation and correlated equilibrium[J]. Advances in Neural Information Processing Systems, 2022, 35: 33262-33274.

    [21]GUO W B, WU X, HUANG S, et al. Adversarial policy learning in two player competitive games[C]∥Proc.of the 38th International Conference on Machine Learning, 2021: 3910-3919.

    [22]SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. [2023-09-05]. https:∥doi.org/10.48550/arXiv.1707.06347.

    [23]VOLODYMYR M, ADRIA P B, MEH D, et al. Asynchronous methods for deep reinforcement learning[C]∥Proc.of the 33th International Conference on Machine Learning, 2016.

    [24]姜楠, 王健. 信息論與編碼理論[M]. 北京:清華大學(xué)出版社, 2010.

    JIANG N, WANG J. The theory of information and coding[M]. Beijing: Tsinghua University Press, 2020.

    [25]ZHANG T, YING W G, GONG Z C, et al. A regularized opponent model with maximum entropy objective[C]∥Proc.of the 29th International Joint Conference on Artificial Intelligence, 2019.

    [26]WIMMER L, SALE Y, HOFMAN P, et al. Quantifying aleatoric and epistemic uncertainty in machine learning: are conditional entropy and mutual information appropriate measures?[C]∥Proc.of the 39th Conference on Uncertainty in Artificial Intelligence, 2023: 2282-2292.

    [27]MURPHY K P. Probabilistic machine learning: an introduction[M]. Cambridge: Massachusetts Institute of Technology Press, 2022.

    [28]CRESCENZO D A, LONGOBARD M. On cumulative entropies[J]. Journal of Statistical Planning and Inference, 2009, 139(12): 4072-4087.

    [29]PAPOUDAKIS G, CHRISTIANOU F, ALBRECHT S. Agent modelling under partial observability for deep reinforcement learning[J]. Advances in Neural Information Processing Systems, 2021, 34: 19210-19222.

    [30]LOWE R, WU Y I, TAMAR A, et al. Multi agent actor critic for mixed cooperative competitive environments[C]∥Proc.of the 31st International Conference on Neural Information Processing Systems, 2017: 6382-6393.

    作者簡介

    付 可(1993—),女,博士研究生,主要研究方向?yàn)槎嘀悄荏w強(qiáng)化學(xué)習(xí)、系統(tǒng)仿真。

    陳 浩(1993—),男,講師,博士,主要研究方向?yàn)槎嘀悄荏w強(qiáng)化學(xué)習(xí)、系統(tǒng)仿真。

    王 宇(1998—),男,博士研究生,主要研究方向?yàn)槎嘀悄荏w強(qiáng)化學(xué)習(xí)、系統(tǒng)仿真。

    劉 權(quán)(1985—),男,副研究員,博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、無線傳感器網(wǎng)絡(luò)。

    黃 ?。?971—),女,研究員,博士,主要研究方向?yàn)橄到y(tǒng)仿真、機(jī)器學(xué)習(xí)。

    猜你喜歡
    強(qiáng)化學(xué)習(xí)
    基于強(qiáng)化學(xué)習(xí)的無線網(wǎng)絡(luò)智能接入控制技術(shù)
    機(jī)器學(xué)習(xí)發(fā)展現(xiàn)狀及應(yīng)用的研究
    未來人工智能自主學(xué)習(xí)網(wǎng)絡(luò)的構(gòu)建
    轉(zhuǎn)觀念 強(qiáng)服務(wù) 樹立用電檢查新價(jià)值
    智能車自主避障路徑規(guī)劃研究綜述
    一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
    基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
    論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
    智能交通車流自動導(dǎo)引系統(tǒng)
    分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
    日本撒尿小便嘘嘘汇集6| 国产精品乱码一区二三区的特点 | 精品一区二区三卡| av中文乱码字幕在线| 欧美+亚洲+日韩+国产| 91字幕亚洲| 国产高清视频在线播放一区| 亚洲精品国产区一区二| 女人高潮潮喷娇喘18禁视频| 国产主播在线观看一区二区| 美女高潮喷水抽搐中文字幕| 国产成人精品在线电影| 久久香蕉国产精品| 亚洲狠狠婷婷综合久久图片| 欧美日韩中文字幕国产精品一区二区三区 | 成人18禁在线播放| www.精华液| 91大片在线观看| 日韩欧美在线二视频| 在线播放国产精品三级| 久久国产精品人妻蜜桃| 亚洲欧洲精品一区二区精品久久久| 国产aⅴ精品一区二区三区波| 亚洲情色 制服丝袜| 久久 成人 亚洲| 亚洲精品国产区一区二| 琪琪午夜伦伦电影理论片6080| 久久午夜亚洲精品久久| 看免费av毛片| 午夜精品国产一区二区电影| 成人免费观看视频高清| 日韩一卡2卡3卡4卡2021年| 麻豆一二三区av精品| 日本黄色视频三级网站网址| 99热只有精品国产| 亚洲人成电影免费在线| 精品高清国产在线一区| 日韩欧美国产一区二区入口| 日韩欧美免费精品| 美女扒开内裤让男人捅视频| 国产精品亚洲一级av第二区| 深夜精品福利| 免费在线观看黄色视频的| av国产精品久久久久影院| 身体一侧抽搐| 国产黄a三级三级三级人| 十八禁人妻一区二区| 伦理电影免费视频| 欧美亚洲日本最大视频资源| 亚洲av日韩精品久久久久久密| 久99久视频精品免费| 欧美最黄视频在线播放免费 | 国产精品 国内视频| 熟女少妇亚洲综合色aaa.| 成人精品一区二区免费| 丝袜在线中文字幕| 琪琪午夜伦伦电影理论片6080| 国产欧美日韩综合在线一区二区| 精品久久久精品久久久| 村上凉子中文字幕在线| 少妇裸体淫交视频免费看高清 | 日本免费一区二区三区高清不卡 | 免费在线观看亚洲国产| 91在线观看av| 色在线成人网| 一个人观看的视频www高清免费观看 | 欧美丝袜亚洲另类 | 99re在线观看精品视频| 色精品久久人妻99蜜桃| av天堂久久9| 亚洲精品一卡2卡三卡4卡5卡| 久久精品aⅴ一区二区三区四区| 亚洲黑人精品在线| 色尼玛亚洲综合影院| 女性被躁到高潮视频| 午夜a级毛片| 亚洲五月天丁香| 在线播放国产精品三级| 三上悠亚av全集在线观看| 亚洲精品美女久久久久99蜜臀| 国产黄色免费在线视频| 精品国产乱子伦一区二区三区| 国产成人欧美| 露出奶头的视频| 日韩一卡2卡3卡4卡2021年| 无限看片的www在线观看| 在线视频色国产色| 一边摸一边抽搐一进一小说| 免费在线观看日本一区| 亚洲国产毛片av蜜桃av| 亚洲人成电影观看| 色综合婷婷激情| 国产三级在线视频| a级片在线免费高清观看视频| 香蕉丝袜av| 这个男人来自地球电影免费观看| 男人的好看免费观看在线视频 | 国内久久婷婷六月综合欲色啪| 日日夜夜操网爽| 欧美国产精品va在线观看不卡| 亚洲精品成人av观看孕妇| 亚洲av成人不卡在线观看播放网| 欧美黑人精品巨大| 女性生殖器流出的白浆| 中国美女看黄片| 在线观看免费午夜福利视频| 欧美中文综合在线视频| 丝袜美足系列| 亚洲av片天天在线观看| 国产成人av激情在线播放| 精品第一国产精品| 亚洲国产欧美网| www日本在线高清视频| 超碰97精品在线观看| 亚洲成人精品中文字幕电影 | 一边摸一边抽搐一进一小说| 无人区码免费观看不卡| 日韩欧美在线二视频| 日日摸夜夜添夜夜添小说| 国产精品国产高清国产av| 国产高清视频在线播放一区| 91字幕亚洲| 国产有黄有色有爽视频| 国产高清国产精品国产三级| 天天躁夜夜躁狠狠躁躁| 日韩人妻精品一区2区三区| 精品第一国产精品| 新久久久久国产一级毛片| 日本a在线网址| 久久久久精品国产欧美久久久| 夜夜看夜夜爽夜夜摸 | 久久久久国内视频| 50天的宝宝边吃奶边哭怎么回事| 日日夜夜操网爽| 一边摸一边抽搐一进一出视频| 久久久国产成人免费| 日韩一卡2卡3卡4卡2021年| 国产精品 欧美亚洲| 91九色精品人成在线观看| 国产无遮挡羞羞视频在线观看| 男人舔女人下体高潮全视频| 成年人免费黄色播放视频| 精品福利永久在线观看| 男人的好看免费观看在线视频 | 婷婷丁香在线五月| 亚洲欧美日韩高清在线视频| 亚洲一区中文字幕在线| 亚洲伊人色综图| 另类亚洲欧美激情| 欧美激情高清一区二区三区| 香蕉国产在线看| 免费久久久久久久精品成人欧美视频| 精品久久久精品久久久| 免费久久久久久久精品成人欧美视频| 女性被躁到高潮视频| 1024香蕉在线观看| 在线观看日韩欧美| 水蜜桃什么品种好| 国产精品爽爽va在线观看网站 | 18禁裸乳无遮挡免费网站照片 | 老熟妇乱子伦视频在线观看| 久久九九热精品免费| 一级作爱视频免费观看| 国产av一区在线观看免费| 不卡av一区二区三区| 大型黄色视频在线免费观看| 成人亚洲精品一区在线观看| 午夜福利在线观看吧| 亚洲成国产人片在线观看| 国产精品久久久久成人av| 伊人久久大香线蕉亚洲五| 精品国产乱码久久久久久男人| 婷婷丁香在线五月| 亚洲熟女毛片儿| 十八禁网站免费在线| 午夜福利在线观看吧| 亚洲国产中文字幕在线视频| 久久国产亚洲av麻豆专区| 亚洲va日本ⅴa欧美va伊人久久| 波多野结衣av一区二区av| 叶爱在线成人免费视频播放| 亚洲免费av在线视频| 老司机亚洲免费影院| 在线观看免费视频网站a站| 亚洲一区二区三区欧美精品| 丰满迷人的少妇在线观看| 成人av一区二区三区在线看| 琪琪午夜伦伦电影理论片6080| 三级毛片av免费| 国产成人精品久久二区二区免费| 国产精品亚洲一级av第二区| 欧美激情极品国产一区二区三区| 69精品国产乱码久久久| 一级毛片高清免费大全| 亚洲少妇的诱惑av| 99精国产麻豆久久婷婷| 大码成人一级视频| 亚洲一区中文字幕在线| 午夜福利,免费看| 欧美精品一区二区免费开放| 国产精品电影一区二区三区| 国产男靠女视频免费网站| 久久久精品欧美日韩精品| 波多野结衣一区麻豆| 欧美中文综合在线视频| 国产精品1区2区在线观看.| 久久久国产欧美日韩av| av有码第一页| 这个男人来自地球电影免费观看| 色综合欧美亚洲国产小说| 9191精品国产免费久久| 国产深夜福利视频在线观看| 91成年电影在线观看| 99香蕉大伊视频| 精品国产乱子伦一区二区三区| 老熟妇仑乱视频hdxx| 欧美日韩亚洲综合一区二区三区_| e午夜精品久久久久久久| 精品久久久精品久久久| 成人三级黄色视频| 18禁美女被吸乳视频| 可以免费在线观看a视频的电影网站| 欧美国产精品va在线观看不卡| 丁香欧美五月| 男女下面插进去视频免费观看| www国产在线视频色| 免费日韩欧美在线观看| 免费少妇av软件| 夜夜爽天天搞| 久久热在线av| 日韩精品免费视频一区二区三区| 97超级碰碰碰精品色视频在线观看| 亚洲人成网站在线播放欧美日韩| 交换朋友夫妻互换小说| 欧美 亚洲 国产 日韩一| 国产欧美日韩精品亚洲av| 婷婷丁香在线五月| 欧美日本亚洲视频在线播放| 日本一区二区免费在线视频| 久热爱精品视频在线9| 嫩草影院精品99| 91大片在线观看| 国产在线观看jvid| 色婷婷av一区二区三区视频| 亚洲全国av大片| 日韩人妻精品一区2区三区| 黑人操中国人逼视频| 免费在线观看完整版高清| 久久精品国产99精品国产亚洲性色 | 高清av免费在线| 日本免费一区二区三区高清不卡 | 欧美大码av| 日韩成人在线观看一区二区三区| bbb黄色大片| 变态另类成人亚洲欧美熟女 | 亚洲第一欧美日韩一区二区三区| 自线自在国产av| a在线观看视频网站| 国产免费男女视频| 午夜福利免费观看在线| 国产99久久九九免费精品| 国产高清激情床上av| 免费在线观看亚洲国产| 丝袜在线中文字幕| 欧美乱妇无乱码| 成年版毛片免费区| 国产有黄有色有爽视频| 91在线观看av| 亚洲av电影在线进入| 最近最新中文字幕大全电影3 | 99国产精品一区二区三区| 五月开心婷婷网| 丰满人妻熟妇乱又伦精品不卡| 免费在线观看影片大全网站| 亚洲熟妇熟女久久| 天天躁夜夜躁狠狠躁躁| 老汉色av国产亚洲站长工具| 这个男人来自地球电影免费观看| 久久久久精品国产欧美久久久| 久热爱精品视频在线9| 国产三级黄色录像| 国产极品粉嫩免费观看在线| 精品国产乱子伦一区二区三区| 欧美一区二区精品小视频在线| 天堂动漫精品| 99久久国产精品久久久| 咕卡用的链子| 99re在线观看精品视频| 国产aⅴ精品一区二区三区波| 一区二区三区激情视频| av有码第一页| 亚洲第一欧美日韩一区二区三区| 在线观看66精品国产| 欧美日本中文国产一区发布| 亚洲欧美激情综合另类| 9热在线视频观看99| 天堂动漫精品| 桃色一区二区三区在线观看| 精品福利观看| 丰满的人妻完整版| 欧美色视频一区免费| 亚洲精品一卡2卡三卡4卡5卡| 国产伦人伦偷精品视频| 咕卡用的链子| 久久中文字幕一级| 精品国产国语对白av| 中文字幕人妻丝袜一区二区| 国产高清videossex| 亚洲国产看品久久| 一级片'在线观看视频| 亚洲成人免费av在线播放| 久久精品亚洲av国产电影网| 动漫黄色视频在线观看| 在线观看免费日韩欧美大片| 一二三四在线观看免费中文在| 精品国产乱码久久久久久男人| 一级毛片高清免费大全| 成人亚洲精品一区在线观看| 亚洲中文日韩欧美视频| 亚洲av电影在线进入| 国产激情欧美一区二区| 精品一区二区三卡| 精品一区二区三区四区五区乱码| 国产99白浆流出| 一级,二级,三级黄色视频| 免费在线观看视频国产中文字幕亚洲| 男女之事视频高清在线观看| 久久精品亚洲精品国产色婷小说| 国产三级黄色录像| 男男h啪啪无遮挡| 亚洲精品粉嫩美女一区| 丁香六月欧美| 91成年电影在线观看| 中文字幕av电影在线播放| 亚洲熟妇中文字幕五十中出 | 天天躁夜夜躁狠狠躁躁| 三级毛片av免费| 三上悠亚av全集在线观看| 色精品久久人妻99蜜桃| 亚洲精品成人av观看孕妇| 一级片免费观看大全| 欧美最黄视频在线播放免费 | 女人精品久久久久毛片| 国产男靠女视频免费网站| 99在线视频只有这里精品首页| 欧美日韩av久久| 69av精品久久久久久| 亚洲国产精品合色在线| 国产成人精品久久二区二区91| 国产熟女xx| 日韩视频一区二区在线观看| 午夜福利影视在线免费观看| 中文字幕另类日韩欧美亚洲嫩草| 国产精品久久久久成人av| 国产亚洲精品久久久久5区| 亚洲一区二区三区不卡视频| 免费女性裸体啪啪无遮挡网站| 欧美日韩国产mv在线观看视频| 女性生殖器流出的白浆| 亚洲欧美一区二区三区久久| 日本免费a在线| 美国免费a级毛片| 亚洲九九香蕉| 老司机亚洲免费影院| 日日干狠狠操夜夜爽| 在线十欧美十亚洲十日本专区| 国产精品av久久久久免费| 好看av亚洲va欧美ⅴa在| 国产av精品麻豆| 国产熟女xx| 香蕉丝袜av| 亚洲自偷自拍图片 自拍| 黄频高清免费视频| 一边摸一边抽搐一进一出视频| 69av精品久久久久久| 曰老女人黄片| 日韩高清综合在线| 老汉色∧v一级毛片| 欧美人与性动交α欧美精品济南到| 亚洲一区二区三区色噜噜 | 在线观看66精品国产| 免费看十八禁软件| 天堂俺去俺来也www色官网| 一区二区三区精品91| 丰满饥渴人妻一区二区三| 午夜精品在线福利| 好男人电影高清在线观看| 精品一区二区三区四区五区乱码| 日韩成人在线观看一区二区三区| 校园春色视频在线观看| 91麻豆精品激情在线观看国产 | 黑丝袜美女国产一区| 搡老熟女国产l中国老女人| 久久中文字幕人妻熟女| 欧美 亚洲 国产 日韩一| 久久99一区二区三区| 欧美日韩瑟瑟在线播放| 中国美女看黄片| 中文亚洲av片在线观看爽| 国产色视频综合| 少妇粗大呻吟视频| 国产欧美日韩一区二区精品| 国产精品影院久久| 婷婷丁香在线五月| 亚洲激情在线av| 国产日韩一区二区三区精品不卡| 亚洲熟妇熟女久久| 91九色精品人成在线观看| 久久中文字幕一级| 成年版毛片免费区| 国产色视频综合| 欧美日韩亚洲高清精品| 操出白浆在线播放| 亚洲美女黄片视频| 日韩欧美在线二视频| 1024香蕉在线观看| 日日爽夜夜爽网站| 亚洲性夜色夜夜综合| 亚洲av片天天在线观看| 亚洲av第一区精品v没综合| 欧美日韩av久久| 这个男人来自地球电影免费观看| 久久婷婷成人综合色麻豆| 一进一出抽搐动态| 国产成人系列免费观看| 丰满人妻熟妇乱又伦精品不卡| 99热只有精品国产| 中文字幕高清在线视频| 日本免费a在线| 曰老女人黄片| 两性夫妻黄色片| 18禁观看日本| 操美女的视频在线观看| 日韩精品免费视频一区二区三区| 黑人欧美特级aaaaaa片| 成人亚洲精品一区在线观看| 在线十欧美十亚洲十日本专区| av超薄肉色丝袜交足视频| 亚洲三区欧美一区| 午夜老司机福利片| 在线观看一区二区三区激情| 伦理电影免费视频| 久久精品亚洲精品国产色婷小说| 日韩 欧美 亚洲 中文字幕| 亚洲熟妇熟女久久| 欧美大码av| 欧美乱码精品一区二区三区| 国产精品爽爽va在线观看网站 | 国产精品野战在线观看 | 啦啦啦在线免费观看视频4| 日韩欧美一区二区三区在线观看| 校园春色视频在线观看| 麻豆久久精品国产亚洲av | 国产精品综合久久久久久久免费 | 变态另类成人亚洲欧美熟女 | 久久草成人影院| 性色av乱码一区二区三区2| 成人精品一区二区免费| 成年人免费黄色播放视频| 国产日韩一区二区三区精品不卡| av在线播放免费不卡| 国产亚洲欧美98| 韩国精品一区二区三区| 亚洲av成人不卡在线观看播放网| 69av精品久久久久久| 看黄色毛片网站| 欧美午夜高清在线| 日韩有码中文字幕| 97人妻天天添夜夜摸| 欧美日韩乱码在线| 黑人欧美特级aaaaaa片| 一本综合久久免费| 老熟妇乱子伦视频在线观看| 69av精品久久久久久| 又黄又粗又硬又大视频| 免费女性裸体啪啪无遮挡网站| 久久久久久久久免费视频了| 欧美av亚洲av综合av国产av| x7x7x7水蜜桃| 999精品在线视频| 香蕉国产在线看| 国产成人欧美| 两性夫妻黄色片| 天堂俺去俺来也www色官网| 亚洲人成电影观看| 天堂俺去俺来也www色官网| 别揉我奶头~嗯~啊~动态视频| 日韩免费av在线播放| 操美女的视频在线观看| 99国产极品粉嫩在线观看| 在线av久久热| 国产成人系列免费观看| 久久久久国产一级毛片高清牌| 天天影视国产精品| 亚洲男人的天堂狠狠| 在线观看免费视频网站a站| 亚洲avbb在线观看| 啦啦啦免费观看视频1| 两人在一起打扑克的视频| 大型黄色视频在线免费观看| 人人妻人人澡人人看| ponron亚洲| 无人区码免费观看不卡| 12—13女人毛片做爰片一| 欧美乱妇无乱码| 亚洲精品中文字幕在线视频| 成人黄色视频免费在线看| 一区二区三区激情视频| 国产精品成人在线| 夜夜看夜夜爽夜夜摸 | 人人妻人人澡人人看| 亚洲全国av大片| 别揉我奶头~嗯~啊~动态视频| 久久久久久免费高清国产稀缺| 一边摸一边抽搐一进一小说| 亚洲精品一卡2卡三卡4卡5卡| 亚洲五月天丁香| 亚洲专区国产一区二区| 一边摸一边抽搐一进一小说| 国产亚洲av高清不卡| 老鸭窝网址在线观看| 国产一区二区三区视频了| 国产精品秋霞免费鲁丝片| 男女午夜视频在线观看| 热99re8久久精品国产| 好男人电影高清在线观看| 无人区码免费观看不卡| 在线观看66精品国产| 亚洲国产毛片av蜜桃av| 首页视频小说图片口味搜索| 女人爽到高潮嗷嗷叫在线视频| 午夜亚洲福利在线播放| 国产精品乱码一区二三区的特点 | 亚洲精品美女久久久久99蜜臀| 亚洲精品久久午夜乱码| 在线观看一区二区三区| 最近最新中文字幕大全电影3 | 国产aⅴ精品一区二区三区波| 国产精品一区二区三区四区久久 | 精品人妻1区二区| 狂野欧美激情性xxxx| 亚洲精品久久成人aⅴ小说| 国产aⅴ精品一区二区三区波| 99在线人妻在线中文字幕| 午夜91福利影院| 亚洲一码二码三码区别大吗| 少妇 在线观看| 亚洲欧美一区二区三区黑人| 一边摸一边抽搐一进一出视频| 最近最新免费中文字幕在线| 少妇 在线观看| 国产av又大| 黑人巨大精品欧美一区二区蜜桃| 欧美日韩亚洲综合一区二区三区_| x7x7x7水蜜桃| 国产深夜福利视频在线观看| 国产麻豆69| 乱人伦中国视频| 91麻豆av在线| 亚洲男人天堂网一区| 日日爽夜夜爽网站| videosex国产| 精品高清国产在线一区| 亚洲七黄色美女视频| 老熟妇乱子伦视频在线观看| 老鸭窝网址在线观看| 亚洲精品中文字幕在线视频| 欧美丝袜亚洲另类 | 久久久久国产精品人妻aⅴ院| 啦啦啦免费观看视频1| 别揉我奶头~嗯~啊~动态视频| 婷婷精品国产亚洲av在线| 成在线人永久免费视频| 亚洲欧美精品综合久久99| 另类亚洲欧美激情| 少妇的丰满在线观看| 日本欧美视频一区| 欧洲精品卡2卡3卡4卡5卡区| 一二三四社区在线视频社区8| 国产高清国产精品国产三级| 国产一区二区三区综合在线观看| 国产成人av激情在线播放| 超碰97精品在线观看| 色婷婷av一区二区三区视频| 久久精品91蜜桃| 成人手机av| 国产精品综合久久久久久久免费 | 国产乱人伦免费视频| 夜夜爽天天搞| 亚洲熟女毛片儿| 操出白浆在线播放| 久久久久亚洲av毛片大全| 成人国语在线视频| 99国产极品粉嫩在线观看| 日本撒尿小便嘘嘘汇集6| 久久人人精品亚洲av| 成年女人毛片免费观看观看9| 黄色丝袜av网址大全| 精品国产美女av久久久久小说| 亚洲在线自拍视频| 久久精品人人爽人人爽视色| 欧美激情久久久久久爽电影 | 美女扒开内裤让男人捅视频| 免费少妇av软件| 久久久国产一区二区| 亚洲精品久久成人aⅴ小说| 成人影院久久| 亚洲熟妇熟女久久| 好看av亚洲va欧美ⅴa在| 母亲3免费完整高清在线观看| 国产精品久久久久成人av| 日本a在线网址| 侵犯人妻中文字幕一二三四区| 免费人成视频x8x8入口观看| xxxhd国产人妻xxx|