• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于最優(yōu)策略概率分布的POMDP值迭代算法

    2016-09-02 08:08:50王崇駿
    電子學報 2016年5期
    關(guān)鍵詞:上界下界信念

    劉 峰,王崇駿,駱 斌

    (1.南京大學軟件學院,江蘇南京 210093;2.南京大學計算機科學與技術(shù)系,江蘇南京 210093;3.南京大學軟件新技術(shù)國家重點實驗室,江蘇南京 210093)

    ?

    一種基于最優(yōu)策略概率分布的POMDP值迭代算法

    劉峰1,3,王崇駿2,3,駱斌1,3

    (1.南京大學軟件學院,江蘇南京 210093;2.南京大學計算機科學與技術(shù)系,江蘇南京 210093;3.南京大學軟件新技術(shù)國家重點實驗室,江蘇南京 210093)

    隨著應(yīng)用中POMDP問題的規(guī)模不斷擴大,基于最優(yōu)策略可達區(qū)域的啟發(fā)式方法成為了目前的研究熱點.然而目前已有的算法雖然保證了全局最優(yōu),但選擇最優(yōu)動作還不夠精確,影響了算法的效率.本文提出一種基于最優(yōu)策略概率的值迭代方法PBVIOP.該方法在深度優(yōu)先的啟發(fā)式探索中,根據(jù)各個動作值函數(shù)在其上界和下界之間的分布,用蒙特卡羅法計算動作最優(yōu)的概率,選擇概率最大的動作作為最優(yōu)探索策略.在4個基準問題上的實驗結(jié)果表明PBVIOP算法能夠收斂到全局最優(yōu)解,并明顯提高了收斂效率.

    部分可觀測馬爾科夫決策過程;基于最優(yōu)策略概率的值迭代算法;蒙特卡羅法

    1 引言

    規(guī)劃問題,即“設(shè)計合理的行動計劃以達到個體目標”[1],是人工智能研究里的重要領(lǐng)域.序列決策問題(Sequential Decision Making)是規(guī)劃問題的一個重要子領(lǐng)域.而動態(tài)不確定性環(huán)境下的行動規(guī)劃是其中的熱點,其動態(tài)性和不確定性是在這種環(huán)境下進行行動規(guī)劃的主要難點.

    部分可觀察馬氏決策過程(Partially Observable Markov Decision Process,POMDP)是一個強大的數(shù)學框架,可以用來描述并解決很多實際的不確定環(huán)境中序列決策問題,例如機器人探索任務(wù)[2]、口語對話管理[3]、服務(wù)漂移[4]、傳感器調(diào)度[5]等.

    精確求解POMDP問題計算復(fù)雜度過高,難以應(yīng)用于實際問題,因此出現(xiàn)了各種近似算法如FIB[6]、MA-Q-learning[7]等等.其中基于點的值迭代方法在可達信念點集上進行迭代,通過增加迭代次數(shù)提升了整體效率,使得POMDP可以應(yīng)用到較大規(guī)模的問題并在實際應(yīng)用中取得了良好的效果.自從基于點的值迭代方法PBVI[8]提出之后,對探索信念點集的啟發(fā)式探索方法成為了研究熱點.PEMA[9]算法選取誤差最大的后繼點,使點迭代盡可能近似精確迭代;HSVI[10]、SARSOP[11]、GapMin[12]、PGVI[13]等算法根據(jù)最優(yōu)值函數(shù)上界來選擇最優(yōu)動作探索最優(yōu)可達信念點集,保證收斂到全局最優(yōu);AEMS[14]、HHOP[15]等算法構(gòu)造啟發(fā)式函數(shù)選擇最優(yōu)動作探索最優(yōu)可達信念點集,提高了收斂效率.

    為了解決較大規(guī)模的POMDP問題,近年來基于點的算法通過探索最優(yōu)可達信念空間來提高算法的效率.為了保證值函數(shù)能夠收斂到全局最優(yōu)解,HSVI等算法在探索最優(yōu)可達信念空間時,根據(jù)IE-MAX[16]原則選取值函數(shù)上界最大的動作.但值函數(shù)的上界通過線性規(guī)劃等方法來計算,其收斂效率很低,而值函數(shù)下界基于貝爾曼方程進行迭代收斂效率較高.HSVI等算法雖然可以在理論上保證收斂,但在選擇最優(yōu)動作時僅以值函數(shù)上界為參照而完全不考慮值函數(shù)下界的取值情況,降低了值函數(shù)下界的迭代收斂效率,從而影響了算法的整體收斂效率.為保證高效地探索到全局最優(yōu)解,HHOP算法設(shè)計了有前景的策略再結(jié)合最優(yōu)值函數(shù)上界構(gòu)造了兩個獨立的啟發(fā)式搜索函數(shù)進行雜合以探索最優(yōu)可達信念空間.本文提出基于最優(yōu)策略概率的值迭代算法(Probability-based Value Iteration on Optimal Policy,PBVIOP)來提高全局最優(yōu)解的收斂效率.在探索最優(yōu)可達信念空間時,PBVIOP算法和HHOP算法一樣都考慮了值函數(shù)的上界和下界,不同之處在于HHOP算法在每次探索時是把有前景的策略和值函數(shù)上界分隔開來各自考慮后再雜合;而PBVIOP算法在每次探索時先結(jié)合動作值函數(shù)的上界和下界來探索最優(yōu)策略,再貪婪探索其不確定性最大的后繼信念點,相比之下HHOP算法更為細致復(fù)雜.PBVIOP算法在探索最優(yōu)可達信念空間方面有如下特點:首先,在尋找最優(yōu)策略的過程中同時參考動作值函數(shù)的上界和下界,保證算法的收斂質(zhì)量和效率;其次,把選擇最優(yōu)動作建模成基于各個動作值函數(shù)的分布求最大值函數(shù)的問題,以各個動作值函數(shù)最大的概率作為選擇最優(yōu)動作的標準,保證了算法的可靠性和穩(wěn)定性;最后,引入蒙特卡羅方法來近似計算動作最優(yōu)的概率,使得算法合理且高效.算法在選擇最優(yōu)動作時避免了局部化的干擾,可以穩(wěn)定達到全局最優(yōu).試驗結(jié)果表明PBVIOP算法優(yōu)于HSVI和GapMin算法的性能,且隨著POMDP問題規(guī)模的擴大其優(yōu)勢愈加顯著.

    2 背景和相關(guān)工作

    2.1POMDP模型

    POMDP模型可以表示為一個八元組(S,A,Z,b0,T,O,R,γ)[8].其中S是一個隱含狀態(tài)的有限集合,表示了系統(tǒng)所有可能處于的狀態(tài);A是一個動作的有限集合,包括Agent能夠采取的所有動作;Z是一個觀察的有限集合,表示Agent所有可能的輸入;b0是初始的狀態(tài)分布,表示在初始時刻t0系統(tǒng)在狀態(tài)集合S上的概率分布;T(s,a,s′)是狀態(tài)到狀態(tài)的轉(zhuǎn)移概率,描述Agent在狀態(tài)s采取動作a后到達狀態(tài)s′的概率,表明了動作的隨機效應(yīng);O(a,s′,z)是Agent采取動作a到達狀態(tài)s′后且觀察到z的概率,模擬了Agent部分可觀測的特性;R(s,a)是在狀態(tài)s時采取動作a所獲得的回報值;γ∈(0,1)γ∈(0,1)是折扣因子.

    在POMDP中,Agent不能直接獲取自己的狀態(tài)而只能從環(huán)境中獲得觀察信息作為狀態(tài)的參照,所以它必須根據(jù)動作和觀測的歷史序列{a0,z1,a1,z2,a2,z3,…,at-1,zt}來決策下一個動作at.因此POMDP引入維持歷史信息的充分統(tǒng)計量b來代替歷史序列以計算其長遠回報[17].b是一個代表狀態(tài)上概率分布的向量:

    bt(s)=P(st=s|zt,at-1,…,a0)

    在POMDP中t時刻的信念點bt可以根據(jù)貝葉斯規(guī)則來更新,只涉及前一步的信念狀態(tài)bt-1,最近采取的動作at-1和得到的觀測zt,因而b的更新具有Markov性.

    bt(s′)=τ(bt-1,at-1,zt)

    2.2POMDP求解

    POMDP中的策略是一個由信念到動作的映射:π(b)→a.Agent在策略π下的長遠回報為:

    POMDP的求解是指POMDP模型完全已知(狀態(tài)集合、動作集合、轉(zhuǎn)移函數(shù)、回報函數(shù)等)的情況下計算最優(yōu)策略π*,它能夠最大化長遠回報的期望.最優(yōu)策略可以由貝爾曼方程迭代獲得.Q值函數(shù)Qt+1(b,a)是t步視野內(nèi)在當前信念點b處執(zhí)行動作a的回報值:

    其對應(yīng)的最優(yōu)策略可以表示為:

    再將這些集合與一步回報集合笛卡爾和相加得到某一動作a所對應(yīng)的向量:

    其中笛卡爾和⊕定義為:

    最后得到所有動作向量集合:

    反復(fù)update至Гn收斂即可精確求解POMDP問題.每次update的計算復(fù)雜度近似為O(|S|2|A||Гt||Z|)[17],因而精確求解存在著歷史災(zāi)和維度災(zāi)的問題.雖然Witness算法和增量裁剪算法等對精確算法有所改進,但在極端情況下計算復(fù)雜度還是不能降低.

    2.3基于點的POMDP近似求解

    對于大部分的POMDP問題,Agent所能到達的信念點集合B往往只是信念空間的一小部分,因此可以用基于點的算法來求得其誤差在一定范圍之內(nèi)的近似解,避免精確求解中計算笛卡爾和的巨大計算量,通過增加迭代次數(shù)保證算法效果.

    基于點進行backup和精確算法的update的比較如圖1所示.精確求解算法在整個信念空間上進行,所以無法先行確定動作a之后各個觀察下的最優(yōu)向量,只能選取所有可能的向量作笛卡爾和,因而計算量很大.基于點的方法中,執(zhí)行動作a之后的每個觀察下的最優(yōu)向量都可以先行確定,從而可以根據(jù)|Z|個觀察所對應(yīng)的最優(yōu)向量計算出執(zhí)行動作a的回報值,再比較得出回報值最高的最優(yōu)動作,最后通過backup操作得到b在一次更新后的最優(yōu)向量.

    在點集B上由Гt構(gòu)建Гt+1過程如下:

    在點集B上進行一次backup的計算復(fù)雜度近似為O(|S|2|A||Z‖B|2).基于點的方法在達到終止條件之前反復(fù)執(zhí)行兩個步驟:探索新的信念點來擴張信念點集合B;在B上更新值函數(shù)Γ.各種基于點的值迭代方法的主要差別在于不同的信念點集探索方法[18].

    2.4最優(yōu)策略下的可達區(qū)域

    基于點的算法的核心思想是可到達區(qū)域的概念.可到達區(qū)域R(b0)是從初始信念點b0經(jīng)過任意動作和觀察序列能夠到達的信念點集合[8].但第t步時R(b0)中增加信念點的數(shù)量級為(|A‖Z|)t,隨著步數(shù)t的增加R(b0)的規(guī)模也較為可觀.R*(b0)是從b0開始按照最優(yōu)策略所到達信念點的集合[19],第t步時R*(b0)中增加信念點的數(shù)量級為|Z|t.如圖2所示,R*(b0)的規(guī)模遠小于R(b0),因而在較大規(guī)模的問題中基于R*(b0)采樣更加高效.

    盡管R*(b0)規(guī)模相對較小,但足以用于計算出b0處的最優(yōu)策略[19].然而最優(yōu)策略無法預(yù)知,所以一般通過啟發(fā)式的方法來對R*(b0)進行近似.

    已有的基于點的近似算法在探索R*(b0)時嘗試了不同的選擇最優(yōu)動作的標準.如圖3所示,信念點b處有3個可供選擇的動作a1、a2、a3,其動作值函數(shù)Q(b,ai)分別在各自的下界和上界之間取值.在此例中PEMA等算法根據(jù)動作值函數(shù)下界的最大值會選取動作a1作為最優(yōu)策略;HSVI等算法根據(jù)動作值函數(shù)上界選擇動作a2作為最優(yōu)策略.

    3 PBVIOP算法

    3.1算法思想

    目前已有的R*(b0)近似算法仍有改進的空間.PEMA算法僅根據(jù)值函數(shù)下界選取最優(yōu)動作,則值函數(shù)下界取值較高的信念點更可能會被探索到,然后在該點上的backup操作又只會使得該點附近區(qū)域的值函數(shù)下界會有所提升而其他信念區(qū)域的值函數(shù)下界幾乎沒有提升,從而在下一次的探索中該點附近區(qū)域的信念點又會被優(yōu)先探索到,因此算法不能保證值函數(shù)收斂到全局最優(yōu)解.HSVI等算法根據(jù)IE-MAX原則只根據(jù)值函數(shù)上界值最大來選擇動作,上界在更新中不斷降低,因而即使在某次迭代中只是找到了次優(yōu)動作也不會影響值函數(shù)最終能夠收斂到全局最優(yōu).但值函數(shù)的上界通過線性規(guī)劃或sawtooth算法[10]來近似計算,其收斂速度非常緩慢,HSVI等算法雖然在理論上保證收斂,但在選擇最優(yōu)動作時完全不考慮迭代收斂效率較高的值函數(shù)下界,影響了整個算法的收斂效率,不利其應(yīng)用于大規(guī)模的POMDP問題.

    事實上動作值函數(shù)在上界和下界之間取值,單單以上界或下界的值來評估動作值函數(shù)都是片面的.在圖3的示例中,以Q(b,ai)的上界和下界為端點的整個線段反映了Q(b,ai)的取值情況,僅僅以線段的上端點或下端點來評價Q(b,ai)顯然不夠全面.事實上就整個線段比較而言,在圖3的示例中可能選擇a3作為最優(yōu)動作更為合理,盡管Q(b,a3)的上界和下界都不是最大值,但是Q(b,a3)值最大的概率可能最大.

    本文提出了選擇最優(yōu)動作的新標準:以所有動作的函數(shù)值在其上界和下界之間的概率分布為基礎(chǔ),計算每個動作的值函數(shù)取值最大的概率,再選擇概率值最大的動作.基于新標準選擇動作更加合理,可以更準確地探索到R*(b0)附近的區(qū)域,從而提高迭代效率.

    3.2基于蒙特卡羅的概率計算

    p(y)=p(x1,x2,…,xn)

    其中y是一個n維向量:y=(x1,x2,…,xn)滿足∮Ωp(x1,x2,…,xn)dx1dx2…dxn=1.其中

    則動作ai的值函數(shù)的取值xi最大的概率為:

    F*(ai)=P(xi>xj,?j≠i)

    =∮Ωip(x1,…,xn)dx1…dxn

    Ωi=Ω∩{(x1,x2,…,xn)|xi>xj,?j≠i}

    由于Ωi是n維空間的一個封閉區(qū)域,F*(ai)的計算涉及高維積分.隨著維數(shù)n的增加,計算難度和復(fù)雜度將大大增加,本文通過蒙特卡羅法來求其近似值.

    證明:構(gòu)造兩個函數(shù)Qi(y)和Fi(y):

    則:F*(ai)=∮ΩQi(y)dy=∮ΩFi(y)p(y)dy

    由此F*(ai)即隨機變量Fi(y)的數(shù)學期望值,由于y1,y2,…,ym為Ω上按概率密度p(y)選取的隨機樣點,可求Fi(y)的數(shù)學期望近似值.

    本文參照AEMS1算法[14]假定動作的最優(yōu)值函數(shù)在上下界之間均勻分布,對動作值函數(shù)進行取樣,并由此計算動作最優(yōu)的概率.

    3.3PBVIOP算法

    PBVIOP算法(算法1)初始化值函數(shù)的上下界之后,反復(fù)調(diào)用子函數(shù)PBVIOPExplore從b0出發(fā)進行深度探索并更新值函數(shù)的上界和下界,直至b0處取值收斂為止.

    PBVIOP算法在選擇最優(yōu)動作時同時考慮了最優(yōu)動作值函數(shù)的上界和下界.在迭代過程中下界持續(xù)上升而上界會持續(xù)下降,隨著值函數(shù)上下界之差逐漸縮小,對各個動作最優(yōu)概率的估算會更加精確,因而保證了值函數(shù)的收斂.因為算法同時更新值函數(shù)的上界和下界,并以值函數(shù)在上界和下界之間的分布來計算動作最優(yōu)的概率,所以在信念點上更新值函數(shù)的上界和下界不會增加該點以后被探索到的可能性,故而算法會收斂到全局最優(yōu)解.

    4 實驗

    4.1實驗設(shè)置

    本文實驗對比了PBVIOP算法、HSVI算法和GapMin算法運算情況,因為PBVIOP算法和HSVI算法的主要差別在于最優(yōu)動作的選擇,而GapMin算法是目前最高效的POMDP規(guī)劃算法之一.本文在常見4個數(shù)據(jù)集上進行實驗,其中Tiger、Hallway是早期的經(jīng)典迷宮問題;RockSample模擬了Agent采樣礦石的科學考察任務(wù),是一個可擴展的問題[10].實驗所用數(shù)據(jù)集的狀態(tài)、動作和觀察規(guī)模如下表:

    表1 POMDP標準數(shù)據(jù)集的規(guī)模

    本文實驗中復(fù)用了GuyShani教授提供的POMDPSolver部分代碼.對每個問題設(shè)定折扣因子為0.95,分別用PBVIOP算法、HSVI算法和GapMin算法各做10次運算,再對10次運算的結(jié)果取平均值,選取運算時間和平均折扣回報值(AverageDiscountedReward,ADR)作為評價指標.平均折扣回報值表示了生成策略的質(zhì)量,由生成的策略模擬運行100步計算得出折扣回報值,通過反復(fù)500次的模擬來計算平均折扣回報值.

    4.2實驗結(jié)果分析

    實驗結(jié)果如表2所示,可見大多數(shù)情況下PBVIOP算法有較好的收斂效果.

    圖4是HSVI、GapMin和PBVIOP在四個問題上實驗結(jié)果的詳細對比,表示了生成策略的平均折扣回報值的演變情況.圖中橫坐標為算法運行時間(s),縱坐標為ADR值;實線表示HSVI算法對應(yīng)的結(jié)果,短劃線表示GapMin算法對應(yīng)的結(jié)果,圓點線表示PBVIOP算法對應(yīng)的結(jié)果.

    表2 實驗結(jié)果數(shù)據(jù)

    在求解Hallway和Tiger-grid問題的實驗中,因為問題規(guī)模較小,PBVIOP算法和HSVI算法收斂到相同的ADR,GapMin算法的ADR略高一點.而PBVIOP算法的收斂效率明顯較高,在Hallway問題求解中比HSVI算法快3.15倍,比GapMin算法快4.51倍;在Tiger-grid問題求解中比HSVI算法快1.36倍,比GapMin算法快4.96倍.

    在求解RockSample(5,5)問題的實驗中,PBVIOP算法收斂到的ADR比HSVI算法高出較多,收斂效率比HSVI算法快5.86倍.PBVIOP算法收斂到的ADR略低于GapMin算法,但其收斂效率比GapMin算法快157.06倍.

    在求解RockSample(7,8)問題的實驗中,PBVIOP算法和GapMin算法收斂到的ADR都比HSVI算法高出較多,且PBVIOP算法收斂到的ADR比GapMin算法略高.PBVIOP算法收斂效率比HSVI算法快1.54倍,比GapMin算法快1.66倍.

    雖然GapMin算法和HSVI算法一樣選擇值函數(shù)上界最優(yōu)的動作,但GapMin算法在每輪迭代中會探索所有Gap大于當前閾值的信念點,因而GapMin算法可以更加有效地降低上界值,在狀態(tài)規(guī)模不太大的POMDP問題上找到全局最優(yōu)解.但隨著POMDP問題中狀態(tài)數(shù)的增加,上界的下降效果變差,GapMin算法也難以有效地求解POMDP問題.另外由于GapMin算法多探索了許多信念點,其收斂效率受到較大影響.

    實驗結(jié)果表明PBVIOP算法比HSVI和GapMin算法有更高的收斂效率,并且隨著POMDP問題規(guī)模的增加,其收斂到的ADR也會明顯地優(yōu)于HSVI算法,和GapMin算法相當.隨著狀態(tài)數(shù)目的增加,上界的下降速度會顯著降低,因而HSVI和GapMin算法的收斂效率直接受到了影響.另一方面,隨著動作數(shù)量的增加,PBVIOP算法探索的R*(b0)和HSVI算法探索的R*(b0)會有更大的差異,因而PBVIOP算法的效果會更優(yōu)于HSVI算法.這說明與單純利用上界相比而言,同時利用上下界能夠更快更優(yōu)地探索到R*(b0)附近的區(qū)域,對于算法性能和收斂質(zhì)量的提升有很大的幫助.

    5 結(jié)束語

    本文提出了一種基于概率的最優(yōu)策略值迭代方法PBVIOP,解決了啟發(fā)式探索最優(yōu)策略可達區(qū)域R*(b0)時需要保障值函數(shù)上下界收斂效率的問題.PBVIOP算法與現(xiàn)有基于點的值迭代算法不同之處在于使用一種有效的新方法來探索最優(yōu)策略可達區(qū)域R*(b0).PBVIOP算法同時維持值函數(shù)的上界和下界,在啟發(fā)式的深度探索中,用蒙特卡羅法估算各個動作值函數(shù)最優(yōu)的概率,選擇概率最大的動作為最優(yōu)策略,再貪婪探索不確定性最大的后繼信念點.實驗結(jié)果表明,與HSVI和GapMin算法相比,PBVIOP算法在基準數(shù)據(jù)集上有更高的收斂效率并能夠獲得較優(yōu)的策略.未來的工作一方面是在APPL平臺上實現(xiàn)本算法,完善實驗配置,嘗試和HHOP等算法進行比較分析以完善本算法;另一方面是進一步優(yōu)化值函數(shù)的概率分布模型和后繼信念點的選擇標準,并嘗試每步探索多個有效的信念點來近似最優(yōu)策略可達區(qū)域,從而進一步提高一次深度探索的效率.

    [1]S Russell,PNorvig.Artificial Intelligence:A Modern Approach[M].Prentice-Hall,1995.

    [2]T Smith.Probabilistic planning for robotic exploration[D].Massachusetts Institute of Technology,2007.

    [3]J D Williams,S Young.Partially observable Markov decision processes for spoken dialog systems[J].Computer Speech & Language,Elsevier,2007,21(2):393-422.

    [4]趙二虎,陽小龍,等.CPSM:一種增強IP網(wǎng)絡(luò)生存性的客戶端主動服務(wù)漂移模型[J].電子學報,2010,38(9):2134-2139.

    Zhao Er-hu,Yang Xiao-long,et al.CPSM:Client-side proactive service migration model for enhancing IP network survivability[J].Acta Electronica Sinica,2010,38(9):2134-2139.(in Chinese)

    [5]張子寧,單甘霖,段修生.基于部分可觀馬氏決策過程的多平臺主被動傳感器調(diào)度[J].電子學報,2014,42 (10):2104-2109.

    Zhang Zi-ning,Shan Gan-lin,Duan Xiu-sheng.POMDP-based scheduling of active/passive sensors in multi-platform[J].Acta Electronica Sinica,2014,42(10):2104-2109.(in Chinese)

    [6]M Hauskrecht.Value-function approximations for partially observable Markov decision processes[J].Journal of Artificial Intelligence Research,2000,13(1):33-94.

    [7]劉海濤,洪炳熔,等.不確定性環(huán)境下基于進化算法的強化學習[J].電子學報,2006,34 (7):1356-1360.

    Liu Hai-tao,Hong Bing-rong,et al.Evolutionary algorithm based reinforcement learning in the uncertain environments[J].Acta Electronica Sinica,2006,34(7):1356-1360.(in Chinese)

    [8]Pineau J,Gordon G,Thrun S.Point-based value iteration:An anytime algorithm for POMDPs[A].International Joint Conference on Artificial Intelligence[C].Acapulco,Mexico:Morgan Kaufmann,2003.1025-1032.

    [9]J Pineau,G Gordon.POMDP planning for robust robot control[A].International Symposium on Robotics Research[C].San Francisco,USA:Springer,2005,69-82.

    [10]T Smith,R G Simmons.Point-based POMDP algorithms:Improved analysis and implementation[A].Conference on Uncertainty in Artificial Intelligence[C].Edinburgh,United kingdom:AUAI Press,2005,542-547.

    [11]H Kurniawati,D Hsu,W S Lee.SARSOP:Efficient point-based POMDP planning by approximating optimally reachable belief spaces[A].Robotics:Science and Systems[C].Zurich,Switzerland:MIT Press,2008,65-72.

    [12]P Poupart,K E Kim,D Kim.Closing the gap:Improved bounds on optimal POMDP solutions[A].International Conference on Planning and Scheduling[C].Freiburg,Germany:AAAI Press,2011.194-201.

    [13]Z Zhang,D Hsu,W S Lee.Covering Number for Efficient Heuristic-based POMDP Planning[A].International Conference on Machine Learning[C].Beijing,China:International Machine Learning Society,2014.48-60.

    [14]S Ross,B Chaib-Draa.AEMS:An anytime online search algorithm for approximate policy refinement in large POMDPs[A].International Joint Conference on Artificial Intelligence[C].Hyderabad,India:Morgan Kaufmann,2007.2592-2598.

    [15]章宗長,陳小平.雜合啟發(fā)式在線POMDP規(guī)劃[J].軟件學報,2013,24(7):1589-1600.

    Zhang Zong-zhang,Chen Xiao-ping.Hybrid heuristic online planning for POMDPs[J].Journal of Software,2013,24(7):1589-1600.(in Chinese)

    [16]L P Kaelbling.Learning in Embedded Systems[M].MIT Press,1993.

    [17]R D Smallwood,E J Sondik.The optimal control of partially observable markov processes over a finite horizon[J].Operations Research,1973,21(5):1071-1088.

    [18]G Shani,J Pineau,R Kaplow.A survey of point-based POMDP solvers[J].Autonomous Agents and Multi-Agent Systems,2013,27(1):1-51.

    [19]D Hsu,W S Lee,N Rong.What makes some POMDP problems easy to approximate?[A].Advances in Neural Information Processing Systems[C].Vancouver,BC,Canada:Curran Associates Inc,2007.689-696.

    劉峰男,1976年生于江蘇泰州.南京大學軟件學院講師.研究方向為強化學習、智能規(guī)劃.

    E-mail:ufeng-nju@163.com

    王崇駿男,1975年生于江蘇盱眙,南京大學計算機科學與技術(shù)系教授,中國計算機學會高級會員.研究方向為Agent及多Agent系統(tǒng)、 復(fù)雜網(wǎng)絡(luò)分析及智能應(yīng)用系統(tǒng).

    駱斌男,1967年生,南京大學軟件學院教授,博士生導(dǎo)師,中國計算機學會杰出會員.研究方向為軟件工程、人工智能.

    A Probability-Based Value Iteration on Optimal Policy Algorithm for POMDP

    LIU Feng1,3,WANG Chong-jun2,3,LUO Bin1,3

    (1.SoftwareInstitute,NanjingUniversity,Nanjing,Jiangsu210093,China;2.DepartmentofComputerScienceandTechnology,NanjingUniversity,Nanjing,Jiangsu210093,China;3.NationalKeyLaboratoryforNovelSoftwareTechnology,NanjingUniversity,Nanjing,Jiangsu210093,China)

    With the enlargement of the scale of POMDP problems in applications,the research of heuristic methods for reachable area based on the optimal policy becomes current hotspot.However,the standard of existing algorithms about choosing the best action is not perfect enough thus the efficiency of the algorithms is affected.This paper proposes a new value iteration method PBVIOP (Probability-based Value Iteration on Optimal Policy).In depth-first heuristic exploration,this method uses the Monte Carlo algorithm to calculate the probability of each optimal action according to the distribution of each action′s Q function value between its upper and lower bounds,and chooses the maximum probability action.Experiment results of four benchmarks show that PBVIOP algorithm can obtain global optimal solution and significantly improve the convergence efficiency.

    partially observable Markov decision process (POMDP);probability-based value iteration on optimal policy(PBVIOP);Monte Carlo method

    2014-09-15;

    2015-03-19;責任編輯:藍紅杰

    國家自然科學基金(No.61375069);江蘇省自然科學基金(No.BK20131277)

    TP319

    A

    0372-2112 (2016)05-1078-07

    電子學報URL:http://www.ejournal.org.cn10.3969/j.issn.0372-2112.2016.05.010

    猜你喜歡
    上界下界信念
    為了信念
    黃河之聲(2021年9期)2021-07-21 14:56:34
    發(fā)光的信念
    一個三角形角平分線不等式的上界估計
    Lower bound estimation of the maximum allowable initial error and its numerical calculation
    信念
    民族音樂(2018年4期)2018-09-20 08:59:04
    一道經(jīng)典不等式的再加強
    矩陣Hadamard積的上下界序列
    最大度為10的邊染色臨界圖邊數(shù)的新下界
    Nekrasov矩陣‖A-1‖∞的上界估計
    常維碼的一個構(gòu)造性下界
    天天躁日日躁夜夜躁夜夜| 大陆偷拍与自拍| 两个人免费观看高清视频| 日本91视频免费播放| 国产精品99久久99久久久不卡 | 啦啦啦视频在线资源免费观看| 久久精品亚洲av国产电影网| 欧美变态另类bdsm刘玥| 日韩精品免费视频一区二区三区| 搡老乐熟女国产| 国产一区二区三区av在线| 不卡视频在线观看欧美| 久久精品熟女亚洲av麻豆精品| 韩国精品一区二区三区| 免费黄色在线免费观看| 99久久99久久久精品蜜桃| 观看美女的网站| 日韩成人av中文字幕在线观看| 人人妻人人添人人爽欧美一区卜| 国产高清国产精品国产三级| 各种免费的搞黄视频| 别揉我奶头~嗯~啊~动态视频 | 国产成人啪精品午夜网站| av福利片在线| 久久久亚洲精品成人影院| 国产免费福利视频在线观看| 国产av精品麻豆| 最近中文字幕2019免费版| 在线精品无人区一区二区三| 午夜免费观看性视频| 搡老岳熟女国产| 成年av动漫网址| 青春草国产在线视频| 久久精品亚洲熟妇少妇任你| 午夜福利影视在线免费观看| 午夜福利视频精品| 青春草亚洲视频在线观看| 亚洲av福利一区| 一级毛片 在线播放| 中文字幕人妻熟女乱码| 别揉我奶头~嗯~啊~动态视频 | 亚洲婷婷狠狠爱综合网| 我要看黄色一级片免费的| 侵犯人妻中文字幕一二三四区| 久久久精品区二区三区| 18禁动态无遮挡网站| 观看av在线不卡| 国产精品 欧美亚洲| 啦啦啦在线免费观看视频4| 嫩草影院入口| 日本欧美国产在线视频| 性色av一级| 久久久国产欧美日韩av| 成年av动漫网址| 国产精品久久久人人做人人爽| 啦啦啦 在线观看视频| 一区二区日韩欧美中文字幕| 亚洲av日韩精品久久久久久密 | 欧美97在线视频| 精品人妻一区二区三区麻豆| av不卡在线播放| 欧美97在线视频| 亚洲精品一区蜜桃| 亚洲精品一区蜜桃| 丁香六月天网| videos熟女内射| 搡老岳熟女国产| 丝袜喷水一区| 涩涩av久久男人的天堂| 亚洲图色成人| 乱人伦中国视频| 欧美精品高潮呻吟av久久| 国产精品香港三级国产av潘金莲 | xxxhd国产人妻xxx| 最近最新中文字幕免费大全7| 欧美中文综合在线视频| 成人国产麻豆网| 极品人妻少妇av视频| 国产精品秋霞免费鲁丝片| 国产97色在线日韩免费| 狂野欧美激情性xxxx| 亚洲国产中文字幕在线视频| 在线观看三级黄色| 大片电影免费在线观看免费| 国产日韩一区二区三区精品不卡| 免费观看性生交大片5| 久久热在线av| av国产精品久久久久影院| 黄片播放在线免费| 国产成人av激情在线播放| 啦啦啦在线免费观看视频4| 精品国产国语对白av| 欧美 亚洲 国产 日韩一| 欧美 亚洲 国产 日韩一| 97人妻天天添夜夜摸| 曰老女人黄片| 国产精品99久久99久久久不卡 | 亚洲欧美一区二区三区黑人| 男女免费视频国产| 在线观看免费午夜福利视频| 久久性视频一级片| 丝袜人妻中文字幕| 一级,二级,三级黄色视频| 国产极品天堂在线| 欧美日韩视频精品一区| 超色免费av| 看非洲黑人一级黄片| 极品人妻少妇av视频| 狂野欧美激情性xxxx| 黑人猛操日本美女一级片| 国产人伦9x9x在线观看| 国产视频首页在线观看| 久久久久人妻精品一区果冻| 精品一区二区三区av网在线观看 | 国产免费现黄频在线看| 欧美xxⅹ黑人| 国产精品久久久久久人妻精品电影 | 色吧在线观看| 日本猛色少妇xxxxx猛交久久| 国产片内射在线| av在线播放精品| 91精品伊人久久大香线蕉| 欧美乱码精品一区二区三区| 亚洲国产精品成人久久小说| 韩国高清视频一区二区三区| 国产欧美日韩一区二区三区在线| 自线自在国产av| 天天躁狠狠躁夜夜躁狠狠躁| 蜜桃在线观看..| 亚洲,欧美精品.| 一级毛片黄色毛片免费观看视频| 国产成人精品久久二区二区91 | 国产成人欧美在线观看 | 久久久精品区二区三区| 亚洲成人一二三区av| 精品亚洲成a人片在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 在线观看免费视频网站a站| 看免费成人av毛片| 满18在线观看网站| 91aial.com中文字幕在线观看| bbb黄色大片| 日韩一卡2卡3卡4卡2021年| 国产激情久久老熟女| 观看美女的网站| netflix在线观看网站| 狂野欧美激情性bbbbbb| 999久久久国产精品视频| 欧美黑人精品巨大| 色94色欧美一区二区| 午夜日本视频在线| 久久这里只有精品19| 亚洲欧洲日产国产| 国产免费视频播放在线视频| 777久久人妻少妇嫩草av网站| 国产精品蜜桃在线观看| 欧美精品高潮呻吟av久久| 国产伦理片在线播放av一区| 国产免费现黄频在线看| 交换朋友夫妻互换小说| av福利片在线| 久久久精品94久久精品| 又黄又粗又硬又大视频| 亚洲av综合色区一区| 国产精品香港三级国产av潘金莲 | 大香蕉久久网| 国产极品天堂在线| 国产男人的电影天堂91| av在线播放精品| 国产精品99久久99久久久不卡 | 18禁国产床啪视频网站| 久久狼人影院| 看免费成人av毛片| 午夜日本视频在线| 亚洲免费av在线视频| 久久久久精品国产欧美久久久 | 嫩草影视91久久| 国产乱人偷精品视频| 亚洲成人国产一区在线观看 | 狠狠婷婷综合久久久久久88av| 免费人妻精品一区二区三区视频| 精品一区二区三区四区五区乱码 | 人人妻人人澡人人爽人人夜夜| 欧美日韩一区二区视频在线观看视频在线| 天天躁夜夜躁狠狠久久av| 欧美日韩福利视频一区二区| 欧美国产精品一级二级三级| 亚洲国产欧美网| 婷婷色av中文字幕| 精品一区二区三卡| 精品少妇黑人巨大在线播放| 最近最新中文字幕大全免费视频 | 99热国产这里只有精品6| 国产一区二区三区av在线| 人人妻人人澡人人看| 搡老乐熟女国产| 亚洲自偷自拍图片 自拍| 如何舔出高潮| 成人午夜精彩视频在线观看| 女人久久www免费人成看片| 国产黄色免费在线视频| 亚洲成国产人片在线观看| xxxhd国产人妻xxx| 一级黄片播放器| 亚洲第一av免费看| 人人妻人人澡人人爽人人夜夜| 久久免费观看电影| 亚洲欧美成人综合另类久久久| 久久久精品94久久精品| 国产在视频线精品| 久久久久国产精品人妻一区二区| 亚洲欧美色中文字幕在线| 国产成人精品在线电影| 亚洲激情五月婷婷啪啪| 爱豆传媒免费全集在线观看| 色视频在线一区二区三区| 男人爽女人下面视频在线观看| 99久久人妻综合| 精品少妇黑人巨大在线播放| 天天躁夜夜躁狠狠久久av| 日日撸夜夜添| 中文字幕av电影在线播放| 水蜜桃什么品种好| 少妇精品久久久久久久| 男女床上黄色一级片免费看| 国产精品久久久久久人妻精品电影 | 亚洲精华国产精华液的使用体验| 制服丝袜香蕉在线| 又大又黄又爽视频免费| av天堂久久9| 丝袜脚勾引网站| 男女午夜视频在线观看| 19禁男女啪啪无遮挡网站| 电影成人av| 亚洲美女视频黄频| 亚洲色图综合在线观看| 久久久精品区二区三区| a级片在线免费高清观看视频| 国产成人精品久久二区二区91 | 亚洲精品久久午夜乱码| 日韩中文字幕欧美一区二区 | 精品亚洲乱码少妇综合久久| 黄色视频不卡| 哪个播放器可以免费观看大片| 久久久久精品国产欧美久久久 | 国产免费又黄又爽又色| 90打野战视频偷拍视频| av福利片在线| 人人妻人人添人人爽欧美一区卜| 女性被躁到高潮视频| 国产精品久久久av美女十八| 欧美日韩综合久久久久久| 久久精品久久久久久噜噜老黄| 色视频在线一区二区三区| 免费黄色在线免费观看| 国产成人午夜福利电影在线观看| 日韩人妻精品一区2区三区| 亚洲精品乱久久久久久| 欧美日韩国产mv在线观看视频| 伊人久久大香线蕉亚洲五| 男女床上黄色一级片免费看| 国产 一区精品| 丰满迷人的少妇在线观看| 国产乱来视频区| 欧美变态另类bdsm刘玥| 国产精品 国内视频| 日韩av免费高清视频| 中文乱码字字幕精品一区二区三区| 国产野战对白在线观看| 欧美激情极品国产一区二区三区| 亚洲一卡2卡3卡4卡5卡精品中文| 久久99热这里只频精品6学生| 精品国产超薄肉色丝袜足j| 午夜福利一区二区在线看| 国产成人精品久久久久久| 操美女的视频在线观看| 啦啦啦在线免费观看视频4| 9热在线视频观看99| 黄色怎么调成土黄色| 久久人人爽人人片av| 人妻 亚洲 视频| 欧美激情极品国产一区二区三区| 99热全是精品| 五月开心婷婷网| 18禁观看日本| 另类精品久久| 成人手机av| 亚洲色图 男人天堂 中文字幕| 久久久久精品国产欧美久久久 | 欧美精品高潮呻吟av久久| 黄频高清免费视频| 国产成人欧美在线观看 | 波野结衣二区三区在线| 欧美精品一区二区免费开放| 夫妻午夜视频| 五月天丁香电影| 久久毛片免费看一区二区三区| 久久性视频一级片| 中国国产av一级| 免费黄色在线免费观看| 另类亚洲欧美激情| 亚洲精品久久久久久婷婷小说| 青春草亚洲视频在线观看| 777久久人妻少妇嫩草av网站| 美女中出高潮动态图| 亚洲国产精品一区二区三区在线| 在线观看三级黄色| 老司机在亚洲福利影院| 欧美97在线视频| 永久免费av网站大全| 亚洲精品国产一区二区精华液| 欧美日韩精品网址| 欧美变态另类bdsm刘玥| 久久免费观看电影| 多毛熟女@视频| 热99国产精品久久久久久7| 久久国产精品男人的天堂亚洲| 久久人妻熟女aⅴ| 免费久久久久久久精品成人欧美视频| 97精品久久久久久久久久精品| 国产不卡av网站在线观看| 久久性视频一级片| 亚洲精品av麻豆狂野| 国产一级毛片在线| 成人免费观看视频高清| 人人妻人人澡人人看| 亚洲婷婷狠狠爱综合网| 十八禁高潮呻吟视频| 精品国产乱码久久久久久男人| 久久久国产一区二区| 9热在线视频观看99| 亚洲国产看品久久| 久久天躁狠狠躁夜夜2o2o | 日本猛色少妇xxxxx猛交久久| 国产精品熟女久久久久浪| av视频免费观看在线观看| 两性夫妻黄色片| 免费观看性生交大片5| 欧美 日韩 精品 国产| 夫妻性生交免费视频一级片| 日韩大片免费观看网站| 老司机影院成人| av视频免费观看在线观看| 香蕉国产在线看| 午夜日韩欧美国产| 18禁观看日本| 五月开心婷婷网| 91aial.com中文字幕在线观看| 亚洲色图综合在线观看| 亚洲国产精品国产精品| 男女之事视频高清在线观看 | 最近最新中文字幕大全免费视频 | 欧美日韩亚洲国产一区二区在线观看 | 国产亚洲最大av| 99热全是精品| 黄色视频不卡| 亚洲国产av影院在线观看| 老司机影院成人| 欧美黄色片欧美黄色片| 精品国产一区二区久久| 色视频在线一区二区三区| 成年av动漫网址| 天堂中文最新版在线下载| 亚洲欧洲日产国产| 一区二区三区激情视频| 色94色欧美一区二区| 久久久久视频综合| 日韩中文字幕欧美一区二区 | 成人免费观看视频高清| 亚洲综合色网址| 97精品久久久久久久久久精品| 亚洲在久久综合| 日韩中文字幕视频在线看片| 久热爱精品视频在线9| 黄色视频不卡| 各种免费的搞黄视频| 97精品久久久久久久久久精品| 国产探花极品一区二区| 性少妇av在线| 欧美日韩av久久| 老汉色av国产亚洲站长工具| 成人国产av品久久久| 亚洲,一卡二卡三卡| 在线亚洲精品国产二区图片欧美| 黑丝袜美女国产一区| svipshipincom国产片| 18禁动态无遮挡网站| 欧美激情高清一区二区三区 | 亚洲欧美色中文字幕在线| 欧美黑人欧美精品刺激| 大陆偷拍与自拍| svipshipincom国产片| 黄色 视频免费看| 大话2 男鬼变身卡| 一区二区三区四区激情视频| 亚洲第一av免费看| 在线观看免费午夜福利视频| 无限看片的www在线观看| 亚洲人成网站在线观看播放| 免费观看a级毛片全部| 亚洲自偷自拍图片 自拍| 久久精品aⅴ一区二区三区四区| 午夜av观看不卡| 婷婷色综合www| 捣出白浆h1v1| 国产精品人妻久久久影院| 久久久久久免费高清国产稀缺| 亚洲人成77777在线视频| 国产精品一区二区在线不卡| 久久久久久久大尺度免费视频| 中文字幕另类日韩欧美亚洲嫩草| 国产视频首页在线观看| 亚洲伊人色综图| 一级,二级,三级黄色视频| 国产成人免费无遮挡视频| 精品一品国产午夜福利视频| 别揉我奶头~嗯~啊~动态视频 | av.在线天堂| 两个人看的免费小视频| av在线app专区| 只有这里有精品99| 毛片一级片免费看久久久久| 巨乳人妻的诱惑在线观看| 男的添女的下面高潮视频| 黄色怎么调成土黄色| 免费高清在线观看日韩| 制服诱惑二区| 婷婷色综合www| 午夜福利,免费看| 极品人妻少妇av视频| 久久久精品区二区三区| 纵有疾风起免费观看全集完整版| 一区二区三区四区激情视频| 男女无遮挡免费网站观看| 少妇人妻 视频| 水蜜桃什么品种好| 欧美日韩综合久久久久久| 搡老乐熟女国产| av在线老鸭窝| 欧美日韩视频精品一区| 美女国产高潮福利片在线看| 国产毛片在线视频| 欧美日韩亚洲国产一区二区在线观看 | 在线免费观看不下载黄p国产| 成人亚洲欧美一区二区av| 青青草视频在线视频观看| 国产精品香港三级国产av潘金莲 | 日本一区二区免费在线视频| 日韩 亚洲 欧美在线| 精品国产露脸久久av麻豆| 亚洲成人国产一区在线观看 | 亚洲精品aⅴ在线观看| 一区二区三区四区激情视频| 精品亚洲成国产av| 免费人妻精品一区二区三区视频| 热99国产精品久久久久久7| 在线精品无人区一区二区三| 一本—道久久a久久精品蜜桃钙片| 国产精品久久久久久精品古装| 免费女性裸体啪啪无遮挡网站| 久久综合国产亚洲精品| 国产色婷婷99| 波多野结衣一区麻豆| 欧美精品亚洲一区二区| 你懂的网址亚洲精品在线观看| 黄色毛片三级朝国网站| 亚洲视频免费观看视频| 国产成人欧美在线观看 | 国产片内射在线| 一级爰片在线观看| 精品国产乱码久久久久久小说| 亚洲三区欧美一区| 亚洲av中文av极速乱| av国产久精品久网站免费入址| 国产成人一区二区在线| 激情五月婷婷亚洲| 欧美av亚洲av综合av国产av | 欧美 日韩 精品 国产| 日韩人妻精品一区2区三区| 亚洲综合精品二区| 90打野战视频偷拍视频| 亚洲,一卡二卡三卡| 国产伦理片在线播放av一区| √禁漫天堂资源中文www| 精品亚洲乱码少妇综合久久| 少妇被粗大猛烈的视频| 热re99久久精品国产66热6| 国产极品天堂在线| 久久久久国产精品人妻一区二区| 亚洲一码二码三码区别大吗| 亚洲精品国产av成人精品| 国产精品一区二区在线观看99| 欧美日韩视频高清一区二区三区二| 久久久欧美国产精品| 大码成人一级视频| av在线app专区| 99精品久久久久人妻精品| 国产精品久久久久久精品古装| 最新的欧美精品一区二区| 亚洲欧美一区二区三区国产| 亚洲av欧美aⅴ国产| 久久精品久久精品一区二区三区| 久久av网站| av天堂久久9| a级片在线免费高清观看视频| 又粗又硬又长又爽又黄的视频| 天天影视国产精品| 中文精品一卡2卡3卡4更新| 欧美在线黄色| 色综合欧美亚洲国产小说| tube8黄色片| 久久久久国产一级毛片高清牌| 日本91视频免费播放| 女人精品久久久久毛片| 波多野结衣av一区二区av| 一本色道久久久久久精品综合| 国产一区有黄有色的免费视频| 国产成人欧美在线观看 | 国产精品嫩草影院av在线观看| 国产av精品麻豆| av电影中文网址| 欧美xxⅹ黑人| 欧美日韩精品网址| 亚洲精品久久久久久婷婷小说| 一区二区三区激情视频| 两性夫妻黄色片| 天天躁夜夜躁狠狠躁躁| 日韩一卡2卡3卡4卡2021年| 十八禁高潮呻吟视频| 亚洲精品乱久久久久久| 晚上一个人看的免费电影| 亚洲欧美色中文字幕在线| 久久毛片免费看一区二区三区| 国产成人啪精品午夜网站| 久久av网站| 中文字幕av电影在线播放| 黑丝袜美女国产一区| 天天躁日日躁夜夜躁夜夜| 大话2 男鬼变身卡| a 毛片基地| 久久99一区二区三区| 亚洲综合精品二区| 最近最新中文字幕大全免费视频 | 99久久精品国产亚洲精品| 免费看av在线观看网站| 99香蕉大伊视频| 一区二区三区激情视频| 制服诱惑二区| 晚上一个人看的免费电影| 久久精品久久久久久噜噜老黄| 亚洲图色成人| 女人精品久久久久毛片| 亚洲第一av免费看| 多毛熟女@视频| 国产毛片在线视频| 日日爽夜夜爽网站| 天天添夜夜摸| 老司机亚洲免费影院| 欧美精品人与动牲交sv欧美| 亚洲五月色婷婷综合| 午夜av观看不卡| 亚洲美女搞黄在线观看| 七月丁香在线播放| 青春草视频在线免费观看| 亚洲欧洲精品一区二区精品久久久 | a级片在线免费高清观看视频| 人人妻人人添人人爽欧美一区卜| 亚洲av日韩精品久久久久久密 | 黄片播放在线免费| 国产精品.久久久| 免费日韩欧美在线观看| 免费在线观看黄色视频的| 80岁老熟妇乱子伦牲交| 一区二区三区乱码不卡18| 欧美日韩视频精品一区| 秋霞伦理黄片| 大片免费播放器 马上看| 只有这里有精品99| 日韩视频在线欧美| av卡一久久| av在线观看视频网站免费| 国产日韩欧美在线精品| 少妇猛男粗大的猛烈进出视频| 又大又爽又粗| av在线老鸭窝| 久久国产亚洲av麻豆专区| 一级,二级,三级黄色视频| 精品亚洲成国产av| 天美传媒精品一区二区| 国产女主播在线喷水免费视频网站| 999久久久国产精品视频| 欧美另类一区| 精品国产乱码久久久久久男人| 亚洲国产欧美日韩在线播放| 欧美另类一区| 狠狠婷婷综合久久久久久88av| 中文字幕亚洲精品专区| 激情五月婷婷亚洲| 黄频高清免费视频| 久久久久久久国产电影| 青春草亚洲视频在线观看| 久久99一区二区三区| 99久久人妻综合| 综合色丁香网| 日韩人妻精品一区2区三区| 亚洲成人免费av在线播放| 啦啦啦在线免费观看视频4| 又大又爽又粗| 精品国产一区二区三区四区第35| 大片免费播放器 马上看| 香蕉国产在线看| 考比视频在线观看| 夜夜骑夜夜射夜夜干| 中文字幕人妻熟女乱码| 亚洲欧美成人精品一区二区|