• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法

    2016-12-09 06:34:32傅啟明
    電子學(xué)報(bào) 2016年11期
    關(guān)鍵詞:狀態(tài)值貝葉斯高斯

    劉 全,于 俊,王 輝,傅啟明,朱 斐

    (1.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006;2.吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室,吉林長(zhǎng)春 130012:3.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇南京 210023)

    ?

    一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法

    劉 全1,2,3,于 俊1,3,王 輝1,3,傅啟明1,3,朱 斐1,3

    (1.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006;2.吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室,吉林長(zhǎng)春 130012:3.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇南京 210023)

    在強(qiáng)化學(xué)習(xí)方法中,大部分的算法都是基于值函數(shù)評(píng)估的算法.高斯過(guò)程時(shí)間差分算法利用貝葉斯方法來(lái)評(píng)估值函數(shù),通過(guò)貝爾曼公式和貝葉斯規(guī)則,建立立即獎(jiǎng)賞與值函數(shù)之間的概率生成模型.在狀態(tài)空間中,通過(guò)在線核稀疏化并利用最小二乘方法來(lái)求解新樣本的近似線性逼近,以提高算法的執(zhí)行速度,但時(shí)間復(fù)雜度依然較高.針對(duì)在狀態(tài)空間中近似狀態(tài)的選擇問(wèn)題,在高斯過(guò)程框架下提出一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法,該算法利用哈希函數(shù)把字典狀態(tài)集合中的元素映射成哈希值,根據(jù)哈希值進(jìn)行分組,進(jìn)而減少狀態(tài)之間的比較.實(shí)驗(yàn)結(jié)果表明,該方法不僅能夠提高算法的執(zhí)行速度,而且較好地平衡了評(píng)估狀態(tài)值函數(shù)精度和算法執(zhí)行時(shí)間.

    強(qiáng)化學(xué)習(xí);馬爾科夫決策過(guò)程;高斯過(guò)程;隨機(jī)投影;時(shí)間差分算法

    1 引言

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是在未知、動(dòng)態(tài)環(huán)境中在線求解最優(yōu)策略,以獲取最大期望回報(bào)的一類算法.強(qiáng)化學(xué)習(xí)方法的基本框架為:Agent通過(guò)試錯(cuò)與環(huán)境進(jìn)行交互,將每一步的延遲回報(bào)通過(guò)時(shí)間信用分配機(jī)制傳遞給過(guò)去動(dòng)作序列中的某些動(dòng)作,用值函數(shù)評(píng)價(jià)每個(gè)狀態(tài)或狀態(tài)動(dòng)作對(duì)的好壞程度,最終通過(guò)值函數(shù)確定最優(yōu)策略[1,2].目前強(qiáng)化學(xué)習(xí)方法越來(lái)越多地被用于在線控制、作業(yè)調(diào)度、游戲等領(lǐng)域[3,4].

    馬爾科夫決策過(guò)程(Markov Decision Process,MDP)是一類重要的隨機(jī)過(guò)程,經(jīng)常用來(lái)對(duì)強(qiáng)化學(xué)習(xí)進(jìn)行建模[5].Sutton在1998年提出對(duì)馬爾科夫鏈學(xué)習(xí)的理論和TD(λ)算法[6].核方法在監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)問(wèn)題中都得到了廣泛的研究[7].目前基于核的強(qiáng)化學(xué)習(xí)理論與應(yīng)用成果還較少,這主要是由于核方法需要隨機(jī)或重復(fù)的獲取訓(xùn)練樣本[8].直到2002年,Ormoneit 等人提出了基于核的強(qiáng)化學(xué)習(xí)方法[9].后來(lái),Xu等人提出了基于核的最小二乘TD方法(Kernel-based Least Squares TD,KLSTD),將基于核的逼近與LSTD相結(jié)合[10],取得了一定的效果.在KLSTD基礎(chǔ)之上,Xu等人繼續(xù)提出了KLSPI及KLSPI-Q算法[11],并證明了方法的有效性.Yaakov Engel等人提出了一種新的值函數(shù)評(píng)估方法,該方法利用核方法來(lái)估計(jì)值函數(shù),選擇核方法中的高斯過(guò)程 (Gaussian process)模型[12]為值函數(shù)建模,通過(guò)高斯過(guò)程與時(shí)間差分方法相結(jié)合得到高斯過(guò)程的時(shí)間差分(Gaussian Process Temporal Difference,GPTD)學(xué)習(xí)算法[13,14],建立值函數(shù)的概率生成模型,然后根據(jù)先驗(yàn),以及觀測(cè)到的樣本,利用貝葉斯推理得到值函數(shù)完整的后驗(yàn)分布.

    對(duì)于固定的策略,GPTD能夠較準(zhǔn)確的評(píng)估該策略的值函數(shù),但是GPTD算法的明顯缺點(diǎn)是模型的學(xué)習(xí)完全依賴于樣本,計(jì)算量較大.Engel等人提出了依賴于特征空間的在線核稀疏化方法,將核函數(shù)看作是在高維希伯爾特空間上的兩個(gè)向量的內(nèi)積,直接去除那些能夠用特征空間中特征近似線性逼近的樣本[15],利用最小二乘方法來(lái)求解新樣本的近似線性逼近,以提高時(shí)間和空間效率.

    本文針對(duì)在強(qiáng)化學(xué)習(xí)狀態(tài)空間中需要選擇近似狀態(tài)的問(wèn)題,在高斯過(guò)程框架上提出一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法(Bayesian Temporal Difference algorithm based on Random Projection,RPGPTD).該算法對(duì)于新?tīng)顟B(tài),首先進(jìn)行預(yù)處理,把狀態(tài)轉(zhuǎn)變?yōu)槎M(jìn)制編碼,使得相似的數(shù)據(jù)對(duì)象,其二進(jìn)制編碼也相似,在此基礎(chǔ)上進(jìn)行相似性比較選擇,同時(shí)設(shè)置參數(shù)閾值來(lái)控制狀態(tài)字典集合逼近真實(shí)狀態(tài)空間程度.實(shí)驗(yàn)結(jié)果表明,該方法不僅能夠提高算法的執(zhí)行速度,而且在值函數(shù)評(píng)估質(zhì)量和時(shí)間上有較好的平衡.

    2 相關(guān)理論

    2.1 馬爾科夫決策過(guò)程

    在強(qiáng)化學(xué)習(xí)中,通常用馬爾科夫決策過(guò)程來(lái)對(duì)描述的問(wèn)題進(jìn)行建模,它把強(qiáng)化學(xué)習(xí)問(wèn)題描述為一個(gè)四元組M=,其中X是環(huán)境的狀態(tài)集合;U是Agent能采取的動(dòng)作集合;f(·|x,u)為狀態(tài)x下執(zhí)行動(dòng)作u轉(zhuǎn)移到下一狀態(tài)的概率分布,它對(duì)后繼狀態(tài)的不確定性進(jìn)行了模型化;f0(·)表示初始狀態(tài)被選擇的概率分布;ρ(·|x,u)是立即獎(jiǎng)賞函數(shù)的概率分布,r(x,u)是滿足ρ(·|x,u)的一個(gè)隨機(jī)變量,表示在狀態(tài)x處,Agent執(zhí)行動(dòng)作u,到達(dá)后繼狀態(tài)x′獲得的獎(jiǎng)賞值.

    強(qiáng)化學(xué)習(xí)中,值函數(shù)通常分為兩種:狀態(tài)值函數(shù)和動(dòng)作值函數(shù).本文以狀態(tài)值函數(shù)為基礎(chǔ),但是很容易擴(kuò)展到動(dòng)作值函數(shù),狀態(tài)值函數(shù)V(x)是指當(dāng)前狀態(tài)x下回報(bào)R(x)的期望值.

    =Eh{r(x)+γR(x′)}

    (1)

    2.2 高斯過(guò)程時(shí)間差分算法

    (2)

    將公式(2)帶入公式(1)中,可得到關(guān)于立即獎(jiǎng)賞的生成模型,如公式(3)所示.

    r(x)=V(x)-γEx′|x{V(x′)}+N(x)

    (3)

    在確定性問(wèn)題的在線學(xué)習(xí)過(guò)程中,公式(3)可以改寫(xiě)成公式(4).

    r(x)=V(x)-γV(x′)+N(x)

    (4)

    其中,N(x)為噪聲項(xiàng).

    假定給定一條包含t+1個(gè)樣本的路徑ξ=(x0,x1,…,xt-1,xt),可以得到如公式(5)所示的t個(gè)等式.

    r(xi)=V(xi)-γV(xi+1)+N(xi)

    (5)

    將這t個(gè)等式的狀態(tài)值函數(shù)、立即獎(jiǎng)賞以及噪聲分別寫(xiě)成向量的形式,如公式(6)、(7)、(8)所示.

    Vt=(V(x0),V(x1),…,V(xt))T

    (6)

    rt-1=(r(x0),r(x1),…,r(xt-1))T

    (7)

    Nt-1=(N(x0),N(x1),…,N(xt-1))T

    (8)

    根據(jù)這組樣本序列及公式(5),可得一個(gè)包含t個(gè)等式的向量表達(dá)式,如公式(9)所示.

    rt-1=HtVt+Nt-1

    (9)

    其中,Ht是一個(gè)t×(t+1)的矩陣,如公式(10)所示.

    (10)

    類比于高斯過(guò)程回歸方法,高斯過(guò)程時(shí)間差分算法在值函數(shù)上引入高斯先驗(yàn),即V~N(0,k(·,·)),意味著V是一個(gè)高斯過(guò)程,對(duì)于所有的x,x′∈X都有先驗(yàn)E(V(x))=0和E(V(x)V(x′))=k(x,x′),為了使得k(·,·)是一個(gè)合理的協(xié)方差函數(shù),需要核函數(shù)是對(duì)稱正定的,且核函數(shù)的選擇需要反映出兩個(gè)狀態(tài)之間的先驗(yàn)關(guān)系.因此,Vt~N(0,Kt),其中[Kt]i,j=k(xi,xj).

    假設(shè)1 假設(shè)各狀態(tài)的立即獎(jiǎng)賞的噪聲項(xiàng)相互獨(dú)立服從于高斯分布且與狀態(tài)值函數(shù)V相互獨(dú)立,均值為0,方差為σ2(x),即:N(x)~N(0,σ2(x)).則噪聲向量Nt-1的分布形式如公式(11)所示.

    (11)

    (12)

    (13)

    假設(shè)變量X和變量Y是隨機(jī)向量,且滿足多元正態(tài)分布,即

    利用貝葉斯規(guī)則,則變量X的后驗(yàn)X|Y滿足公式(14)

    (14)

    由此可以得出,設(shè)在一個(gè)情節(jié)中,前t個(gè)時(shí)刻,有樣本路徑ξ=(x0,x1,…,xt-1),以及獎(jiǎng)賞序列rt-1=(r(x0),r(x1),…,r(xt-1))T.

    3 基于隨機(jī)投影的貝葉斯差分算法及分析

    3.1 稀疏化方法

    (15)

    (16)

    (17)

    (18)

    (19)

    由公式(18)、(19)可得到稀疏化后的狀態(tài)值函數(shù)的后驗(yàn),如公式(20)所示:

    (20)

    3.2 基于隨機(jī)投影的貝葉斯時(shí)間差分算法

    定義1 對(duì)于狀態(tài)集合X,集合內(nèi)的狀態(tài)間相似度的計(jì)算公式為sim(·,·),如果存在一個(gè)哈希函數(shù)hash(·)滿足以下條件:存在一個(gè)相似度s到概率p的單調(diào)遞增映射關(guān)系,使得X中的任意兩個(gè)元素a和b滿足sim(a,b)≥s,且hash(a)=hash(b)的概率大于p,那么hash(·)就是該集合的一個(gè)隨機(jī)投影哈希函數(shù).

    隨機(jī)投影方法主要分為預(yù)處理階段和選擇階段兩個(gè)部分.

    (21)

    (22)

    在強(qiáng)化學(xué)習(xí)中,對(duì)于情節(jié)式任務(wù),設(shè)最后一個(gè)狀態(tài)為bound(vt)∈[-0.07,+0.07],由于bound(pt)∈[-1.2,+0.5],因此對(duì)于樣本g,有以下公式:

    g=-0.0025

    (23)

    即,可以暫時(shí)先把折扣因子置為0,遇到非終止?fàn)顟B(tài)時(shí)再把折扣因子重置為初始值.

    下面給出基于隨機(jī)投影的貝葉斯時(shí)間差分算法.

    4 實(shí)驗(yàn)及結(jié)果分析

    為了驗(yàn)證隨機(jī)投影高斯過(guò)程時(shí)間差分算法的有效性,以經(jīng)典的離散狀態(tài)空間的格子世界為基礎(chǔ)平臺(tái),來(lái)對(duì)RPGPTD算法的性能進(jìn)行測(cè)評(píng),并通過(guò)與已有的GPTD算法進(jìn)行性能對(duì)比來(lái)說(shuō)明RPGPTD算法的優(yōu)越性.

    在一個(gè)9×9的格子世界,每個(gè)格子代表一個(gè)狀態(tài),每個(gè)狀態(tài)可采取的動(dòng)作包括上、下、左、右4個(gè)方向的運(yùn)動(dòng).每次狀態(tài)遷移時(shí),Agent得到的立即獎(jiǎng)賞均為-1,到達(dá)終止?fàn)顟B(tài)時(shí)的獎(jiǎng)賞也為-1.折扣因子γ=1.

    閾值取為ν=1,所有噪聲方差均取σ2=0.1.

    在遵循策略h的情況下,分別對(duì)RPGPTD算法與GPTD算法執(zhí)行1000個(gè)情節(jié),比較兩個(gè)算法的執(zhí)行時(shí)間和值函數(shù)估計(jì)誤差.在給定算法參數(shù)后,每個(gè)算法都獨(dú)立運(yùn)行10次,每次獨(dú)立運(yùn)行都計(jì)算出兩種算法所需的時(shí)間以及對(duì)所有狀態(tài)進(jìn)行值函數(shù)估計(jì)的均方誤差,然后再計(jì)算各次獨(dú)立運(yùn)行的所需時(shí)間和值函數(shù)估計(jì)均方誤差的平均值,以此來(lái)作為算法的評(píng)價(jià)指標(biāo).

    首先,考察RPGPTD算法與GPTD算法在格子世界中執(zhí)行500以及1000個(gè)情節(jié)所需的時(shí)間,其中RPGPTD算法的參數(shù)l分別取為2,4,8,10,時(shí)間的單位為秒(s),如表1所示.

    表1 9×9格子世界問(wèn)題RPGPTD算法與GPTD算法在一定情節(jié)數(shù)內(nèi)執(zhí)行算法的時(shí)間比較

    9×9格子世界問(wèn)題500episodes1000episodesGPTD算法634.616s1362.522sRPGPTD算法l=2518.705s1079.906sRPGPTD算法l=4474.883s959.941sRPGPTD算法l=8480.905s953.443sRPGPTD算法l=10494.030s975.366s

    針對(duì)RPGPTD算法,在減少算法執(zhí)行時(shí)間的基礎(chǔ)上,進(jìn)一步對(duì)值函數(shù)評(píng)估的準(zhǔn)確度進(jìn)行考察.利用動(dòng)態(tài)規(guī)劃方法(DP)迭代可以計(jì)算出準(zhǔn)確的狀態(tài)值函數(shù),動(dòng)態(tài)規(guī)劃更新公式為:

    (24)

    將RPGPTD算法與GPTD算法執(zhí)行1000個(gè)情節(jié)得到的狀態(tài)值函數(shù)與利用動(dòng)態(tài)規(guī)劃方法得到的值函數(shù)進(jìn)行比較.以均方根誤差函數(shù)作為比較準(zhǔn)則:

    (25)

    圖1給出了RPGPTD算法與GPTD算法的狀態(tài)值函數(shù)的均方根誤差隨情節(jié)數(shù)增加而變化的曲線圖.圖中RPGPTD算法的參數(shù)l取為2.由圖可以看出,在遵循策略h的情況下,RPGPTD算法與GPTD算法對(duì)狀態(tài)值函數(shù)的評(píng)估能力一致,兩種算法在200個(gè)情節(jié)數(shù)后都能很好的收斂,且逼近精度也一致.

    下面探究RPGPTD算法中參數(shù)l對(duì)值函數(shù)評(píng)估的影響,圖2所示的曲線是參數(shù)l分別取為2,4,8,10時(shí)RMSE隨情節(jié)數(shù)的變化圖.當(dāng)參數(shù)l取2,4時(shí),在前200個(gè)情節(jié),RMSE的值震蕩下降,震蕩較大,200個(gè)情節(jié)之后震蕩較小,逐漸趨于一致且收斂,當(dāng)參數(shù)l取8,10時(shí),在前200個(gè)情節(jié),RMSE震蕩較大,但是在200個(gè)情節(jié)后,RMSE曲線圖明顯高于參數(shù)取2,4時(shí)的曲線圖,即對(duì)狀態(tài)值函數(shù)的評(píng)估誤差較大,評(píng)估結(jié)果不理想,所以在參數(shù)l較大時(shí),狀態(tài)值函數(shù)評(píng)估誤差較大.由此可見(jiàn),理想情況下,參數(shù)l越大,執(zhí)行速度越快,并且呈指數(shù)級(jí)的提升,但是,在這種情況下哈希函數(shù)HASH(·)的概率公式p(s)可以表示為與新來(lái)狀態(tài)x的相似度為s的狀態(tài)的召回率.當(dāng)參數(shù)l的取值越大時(shí)狀態(tài)的召回率必然降低,所以RPGPTD算法在參數(shù)l增大時(shí),對(duì)狀態(tài)值函數(shù)的評(píng)估效果不理想.

    5 結(jié)論

    本文針對(duì)于在強(qiáng)化學(xué)習(xí)狀態(tài)空間中近似狀態(tài)的選擇問(wèn)題,基于高斯過(guò)程時(shí)間差分框架,提出一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法.高斯過(guò)程時(shí)間差分算法通過(guò)貝爾曼公式和貝葉斯規(guī)則,建立立即獎(jiǎng)賞與值函數(shù)之間的概率生成模型,但在評(píng)估值函數(shù)時(shí),算法執(zhí)行速度較慢,為進(jìn)一步提升執(zhí)行時(shí)間,利用哈希函數(shù)把字典狀態(tài)集合中的元素映射成哈希值,把狀態(tài)轉(zhuǎn)變?yōu)槎M(jìn)制編碼,使得相似的數(shù)據(jù)對(duì)象,其二進(jìn)制編碼也相似,根據(jù)哈希值進(jìn)行分組,進(jìn)而減少狀態(tài)之間的比較,同時(shí)設(shè)置參數(shù)閾值來(lái)控制狀態(tài)字典集合逼近真實(shí)狀態(tài)空間的程度.實(shí)驗(yàn)結(jié)果表明,該方法不僅能夠提高算法的執(zhí)行速度,而且在評(píng)估狀態(tài)值函數(shù)精度和算法執(zhí)行時(shí)間上有較好的平衡.

    [1]Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].Cambridge:MIT Press,1998.

    [2]傅啟明,劉全,尤樹(shù)華,黃蔚,章曉芳.一種新的基于值函數(shù)遷移的快速Sarsa算法[J].電子學(xué)報(bào),2014,42(11):2157-2161.

    Fu Qiming,Liu Quan,You Shuhua,Huang Wei,Zhang Xiaofang.A novel fast Sarsa algorithm based on value function transfer[J].Acta Electronica Sinica,2014,42(11):2157-2161.(in Chinese)

    [3]Martínez Y,Nowé A,Suárez J,et al.A Reinforcement Learning Approach for the Flexible Job Shop Scheduling Problem[M].Learning and Intelligent Optimization:Springer Berlin Heidelberg,2014.253-262.

    [4]Amato C,Shani G.High-level reinforcement learning in strategy games[A].Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems[C].International Foundation for Autonomous Agents and Multiagent Systems,2010.75-82.

    [5]Marco Wiering,Martijn van Otterlo.Reinforcement Learning State of the Art[M].Singapore:Springer Press,2012.

    [6]Sutton R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.

    [7]Shawe-Taylor J,Cristianini N.Kernel Methods for Pattern Analysis[M].Cambridge:Cambridge University Press,2004.

    [8]Scholkopf B,Smola A J.Learning with Kernels:Support Vector Machines,Regularization,Optimization,and Eyond[M].Cambridge:MIT Press,2002.

    [9]Ormoneit D,Sen.Kernel-based reinforcement learning[J].Machine Learning,2012,49(2-3):161-178.

    [10]Xu X,Xie T,Hu D,et al.Kernel least-squares temporal difference learning[J].International Journal of Information Technology,2005,11(9):54-63.

    [11]Xu X,Hu D,Lu X.Kernel-based least squares policy iteration for reinforcement learning[J].IEEE Transactions on Neural Networks,2007,18:973-992.

    [12]C E Rasmussen and C K I Williams.Gaussian Processes for Machine Learning[M].Cambridge:MIT Press,2006.

    [13]Engel Y,Mannor S,Meir R.Bayes meets Bellman:the gaussian process approach to temporal difference learning[A].Proceedings of the 20th International Conference on Machine Learning[C].Washington:AAAI,2011.154-161.

    [14]Engel Y,Mannor S,Meir R.Reinforcement learning with gaussian processes[A].Proceedings of the 22nd International Conference on Machine Learning[C].Bonn:ACM,2014.201-208.

    [15]Engel Y,Mannor S,Meir R.Sparse Online Greedy Support Vector Regression[M].Berlin:Springer,2002.

    劉 全 男,1969年生于內(nèi)蒙古,博士,教授,博士生導(dǎo)師.主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、無(wú)線傳感器網(wǎng)絡(luò)、智能信息處理.

    E-mail:quanliu@suda.edu.cn

    于 俊 男,1989年生于江蘇泰州,碩士.主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、貝葉斯推理.

    A Bayesian Temporal Difference Algorithm Based on Random Projection

    LIU Quan1, 2, 3,YU Jun1,3,WANG Hui1,3,FU Qi-ming1,3, ZHU Fei1,3

    (1.SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215006,China;2.KeyLaboratoryofSymbolicComputationandKnowledgeEngineeringofJilinUniversity,MinistryofEducation,JilinUniversity,Changchun,Jilin130012,China;3.CollaborativeInnovationCenterofNovelSoftwareTechnologyandIndustrialization,Nanjing,Jiangsu210023,China)

    Most algorithms are based on policy evaluation in reinforcement learning.The Gaussian process temporal difference is an algorithm that uses Bayesian solution to evaluate value functions.In the method,Gaussian process builds a probabilistic generative model between the immediate reward and the value function through Bellman Equation and Bayesian rule.In order to improve the efficiency of the algorithm,approximate linear approximation for new samples is solved by on-line kernel sparse and least squares in state space.However,the time complexity is still high.To deal with this problem,a Bayesian temporal difference algorithm bases on random projection algorithm is proposed.The elements in dictionary state set are mapped to hash values by hash function.According to the hash values,groups are divided and the comparison between the states is reduced.The experimental results show that this algorithm not only improves the execution speed,but also obtains balance between execution time and precision of the state value function.

    reinforcement learning;markov decision process;gaussian process;random projection;temporal difference learning

    2015-04-08;

    2015-08-17;責(zé)任編輯:藍(lán)紅杰

    國(guó)家自然科學(xué)基金(No.61272005,No.61303108,No.61373094,No.61472262,No.61502323,No.61502329);江蘇省自然科學(xué)基金(No.BK2012616);江蘇省高校自然科學(xué)研究項(xiàng)目(No.13KJB520020);吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(No.93K172014K04);蘇州市應(yīng)用基礎(chǔ)研究計(jì)劃工業(yè)部分(No.SYG201422,No.SY201308)

    TP181

    A

    0372-2112 (2016)11-2752-06

    ??學(xué)報(bào)URL:http://www.ejournal.org.cn

    10.3969/j.issn.0372-2112.2016.11.026

    猜你喜歡
    狀態(tài)值貝葉斯高斯
    小高斯的大發(fā)現(xiàn)
    研究降雨事件對(duì)交通流時(shí)空特性的影響
    一種基于切換拓?fù)涞碾x散時(shí)間一致性協(xié)議
    天才數(shù)學(xué)家——高斯
    貝葉斯公式及其應(yīng)用
    基于短文本的突發(fā)事件發(fā)展過(guò)程表示方法
    基于貝葉斯估計(jì)的軌道占用識(shí)別方法
    一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
    電子器件(2015年5期)2015-12-29 08:43:15
    有限域上高斯正規(guī)基的一個(gè)注記
    大規(guī)模氣泡湮滅的元胞自動(dòng)機(jī)模擬
    青春草视频在线免费观看| 欧美日韩综合久久久久久| 看黄色毛片网站| 精品久久久久久久久久久久久| 乱系列少妇在线播放| 一本一本综合久久| 亚洲四区av| 亚洲精品影视一区二区三区av| 国产视频首页在线观看| 99在线视频只有这里精品首页| 久久久久久久久久久丰满| 看免费成人av毛片| 久久久久精品久久久久真实原创| 欧美成人a在线观看| 老司机福利观看| 精品少妇黑人巨大在线播放 | 麻豆av噜噜一区二区三区| 啦啦啦观看免费观看视频高清| 波野结衣二区三区在线| 国产精品久久久久久精品电影| 免费观看性生交大片5| 久久久久性生活片| 中文资源天堂在线| 日本色播在线视频| 91久久精品国产一区二区成人| 啦啦啦啦在线视频资源| 国产成人一区二区在线| 美女大奶头视频| 中国国产av一级| 国产成人aa在线观看| 国产色婷婷99| 久久久亚洲精品成人影院| 国产男人的电影天堂91| 欧美色视频一区免费| 最近最新中文字幕大全电影3| 国产黄片美女视频| av免费在线看不卡| 性色avwww在线观看| 久久精品久久久久久久性| 久久草成人影院| 99热全是精品| 在线免费观看不下载黄p国产| 啦啦啦啦在线视频资源| 成人亚洲精品av一区二区| 99热这里只有精品一区| 日本三级黄在线观看| 亚洲国产精品久久男人天堂| 午夜精品国产一区二区电影 | 中文字幕av成人在线电影| 男女啪啪激烈高潮av片| 久久久亚洲精品成人影院| 国产伦精品一区二区三区视频9| 在线观看美女被高潮喷水网站| 国产乱来视频区| 人人妻人人看人人澡| 中文字幕av成人在线电影| 色哟哟·www| 国产真实乱freesex| 大又大粗又爽又黄少妇毛片口| 精品一区二区三区人妻视频| or卡值多少钱| 国产视频内射| 欧美+日韩+精品| 亚洲乱码一区二区免费版| 最近视频中文字幕2019在线8| 三级毛片av免费| 99热精品在线国产| 亚洲精品,欧美精品| 乱人视频在线观看| 中文字幕制服av| 大香蕉久久网| 亚洲一级一片aⅴ在线观看| 18禁裸乳无遮挡免费网站照片| 级片在线观看| 一区二区三区高清视频在线| 我要看日韩黄色一级片| 亚洲av不卡在线观看| 人妻制服诱惑在线中文字幕| eeuss影院久久| 丝袜美腿在线中文| 内地一区二区视频在线| 免费观看在线日韩| 亚洲内射少妇av| 久久精品夜色国产| 天天一区二区日本电影三级| 精品久久久久久电影网 | 中文字幕av成人在线电影| 久久久久久大精品| 特大巨黑吊av在线直播| 国产av码专区亚洲av| 亚洲自偷自拍三级| 狂野欧美白嫩少妇大欣赏| 久久久久久久久中文| 日产精品乱码卡一卡2卡三| 久久综合国产亚洲精品| 欧美成人午夜免费资源| 中文亚洲av片在线观看爽| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 国产私拍福利视频在线观看| 精品人妻熟女av久视频| 看免费成人av毛片| 国产高清视频在线观看网站| 日韩一区二区三区影片| 国产黄片美女视频| АⅤ资源中文在线天堂| 色视频www国产| 久久久久久久久久成人| 色综合亚洲欧美另类图片| 国产亚洲精品久久久com| 国产色婷婷99| 欧美日韩在线观看h| 欧美激情在线99| 中文字幕制服av| 在线观看66精品国产| 色吧在线观看| 午夜激情欧美在线| 99久久九九国产精品国产免费| 草草在线视频免费看| 男插女下体视频免费在线播放| 欧美97在线视频| 国产三级中文精品| 久久综合国产亚洲精品| 老师上课跳d突然被开到最大视频| 久久精品91蜜桃| 日韩制服骚丝袜av| 亚洲国产最新在线播放| 午夜免费男女啪啪视频观看| 午夜a级毛片| 一级毛片我不卡| 黄色欧美视频在线观看| 村上凉子中文字幕在线| 一个人观看的视频www高清免费观看| av黄色大香蕉| 日韩精品青青久久久久久| 日韩成人av中文字幕在线观看| 亚洲美女搞黄在线观看| 边亲边吃奶的免费视频| 久久综合国产亚洲精品| 久久久a久久爽久久v久久| 91久久精品电影网| 两个人视频免费观看高清| 国产在视频线在精品| 国产成人精品久久久久久| 丰满乱子伦码专区| 久久精品国产鲁丝片午夜精品| 国产一级毛片七仙女欲春2| 久久久精品94久久精品| 日本三级黄在线观看| 日本黄大片高清| or卡值多少钱| 亚洲天堂国产精品一区在线| 91久久精品电影网| 一个人观看的视频www高清免费观看| 国产高清三级在线| 中文欧美无线码| 亚洲av一区综合| 高清毛片免费看| 人妻夜夜爽99麻豆av| 亚洲最大成人av| 99热这里只有精品一区| 永久免费av网站大全| 舔av片在线| 中文字幕免费在线视频6| 日本-黄色视频高清免费观看| 国产精品日韩av在线免费观看| 久久久国产成人精品二区| 波野结衣二区三区在线| 99九九线精品视频在线观看视频| 别揉我奶头 嗯啊视频| 亚洲av日韩在线播放| 舔av片在线| 亚洲图色成人| 亚洲精品,欧美精品| 亚洲精品影视一区二区三区av| 亚洲三级黄色毛片| 久久久久精品久久久久真实原创| 最近的中文字幕免费完整| 天天一区二区日本电影三级| 麻豆国产97在线/欧美| 干丝袜人妻中文字幕| 99视频精品全部免费 在线| 日本猛色少妇xxxxx猛交久久| 日本黄色片子视频| 国产免费一级a男人的天堂| av在线天堂中文字幕| 久久精品国产亚洲网站| 少妇的逼水好多| 欧美日韩一区二区视频在线观看视频在线 | 不卡视频在线观看欧美| 村上凉子中文字幕在线| 亚洲18禁久久av| 亚洲精品影视一区二区三区av| 美女高潮的动态| 国产免费又黄又爽又色| 黄色一级大片看看| 成人毛片a级毛片在线播放| 久久精品国产自在天天线| 亚洲国产欧洲综合997久久,| av视频在线观看入口| 国产乱来视频区| 国产高清三级在线| 欧美日韩综合久久久久久| 欧美日韩在线观看h| 国产高清有码在线观看视频| 日韩一区二区视频免费看| 免费观看a级毛片全部| 午夜精品在线福利| 熟妇人妻久久中文字幕3abv| 变态另类丝袜制服| videos熟女内射| 国产亚洲5aaaaa淫片| 天天躁日日操中文字幕| 搞女人的毛片| 国产亚洲最大av| 欧美成人午夜免费资源| 亚洲av中文av极速乱| 性插视频无遮挡在线免费观看| 赤兔流量卡办理| 久久婷婷人人爽人人干人人爱| 国产麻豆成人av免费视频| 精品酒店卫生间| 日本猛色少妇xxxxx猛交久久| 亚洲人成网站在线播| 国产女主播在线喷水免费视频网站 | 嫩草影院新地址| 天堂网av新在线| 3wmmmm亚洲av在线观看| 国产精品国产三级国产专区5o | 国产中年淑女户外野战色| 国产黄片美女视频| 九九热线精品视视频播放| 简卡轻食公司| 夫妻性生交免费视频一级片| 国产成人精品婷婷| 美女cb高潮喷水在线观看| 国产伦精品一区二区三区四那| 久久亚洲精品不卡| 国产v大片淫在线免费观看| 日韩欧美 国产精品| 男女视频在线观看网站免费| 国产伦在线观看视频一区| 免费不卡的大黄色大毛片视频在线观看 | 亚洲图色成人| 美女大奶头视频| 国产精品久久久久久精品电影小说 | 成人特级av手机在线观看| 99久久人妻综合| 日本五十路高清| 亚洲精品国产av成人精品| 不卡视频在线观看欧美| 成人漫画全彩无遮挡| 男女那种视频在线观看| 亚洲美女视频黄频| 亚洲精品456在线播放app| ponron亚洲| 一区二区三区免费毛片| 搞女人的毛片| 一级二级三级毛片免费看| 丝袜喷水一区| 亚洲av.av天堂| 蜜桃亚洲精品一区二区三区| 欧美日本亚洲视频在线播放| 人妻少妇偷人精品九色| 国产成人精品久久久久久| 亚洲国产精品成人综合色| 小蜜桃在线观看免费完整版高清| 亚洲国产欧美在线一区| 真实男女啪啪啪动态图| 国产精品久久久久久精品电影| 久久久国产成人精品二区| 亚洲成色77777| 高清av免费在线| 国产91av在线免费观看| 五月伊人婷婷丁香| 99热全是精品| 国产三级中文精品| 久久久久网色| 亚洲国产高清在线一区二区三| 日本爱情动作片www.在线观看| 麻豆一二三区av精品| 国产成人91sexporn| 水蜜桃什么品种好| 搞女人的毛片| 少妇被粗大猛烈的视频| videossex国产| av线在线观看网站| 三级经典国产精品| 久久久久久久久大av| 六月丁香七月| 内地一区二区视频在线| 国产伦在线观看视频一区| 国产一区二区三区av在线| 观看美女的网站| 嘟嘟电影网在线观看| 久久久久国产网址| 欧美又色又爽又黄视频| 欧美性感艳星| 一级黄片播放器| 亚洲欧美日韩东京热| 3wmmmm亚洲av在线观看| 日日干狠狠操夜夜爽| 亚洲精品乱码久久久v下载方式| 国产乱人视频| 亚洲欧美一区二区三区国产| 国产乱人视频| 日韩 亚洲 欧美在线| 亚洲中文字幕一区二区三区有码在线看| 91久久精品国产一区二区成人| 高清视频免费观看一区二区 | 国产黄色视频一区二区在线观看 | 久久久久性生活片| 午夜福利在线在线| 麻豆乱淫一区二区| 国产亚洲5aaaaa淫片| 国产精品美女特级片免费视频播放器| 纵有疾风起免费观看全集完整版 | 最近2019中文字幕mv第一页| 国产免费一级a男人的天堂| 一本久久精品| 国产av码专区亚洲av| av卡一久久| 国内精品一区二区在线观看| 99国产精品一区二区蜜桃av| 一个人看视频在线观看www免费| 舔av片在线| 亚洲av中文字字幕乱码综合| 欧美一区二区国产精品久久精品| 亚洲av中文字字幕乱码综合| 床上黄色一级片| 国产成人精品一,二区| 日韩制服骚丝袜av| 精品久久久久久久久久久久久| 免费播放大片免费观看视频在线观看 | 婷婷色av中文字幕| 久久久久久久久久久免费av| 草草在线视频免费看| 久久久久性生活片| 在线天堂最新版资源| 成人特级av手机在线观看| 三级国产精品片| 99久久九九国产精品国产免费| 亚洲精品成人久久久久久| 一边摸一边抽搐一进一小说| 色尼玛亚洲综合影院| av天堂中文字幕网| 国产精品人妻久久久影院| 春色校园在线视频观看| 可以在线观看毛片的网站| 日韩一本色道免费dvd| 日本wwww免费看| 成人性生交大片免费视频hd| 一个人看视频在线观看www免费| 最近最新中文字幕免费大全7| 午夜爱爱视频在线播放| 国产伦在线观看视频一区| 最近最新中文字幕免费大全7| 国产精品永久免费网站| 亚洲av男天堂| 国产又黄又爽又无遮挡在线| 亚洲av福利一区| 丝袜喷水一区| АⅤ资源中文在线天堂| 看片在线看免费视频| 国国产精品蜜臀av免费| 亚洲天堂国产精品一区在线| 深夜a级毛片| 亚洲综合精品二区| av专区在线播放| 久久99热这里只有精品18| 国产精品熟女久久久久浪| 18+在线观看网站| www.色视频.com| 精品人妻熟女av久视频| 国产精品人妻久久久久久| 国产高潮美女av| 亚洲最大成人av| 国产又黄又爽又无遮挡在线| 汤姆久久久久久久影院中文字幕 | 欧美bdsm另类| 午夜精品在线福利| 国产精品不卡视频一区二区| 日本色播在线视频| 日韩高清综合在线| 日韩欧美在线乱码| 婷婷色综合大香蕉| 久久久国产成人免费| 伊人久久精品亚洲午夜| 五月玫瑰六月丁香| 蜜桃亚洲精品一区二区三区| 欧美日韩综合久久久久久| 亚洲国产欧美人成| 亚洲精品一区蜜桃| 1000部很黄的大片| 一二三四中文在线观看免费高清| 一级毛片aaaaaa免费看小| 亚洲成人中文字幕在线播放| 久久久色成人| 亚洲成色77777| 午夜福利在线观看吧| 精品国产露脸久久av麻豆 | 99热全是精品| 免费观看a级毛片全部| 午夜精品国产一区二区电影 | 在线天堂最新版资源| 大香蕉97超碰在线| 日韩人妻高清精品专区| 国产69精品久久久久777片| 欧美日韩在线观看h| 女的被弄到高潮叫床怎么办| 久久久久久久久大av| 国产一区有黄有色的免费视频 | 日本av手机在线免费观看| 黄色配什么色好看| 性色avwww在线观看| 永久网站在线| 一级黄片播放器| 黄片无遮挡物在线观看| 亚洲国产成人一精品久久久| 精品久久久久久电影网 | 中国国产av一级| 亚洲在久久综合| 色播亚洲综合网| 精品国产一区二区三区久久久樱花 | 乱系列少妇在线播放| 日日啪夜夜撸| 亚洲国产成人一精品久久久| 我的女老师完整版在线观看| 99久久精品一区二区三区| 淫秽高清视频在线观看| 久久久久国产网址| 18禁裸乳无遮挡免费网站照片| 大话2 男鬼变身卡| 少妇人妻精品综合一区二区| 日本午夜av视频| 午夜福利成人在线免费观看| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 午夜精品在线福利| 婷婷色麻豆天堂久久 | 日韩大片免费观看网站 | 国产精品,欧美在线| 亚洲在线自拍视频| 噜噜噜噜噜久久久久久91| 精品少妇黑人巨大在线播放 | 在线观看av片永久免费下载| 男人狂女人下面高潮的视频| www.色视频.com| 亚洲三级黄色毛片| 美女xxoo啪啪120秒动态图| 伦精品一区二区三区| 欧美zozozo另类| 国产av码专区亚洲av| 国产精品久久久久久精品电影小说 | 女人十人毛片免费观看3o分钟| 欧美激情国产日韩精品一区| 亚洲国产欧洲综合997久久,| 午夜福利成人在线免费观看| 男的添女的下面高潮视频| 春色校园在线视频观看| h日本视频在线播放| 嫩草影院新地址| 国产成人一区二区在线| 我要搜黄色片| 午夜爱爱视频在线播放| 久久久久久久久久久免费av| 搡老妇女老女人老熟妇| 国产又色又爽无遮挡免| 亚洲熟妇中文字幕五十中出| 国产综合懂色| 精品一区二区免费观看| 精品久久久久久成人av| 美女大奶头视频| 超碰97精品在线观看| 国产三级在线视频| 久久精品国产亚洲网站| 国产三级中文精品| 久久精品夜色国产| 久久精品国产自在天天线| av在线老鸭窝| 最近视频中文字幕2019在线8| 99久久九九国产精品国产免费| 亚洲四区av| 日产精品乱码卡一卡2卡三| 99热这里只有精品一区| 少妇的逼好多水| 欧美+日韩+精品| 丰满少妇做爰视频| 又粗又爽又猛毛片免费看| 免费看日本二区| 久久久久久久久大av| 亚洲av中文字字幕乱码综合| 一二三四中文在线观看免费高清| av在线蜜桃| 成人鲁丝片一二三区免费| 久久久久久伊人网av| 国产在线男女| 91精品伊人久久大香线蕉| 我的老师免费观看完整版| a级毛色黄片| 久久亚洲精品不卡| 99久久精品一区二区三区| 69人妻影院| 日本-黄色视频高清免费观看| a级毛色黄片| 国产精品久久久久久精品电影| a级一级毛片免费在线观看| 岛国在线免费视频观看| 成人毛片60女人毛片免费| 男人狂女人下面高潮的视频| 国产欧美另类精品又又久久亚洲欧美| 亚洲成av人片在线播放无| 18禁在线无遮挡免费观看视频| 午夜福利高清视频| 中文字幕亚洲精品专区| 床上黄色一级片| 久久鲁丝午夜福利片| 亚洲av免费高清在线观看| 欧美日本亚洲视频在线播放| 老女人水多毛片| 中国国产av一级| 成人亚洲欧美一区二区av| 午夜激情福利司机影院| 精品一区二区免费观看| 欧美高清成人免费视频www| 久久韩国三级中文字幕| 22中文网久久字幕| 久久久久久久国产电影| 国产亚洲午夜精品一区二区久久 | 久久久久久久久中文| 91精品伊人久久大香线蕉| 91久久精品电影网| 亚洲人成网站在线播| 国产一区二区在线av高清观看| 黄色一级大片看看| 熟女人妻精品中文字幕| 婷婷六月久久综合丁香| 欧美高清成人免费视频www| av国产久精品久网站免费入址| 午夜日本视频在线| 级片在线观看| 18禁在线播放成人免费| 亚洲第一区二区三区不卡| 又爽又黄无遮挡网站| 亚洲自偷自拍三级| 亚洲最大成人中文| 成人av在线播放网站| 国产不卡一卡二| 啦啦啦韩国在线观看视频| 69av精品久久久久久| 亚洲精品aⅴ在线观看| 国产91av在线免费观看| 久久久精品94久久精品| 色网站视频免费| 建设人人有责人人尽责人人享有的 | 一级毛片我不卡| 2021天堂中文幕一二区在线观| 丝袜喷水一区| 嫩草影院新地址| 边亲边吃奶的免费视频| 欧美高清性xxxxhd video| 久久久精品94久久精品| 精品国产一区二区三区久久久樱花 | 尾随美女入室| 国产亚洲精品久久久com| 日本色播在线视频| 欧美潮喷喷水| 亚洲婷婷狠狠爱综合网| 人人妻人人澡欧美一区二区| 亚洲av成人精品一区久久| 观看美女的网站| 两个人的视频大全免费| 亚洲国产精品久久男人天堂| 最近视频中文字幕2019在线8| 高清午夜精品一区二区三区| 免费看日本二区| 亚洲内射少妇av| 波野结衣二区三区在线| 国产亚洲一区二区精品| 欧美精品国产亚洲| 免费无遮挡裸体视频| 免费黄色在线免费观看| 99热网站在线观看| 国产伦理片在线播放av一区| 精品欧美国产一区二区三| 成人三级黄色视频| 久久这里有精品视频免费| 精品久久久久久久末码| 村上凉子中文字幕在线| 青春草视频在线免费观看| 嫩草影院入口| 波多野结衣高清无吗| 亚洲国产成人一精品久久久| 七月丁香在线播放| 国产伦精品一区二区三区四那| 欧美成人一区二区免费高清观看| 亚洲真实伦在线观看| 亚洲国产成人一精品久久久| 久久久久久久久久黄片| 欧美日本视频| 欧美色视频一区免费| 九九久久精品国产亚洲av麻豆| 国产午夜精品论理片| 亚洲国产色片| 美女国产视频在线观看| 免费看光身美女| 日韩 亚洲 欧美在线| 丰满人妻一区二区三区视频av| 人妻制服诱惑在线中文字幕| 非洲黑人性xxxx精品又粗又长| 国产成年人精品一区二区| 色5月婷婷丁香| 成人av在线播放网站| 亚洲av男天堂| 国内精品一区二区在线观看| 少妇熟女欧美另类| 国产亚洲91精品色在线|