• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法

    2016-12-09 06:34:32傅啟明
    電子學(xué)報(bào) 2016年11期
    關(guān)鍵詞:狀態(tài)值貝葉斯高斯

    劉 全,于 俊,王 輝,傅啟明,朱 斐

    (1.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006;2.吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室,吉林長(zhǎng)春 130012:3.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇南京 210023)

    ?

    一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法

    劉 全1,2,3,于 俊1,3,王 輝1,3,傅啟明1,3,朱 斐1,3

    (1.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006;2.吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室,吉林長(zhǎng)春 130012:3.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇南京 210023)

    在強(qiáng)化學(xué)習(xí)方法中,大部分的算法都是基于值函數(shù)評(píng)估的算法.高斯過(guò)程時(shí)間差分算法利用貝葉斯方法來(lái)評(píng)估值函數(shù),通過(guò)貝爾曼公式和貝葉斯規(guī)則,建立立即獎(jiǎng)賞與值函數(shù)之間的概率生成模型.在狀態(tài)空間中,通過(guò)在線核稀疏化并利用最小二乘方法來(lái)求解新樣本的近似線性逼近,以提高算法的執(zhí)行速度,但時(shí)間復(fù)雜度依然較高.針對(duì)在狀態(tài)空間中近似狀態(tài)的選擇問(wèn)題,在高斯過(guò)程框架下提出一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法,該算法利用哈希函數(shù)把字典狀態(tài)集合中的元素映射成哈希值,根據(jù)哈希值進(jìn)行分組,進(jìn)而減少狀態(tài)之間的比較.實(shí)驗(yàn)結(jié)果表明,該方法不僅能夠提高算法的執(zhí)行速度,而且較好地平衡了評(píng)估狀態(tài)值函數(shù)精度和算法執(zhí)行時(shí)間.

    強(qiáng)化學(xué)習(xí);馬爾科夫決策過(guò)程;高斯過(guò)程;隨機(jī)投影;時(shí)間差分算法

    1 引言

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是在未知、動(dòng)態(tài)環(huán)境中在線求解最優(yōu)策略,以獲取最大期望回報(bào)的一類算法.強(qiáng)化學(xué)習(xí)方法的基本框架為:Agent通過(guò)試錯(cuò)與環(huán)境進(jìn)行交互,將每一步的延遲回報(bào)通過(guò)時(shí)間信用分配機(jī)制傳遞給過(guò)去動(dòng)作序列中的某些動(dòng)作,用值函數(shù)評(píng)價(jià)每個(gè)狀態(tài)或狀態(tài)動(dòng)作對(duì)的好壞程度,最終通過(guò)值函數(shù)確定最優(yōu)策略[1,2].目前強(qiáng)化學(xué)習(xí)方法越來(lái)越多地被用于在線控制、作業(yè)調(diào)度、游戲等領(lǐng)域[3,4].

    馬爾科夫決策過(guò)程(Markov Decision Process,MDP)是一類重要的隨機(jī)過(guò)程,經(jīng)常用來(lái)對(duì)強(qiáng)化學(xué)習(xí)進(jìn)行建模[5].Sutton在1998年提出對(duì)馬爾科夫鏈學(xué)習(xí)的理論和TD(λ)算法[6].核方法在監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)問(wèn)題中都得到了廣泛的研究[7].目前基于核的強(qiáng)化學(xué)習(xí)理論與應(yīng)用成果還較少,這主要是由于核方法需要隨機(jī)或重復(fù)的獲取訓(xùn)練樣本[8].直到2002年,Ormoneit 等人提出了基于核的強(qiáng)化學(xué)習(xí)方法[9].后來(lái),Xu等人提出了基于核的最小二乘TD方法(Kernel-based Least Squares TD,KLSTD),將基于核的逼近與LSTD相結(jié)合[10],取得了一定的效果.在KLSTD基礎(chǔ)之上,Xu等人繼續(xù)提出了KLSPI及KLSPI-Q算法[11],并證明了方法的有效性.Yaakov Engel等人提出了一種新的值函數(shù)評(píng)估方法,該方法利用核方法來(lái)估計(jì)值函數(shù),選擇核方法中的高斯過(guò)程 (Gaussian process)模型[12]為值函數(shù)建模,通過(guò)高斯過(guò)程與時(shí)間差分方法相結(jié)合得到高斯過(guò)程的時(shí)間差分(Gaussian Process Temporal Difference,GPTD)學(xué)習(xí)算法[13,14],建立值函數(shù)的概率生成模型,然后根據(jù)先驗(yàn),以及觀測(cè)到的樣本,利用貝葉斯推理得到值函數(shù)完整的后驗(yàn)分布.

    對(duì)于固定的策略,GPTD能夠較準(zhǔn)確的評(píng)估該策略的值函數(shù),但是GPTD算法的明顯缺點(diǎn)是模型的學(xué)習(xí)完全依賴于樣本,計(jì)算量較大.Engel等人提出了依賴于特征空間的在線核稀疏化方法,將核函數(shù)看作是在高維希伯爾特空間上的兩個(gè)向量的內(nèi)積,直接去除那些能夠用特征空間中特征近似線性逼近的樣本[15],利用最小二乘方法來(lái)求解新樣本的近似線性逼近,以提高時(shí)間和空間效率.

    本文針對(duì)在強(qiáng)化學(xué)習(xí)狀態(tài)空間中需要選擇近似狀態(tài)的問(wèn)題,在高斯過(guò)程框架上提出一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法(Bayesian Temporal Difference algorithm based on Random Projection,RPGPTD).該算法對(duì)于新?tīng)顟B(tài),首先進(jìn)行預(yù)處理,把狀態(tài)轉(zhuǎn)變?yōu)槎M(jìn)制編碼,使得相似的數(shù)據(jù)對(duì)象,其二進(jìn)制編碼也相似,在此基礎(chǔ)上進(jìn)行相似性比較選擇,同時(shí)設(shè)置參數(shù)閾值來(lái)控制狀態(tài)字典集合逼近真實(shí)狀態(tài)空間程度.實(shí)驗(yàn)結(jié)果表明,該方法不僅能夠提高算法的執(zhí)行速度,而且在值函數(shù)評(píng)估質(zhì)量和時(shí)間上有較好的平衡.

    2 相關(guān)理論

    2.1 馬爾科夫決策過(guò)程

    在強(qiáng)化學(xué)習(xí)中,通常用馬爾科夫決策過(guò)程來(lái)對(duì)描述的問(wèn)題進(jìn)行建模,它把強(qiáng)化學(xué)習(xí)問(wèn)題描述為一個(gè)四元組M=,其中X是環(huán)境的狀態(tài)集合;U是Agent能采取的動(dòng)作集合;f(·|x,u)為狀態(tài)x下執(zhí)行動(dòng)作u轉(zhuǎn)移到下一狀態(tài)的概率分布,它對(duì)后繼狀態(tài)的不確定性進(jìn)行了模型化;f0(·)表示初始狀態(tài)被選擇的概率分布;ρ(·|x,u)是立即獎(jiǎng)賞函數(shù)的概率分布,r(x,u)是滿足ρ(·|x,u)的一個(gè)隨機(jī)變量,表示在狀態(tài)x處,Agent執(zhí)行動(dòng)作u,到達(dá)后繼狀態(tài)x′獲得的獎(jiǎng)賞值.

    強(qiáng)化學(xué)習(xí)中,值函數(shù)通常分為兩種:狀態(tài)值函數(shù)和動(dòng)作值函數(shù).本文以狀態(tài)值函數(shù)為基礎(chǔ),但是很容易擴(kuò)展到動(dòng)作值函數(shù),狀態(tài)值函數(shù)V(x)是指當(dāng)前狀態(tài)x下回報(bào)R(x)的期望值.

    =Eh{r(x)+γR(x′)}

    (1)

    2.2 高斯過(guò)程時(shí)間差分算法

    (2)

    將公式(2)帶入公式(1)中,可得到關(guān)于立即獎(jiǎng)賞的生成模型,如公式(3)所示.

    r(x)=V(x)-γEx′|x{V(x′)}+N(x)

    (3)

    在確定性問(wèn)題的在線學(xué)習(xí)過(guò)程中,公式(3)可以改寫(xiě)成公式(4).

    r(x)=V(x)-γV(x′)+N(x)

    (4)

    其中,N(x)為噪聲項(xiàng).

    假定給定一條包含t+1個(gè)樣本的路徑ξ=(x0,x1,…,xt-1,xt),可以得到如公式(5)所示的t個(gè)等式.

    r(xi)=V(xi)-γV(xi+1)+N(xi)

    (5)

    將這t個(gè)等式的狀態(tài)值函數(shù)、立即獎(jiǎng)賞以及噪聲分別寫(xiě)成向量的形式,如公式(6)、(7)、(8)所示.

    Vt=(V(x0),V(x1),…,V(xt))T

    (6)

    rt-1=(r(x0),r(x1),…,r(xt-1))T

    (7)

    Nt-1=(N(x0),N(x1),…,N(xt-1))T

    (8)

    根據(jù)這組樣本序列及公式(5),可得一個(gè)包含t個(gè)等式的向量表達(dá)式,如公式(9)所示.

    rt-1=HtVt+Nt-1

    (9)

    其中,Ht是一個(gè)t×(t+1)的矩陣,如公式(10)所示.

    (10)

    類比于高斯過(guò)程回歸方法,高斯過(guò)程時(shí)間差分算法在值函數(shù)上引入高斯先驗(yàn),即V~N(0,k(·,·)),意味著V是一個(gè)高斯過(guò)程,對(duì)于所有的x,x′∈X都有先驗(yàn)E(V(x))=0和E(V(x)V(x′))=k(x,x′),為了使得k(·,·)是一個(gè)合理的協(xié)方差函數(shù),需要核函數(shù)是對(duì)稱正定的,且核函數(shù)的選擇需要反映出兩個(gè)狀態(tài)之間的先驗(yàn)關(guān)系.因此,Vt~N(0,Kt),其中[Kt]i,j=k(xi,xj).

    假設(shè)1 假設(shè)各狀態(tài)的立即獎(jiǎng)賞的噪聲項(xiàng)相互獨(dú)立服從于高斯分布且與狀態(tài)值函數(shù)V相互獨(dú)立,均值為0,方差為σ2(x),即:N(x)~N(0,σ2(x)).則噪聲向量Nt-1的分布形式如公式(11)所示.

    (11)

    (12)

    (13)

    假設(shè)變量X和變量Y是隨機(jī)向量,且滿足多元正態(tài)分布,即

    利用貝葉斯規(guī)則,則變量X的后驗(yàn)X|Y滿足公式(14)

    (14)

    由此可以得出,設(shè)在一個(gè)情節(jié)中,前t個(gè)時(shí)刻,有樣本路徑ξ=(x0,x1,…,xt-1),以及獎(jiǎng)賞序列rt-1=(r(x0),r(x1),…,r(xt-1))T.

    3 基于隨機(jī)投影的貝葉斯差分算法及分析

    3.1 稀疏化方法

    (15)

    (16)

    (17)

    (18)

    (19)

    由公式(18)、(19)可得到稀疏化后的狀態(tài)值函數(shù)的后驗(yàn),如公式(20)所示:

    (20)

    3.2 基于隨機(jī)投影的貝葉斯時(shí)間差分算法

    定義1 對(duì)于狀態(tài)集合X,集合內(nèi)的狀態(tài)間相似度的計(jì)算公式為sim(·,·),如果存在一個(gè)哈希函數(shù)hash(·)滿足以下條件:存在一個(gè)相似度s到概率p的單調(diào)遞增映射關(guān)系,使得X中的任意兩個(gè)元素a和b滿足sim(a,b)≥s,且hash(a)=hash(b)的概率大于p,那么hash(·)就是該集合的一個(gè)隨機(jī)投影哈希函數(shù).

    隨機(jī)投影方法主要分為預(yù)處理階段和選擇階段兩個(gè)部分.

    (21)

    (22)

    在強(qiáng)化學(xué)習(xí)中,對(duì)于情節(jié)式任務(wù),設(shè)最后一個(gè)狀態(tài)為bound(vt)∈[-0.07,+0.07],由于bound(pt)∈[-1.2,+0.5],因此對(duì)于樣本g,有以下公式:

    g=-0.0025

    (23)

    即,可以暫時(shí)先把折扣因子置為0,遇到非終止?fàn)顟B(tài)時(shí)再把折扣因子重置為初始值.

    下面給出基于隨機(jī)投影的貝葉斯時(shí)間差分算法.

    4 實(shí)驗(yàn)及結(jié)果分析

    為了驗(yàn)證隨機(jī)投影高斯過(guò)程時(shí)間差分算法的有效性,以經(jīng)典的離散狀態(tài)空間的格子世界為基礎(chǔ)平臺(tái),來(lái)對(duì)RPGPTD算法的性能進(jìn)行測(cè)評(píng),并通過(guò)與已有的GPTD算法進(jìn)行性能對(duì)比來(lái)說(shuō)明RPGPTD算法的優(yōu)越性.

    在一個(gè)9×9的格子世界,每個(gè)格子代表一個(gè)狀態(tài),每個(gè)狀態(tài)可采取的動(dòng)作包括上、下、左、右4個(gè)方向的運(yùn)動(dòng).每次狀態(tài)遷移時(shí),Agent得到的立即獎(jiǎng)賞均為-1,到達(dá)終止?fàn)顟B(tài)時(shí)的獎(jiǎng)賞也為-1.折扣因子γ=1.

    閾值取為ν=1,所有噪聲方差均取σ2=0.1.

    在遵循策略h的情況下,分別對(duì)RPGPTD算法與GPTD算法執(zhí)行1000個(gè)情節(jié),比較兩個(gè)算法的執(zhí)行時(shí)間和值函數(shù)估計(jì)誤差.在給定算法參數(shù)后,每個(gè)算法都獨(dú)立運(yùn)行10次,每次獨(dú)立運(yùn)行都計(jì)算出兩種算法所需的時(shí)間以及對(duì)所有狀態(tài)進(jìn)行值函數(shù)估計(jì)的均方誤差,然后再計(jì)算各次獨(dú)立運(yùn)行的所需時(shí)間和值函數(shù)估計(jì)均方誤差的平均值,以此來(lái)作為算法的評(píng)價(jià)指標(biāo).

    首先,考察RPGPTD算法與GPTD算法在格子世界中執(zhí)行500以及1000個(gè)情節(jié)所需的時(shí)間,其中RPGPTD算法的參數(shù)l分別取為2,4,8,10,時(shí)間的單位為秒(s),如表1所示.

    表1 9×9格子世界問(wèn)題RPGPTD算法與GPTD算法在一定情節(jié)數(shù)內(nèi)執(zhí)行算法的時(shí)間比較

    9×9格子世界問(wèn)題500episodes1000episodesGPTD算法634.616s1362.522sRPGPTD算法l=2518.705s1079.906sRPGPTD算法l=4474.883s959.941sRPGPTD算法l=8480.905s953.443sRPGPTD算法l=10494.030s975.366s

    針對(duì)RPGPTD算法,在減少算法執(zhí)行時(shí)間的基礎(chǔ)上,進(jìn)一步對(duì)值函數(shù)評(píng)估的準(zhǔn)確度進(jìn)行考察.利用動(dòng)態(tài)規(guī)劃方法(DP)迭代可以計(jì)算出準(zhǔn)確的狀態(tài)值函數(shù),動(dòng)態(tài)規(guī)劃更新公式為:

    (24)

    將RPGPTD算法與GPTD算法執(zhí)行1000個(gè)情節(jié)得到的狀態(tài)值函數(shù)與利用動(dòng)態(tài)規(guī)劃方法得到的值函數(shù)進(jìn)行比較.以均方根誤差函數(shù)作為比較準(zhǔn)則:

    (25)

    圖1給出了RPGPTD算法與GPTD算法的狀態(tài)值函數(shù)的均方根誤差隨情節(jié)數(shù)增加而變化的曲線圖.圖中RPGPTD算法的參數(shù)l取為2.由圖可以看出,在遵循策略h的情況下,RPGPTD算法與GPTD算法對(duì)狀態(tài)值函數(shù)的評(píng)估能力一致,兩種算法在200個(gè)情節(jié)數(shù)后都能很好的收斂,且逼近精度也一致.

    下面探究RPGPTD算法中參數(shù)l對(duì)值函數(shù)評(píng)估的影響,圖2所示的曲線是參數(shù)l分別取為2,4,8,10時(shí)RMSE隨情節(jié)數(shù)的變化圖.當(dāng)參數(shù)l取2,4時(shí),在前200個(gè)情節(jié),RMSE的值震蕩下降,震蕩較大,200個(gè)情節(jié)之后震蕩較小,逐漸趨于一致且收斂,當(dāng)參數(shù)l取8,10時(shí),在前200個(gè)情節(jié),RMSE震蕩較大,但是在200個(gè)情節(jié)后,RMSE曲線圖明顯高于參數(shù)取2,4時(shí)的曲線圖,即對(duì)狀態(tài)值函數(shù)的評(píng)估誤差較大,評(píng)估結(jié)果不理想,所以在參數(shù)l較大時(shí),狀態(tài)值函數(shù)評(píng)估誤差較大.由此可見(jiàn),理想情況下,參數(shù)l越大,執(zhí)行速度越快,并且呈指數(shù)級(jí)的提升,但是,在這種情況下哈希函數(shù)HASH(·)的概率公式p(s)可以表示為與新來(lái)狀態(tài)x的相似度為s的狀態(tài)的召回率.當(dāng)參數(shù)l的取值越大時(shí)狀態(tài)的召回率必然降低,所以RPGPTD算法在參數(shù)l增大時(shí),對(duì)狀態(tài)值函數(shù)的評(píng)估效果不理想.

    5 結(jié)論

    本文針對(duì)于在強(qiáng)化學(xué)習(xí)狀態(tài)空間中近似狀態(tài)的選擇問(wèn)題,基于高斯過(guò)程時(shí)間差分框架,提出一種基于隨機(jī)投影的貝葉斯時(shí)間差分算法.高斯過(guò)程時(shí)間差分算法通過(guò)貝爾曼公式和貝葉斯規(guī)則,建立立即獎(jiǎng)賞與值函數(shù)之間的概率生成模型,但在評(píng)估值函數(shù)時(shí),算法執(zhí)行速度較慢,為進(jìn)一步提升執(zhí)行時(shí)間,利用哈希函數(shù)把字典狀態(tài)集合中的元素映射成哈希值,把狀態(tài)轉(zhuǎn)變?yōu)槎M(jìn)制編碼,使得相似的數(shù)據(jù)對(duì)象,其二進(jìn)制編碼也相似,根據(jù)哈希值進(jìn)行分組,進(jìn)而減少狀態(tài)之間的比較,同時(shí)設(shè)置參數(shù)閾值來(lái)控制狀態(tài)字典集合逼近真實(shí)狀態(tài)空間的程度.實(shí)驗(yàn)結(jié)果表明,該方法不僅能夠提高算法的執(zhí)行速度,而且在評(píng)估狀態(tài)值函數(shù)精度和算法執(zhí)行時(shí)間上有較好的平衡.

    [1]Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].Cambridge:MIT Press,1998.

    [2]傅啟明,劉全,尤樹(shù)華,黃蔚,章曉芳.一種新的基于值函數(shù)遷移的快速Sarsa算法[J].電子學(xué)報(bào),2014,42(11):2157-2161.

    Fu Qiming,Liu Quan,You Shuhua,Huang Wei,Zhang Xiaofang.A novel fast Sarsa algorithm based on value function transfer[J].Acta Electronica Sinica,2014,42(11):2157-2161.(in Chinese)

    [3]Martínez Y,Nowé A,Suárez J,et al.A Reinforcement Learning Approach for the Flexible Job Shop Scheduling Problem[M].Learning and Intelligent Optimization:Springer Berlin Heidelberg,2014.253-262.

    [4]Amato C,Shani G.High-level reinforcement learning in strategy games[A].Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems[C].International Foundation for Autonomous Agents and Multiagent Systems,2010.75-82.

    [5]Marco Wiering,Martijn van Otterlo.Reinforcement Learning State of the Art[M].Singapore:Springer Press,2012.

    [6]Sutton R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.

    [7]Shawe-Taylor J,Cristianini N.Kernel Methods for Pattern Analysis[M].Cambridge:Cambridge University Press,2004.

    [8]Scholkopf B,Smola A J.Learning with Kernels:Support Vector Machines,Regularization,Optimization,and Eyond[M].Cambridge:MIT Press,2002.

    [9]Ormoneit D,Sen.Kernel-based reinforcement learning[J].Machine Learning,2012,49(2-3):161-178.

    [10]Xu X,Xie T,Hu D,et al.Kernel least-squares temporal difference learning[J].International Journal of Information Technology,2005,11(9):54-63.

    [11]Xu X,Hu D,Lu X.Kernel-based least squares policy iteration for reinforcement learning[J].IEEE Transactions on Neural Networks,2007,18:973-992.

    [12]C E Rasmussen and C K I Williams.Gaussian Processes for Machine Learning[M].Cambridge:MIT Press,2006.

    [13]Engel Y,Mannor S,Meir R.Bayes meets Bellman:the gaussian process approach to temporal difference learning[A].Proceedings of the 20th International Conference on Machine Learning[C].Washington:AAAI,2011.154-161.

    [14]Engel Y,Mannor S,Meir R.Reinforcement learning with gaussian processes[A].Proceedings of the 22nd International Conference on Machine Learning[C].Bonn:ACM,2014.201-208.

    [15]Engel Y,Mannor S,Meir R.Sparse Online Greedy Support Vector Regression[M].Berlin:Springer,2002.

    劉 全 男,1969年生于內(nèi)蒙古,博士,教授,博士生導(dǎo)師.主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、無(wú)線傳感器網(wǎng)絡(luò)、智能信息處理.

    E-mail:quanliu@suda.edu.cn

    于 俊 男,1989年生于江蘇泰州,碩士.主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、貝葉斯推理.

    A Bayesian Temporal Difference Algorithm Based on Random Projection

    LIU Quan1, 2, 3,YU Jun1,3,WANG Hui1,3,FU Qi-ming1,3, ZHU Fei1,3

    (1.SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215006,China;2.KeyLaboratoryofSymbolicComputationandKnowledgeEngineeringofJilinUniversity,MinistryofEducation,JilinUniversity,Changchun,Jilin130012,China;3.CollaborativeInnovationCenterofNovelSoftwareTechnologyandIndustrialization,Nanjing,Jiangsu210023,China)

    Most algorithms are based on policy evaluation in reinforcement learning.The Gaussian process temporal difference is an algorithm that uses Bayesian solution to evaluate value functions.In the method,Gaussian process builds a probabilistic generative model between the immediate reward and the value function through Bellman Equation and Bayesian rule.In order to improve the efficiency of the algorithm,approximate linear approximation for new samples is solved by on-line kernel sparse and least squares in state space.However,the time complexity is still high.To deal with this problem,a Bayesian temporal difference algorithm bases on random projection algorithm is proposed.The elements in dictionary state set are mapped to hash values by hash function.According to the hash values,groups are divided and the comparison between the states is reduced.The experimental results show that this algorithm not only improves the execution speed,but also obtains balance between execution time and precision of the state value function.

    reinforcement learning;markov decision process;gaussian process;random projection;temporal difference learning

    2015-04-08;

    2015-08-17;責(zé)任編輯:藍(lán)紅杰

    國(guó)家自然科學(xué)基金(No.61272005,No.61303108,No.61373094,No.61472262,No.61502323,No.61502329);江蘇省自然科學(xué)基金(No.BK2012616);江蘇省高校自然科學(xué)研究項(xiàng)目(No.13KJB520020);吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(No.93K172014K04);蘇州市應(yīng)用基礎(chǔ)研究計(jì)劃工業(yè)部分(No.SYG201422,No.SY201308)

    TP181

    A

    0372-2112 (2016)11-2752-06

    ??學(xué)報(bào)URL:http://www.ejournal.org.cn

    10.3969/j.issn.0372-2112.2016.11.026

    猜你喜歡
    狀態(tài)值貝葉斯高斯
    小高斯的大發(fā)現(xiàn)
    研究降雨事件對(duì)交通流時(shí)空特性的影響
    一種基于切換拓?fù)涞碾x散時(shí)間一致性協(xié)議
    天才數(shù)學(xué)家——高斯
    貝葉斯公式及其應(yīng)用
    基于短文本的突發(fā)事件發(fā)展過(guò)程表示方法
    基于貝葉斯估計(jì)的軌道占用識(shí)別方法
    一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
    電子器件(2015年5期)2015-12-29 08:43:15
    有限域上高斯正規(guī)基的一個(gè)注記
    大規(guī)模氣泡湮滅的元胞自動(dòng)機(jī)模擬
    国产麻豆69| 2018国产大陆天天弄谢| 久久久久久人妻| 亚洲免费av在线视频| 女的被弄到高潮叫床怎么办| 欧美激情高清一区二区三区 | 国产欧美亚洲国产| tube8黄色片| 一边摸一边做爽爽视频免费| 国精品久久久久久国模美| 日日撸夜夜添| 大香蕉久久成人网| 香蕉丝袜av| 成人免费观看视频高清| 欧美av亚洲av综合av国产av | 黄色一级大片看看| 日韩电影二区| 在线亚洲精品国产二区图片欧美| av在线播放精品| av免费观看日本| 亚洲,欧美精品.| 中文乱码字字幕精品一区二区三区| 一边亲一边摸免费视频| 汤姆久久久久久久影院中文字幕| 十八禁网站网址无遮挡| 18禁观看日本| www日本在线高清视频| 最新的欧美精品一区二区| 免费黄网站久久成人精品| 婷婷色综合www| 日韩一卡2卡3卡4卡2021年| 黄色视频不卡| 久久久国产欧美日韩av| 纯流量卡能插随身wifi吗| 国产日韩欧美视频二区| 日韩欧美精品免费久久| 久久午夜综合久久蜜桃| 亚洲av国产av综合av卡| 十八禁网站网址无遮挡| 丝瓜视频免费看黄片| 国产一区二区 视频在线| 亚洲国产欧美一区二区综合| 国产精品av久久久久免费| 久久久久久免费高清国产稀缺| 又粗又硬又长又爽又黄的视频| 亚洲一区二区三区欧美精品| 久热这里只有精品99| 久久精品国产a三级三级三级| 王馨瑶露胸无遮挡在线观看| 国产片内射在线| 色吧在线观看| 亚洲国产av影院在线观看| 免费在线观看黄色视频的| av福利片在线| 青草久久国产| 永久免费av网站大全| 男女之事视频高清在线观看 | 亚洲精品国产av成人精品| 精品卡一卡二卡四卡免费| 啦啦啦视频在线资源免费观看| 观看美女的网站| 精品久久蜜臀av无| 精品国产乱码久久久久久小说| 在线天堂最新版资源| 久久久欧美国产精品| 国产午夜精品一二区理论片| 伊人久久国产一区二区| 中文乱码字字幕精品一区二区三区| 少妇人妻 视频| 熟女av电影| 国产乱来视频区| 91aial.com中文字幕在线观看| 亚洲av欧美aⅴ国产| 女人久久www免费人成看片| 亚洲精品久久成人aⅴ小说| 国产精品久久久久久精品古装| 韩国高清视频一区二区三区| 老司机在亚洲福利影院| 国产精品99久久99久久久不卡 | 老司机靠b影院| 久久精品国产a三级三级三级| 久久久国产欧美日韩av| 日韩一区二区视频免费看| 久久精品aⅴ一区二区三区四区| 国产精品久久久av美女十八| 欧美精品高潮呻吟av久久| 黑人巨大精品欧美一区二区蜜桃| 天堂俺去俺来也www色官网| 最近手机中文字幕大全| 一二三四中文在线观看免费高清| 天堂8中文在线网| 国产成人啪精品午夜网站| 日本vs欧美在线观看视频| 日本vs欧美在线观看视频| 国产极品粉嫩免费观看在线| 91aial.com中文字幕在线观看| av免费观看日本| 国产 一区精品| 99热国产这里只有精品6| 极品人妻少妇av视频| 最新在线观看一区二区三区 | 免费看不卡的av| 久久精品aⅴ一区二区三区四区| 久久国产精品男人的天堂亚洲| 嫩草影视91久久| 免费黄色在线免费观看| 一级黄片播放器| 日韩 亚洲 欧美在线| 在线 av 中文字幕| av女优亚洲男人天堂| 午夜91福利影院| 人人妻人人添人人爽欧美一区卜| 啦啦啦在线观看免费高清www| 日韩精品有码人妻一区| 国产极品天堂在线| 1024视频免费在线观看| 亚洲欧美精品自产自拍| 黄色一级大片看看| 久久久久精品人妻al黑| 亚洲精品美女久久久久99蜜臀 | 国产精品久久久久久精品电影小说| 大片免费播放器 马上看| 成人漫画全彩无遮挡| 男女高潮啪啪啪动态图| 99久久99久久久精品蜜桃| 国精品久久久久久国模美| 丝袜美足系列| a级毛片黄视频| 老汉色∧v一级毛片| 丝袜喷水一区| 欧美激情极品国产一区二区三区| 久久久久久久久久久久大奶| 亚洲免费av在线视频| 中文字幕av电影在线播放| 下体分泌物呈黄色| 在线亚洲精品国产二区图片欧美| 18禁国产床啪视频网站| 肉色欧美久久久久久久蜜桃| 纵有疾风起免费观看全集完整版| 一本色道久久久久久精品综合| 天美传媒精品一区二区| 又黄又粗又硬又大视频| 亚洲精品中文字幕在线视频| 日韩视频在线欧美| 九草在线视频观看| 满18在线观看网站| 超色免费av| 少妇的丰满在线观看| 校园人妻丝袜中文字幕| www日本在线高清视频| 婷婷成人精品国产| 成人午夜精彩视频在线观看| 国产毛片在线视频| 亚洲国产精品999| 久久国产精品大桥未久av| 成年人免费黄色播放视频| 久久人妻熟女aⅴ| 色网站视频免费| 国产精品.久久久| 免费高清在线观看日韩| av有码第一页| 五月开心婷婷网| 亚洲av日韩精品久久久久久密 | 国产老妇伦熟女老妇高清| 精品少妇一区二区三区视频日本电影 | 亚洲精品久久久久久婷婷小说| 久久天躁狠狠躁夜夜2o2o | 欧美日本中文国产一区发布| 精品酒店卫生间| 成人亚洲精品一区在线观看| 高清黄色对白视频在线免费看| 免费高清在线观看日韩| 91国产中文字幕| 狂野欧美激情性xxxx| 久久久久久久久免费视频了| 大片免费播放器 马上看| 久久久欧美国产精品| av视频免费观看在线观看| 国产精品香港三级国产av潘金莲 | 美女视频免费永久观看网站| 女的被弄到高潮叫床怎么办| 国产成人午夜福利电影在线观看| 亚洲成色77777| 免费观看av网站的网址| 亚洲av日韩在线播放| 天天操日日干夜夜撸| 欧美xxⅹ黑人| 午夜日本视频在线| 又大又爽又粗| 亚洲熟女精品中文字幕| 1024视频免费在线观看| 欧美日韩视频精品一区| 久久久亚洲精品成人影院| 纵有疾风起免费观看全集完整版| 香蕉丝袜av| 国产免费福利视频在线观看| 免费人妻精品一区二区三区视频| 日韩大码丰满熟妇| 午夜福利网站1000一区二区三区| 亚洲精品久久久久久婷婷小说| 亚洲熟女精品中文字幕| 在线观看免费午夜福利视频| 成人国语在线视频| 男人操女人黄网站| 色婷婷av一区二区三区视频| 日韩精品有码人妻一区| 99精品久久久久人妻精品| 一本色道久久久久久精品综合| 欧美日韩视频高清一区二区三区二| 午夜福利视频精品| 午夜激情av网站| 中文字幕亚洲精品专区| 国产精品久久久av美女十八| 亚洲精品一二三| 国产又色又爽无遮挡免| 国产av精品麻豆| 美女大奶头黄色视频| 亚洲美女黄色视频免费看| 欧美日韩亚洲国产一区二区在线观看 | videosex国产| 国产一区二区激情短视频 | 纯流量卡能插随身wifi吗| 亚洲精品国产av蜜桃| 欧美成人午夜精品| 中文字幕亚洲精品专区| 免费黄频网站在线观看国产| 男女床上黄色一级片免费看| 叶爱在线成人免费视频播放| 色精品久久人妻99蜜桃| 日韩精品有码人妻一区| 一本色道久久久久久精品综合| 欧美久久黑人一区二区| 一区二区三区乱码不卡18| 在线免费观看不下载黄p国产| 国产欧美日韩一区二区三区在线| 国产色婷婷99| 国产又色又爽无遮挡免| 男女床上黄色一级片免费看| 欧美精品一区二区大全| 如日韩欧美国产精品一区二区三区| 自拍欧美九色日韩亚洲蝌蚪91| 搡老乐熟女国产| 久久韩国三级中文字幕| 国产 精品1| 天堂俺去俺来也www色官网| 韩国精品一区二区三区| 18禁国产床啪视频网站| 国产欧美亚洲国产| 亚洲精品视频女| 日本vs欧美在线观看视频| www.精华液| 超碰成人久久| 亚洲伊人色综图| 国产精品二区激情视频| 久久精品人人爽人人爽视色| a级毛片在线看网站| 免费高清在线观看视频在线观看| 久久这里只有精品19| 一边亲一边摸免费视频| 亚洲婷婷狠狠爱综合网| 嫩草影视91久久| 国产一卡二卡三卡精品 | 夫妻性生交免费视频一级片| 亚洲一码二码三码区别大吗| 成年女人毛片免费观看观看9 | 人人妻人人澡人人爽人人夜夜| 成人黄色视频免费在线看| 国产精品欧美亚洲77777| 日日摸夜夜添夜夜爱| 国产日韩欧美视频二区| 男女床上黄色一级片免费看| 亚洲美女黄色视频免费看| 少妇的丰满在线观看| 精品人妻熟女毛片av久久网站| 亚洲精品视频女| xxxhd国产人妻xxx| 在线亚洲精品国产二区图片欧美| 亚洲av日韩精品久久久久久密 | 青春草视频在线免费观看| 久久国产精品大桥未久av| 中文字幕另类日韩欧美亚洲嫩草| 69精品国产乱码久久久| 国产极品粉嫩免费观看在线| 亚洲精品国产色婷婷电影| 亚洲国产最新在线播放| 日韩一区二区三区影片| 久久国产精品男人的天堂亚洲| 国产成人精品久久二区二区91 | 国产一区亚洲一区在线观看| av在线播放精品| 最近2019中文字幕mv第一页| 国产精品麻豆人妻色哟哟久久| 成人亚洲欧美一区二区av| 操出白浆在线播放| 中国国产av一级| 青春草国产在线视频| 久久国产精品男人的天堂亚洲| 欧美日韩亚洲综合一区二区三区_| 成人国产麻豆网| 久久97久久精品| 建设人人有责人人尽责人人享有的| 亚洲欧美色中文字幕在线| 最近中文字幕2019免费版| 99热国产这里只有精品6| 校园人妻丝袜中文字幕| 麻豆乱淫一区二区| 亚洲欧美成人精品一区二区| 久久久亚洲精品成人影院| av天堂久久9| 亚洲三区欧美一区| 国产av一区二区精品久久| 久久天躁狠狠躁夜夜2o2o | 操出白浆在线播放| 国产免费一区二区三区四区乱码| 欧美av亚洲av综合av国产av | 国产日韩一区二区三区精品不卡| 国产精品一区二区精品视频观看| 精品人妻在线不人妻| 男的添女的下面高潮视频| 精品一区二区三区四区五区乱码 | 国产精品久久久久久人妻精品电影 | 日韩视频在线欧美| 中文天堂在线官网| 久久精品久久久久久噜噜老黄| 国产视频首页在线观看| 女人爽到高潮嗷嗷叫在线视频| 下体分泌物呈黄色| 新久久久久国产一级毛片| 九草在线视频观看| 国产精品偷伦视频观看了| av一本久久久久| 黄网站色视频无遮挡免费观看| 国产精品香港三级国产av潘金莲 | 老司机影院毛片| 爱豆传媒免费全集在线观看| 大片免费播放器 马上看| 国产亚洲一区二区精品| 国产精品香港三级国产av潘金莲 | 午夜福利免费观看在线| 最新的欧美精品一区二区| 精品一区二区三区四区五区乱码 | av.在线天堂| 国产精品无大码| 精品一区二区三区四区五区乱码 | 人体艺术视频欧美日本| 一级,二级,三级黄色视频| 狂野欧美激情性xxxx| 嫩草影院入口| 免费黄频网站在线观看国产| 亚洲av电影在线进入| 免费人妻精品一区二区三区视频| 国产亚洲午夜精品一区二区久久| 久久精品亚洲熟妇少妇任你| 国产又爽黄色视频| 成人免费观看视频高清| 两性夫妻黄色片| 精品一区在线观看国产| 国语对白做爰xxxⅹ性视频网站| 中文字幕亚洲精品专区| 女人久久www免费人成看片| 精品久久久久久电影网| 日日爽夜夜爽网站| 人人妻,人人澡人人爽秒播 | 久久人人97超碰香蕉20202| 国产成人精品福利久久| 亚洲一卡2卡3卡4卡5卡精品中文| 一级毛片我不卡| 午夜影院在线不卡| 亚洲欧美一区二区三区黑人| www.熟女人妻精品国产| 国产无遮挡羞羞视频在线观看| 欧美激情 高清一区二区三区| 国产一区二区三区av在线| 9色porny在线观看| 亚洲欧美激情在线| 捣出白浆h1v1| 丝袜人妻中文字幕| 亚洲 欧美一区二区三区| 18禁动态无遮挡网站| www.av在线官网国产| 亚洲伊人久久精品综合| 国语对白做爰xxxⅹ性视频网站| 欧美精品高潮呻吟av久久| 男的添女的下面高潮视频| 亚洲成色77777| 久久这里只有精品19| 午夜免费鲁丝| 水蜜桃什么品种好| 午夜福利一区二区在线看| 国产黄频视频在线观看| 日本av手机在线免费观看| 欧美日韩亚洲高清精品| 黄色视频不卡| 国产国语露脸激情在线看| 久久精品国产综合久久久| 秋霞伦理黄片| 99精品久久久久人妻精品| 午夜福利视频精品| 天天躁狠狠躁夜夜躁狠狠躁| 欧美精品人与动牲交sv欧美| 欧美久久黑人一区二区| 国产深夜福利视频在线观看| 国产免费现黄频在线看| 亚洲av福利一区| 一边摸一边抽搐一进一出视频| 蜜桃在线观看..| 精品国产乱码久久久久久小说| 久久精品国产综合久久久| 黑人巨大精品欧美一区二区蜜桃| 色网站视频免费| 男女边吃奶边做爰视频| 亚洲国产成人一精品久久久| 人人妻人人澡人人爽人人夜夜| 狂野欧美激情性xxxx| 超碰成人久久| 两个人免费观看高清视频| 哪个播放器可以免费观看大片| 人妻人人澡人人爽人人| 午夜免费观看性视频| 一区在线观看完整版| av电影中文网址| 男人添女人高潮全过程视频| 18在线观看网站| 成人影院久久| 另类精品久久| 丝袜美腿诱惑在线| www.熟女人妻精品国产| 老司机靠b影院| 久久人妻熟女aⅴ| 久久综合国产亚洲精品| 女的被弄到高潮叫床怎么办| 久久久久久久久久久久大奶| 久久综合国产亚洲精品| 男女午夜视频在线观看| 纵有疾风起免费观看全集完整版| 青青草视频在线视频观看| 中文字幕亚洲精品专区| 91精品伊人久久大香线蕉| 欧美精品亚洲一区二区| 欧美日本中文国产一区发布| 可以免费在线观看a视频的电影网站 | 王馨瑶露胸无遮挡在线观看| 午夜福利乱码中文字幕| 亚洲熟女精品中文字幕| 婷婷色综合www| 欧美激情极品国产一区二区三区| 久久久国产一区二区| 亚洲图色成人| 午夜福利网站1000一区二区三区| 91老司机精品| 国产日韩欧美在线精品| 日本av免费视频播放| 嫩草影院入口| av视频免费观看在线观看| 国产极品粉嫩免费观看在线| 水蜜桃什么品种好| 亚洲精品美女久久av网站| 国产精品亚洲av一区麻豆 | 丝袜美腿诱惑在线| 久久久久久久久免费视频了| 日本欧美视频一区| 国产一区二区在线观看av| 亚洲一区中文字幕在线| 宅男免费午夜| 中国三级夫妇交换| 在线免费观看不下载黄p国产| 亚洲人成77777在线视频| www.熟女人妻精品国产| 日韩制服丝袜自拍偷拍| 国产极品天堂在线| 人妻人人澡人人爽人人| 欧美黑人欧美精品刺激| 在线观看三级黄色| 国产一级毛片在线| 美女大奶头黄色视频| 99久久99久久久精品蜜桃| 亚洲男人天堂网一区| 亚洲精品国产一区二区精华液| 亚洲av在线观看美女高潮| 国产黄色免费在线视频| av国产久精品久网站免费入址| 国产成人午夜福利电影在线观看| 女人精品久久久久毛片| 国产精品久久久久久精品古装| 黄频高清免费视频| 成人18禁高潮啪啪吃奶动态图| 免费少妇av软件| 精品久久久久久电影网| 精品少妇一区二区三区视频日本电影 | 高清在线视频一区二区三区| 欧美日韩成人在线一区二区| 国产精品嫩草影院av在线观看| 亚洲国产日韩一区二区| 亚洲欧洲日产国产| 涩涩av久久男人的天堂| 国产精品成人在线| 婷婷色综合www| 国产一区二区三区综合在线观看| av网站在线播放免费| 久久久久久人妻| 街头女战士在线观看网站| a级毛片黄视频| 亚洲av电影在线进入| 欧美久久黑人一区二区| 午夜福利乱码中文字幕| 最近最新中文字幕免费大全7| 久久久久久人人人人人| 亚洲精品,欧美精品| 中文乱码字字幕精品一区二区三区| 大香蕉久久网| 9色porny在线观看| 精品人妻在线不人妻| 爱豆传媒免费全集在线观看| 亚洲精品在线美女| 天天操日日干夜夜撸| 又黄又粗又硬又大视频| 色94色欧美一区二区| 久久青草综合色| 国产午夜精品一二区理论片| 波野结衣二区三区在线| 免费av中文字幕在线| 中文字幕制服av| 免费观看av网站的网址| av国产久精品久网站免费入址| 不卡视频在线观看欧美| 国产高清国产精品国产三级| 欧美97在线视频| 一本色道久久久久久精品综合| 欧美 日韩 精品 国产| 老鸭窝网址在线观看| 国产在视频线精品| 欧美最新免费一区二区三区| 久久 成人 亚洲| 国产伦理片在线播放av一区| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲美女搞黄在线观看| 成人黄色视频免费在线看| 麻豆精品久久久久久蜜桃| 超色免费av| 少妇 在线观看| 美女大奶头黄色视频| 超碰成人久久| 国产精品av久久久久免费| 嫩草影院入口| 国产精品.久久久| 亚洲精品久久午夜乱码| 秋霞伦理黄片| 操出白浆在线播放| 超碰97精品在线观看| 欧美精品人与动牲交sv欧美| 久久精品国产综合久久久| 国产一区二区激情短视频 | 在线观看免费视频网站a站| 爱豆传媒免费全集在线观看| 亚洲精品一区蜜桃| 少妇被粗大猛烈的视频| 国产 精品1| 欧美精品一区二区大全| 高清欧美精品videossex| 香蕉丝袜av| 国产在视频线精品| 精品国产露脸久久av麻豆| 91精品伊人久久大香线蕉| 黄色一级大片看看| 亚洲,一卡二卡三卡| 国产一区二区三区综合在线观看| 啦啦啦视频在线资源免费观看| 日本黄色日本黄色录像| 久久午夜综合久久蜜桃| 热99久久久久精品小说推荐| √禁漫天堂资源中文www| 免费少妇av软件| 成人国产av品久久久| 看免费av毛片| 久久亚洲国产成人精品v| 成人影院久久| 99re6热这里在线精品视频| 综合色丁香网| 国产在线视频一区二区| 黄色毛片三级朝国网站| 久久精品国产亚洲av涩爱| 日本av手机在线免费观看| 老汉色av国产亚洲站长工具| xxxhd国产人妻xxx| 99国产精品免费福利视频| 亚洲国产精品一区三区| 免费在线观看完整版高清| 精品一区二区三区av网在线观看 | 天堂俺去俺来也www色官网| 超色免费av| 飞空精品影院首页| 久久久久精品久久久久真实原创| 纯流量卡能插随身wifi吗| 免费在线观看黄色视频的| 国产爽快片一区二区三区| 午夜老司机福利片| 免费黄网站久久成人精品| 亚洲av成人精品一二三区| 极品少妇高潮喷水抽搐| 亚洲精品乱久久久久久| 日韩视频在线欧美| 免费久久久久久久精品成人欧美视频| 日韩精品免费视频一区二区三区| 国产精品三级大全| 亚洲精华国产精华液的使用体验| 观看美女的网站| 欧美激情极品国产一区二区三区| 精品少妇内射三级| 波野结衣二区三区在线| 国语对白做爰xxxⅹ性视频网站| 中文字幕另类日韩欧美亚洲嫩草| 久久精品亚洲熟妇少妇任你| 人成视频在线观看免费观看| 女性被躁到高潮视频| 亚洲国产欧美一区二区综合|