毛盈方,盧守峰
近年來(lái),交通問(wèn)題逐漸成為了制約經(jīng)濟(jì)發(fā)展的主要問(wèn)題之一。為了解決交通問(wèn)題,智能交通逐步成為大家研究的主要課題之一。強(qiáng)化學(xué)習(xí)就是其中重要的研究方面,并且取得的了一定的成果。強(qiáng)化學(xué)習(xí)的優(yōu)化法則是馬爾可夫決策問(wèn)題的預(yù)測(cè)回報(bào),但在實(shí)際問(wèn)題中并不是最適合的法則。許多實(shí)際問(wèn)題要求魯棒性控制策略考慮回報(bào)的變動(dòng)問(wèn)題,尤其是在運(yùn)行過(guò)程中風(fēng)險(xiǎn)較大的特殊情況。
在交通信號(hào)配時(shí)優(yōu)化方面,應(yīng)用強(qiáng)化學(xué)習(xí)的研究有了一些進(jìn)展。Ilva[1-2]等人針對(duì)噪音環(huán)境建立了基于環(huán)境檢測(cè)的強(qiáng)化學(xué)習(xí)模型對(duì)配時(shí)優(yōu)化。通過(guò)檢測(cè)周圍環(huán)境的改變來(lái)學(xué)習(xí)動(dòng)態(tài)的流量模式,自動(dòng)對(duì)流量模式進(jìn)行識(shí)別,執(zhí)行對(duì)應(yīng)的策略,跟蹤環(huán)境轉(zhuǎn)換的預(yù)估誤差和獎(jiǎng)勵(lì)。黃艷國(guó)[3]等人把Agent技術(shù)與強(qiáng)化學(xué)習(xí)算法相結(jié)合,提出了基于Agent技術(shù)的交通信號(hào)控制方法。根據(jù)交叉口的實(shí)時(shí)路況信息,利用強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)自適應(yīng)控制,減少路口排隊(duì)車輛的平均延誤時(shí)間。Wiering[4]等人研究了基于“車輛投票”的強(qiáng)化學(xué)習(xí)優(yōu)化模型,核心理論是通過(guò)估計(jì)每個(gè)車輛的等待時(shí)間,決定信號(hào)配時(shí)方案,該模型優(yōu)于固定信號(hào)配時(shí)模型。戴朝暉[5]等人采用智能體系統(tǒng)動(dòng)態(tài)分層強(qiáng)化學(xué)習(xí)算法,研究未知環(huán)境下大規(guī)模學(xué)習(xí)時(shí)的“維度災(zāi)難”問(wèn)題,采用基于模型的強(qiáng)化學(xué)習(xí)利用已有的經(jīng)驗(yàn)來(lái)學(xué)習(xí)最優(yōu)策略,大大提高系統(tǒng)的學(xué)習(xí)效率。盧守峰[6]等人對(duì)固定周期和變周期兩種模式下的單交叉口信號(hào)配時(shí)優(yōu)化進(jìn)行研究,構(gòu)造了等飽和度優(yōu)化目標(biāo)的獎(jiǎng)勵(lì)函數(shù),建立了等飽和度和延誤最小兩個(gè)優(yōu)化目標(biāo)的離線Q學(xué)習(xí)模型,有效地解決了狀態(tài)維數(shù)爆炸問(wèn)題。這些模型都利用了風(fēng)險(xiǎn)中立的強(qiáng)化學(xué)習(xí)理論,其缺點(diǎn)在于風(fēng)險(xiǎn)中立的強(qiáng)化學(xué)習(xí)模型的穩(wěn)定性與魯棒性不是很好,同時(shí)運(yùn)行過(guò)程中收斂效果不明顯,速度較慢。針對(duì)該問(wèn)題,作者擬提出風(fēng)險(xiǎn)避免強(qiáng)化學(xué)習(xí)信號(hào)配時(shí)模型,以期有效地解決風(fēng)險(xiǎn)中立強(qiáng)化學(xué)習(xí)模型的不足。
處理風(fēng)險(xiǎn)敏感最優(yōu)目標(biāo)問(wèn)題的方法有3種:
1)最壞情況控制方法。該方法的核心是找出最壞情況下的回報(bào)。如果該情況下滿足要求,那么其他較優(yōu)的情況下的回報(bào)也能滿足。該方法的缺陷是所考慮的最壞情況在實(shí)際狀況中出現(xiàn)的概率很低,甚至不會(huì)出現(xiàn)。但對(duì)有的行業(yè)是非常必要的,特別是航空領(lǐng)域,其系統(tǒng)龐大,造價(jià)極貴,一旦出現(xiàn)問(wèn)題,就會(huì)造成極大的損失。Heger[7]針對(duì)這種情況發(fā)展了最壞情況強(qiáng)化學(xué)習(xí)算法,比較純粹的最壞情況控制,他在訓(xùn)練的最后階段不考慮這種在現(xiàn)實(shí)中出現(xiàn)概率極低的情況。
2)指數(shù)效應(yīng)函數(shù)控制理論[8]。該方法是通過(guò)類似的效應(yīng)函數(shù)來(lái)改變逐步累積的回報(bào),從而尋求最優(yōu)策略。該方法較最壞情況控制方法取得了一定改進(jìn),然而,也存在著不足:它的等式結(jié)構(gòu)不適用對(duì)應(yīng)的無(wú)模型強(qiáng)化學(xué)習(xí)法則。同時(shí),經(jīng)過(guò)多次的運(yùn)算,最優(yōu)策略的不穩(wěn)定性會(huì)表現(xiàn)出來(lái),當(dāng)前的情況在下一步?jīng)]出現(xiàn)之前不能進(jìn)行判斷,存在滯后性。
3)時(shí)間差分風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)理論框架[9]。該理論框架是在學(xué)習(xí)過(guò)程中改變時(shí)間差分。同時(shí),通過(guò)對(duì)算法的改進(jìn),成功并有效地解決了控制理論中的問(wèn)題。本研究擬運(yùn)用該框架對(duì)交叉口信號(hào)配時(shí)進(jìn)行優(yōu)化。
時(shí)間差分風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)理論:在描述馬爾可夫決策問(wèn)題時(shí),給定狀態(tài)集S和行為集A,一系列的狀態(tài)i,j,…∈S和行為a∈A,當(dāng)整個(gè)系統(tǒng)處在狀態(tài)i時(shí),接下來(lái)向下一個(gè)狀態(tài)j轉(zhuǎn)移,有多個(gè)不同的行為選擇,根據(jù)不同的行為選取概率,在其中選取一個(gè)最優(yōu)的行為a,pij(a)為選取行為a的選擇概率。同時(shí)最后得到行為獎(jiǎng)勵(lì)gij(a)。假設(shè)行為的選取是一系列的策略(函數(shù))π∈Л,那么π(i)是行為函數(shù)。π(i)∈A,同理Jπ(i)為狀態(tài)i以后所有狀態(tài)行為采取后所得到的獎(jiǎng)勵(lì)折扣期望。于是,得到這樣的等式:
式中:γ 為折扣因子,γ∈[0,1]。
等式移項(xiàng)可得:
Singh[9]提出的風(fēng)險(xiǎn)敏感控制理論是:定義k∈(-1,1)的范圍參數(shù)來(lái)描述風(fēng)險(xiǎn)的敏感,包括風(fēng)險(xiǎn)尋求和風(fēng)險(xiǎn)避免。定義變換函數(shù)為:
把變換函數(shù)加入到式(2)中,得到:
在式(3)中,如果k=0時(shí),式(4)與式(2)是一致的,即式(2)是式(4)的一種特殊情況,此時(shí)退化為風(fēng)險(xiǎn)中立強(qiáng)化學(xué)習(xí)模型。當(dāng)k>0時(shí),時(shí)間差分為:gij(π(i))+γJπ(j)-Jπ(i)<0。得到的獎(jiǎng)勵(lì)小于獎(jiǎng)勵(lì)平均值;當(dāng)k<0時(shí),得到的獎(jiǎng)勵(lì)大于獎(jiǎng)勵(lì)平均值。即如果k>0,函數(shù)是趨向于風(fēng)險(xiǎn)避免;如果k<0,函數(shù)是趨向于風(fēng)險(xiǎn)尋求。
在城市道路交叉口中,車輛的到達(dá)是隨機(jī)的,波動(dòng)性較大。一旦出現(xiàn)突發(fā)情況,這就對(duì)信號(hào)配時(shí)要求較高,以便解決各種情況并保證交通順暢。保證交通的穩(wěn)定性和魯棒性至關(guān)重要。針對(duì)這種情況,構(gòu)造新的信號(hào)配時(shí)控制模型:風(fēng)險(xiǎn)避免在線Q學(xué)習(xí)信號(hào)配時(shí)控制模型。
對(duì)于Q值函數(shù)的研究,其中最經(jīng)典的是Sutton[10]提出的,給定時(shí)刻t,觀察該時(shí)刻的環(huán)境狀態(tài)是s,同時(shí)選取的行為是a,然后執(zhí)行行為,在接下來(lái)的時(shí)刻t+1,狀態(tài)轉(zhuǎn)移到s+1,系統(tǒng)得到了一個(gè)獎(jiǎng)勵(lì)rt,從而對(duì)Q值進(jìn)行實(shí)時(shí)更新,規(guī)則為:
式中:st為t時(shí)刻環(huán)境的狀態(tài);at為t時(shí)刻選取的行為;Qt(st,at)為t時(shí)刻下?tīng)顟B(tài)行為(st,at)的Q值;Qt+1(st,at)為t+1時(shí)刻下?tīng)顟B(tài)行為(st,at)的Q值;rt為t時(shí)刻后的回報(bào)值;α為學(xué)習(xí)速率,α∈[0,1];γ 為折扣因子,γ∈[0,1];A 為行為集合。
又因?yàn)樵谑剑?)中α的取值范圍為[0,1],為了保證公式的一致性,故而χk的取值必須為[0,1],但觀察式(3)時(shí),χk的取值為[0,2]。故對(duì)式(6)中χk前加入1/2進(jìn)行變換:
狀態(tài)是交叉口進(jìn)口道的排隊(duì)長(zhǎng)度,以最簡(jiǎn)單的二相位信號(hào)配時(shí)為例,它的關(guān)鍵車流有2個(gè),如果取排隊(duì)長(zhǎng)度區(qū)間[0,N],那么狀態(tài)數(shù)就有N2個(gè)。在城市道路中,N 較大,這就形成了維數(shù)災(zāi)難問(wèn)題,難以對(duì)狀態(tài)集進(jìn)行學(xué)習(xí)。因此,將排隊(duì)長(zhǎng)度區(qū)間進(jìn)行離散劃分,以劃分為4個(gè)小區(qū)間為例,狀態(tài)數(shù)減少至16個(gè)。
行為是交叉口的信號(hào)配時(shí)方案,以最簡(jiǎn)單的二相位信號(hào)配時(shí)為例,假定交叉口的配時(shí)方案的綠燈時(shí)間區(qū)間為[20,60],以2s為間隔,那么綠燈時(shí)間集合有:G={gi|i=1,2,…,21}={20,22,…,60},其中:gi表示行為編號(hào)。劃分為21個(gè)行為,行為與綠燈時(shí)間的轉(zhuǎn)換關(guān)系式為:(行為編號(hào)+10)×2=綠燈時(shí)間。如:行為編號(hào)g3對(duì)應(yīng)的綠燈時(shí)間為26s。
選取排隊(duì)長(zhǎng)度作為交通評(píng)價(jià)指標(biāo),利用排隊(duì)長(zhǎng)度之差的絕對(duì)值來(lái)建立獎(jiǎng)勵(lì)函數(shù)。以平均排隊(duì)長(zhǎng)度差作為基本單位將獎(jiǎng)勵(lì)進(jìn)行離散,以劃分成5個(gè)部分為例,見(jiàn)表1。
離散的目的是將不同行為對(duì)應(yīng)的Q值區(qū)分開(kāi),從而將行為的選擇概率區(qū)分開(kāi),好的行為選擇概率增大,且不易被突然增加的排隊(duì)長(zhǎng)度造成Q值劇增和選擇概率減小所影響。這樣,減小了車輛到達(dá)的隨機(jī)性,造成模型的不穩(wěn)定性,提高了模型的魯棒性。
表1 獎(jiǎng)勵(lì)的構(gòu)造Table 1 Reward value
選取Pursuit函數(shù)作為行為選擇機(jī)制,根據(jù)Pursuit函數(shù),更新概率。當(dāng)運(yùn)行t個(gè)周期后,在t+1周期時(shí),選擇最優(yōu)行為a*t+1的概率為:
選擇其他a≠a*t+1行為的概率為:
式中:πt(a)為在周期為t時(shí)選擇行為a的概率;at*+1為最優(yōu)行為;β的取值為0<β<1。
通過(guò)調(diào)整β,Pursuit函數(shù)既能確保以較大的概率選擇最優(yōu)行為,又能探索沒(méi)被選中過(guò)的行為,使行為的探索與利用保持平衡。
在線學(xué)習(xí)模式是利用強(qiáng)化學(xué)習(xí)算法,對(duì)實(shí)際問(wèn)題進(jìn)行實(shí)時(shí)交互。在交互的過(guò)程中,系統(tǒng)獲取環(huán)境中的各種信息,得到經(jīng)驗(yàn),然后,利用Q值函數(shù),通過(guò)策略,形成優(yōu)化后的行為,再作用到環(huán)境中,不斷地學(xué)習(xí),逐步得到問(wèn)題的最佳狀態(tài)-行為對(duì)。模型中的折扣因子γ取值為0.8。
在線風(fēng)險(xiǎn)避免Q學(xué)習(xí)信號(hào)配時(shí)優(yōu)化算法步驟為:
1)初始化Q值為任意值。
2)檢測(cè)當(dāng)前的排隊(duì)長(zhǎng)度,作為初始狀態(tài)s。3)利用Q值經(jīng)驗(yàn),在狀態(tài)對(duì)應(yīng)的配時(shí)方案中,依據(jù)策略,選取配時(shí)方案a。
4)執(zhí)行方案a,獲取獎(jiǎng)勵(lì)r和新的狀態(tài)s′。
6)更新Q 值法則:Qt+1(st,at)←Qt(st,at)+Qt+1(st+1,at+1)-Qt(st,at)]。
7)將新的交通狀態(tài)s′賦予狀態(tài)s。
8)重復(fù)3)~7),直到Q值收斂。
選取長(zhǎng)沙市猴子石大橋的西端上橋路口進(jìn)行分析,猴子石大橋是連接長(zhǎng)沙河西與河?xùn)|的重要通道,它的交通作用非常關(guān)鍵,對(duì)信號(hào)配時(shí)的要求非常高。該路口是由主干道和上橋輔道構(gòu)成,主要流量來(lái)自于主干道,幾何線形如圖1所示。
圖1 猴子石大橋西路口示意Fig.1 Geometry of Houzishi bridge
根據(jù)實(shí)際調(diào)查取得的數(shù)據(jù),主橋的流量為3 024veh/h,上橋輔道的流量為1 502veh/h?,F(xiàn)狀采用固定周期兩相位信號(hào)配時(shí),信號(hào)周期為154s。根據(jù)實(shí)測(cè)數(shù)據(jù),主橋上的排隊(duì)長(zhǎng)度區(qū)間為[0,960]m,上橋輔道的排隊(duì)長(zhǎng)度區(qū)間為[0,400]m。設(shè)定每個(gè)相位全紅時(shí)間為2s,黃燈時(shí)間為3s,每個(gè)周期綠燈總損失時(shí)間為10s。將輔道綠燈時(shí)間的選擇設(shè)為學(xué)習(xí)的直接目標(biāo),設(shè)定輔道最小綠燈時(shí)間為22s,最大綠燈時(shí)間為62s。以2s為間隔,劃分為21個(gè)行為,行為與綠燈時(shí)間的轉(zhuǎn)換關(guān)系式為:(行為編號(hào)+10)×2=綠燈時(shí)間。在線學(xué)習(xí)的時(shí)間步長(zhǎng)為周期時(shí)間,初始Q值設(shè)為45,行為的初始概率設(shè)為1/21。針對(duì)進(jìn)口道流量較大,容易造成維數(shù)災(zāi)難,故對(duì)交通流量進(jìn)行分段的離散劃分。把主干道的排隊(duì)長(zhǎng)度區(qū)間[0,960]劃分為4個(gè)分段,把輔道的排隊(duì)長(zhǎng)度區(qū)間[0,400],同樣劃分為4段,得到:Flow1={fi|i=1,2,3,4}={[0,240),[240,480),[480,720),[720,960]};Flow2={hj|j=1,2,3,4}={[0,100),[100,200),[200,300),[300,400]}。從而得出有16個(gè)狀態(tài)的狀態(tài)集:S={s(i,j)|i=1,2,3,4;j=1,2,3,4}={(fi,hj)|1,2,3,4;j=1,2,3,4}。
為了驗(yàn)證模型的效果,采用本課題組開(kāi)發(fā)的集成VISSIM、ExcelVBA及Matlab的仿真平臺(tái)[11]進(jìn)行研究。在仿真平臺(tái)上,在線風(fēng)險(xiǎn)避免Q學(xué)習(xí)信號(hào)配時(shí)優(yōu)化算法步驟的實(shí)例運(yùn)行為:
1)在Excel中建立初始矩陣,取35為初始值。
2)在VISSIM中獲取猴子石大橋的西端上橋路口主橋和輔道上的排隊(duì)長(zhǎng)度,檢測(cè)得到關(guān)鍵排隊(duì)長(zhǎng)度,并與Flow1和Flow2進(jìn)行比對(duì),得出相應(yīng)的i和j,并利用公式State=(i-1)×4+j,得到狀態(tài)。
3)利用Q值矩陣,在該狀態(tài)對(duì)應(yīng)的21個(gè)行為中,依據(jù)行為選擇機(jī)制,選取最優(yōu)的行為,即最優(yōu)的配時(shí)方案。
4)對(duì)選取的配時(shí)方案進(jìn)行仿真,再次得到兩個(gè)方向的關(guān)鍵排隊(duì)長(zhǎng)度和新的狀態(tài),同時(shí)根據(jù)獎(jiǎng)勵(lì)函數(shù)和排隊(duì)長(zhǎng)度,獲得對(duì)應(yīng)的獎(jiǎng)勵(lì),即排隊(duì)長(zhǎng)度差。
5)把4)中獲得的相應(yīng)數(shù)據(jù)代入rt+γ·Qt+1(st+1,at+1)-Qt(st,at)中,得到時(shí)間差分,判斷正、負(fù),選取χk。
6)根據(jù)式(7),對(duì)Q值進(jìn)行更新。
7)將新的交通狀態(tài)s′賦予狀態(tài)s。
8)若Q值矩陣不收斂,重復(fù)3)~7);否則,結(jié)束。
根據(jù)步驟和式(7),分別選取k=0.1和k=0.9,來(lái)探索k取值的不同對(duì)應(yīng)信號(hào)交叉口配時(shí)的影響。分別在仿真平臺(tái)上運(yùn)行多次直至收斂,一次為一個(gè)信號(hào)周期。然后,選取其中一個(gè)迭代次數(shù)較多的狀態(tài)(2,2),進(jìn)行對(duì)比分析,如圖2所示。
圖2 k=0.1和k=0.9時(shí),Q值運(yùn)行情況對(duì)比Fig.2 Qvalues for k=0.1and k=0.9
圖2 中,不同顏色的線條表示21個(gè)不同的行為,橫線表示在運(yùn)行中系統(tǒng)許久沒(méi)有選取該行為了,線條的連續(xù)波動(dòng)表示系統(tǒng)連續(xù)選取了該行為。如果一條波動(dòng)線一直保持在21條線的最低Q值且連續(xù)跳動(dòng),則表示在該狀態(tài)下系統(tǒng)收斂于該行為。k越大,風(fēng)險(xiǎn)避免的程度越高。如:k=0.1時(shí),狀態(tài)(2,2)的收斂出現(xiàn)在系統(tǒng)運(yùn)行3 600次時(shí);而k=0.9時(shí),在系統(tǒng)運(yùn)行100次時(shí)就開(kāi)始收斂了。對(duì)于配時(shí)方案的穩(wěn)定性,二者達(dá)到收斂后都較穩(wěn)定。對(duì)于k=0.1時(shí),狀態(tài)(2,2)收斂于行為1,得到的兩相位綠燈時(shí)間為(22,122)s。收斂后的主干道平均排隊(duì)長(zhǎng)度為230.35m,輔道平均排隊(duì)長(zhǎng)度為150.01m,排隊(duì)長(zhǎng)度差為80.34m。對(duì)于k=0.9時(shí),狀態(tài)(2,2)收斂于行為9,得到的兩相位綠燈時(shí)間方案為(38,106)s。收斂后的主干道平均排隊(duì)長(zhǎng)度為274.82s,輔道平均排隊(duì)長(zhǎng)度125.01s,排隊(duì)長(zhǎng)度差為149.81m??偟膩?lái)說(shuō),k越大,收斂性越好且越快,但它探索的行為的個(gè)數(shù)較少。k分別取0.1和0.9時(shí),它們的性能差別較大。
為了尋求既能保證收斂又能有較好性能的學(xué)習(xí)方法,采用將k小步距遞增的方式。提出在仿真過(guò)程中,可以等比例地把k從0逐步增加趨近于1,共運(yùn)行10 000次,k從0以0.1為步長(zhǎng)逐步增加至0.9。然后與風(fēng)險(xiǎn)中立的Q學(xué)習(xí)交通信號(hào)配時(shí)算法進(jìn)行對(duì)比。運(yùn)行10 000步后,取運(yùn)行次數(shù)較多的前8個(gè)狀態(tài)進(jìn)行對(duì)比分析,得出結(jié)果見(jiàn)表2。
從表2中可以看出,風(fēng)險(xiǎn)避免的Q學(xué)習(xí)交通信號(hào)配時(shí)算法在運(yùn)行相同次數(shù)時(shí),收斂狀態(tài)的個(gè)數(shù)較多,收斂速度較快,同時(shí)配時(shí)方案效果也較好。這說(shuō)明該方法運(yùn)用在交叉口信號(hào)配時(shí)控制中較為理想。
表2 結(jié)果分析對(duì)比Table 2 Comparative analysis
本研究建立了風(fēng)險(xiǎn)避免Q學(xué)習(xí)交通信號(hào)配時(shí)在線學(xué)習(xí)模型,相對(duì)于已有文獻(xiàn)的風(fēng)險(xiǎn)中立的Q學(xué)習(xí)模型配時(shí)方案的穩(wěn)定性有較大改進(jìn),收斂速度更快。風(fēng)險(xiǎn)避免程度越大,收斂速度越快,模型越穩(wěn)定。針對(duì)風(fēng)險(xiǎn)系數(shù)k的變動(dòng)進(jìn)行了分析,并分析了它對(duì)配時(shí)方案和收斂性的影響。與風(fēng)險(xiǎn)中立Q學(xué)習(xí)模型相比,平均排隊(duì)長(zhǎng)度差相當(dāng),但是,能夠保證模型收斂,且速度較快。因此,針對(duì)交通信號(hào)配時(shí)優(yōu)化這類問(wèn)題,由于其隨機(jī)性較大、干擾因素較多,應(yīng)該采用風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)模型。又由于k的取值不同對(duì)模型的性能有較大差別,因此,采用k小步距遞增的方式,適合于交通信號(hào)配時(shí)優(yōu)化。
(
):
[1] Oliveira D,Bazzan A L C,Silva B C,et al.Reinforcement learning based control of traffic lights in nonstationary environments:A case study in a microscopic simulator[A].Proceedings of the 4th European Workshop on Multi-Agent Systems[C].Lisbon,Portugal:[s.n.],2006:31-42.
[2] Ilva B C,Oliveira D,Bazzan A L C,et al.Adaptive traffic control with reinforcement learning[A].Proceedings of the 4th Workshop on Agents in Traffic and Transportation[C].Hakodate,Japan:[s.n.],2006:80-86.
[3] 黃艷國(guó),唐軍,許倫輝.基于Agent的城市道路交通信號(hào)控制方法[J].公路交通科技,2009,26(10):126-129.(HUANG Yan-guo,TANG Jun,XU Lunhui.City road traffic signal control method based on Agent[J].Highway Traffic Science and Technology,2009,26(10):126-129.(in Chinese))
[4] Wiering M,Veenen J V,Vreeken J,et al.Intelligent traffic light control,institute of information and computing sciences[R].Dutch:Utrecht University,2004.
[5] 戴朝暉,吳敏.基于混合抽象機(jī)制的多智能體系統(tǒng)動(dòng)態(tài)分層強(qiáng)化學(xué)習(xí)算法研究[D].長(zhǎng)沙:中南大學(xué),2011.(DAI Zhao-h(huán)ui,WU Min.Multi-agent dynamic hierarchical reinforcement learning based on hybrid abstraction[D].Changsha:Central South University,2011.(in Chinese))
[6] 盧守峰,韋欽平.單交叉口信號(hào)配時(shí)的離線Q學(xué)習(xí)模型研究[J].控制工程,2012,19(6):987-992.(LU Shou-feng,WEI Qin-ping.Study on off-line Q-learning model for single intersection signal timing[J].Control Engineering,2012,19(6):987-992.(in Chinese))
[7] Heger M.Consideration of risk and reinforcement learning[A].Machine earning:Proceedings of the E-leventh International Conference[C].San Francisco:Morgan Kaufmann Publishers,1994:105-111.
[8] Howard R A,Matheson J E.Risk-sensitive markov decision processes[J].Management Science,1972,18(7):356-369.
[9] Singh S.Risk-sensitive reinforcement learning[J].Machine Learning,2002,49(2-3):267-290.
[10] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge,MA:MIT Press,1998.
[11] 盧守峰,韋欽平,沈文,等.集成 VISSIM、ExcelVBA和MATLAB的仿真平臺(tái)研究[J].交通運(yùn)輸系統(tǒng)工程與信 息,2012,12(4):43-48.(LU Shou-feng,WEI Qin-ping,SHEN Wen,et al.Integrated simulation platform of VISSIM,Excel VBA and MATLAB[J].Journal of Transportation Systems Engineering and Information Technology,2012,12(4):43-48.(in Chinese))