• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于風(fēng)險(xiǎn)避免強(qiáng)化學(xué)習(xí)的單交叉口配時(shí)優(yōu)化

      2014-05-09 12:03:40毛盈方盧守峰
      交通科學(xué)與工程 2014年1期
      關(guān)鍵詞:綠燈排隊(duì)長(zhǎng)度

      毛盈方,盧守峰

      近年來(lái),交通問(wèn)題逐漸成為了制約經(jīng)濟(jì)發(fā)展的主要問(wèn)題之一。為了解決交通問(wèn)題,智能交通逐步成為大家研究的主要課題之一。強(qiáng)化學(xué)習(xí)就是其中重要的研究方面,并且取得的了一定的成果。強(qiáng)化學(xué)習(xí)的優(yōu)化法則是馬爾可夫決策問(wèn)題的預(yù)測(cè)回報(bào),但在實(shí)際問(wèn)題中并不是最適合的法則。許多實(shí)際問(wèn)題要求魯棒性控制策略考慮回報(bào)的變動(dòng)問(wèn)題,尤其是在運(yùn)行過(guò)程中風(fēng)險(xiǎn)較大的特殊情況。

      在交通信號(hào)配時(shí)優(yōu)化方面,應(yīng)用強(qiáng)化學(xué)習(xí)的研究有了一些進(jìn)展。Ilva[1-2]等人針對(duì)噪音環(huán)境建立了基于環(huán)境檢測(cè)的強(qiáng)化學(xué)習(xí)模型對(duì)配時(shí)優(yōu)化。通過(guò)檢測(cè)周圍環(huán)境的改變來(lái)學(xué)習(xí)動(dòng)態(tài)的流量模式,自動(dòng)對(duì)流量模式進(jìn)行識(shí)別,執(zhí)行對(duì)應(yīng)的策略,跟蹤環(huán)境轉(zhuǎn)換的預(yù)估誤差和獎(jiǎng)勵(lì)。黃艷國(guó)[3]等人把Agent技術(shù)與強(qiáng)化學(xué)習(xí)算法相結(jié)合,提出了基于Agent技術(shù)的交通信號(hào)控制方法。根據(jù)交叉口的實(shí)時(shí)路況信息,利用強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)自適應(yīng)控制,減少路口排隊(duì)車輛的平均延誤時(shí)間。Wiering[4]等人研究了基于“車輛投票”的強(qiáng)化學(xué)習(xí)優(yōu)化模型,核心理論是通過(guò)估計(jì)每個(gè)車輛的等待時(shí)間,決定信號(hào)配時(shí)方案,該模型優(yōu)于固定信號(hào)配時(shí)模型。戴朝暉[5]等人采用智能體系統(tǒng)動(dòng)態(tài)分層強(qiáng)化學(xué)習(xí)算法,研究未知環(huán)境下大規(guī)模學(xué)習(xí)時(shí)的“維度災(zāi)難”問(wèn)題,采用基于模型的強(qiáng)化學(xué)習(xí)利用已有的經(jīng)驗(yàn)來(lái)學(xué)習(xí)最優(yōu)策略,大大提高系統(tǒng)的學(xué)習(xí)效率。盧守峰[6]等人對(duì)固定周期和變周期兩種模式下的單交叉口信號(hào)配時(shí)優(yōu)化進(jìn)行研究,構(gòu)造了等飽和度優(yōu)化目標(biāo)的獎(jiǎng)勵(lì)函數(shù),建立了等飽和度和延誤最小兩個(gè)優(yōu)化目標(biāo)的離線Q學(xué)習(xí)模型,有效地解決了狀態(tài)維數(shù)爆炸問(wèn)題。這些模型都利用了風(fēng)險(xiǎn)中立的強(qiáng)化學(xué)習(xí)理論,其缺點(diǎn)在于風(fēng)險(xiǎn)中立的強(qiáng)化學(xué)習(xí)模型的穩(wěn)定性與魯棒性不是很好,同時(shí)運(yùn)行過(guò)程中收斂效果不明顯,速度較慢。針對(duì)該問(wèn)題,作者擬提出風(fēng)險(xiǎn)避免強(qiáng)化學(xué)習(xí)信號(hào)配時(shí)模型,以期有效地解決風(fēng)險(xiǎn)中立強(qiáng)化學(xué)習(xí)模型的不足。

      1 風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)理論方法簡(jiǎn)介

      處理風(fēng)險(xiǎn)敏感最優(yōu)目標(biāo)問(wèn)題的方法有3種:

      1)最壞情況控制方法。該方法的核心是找出最壞情況下的回報(bào)。如果該情況下滿足要求,那么其他較優(yōu)的情況下的回報(bào)也能滿足。該方法的缺陷是所考慮的最壞情況在實(shí)際狀況中出現(xiàn)的概率很低,甚至不會(huì)出現(xiàn)。但對(duì)有的行業(yè)是非常必要的,特別是航空領(lǐng)域,其系統(tǒng)龐大,造價(jià)極貴,一旦出現(xiàn)問(wèn)題,就會(huì)造成極大的損失。Heger[7]針對(duì)這種情況發(fā)展了最壞情況強(qiáng)化學(xué)習(xí)算法,比較純粹的最壞情況控制,他在訓(xùn)練的最后階段不考慮這種在現(xiàn)實(shí)中出現(xiàn)概率極低的情況。

      2)指數(shù)效應(yīng)函數(shù)控制理論[8]。該方法是通過(guò)類似的效應(yīng)函數(shù)來(lái)改變逐步累積的回報(bào),從而尋求最優(yōu)策略。該方法較最壞情況控制方法取得了一定改進(jìn),然而,也存在著不足:它的等式結(jié)構(gòu)不適用對(duì)應(yīng)的無(wú)模型強(qiáng)化學(xué)習(xí)法則。同時(shí),經(jīng)過(guò)多次的運(yùn)算,最優(yōu)策略的不穩(wěn)定性會(huì)表現(xiàn)出來(lái),當(dāng)前的情況在下一步?jīng)]出現(xiàn)之前不能進(jìn)行判斷,存在滯后性。

      3)時(shí)間差分風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)理論框架[9]。該理論框架是在學(xué)習(xí)過(guò)程中改變時(shí)間差分。同時(shí),通過(guò)對(duì)算法的改進(jìn),成功并有效地解決了控制理論中的問(wèn)題。本研究擬運(yùn)用該框架對(duì)交叉口信號(hào)配時(shí)進(jìn)行優(yōu)化。

      時(shí)間差分風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)理論:在描述馬爾可夫決策問(wèn)題時(shí),給定狀態(tài)集S和行為集A,一系列的狀態(tài)i,j,…∈S和行為a∈A,當(dāng)整個(gè)系統(tǒng)處在狀態(tài)i時(shí),接下來(lái)向下一個(gè)狀態(tài)j轉(zhuǎn)移,有多個(gè)不同的行為選擇,根據(jù)不同的行為選取概率,在其中選取一個(gè)最優(yōu)的行為a,pij(a)為選取行為a的選擇概率。同時(shí)最后得到行為獎(jiǎng)勵(lì)gij(a)。假設(shè)行為的選取是一系列的策略(函數(shù))π∈Л,那么π(i)是行為函數(shù)。π(i)∈A,同理Jπ(i)為狀態(tài)i以后所有狀態(tài)行為采取后所得到的獎(jiǎng)勵(lì)折扣期望。于是,得到這樣的等式:

      式中:γ 為折扣因子,γ∈[0,1]。

      等式移項(xiàng)可得:

      Singh[9]提出的風(fēng)險(xiǎn)敏感控制理論是:定義k∈(-1,1)的范圍參數(shù)來(lái)描述風(fēng)險(xiǎn)的敏感,包括風(fēng)險(xiǎn)尋求和風(fēng)險(xiǎn)避免。定義變換函數(shù)為:

      把變換函數(shù)加入到式(2)中,得到:

      在式(3)中,如果k=0時(shí),式(4)與式(2)是一致的,即式(2)是式(4)的一種特殊情況,此時(shí)退化為風(fēng)險(xiǎn)中立強(qiáng)化學(xué)習(xí)模型。當(dāng)k>0時(shí),時(shí)間差分為:gij(π(i))+γJπ(j)-Jπ(i)<0。得到的獎(jiǎng)勵(lì)小于獎(jiǎng)勵(lì)平均值;當(dāng)k<0時(shí),得到的獎(jiǎng)勵(lì)大于獎(jiǎng)勵(lì)平均值。即如果k>0,函數(shù)是趨向于風(fēng)險(xiǎn)避免;如果k<0,函數(shù)是趨向于風(fēng)險(xiǎn)尋求。

      2 時(shí)間差分風(fēng)險(xiǎn)避免在線Q學(xué)習(xí)信號(hào)配時(shí)模型

      在城市道路交叉口中,車輛的到達(dá)是隨機(jī)的,波動(dòng)性較大。一旦出現(xiàn)突發(fā)情況,這就對(duì)信號(hào)配時(shí)要求較高,以便解決各種情況并保證交通順暢。保證交通的穩(wěn)定性和魯棒性至關(guān)重要。針對(duì)這種情況,構(gòu)造新的信號(hào)配時(shí)控制模型:風(fēng)險(xiǎn)避免在線Q學(xué)習(xí)信號(hào)配時(shí)控制模型。

      2.1 Q值更新函數(shù)的建立

      對(duì)于Q值函數(shù)的研究,其中最經(jīng)典的是Sutton[10]提出的,給定時(shí)刻t,觀察該時(shí)刻的環(huán)境狀態(tài)是s,同時(shí)選取的行為是a,然后執(zhí)行行為,在接下來(lái)的時(shí)刻t+1,狀態(tài)轉(zhuǎn)移到s+1,系統(tǒng)得到了一個(gè)獎(jiǎng)勵(lì)rt,從而對(duì)Q值進(jìn)行實(shí)時(shí)更新,規(guī)則為:

      式中:st為t時(shí)刻環(huán)境的狀態(tài);at為t時(shí)刻選取的行為;Qt(st,at)為t時(shí)刻下?tīng)顟B(tài)行為(st,at)的Q值;Qt+1(st,at)為t+1時(shí)刻下?tīng)顟B(tài)行為(st,at)的Q值;rt為t時(shí)刻后的回報(bào)值;α為學(xué)習(xí)速率,α∈[0,1];γ 為折扣因子,γ∈[0,1];A 為行為集合。

      又因?yàn)樵谑剑?)中α的取值范圍為[0,1],為了保證公式的一致性,故而χk的取值必須為[0,1],但觀察式(3)時(shí),χk的取值為[0,2]。故對(duì)式(6)中χk前加入1/2進(jìn)行變換:

      2.2 狀態(tài)、行為的選擇

      狀態(tài)是交叉口進(jìn)口道的排隊(duì)長(zhǎng)度,以最簡(jiǎn)單的二相位信號(hào)配時(shí)為例,它的關(guān)鍵車流有2個(gè),如果取排隊(duì)長(zhǎng)度區(qū)間[0,N],那么狀態(tài)數(shù)就有N2個(gè)。在城市道路中,N 較大,這就形成了維數(shù)災(zāi)難問(wèn)題,難以對(duì)狀態(tài)集進(jìn)行學(xué)習(xí)。因此,將排隊(duì)長(zhǎng)度區(qū)間進(jìn)行離散劃分,以劃分為4個(gè)小區(qū)間為例,狀態(tài)數(shù)減少至16個(gè)。

      行為是交叉口的信號(hào)配時(shí)方案,以最簡(jiǎn)單的二相位信號(hào)配時(shí)為例,假定交叉口的配時(shí)方案的綠燈時(shí)間區(qū)間為[20,60],以2s為間隔,那么綠燈時(shí)間集合有:G={gi|i=1,2,…,21}={20,22,…,60},其中:gi表示行為編號(hào)。劃分為21個(gè)行為,行為與綠燈時(shí)間的轉(zhuǎn)換關(guān)系式為:(行為編號(hào)+10)×2=綠燈時(shí)間。如:行為編號(hào)g3對(duì)應(yīng)的綠燈時(shí)間為26s。

      2.3 獎(jiǎng)勵(lì)函數(shù)的構(gòu)造

      選取排隊(duì)長(zhǎng)度作為交通評(píng)價(jià)指標(biāo),利用排隊(duì)長(zhǎng)度之差的絕對(duì)值來(lái)建立獎(jiǎng)勵(lì)函數(shù)。以平均排隊(duì)長(zhǎng)度差作為基本單位將獎(jiǎng)勵(lì)進(jìn)行離散,以劃分成5個(gè)部分為例,見(jiàn)表1。

      離散的目的是將不同行為對(duì)應(yīng)的Q值區(qū)分開(kāi),從而將行為的選擇概率區(qū)分開(kāi),好的行為選擇概率增大,且不易被突然增加的排隊(duì)長(zhǎng)度造成Q值劇增和選擇概率減小所影響。這樣,減小了車輛到達(dá)的隨機(jī)性,造成模型的不穩(wěn)定性,提高了模型的魯棒性。

      表1 獎(jiǎng)勵(lì)的構(gòu)造Table 1 Reward value

      2.4 行為選擇機(jī)制

      選取Pursuit函數(shù)作為行為選擇機(jī)制,根據(jù)Pursuit函數(shù),更新概率。當(dāng)運(yùn)行t個(gè)周期后,在t+1周期時(shí),選擇最優(yōu)行為a*t+1的概率為:

      選擇其他a≠a*t+1行為的概率為:

      式中:πt(a)為在周期為t時(shí)選擇行為a的概率;at*+1為最優(yōu)行為;β的取值為0<β<1。

      通過(guò)調(diào)整β,Pursuit函數(shù)既能確保以較大的概率選擇最優(yōu)行為,又能探索沒(méi)被選中過(guò)的行為,使行為的探索與利用保持平衡。

      2.5 在線學(xué)習(xí)的步驟

      在線學(xué)習(xí)模式是利用強(qiáng)化學(xué)習(xí)算法,對(duì)實(shí)際問(wèn)題進(jìn)行實(shí)時(shí)交互。在交互的過(guò)程中,系統(tǒng)獲取環(huán)境中的各種信息,得到經(jīng)驗(yàn),然后,利用Q值函數(shù),通過(guò)策略,形成優(yōu)化后的行為,再作用到環(huán)境中,不斷地學(xué)習(xí),逐步得到問(wèn)題的最佳狀態(tài)-行為對(duì)。模型中的折扣因子γ取值為0.8。

      在線風(fēng)險(xiǎn)避免Q學(xué)習(xí)信號(hào)配時(shí)優(yōu)化算法步驟為:

      1)初始化Q值為任意值。

      2)檢測(cè)當(dāng)前的排隊(duì)長(zhǎng)度,作為初始狀態(tài)s。3)利用Q值經(jīng)驗(yàn),在狀態(tài)對(duì)應(yīng)的配時(shí)方案中,依據(jù)策略,選取配時(shí)方案a。

      4)執(zhí)行方案a,獲取獎(jiǎng)勵(lì)r和新的狀態(tài)s′。

      6)更新Q 值法則:Qt+1(st,at)←Qt(st,at)+Qt+1(st+1,at+1)-Qt(st,at)]。

      7)將新的交通狀態(tài)s′賦予狀態(tài)s。

      8)重復(fù)3)~7),直到Q值收斂。

      3 實(shí)例分析

      選取長(zhǎng)沙市猴子石大橋的西端上橋路口進(jìn)行分析,猴子石大橋是連接長(zhǎng)沙河西與河?xùn)|的重要通道,它的交通作用非常關(guān)鍵,對(duì)信號(hào)配時(shí)的要求非常高。該路口是由主干道和上橋輔道構(gòu)成,主要流量來(lái)自于主干道,幾何線形如圖1所示。

      圖1 猴子石大橋西路口示意Fig.1 Geometry of Houzishi bridge

      根據(jù)實(shí)際調(diào)查取得的數(shù)據(jù),主橋的流量為3 024veh/h,上橋輔道的流量為1 502veh/h?,F(xiàn)狀采用固定周期兩相位信號(hào)配時(shí),信號(hào)周期為154s。根據(jù)實(shí)測(cè)數(shù)據(jù),主橋上的排隊(duì)長(zhǎng)度區(qū)間為[0,960]m,上橋輔道的排隊(duì)長(zhǎng)度區(qū)間為[0,400]m。設(shè)定每個(gè)相位全紅時(shí)間為2s,黃燈時(shí)間為3s,每個(gè)周期綠燈總損失時(shí)間為10s。將輔道綠燈時(shí)間的選擇設(shè)為學(xué)習(xí)的直接目標(biāo),設(shè)定輔道最小綠燈時(shí)間為22s,最大綠燈時(shí)間為62s。以2s為間隔,劃分為21個(gè)行為,行為與綠燈時(shí)間的轉(zhuǎn)換關(guān)系式為:(行為編號(hào)+10)×2=綠燈時(shí)間。在線學(xué)習(xí)的時(shí)間步長(zhǎng)為周期時(shí)間,初始Q值設(shè)為45,行為的初始概率設(shè)為1/21。針對(duì)進(jìn)口道流量較大,容易造成維數(shù)災(zāi)難,故對(duì)交通流量進(jìn)行分段的離散劃分。把主干道的排隊(duì)長(zhǎng)度區(qū)間[0,960]劃分為4個(gè)分段,把輔道的排隊(duì)長(zhǎng)度區(qū)間[0,400],同樣劃分為4段,得到:Flow1={fi|i=1,2,3,4}={[0,240),[240,480),[480,720),[720,960]};Flow2={hj|j=1,2,3,4}={[0,100),[100,200),[200,300),[300,400]}。從而得出有16個(gè)狀態(tài)的狀態(tài)集:S={s(i,j)|i=1,2,3,4;j=1,2,3,4}={(fi,hj)|1,2,3,4;j=1,2,3,4}。

      為了驗(yàn)證模型的效果,采用本課題組開(kāi)發(fā)的集成VISSIM、ExcelVBA及Matlab的仿真平臺(tái)[11]進(jìn)行研究。在仿真平臺(tái)上,在線風(fēng)險(xiǎn)避免Q學(xué)習(xí)信號(hào)配時(shí)優(yōu)化算法步驟的實(shí)例運(yùn)行為:

      1)在Excel中建立初始矩陣,取35為初始值。

      2)在VISSIM中獲取猴子石大橋的西端上橋路口主橋和輔道上的排隊(duì)長(zhǎng)度,檢測(cè)得到關(guān)鍵排隊(duì)長(zhǎng)度,并與Flow1和Flow2進(jìn)行比對(duì),得出相應(yīng)的i和j,并利用公式State=(i-1)×4+j,得到狀態(tài)。

      3)利用Q值矩陣,在該狀態(tài)對(duì)應(yīng)的21個(gè)行為中,依據(jù)行為選擇機(jī)制,選取最優(yōu)的行為,即最優(yōu)的配時(shí)方案。

      4)對(duì)選取的配時(shí)方案進(jìn)行仿真,再次得到兩個(gè)方向的關(guān)鍵排隊(duì)長(zhǎng)度和新的狀態(tài),同時(shí)根據(jù)獎(jiǎng)勵(lì)函數(shù)和排隊(duì)長(zhǎng)度,獲得對(duì)應(yīng)的獎(jiǎng)勵(lì),即排隊(duì)長(zhǎng)度差。

      5)把4)中獲得的相應(yīng)數(shù)據(jù)代入rt+γ·Qt+1(st+1,at+1)-Qt(st,at)中,得到時(shí)間差分,判斷正、負(fù),選取χk。

      6)根據(jù)式(7),對(duì)Q值進(jìn)行更新。

      7)將新的交通狀態(tài)s′賦予狀態(tài)s。

      8)若Q值矩陣不收斂,重復(fù)3)~7);否則,結(jié)束。

      根據(jù)步驟和式(7),分別選取k=0.1和k=0.9,來(lái)探索k取值的不同對(duì)應(yīng)信號(hào)交叉口配時(shí)的影響。分別在仿真平臺(tái)上運(yùn)行多次直至收斂,一次為一個(gè)信號(hào)周期。然后,選取其中一個(gè)迭代次數(shù)較多的狀態(tài)(2,2),進(jìn)行對(duì)比分析,如圖2所示。

      圖2 k=0.1和k=0.9時(shí),Q值運(yùn)行情況對(duì)比Fig.2 Qvalues for k=0.1and k=0.9

      圖2 中,不同顏色的線條表示21個(gè)不同的行為,橫線表示在運(yùn)行中系統(tǒng)許久沒(méi)有選取該行為了,線條的連續(xù)波動(dòng)表示系統(tǒng)連續(xù)選取了該行為。如果一條波動(dòng)線一直保持在21條線的最低Q值且連續(xù)跳動(dòng),則表示在該狀態(tài)下系統(tǒng)收斂于該行為。k越大,風(fēng)險(xiǎn)避免的程度越高。如:k=0.1時(shí),狀態(tài)(2,2)的收斂出現(xiàn)在系統(tǒng)運(yùn)行3 600次時(shí);而k=0.9時(shí),在系統(tǒng)運(yùn)行100次時(shí)就開(kāi)始收斂了。對(duì)于配時(shí)方案的穩(wěn)定性,二者達(dá)到收斂后都較穩(wěn)定。對(duì)于k=0.1時(shí),狀態(tài)(2,2)收斂于行為1,得到的兩相位綠燈時(shí)間為(22,122)s。收斂后的主干道平均排隊(duì)長(zhǎng)度為230.35m,輔道平均排隊(duì)長(zhǎng)度為150.01m,排隊(duì)長(zhǎng)度差為80.34m。對(duì)于k=0.9時(shí),狀態(tài)(2,2)收斂于行為9,得到的兩相位綠燈時(shí)間方案為(38,106)s。收斂后的主干道平均排隊(duì)長(zhǎng)度為274.82s,輔道平均排隊(duì)長(zhǎng)度125.01s,排隊(duì)長(zhǎng)度差為149.81m??偟膩?lái)說(shuō),k越大,收斂性越好且越快,但它探索的行為的個(gè)數(shù)較少。k分別取0.1和0.9時(shí),它們的性能差別較大。

      為了尋求既能保證收斂又能有較好性能的學(xué)習(xí)方法,采用將k小步距遞增的方式。提出在仿真過(guò)程中,可以等比例地把k從0逐步增加趨近于1,共運(yùn)行10 000次,k從0以0.1為步長(zhǎng)逐步增加至0.9。然后與風(fēng)險(xiǎn)中立的Q學(xué)習(xí)交通信號(hào)配時(shí)算法進(jìn)行對(duì)比。運(yùn)行10 000步后,取運(yùn)行次數(shù)較多的前8個(gè)狀態(tài)進(jìn)行對(duì)比分析,得出結(jié)果見(jiàn)表2。

      從表2中可以看出,風(fēng)險(xiǎn)避免的Q學(xué)習(xí)交通信號(hào)配時(shí)算法在運(yùn)行相同次數(shù)時(shí),收斂狀態(tài)的個(gè)數(shù)較多,收斂速度較快,同時(shí)配時(shí)方案效果也較好。這說(shuō)明該方法運(yùn)用在交叉口信號(hào)配時(shí)控制中較為理想。

      表2 結(jié)果分析對(duì)比Table 2 Comparative analysis

      4 結(jié)論

      本研究建立了風(fēng)險(xiǎn)避免Q學(xué)習(xí)交通信號(hào)配時(shí)在線學(xué)習(xí)模型,相對(duì)于已有文獻(xiàn)的風(fēng)險(xiǎn)中立的Q學(xué)習(xí)模型配時(shí)方案的穩(wěn)定性有較大改進(jìn),收斂速度更快。風(fēng)險(xiǎn)避免程度越大,收斂速度越快,模型越穩(wěn)定。針對(duì)風(fēng)險(xiǎn)系數(shù)k的變動(dòng)進(jìn)行了分析,并分析了它對(duì)配時(shí)方案和收斂性的影響。與風(fēng)險(xiǎn)中立Q學(xué)習(xí)模型相比,平均排隊(duì)長(zhǎng)度差相當(dāng),但是,能夠保證模型收斂,且速度較快。因此,針對(duì)交通信號(hào)配時(shí)優(yōu)化這類問(wèn)題,由于其隨機(jī)性較大、干擾因素較多,應(yīng)該采用風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)模型。又由于k的取值不同對(duì)模型的性能有較大差別,因此,采用k小步距遞增的方式,適合于交通信號(hào)配時(shí)優(yōu)化。

      ):

      [1] Oliveira D,Bazzan A L C,Silva B C,et al.Reinforcement learning based control of traffic lights in nonstationary environments:A case study in a microscopic simulator[A].Proceedings of the 4th European Workshop on Multi-Agent Systems[C].Lisbon,Portugal:[s.n.],2006:31-42.

      [2] Ilva B C,Oliveira D,Bazzan A L C,et al.Adaptive traffic control with reinforcement learning[A].Proceedings of the 4th Workshop on Agents in Traffic and Transportation[C].Hakodate,Japan:[s.n.],2006:80-86.

      [3] 黃艷國(guó),唐軍,許倫輝.基于Agent的城市道路交通信號(hào)控制方法[J].公路交通科技,2009,26(10):126-129.(HUANG Yan-guo,TANG Jun,XU Lunhui.City road traffic signal control method based on Agent[J].Highway Traffic Science and Technology,2009,26(10):126-129.(in Chinese))

      [4] Wiering M,Veenen J V,Vreeken J,et al.Intelligent traffic light control,institute of information and computing sciences[R].Dutch:Utrecht University,2004.

      [5] 戴朝暉,吳敏.基于混合抽象機(jī)制的多智能體系統(tǒng)動(dòng)態(tài)分層強(qiáng)化學(xué)習(xí)算法研究[D].長(zhǎng)沙:中南大學(xué),2011.(DAI Zhao-h(huán)ui,WU Min.Multi-agent dynamic hierarchical reinforcement learning based on hybrid abstraction[D].Changsha:Central South University,2011.(in Chinese))

      [6] 盧守峰,韋欽平.單交叉口信號(hào)配時(shí)的離線Q學(xué)習(xí)模型研究[J].控制工程,2012,19(6):987-992.(LU Shou-feng,WEI Qin-ping.Study on off-line Q-learning model for single intersection signal timing[J].Control Engineering,2012,19(6):987-992.(in Chinese))

      [7] Heger M.Consideration of risk and reinforcement learning[A].Machine earning:Proceedings of the E-leventh International Conference[C].San Francisco:Morgan Kaufmann Publishers,1994:105-111.

      [8] Howard R A,Matheson J E.Risk-sensitive markov decision processes[J].Management Science,1972,18(7):356-369.

      [9] Singh S.Risk-sensitive reinforcement learning[J].Machine Learning,2002,49(2-3):267-290.

      [10] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge,MA:MIT Press,1998.

      [11] 盧守峰,韋欽平,沈文,等.集成 VISSIM、ExcelVBA和MATLAB的仿真平臺(tái)研究[J].交通運(yùn)輸系統(tǒng)工程與信 息,2012,12(4):43-48.(LU Shou-feng,WEI Qin-ping,SHEN Wen,et al.Integrated simulation platform of VISSIM,Excel VBA and MATLAB[J].Journal of Transportation Systems Engineering and Information Technology,2012,12(4):43-48.(in Chinese))

      猜你喜歡
      綠燈排隊(duì)長(zhǎng)度
      怎樣排隊(duì)
      1米的長(zhǎng)度
      為什么紅燈停,綠燈行
      巧排隊(duì)列
      三角龍排隊(duì)
      愛(ài)的長(zhǎng)度
      怎樣比較簡(jiǎn)單的長(zhǎng)度
      紅燈停,綠燈行
      不同長(zhǎng)度
      一路綠燈 一路關(guān)愛(ài)
      临夏市| 宜都市| 五峰| 五指山市| 古交市| 从江县| 库尔勒市| 安新县| 娄底市| 津市市| 大竹县| 漾濞| 浦东新区| 万载县| 涞水县| 广平县| 武功县| 秦皇岛市| 永川市| 惠来县| 临夏县| 区。| 无锡市| 洪江市| 阿鲁科尔沁旗| 驻马店市| 益阳市| 宜兰县| 塘沽区| 临漳县| 商城县| 乌兰察布市| 晋宁县| 尼勒克县| 青河县| 海宁市| 鄂尔多斯市| 神木县| 沿河| 尤溪县| 梅河口市|