• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于綠燈時(shí)間等飽和度的TD學(xué)習(xí)配時(shí)優(yōu)化模型*

      2014-10-10 07:33:22張吉光劉改紅
      關(guān)鍵詞:綠燈離線交叉口

      邵 維,張吉光,劉改紅

      (1.貴陽(yáng)職業(yè)技術(shù)學(xué)院軌道交通分院,貴州貴陽(yáng) 550000;2.玉屏縣公路管理所,貴州銅仁 554000)

      基于綠燈時(shí)間等飽和度的TD學(xué)習(xí)配時(shí)優(yōu)化模型*

      邵 維1,張吉光2,劉改紅1

      (1.貴陽(yáng)職業(yè)技術(shù)學(xué)院軌道交通分院,貴州貴陽(yáng) 550000;2.玉屏縣公路管理所,貴州銅仁 554000)

      首先對(duì)傳統(tǒng)的綠燈時(shí)間等飽和度概念進(jìn)行了擴(kuò)展,提出了分級(jí)綠燈時(shí)間等飽和度.在此基礎(chǔ)上,針對(duì)分級(jí)綠燈時(shí)間等飽和度目標(biāo),構(gòu)造了獎(jiǎng)賞函數(shù),采用了模糊方法解決流量狀態(tài)空間維數(shù)爆炸問(wèn)題,建立了定周期和變周期兩種模式下的四種離線TD學(xué)習(xí)配時(shí)優(yōu)化模型.通過(guò)Matlab編程,開(kāi)發(fā)了這四種模型的計(jì)算程序,相對(duì)于在線TD學(xué)習(xí)模型,離線TD學(xué)習(xí)模型更適合交叉口信號(hào)配時(shí)優(yōu)化.以一個(gè)兩相位控制的單交叉口配時(shí)優(yōu)化作為算例,對(duì)比分析了四種模型的性能.總體上變周期模式的離線TD學(xué)習(xí)模型可以獲得解的結(jié)構(gòu)、最優(yōu)解的分布,這是傳統(tǒng)配時(shí)理論不具備的.定周期條件下,獎(jiǎng)賞分級(jí)的效果不明顯;變周期條件下,獎(jiǎng)賞分級(jí)效果明顯,交通性能更優(yōu).

      配時(shí)優(yōu)化;綠燈時(shí)間等飽和度;TD方法;狀態(tài)模糊;變周期

      目前,交通問(wèn)題已成為影響社會(huì)經(jīng)濟(jì)發(fā)展、人民生活水平提高的一個(gè)制約因素,交通問(wèn)題已越來(lái)越受到人們的重視.然而交叉口信號(hào)燈控制的方法是交通控制要解決的核心問(wèn)題.平面交叉口的通行能力不足是造成大城市交通擁堵的主要原因之一,因此,如何優(yōu)化交通信號(hào)控制系統(tǒng)是交通管理中關(guān)鍵的工作.現(xiàn)代交通信號(hào)控制的類型五花八門,但單個(gè)交叉口的交通信號(hào)控制是交通控制網(wǎng)中最基本的節(jié)點(diǎn),它的信號(hào)控制優(yōu)化是解決城市交通擁堵的基礎(chǔ).繼定時(shí)控制和感應(yīng)控制這兩種控制方法之后,自適應(yīng)控制系統(tǒng)[1]在交通信號(hào)控制中的應(yīng)用取得了更為滿意的結(jié)果.本文立足于研究單個(gè)交叉口的信號(hào)燈控制問(wèn)題,采用強(qiáng)化學(xué)習(xí)[2]中的TD(Temporal Difference)學(xué)習(xí)算法[3],對(duì)單交叉口信號(hào)燈控制方法進(jìn)行研究,試圖研究和開(kāi)發(fā)解決交叉口信號(hào)燈控制的新方法和新思路.

      1 TD學(xué)習(xí)原理簡(jiǎn)介

      強(qiáng)化學(xué)習(xí)是一種不同于監(jiān)督學(xué)習(xí)的一種學(xué)習(xí)方法,將學(xué)習(xí)視為一種試錯(cuò)交互的過(guò)程[4].其原理是:學(xué)習(xí)系統(tǒng)通過(guò)感知環(huán)境的變化,根據(jù)自身目前所處的狀態(tài),采取一個(gè)行為作用于環(huán)境,環(huán)境由于受到其行為的影響而產(chǎn)生變化,同時(shí)給予學(xué)習(xí)系統(tǒng)一個(gè)強(qiáng)烈的信號(hào)(獎(jiǎng)勵(lì)或懲罰),學(xué)習(xí)系統(tǒng)再根據(jù)當(dāng)前環(huán)境的變化以及反饋回來(lái)的信號(hào),調(diào)整自身的行為,調(diào)整的原則是尋找自己獲得最大獎(jiǎng)賞值的行為.選取的行為不僅影響當(dāng)前的行為還會(huì)影響到下一時(shí)刻的狀態(tài)及最終的學(xué)習(xí)效果.

      瞬時(shí)差分(TD)算法是強(qiáng)化學(xué)習(xí)算法中的中心算法,它結(jié)合了動(dòng)態(tài)規(guī)劃和蒙特卡羅方法,是一種增量式的學(xué)習(xí)算法,很大程度上能表示強(qiáng)化學(xué)習(xí)的核心思想和新意.瞬時(shí)差分算法能直接從交互經(jīng)驗(yàn)中學(xué)習(xí),在學(xué)習(xí)過(guò)程中逐步進(jìn)行修改,而不需要基于環(huán)境的動(dòng)態(tài)信息模型,也不需要在最終輸出結(jié)果產(chǎn)生之后再修改以往學(xué)到的經(jīng)驗(yàn).TD、動(dòng)態(tài)規(guī)劃和蒙特卡羅三者之間的關(guān)系是強(qiáng)化學(xué)習(xí)理論反復(fù)出現(xiàn)的理論[5]. Q-學(xué)習(xí)控制算法是強(qiáng)化學(xué)習(xí)發(fā)展中最重要的一個(gè)突破,它是的一個(gè)離線的TD控制方法.

      2 基于綠燈時(shí)間等飽和度的狀態(tài)模糊TD學(xué)習(xí)模型

      SCATS系統(tǒng)提出了綠燈時(shí)間飽和度的概念,即被車流有效利用的綠燈時(shí)間與綠燈顯示時(shí)間之比.SACTS系統(tǒng)綠信比優(yōu)化的大致過(guò)程[6]如下:在每一信號(hào)周期內(nèi),都要對(duì)四種綠信比方案進(jìn)行對(duì)比,對(duì)它們的“入選”進(jìn)行“投票”.若在連續(xù)的三個(gè)周期內(nèi)某一方案兩次“中選”,則該方案即被選擇作為下一周期的執(zhí)行方案.綠信比方案的選擇與信號(hào)周期的調(diào)整交錯(cuò)進(jìn)行,兩者結(jié)合起來(lái),是對(duì)各相位的綠燈時(shí)間不斷調(diào)整的結(jié)果,使各相位飽和度維持大致相等的水平,即“綠燈時(shí)間等飽和度”原則.SCATS控制系統(tǒng)的應(yīng)用效果證明了綠燈時(shí)間等飽和度原則的有效性,但是該系統(tǒng)利用“投票”對(duì)綠信比進(jìn)行小步距優(yōu)化的方式是在四個(gè)解空間中進(jìn)行優(yōu)化,雖然保證了配時(shí)方案的連續(xù)性、小波動(dòng),但是難以保證解的最優(yōu)化.本文突破了傳統(tǒng)的綠信比優(yōu)化受周期固定限制的不足,分別對(duì)定周期、變周期兩種模式下的配時(shí)模型進(jìn)行了研究.

      2.1 建模方法

      2.1.1 算法的模式選擇

      對(duì)于交通信號(hào)配時(shí)優(yōu)化問(wèn)題,若采用在線學(xué)習(xí)模式,學(xué)習(xí)算法會(huì)對(duì)未知的交通狀態(tài)進(jìn)行探索,將會(huì)產(chǎn)生一些性能不好的配時(shí)方案,那么可能會(huì)導(dǎo)致交叉口交通的擁堵,甚至交通中斷.因此,將在線學(xué)習(xí)算法用于交通信號(hào)控制問(wèn)題不理想.離線學(xué)習(xí)模式更加適合交通信號(hào)控制,具體地,先建立交通控制問(wèn)題的模型,再利用離線學(xué)習(xí)算法對(duì)各種交通狀態(tài)及配時(shí)方案進(jìn)行學(xué)習(xí),從而得到不同交通狀態(tài)下的最優(yōu)配時(shí)方案,最后將最優(yōu)配時(shí)方案應(yīng)用到實(shí)際交叉口的交通信號(hào)控制中.為加快離線學(xué)習(xí)模式的學(xué)習(xí)速度,在每個(gè)時(shí)間步隨機(jī)等概率選擇狀態(tài)和行為[7].

      2.1.2 模型建立的關(guān)鍵因素

      狀態(tài)、行為、獎(jiǎng)賞是強(qiáng)化學(xué)習(xí)方法的三個(gè)要素,建模的重點(diǎn)是如何處理這三個(gè)要素.模型通過(guò)迭代計(jì)算達(dá)到收斂.

      TD控制中Q學(xué)習(xí)算法步驟為:

      (1)設(shè)定學(xué)習(xí)速率、折扣因子和獎(jiǎng)勵(lì)函數(shù);

      (2)初始化Q矩陣;

      (3)利用策略選擇行為后,作用于環(huán)境,狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài),并獲得當(dāng)前獎(jiǎng)賞值;

      (4)Q值更新函數(shù)為

      (5)設(shè)置下一狀態(tài)為當(dāng)前狀態(tài);

      (6)重復(fù)(3)-(5)步直至達(dá)到目標(biāo)狀態(tài).

      因此,利用TD控制的Q學(xué)習(xí)算法對(duì)單交叉口的信號(hào)進(jìn)行調(diào)節(jié),需要確定以下參數(shù):

      ①選取學(xué)習(xí)的狀態(tài)集;

      ②選取學(xué)習(xí)的行為集;

      ③確定狀態(tài)轉(zhuǎn)換之后的獎(jiǎng)勵(lì)函數(shù)r(s,a);

      ④確定學(xué)習(xí)系統(tǒng)的行為選擇策略.

      ⑤設(shè)定算法的學(xué)習(xí)速率α和折扣因子γ.

      本文中狀態(tài)選取交通流量,行為選取相位綠燈時(shí)間,獎(jiǎng)賞建模為綠燈時(shí)間等飽和度.交叉口的飽和度管理是交通管理的重要組成部分,通過(guò)飽和度管理可以將交通壓力在路網(wǎng)中合理分擔(dān),如將交通壓力較大的上游路口飽和度適當(dāng)提高,可以減輕本交叉口的交通壓力.本文將傳統(tǒng)的Scats系統(tǒng)中的綠燈時(shí)間飽和度概念進(jìn)行了擴(kuò)展,提出分級(jí)的綠燈時(shí)間飽和度概念,即將0至1之間的飽和度值進(jìn)行分級(jí),處于不同的飽和度時(shí)給予的獎(jiǎng)勵(lì)不同.設(shè)定學(xué)習(xí)速率α=0.1,折扣因子6002=0.8,初始化Q矩陣為零矩陣.

      2.1.3 狀態(tài)模糊函數(shù)的選取

      為便于對(duì)模型結(jié)果進(jìn)行分析,說(shuō)明模型的正確性和有效性,以兩相位控制的單交叉口為例進(jìn)行研究.交叉口進(jìn)口道的飽和流量為1600pcu/h,本章中到達(dá)流量的區(qū)間設(shè)為0至600puc/h,在兩相位的情況下共有6002個(gè)狀態(tài),屬于維數(shù)災(zāi)難問(wèn)題,難以對(duì)整個(gè)狀態(tài)集進(jìn)行學(xué)習(xí).首先采用離散化思想對(duì)狀態(tài)和行為進(jìn)行了離散,將每個(gè)相位的流量進(jìn)行離散分為4個(gè)狀態(tài),離散間隔分別為[0,150]、[150,300]、[300,450]、[450,600],用1,2,3,4來(lái)表示流量所處的區(qū)間.流量區(qū)間為150,由于交通流的隨機(jī)性離散區(qū)間過(guò)大會(huì)影響的準(zhǔn)確性,為了解決這一問(wèn)題本章將到達(dá)的流量進(jìn)行模糊.

      交通流的論域?yàn)椋?,600](單位:輛/h),模糊的集合語(yǔ)言值為“很?。╒erysmall,VS)”、“?。⊿mall,S)”、“中等(Medium,M)”、“大(Big,B)”.隸屬度函數(shù)[8]為三角形分布.由此可以得到交通流的隸屬度函數(shù)曲線如圖1所示.

      圖1 隸屬度函數(shù)曲線

      我們用1,2,3,4來(lái)表示流量所處的集合,對(duì)于兩相位的交叉口每個(gè)相位的流量狀態(tài)選擇關(guān)鍵進(jìn)口道的流量,用(i,j)表示兩個(gè)相位的關(guān)鍵流量所處的狀態(tài)區(qū)間,由此可得該算法中任然有16個(gè)流量對(duì),即16個(gè)狀態(tài),分別為(1,1)、(1,2)、(1,3)、(1,4)、(2,1)、(2,2)、(2,3)、(2,4)、(3,1)、(3,2)、(3,3)、(3,4)、(4,1)、(4,2)、(4,3)、(4,4).因此,對(duì)于同一個(gè)流量對(duì)它們所處的狀態(tài)可能是不同的,例如對(duì)于流量對(duì)(100,100)所處的狀態(tài)就有可能是(1,1)、(1,2)、(2,1)、(2,2)這四種狀態(tài),它們的概率由隸屬度函數(shù)劃分,且概率之和等于1.

      選取綠燈時(shí)間對(duì)為行為,相位的最短綠燈時(shí)間為10s,最長(zhǎng)綠燈時(shí)間為50s;且取2s的時(shí)間間隔,則可知每個(gè)相位的行為有21個(gè),可以選擇表示為g={10,12,14…48,50},相應(yīng)地對(duì)行為進(jìn)行編號(hào)A∈{1,2,3…20,21}.采用60s的固定周期時(shí)共有21個(gè)行為,采用[30s,110s]的變周期共有441個(gè)行為.為了減小隨機(jī)性帶來(lái)的Q值波動(dòng),本文采用200個(gè)程序同時(shí)運(yùn)行,相當(dāng)于200個(gè)相同交叉口同時(shí)運(yùn)行,然后對(duì)這200個(gè)同時(shí)運(yùn)行的程序的Q值取平均值來(lái)判定是否已經(jīng)收斂.

      2.2 定周期獎(jiǎng)賞不分級(jí)的狀態(tài)模糊TD學(xué)習(xí)優(yōu)化模型

      周期固定為60s,相位的關(guān)鍵進(jìn)口道流量為0~600pcu/h,狀態(tài)和行為建模如2.1.3所述.提出了如下的獎(jiǎng)勵(lì)函數(shù):

      式中r為獎(jiǎng)勵(lì)值,DSX、DSY分別表示兩個(gè)相位的綠燈飽和度.

      優(yōu)化結(jié)果如圖2所示,橫坐標(biāo)表示的是行為,縱坐標(biāo)表示的是狀態(tài),每個(gè)小方格內(nèi)的顏色表示Q值,對(duì)于每個(gè)狀態(tài)(即每一行)顏色最深的行為是該狀態(tài)的最優(yōu)行為.對(duì)于狀態(tài)(1,1)、(2,2)、(3,3)、(4,4)四個(gè)狀態(tài)的兩相位的關(guān)鍵進(jìn)口道流量處于相同的流量區(qū)間,如圖所示取得的最優(yōu)行為是11號(hào)行為,即信號(hào)配時(shí)方案為(30s,30s),說(shuō)明該模型是正確的.對(duì)于這個(gè)模型,16個(gè)狀態(tài)下最優(yōu)解是唯一的.

      圖2 定周期獎(jiǎng)賞不分級(jí)的狀態(tài)模糊TD學(xué)習(xí)優(yōu)化模型

      2.3 定周期獎(jiǎng)賞分級(jí)的狀態(tài)模糊TD學(xué)習(xí)優(yōu)化模型

      周期固定為60s,相位的關(guān)鍵進(jìn)口道流量為0~600pcu/h.狀態(tài)和行為建模如前所述.提出了如公式(3)所示的獎(jiǎng)勵(lì)函數(shù),其物理意義是控制交叉口在近飽和狀態(tài)下運(yùn)行.本例中對(duì)飽和度處于0.85至0.95之間給予最大獎(jiǎng)勵(lì),隨著飽和度減小,獎(jiǎng)勵(lì)值減小,過(guò)飽和時(shí)獎(jiǎng)勵(lì)為0,即為懲罰.這個(gè)公式可以根據(jù)管理者期望的飽和度值進(jìn)行修改.

      式(3)中r為獎(jiǎng)勵(lì)值,DSX、DSY分別表示兩個(gè)相位的綠燈飽和度;f(ds)如(4)所示,式(4)中ds表示兩相位飽和度的均值,即ds=(DSY+DSY)/2.

      優(yōu)化結(jié)果如圖3所示,與2.2部分的優(yōu)化結(jié)果類似,這是由于受到周期固定的約束,導(dǎo)致獎(jiǎng)賞分級(jí)和獎(jiǎng)賞不分級(jí)的結(jié)果類似.

      2.4 變周期獎(jiǎng)賞不分級(jí)的狀態(tài)模糊TD學(xué)習(xí)優(yōu)化模型

      本部分研究周期可變、獎(jiǎng)賞不分級(jí)的情況下解的結(jié)構(gòu).周期變化范圍是30至110秒,相位的關(guān)鍵進(jìn)口道流量為0~1200pcu/h.本文提出的獎(jiǎng)勵(lì)函數(shù)如下:

      式(5)中r為獎(jiǎng)勵(lì)值,DSX、DSY分別表示兩個(gè)相位的綠燈時(shí)間飽和度.

      優(yōu)化結(jié)果如圖4所示,給出了16種狀態(tài)下的最優(yōu)解,最優(yōu)解是不唯一的.圖中的每個(gè)小圖表示一個(gè)狀態(tài)的優(yōu)化結(jié)果,小圖的橫縱坐標(biāo)表示的是兩個(gè)相位采取的行為即綠燈時(shí)間,Q值大小用顏色表示,顏色越深的位置表示該行為越優(yōu).從該圖可知,在變周期條件下最優(yōu)解是不唯一的,呈帶狀.

      圖3 定周期獎(jiǎng)賞分級(jí)的狀態(tài)模糊TD學(xué)習(xí)優(yōu)化模型

      2.5 變周期獎(jiǎng)賞分級(jí)的狀態(tài)模糊TD學(xué)習(xí)優(yōu)化模型

      本部分研究周期可變、獎(jiǎng)賞分級(jí)的情況下解的結(jié)構(gòu).周期變化范圍是30至110秒,相位的關(guān)鍵進(jìn)口道流量為0~600pcu/h.當(dāng)流量一定時(shí),飽和度隨著周期的增大而減小.但是當(dāng)周期較小時(shí)導(dǎo)致飽和度的變化量較大;隨著周期不斷增大,飽和度的變化量減小,趨近于一條直線,導(dǎo)致在較大周期的時(shí)候無(wú)法分別行為的性能優(yōu)劣.因此,構(gòu)造的獎(jiǎng)勵(lì)函數(shù)是當(dāng)交叉口飽和度小于0.9時(shí),隨著周期的增大,獎(jiǎng)勵(lì)逐漸減小.提出的獎(jiǎng)勵(lì)函數(shù)如下:

      式(6)中:r為獎(jiǎng)勵(lì)值;DSX、DSY分別表示兩個(gè)相位的綠燈時(shí)間飽和度;C表示周期.

      優(yōu)化結(jié)果如圖5所示,給出了16種狀態(tài)下的最優(yōu)解,最優(yōu)解是不唯一的,呈帶狀.圖中的每個(gè)小圖表示一個(gè)狀態(tài)的優(yōu)化結(jié)果,小圖的橫縱坐標(biāo)表示的是兩個(gè)相位采取的行為即綠燈時(shí)間,Q值大小用顏色表示,顏色越深的位置表示該行為越優(yōu).狀態(tài)(1,1)、(2,2)、(3,3)、(4,4)的最優(yōu)解處于對(duì)角線上.對(duì)于每一列,即第二相位的流量區(qū)間相同時(shí),隨著第一相位流量的增大,行為的選擇向右下方偏移,即選擇第一相位的綠燈時(shí)間增加,第二相位的綠燈時(shí)間減少的行為集.對(duì)于每一行,即第一相位的流量區(qū)間相同時(shí),隨著第二相位流量的增大,行為的選擇向左上方偏移,即選擇第二相位的綠燈時(shí)間增大,第一相位的綠燈時(shí)間減小的行為集.

      與變周期獎(jiǎng)賞不分級(jí)的優(yōu)化結(jié)果圖4比較,最優(yōu)解更加集中,對(duì)獎(jiǎng)勵(lì)進(jìn)行分級(jí)有利于選擇等飽和度值更大的行為對(duì).

      圖4 變周期獎(jiǎng)賞不分級(jí)的狀態(tài)模糊TD學(xué)習(xí)優(yōu)化模型

      圖5 變周期獎(jiǎng)賞分級(jí)的狀態(tài)模糊TD學(xué)習(xí)優(yōu)化模型

      模型對(duì)狀態(tài)集進(jìn)行了模糊,它的優(yōu)點(diǎn)在于同一個(gè)流量它可能處于不同的狀態(tài),這樣將狀態(tài)集的邊緣模糊化有利于選取更優(yōu)的行為.例如:流量?。?60,470),它可能的狀態(tài)為(2,3)、(2,4)、(3,3,)和(3,4)這四種狀態(tài).提高了交通量處于同一狀態(tài)區(qū)間最優(yōu)配時(shí)方案的選擇.

      3 結(jié)論

      (1)本文建立了單交叉口配時(shí)優(yōu)化的離線TD學(xué)習(xí)模型.相對(duì)于在線TD學(xué)習(xí)模型,離線TD學(xué)習(xí)模型能夠歷遍整個(gè)解空間,弄清楚解的結(jié)構(gòu),事先知道性能較優(yōu)的解的分布、性能較差的解的分布、最優(yōu)解,這是傳統(tǒng)配時(shí)理論不具備的.

      (2)針對(duì)綠燈時(shí)間等飽和度的優(yōu)化目標(biāo),本文建立了定周期和變周期兩種模式下的離線TD學(xué)習(xí)模型,算例結(jié)果表明定周期模式下最優(yōu)解是唯一的,變周期模式下最優(yōu)解是不唯一的,呈帶狀.對(duì)于最優(yōu)解不唯一的解結(jié)構(gòu),可以將這些解作為一個(gè)最優(yōu)解的方案庫(kù),當(dāng)檢測(cè)器檢測(cè)到交通流量時(shí),從方案庫(kù)中進(jìn)行選擇.這時(shí)可以考慮與上一個(gè)配時(shí)方案周期接近、與相鄰交叉口周期接近等因素,提高配時(shí)方案與其他因素的兼容性、魯棒性,這是傳統(tǒng)配時(shí)理論不具備的.

      (3)相比傳統(tǒng)的Scats系統(tǒng)的小步距調(diào)整方式,離線TD學(xué)習(xí)模型能夠?qū)崿F(xiàn)流量變化小的時(shí)候,方案變化不大;流量變化大時(shí),又能很快地調(diào)整方案,具有更強(qiáng)的適應(yīng)性.

      (4)對(duì)狀態(tài)離散區(qū)間的模糊,增加了狀態(tài)尋優(yōu)的區(qū)間,有利于不同的交通量選取更優(yōu)的配時(shí)方案.

      [1]Stevanovic A.Adaptive Traffic Control Systems:Domestic and Foreign State of Practice[M].Washington D C:Transportation Research Board,2010.

      [2]Sutton R S,Barto A G.Reinforcement Learning-An Introduction[M].Cambridge:The MIT Press,1998.

      [3]Kaelbling L P,Littman M L,Moore AW.Reinforcement learning:a survey[J].Journal of Artificial Intelligence Research,1996,(2):237-285.

      [4]馬壽峰,李英,劉豹.一種基于Agent的單路口交通信號(hào)學(xué)習(xí)控制方法[J].系統(tǒng)工程學(xué)報(bào),2002,(6):526-530.

      [5]劉越偉,張海波.基于SCOOT交通控制系統(tǒng)的信號(hào)燈倒計(jì)時(shí)研究及應(yīng)用[J].交通標(biāo)準(zhǔn)化,2012,(1):145-147.

      [6]全永燊.城市交通控制[M].北京:人民交通出版社,1989.

      [7]盧守峰,邵維,韋欽平.基于綠燈時(shí)間等飽和度的離線Q學(xué)習(xí)配時(shí)優(yōu)化模型[J].系統(tǒng)工程,2012,(5):117-122.

      [8]謝季堅(jiān),劉承平.模糊數(shù)學(xué)方法及其應(yīng)用[M].武漢:華中科技大學(xué)出版社,2006.

      (責(zé)任編校:晴川)

      The Optim ization M odel of TD Learning Tim ing Based on the Green Time Equi-saturation

      SHAOWei1,ZHANG Jiguang2,LIU Gaihong1
      (1.Track Transportation Branch of Guiyang Vocational and Technical College,Guiyang Guizhou 550000,China;2.Highway Management Office of Yuping,Tongren Guizhou 554000,China)

      We propose themulti-level green time saturation.On this basis,for the classification of green time saturation target,the study constructs a reward function,uses the fuzzymethod to solve the traffic state space dimension explosion problem,and establishes four optimization models of offline TD learning under fixed period and variable cycle twomodes.Using a two-phase control of a single intersection as an example,the study comparatively analyzes the performance of fourmodels.Generally speaking,offline TD learning model of variable cyclemode can obtain the structure of solutions and the optimal solutions distribution,which does not belong to the traditional timing theory.Under the fixed period condition,reward grading effect is not obvious,while under the variable cycle condition,reward grading effect is obvious and the traffic has better performance.

      timing optimization;green time equi-saturation;TD control;state fuzzy;variable cycle

      U491

      A

      1008-4681(2014)05-0070-05

      2014-06-09

      邵維(1988-),女,湖南岳陽(yáng)人,貴陽(yáng)職業(yè)技術(shù)學(xué)院軌道交通分院教師,碩士.研究方向:軌道交通運(yùn)營(yíng)管理、交通運(yùn)輸規(guī)劃與管理.

      猜你喜歡
      綠燈離線交叉口
      異步電機(jī)離線參數(shù)辨識(shí)方法
      呼吸閥離線檢驗(yàn)工藝與評(píng)定探討
      為什么紅燈停,綠燈行
      淺談ATC離線基礎(chǔ)數(shù)據(jù)的準(zhǔn)備
      離線富集-HPLC法同時(shí)測(cè)定氨咖黃敏膠囊中5種合成色素
      中成藥(2018年2期)2018-05-09 07:20:09
      信號(hào)交叉口延誤參數(shù)獲取綜述
      紅燈停,綠燈行
      一種Y型交叉口設(shè)計(jì)方案的選取過(guò)程
      考慮黃燈駕駛行為的城市交叉口微觀仿真
      基于VISSIM的交叉口改善評(píng)價(jià)研究
      河南科技(2014年14期)2014-02-27 14:12:02
      临城县| 澄迈县| 肥西县| 普陀区| 南江县| 高邮市| 定兴县| 远安县| 武穴市| 手游| 清新县| 平湖市| 宣城市| 永嘉县| 福安市| 宁化县| 江源县| 汾阳市| 普洱| 湖北省| 九龙县| 平舆县| 千阳县| 仲巴县| 饶平县| 酒泉市| 南丹县| 资中县| 铅山县| 维西| 山东省| 西乌珠穆沁旗| 铅山县| 永福县| 孟州市| 鸡东县| 屏山县| 吉林市| 邻水| 黄平县| 长乐市|