程鵬,謝小年
(重慶交通大學(xué) 交通運輸學(xué)院,重慶 400041)
基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)可變限速控制對擁堵路段交通流的優(yōu)化
程鵬,謝小年
(重慶交通大學(xué) 交通運輸學(xué)院,重慶 400041)
為提高可變限速(variable speed limits,VSL)控制對高速公路交通流的控制效能,提出一種連續(xù)狀態(tài)下BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)VSL控制方法。以路網(wǎng)總通行時間、路段內(nèi)平均速度、平均密度和平均流量為評價指標(biāo),應(yīng)用VISSIM4.30與MATLAB軟件對比分析采用與不采用BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)VSL控制時,入口匝道和主線合流區(qū)域附近潛在擁堵路段對交通流的影響。結(jié)果表明,基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)型VSL控制方法對主線瓶頸區(qū)域上游易擁堵路段的交通流有明顯的優(yōu)化作用。
BP神經(jīng)網(wǎng)絡(luò);Q-學(xué)習(xí);可變限速控制;交通流優(yōu)化
VSL控制是主線控制的一種,通過VSL標(biāo)志來控制主線上車輛的行駛速度,并且標(biāo)志上的速度隨著主線上車輛數(shù)量的變化而變化。文獻(xiàn)[1]認(rèn)為安裝VSL標(biāo)志對改善高速公路交通流具有積極作用。VSL標(biāo)志能夠顯示限速信息,不但可以通過限制速度控制交通流,達(dá)到降低交通擁堵的目的,還能向駕駛員傳遞前面路段的交通狀況,提高交通安全[2]。文獻(xiàn)[3]以道路上的車輛數(shù)量為基礎(chǔ),分別利用BP神經(jīng)網(wǎng)絡(luò)、模糊控制、模糊神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)與遺傳算法相結(jié)合的方法對各影響因素進(jìn)行建模,并比較這4種方法在VSL控制中的性能。文獻(xiàn)[4]把可變限速過程控制定義為馬爾科夫決策過程,利用強(qiáng)化學(xué)習(xí)無需建立環(huán)境模型的特點對高速路主線交通流進(jìn)行主動控制。文獻(xiàn)[5]從實際快速路交通流數(shù)據(jù)出發(fā),分析VSL控制對交通流的影響,并運用改進(jìn)的元胞傳輸仿真模型,利用單目標(biāo)反饋法VSL策略以及強(qiáng)化學(xué)習(xí)VSL控制對主線合流擁堵區(qū)域進(jìn)行控制,達(dá)到防止主線交通擁堵,提高交通安全的目的。
近年來,強(qiáng)化學(xué)習(xí)法(reinforcement learning approach,RL)在解決交通控制系統(tǒng)問題方面得到廣泛應(yīng)用。文獻(xiàn)[6]把RL用于控制高速公路入口匝道的車輛數(shù)以使主線的交通流處于最佳狀態(tài)。盡管RL在匝道交通調(diào)節(jié)和交通信號控制等方面已得到很多應(yīng)用,但RL在其傳統(tǒng)形式的離散狀態(tài)下,用于處理中型和大型的交通控制問題時,缺乏學(xué)習(xí)效率,遇到“維數(shù)災(zāi)”問題。本文利用函數(shù)逼近器BP神經(jīng)網(wǎng)絡(luò)來解決這一問題,通過BP神經(jīng)網(wǎng)絡(luò)存儲動作-狀態(tài)對的評價值,減少RL的存儲空間。在VSL控制時,根據(jù)高速公路入口匝道和主線合流區(qū)附近車輛的流量、速度和密度對高速公路限速分配進(jìn)行主動學(xué)習(xí),以降低高度公路的交通擁堵。
1.1 RL
RL是受到人類學(xué)習(xí)時的試錯行為啟發(fā)而提出的一種人工智能學(xué)習(xí)法。在學(xué)習(xí)過程中,智能體通過所處環(huán)境的交互作用和試錯,對每個狀態(tài)的最佳動作進(jìn)行學(xué)習(xí),以使它們接收的累計回報最大化。RL問題可以看作是馬爾科夫決策過程,是一個構(gòu)建序貫決策問題的數(shù)學(xué)模型框架[7]。定義在每個狀態(tài)下使智能體未來接收的期望折扣回報值最大化所得評價函數(shù)
式中:γ為折扣系數(shù),γ∈[0,1];rt為時間步t所接收的回報。
1.2 Q-學(xué)習(xí)算法
本文使用的收斂效果較好的Q-學(xué)習(xí)算法是RL中應(yīng)用最廣泛的一種算法。在Q-學(xué)習(xí)算法中,用函數(shù)Q(s,a)評價給定狀態(tài)下采取動作的好壞,并以表格的形式存儲其評價值,即Q值[8-9]。假設(shè)在環(huán)境狀態(tài)s下采取的動作為a,Q函數(shù)對相應(yīng)的Q值進(jìn)行評價和存儲,反應(yīng)的是控制系統(tǒng)處于狀態(tài)s下采取動作a的長期累計回報值。
設(shè)t時刻Q學(xué)習(xí)的時間差分
(1)
根據(jù)時間差分算法可得訓(xùn)練樣本更新Q函數(shù)
Q(st,at)′=Q(st,at)+α(st,at)δt,
(2)
式中:Q(st,at)′為更新后Q的存儲值,表示新的學(xué)習(xí)經(jīng)驗;α(st,at)為學(xué)習(xí)率,0<α(st,at)≤1。
由式(1)(2)得
(3)
在Q-學(xué)習(xí)過程中,無需知道環(huán)境模型,而是通過比較狀態(tài)s下的每個動作所產(chǎn)生的Q值來確定最優(yōu)策略,使決策過程更加簡便。
在交通控制問題過程中往往關(guān)系到多維連續(xù)空間,使用Q-學(xué)習(xí)算法做決策時,要把連續(xù)狀態(tài)空間離散化或者使用參數(shù)化表示的函數(shù)逼近法。多維連續(xù)狀態(tài)空間下的離散化會使Q值的存儲空間隨著維數(shù)的增加呈指數(shù)增長,出現(xiàn)“維數(shù)災(zāi)”問題,因此還要權(quán)衡學(xué)習(xí)速度和控制系統(tǒng)的最優(yōu)問題[10-12]。本文選擇BP神經(jīng)網(wǎng)絡(luò)作為值函數(shù)逼近器:可以解決大型交通系統(tǒng)控制的連續(xù)狀態(tài)空間的RL參數(shù)化表示問題;可以存儲和記憶Q值,避免狀態(tài)變量數(shù)呈指數(shù)增長的記憶需求;能夠自動除去已經(jīng)學(xué)過的經(jīng)驗,提高學(xué)習(xí)效率。
圖1 單隱含層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.1 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種誤差反向傳播的前向型神經(jīng)網(wǎng)絡(luò),通常由1個輸入層、1個輸出層和1個隱含層構(gòu)成,輸出層一般含有1個神經(jīng)元,隱含層一般含有多個神經(jīng)元。其結(jié)構(gòu)如圖1所示。
隱含層的每個神經(jīng)元都有一個非線性s型激活函數(shù)。設(shè)網(wǎng)絡(luò)的輸入變量為Xi=[x1,x2,…,xk],(i=1,2,…,k)預(yù)輸出變量為Y=[y1,y2,…,ym],輸入層與隱含層之間的權(quán)值為wij=[w11,w12,…,wkn],(j=1,2,…,n)隱含層與輸出層之間的權(quán)值為wj=[w1,w2,…,wn]。則網(wǎng)絡(luò)輸出公式為:
2.2 BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)算法
假設(shè)離散狀態(tài)下狀態(tài)集S和動作集A中的每個狀態(tài)都會有與之對應(yīng)的Q值,RL環(huán)境下的神經(jīng)網(wǎng)絡(luò)中,狀態(tài)變量s作為輸入,Q值作為輸出,首先利用S中的狀態(tài)s和對應(yīng)的Q值進(jìn)行訓(xùn)練,調(diào)整網(wǎng)絡(luò)中的權(quán)值使誤差最小化。然后智能體感知環(huán)境狀態(tài)s,神經(jīng)網(wǎng)絡(luò)根據(jù)學(xué)習(xí)的經(jīng)驗對Q值進(jìn)行預(yù)測,智能體根據(jù)預(yù)測的Q值對環(huán)境采取動作,并接收到回報值。根據(jù)式(3)進(jìn)行更新,更新之后的狀態(tài)動作對也即新的Q值存儲到神經(jīng)網(wǎng)絡(luò)中,作為下一次預(yù)測的經(jīng)驗,這是一個不斷優(yōu)化的過程,隨著整個系統(tǒng)的學(xué)習(xí)經(jīng)驗越來越多,采取的動作也就越來越優(yōu)。
BP神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中通過誤差反向傳播和梯度下降法修正各層之間的權(quán)值使預(yù)測誤差最小化,從而達(dá)到逼近函數(shù)的目的。誤差公式為:
(4)
式中:Jt為RL環(huán)境下t時刻的預(yù)測誤差;Wt為t時刻迭代時包含所有權(quán)重的參數(shù)向量,Wt=[w1,w2,…,wn,w11,w2n,…,wkn];et為網(wǎng)絡(luò)訓(xùn)練時實際輸出與理論輸出之差。
梯度下降學(xué)習(xí)法的權(quán)重更新
(5)
式中:Wt+1為t+1時刻迭代時包含所有權(quán)重的參數(shù)向量;aN為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率。
2.3基于基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)VSL控制
通過基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)智能算法控制VSL標(biāo)志的速度(限速值),從而控制車道上的交通流。首先,系統(tǒng)根據(jù)車輛行駛狀態(tài)采用神經(jīng)網(wǎng)絡(luò)預(yù)測Q值,然后根據(jù)Q值發(fā)布限速值,以路網(wǎng)總通行時間T為控制目標(biāo)對發(fā)布限速值后車輛的行駛狀態(tài)進(jìn)行評價,系統(tǒng)再根據(jù)該評價結(jié)果通過式(3)更新Q值并存儲到神經(jīng)網(wǎng)絡(luò)中,根據(jù)式(4)(5)對神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行修正,如此循環(huán)往復(fù)。因此,該系統(tǒng)控制是一個不斷學(xué)習(xí)優(yōu)化的過程。
將微觀仿真軟件VISSIM4.30與MATLAB軟件相結(jié)合對模型進(jìn)行仿真驗證。假設(shè)一條里程為9 km的單車道高速公路,把它分為N1~N66段,每段長度為1.5 km,如圖2所示?;疑珔^(qū)域為入口匝道與主線合流區(qū)域附近易擁堵的路段,為VSL控制區(qū),檢測器1、2可提供主線交通狀況數(shù)據(jù),如速度、占有率和流量等[13-16]。路段N6為限速解除的加速區(qū)域,匝道不進(jìn)行任何控制。
圖2 可變限速布局圖
在該研究案例中,假設(shè)交通優(yōu)化過程為馬爾科夫決策過程,定義數(shù)據(jù)檢測器檢測的速度、流量和密度為狀態(tài)變量。交通控制的主要目的是緩解交通擁堵,降低出行時間,所以定義路網(wǎng)總通行時間
式中:Tc為控制周期;N(p)為控制周期為p時的車輛數(shù);c為仿真時間與周期之比。
3.1參數(shù)設(shè)計
主線自由流速度設(shè)置為100 km/h,交通需求設(shè)置為2 200輛/h,臨界密度為24輛/km,仿真時間跨度3 600 s,數(shù)據(jù)檢測器時間間隔設(shè)置為20 s,即每20 s采集1次速度、流量和密度,VSL控制周期為Tc=2 min,c=30,仿真精度為10,其它參數(shù)采用默認(rèn)值。把限速值進(jìn)行離散化,即Q-學(xué)習(xí)動作空間A= {50,60,70,80,90,100},α∈A,折扣系數(shù)γ=0.8。
在BP神經(jīng)網(wǎng)絡(luò)中,參數(shù)的設(shè)置與網(wǎng)絡(luò)的結(jié)構(gòu)和每次迭代訓(xùn)練收斂情況有關(guān)。BP神經(jīng)網(wǎng)絡(luò)的輸入層設(shè)置3個節(jié)點,對應(yīng)的輸入分別為速度、流量和密度;輸出層節(jié)點為1個,對應(yīng)的是動作-狀態(tài)對評價值Q值;隱含層的神經(jīng)元數(shù)量要比輸入層多的多,并且使用反向傳播算法進(jìn)行訓(xùn)練,在經(jīng)過對不同隱含層神經(jīng)元的數(shù)量多次試驗之后,BP神經(jīng)網(wǎng)絡(luò)的隱層神經(jīng)元的數(shù)量定為18;學(xué)習(xí)率設(shè)為0.01,訓(xùn)練目標(biāo)誤差為0.001,迭代次數(shù)為3 000[17-18]。BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本分為70%的訓(xùn)練數(shù)據(jù)和30%的測試數(shù)據(jù)。為精簡樣本,對網(wǎng)絡(luò)的輸入和輸出進(jìn)行歸一化處理,其值處于0~1。在BP神經(jīng)網(wǎng)絡(luò)的迭代學(xué)習(xí)中,最好是避免呈現(xiàn)來自狀態(tài)空間相同的區(qū)域的連續(xù)樣本,以避免權(quán)重偏置。此外,在整個學(xué)習(xí)過程中,樣本應(yīng)覆蓋狀態(tài)空間的不同區(qū)域,以提供良好的推廣。
3.2仿真結(jié)果
圖3分別為未實施和實施基于BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)VSL控制(以下簡稱VSL控制)時入口匝道和主線合流區(qū)域車輛的速度、密度和流量圖。未實施VSL控制時,由圖3a)、c)、e)可知:當(dāng)t=500 s時,合流區(qū)域的流量接近道路的通行能力2 200 輛/h。當(dāng)t>800 s時,流量隨著時間的增加持續(xù)降低,說明此時VSL控制區(qū)域上游產(chǎn)生了交通擁堵;在擁堵產(chǎn)生時VSL控制區(qū)域上游的車流密度保持較高水平;在t=500 s之后速度下降明顯,并且在仿真結(jié)束之前一直處于降低水平。
圖3 入口匝道和主線合流區(qū)域的速度、密度和流量曲線
實施VSL控制時,由圖3b)、d)、f)可知:在t=500 s之前,車輛的速度、密度和流量與未實施VSL控制時基本相同;在t=500 s之后,VSL被激活,進(jìn)入合流區(qū)域的交通流被拖延,使交通狀況保持穩(wěn)定,防止交通擁堵的發(fā)生[19-21];在t>800 s時,通行能力有所上升,速度有明顯的回升,密度始終保持在臨界密度以下。與未控制的情況相比,VSL控制的路網(wǎng)通行時間降低了19.2%,控制路段的平均流量增加了4.7%,平均速度增加31.4%,速度的變化更趨向于平穩(wěn),消除了擁堵時瓶頸區(qū)域車輛走走停停的狀況,平均密度降低了12.5%。
仿真結(jié)果對比表明:基于BP的Q-學(xué)習(xí)VSL控制能夠使主線車輛速度提高,且變化均勻,增加瓶頸區(qū)域的通行能力,在緩解主線交通擁堵,降低出行時間等方面效果明顯。
1)采用BP神經(jīng)網(wǎng)絡(luò)的Q-學(xué)習(xí)算法解決連續(xù)狀態(tài)問題,用神經(jīng)網(wǎng)絡(luò)存儲Q值,并根據(jù)輸入狀態(tài)預(yù)測對應(yīng)的Q值。利用速度、密度和流量定義公路上的交通流,使用RL進(jìn)行限速分配,旨在沿著主線降低車速,以此降低交通擁堵。
2)以路網(wǎng)車輛總通行時間、路段內(nèi)車輛的平均速度、平均密度和流量為評價指標(biāo),通過MATLAB和VISSIM仿真分析入口匝道和主線合流區(qū)域的交通擁堵狀況,表明基于BP的Q-學(xué)習(xí)VSL控制對瓶頸區(qū)域的交通流優(yōu)化作用明顯。
[1]DGEORGIOU M, KOSMATOPOULOS E,PAPARMICHAIL I.Effect of variable speed limits on motorway traffic flow[J]. Transportation Research Record Journal of the Transportation Research Board,2008,2047 (2047) : 37-48.
[2]陳建陽.高速公路可變限速標(biāo)志的作用及控制[J].同濟(jì)大學(xué)學(xué)報,1993,21(8):387-391. CHEN Jianyang.Action and control of freeway variable speed signs[J].Journal of Tongji Univercity, 1993,21(8): 387-391.
[3]陳大山.高速公路主線可變限速控制研究[D].西安:長安大學(xué),2009. CHEN Dashan.Variable speed control of highway[D].Xi′an: Chang′an Univercity, 2009.
[4]王薇,梁紅梅,李立超,等.高速公路可變限速控制算法研究[J].北華大學(xué)學(xué)報(自然科學(xué)版),2014,15(1):122-125. WANG Wei,LIANG Hongmei,LI Lichao,et al.On variable speed-limit control algorithms of expressways[J].Journal of Beihua Univercity (Natural Science), 2014,15(1):122-125.
[5]李志斌.快速道路可變限速控制技術(shù)[D].南京: 東南大學(xué),2014. LI Zhibin.Variable speed limit control technique on expressway[D].Nanjing: Southeast University,2014.
[6]王興舉,宮城俊彥.強(qiáng)化學(xué)習(xí)型匝道控制模型研究[J].石家莊鐵道大學(xué)學(xué)報(自然科學(xué)版),2010,23(2):104-108. WANG Xingju,MIYAGI Toshikiho.Reinforcement learning ramp metering[J].Journal of Shijiazhuang Tiedao University (Natural Sciences) , 2010,23(2):104-108.
[7]虞靖靚.基于Q學(xué)習(xí)的Agent智能決策的研究與實現(xiàn)[D].合肥:合肥工業(yè)大學(xué),2005. YU Jingliang.The research and implementation of agent intelligent decision based on Q-learning[D].Hefei: Hefei University of Technology,2008.
[8]孫晟.基于強(qiáng)化學(xué)習(xí)的動態(tài)單機(jī)調(diào)度研究[D].上海:上海交通大學(xué),2007. SUN Cheng.Reinforcement learning based dynamic single machine scheduling[D].Shanghai:Shanghai Jiao Tong University,2007.
[9]張汝波,顧國昌,劉照德,等.強(qiáng)化學(xué)習(xí)理論、算法及應(yīng)用[J].控制理論與應(yīng)用,2000,17(5):637-642. ZHANG Rubo,GU Guochang,LIU Zhaode,et al.Reinforcement learning theory ,algorithms and its application[J].Control Theory and Applications,2000,17(5): 637-642.
[10]陸鑫,高陽,李寧.基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法研究[J].計算機(jī)研究與發(fā)展,2002,39(8):981-985. LU Xin,GAO Yang,LI Ning.Research on a reinforcement learning algorithm based on neural network[J].Journal of Computer Research and Development, 2002,39(8):981-985.
[11]蔣國飛,吳滄浦.基于Q學(xué)習(xí)算法和BP神經(jīng)網(wǎng)絡(luò)的倒立擺控制[J].自動化學(xué)報,5(24):662-666. JIANG Guofei,WU Cangpu.Learning to control an inverted pendulum using Q-learning and neural networks[J].Action Automatic Sinica,5(24):662-666.
[12]夏麗麗.連續(xù)狀態(tài):連續(xù)行動強(qiáng)化學(xué)習(xí)[J].電腦知識與技術(shù),2011,19(7): 4669-4672. XIA Lili.Reinforcement learning with continuous state:continuous action[J].Computer Konwledge and Technology, 2011,19(7): 4669-4672.
[13]李楊.高速公路可變速度控制方法研究[D].西安:長安大學(xué),2011. LI Yang.New variable speed control approach for freeway[D]. Xi′an: Chang′an Univercity,2011.
[14]劉慶全,黃春平.公路主線可變限速模糊控制及仿真研究[J].計算機(jī)仿真,2010,27(12):335-338,400. LIU Qingquan,HUANG Chunping.Fuzzy control for variable speed limits and simulation on highway mainstream[J].Journal of Compter Simulaiton,2010,27(12):335-338,400.
[15]WILLIAMS Ackaah,KLAUS Bogenberger.Advanced evaluation methods for variable speed limit systems[J].Transportation Research Procedia,2016,15:652-663.
[16]CHO Hyerim,KIM Youngchan.Analysis of traffic flow with variable speed limit on highways[J].KSCE Journal of Civil Engineering,2012,6(16):1048-1049.
[17]KUMAR K,PARIDA M,KATIYARV K.Short term traffic flow prediction for a non urban highway using artificial neural network[J].Procedia-Social and Behavioral Sciences,2013,104:755-764.
[18]何玉婉.基于Elman 神經(jīng)網(wǎng)絡(luò)的高速公路入口匝道預(yù)測控制仿真研究[D].成都:西南交通大學(xué),2008. HE Yuwan.Research and simulation on neural network predictive control for freeway ramp based on Elman[D].Chengdu: Southwest Jiaotong University, 2008.
[19]陳雪平,曾盛,胡剛.基于BP神經(jīng)網(wǎng)絡(luò)的短時交通流預(yù)測[J].公路交通技術(shù),2008:,3:115-117. CHEN Xueping,ZENG Sheng,HU Gang.Short-time traffic flow prediction based on BP neural network[J].Technology of Highway and Transport, 2008,3:115-117.
[20]段薈,劉攀,李志斌,等.基于強(qiáng)化學(xué)習(xí)的匯流瓶頸區(qū)可變限速策略研究[J].交通運輸系統(tǒng)工程與息,2015,1(15):55-61. DUAN Hui,LIU Pan,LI Zhibin,et al.Variable speed limit control at freeway merge bottlenecks based on reinforcement learning[J].Journal of Transportation System Engineering and Information Technology, 2015,1(15):55-61.
[21]蒲云,胡路,蔣陽升,等.高速公路主線收費站可變限速控制[J].交通運輸工程學(xué)報,2012,5(12):119-126. PU Yun,HU Lu,JIANG Yangsheng,et al.Variable speed-limit control before expressway mainline toll station[J].Journal of Traffic and Transportation Engineering, 2012,5(12):119-126.
OptimizationforTrafficFlowofRoadCongestionBasedonQ-LearningVSLControlofBPNeuralNetwork
CHENGPeng,XIEXiaonian
(SchoolofTraffic&Transportation,ChongqingJiaotongUniversity,Chongqing400074,China)
To improve the efficiency of VSL control over the freeway traffic flow, this paper proposes a new approach of Q-learning VSL control in the continuous BP neural network. Used the total traveling time of the road network, average speed of the road section and average flow as evaluation indexes, VISSIM4.30 and MATLAB are adopted to make the comparative analysis of the influence of the potential congestion section on the traffic flow at the on-ramp and nearby the merging area of the mainstream with and without the Q-learning VSL control of BP neural network. The results show that the Q-learning VSL control method based BP neural network plays an obvious role in the optimization of the traffic flow at the congested section of the upstream bottleneck of the mainstream.
BP neural networks;Q-learning; VSL control;traffic flow optimization
U491.54
:A
:1672-0032(2017)03-0038-06
(責(zé)任編輯:楊秀紅)
2017-02-19
程鵬(1993—),男,安徽六安人,碩士研究生,主要研究方向為交通運輸規(guī)劃與管理,E-mail:1850083367@qq.com.
10.3969/j.issn.1672-0032.2017.03.006