顧及路口壓力的A2C交通信號(hào)調(diào)控

2023-10-29 01:46:36郭全盛林建新李建武

計(jì)算機(jī)仿真 2023年9期

張蕾,郭全盛,林建新,李建武

(1. 北京建筑大學(xué)電氣與信息工程學(xué)院,北京 100044;2. 建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044;3. 北京建筑大學(xué)土木與交通工程學(xué)院,北京 100044;4. 北京理工大學(xué)前沿技術(shù)研究院,北京 100081)

1 引言

近年來(lái),隨著城市的不斷擴(kuò)張以及人口的快速增長(zhǎng),全球大都市中的交通運(yùn)輸需求急劇提升。超大規(guī)模的交通流量給現(xiàn)有基礎(chǔ)設(shè)施帶來(lái)巨大壓力,導(dǎo)致嚴(yán)重?fù)矶?加劇了碳排放污染,給城市規(guī)劃、社會(huì)穩(wěn)定帶來(lái)負(fù)面影響。緩解城市交通擁堵是國(guó)家“十四五”規(guī)劃中加快建設(shè)交通強(qiáng)國(guó)的重點(diǎn)和難點(diǎn),是刻不容緩的。城市交通車(chē)流量變化之間有著復(fù)雜且緊密的聯(lián)系,通過(guò)有效調(diào)控,疏導(dǎo)車(chē)輛選擇合適的通行線(xiàn)路,為有關(guān)部門(mén)提供科學(xué)的決策支撐,進(jìn)行有針對(duì)性的交通疏導(dǎo),提高通行效率和經(jīng)濟(jì)效益。

自適應(yīng)交通信號(hào)控制(Adaptive Traffic Signal Control,ATSC)旨在根據(jù)交通現(xiàn)狀實(shí)時(shí)調(diào)控交通信號(hào)燈的變化,緩解交通路網(wǎng)中存在的交通擁堵現(xiàn)象,提升車(chē)輛通行效率。在網(wǎng)格狀的路網(wǎng)中,如在車(chē)流量密集的市中心區(qū)域,傳統(tǒng)的多道路交叉口控制方法通過(guò)在所有交叉口之間設(shè)置固定偏移量實(shí)現(xiàn)協(xié)調(diào)控制,最經(jīng)典的是FixedTime算法[1],該算法設(shè)置了隨機(jī)偏移量和固定的信號(hào)變化時(shí)間。此外,美國(guó)交通運(yùn)輸委員會(huì)與美國(guó)聯(lián)邦公路局編寫(xiě)的信號(hào)控制手冊(cè)中也采用了類(lèi)似方法[2]。然而,上述方法過(guò)于簡(jiǎn)單,現(xiàn)實(shí)交通網(wǎng)絡(luò)難以達(dá)到理想狀態(tài),很難通過(guò)固定偏移量進(jìn)行全局優(yōu)化。

針對(duì)此缺陷,研究人員提出基于優(yōu)化的算法,最常見(jiàn)的是基于馬爾可夫決策過(guò)程(Markov Decision Process,MDP)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)算法,用于對(duì)真實(shí)世界的交通量進(jìn)行動(dòng)態(tài)調(diào)控[3]。例如,Wei等[4]提出基于強(qiáng)化學(xué)習(xí)的IntelliLight模型,使用深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)對(duì)交通環(huán)境進(jìn)行分析,進(jìn)而預(yù)測(cè)交通信號(hào)燈的下一個(gè)狀態(tài)。近年來(lái),強(qiáng)化學(xué)習(xí)領(lǐng)域的重要分支——Actor-Critic (A2C,演員-評(píng)論家)算法被廣泛用于ATSC中,并通過(guò)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)來(lái)模擬A2C的策略和狀態(tài)[5]。Hua等[6]提出了CoLight模型,使用圖注意力網(wǎng)絡(luò)結(jié)合相鄰交叉點(diǎn)之間的影響,用于對(duì)多個(gè)交通信號(hào)燈進(jìn)行控制。Chu等[7]提出了多智能體A2C模型(Multi-agent A2C,MA2C),將深度神經(jīng)網(wǎng)絡(luò)與多智能體強(qiáng)化學(xué)習(xí)(Multi-agent Reinforcement Learning,MARL)結(jié)合,在交通信號(hào)控制領(lǐng)域中得到了較好的實(shí)驗(yàn)效果。然而,以上算法的表達(dá)能力易受策略設(shè)計(jì)的影響,即錯(cuò)誤的策略反而降低交通調(diào)控的效果。

2 相關(guān)工作

2.1 強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)主要分為三類(lèi):基于價(jià)值的方法(value based)、基于策略的方法(policy based)和演員-評(píng)論家算法(Actor-Critic,A2C)。由于A2C算法既可以處理高維連續(xù)的行動(dòng),又可以單步更新快速學(xué)習(xí),因此,在具有線(xiàn)性回歸智能體的ATSC中,A2C算法的表現(xiàn)優(yōu)于前兩種[10]。

(1)

(2)

2.2 多智能體Actor-Critic算法

在多智能體網(wǎng)絡(luò)G=(V,ε)中,V是節(jié)點(diǎn)集,ε是路徑集。如果節(jié)點(diǎn)i和j之間存在邊,則稱(chēng)它們?yōu)猷従庸?jié)點(diǎn)。i的鄰居節(jié)點(diǎn)定義為Ni,本地區(qū)域定義為Vi=Ni∪i。此外,d(i,j)為連接任意兩個(gè)智能體之間的最小邊數(shù)。

在多智能體Actor-Critic算法 (Multi-agent Actor-Critic,MA2C)中,首先,提取鄰居節(jié)點(diǎn)的策略信息,用來(lái)提高每一個(gè)智能體的可觀察性;其次,提出空間折扣因子,削弱來(lái)自其它智能體狀態(tài)和獎(jiǎng)勵(lì)的信息。在智能體之間聯(lián)系有限的情況下,從鄰居智能體之間抽樣最新策略πt-1,將Ni=[πt-1,j]j∈Ni作為深度神經(jīng)網(wǎng)絡(luò)的輸入,此時(shí),當(dāng)前狀態(tài)為st,Vi。局部(local)策略公式如下

πt,i=πθi(·|st,Vi,πt-1,Ni)

(3)

其中,πθi為第i個(gè)智能體采用策略梯度算法直接用參數(shù)化模型擬合的策略[11]。由此,局部智能體將接收到實(shí)時(shí)的最近鄰居智能體的策略。這是基于兩個(gè)交通控制事實(shí):首先是交通狀態(tài)在短時(shí)間內(nèi)變化緩慢,因此,當(dāng)前步驟策略與最后一步策略非常相似;其次是在當(dāng)前的狀態(tài)和策略下,交通狀態(tài)的動(dòng)態(tài)變化符合馬爾科夫決策過(guò)程。

雖然局部智能體知道局部區(qū)域狀態(tài)和鄰域策略,但難以通過(guò)局部的價(jià)值回歸來(lái)擬合全局回報(bào)。為了達(dá)到全局合作的效果,假設(shè)全局獎(jiǎng)勵(lì)分解為rt=∑i∈Vrt,i,引入空間折扣因子α,調(diào)整智能體i的全局獎(jiǎng)勵(lì)

(4)

其中,Di是與智能體i之間的最大距離,α類(lèi)似于強(qiáng)化學(xué)習(xí)中的時(shí)間折扣因子γ,此處是按照空間順序而不是時(shí)間順序按比例縮小信號(hào),折扣全局獎(jiǎng)勵(lì)在貪心控制(α=0)和合作控制(α=1)之間得到平衡,且與估計(jì)局部策略πθi的優(yōu)勢(shì)更相關(guān)。使用α將鄰居狀態(tài)轉(zhuǎn)化為

(5)

(6)

其中,Vωi是智能體學(xué)習(xí)到的價(jià)值函數(shù)。價(jià)值損失式(2)變?yōu)?/p>

(7)

(8)

3 顧及路口壓力的多智能體Actor-Critic算法

為了避免傳統(tǒng)強(qiáng)化學(xué)習(xí)中各智能體之間缺乏聯(lián)系、算法策略不佳等問(wèn)題,提出顧及路口壓力的多智能體Actor-Critic算法(Intersection Pressure-based Mulit-agent A2C,IPMA2C)。首先,基于顧及路口壓力的強(qiáng)化學(xué)習(xí)策略對(duì)交通路口進(jìn)行分析,通過(guò)緩解壓力的方法對(duì)路網(wǎng)進(jìn)行優(yōu)化;其次,構(gòu)建基于深度神經(jīng)網(wǎng)路的多智能體Actor-Critic模型,提升交通調(diào)控能力。

3.1 基本定義

1) 交通路口的進(jìn)車(chē)道、出車(chē)道

交通路口的進(jìn)車(chē)道是車(chē)輛進(jìn)入交通路口的車(chē)道,交通路口的出車(chē)道是車(chē)輛駛出該路口的車(chē)道。將交通路口的進(jìn)車(chē)道集合表示為L(zhǎng)in,出車(chē)道集合表示為L(zhǎng)out。

2) 交通運(yùn)動(dòng)

交通運(yùn)動(dòng)定義為汽車(chē)從一個(gè)進(jìn)車(chē)道通過(guò)一個(gè)交通路口行駛到一個(gè)出車(chē)道。將通過(guò)一個(gè)交通路口的交通行為表示為(l,m),其中,l是進(jìn)車(chē)道,m是出車(chē)道。

3) 運(yùn)動(dòng)信號(hào)、相位

以交通路口信號(hào)控制車(chē)輛的運(yùn)動(dòng),其中,綠燈表示允許移動(dòng),紅燈表示禁止移動(dòng)。將運(yùn)動(dòng)信號(hào)定義為a(l,m),其中,a(l,m)=1表示綠燈,即允許運(yùn)動(dòng)(l,m),a(l,m)=0表示紅燈,即禁止運(yùn)動(dòng)(l,m)。相位是運(yùn)動(dòng)信號(hào)的組合,定義為p={(l,m)|a(l,m)=1},其中,l∈Lin,m∈Lout。

4) 運(yùn)動(dòng)壓力、交通路口壓力

(9)

如果所有車(chē)道的最大容量xmax相同,則w(l,m)只表示進(jìn)出車(chē)輛數(shù)量之間的差異。

交通路口i的壓力定義為所有交通運(yùn)動(dòng)的絕對(duì)壓力之和

(10)

壓力Pi表示車(chē)輛進(jìn)出密度的不平衡程度,Pi越大,車(chē)輛分布就越不平衡。

因此,將多路口交通信號(hào)調(diào)控問(wèn)題描述為:每個(gè)路口都由一個(gè)強(qiáng)化學(xué)習(xí)智能體來(lái)控制交通信號(hào)燈,在每個(gè)時(shí)間步t內(nèi),智能體i從環(huán)境中觀察到自己的狀態(tài)。給定車(chē)輛分布和當(dāng)前信號(hào)階段,智能體的目標(biāo)是采取最優(yōu)動(dòng)作at,i(即交通路口的信號(hào)燈進(jìn)入哪個(gè)階段),從而獲得最大獎(jiǎng)勵(lì)(即所有車(chē)輛的平均行駛時(shí)間最短)。

3.2 智能體

1) 狀態(tài)(State)

狀態(tài)是為一個(gè)單獨(dú)的交通路口定義的,即多智能體強(qiáng)化學(xué)習(xí)中智能體觀察到的內(nèi)容,包括該交通路口i在t時(shí)刻每個(gè)進(jìn)車(chē)道的車(chē)輛數(shù)xt,i(l)(l∈Lin,i),及在t時(shí)刻出車(chē)道的車(chē)輛數(shù)xt,i(m)(m∈Lout,i)。狀態(tài)表示為

st,i={xt,i(l),xt,i(m)}l∈Lin,i,m∈Lout,i

(11)

其中,l是交通路口i的進(jìn)車(chē)道,m是交通路口i的出車(chē)道,Lin,i是進(jìn)車(chē)道的集合,Lout,i是出車(chē)道的集合。

2) 動(dòng)作(Action)

在t時(shí)刻,每個(gè)智能體從動(dòng)作集A中選擇一個(gè)動(dòng)作at,i作為該階段的動(dòng)作,即信號(hào)接下來(lái)的狀態(tài)。每個(gè)智能體有四個(gè)動(dòng)作,分別為東西直行,東西左轉(zhuǎn),南北直行,南北左轉(zhuǎn),如圖1。

圖1 動(dòng)作定義圖

圖1中,(a)東西直行 (b)東西左轉(zhuǎn) (c)南北直行 (d)南北左轉(zhuǎn)

3) 獎(jiǎng)勵(lì)(Reward)

定義智能體i的獎(jiǎng)勵(lì)為

rt,i=-Pt,i

(12)

其中,Pt,i是第i個(gè)交通路口在t時(shí)刻的壓力,即進(jìn)出車(chē)道上車(chē)輛密度之間的不平衡程度。通過(guò)最小化Pt,i,使路網(wǎng)內(nèi)的車(chē)輛可以均勻分布,進(jìn)而優(yōu)化路網(wǎng)的車(chē)輛吞吐量。

3.3 IPMA2C模型

由于交通流是復(fù)雜的時(shí)空數(shù)據(jù),如果智能體只知道當(dāng)前時(shí)刻的狀態(tài),則馬爾科夫決策過(guò)程可能會(huì)變得不穩(wěn)定。最簡(jiǎn)單的方法是將所有歷史狀態(tài)全部輸入到Actor-Critic算法中,但是會(huì)顯著增加狀態(tài)的維度,減少Actor-Critic對(duì)最臨近交通狀況的關(guān)注。LSTM可以保持隱藏狀態(tài)并記住簡(jiǎn)短的歷史信息[12],因此,本文將LSTM作為隱藏層,從輸入中提取信息。

IPMA2C模型如圖2所示。首先,狀態(tài)和鄰居策略分別輸入到全連接層FC;然后,利用LSTM作為最后一個(gè)隱藏層從狀態(tài)中提取特征;輸出層連接Actor-Critic算法的Actor和Critic兩部分,其中Actor對(duì)應(yīng)的是Softmax函數(shù),Critic對(duì)應(yīng)的是Linear函數(shù)。采用正交初始化[13]和RMSprop[14]作為梯度優(yōu)化器。對(duì)于每個(gè)輸入的狀態(tài),采用貪婪策略收集交通環(huán)境的統(tǒng)計(jì)數(shù)據(jù)。為防止梯度爆炸,所有歸一化的狀態(tài)被縮放到[0,2]范圍內(nèi),且每個(gè)梯度的上限為40。類(lèi)似,將獎(jiǎng)勵(lì)歸一化并縮放到[-2,2],以穩(wěn)定小批量更新。

圖2 IPMA2C模型

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)設(shè)置

基于SUMO[15]平臺(tái),生成由25個(gè)交通路口和信號(hào)燈構(gòu)成的模擬交通網(wǎng)絡(luò),如圖3。該網(wǎng)絡(luò)由限速20m/s的雙車(chē)道主干道組成,其中,交通路口間的距離為300m。每個(gè)路口的動(dòng)作包括:東西直行、東西左轉(zhuǎn)、南北直行和南北左轉(zhuǎn)四種,車(chē)輛可以自主右轉(zhuǎn)。設(shè)F1={x4->x10,x5->x11,x6->x12}(東->西),F2={x1->x7,x2->x8,x3->x9}(北->南)為兩組車(chē)輛起點(diǎn)至目的地(Origin-Destination,OD)的集合。

圖3 包含25個(gè)路口的5×5模擬交通網(wǎng)絡(luò)圖,圓圈內(nèi)為示例交通路口

初始狀態(tài),大量車(chē)流從F1的起點(diǎn)不斷生成,少量車(chē)流從F2的起點(diǎn)生成。15分鐘后,F1生成少量車(chē)流,F2則變?yōu)樯纱罅寇?chē)流,由此循環(huán)往復(fù)。通過(guò)生成大量的車(chē)流以產(chǎn)生交通擁堵,檢測(cè)IPMA2C模型在交通疏導(dǎo)方面的能力。

為了在模型運(yùn)行時(shí)間Ts內(nèi)模擬交通環(huán)境,定義Δt為強(qiáng)化學(xué)習(xí)中智能體與交通環(huán)境之間的交互周期。如果Δt太長(zhǎng),智能體無(wú)法對(duì)路網(wǎng)產(chǎn)生有效調(diào)控;如果Δt太短,智能體的即時(shí)決策將無(wú)法按時(shí)傳達(dá)。此外,如果交通燈的控制切換過(guò)于頻繁,則會(huì)存在安全隱患。設(shè)Ts=3600s,Δt=5s。對(duì)于馬爾科夫決策過(guò)程,設(shè)γ=0.99,α=0.75,獎(jiǎng)勵(lì)系數(shù)a=0.2veh/s,狀態(tài)和獎(jiǎng)勵(lì)的歸一化因子分別為5veh和2000veh;對(duì)于IPMA2C模型,設(shè)minibatch的大小|B|=120,β=0.01。

為了驗(yàn)證IPMA2C模型的效率和穩(wěn)定性,將其與傳統(tǒng)的經(jīng)典交通控制模型進(jìn)行對(duì)比。選取的基準(zhǔn)模型如下:

1)具有隨機(jī)偏移量和固定變化時(shí)間的FixedTime方法[1];

2)對(duì)車(chē)輛等待時(shí)間和隊(duì)列長(zhǎng)度進(jìn)行優(yōu)化的多智能體Actor-Critic算法(MA2C)[7];

3)學(xué)習(xí)智能體之間互相影響和聯(lián)合動(dòng)作的CoLight算法[6]。

4.2 實(shí)驗(yàn)結(jié)果

圖4為IPMA2C模型與其它基準(zhǔn)模型在一個(gè)小時(shí)內(nèi)到達(dá)目的地的車(chē)輛數(shù)量變化情況。在開(kāi)始的前15分鐘,IPMA2C模型并未展現(xiàn)出優(yōu)勢(shì),這是因?yàn)殡m然有大量車(chē)流進(jìn)入路網(wǎng),但尚未造成嚴(yán)重?fù)矶?此時(shí),傳統(tǒng)交通控制方法均可實(shí)現(xiàn)良好的調(diào)控。隨著路網(wǎng)中車(chē)流量越來(lái)越大,IPMA2C模型的優(yōu)勢(shì)開(kāi)始逐漸顯現(xiàn),最終,有更多車(chē)輛到達(dá)目的地,性能優(yōu)于其它模型。

圖4 車(chē)輛到達(dá)數(shù)量對(duì)比圖

圖5為網(wǎng)內(nèi)車(chē)輛平均速度的變化情況。在前15分鐘,即沒(méi)有擁堵時(shí),四種模型的平均車(chē)速均逐漸上升。當(dāng)產(chǎn)生嚴(yán)重?fù)矶聲r(shí),四種模型的平均車(chē)速均開(kāi)始下降。但在整個(gè)過(guò)程中,IPMA2C模型的平均車(chē)速均高于其它三種模型,體現(xiàn)了最優(yōu)性能。

圖5 平均速度對(duì)比圖

表1為其它評(píng)價(jià)指標(biāo)的統(tǒng)計(jì)結(jié)果,IPMA2C模型提升了交通調(diào)控效率。其中,車(chē)輛的平均行程時(shí)間縮短了至少5%,平均行程等待時(shí)間縮短了8%,平均行程時(shí)間損失縮短了7%,而平均行程速度提升了至少6%。這些實(shí)驗(yàn)結(jié)果均表明IPMA2C模型的性能優(yōu)于其它基準(zhǔn)模型。

表1 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)表

相比其它方法,IPMA2C通過(guò)顧及路口壓力的強(qiáng)化學(xué)習(xí)策略,對(duì)路口的狀態(tài)進(jìn)行分析,通過(guò)基于深度神經(jīng)網(wǎng)絡(luò)的Actor-Critic算法對(duì)交通信號(hào)進(jìn)行調(diào)控。顧及路口壓力的強(qiáng)化學(xué)習(xí)策略,將關(guān)注重心放在減少路口等待車(chē)輛的數(shù)量上,而非縮短車(chē)輛等待時(shí)間;在基于深度神經(jīng)網(wǎng)絡(luò)的Actor-Critic模型中,全連接網(wǎng)絡(luò)FC有強(qiáng)大的特征提取能力,LSTM作為隱藏層具有長(zhǎng)時(shí)記憶的能力,可以保留歷史信息。因此,在緩解擁堵方面有更好的效果,性能也是最好的。

5 結(jié)束語(yǔ)

本文提出一種新穎的顧及路口壓力的多智能體Actor-Critic算法,用于對(duì)交通信號(hào)進(jìn)行智能調(diào)控,緩解了交通擁堵。首先,設(shè)計(jì)更合理的顧及路口壓力的強(qiáng)化學(xué)習(xí)策略;其次,提出基于深度神經(jīng)網(wǎng)絡(luò)的IPMA2C模型;最后,在模擬交通網(wǎng)絡(luò)中驗(yàn)證IPMA2C模型的魯棒性、最優(yōu)性,其性能優(yōu)于其它傳統(tǒng)的基準(zhǔn)算法。

在未來(lái)工作中,將研究更先進(jìn)的策略?xún)?yōu)化模型,并嘗試將其推廣到交通路口數(shù)量更多、路網(wǎng)更復(fù)雜的真實(shí)環(huán)境中進(jìn)行測(cè)試。