• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      顧及路口壓力的A2C交通信號(hào)調(diào)控

      2023-10-29 01:46:36郭全盛林建新李建武
      計(jì)算機(jī)仿真 2023年9期
      關(guān)鍵詞:路網(wǎng)車(chē)道調(diào)控

      張 蕾,郭全盛,林建新,李建武

      (1. 北京建筑大學(xué)電氣與信息工程學(xué)院,北京 100044;2. 建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044;3. 北京建筑大學(xué)土木與交通工程學(xué)院,北京 100044;4. 北京理工大學(xué)前沿技術(shù)研究院,北京 100081)

      1 引言

      近年來(lái),隨著城市的不斷擴(kuò)張以及人口的快速增長(zhǎng),全球大都市中的交通運(yùn)輸需求急劇提升。超大規(guī)模的交通流量給現(xiàn)有基礎(chǔ)設(shè)施帶來(lái)巨大壓力,導(dǎo)致嚴(yán)重?fù)矶?加劇了碳排放污染,給城市規(guī)劃、社會(huì)穩(wěn)定帶來(lái)負(fù)面影響。緩解城市交通擁堵是國(guó)家“十四五”規(guī)劃中加快建設(shè)交通強(qiáng)國(guó)的重點(diǎn)和難點(diǎn),是刻不容緩的。城市交通車(chē)流量變化之間有著復(fù)雜且緊密的聯(lián)系,通過(guò)有效調(diào)控,疏導(dǎo)車(chē)輛選擇合適的通行線(xiàn)路,為有關(guān)部門(mén)提供科學(xué)的決策支撐,進(jìn)行有針對(duì)性的交通疏導(dǎo),提高通行效率和經(jīng)濟(jì)效益。

      自適應(yīng)交通信號(hào)控制(Adaptive Traffic Signal Control,ATSC)旨在根據(jù)交通現(xiàn)狀實(shí)時(shí)調(diào)控交通信號(hào)燈的變化,緩解交通路網(wǎng)中存在的交通擁堵現(xiàn)象,提升車(chē)輛通行效率。在網(wǎng)格狀的路網(wǎng)中,如在車(chē)流量密集的市中心區(qū)域,傳統(tǒng)的多道路交叉口控制方法通過(guò)在所有交叉口之間設(shè)置固定偏移量實(shí)現(xiàn)協(xié)調(diào)控制,最經(jīng)典的是FixedTime算法[1],該算法設(shè)置了隨機(jī)偏移量和固定的信號(hào)變化時(shí)間。此外,美國(guó)交通運(yùn)輸委員會(huì)與美國(guó)聯(lián)邦公路局編寫(xiě)的信號(hào)控制手冊(cè)中也采用了類(lèi)似方法[2]。然而,上述方法過(guò)于簡(jiǎn)單,現(xiàn)實(shí)交通網(wǎng)絡(luò)難以達(dá)到理想狀態(tài),很難通過(guò)固定偏移量進(jìn)行全局優(yōu)化。

      針對(duì)此缺陷,研究人員提出基于優(yōu)化的算法,最常見(jiàn)的是基于馬爾可夫決策過(guò)程(Markov Decision Process,MDP)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)算法,用于對(duì)真實(shí)世界的交通量進(jìn)行動(dòng)態(tài)調(diào)控[3]。例如,Wei等[4]提出基于強(qiáng)化學(xué)習(xí)的IntelliLight模型,使用深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)對(duì)交通環(huán)境進(jìn)行分析,進(jìn)而預(yù)測(cè)交通信號(hào)燈的下一個(gè)狀態(tài)。近年來(lái),強(qiáng)化學(xué)習(xí)領(lǐng)域的重要分支——Actor-Critic (A2C,演員-評(píng)論家)算法被廣泛用于ATSC中,并通過(guò)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)來(lái)模擬A2C的策略和狀態(tài)[5]。Hua等[6]提出了CoLight模型,使用圖注意力網(wǎng)絡(luò)結(jié)合相鄰交叉點(diǎn)之間的影響,用于對(duì)多個(gè)交通信號(hào)燈進(jìn)行控制。Chu等[7]提出了多智能體A2C模型(Multi-agent A2C,MA2C),將深度神經(jīng)網(wǎng)絡(luò)與多智能體強(qiáng)化學(xué)習(xí)(Multi-agent Reinforcement Learning,MARL)結(jié)合,在交通信號(hào)控制領(lǐng)域中得到了較好的實(shí)驗(yàn)效果。然而,以上算法的表達(dá)能力易受策略設(shè)計(jì)的影響,即錯(cuò)誤的策略反而降低交通調(diào)控的效果。

      2 相關(guān)工作

      2.1 強(qiáng)化學(xué)習(xí)算法

      強(qiáng)化學(xué)習(xí)主要分為三類(lèi):基于價(jià)值的方法(value based)、基于策略的方法(policy based)和演員-評(píng)論家算法(Actor-Critic,A2C)。由于A2C算法既可以處理高維連續(xù)的行動(dòng),又可以單步更新快速學(xué)習(xí),因此,在具有線(xiàn)性回歸智能體的ATSC中,A2C算法的表現(xiàn)優(yōu)于前兩種[10]。

      (1)

      (2)

      2.2 多智能體Actor-Critic算法

      在多智能體網(wǎng)絡(luò)G=(V,ε)中,V是節(jié)點(diǎn)集,ε是路徑集。如果節(jié)點(diǎn)i和j之間存在邊,則稱(chēng)它們?yōu)猷従庸?jié)點(diǎn)。i的鄰居節(jié)點(diǎn)定義為Ni,本地區(qū)域定義為Vi=Ni∪i。此外,d(i,j)為連接任意兩個(gè)智能體之間的最小邊數(shù)。

      在多智能體Actor-Critic算法 (Multi-agent Actor-Critic,MA2C)中,首先,提取鄰居節(jié)點(diǎn)的策略信息,用來(lái)提高每一個(gè)智能體的可觀察性;其次,提出空間折扣因子,削弱來(lái)自其它智能體狀態(tài)和獎(jiǎng)勵(lì)的信息。在智能體之間聯(lián)系有限的情況下,從鄰居智能體之間抽樣最新策略πt-1,將Ni=[πt-1,j]j∈Ni作為深度神經(jīng)網(wǎng)絡(luò)的輸入,此時(shí),當(dāng)前狀態(tài)為st,Vi。局部(local)策略公式如下

      πt,i=πθi(·|st,Vi,πt-1,Ni)

      (3)

      其中,πθi為第i個(gè)智能體采用策略梯度算法直接用參數(shù)化模型擬合的策略[11]。由此,局部智能體將接收到實(shí)時(shí)的最近鄰居智能體的策略。這是基于兩個(gè)交通控制事實(shí):首先是交通狀態(tài)在短時(shí)間內(nèi)變化緩慢,因此,當(dāng)前步驟策略與最后一步策略非常相似;其次是在當(dāng)前的狀態(tài)和策略下,交通狀態(tài)的動(dòng)態(tài)變化符合馬爾科夫決策過(guò)程。

      雖然局部智能體知道局部區(qū)域狀態(tài)和鄰域策略,但難以通過(guò)局部的價(jià)值回歸來(lái)擬合全局回報(bào)。為了達(dá)到全局合作的效果,假設(shè)全局獎(jiǎng)勵(lì)分解為rt=∑i∈Vrt,i,引入空間折扣因子α,調(diào)整智能體i的全局獎(jiǎng)勵(lì)

      (4)

      其中,Di是與智能體i之間的最大距離,α類(lèi)似于強(qiáng)化學(xué)習(xí)中的時(shí)間折扣因子γ,此處是按照空間順序而不是時(shí)間順序按比例縮小信號(hào),折扣全局獎(jiǎng)勵(lì)在貪心控制(α=0)和合作控制(α=1)之間得到平衡,且與估計(jì)局部策略πθi的優(yōu)勢(shì)更相關(guān)。使用α將鄰居狀態(tài)轉(zhuǎn)化為

      (5)

      (6)

      其中,Vωi是智能體學(xué)習(xí)到的價(jià)值函數(shù)。價(jià)值損失式(2)變?yōu)?/p>

      (7)

      (8)

      3 顧及路口壓力的多智能體Actor-Critic算法

      為了避免傳統(tǒng)強(qiáng)化學(xué)習(xí)中各智能體之間缺乏聯(lián)系、算法策略不佳等問(wèn)題,提出顧及路口壓力的多智能體Actor-Critic算法(Intersection Pressure-based Mulit-agent A2C,IPMA2C)。首先,基于顧及路口壓力的強(qiáng)化學(xué)習(xí)策略對(duì)交通路口進(jìn)行分析,通過(guò)緩解壓力的方法對(duì)路網(wǎng)進(jìn)行優(yōu)化;其次,構(gòu)建基于深度神經(jīng)網(wǎng)路的多智能體Actor-Critic模型,提升交通調(diào)控能力。

      3.1 基本定義

      1) 交通路口的進(jìn)車(chē)道、出車(chē)道

      交通路口的進(jìn)車(chē)道是車(chē)輛進(jìn)入交通路口的車(chē)道,交通路口的出車(chē)道是車(chē)輛駛出該路口的車(chē)道。將交通路口的進(jìn)車(chē)道集合表示為L(zhǎng)in,出車(chē)道集合表示為L(zhǎng)out。

      2) 交通運(yùn)動(dòng)

      交通運(yùn)動(dòng)定義為汽車(chē)從一個(gè)進(jìn)車(chē)道通過(guò)一個(gè)交通路口行駛到一個(gè)出車(chē)道。將通過(guò)一個(gè)交通路口的交通行為表示為(l,m),其中,l是進(jìn)車(chē)道,m是出車(chē)道。

      3) 運(yùn)動(dòng)信號(hào)、相位

      以交通路口信號(hào)控制車(chē)輛的運(yùn)動(dòng),其中,綠燈表示允許移動(dòng),紅燈表示禁止移動(dòng)。將運(yùn)動(dòng)信號(hào)定義為a(l,m),其中,a(l,m)=1表示綠燈,即允許運(yùn)動(dòng)(l,m),a(l,m)=0表示紅燈,即禁止運(yùn)動(dòng)(l,m)。相位是運(yùn)動(dòng)信號(hào)的組合,定義為p={(l,m)|a(l,m)=1},其中,l∈Lin,m∈Lout。

      4) 運(yùn)動(dòng)壓力、交通路口壓力

      (9)

      如果所有車(chē)道的最大容量xmax相同,則w(l,m)只表示進(jìn)出車(chē)輛數(shù)量之間的差異。

      交通路口i的壓力定義為所有交通運(yùn)動(dòng)的絕對(duì)壓力之和

      (10)

      壓力Pi表示車(chē)輛進(jìn)出密度的不平衡程度,Pi越大,車(chē)輛分布就越不平衡。

      因此,將多路口交通信號(hào)調(diào)控問(wèn)題描述為:每個(gè)路口都由一個(gè)強(qiáng)化學(xué)習(xí)智能體來(lái)控制交通信號(hào)燈,在每個(gè)時(shí)間步t內(nèi),智能體i從環(huán)境中觀察到自己的狀態(tài)。給定車(chē)輛分布和當(dāng)前信號(hào)階段,智能體的目標(biāo)是采取最優(yōu)動(dòng)作at,i(即交通路口的信號(hào)燈進(jìn)入哪個(gè)階段),從而獲得最大獎(jiǎng)勵(lì)(即所有車(chē)輛的平均行駛時(shí)間最短)。

      3.2 智能體

      1) 狀態(tài)(State)

      狀態(tài)是為一個(gè)單獨(dú)的交通路口定義的,即多智能體強(qiáng)化學(xué)習(xí)中智能體觀察到的內(nèi)容,包括該交通路口i在t時(shí)刻每個(gè)進(jìn)車(chē)道的車(chē)輛數(shù)xt,i(l)(l∈Lin,i),及在t時(shí)刻出車(chē)道的車(chē)輛數(shù)xt,i(m)(m∈Lout,i)。狀態(tài)表示為

      st,i={xt,i(l),xt,i(m)}l∈Lin,i,m∈Lout,i

      (11)

      其中,l是交通路口i的進(jìn)車(chē)道,m是交通路口i的出車(chē)道,Lin,i是進(jìn)車(chē)道的集合,Lout,i是出車(chē)道的集合。

      2) 動(dòng)作(Action)

      在t時(shí)刻,每個(gè)智能體從動(dòng)作集A中選擇一個(gè)動(dòng)作at,i作為該階段的動(dòng)作,即信號(hào)接下來(lái)的狀態(tài)。每個(gè)智能體有四個(gè)動(dòng)作,分別為東西直行,東西左轉(zhuǎn),南北直行,南北左轉(zhuǎn),如圖1。

      圖1 動(dòng)作定義圖

      圖1中,(a)東西直行 (b)東西左轉(zhuǎn) (c)南北直行 (d)南北左轉(zhuǎn)

      3) 獎(jiǎng)勵(lì)(Reward)

      定義智能體i的獎(jiǎng)勵(lì)為

      rt,i=-Pt,i

      (12)

      其中,Pt,i是第i個(gè)交通路口在t時(shí)刻的壓力,即進(jìn)出車(chē)道上車(chē)輛密度之間的不平衡程度。通過(guò)最小化Pt,i,使路網(wǎng)內(nèi)的車(chē)輛可以均勻分布,進(jìn)而優(yōu)化路網(wǎng)的車(chē)輛吞吐量。

      3.3 IPMA2C模型

      由于交通流是復(fù)雜的時(shí)空數(shù)據(jù),如果智能體只知道當(dāng)前時(shí)刻的狀態(tài),則馬爾科夫決策過(guò)程可能會(huì)變得不穩(wěn)定。最簡(jiǎn)單的方法是將所有歷史狀態(tài)全部輸入到Actor-Critic算法中,但是會(huì)顯著增加狀態(tài)的維度,減少Actor-Critic對(duì)最臨近交通狀況的關(guān)注。LSTM可以保持隱藏狀態(tài)并記住簡(jiǎn)短的歷史信息[12],因此,本文將LSTM作為隱藏層,從輸入中提取信息。

      IPMA2C模型如圖2所示。首先,狀態(tài)和鄰居策略分別輸入到全連接層FC;然后,利用LSTM作為最后一個(gè)隱藏層從狀態(tài)中提取特征;輸出層連接Actor-Critic算法的Actor和Critic兩部分,其中Actor對(duì)應(yīng)的是Softmax函數(shù),Critic對(duì)應(yīng)的是Linear函數(shù)。采用正交初始化[13]和RMSprop[14]作為梯度優(yōu)化器。對(duì)于每個(gè)輸入的狀態(tài),采用貪婪策略收集交通環(huán)境的統(tǒng)計(jì)數(shù)據(jù)。為防止梯度爆炸,所有歸一化的狀態(tài)被縮放到[0,2]范圍內(nèi),且每個(gè)梯度的上限為40。類(lèi)似,將獎(jiǎng)勵(lì)歸一化并縮放到[-2,2],以穩(wěn)定小批量更新。

      圖2 IPMA2C模型

      4 實(shí)驗(yàn)分析

      4.1 實(shí)驗(yàn)設(shè)置

      基于SUMO[15]平臺(tái),生成由25個(gè)交通路口和信號(hào)燈構(gòu)成的模擬交通網(wǎng)絡(luò),如圖3。該網(wǎng)絡(luò)由限速20m/s的雙車(chē)道主干道組成,其中,交通路口間的距離為300m。每個(gè)路口的動(dòng)作包括:東西直行、東西左轉(zhuǎn)、南北直行和南北左轉(zhuǎn)四種,車(chē)輛可以自主右轉(zhuǎn)。設(shè)F1={x4->x10,x5->x11,x6->x12}(東->西),F2={x1->x7,x2->x8,x3->x9}(北->南)為兩組車(chē)輛起點(diǎn)至目的地(Origin-Destination,OD)的集合。

      圖3 包含25個(gè)路口的5×5模擬交通網(wǎng)絡(luò)圖,圓圈內(nèi)為示例交通路口

      初始狀態(tài),大量車(chē)流從F1的起點(diǎn)不斷生成,少量車(chē)流從F2的起點(diǎn)生成。15分鐘后,F1生成少量車(chē)流,F2則變?yōu)樯纱罅寇?chē)流,由此循環(huán)往復(fù)。通過(guò)生成大量的車(chē)流以產(chǎn)生交通擁堵,檢測(cè)IPMA2C模型在交通疏導(dǎo)方面的能力。

      為了在模型運(yùn)行時(shí)間Ts內(nèi)模擬交通環(huán)境,定義Δt為強(qiáng)化學(xué)習(xí)中智能體與交通環(huán)境之間的交互周期。如果Δt太長(zhǎng),智能體無(wú)法對(duì)路網(wǎng)產(chǎn)生有效調(diào)控;如果Δt太短,智能體的即時(shí)決策將無(wú)法按時(shí)傳達(dá)。此外,如果交通燈的控制切換過(guò)于頻繁,則會(huì)存在安全隱患。設(shè)Ts=3600s,Δt=5s。對(duì)于馬爾科夫決策過(guò)程,設(shè)γ=0.99,α=0.75,獎(jiǎng)勵(lì)系數(shù)a=0.2veh/s,狀態(tài)和獎(jiǎng)勵(lì)的歸一化因子分別為5veh和2000veh;對(duì)于IPMA2C模型,設(shè)minibatch的大小|B|=120,β=0.01。

      為了驗(yàn)證IPMA2C模型的效率和穩(wěn)定性,將其與傳統(tǒng)的經(jīng)典交通控制模型進(jìn)行對(duì)比。選取的基準(zhǔn)模型如下:

      1)具有隨機(jī)偏移量和固定變化時(shí)間的FixedTime方法[1];

      2)對(duì)車(chē)輛等待時(shí)間和隊(duì)列長(zhǎng)度進(jìn)行優(yōu)化的多智能體Actor-Critic算法(MA2C)[7];

      3)學(xué)習(xí)智能體之間互相影響和聯(lián)合動(dòng)作的CoLight算法[6]。

      4.2 實(shí)驗(yàn)結(jié)果

      圖4為IPMA2C模型與其它基準(zhǔn)模型在一個(gè)小時(shí)內(nèi)到達(dá)目的地的車(chē)輛數(shù)量變化情況。在開(kāi)始的前15分鐘,IPMA2C模型并未展現(xiàn)出優(yōu)勢(shì),這是因?yàn)殡m然有大量車(chē)流進(jìn)入路網(wǎng),但尚未造成嚴(yán)重?fù)矶?此時(shí),傳統(tǒng)交通控制方法均可實(shí)現(xiàn)良好的調(diào)控。隨著路網(wǎng)中車(chē)流量越來(lái)越大,IPMA2C模型的優(yōu)勢(shì)開(kāi)始逐漸顯現(xiàn),最終,有更多車(chē)輛到達(dá)目的地,性能優(yōu)于其它模型。

      圖4 車(chē)輛到達(dá)數(shù)量對(duì)比圖

      圖5為網(wǎng)內(nèi)車(chē)輛平均速度的變化情況。在前15分鐘,即沒(méi)有擁堵時(shí),四種模型的平均車(chē)速均逐漸上升。當(dāng)產(chǎn)生嚴(yán)重?fù)矶聲r(shí),四種模型的平均車(chē)速均開(kāi)始下降。但在整個(gè)過(guò)程中,IPMA2C模型的平均車(chē)速均高于其它三種模型,體現(xiàn)了最優(yōu)性能。

      圖5 平均速度對(duì)比圖

      表1為其它評(píng)價(jià)指標(biāo)的統(tǒng)計(jì)結(jié)果,IPMA2C模型提升了交通調(diào)控效率。其中,車(chē)輛的平均行程時(shí)間縮短了至少5%,平均行程等待時(shí)間縮短了8%,平均行程時(shí)間損失縮短了7%,而平均行程速度提升了至少6%。這些實(shí)驗(yàn)結(jié)果均表明IPMA2C模型的性能優(yōu)于其它基準(zhǔn)模型。

      表1 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)表

      相比其它方法,IPMA2C通過(guò)顧及路口壓力的強(qiáng)化學(xué)習(xí)策略,對(duì)路口的狀態(tài)進(jìn)行分析,通過(guò)基于深度神經(jīng)網(wǎng)絡(luò)的Actor-Critic算法對(duì)交通信號(hào)進(jìn)行調(diào)控。顧及路口壓力的強(qiáng)化學(xué)習(xí)策略,將關(guān)注重心放在減少路口等待車(chē)輛的數(shù)量上,而非縮短車(chē)輛等待時(shí)間;在基于深度神經(jīng)網(wǎng)絡(luò)的Actor-Critic模型中,全連接網(wǎng)絡(luò)FC有強(qiáng)大的特征提取能力,LSTM作為隱藏層具有長(zhǎng)時(shí)記憶的能力,可以保留歷史信息。因此,在緩解擁堵方面有更好的效果,性能也是最好的。

      5 結(jié)束語(yǔ)

      本文提出一種新穎的顧及路口壓力的多智能體Actor-Critic算法,用于對(duì)交通信號(hào)進(jìn)行智能調(diào)控,緩解了交通擁堵。首先,設(shè)計(jì)更合理的顧及路口壓力的強(qiáng)化學(xué)習(xí)策略;其次,提出基于深度神經(jīng)網(wǎng)絡(luò)的IPMA2C模型;最后,在模擬交通網(wǎng)絡(luò)中驗(yàn)證IPMA2C模型的魯棒性、最優(yōu)性,其性能優(yōu)于其它傳統(tǒng)的基準(zhǔn)算法。

      在未來(lái)工作中,將研究更先進(jìn)的策略?xún)?yōu)化模型,并嘗試將其推廣到交通路口數(shù)量更多、路網(wǎng)更復(fù)雜的真實(shí)環(huán)境中進(jìn)行測(cè)試。

      猜你喜歡
      路網(wǎng)車(chē)道調(diào)控
      北斗+手機(jī)實(shí)現(xiàn)車(chē)道級(jí)導(dǎo)航應(yīng)用
      避免跟車(chē)闖紅燈的地面車(chē)道線(xiàn)
      淺談MTC車(chē)道改造
      如何調(diào)控困意
      經(jīng)濟(jì)穩(wěn)中有進(jìn) 調(diào)控托而不舉
      打著“飛的”去上班 城市空中交通路網(wǎng)還有多遠(yuǎn)
      省際路網(wǎng)聯(lián)動(dòng)機(jī)制的錦囊妙計(jì)
      首都路網(wǎng) 不堪其重——2016年重大節(jié)假日高速公路免通期的北京路網(wǎng)運(yùn)行狀況
      路網(wǎng)標(biāo)志該如何指路?
      順勢(shì)而導(dǎo) 靈活調(diào)控
      五大连池市| 宁陵县| 瑞丽市| 固镇县| 四平市| 大安市| 洛南县| 郑州市| 元江| 平安县| 吴江市| 华蓥市| 衡阳县| 太谷县| 驻马店市| 嘉义市| 浦江县| 卢湾区| 延安市| 武强县| 永嘉县| 雅江县| 剑川县| 望都县| 赣榆县| 星子县| 孝昌县| 龙川县| 上林县| 五华县| 江川县| 平阴县| 罗田县| 长丰县| 米易县| 台湾省| 玛多县| 宁南县| 花垣县| 南投市| 宜州市|