秦僑 楊超 楊海濤 黃旭民 張斌 楊海森
摘 要:現(xiàn)有交通信號燈控制策略大多針對單一交叉口展開分析,該策略僅考慮車流量的單一因素,難以適應(yīng)動態(tài)的路網(wǎng)狀態(tài)。對此,提出了一種結(jié)合模糊控制的深度強化學習交通燈控制策略,利用SAC(soft actor critic)深度強化學習對兩交叉口的交通信號燈相位選擇及配時進行聯(lián)合優(yōu)化,同時考慮車輛速度、路段車輛排隊長度等因素,利用模糊控制對SAC的懲罰函數(shù)進行處理。實驗結(jié)果表明,與固定循環(huán)周期策略、SAC控制策略和DDPG(deep deterministic policy gradient)控制策略相比,提出的交通信號燈控制策略能獲得更快的車輛通行速度,車輛的油耗和尾氣排放情況也得到了改善。
關(guān)鍵詞:智能交通;交通信號燈控制;深度強化學習;模糊控制;VISSIM
中圖分類號:TP273.1?? 文獻標志碼:A?? 文章編號:1001-3695(2024)01-024-0165-05
doi:10.19734/j.issn.1001-3695.2023.04.0187
Deep reinforcement learning traffic light control strategy combined with fuzzy control
Abstract:Most of the existing traffic light control strategies consider a single factor such as traffic flow,which is difficult to adapt to the dynamic states of the road networks.In order to solve this problem,this paper proposed a deep reinforcement lear-ning traffic light control strategy combined with fuzzy control,used SAC deep reinforcement learning to jointly optimize the phase selection and timing of traffic lights at two intersections,while considering multiple influencing factors,used fuzzy control to process the penalty function of SAC.The experimental results demonstrate that compared with the fixed cycle strategy,SAC control strategy and DDPG control strategy,the proposed traffic signal control strategy can obtain faster vehicle speed,and the fuel consumption and exhaust emissions of the vehicle are also improved.
Key words:intelligent transportation;traffic signal control;deep reinforcement learning;fuzzy control;VISSIM
0 引言
高效的交通系統(tǒng)是提升社會經(jīng)濟競爭力和環(huán)境可持續(xù)發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施。對城市道路交叉路口的交通燈進行有效的控制,可以提升路段的通行效率,減少道路交通擁堵。在交叉口,路面交通流實時變化,路面車輛的到達具備不確定性。當前,大部分交叉路口的交通信號燈仍然采用傳統(tǒng)的單段或多段定時固定循環(huán)周期控制,導致延誤和高昂的通勤成本[1,2]。同時,交通燈設(shè)置不當導致的交通擁堵會增加碳排放,對環(huán)境和社會造成不良影響[3]。
隨著5G通信網(wǎng)絡(luò)技術(shù)的快速發(fā)展,車與車(vehicle-to-vehicle,V2V)、車與路側(cè)設(shè)施(vehicle-to-infrastructure,V2I)之間的數(shù)據(jù)傳輸速率加快[4,5]。依托交通物聯(lián)網(wǎng)技術(shù),智能交通系統(tǒng)可以設(shè)計一類交通信號燈自適應(yīng)控制策略,其能夠及時感知復(fù)雜路網(wǎng)的交通狀態(tài)變化,選擇最優(yōu)相位動作和配時。然而,已有的部分交通燈自適應(yīng)控制策略對動態(tài)變化的路網(wǎng)狀況難以在線進行調(diào)整,特別是面對多交叉路口的交通信號燈聯(lián)合控制場景效果不佳?;趶娀瘜W習(reinforcement learning,RL)的交通信號控制策略根據(jù)長期觀察的離線數(shù)據(jù)對交叉路口進行建模[6],同時根據(jù)策略的實測效果和路面的交通流在線調(diào)整交叉路口信號燈的控制策略,取得了較好的效果。文獻[3]提出基于深度Q-learning的單路口交通燈配時控制策略。文獻[4]設(shè)計了一類利用深度增強學習的交通信號燈配時和相位優(yōu)化策略,然而其懲罰函數(shù)只考慮了車流量這一單一因素。文獻[7]利用Q-learning同時對路口的交通燈相位和配時進行優(yōu)化。文獻[8] 通過LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測未來的交通信息,并使用DDPG深度強化學習模型進行決策。文獻[9]構(gòu)建了新的基于相鄰采樣時間步實時車輛數(shù)變化量的獎勵函數(shù),明顯提高了交叉口通行效率。文獻[10]基于改進Webster方法,設(shè)計一類高效的單交叉路口交通信號燈配時策略。文獻[11]將霧計算和強化學習理論相結(jié)合,提出了一種FRTL交通燈控制模型,有效地調(diào)控了紅綠燈時間,達到了緩解交通擁堵的目的。文獻[12]設(shè)計了一種基于模糊控制的交通信號燈控制策略。然而,上述工作是針對局部區(qū)域單個交叉口路網(wǎng)系統(tǒng)展開研究,沒有對大范圍內(nèi)多交叉路口聯(lián)合交通燈控制進行分析。文獻[13]針對多交叉口的紅綠燈相位控制,提出了一種基于多智能體的TR-light模型,有效地改善了多交叉口的交通狀況。文獻[14]在基于多智能體強化學習的基礎(chǔ)上,利用圖卷積網(wǎng)絡(luò)構(gòu)建了一個參數(shù)共享的NCCLight模型,實現(xiàn)了交叉口之間的信息交換,有效地提高了模型的性能。然而,上述方法沒有全面考慮影響控制決策的多方面因素,缺乏針對懲罰函數(shù)的優(yōu)化設(shè)計。
強化學習中,懲罰函數(shù)的設(shè)計決定著系統(tǒng)的學習性能,而交通信號燈控制決策受到多方面因素的影響,具體包括車流量、行車時間、碳排放等,因此如何在懲罰函數(shù)中平衡各個因素動態(tài)變化情況,是提升控制策略效率的關(guān)鍵。為了更精確地描述各個因素對控制決策的影響,提高系統(tǒng)的魯棒性,本文基于SAC(soft actor critic) [15]深度強化學習方法,將模糊控制引入構(gòu)建懲罰函數(shù)。針對兩交叉口路網(wǎng)場景交通信號燈管理需求,提出了一種基于改進SAC深度強化學習的交通信號燈控制策略。具體地,利用模糊函數(shù)對各個路口的車輛速度、排隊車輛數(shù)量等因素進行處理,改寫SAC的懲罰函數(shù),并基于此重點對兩交叉路口交通信號燈8相位選擇及配時進行聯(lián)合優(yōu)化。除去傳統(tǒng)的路口通行時間和交通流量外,通過車輛的碳排放和油耗,本文對信號燈交叉口進行建模仿真分析,以驗證本文所提優(yōu)化策略的有效性。
1 系統(tǒng)模型
1.1 交通信號燈控制模型
基于SAC的兩交叉路口交通信號燈控制模型如圖1所示。智能交通系統(tǒng)決策中心使用結(jié)合模糊邏輯的SAC深度RL方法對agent進行訓練,環(huán)境為兩交叉口道路,狀態(tài)表示為所有車輛的位置和速度。動作狀態(tài)空間包括兩個交叉路口交通燈8個相位及配時量。在固定周期T內(nèi),對于每一個交叉口信號燈,agent能夠根據(jù)環(huán)境狀態(tài),自適應(yīng)地從動作空間中選擇一個最優(yōu)動作作為決策,從而提高所有車輛的整體行駛速度,減少行程時間及碳排放量。
本文使用VISSIM對兩交叉路口的路網(wǎng)狀況進行建模。在優(yōu)化目標函數(shù)方面,除了傳統(tǒng)的車流量和車速外,本文還采用了車輛的碳排放和油耗進行建模,具體模型如下所述。
1.2 尾氣排放與油耗模型
車輛的尾氣排放與車瞬時速度、加減速度密切相關(guān)[16]。常規(guī)地,可以使用比功率法確定車輛的尾氣排放量。本文的研究對象為城市路網(wǎng)交叉路口,VSP(vehicle specific power)[16,17]計算如式(1)所示。
VSP=v(1.1a+0.132)+0.000302v3(1)
其中:v、a分別為車輛的速度、加/減速度。在獲得車輛的VSP后,可以采用碳平衡法確定車輛的油耗和各類排放的平均值[18],包括CO2、CO、HC、NOx。具體地,可以對車輛的VSP劃分區(qū)間,然后確定不同區(qū)間內(nèi)的油耗。采用碳平衡法計算車輛在不同VSP區(qū)間下的油耗率,如式(2)[19]所示。
其中:ERFC表示油耗率;ERCO2、ERCO、ERHC分別表示CO2、CO、HC的排放率;C%=86.6%,表示燃油的碳含量比重。
下面給出一個簡單案例,車輛的發(fā)動機排量小于3.5 L、行駛里程大于50 km,計算此類車輛在不同
VSP區(qū)間的油耗率平均值和CO2、CO、HC、NOx的排放率平均值(g·s-1)如表1所示,其中,ERNOx表示NOx的排放率平均值。
2 基于改進SAC的控制策略
強化學習主要由智能體(agent)、環(huán)境(environment)、狀態(tài)(state)、動作(action)、獎勵(reward)組成。環(huán)境定義為馬爾可夫決策過程(MDPs),智能體與環(huán)境進行交互,通過獎勵值rt評估判斷作出的動作,使得獎勵的加權(quán)和最大化。目前主流的RL算法分為基于價值的方法(value-based)和基于策略的方法(policy-based)兩大類。
2.1 SAC算法
SAC算法由四個critic網(wǎng)絡(luò)與一個actor網(wǎng)絡(luò)組成,前者用于預(yù)測狀態(tài)-動作元組的Q值,后者用于預(yù)測動作概率分布參數(shù)。相較傳統(tǒng)的Actor-Critic算法,SAC算法的特點是引入了最大熵模型(maximum entropy model),能在獲得足夠多收益的同時,對未知狀態(tài)空間進行合理探索,學到更多近優(yōu)策略,同時加快訓練速度。在SAC中,目標函數(shù)同時包含了reward和策略熵,如下:
其中:π*表示最優(yōu)策略;α為溫度系數(shù),用于控制目標函數(shù)關(guān)注最大熵的程度;r(st,at)表示狀態(tài)st下執(zhí)行動作at獲得的收益;E(st,at)~ρπ表示服從策略π時,未來總收益的期望。
圖2表示兩交叉口的智能體-環(huán)境交互圖,通過對環(huán)境的狀態(tài)進行采樣,獲得t時刻的狀態(tài)值st,作為策略網(wǎng)絡(luò)的輸入,同時得到該時刻動作的概率分布π(st)。為保證在離散動作空間下進行梯度下降,SAC算法經(jīng)過重參數(shù)化(reparameterization)對動作的概率分布進行采樣,得到具體動作at。將得到的狀態(tài)-動作元組(st,at)作為Q網(wǎng)絡(luò)的輸入,得到狀態(tài)-動作價值Q(st,at),同時為了降低Q值的過度估計,使用了兩個Q網(wǎng)絡(luò)進行預(yù)測,選擇其較小的值執(zhí)行優(yōu)化策略。
2.2 狀態(tài)空間
本文定義的狀態(tài)空間包括當前所有車輛的位置及速度。在傳統(tǒng)的RL訓練過程中,對于一個狀態(tài)可視化環(huán)境,由于當前幀畫面包含所需的各種狀態(tài)元素,通常將經(jīng)過壓縮后的當前幀畫面圖像用于狀態(tài)輸入[20]。本文使用VISSIM構(gòu)建的路網(wǎng)畫面圖像中,車輛所占像素點較小,很難表現(xiàn)車輛的位置變化,這會使得狀態(tài)描述不精確。因此,本文將VISSIM路網(wǎng)的整體畫面圖像離散化為一個84×84的二維向量,即在交叉口的每一條道路上,進入的車輛在這7 056個單元中被離散化,以識別其中是否有車輛,最終得到一個84×84的二維向量,使得agent能夠獲得車輛的位置信息[21]。車輛的速度可通過VISSIM接口獲取,狀態(tài)的速度定義為路網(wǎng)中所有車輛的平均速度。
2.3 動作空間
為保證仿真符合真實交通狀況,所有可用的相位選擇僅由兼容的車流組成。本文研究的仿真環(huán)境為兩交叉口,對于任意一個交叉口,動作空間由相位選擇和相位配時兩部分組成,相位選擇為離散空間{0,1,2,3},如圖3所示,相位配時為連續(xù)空間,為[3 s~10 s]中的連續(xù)值。如果任意一個交叉口信號燈的相位發(fā)生改變,則交通燈必須經(jīng)過一個固定時間3 s的全紅燈相位,以符合交通法規(guī)。
2.4 結(jié)合模糊邏輯的獎勵函數(shù)改進
環(huán)境提供的獎懲值是對控制決策效果的評價,通過環(huán)境的獎懲反饋指導agent的學習過程,獎懲值定義了agent努力實現(xiàn)的目標,會對下一次控制決策的選擇產(chǎn)生影響。傳統(tǒng)的RL方法建立單一的顯式數(shù)學模型來描述獎勵函數(shù)。文獻[3]將當前時間步驟與前一步驟中所有車輛等待時間作為獎勵函數(shù);文獻[4]考慮了平均速度、平均流量(即移動的車輛總數(shù)的百分比)、二氧化碳排放量等參數(shù),并進行權(quán)重相加形成獎勵函數(shù)。在交通信號燈控制中,影響控制效果的優(yōu)劣因素是多方面的,此外,各類因素之間關(guān)系較為復(fù)雜,一般屬于非線性關(guān)系。為了更好地建立準確的非線性系統(tǒng)模型,同時最大化多影響因素下所選動作的效果,本文通過專家知識建立模糊規(guī)則,并利用模糊邏輯構(gòu)建獎懲反饋信號。獎勵值reward產(chǎn)生器共有兩個輸入,為路網(wǎng)當前所有車輛的平均速度Av和路網(wǎng)當前車輛排隊長度Lq。輸入與輸出的論域根據(jù)具體仿真環(huán)境確定,在本文中,Av的取值為17~35,Lq的取值為0~60,reward取值為0~30。模糊集根據(jù)輸入值由小至大分成NB、NM、NS、Z、PS、PM、PB七部分,三種變量的隸屬度函數(shù)均采用三角形隸屬度函數(shù),如式(4)所示。以Av為例,最終得到輸入與輸出的隸屬度函數(shù)曲線,如圖4所示,模糊規(guī)則一共49條,反模糊化方法為質(zhì)心法(centroid)。
其中:x表示輸入值;a、c分別表示該部分模糊集有效輸入的最大值與最小值;b表示函數(shù)輸出峰值時的輸入。
3 仿真分析
3.1 交通仿真環(huán)境
本文使用VISSIM軟件進行仿真平臺搭建,并利用該軟件交通控制COM接口,通過Python實時獲取交通流數(shù)據(jù)及修改交通控制狀態(tài)。本文使用的VISSIM跟馳模型為改進版Wiedemann 74模型,主要適用于城市內(nèi)部道路交通。所用參數(shù)如表2所示。在VISSIM中建立的兩交叉口運行路網(wǎng)界面如圖5所示,仿真環(huán)境參數(shù)配置如表3所示。
3.2 結(jié)合模糊邏輯的SAC算法收斂分析
3.2.1 訓練網(wǎng)絡(luò)參數(shù)設(shè)置
結(jié)合模糊邏輯SAC算法的兩交叉口信號優(yōu)化控制模型的訓練參數(shù)配置如表4所示。所有的網(wǎng)絡(luò)都使用Adam優(yōu)化器進行訓練。critic網(wǎng)絡(luò)使用固定的學習速率,actor網(wǎng)絡(luò)學習速率隨著epoch的增加而變化,以加快收斂速度。為了得到更好的梯度參數(shù)并使模型學習穩(wěn)定,本文使用n步Bootstrapping方法(n=5)來訓練critic網(wǎng)絡(luò)。
3.2.2 訓練結(jié)果
圖6表示結(jié)合模糊邏輯的SAC算法的收斂效果圖。由圖6可以看出,在訓練前期,由于神經(jīng)網(wǎng)絡(luò)的初始參數(shù)為隨機化參數(shù),得到的reward較小。隨著episode的增加,agent通過與環(huán)境進行交互獲得經(jīng)驗,即由當前狀態(tài)、當前動作、reward、動作后的下一狀態(tài)組成的(st,at,rt,st-1)四元組,最后通過經(jīng)驗回放機制(experience replay)更新網(wǎng)絡(luò)參數(shù),以時序差分值(TD-error)由大到小排名的倒數(shù)作為優(yōu)先級指標。為了減小引入優(yōu)先級后產(chǎn)生的采用數(shù)據(jù)的分布偏差,采取了重要性采樣方法(importance sampling)進行糾錯。訓練中期,由于SAC算法加入了最大化熵以鼓勵agent探索,所以reward偶爾會下降,最終趨于穩(wěn)定。
3.3 交通信號燈控制策略性能比較
為了驗證結(jié)合模糊控制的SAC深度強化學習(SAC-FL)交通燈控制策略的合理性和有效性,以及在惡劣交通環(huán)境下的適應(yīng)能力,本文設(shè)計了不同車流量和車流突然涌入兩種不同的仿真場景對所提方法進行測試。設(shè)置了三個對照實驗策略:
a)固定循環(huán)策略(FIX):交通燈的相位和配時是固定周期的,本文中設(shè)置周期為120 s。
b)傳統(tǒng)DDPG深度強化學習控制策略(DDPG)[8]:未使用結(jié)合模糊邏輯的獎勵函數(shù),采用傳統(tǒng)的多元素線性加權(quán)獎勵函數(shù)。交通燈配時控制采用DDPG算法,交通燈相位控制是離散動作空間,因此采用DQN算法。
c)傳統(tǒng)SAC深度強化學習控制策略(SAC):未使用結(jié)合模糊邏輯的獎勵函數(shù),采用傳統(tǒng)的多元素線性加權(quán)獎勵函數(shù)。
3.3.1 不同車流量下
圖7~9表示各個交叉路口進口車道的車流量在200~600 veh/h時,四種控制策略的效果,進行比較的性能指標分別為車輛平均速度、平均排隊車輛數(shù)、車輛平均行程時間。如圖所示,在車流量較低時,四種策略效果并沒有太大差距。但在中高車流量時,本文提出的改進SAC強化學習策略相較于另外三種策略,均有較好的效果,性能提升結(jié)果如表5所示。其主要原因是改進的RL控制策略通過對經(jīng)驗的學習后,能夠利用模糊控制對獎勵函數(shù)值進行改進,有助于作出增加reward的下一決策動作,從而提高整體系統(tǒng)內(nèi)車輛的速度和減少排隊車輛數(shù)。
基于第1章對車輛的排放和油耗的建模,結(jié)合仿真所獲取的數(shù)據(jù),本文研究分析四種控制策略對兩交叉路口通行車輛節(jié)能減排效果的影響[22]。由于控制效果更好,可能會導致車輛的到達率增加,進而使得油耗和尾氣排放量增加,會造成得到的總油耗和排放量不準確。所以本文采用車輛油耗比RC和車輛尾氣排放比RE作為比較依據(jù)。
ERFC表示油耗率,ERCO2、ERCO、ERHC分別CO2、CO、HC的排放率。
3.3.2 車流突然涌入
為了測試交通燈控制策略(SAC-FL)的魯棒性,本文對四種控制策略在車流突然涌入的情況下,車流平均速度恢復(fù)到穩(wěn)定狀態(tài)的效果進行了比較。圖10所示為四種控制策略下應(yīng)對車流突然涌入時的車輛平均速度比較結(jié)果。在第1 100仿真秒時各進車道車流量增加為500 veh/h,第1 700仿真秒時恢復(fù)車流量至300 veh/h,即圖中紅色區(qū)域(參見電子版)所示。由圖可以看出,在應(yīng)對車流突然涌入的狀況時,基于RL的三種控制策略相較于固定配時策略,都能夠較快地恢復(fù)到穩(wěn)定的車輛平均速度。
4 結(jié)束語
在城市路網(wǎng)中,對交叉路口的交通燈進行有效管理,可以有效地提升交叉路口的車輛通行效率。本文提出了一種結(jié)合模糊邏輯的SAC深度強化學習兩交叉口交通燈控制策略,對交通燈的相位和配時進行聯(lián)合優(yōu)化,并利用模糊函數(shù)對SAC的獎勵函數(shù)進行處理。最后,在VISSIM仿真平臺上對不同交通需求的狀況進行了仿真分析。實驗結(jié)果表明,SAC-FL與FIX、DDPG及傳統(tǒng)SAC相比,能夠顯著地減少交叉口的擁堵狀況,同時減少油耗及廢氣的排放量,并且在應(yīng)對突然涌入的車流時也具備良好的魯棒性。今后的研究工作擬從以下兩方面展開:考慮更復(fù)雜的交通路網(wǎng),將模糊控制引入多智能體RL方法以更好地解決復(fù)雜路網(wǎng)問題;為更符合現(xiàn)實的交通車流組成,考慮對電動汽車展開研究,將電動汽車加入車流組成,并建立數(shù)學模型等。
參考文獻:
[1]張立立,王力,張玲玉.城市道路交通控制概述與展望[J].科學技術(shù)與工程,2020,20(16):6322-6329.(Zhang Lili,Wang Li,Zhang Lingyu.Urban road traffic control overview and prospect[J].Science Technology and Engineering,2020,20(16):6322-6329.)
[2]Liu Hao,Carlos E F,John S,et al.Field assessment of intersection performance enhanced by traffic signal optimization and vehicle trajectory planning[J].IEEE Trans on Intelligent Transportation Systems,2022,23(8):11549-11561.
[3]趙純,董小明.基于深度Q-Learning的信號燈配時優(yōu)化研究[J].計算機技術(shù)與發(fā)展,2021,31(8):198-203.(Zhao Chun,Dong Xiaoming.Research on signal timing optimization based on deep Q-learning[J].Computer Technology and Development,2021,31(8):198-203.)
[4]Busch J V S,Latzko V,Reisslein M,et al.Optimised traffic light ma-nagement through reinforcement learning:traffic state agnostic agent vs.holistic agent with current V2I traffic state knowledge[J].IEEE Open Journal of Intelligent Transportation Systems,2020,1:201-216.
[5]余辰,張麗娟,金海.大數(shù)據(jù)驅(qū)動的智能交通系統(tǒng)研究進展與趨勢[J].物聯(lián)網(wǎng)學報,2018,2(1):56-63.(Yu Chen,Zhang Lijuan,Jin Hai.Research progress and trend of big data-driven intelligent transportation system[J].Chinese Journal on Internet of Things,2018,2(1):56-63.)
[6]徐東偉,周磊,王達,等.基于深度強化學習的城市交通信號控制綜述[J].交通運輸工程與信息學報,2022,20(1):15-30.(Xu Dongwei,Zhou Lei,Wang Da,et al.Overview of reinforcement lear-ning-based urban traffic signal control[J].Journal of Transportation Engineering and Information,2022,20(1):15-30.)
[7]Liu Junxiu,Qin Sheng,Luo Yuling,et al.Intelligent traffic light control by exploring strategies in an optimised space of deep Q-learning[J].IEEE Trans on Vehicular Technology,2022,71(6):5960-5970.
[8]陳樹德,彭佳漢,高旭,等.基于深度強化學習的交通信號燈控制[J].現(xiàn)代計算機,2020(3):34-38.(Chen Shude,Peng Jiahan,Gao Xu,et al.Traffic signal control based on deep reinforcement learning[J].Modern Computer,2020(3):34-38.)
[9]劉智敏,葉寶林,朱耀東,等.基于深度強化學習的交通信號控制方法[J].浙江大學學報:工學版,2022,56(6):1249-1256.(Liu Zhimin,Ye Baolin,Zhu Yaodong,et al.Traffic signal control method based on deep reinforcement learning[J].Journal of Zhejiang University :Engineering Science,2022,56(6):1249-1256.)
[10]馬琳,陳復(fù)揚,姜斌.交通物聯(lián)網(wǎng)中基于改進Webster方法的單點信號配時研究[J].物聯(lián)網(wǎng)學報,2018,2(4):49-55.(Ma Lin,Chen Fuyang,Jiang Bin.Research on timing method for single intersection in transportation Internet of Things based on improved Webster algorithm[J].Chinese Journal on Internet of Things,2018,2(4):49-55.)
[11]安萌萌,樊秀梅,蔡含宇.基于霧計算和強化學習的交通燈智能協(xié)同控制研究[J].計算機應(yīng)用研究,2020,37(2):465-469.(An Mengmeng,F(xiàn)an Xiumei,Cai Hanyu.Research on intelligent coordinated control of traffic light based on fog computing and reinforcement learning[J].Application Research of Computers,2020,37(2):465-469.)
[12]劉佳佳,左興權(quán).交叉口交通信號燈的模糊控制及優(yōu)化研究[J].系統(tǒng)仿真學報,2020,32(12):2401-2408.(Liu Jiajia,Zuo Xingquan.Research on fuzzy control and optimization of traffic lights at single intersection[J].Journal of System Simulation,2020,32(12):2401-2408.)
[13]吳昊昇,鄭皎凌,王茂帆.TR-light:基于多信號燈強化學習的交通組織方案優(yōu)化算法[J].計算機應(yīng)用研究,2022,39(2):504-509,514.(Wu Haosheng,Zhen Jiaoling,Wang Maofan.TR-light traffic organization plan optimization algorithm based on multiple traffic signal lights reinforcement learning[J].Application Research of Computers,2022,39(2):504-509,514.)
[14]Kong Yang,Cong Shan.NCCLight:neighborhood cognitive consistency for traffic signal control[J].Sensors and Materials,2022,34(2):545-562.
[15]Haarnoja T,Zhou A,Abbeel P,et al.Soft actor-critic:off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//Proc of International Conference on Machine Learning.New York:PMLR Press,2018:1861-1870.
[16]Tang Tieqiao,Zhi Yanyi,Qing Fenglin.Effects of signal light on the fuel consumption and emissions under car-following model[J].Physica A:Statistical Mechanics and Its Applications,2017,469:200-205.
[17]Abou-Senna H,Radwan E,Westerlund K,et al.Using a traffic simulation model(VISSIM) with an emissions model(moves) to predict emissions from vehicles on a limited-access highway[J].Journal of the Air & Waste Management Association,2013,63(7):819-831.
[18]Song Guohua,Yu Lei,Wang Ziqianli.Aggregate fuel consumption model of light-duty vehicles for evaluating effectiveness of traffic management strategies on fuel[J].Journal of Transportation Engineering,2009,135(9):611-618.
[19]Frey H C,Unal A,Chen J,et al.Methodology for developing modal emission rates for EPAs multi-scale motor vehicle & equipment emission system[R].Ann Arbor,Michigan:US Environmental Protection Agency,2002:13.
[20]Wan C H,Hang M C.Value-based deep reinforcement learning for adaptive isolated intersection signal control[J].IET Intelligent Transport Systems,2018,12(9):1005-1010.
[21]Mousavi S S,Schukat M,Howley E.Traffic light control using deep policy-gradient and value function based reinforcement learning[J].IET Intelligent Transport Systems,2017,11(7):417-423.
[22]劉皓冰,熊英格,高銳,等.基于微觀仿真的交叉口車輛能耗與排放研究[J].城市交通,2010,8(2):75-79,24.(Liu Haobing,Xiong Yingge,Gao Rui,et al.Investigating vehicular energy consumption and emissions at intersections with micro-simulation models[J].Urban Transport of China,2010,8(2):75-79,24.)