李傳耀,張帆,王濤,黃德鑫,唐鐵橋
(1.中南大學(xué),交通運輸工程學(xué)院,長沙 410100;2.合肥工業(yè)大學(xué),汽車與交通工程學(xué)院,合肥 230000;3.北京航空航天大學(xué),交通科學(xué)與工程學(xué)院,北京 100191)
道路交通系統(tǒng)是燃料浪費和空氣污染的主要根源之一。2021 年內(nèi),中國的機動車輛(包括汽車、卡車和摩托車)排放的污染物總量已高達15577 百萬t,其中,汽車排放占比超過90%。對于汽車而言,駕駛員頻繁的加速和減速操作以及不合理的并線等行為產(chǎn)生了大量交通干擾,引發(fā)效率低下和能源浪費問題。此外,信號化路口頻繁的“停停走走”現(xiàn)象也亟需解決。紅燈前車輛的怠速運行也是造成浪費能源和污染物排放的主要原因之一[1]。因此,迫切需要采取有針對性的駕駛策略提高交通效率,實現(xiàn)節(jié)能減排。
為應(yīng)對能源浪費和污染排放問題,研究者提出一種行之有效的交通管理控制策略——生態(tài)駕駛[2]。該策略通過車輛在行駛中獲得的道路交通信息控制油門和剎車,維持車輛速度的平穩(wěn),避免不必要的加速和減速行為。在路口處,該策略還可以根據(jù)前方的信號相位和時序(Signal Phases and Timing,SPaT)信息合理控制速度,最小化排隊時的發(fā)動機怠速時間。因此,該策略能夠使車輛生成更加平穩(wěn)的軌跡,減少交通波動,提高能源效率。近年來,車輛對車輛(Vehicle-to-Vehicle,V2V)和車輛對基礎(chǔ)設(shè)施(Vehicle-to-Infrastructure,V2I)等互聯(lián)通信技術(shù)的迅速發(fā)展為生態(tài)駕駛策略的自主實施提供了更多可能性。
生態(tài)駕駛策略通常被認為是一個最優(yōu)控制問題,旨在為車輛設(shè)計最優(yōu)的決策控制,改善能源消耗和降低行駛時間。劉顯貴等[3]以油耗、排放和通行時間為目標,通過多目標遺傳算法優(yōu)化生態(tài)駕駛目標車速;程穎等[4]通過判定5 種不良駕駛行為并建立面板數(shù)據(jù)固定效應(yīng)回歸模型,分析這些不良駕駛行為對油耗的影響;XIA等[5]開發(fā)一種基于規(guī)則的速度規(guī)劃算法,將信號狀態(tài)納入車輛跟馳模型,并通過仿真驗證了該算法在降低能源消耗方面的有效性。LIAO等[6]通過考慮動力傳動系統(tǒng)的內(nèi)部功能,設(shè)計一種適合電動汽車的生態(tài)駕駛策略,以最小化總能耗。LI等[7]使用人工蜂群算法計算車輛通過交叉路口的最佳速度,有效提高了交通效率。上述模型的優(yōu)點在于,車輛可以在已定義的環(huán)境中優(yōu)化速度控制。然而,這些方法假設(shè)環(huán)境狀態(tài)之間的轉(zhuǎn)換是完全已知的,這一假設(shè)與現(xiàn)實相差較大,難以適應(yīng)高維度的動態(tài)交通環(huán)境。此外,模型求解過程復(fù)雜,不利于車輛的實時決策。
相較于上述模型,強化學(xué)習(xí)(Reinforcement Learning,RL)使智能體和環(huán)境可以充分互動,以最大化累積獎勵實現(xiàn)最優(yōu)輸出動作,為復(fù)雜環(huán)境中的實時車輛控制帶來了新的解決方案。深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是強化學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)的結(jié)合,可以在高維環(huán)境狀態(tài)中尋求最優(yōu)駕駛策略,DRL 通過試錯學(xué)習(xí)經(jīng)驗,能復(fù)現(xiàn)許多行動組合,突破了傳統(tǒng)模型的決策限制。近年來,DRL已被用于解決各種交通管理控制問題。韓磊等[8]提出一種基于競爭雙深度Q網(wǎng)絡(luò)可變速限標志控制策略,該策略能夠有效提升瓶頸區(qū)的通行能力;趙建東等[9]提出一種基于強化學(xué)習(xí)和分子動力學(xué)的換道決策模型,相對于DeepSet-Q 模型,該模型的擬合精度提高了90.2%;LI等[10]基于DRL算法設(shè)計具有風險感知的自動駕駛車(Autonomous Vehicle,AV) 控制策略,實現(xiàn)最小預(yù)期風險。LIU等[11]探討多個連續(xù)交叉口場景下的CAV速度規(guī)劃,結(jié)果表明,運用DRL 模型能提高CAV 的燃油經(jīng)濟性。SELIMAN等[12]基于DRL算法設(shè)計自動駕駛汽車在車道數(shù)減少時的駕駛策略,優(yōu)化效率和安全性。
因此,本文采用深度強化學(xué)習(xí)方法,解決CAV和人工駕駛車輛(Human-Driven Vehicles,HRV)共存的交通環(huán)境中的生態(tài)駕駛問題。通過V2V 等技術(shù)獲取車輛動態(tài)和信號狀態(tài)信息,該方法通過控制CAV實現(xiàn)對HRV的速度引導(dǎo),優(yōu)化車輛軌跡,提高路口通行效率,改善能源消耗和污染物排放問題。本文的主要貢獻與創(chuàng)新之處在于:
(1) 運用DRL 算法探索與優(yōu)化CAV 的橫向和縱向駕駛行為,實現(xiàn)生態(tài)駕駛。
(2)在狀態(tài)空間中,同時考慮與周邊車輛相關(guān)的局部特征變量和與路口相關(guān)的全局特征變量,降低狀態(tài)的維度。
(3)在動作空間中,設(shè)定換道和不換道6種動作方式,滿足現(xiàn)實中車輛的駕駛行為特征。
(4)在獎勵函數(shù)中,除考慮效率和安全等傳統(tǒng)指標外,還采用目標車道、信號激勵及油耗獎勵等設(shè)計,有助于提高車輛決策的自主性。
(5)選取典型道路信號交叉口進行仿真試驗。同基準方法相比,本文方法可以提升交通效率,改善能源排放問題。
CAV 能夠在互聯(lián)環(huán)境中獲取當前道路段的相關(guān)信息,并及時調(diào)整其跟車和換道行為,以實現(xiàn)生態(tài)駕駛。典型的城市道路交叉口場景如圖1 所示。車輛在有信號燈的路段上行駛,其中,實線車輛稱為主體車輛,表示由DRL控制的CAV;虛線車輛為環(huán)境車輛,不受DRL算法控制。
圖1 城市道路交叉口場景Fig.1 Schematic diagram of urban road intersection scene
在實際情境中,交叉口前的路段通常存在一段禁止換道的實線區(qū)域,本文將其稱為“跟車區(qū)域”。具有特定駕駛目標的車輛(例如,從左轉(zhuǎn)車道換道到右轉(zhuǎn)車道)需要在進入跟車區(qū)域之前換道至目標車道,因此,車輛需要根據(jù)允許換道區(qū)域的實時交通狀況確定換道時機。為最小化換道引起的交通干擾,CAV 可結(jié)合SPaT 消息選擇適當?shù)膿Q道時機。此外,在綠燈階段,CAV 會引導(dǎo)下一車隊通過交叉口,減少車隊的頻繁加速和減速操作以及排隊時間,實現(xiàn)生態(tài)駕駛。如何選擇適當?shù)膿Q道時機與引導(dǎo)車隊通過交叉口,成為CAV 駕駛決策的主要挑戰(zhàn)。
因此,可以通過為智能體設(shè)計合適的DRL 算法,并訓(xùn)練其與環(huán)境交互,使智能體控制的CAV能夠自主學(xué)習(xí)生態(tài)駕駛策略,最終輸出優(yōu)化后的最優(yōu)駕駛策略。
CAV 駕駛決策控制問題可轉(zhuǎn)化為馬爾可夫決策過程(MDP)。馬爾科夫決策過程是一種具有時間序列的離散隨機過程,通常用5 元組表示[13]。其中,U為狀態(tài)集合;Z為動作集合;T為狀態(tài)轉(zhuǎn)移概率函數(shù),表達式為T:U×Z→U,表示在給定狀態(tài)u下,采取某個動作后轉(zhuǎn)移到下一個狀態(tài)u′的概率;R為獎勵函數(shù),表達式為R:U×Z×U→R,表示在給定狀態(tài)s執(zhí)行動作后獲得的反饋;γ為折扣因子,表示近期反饋的影響程度,γ∈[0,1]。接下來簡要介紹本文中所設(shè)置的狀態(tài)空間、動作空間和獎勵函數(shù)。
2.1.1 狀態(tài)空間
狀態(tài)是影響智能體決策的環(huán)境變量。在城市交叉口場景中,CAV可以通過V2V和V2I技術(shù)實時獲取周圍車輛和SPaT 信息,并根據(jù)其車輛狀態(tài)和周圍交通狀態(tài)做出駕駛決策。本文為智能體設(shè)計的狀態(tài)空間包括車輛的一組局部變量和一組全局變量,即
式中:Ulocal為局部特征變量的集合;Uglobal為全局特征變量的集合。
圖2 說明了在單行雙車道場景中CAV 的局部變量集合Ulocal,包括自車和鄰近車輛的動態(tài)數(shù)據(jù),即
圖2 局部特征變量Fig.2 Schematic diagram of local feature variables
式中:l為車輛的當前車道;v為瞬時速度;s為車輛的位置;dp和Δvp為CAV 與當前車道上前車的間距和速度差;dap和Δvap為CAV 與相鄰車道上前車的間距和速度差;daf和Δvaf為CAV 與相鄰車道上后車的間距和速度差。需要注意的是,式(2)中的速度差是前車速度減去后車速度的差值,間距是前車的尾部與后車的前部之間的距離。由于通信技術(shù)的限制,CAV可以檢測到200 m 內(nèi)的運動狀態(tài)參數(shù)。
除局部特征變量,本文還考慮全局特征變量,即
式中:dinter為CAV在當前時刻距離下游交叉口的距離;tinter為到達交叉口所需的預(yù)期時間;?為當前時刻的交通信號相位;?′為交通信號相位的導(dǎo)數(shù)。dinter的計算式為
式中:sinter為下游交叉口的位置。
在式(3)中,tinter可解釋為在CAV保持當前速度不變的情況下,到達下游交叉口所需的預(yù)期時間,即
此外,本文還將信號相位的狀態(tài)參數(shù)納入到全局特征變量中。為更好地描述當前的信號相位,并提高智能體的訓(xùn)練性能,本文使用三角函數(shù)描述交通信號[14],如圖3所示。
圖3 信號相位及其導(dǎo)數(shù)的特征Fig.3 Characteristics of signal phase and its derivative
單個交通信號燈有3 個狀態(tài):綠色、黃色和紅色。交通信號燈的周期T滿足的方程為
式中:Tr,Ty和Tg分別為紅燈、黃燈和綠燈的持續(xù)時間。
用tl表示與當前時間對應(yīng)的信號周期中的時間點,即
式中:tl0為初始時間點,tl0∈[0,T];t為仿真時間。tl的零值從綠燈或黃紅燈開始,例如,在圖3中,當綠燈、黃燈和紅燈的持續(xù)時間分別為27,3,30 s時,tl=10 表示綠燈相位的第10 s(x=10)或黃紅燈相位的第10 s(x=40)。信號燈周期?為
式中:δ=0 為綠燈階段;δ=1為黃燈或紅燈階段。
本文設(shè)計的狀態(tài)空間由上述9 個局部變量和4 個全局變量表示,共13 個特征變量,并隨時間不斷更新。
2.1.2 動作空間
在駕駛過程中,車輛通過調(diào)整油門、剎車和方向盤確保駕駛安全并完成跟車和換道行為。為采用離散的雙深度強化學(xué)習(xí)網(wǎng)絡(luò)算法(Double Deep Q-Network,DDQN),本文將動作空間設(shè)計為兩個主要類別:換道和不換道。車輛進行換道操作需要3 s;不換道有5種機動方式:保持當前速度、輕微加速(0.8 m·s-2)、強烈加速(2 m·s-2)、輕微減速(-1 m·s-2)和強烈減速(-5 m·s-2)[15]。此外,為降低動作空間的維度,并提高學(xué)習(xí)性能,本文設(shè)定車輛在換道機動中保持恒定速度,即加速度為0。因此,智能體的動作空間為
式中:lc 為進行換道決策。
2.1.3 獎勵函數(shù)
一旦執(zhí)行動作,智能體會根據(jù)環(huán)境反饋接收獎勵(或懲罰)。DRL 算法的目標是通過最大化未來折扣獎勵的期望學(xué)習(xí)最優(yōu)策略,意味著不同的獎勵函數(shù)會影響智能體的學(xué)習(xí)性能??紤]到CAV和場景之間的復(fù)雜互動,本文基于多方面考慮設(shè)計獎勵函數(shù)。
(1)駕駛安全
在駕駛過程中,無論是跟車還是換道行為,都需要確保車輛的安全,即CAV 不與其他環(huán)境車輛相撞。為使智能體學(xué)習(xí)安全規(guī)則,需要對碰撞行為進行懲罰。駕駛安全的獎勵函數(shù)為
式中:Δvp≤0 為CAV同前車間距小于0 m,判定為發(fā)生碰撞。
(2)交通規(guī)則
如果CAV 在跟車區(qū)域進行換道行為,將受到懲罰。此外,當信號相位為紅色時,CAV 必須停車等待;否則,受到懲罰。交通規(guī)則的獎勵函數(shù)為
式中:tleave為CAV離開交叉口時刻的時間。
(3)舒適度
過大的加速度變化會降低駕駛舒適度。為提高駕駛體驗,加速度的導(dǎo)數(shù)被設(shè)定為不超過3 m·s-3;否則,將受到懲罰。舒適度的獎勵函數(shù)為
(4)駕駛效率
為鼓勵CAV 提高車速,需要考慮駕駛效率。同時,出于安全考慮,當速度過高時(即速度高于道路限速的90%時),需要給予必要的懲罰。駕駛效率的獎勵函數(shù)為
式中:vmax為道路的限速。
(5)目標車道
交叉口前的道路段包括左轉(zhuǎn)直行車道和右轉(zhuǎn)直行車道。對于不同的駕駛?cè)蝿?wù),CAV需要提前進入特定的目標車道,以順利駛?cè)虢徊婵谙掠?。左轉(zhuǎn)CAV的目標車道是車道1,右轉(zhuǎn)CAV的目標車道是車道2。因為,本文要探究CAV 的換道選擇時機,故不考慮CAV直行離開交叉口的情況。目標車道的獎勵函數(shù)為
式中:κ=1 為CAV 離開交叉口時處于目標車道;κ=0 為CAV離開交叉口時未處于目標車道。
(6)信號協(xié)調(diào)
為確保車輛能夠在綠燈階段順利通過交叉路口,需要設(shè)置反映CAV 與信號燈之間協(xié)同作用的獎勵函數(shù)。信號協(xié)調(diào)的獎勵函數(shù)為
(7)燃油消耗
為體現(xiàn)生態(tài)駕駛的重要性,將車輛能源排放考慮引入獎勵函數(shù)中,即
式中:為每輛車的平均油耗;為車輛在最大速度和最大加速度下的油耗。fuel的計算式為
式中:N為車輛總數(shù);fuel由VT-Micro模型計算[16],VT-Micro模型是以實際燃油數(shù)據(jù)為基礎(chǔ),通過對速度和加速度的多項式組合而建立的。研究人員最終確定該模型的最高次項為“3”。一方面,VT-Micro 模型只需輸入瞬時車速和瞬時加速度即可計算瞬時能耗排放;另一方面,該模型的測量結(jié)果與實車測試數(shù)據(jù)高度一致。因此,該模型可用于測量車輛的燃油消耗量,即
式中:ei,fuel為第i輛車在t時刻的燃料消耗量(L·s-1);v為車輛的瞬時速度;a為加速度;m和n分別為速度和加速度的冪;Km,n為模型的回歸系數(shù),K=[Km,n] 為一個系數(shù)矩陣,具體數(shù)值見文獻[16]。
考慮上述幾個因素,最終的獎勵函數(shù)為
Q 學(xué)習(xí)算法是一種經(jīng)典的強化學(xué)習(xí)方法。該算法計算在給定狀態(tài)u下不同動作z的動作價值函數(shù)Q(u,v),并創(chuàng)建一個Q值表。隨后,對于每個狀態(tài),選擇最大Q值相對應(yīng)的動作a作為最優(yōu)策略。Q值的更新是通過貝爾曼方程完成的,即
式中:α為學(xué)習(xí)率;rt+1+γmaxz′Q(ut+1,z′) 為時序差分(Time Difference,TD);rt+1+γmaxz′Q(ut+1,z′)-Q(ut,zt)為時序差分誤差(Time Difference Error,TD Error)。
貝爾曼方程具體含義如下:Q(ut,zt)是智能體在狀態(tài)ut下采取動作zt的動作價值,是未采取動作vt時的估計值。采取動作vt后,環(huán)境反饋獎勵rt+1并進入狀態(tài)ut+1。根據(jù)獎勵rt+1,Q值表能更準確地預(yù)測狀態(tài)ut+1下的最大動作價值maxu′Q(ut+1,z′) 。rt+1+γmaxz′Q(ut+1,z′) 為在狀態(tài)ut下獲得獎勵與狀態(tài)ut+1下預(yù)測的動作價值,故稱時序差分。TD和Q(ut,zt)的差值稱為時序差分誤差。因為,TD 是根據(jù)已知的獎勵rt+1的預(yù)測值,故比Q(ut,zt)更加準確,所以,TD Error 越靠近0,越說明Q值表的準確性。
Q 學(xué)習(xí)算法以Q表格為載體進行智能體的學(xué)習(xí)和訓(xùn)練。然而,對于高維的狀態(tài)和動作,Q表格一對一的計算方法會消耗大量資源,且訓(xùn)練過程較慢。為解決這一問題,MINH等[17]提出深度強化學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-Network,DQN),即將Q 學(xué)習(xí)算法與深度學(xué)習(xí)相結(jié)合。深度學(xué)習(xí)通過引入神經(jīng)網(wǎng)絡(luò)的隱藏層實現(xiàn)。
在DQN 中,神經(jīng)網(wǎng)絡(luò)(參數(shù)θ)的輸入是狀態(tài)s,輸出是所有可能動作的Q值。通過獎勵監(jiān)督神經(jīng)網(wǎng)絡(luò),使預(yù)測的Q值與真實Q值之間的比較問題轉(zhuǎn)化為模型擬合獎勵的問題。然而,DQN 算法存在一個主要問題,那就是高估問題。為解決這一難題,哈瑟爾特等[18]提出DQN 的改進版本——DDQN。DDQN將行動選擇和Q值的計算解耦,使用兩個網(wǎng)絡(luò)分別參與決策。具體來說,主網(wǎng)絡(luò)Q(θ)用于選擇行動,目標網(wǎng)絡(luò)Q(θ′)用于評估行動。兩個網(wǎng)絡(luò)交替工作,更好地緩解高估問題。DDQN模型的損失函數(shù)為
式中:EM為期望;yt為時間差目標。
DDQN 算法解決流程如表1所示。
表1 DDQN算法Table 1 DDQN algorithm
仿真實驗使用軟件為MATLAB。仿真場景設(shè)定為一個含交叉口的城市道路段,如圖4所示。道路設(shè)定為單行雙車道。車道1是左轉(zhuǎn)和直行車道,車道2 是右轉(zhuǎn)和直行車道。每個車道的速度限制為vmax=60 km·h-1。交叉口前的路段長度700 m,其中,包括500 m 的換道區(qū)域和200 m 的跟車區(qū)域。信號燈時間,即綠燈,黃燈,紅燈時間分別設(shè)置為30,3,27 s。
圖4 城市道路模擬場景Fig.4 Schematic diagram of urban road simulation scenario
DDQN 算法僅操控CAV 智能體的駕駛行為,而其他環(huán)境車輛的駕駛行為遵循智能駕駛員模型(Intelligent Driver Model,IDM)[19]。IDM 模型由自由流動狀態(tài)下的車輛加速度函數(shù)和防止與前車相撞的車輛減速趨勢組成。設(shè)I表示交通系統(tǒng)中所有車輛的集合,對于每個i∈I,車輛i的加速度為
式中:vi為車輛i的速度;a0為車輛的最大加速度;v0為期望速度;δ為參數(shù);si為自車前端與前車尾部之間的距離;Δvi為自車速度與前車速度之間的差異;s*(viΔvi)為期望距離,即
式中:s0為最小距離;O為同前車的安全時間間隔;b0為期望減速度。
在實驗中,進行了1000次訓(xùn)練,每次訓(xùn)練包含750 個時間步,每個時間步的時長為0.2 s。在每次訓(xùn)練開始時,使用基于高斯的位置采樣概率方法,在每條車道的前200 m 內(nèi)隨機生成7~20 輛車輛。這些車輛的初始速度在3~5 m·s-1,這有助于智能體在不同環(huán)境中進行全面學(xué)習(xí)。CAV 智能體的初始位置在車道1,并將目標路徑設(shè)置為從右轉(zhuǎn)車道駛出,即從車道2駛出交叉口,完成學(xué)習(xí)目標。
在每次訓(xùn)練中,當智能體控制的CAV 與其他車輛發(fā)生碰撞,或者模擬時間步長達到750 個,該周期將被認定為終止,訓(xùn)練將進入下一個周期。在下一個周期開始時,CAV 將返回到初始位置,模擬環(huán)境將被重置,并進行新的訓(xùn)練周期。
(1)通信延遲和信息錯誤不在考慮之列。CAV通過車聯(lián)網(wǎng)技術(shù)實時獲取車輛和道路信息。蜂窩車聯(lián)網(wǎng)(Cellular-Vehicle to Everything,C-V2X)主要體現(xiàn)現(xiàn)有的車聯(lián)網(wǎng)通信技術(shù),時延可降至1 ms。同時,CAV可以對獲取的信息進行多種方式的融合和處理,提高數(shù)據(jù)的準確性和可靠性。
(2)CAV 可實時獲取信號信息。通過車用無線通信技術(shù)(Vehicle to Everything,V2X),CAV可以實時掌握信號燈信息,幫助車輛做出合理的駕駛決策。
(3) 不考慮非機動車和行人對道路系統(tǒng)的干擾,只考慮車輛與SPaT數(shù)據(jù)之間的交互。
為確保訓(xùn)練性能,需要對模型的深度神經(jīng)網(wǎng)絡(luò)和相關(guān)參數(shù)進行最佳設(shè)置,以適應(yīng)具體情境。
在DDQN模型中,主網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)設(shè)置為一個輸入層、一個輸出層和一個隱藏層。后續(xù)訓(xùn)練表明,一個隱藏層足夠以較低的計算資源消耗達到訓(xùn)練目標。在輸入層中,通過式(1)表示的狀態(tài)向量輸入13個神經(jīng)元,隱藏層設(shè)置為110個神經(jīng)元。輸出層設(shè)置為6個神經(jīng)元,對應(yīng)智能體可以執(zhí)行的動作數(shù)量。深度神經(jīng)網(wǎng)絡(luò)的激活函數(shù)使用ReLU 函數(shù),可以確保在x>0 時梯度保持不變,并加速網(wǎng)絡(luò)的收斂。ReLU函數(shù)的表達式為
目標網(wǎng)絡(luò)采用與主網(wǎng)絡(luò)一致的網(wǎng)絡(luò)結(jié)構(gòu)。這兩個網(wǎng)絡(luò)的唯一區(qū)別在于參數(shù)的更新頻率。主網(wǎng)絡(luò)在每個時間步更新,而目標網(wǎng)絡(luò)設(shè)置為每隔C個時間步更新一次。
對于模型中的其余參數(shù)定義如下:經(jīng)驗回放大小設(shè)置為20000;每個訓(xùn)練樣本批次大小設(shè)置為80;關(guān)于ε-貪婪策略,初始時,ε設(shè)置為1,逐漸減小到最小值0.03,步幅為0.00002;學(xué)習(xí)率設(shè)置為0.001;累積回報的折扣率設(shè)置為0.95。具體的模型參數(shù)如表2所示。
表2 DDQN訓(xùn)練參數(shù)設(shè)定Table 2 DDQN training parameter settings
由于DRL 是通過最大化累積獎勵找到最優(yōu)策略的,所以,其學(xué)習(xí)效果可以反映為最大累積獎勵值。因此,可以通過比較每個訓(xùn)練周期中智能體的累積獎勵評估模型的學(xué)習(xí)效果。訓(xùn)練過程的累積獎勵曲線如圖5 所示。由圖5 可知,在初始訓(xùn)練階段,每個周期的累積獎勵較小。由于智能體處于探索環(huán)境的階段,可用的有效經(jīng)驗較少,容易受到獎勵函數(shù)設(shè)定的懲罰影響。隨著訓(xùn)練周期數(shù)量的增加和ε值的減小,智能體可以利用大量有效經(jīng)驗。因此,累積獎勵趨于增加,并在500 個周期后達到穩(wěn)定水平,最終的獎勵值收斂到400。表明智能體較好地平衡了探索和利用之間的關(guān)系,并學(xué)到了更好的駕駛策略。
圖5 累積獎勵曲線Fig.5 Cumulative reward curve
安全是駕駛的首要考慮因素,也是評估模型性能的基本指標。在模擬過程中,智能體必須合理操控CAV采取適當?shù)募铀?、減速和換道動作,以確保與周圍車輛保持安全跟車距離。每一代訓(xùn)練結(jié)束時的模擬時間步數(shù)如圖6 所示。在訓(xùn)練的初期階段,由于貪婪策略的影響,智能體仍需學(xué)習(xí)安全駕駛策略。因此,安全駕駛時間遠低于每個模擬任務(wù)的最大時間步數(shù)。隨著訓(xùn)練的進行,在探索和利用的權(quán)衡過程中不斷優(yōu)化,智能體控制的CAV 能夠逐漸維持長時間的安全駕駛。經(jīng)過500次模擬后,能夠穩(wěn)定地運行到每個模擬任務(wù)的最大時間步數(shù),表明智能體已經(jīng)掌握了安全駕駛的能力。
圖6 運行時間步數(shù)曲線Fig.6 Agent's running time steps curve per episode
模型訓(xùn)練到達最佳狀態(tài)后,本文從微觀角度介紹智能體控制的CAV在駕駛方面的學(xué)習(xí)表現(xiàn)。
3.5.1 換道行為
CAV在模擬中有兩類換道行為。一方面,CAV在具備換道條件下的操作,如圖7所示,具體來說,在仿真時步190 時,CAV 接收到智能體的換道指令,開始執(zhí)行換道操作,在仿真時步205時,CAV剛好完成換道操作,順利行駛在車道2 上。另一方面,CAV在不具備換道條件下的操作,如圖8所示,具體來說,在仿真時步50 時,CAV 不存在換道條件,故智能體使其繼續(xù)保持直行,等待換道時機,在仿真時步160 時,換道條件已經(jīng)具備,智能體給CAV 下達換道指令,在仿真時步175 時,CAV 剛好完成換道操作,安全行駛在車道2上。
圖7 換道操作Fig.7 Schematic diagram of lane change operation
圖8 換道操作Fig.8 Schematic diagram of lane change operation
3.5.2 生態(tài)駕駛行為
為展示智能體控制下CAV 的生態(tài)駕駛學(xué)習(xí)表現(xiàn),記錄CAV的軌跡和速度信息,如圖9和圖10所示。兩幅圖中:橫坐標表示模擬時間步長;垂直短細虛線表示CAV從車道1切換到車道2的時間點,虛線左側(cè)表示CAV在車道1中的信息,右側(cè)表示換道至車道2后的信息;水平長粗虛線表示當前信號燈處于黃紅燈相位。為確保觀察到十字路口附近的車輛軌跡,記錄了信號燈下游100 m 范圍內(nèi)的軌跡。
圖9 CAV智能體的縱向軌跡曲線Fig.9 Longitudinal trajectory curve of CAV Agent
圖10 CAV智能體的速度曲線Fig.10 Velocity profile of CAV Agent
從圖9 和圖10 可知,當CAV 剛駛?cè)胲嚨? 時,由于道路狀況較好,車速略有增加。隨后,車速穩(wěn)定在10 m·s-1,并在綠燈階段順利通過交叉路口。在紅燈時,沒有發(fā)生闖紅燈和排隊的情況,從而避免了交叉路口的交通波動??梢钥闯觯?jīng)過訓(xùn)練的智能體使CAV能夠成功執(zhí)行換道以及生態(tài)駕駛的任務(wù)。
為驗證基于DDQN算法智能體的性能,本文設(shè)定一個基準方案,具體如下:主體車輛的縱向運動使用IDM 模型,橫向控制使用MOBIL 模型操控[20]。滿足車輛換道操作的條件為
式中:as、af和aaf分別為主體車輛、當前車道中的后車以及目標車道中后車的加速度;、f和af為進行換道時三者相應(yīng)的加速度;bsafe為安全限制;p為主體車輛的禮讓系數(shù),描述駕駛員的親社會行為;ath為換道效益閾值。式(26)是安全準則,用于避免主體車輛與目標車道中的后車之間的碰撞。式(27)是換道的激勵準則,即當滿足條件,車輛可以通過換道提高速度。
為適應(yīng)交叉路口區(qū)域的特殊情況,將傳統(tǒng)的IDM模型進行如下改進:如果當前信號燈相位為紅色或黃色,且前方車輛的位置距離下游交叉路口不足50 m(dinter≤50 m),為避免闖紅燈,前車將信號燈視為速度為0 m·s-1的前車,并減速。此時,IDM 模型中的Δvi取值為-vi,si取值為dinter,更新車輛的加速度。
為便于比較兩種方案對整體交通流的影響,對模擬場景進行附加設(shè)置:在模擬開始時,在車道1和車道2的入口處,以相同的車流率匯入車輛。在DDQN方案中,有多個CAV智能體從車道1進入道路,且將部分CAV 智能體的目標車道設(shè)置為車道2。在基準方案中,CAV 車輛將由基準方案操控。其余的設(shè)置與前面的模擬環(huán)境一致?;谏鲜雒枋觯瑥囊韵聨讉€方面比較和分析兩種方案的生態(tài)駕駛性能。
3.6.1 軌跡分析
為展示兩種方案在交通系統(tǒng)中的微觀駕駛性能,繪制兩個車道的時空軌跡,如圖11所示。兩個車道的流量為900 輛·h-1。在DDQN 方案下,使用經(jīng)過訓(xùn)練的模型控制CAV智能體(圖中以粗軌跡表示)?;鶞史桨傅能壽E曲線如圖11(a)和圖11(b)所示,基于DDQN 的軌跡曲線如圖11(c)和圖11(d)所示,圖中,“*”表示車輛正在進入該車道,“o”表示車輛正在離開該車道。
圖11 兩種方案下的雙車道車輛軌跡Fig.11 Two lane vehicle trajectory diagram under two scheme
由圖11 可知,由基準方案控制的車輛能夠順利換道到車道2并駛出交叉路口。然而,由于缺乏與信號燈的協(xié)調(diào),大量車輛需要在紅燈時排隊等待。由DDQN 控制的車輛不僅能夠進行安全的換道操作,還能夠?qū)崟r感知下游的SPaT 信息。不僅使主體車輛能夠順利通過交叉路口,還能夠在信號變?yōu)榫G色時引導(dǎo)后續(xù)車隊通過交叉口,避免紅燈時的排隊。因此,在與環(huán)境互動和學(xué)習(xí)后,DDQN 控制的車輛不僅能夠完成換道到目標車道的任務(wù),還能夠成功引導(dǎo)其他車輛通過信號交叉口。大大提高了乘客的舒適性,避免因頻繁的停車和起步而引起的交通振蕩等不利影響。
3.6.2 效率分析
為觀察DDQN對交叉路口段的改善效果,測量交叉路口停車線處的車頭時距,如圖12所示,橫坐標表示隊列中不同位置的車輛,隊列位置1表示實際隊列中第2輛車的數(shù)據(jù),依此類推。
圖12 交叉路口不同隊列位置車輛的車頭間距Fig.12 Headway of vehicles in different queue positions at intersection
從圖12可知,在基準方案下,由于與信號燈缺乏協(xié)同作用,車輛會在紅燈處停車排隊,只有在信號變?yōu)榫G燈時,才按順序從0 m·s-1加速。因此,隊列中靠前的車輛速度較低,導(dǎo)致通過交叉路口的車輛車頭時距和綠燈丟失時間增加。此時,交叉口的平均車頭時距為2.28 s。與基準方案相比,由DDQN 控制的車輛能夠通過學(xué)習(xí)生態(tài)駕駛策略引導(dǎo)隊列通過交叉口。此外,一些換道到車道2 的CAV 智能體(如圖11(d)所示)也可以引導(dǎo)后續(xù)車輛進行生態(tài)駕駛。交叉口處車輛的平均車頭時距為2.06 s,增加了約10.7%的容量。車頭時距的減少意味著單位時間內(nèi)通過交叉口停車線的車輛數(shù)量增加,提高了交叉口的飽和流量。
3.6.3 燃油消耗與CO2排放分析
本文從生態(tài)學(xué)的角度探討DDQN 對交通系統(tǒng)的改進。使用式(18)測量兩個車道上車輛的燃料消耗。除了計算燃料消耗外,還計算CO2排放量。RAKHA等[21]發(fā)現(xiàn),燃料消耗與CO2排放之間的關(guān)系為
式中:Eco2為時刻t的車輛CO2排放量;Efuel為從式(18)計算得出的燃料消耗;δ1和δ2為速度和燃料消耗的相關(guān)系數(shù),分別為3.5×10-8km·m-1和2.39kg·L-1。
兩種方案下,每輛車隨時間變化的平均燃料消耗和CO2排放曲線如圖13 和圖14 所示??梢钥闯?,在DDQN 方案下,每輛車的總?cè)剂舷募s為1.43 L,總CO2排放量約為3.42 mg。與基準方案相比,兩者都降低了約7%。主要是因為DDQN 控制的CAV 車輛可以根據(jù)周圍環(huán)境自主決策,并且與SPaT 數(shù)據(jù)協(xié)同進行平穩(wěn)的加減速。因此,車隊的速度波動減小,故燃料消耗和CO2排放更加平衡,提高了環(huán)境經(jīng)濟性。對于基準方案,頻繁的加減速導(dǎo)致交叉路口的交通振蕩,導(dǎo)致更顯著的總體燃料消耗和CO2排放值。
圖13 每輛車的平均油耗曲線Fig.13 Average fuel consumption curve for each vehicle
圖14 每輛車的平均CO2曲線Fig.14 Average CO2 emission curve for each vehicle
3.6.4 不同情況下的數(shù)值結(jié)果
此外,鑒于自動駕駛汽車和人工駕駛車輛在不久的將來會共存的觀念,本文測量了不同流量和不同CAV 智能體滲透率(Penetration Rate,PR)對交通系統(tǒng)的潛在影響,如表3所示。為確保數(shù)據(jù)的有效性,數(shù)據(jù)均通過10次重復(fù)實驗獲得。
表3 DDQN方法和基準方法在不同場景下的數(shù)值結(jié)果Table 3 Numerical results of DDQN method and baselinemethod in different scenarios
本文測量3個指標,分別是交叉路口停車線上平均車頭時距Th,每輛車的平均燃料消Efuel耗和CO2排放ECO2。顯然,PR的增加可以降低交叉口附近的車頭時距,并提高交叉口的飽和流量。與基準方案相比,在PR 等于100%的方案中,600,900,1200 veh·h-1這3種交通需求下,交叉口的飽和流量分別提高了17.90%,16.83%,12.87%。此外,不同的CAV 智能體PR 還可以降低交通系統(tǒng)的燃料消耗和CO2排放。不同交通擁堵水平下的燃料消耗和污染物排放可以減少5.19%~8.76%。
本文得到的主要結(jié)論如下:
(1) 運用DDQN 算法探索CAV 智能體在典型城市道路交叉口場景中的生態(tài)駕駛策略。在狀態(tài)空間中考慮與車輛動態(tài)相關(guān)的局部特征變量以及與信號燈狀態(tài)和路口相關(guān)的全局特征變量,確保智能體與環(huán)境充分互動。側(cè)向和縱向控制被用作行動輸出,以確保智能體學(xué)習(xí)多樣化的駕駛決策。獎勵函數(shù)包括對交通規(guī)則的懲罰、與信號燈的連接獎勵以及全局節(jié)能獎勵,以加速車輛學(xué)習(xí)達到最佳的生態(tài)駕駛策略。
(2)本文構(gòu)建符合實際道路環(huán)境的仿真場景,并對模型進行訓(xùn)練。結(jié)果表明,基于DDQN方案可以實現(xiàn)CAV 智能體的生態(tài)駕駛策略,使其能夠順利通過信號交叉口,并完成到目標車道的橫向機動。此外,與基準方案的比較分析表明,所提出的方案可以在動態(tài)交通環(huán)境中引導(dǎo)人類駕駛車輛,將交叉口的容量增加了17.90%,并將每輛車的平均燃料消耗和污染物排放降低了約8.76%。