張 健 姜 夏 史曉宇 程 健 鄭岳標(biāo)
(1東南大學(xué)江蘇省城市智能交通重點(diǎn)實(shí)驗(yàn)室, 南京 211189)(2東南大學(xué)交通學(xué)院, 南京 211189)(3西藏大學(xué)工學(xué)院, 拉薩 850000)(4南京萊斯信息技術(shù)股份有限公司, 南京 210000)
在車路協(xié)同環(huán)境中,具備一定網(wǎng)聯(lián)自動(dòng)駕駛等級(jí)的車輛可以與交通基礎(chǔ)設(shè)施進(jìn)行交互[1],獲取相應(yīng)數(shù)據(jù)進(jìn)行更優(yōu)決策,從而帶來(lái)車輛運(yùn)行過程中安全、效率與低碳生態(tài)等方面的提升.自動(dòng)駕駛與V2I技術(shù)應(yīng)用場(chǎng)景廣泛.鑒于生態(tài)駕駛方法可以大幅減少車輛燃油消耗[2],利用V2I等技術(shù)獲取交通信息提高車輛燃油經(jīng)濟(jì)性成為重要的研究?jī)?nèi)容.這一策略尤其適用于交叉口場(chǎng)景:當(dāng)車輛接近交叉口時(shí),信號(hào)燈基于V2I提供相位配時(shí)(SPaT)信息,節(jié)能駕駛模塊提供速度建議或輔助駕駛,以減少汽車能耗.GLOSA系統(tǒng)是生態(tài)駕駛策略的重要體現(xiàn)[3],同時(shí)依據(jù)道路限速和SPaT,該系統(tǒng)可提供交叉口前不停車的建議速度區(qū)間,引導(dǎo)車輛以高效且節(jié)能的車速通行.
已有的生態(tài)駕駛方法大多基于最優(yōu)控制理論建立模型,如通過龐特里亞金最小值原理[4]、模型預(yù)測(cè)控制(MPC)[5]、多階段優(yōu)化模型[6]、動(dòng)態(tài)規(guī)劃(DP)[7-8]求得車輛最優(yōu)能耗軌跡.雖然車輛燃油經(jīng)濟(jì)性在上述研究中得以驗(yàn)證,但在面對(duì)高維復(fù)雜場(chǎng)景時(shí)計(jì)算時(shí)間復(fù)雜度較高,對(duì)車輛計(jì)算單元的性能提出了較高的要求,不利于工業(yè)化部署.
為增強(qiáng)方法的實(shí)用性,一些元啟發(fā)式算法被用來(lái)快速求解模型.如采用混合遺傳算法與粒子群算法[9]、帶精英策略的非支配排序遺傳算法[10]、多目標(biāo)遺傳算法[11-12]來(lái)降低求解過程的時(shí)間消耗.這些方法實(shí)際控制時(shí)難以對(duì)所有超參數(shù)進(jìn)行自適應(yīng)選擇,且算法容易收斂至局部最優(yōu),無(wú)法進(jìn)行全局的速度優(yōu)化.此外,一些基于規(guī)則建立的控制方法[13-16]雖然直觀,實(shí)現(xiàn)方便,但同樣難以保證最優(yōu)性,并難以在不同的交通與信號(hào)環(huán)境下自適應(yīng)遷移.
深度強(qiáng)化學(xué)習(xí)(DRL)將車輛視作智能體,車輛根據(jù)當(dāng)前狀態(tài)可以選擇未來(lái)獎(jiǎng)勵(lì)最高的動(dòng)作.一些研究在每個(gè)時(shí)刻從離散的加速度集合中選取值作為當(dāng)前時(shí)間步車輛控制輸入[17-18].由于離散型的加速度變化不利于產(chǎn)生平滑的軌跡,且難以達(dá)到全局最優(yōu),一些適用于連續(xù)型動(dòng)作的DRL算法也被應(yīng)用在該領(lǐng)域[19-22].強(qiáng)化學(xué)習(xí)因無(wú)需逐步求解數(shù)學(xué)模型,保障了實(shí)時(shí)性,但國(guó)內(nèi)外相關(guān)研究均為在線學(xué)習(xí),通過智能體與環(huán)境交互,進(jìn)行學(xué)習(xí)數(shù)據(jù)的收集,以促成控制策略的評(píng)估與更新.這一機(jī)制阻礙了DRL在實(shí)際場(chǎng)景的應(yīng)用,其原因?yàn)椋孩?現(xiàn)實(shí)情況下進(jìn)行車輛智能體的算法構(gòu)造與訓(xùn)練面臨潛在交通事故的威脅, DRL算法需要大量的交互數(shù)據(jù)更新策略,數(shù)據(jù)采樣會(huì)花費(fèi)大量的時(shí)間與成本;② 仿真與實(shí)際情況間存在差距.已有研究均在交通或車輛仿真器中開展,但訓(xùn)練好的模型難以在環(huán)境遷移后仍具備良好表現(xiàn).
本文針對(duì)城市工況網(wǎng)聯(lián)汽車信號(hào)交叉口生態(tài)駕駛問題,將其抽象為馬爾可夫決策過程(MDP),設(shè)計(jì)考慮效率與能源的復(fù)合獎(jiǎng)勵(lì)函數(shù).依托SUMO平臺(tái)[23]搭建交通環(huán)境,為車輛裝備基礎(chǔ)的GLOSA系統(tǒng),通過仿真收集數(shù)據(jù),制作靜態(tài)數(shù)據(jù)集,基于離線強(qiáng)化學(xué)習(xí)理論,使用BCQ算法在靜態(tài)數(shù)據(jù)集上進(jìn)行訓(xùn)練,在連續(xù)動(dòng)作空間內(nèi)進(jìn)行車輛速度優(yōu)化,進(jìn)一步提升強(qiáng)化學(xué)習(xí)方法在實(shí)際網(wǎng)聯(lián)交通環(huán)境中的適用性.
如圖1(a)所示,在智能網(wǎng)聯(lián)交通環(huán)境下,交叉口的信號(hào)燈具備與網(wǎng)聯(lián)車輛進(jìn)行通信的能力.通信范圍Rc表示網(wǎng)聯(lián)車與交通燈進(jìn)行V2I通信的距離閾值,當(dāng)車輛與信號(hào)燈相對(duì)位置小于Rc時(shí),即可獲取信號(hào)燈提供的SpaT信息以進(jìn)行決策;當(dāng)相對(duì)位置大于Rc時(shí),車輛在自身的車輛跟馳行為引導(dǎo)下運(yùn)動(dòng).如圖1(b)所示,節(jié)能控制的目的是當(dāng)車輛進(jìn)入通信范圍后,能夠使其按照優(yōu)化軌跡行駛,盡量避免在交叉口前遇到紅燈停車等待,導(dǎo)致能源消耗.
(a) 網(wǎng)聯(lián)環(huán)境下車輛生態(tài)駕駛場(chǎng)景
該問題的目標(biāo)函數(shù)是使得車輛以速度v0在時(shí)間t0抵達(dá)進(jìn)口道后行駛至通過交叉口前停車線過程中油耗最省.僅以能耗作為目標(biāo)函數(shù)顯然會(huì)導(dǎo)致網(wǎng)聯(lián)車停止運(yùn)動(dòng),因?yàn)樵谶@種情況下每個(gè)時(shí)間步車輛能耗均為0.以Tv表示車輛旅行時(shí)間,F(t)表示時(shí)刻t車輛的瞬時(shí)油耗,tf表示車輛進(jìn)入交叉口內(nèi)部的時(shí)刻,v(t)為網(wǎng)聯(lián)車當(dāng)前速度,以加速度u(t)為控制輸入,則目標(biāo)函數(shù)可表示為
(1)
式中,ω1與ω2為權(quán)重系數(shù),表示在優(yōu)化時(shí)考慮時(shí)間指標(biāo)與能耗經(jīng)濟(jì)性指標(biāo)的相對(duì)重要程度.本文采用SUMO中內(nèi)置的車輛燃油與排放模型計(jì)算F(t),該模型通常適用于歐盟標(biāo)準(zhǔn)下的燃油小汽車相關(guān)參數(shù)求解[24].雖然本文以燃油車為研究對(duì)象,但所提出方法以車輛瞬時(shí)能耗作為獎(jiǎng)勵(lì)函數(shù)的一部分進(jìn)行迭代優(yōu)化,可適用于純電動(dòng)車等多種類型車輛.
對(duì)于tf而言,車輛需要在綠燈時(shí)間進(jìn)入交叉口,用Ts表示單個(gè)信號(hào)燈的周期,以向網(wǎng)聯(lián)車開放綠燈的相位作為首個(gè)相位,設(shè)該相位在交通信號(hào)周期時(shí)間所占比例為D,則tf應(yīng)滿足下式:
kTs+DTs (2) 式中,k為任意非負(fù)整數(shù). 在運(yùn)行過程中,車輛受到道路限速、自身最大加減速度能力的影響,因此有 0≤v(t)≤vm (3) dm≤u(t)≤um (4) 式中,vm為道路最大限速,m/s;dm和um分別為車輛最大減速度與最大加速度,m/s2,此處dm為負(fù)值. 為使用DRL方法控制,需要對(duì)問題進(jìn)行模型重構(gòu),建立MDP. MDP通過一個(gè)五元組(S,A,R,P,γ)描述智能體的決策過程.其中,S、A和R分別為智能體的狀態(tài)空間、動(dòng)作空間及獎(jiǎng)勵(lì)函數(shù);P為環(huán)境轉(zhuǎn)移的概率分布,表示在t時(shí)刻給定狀態(tài)st∈S與動(dòng)作at∈A的情況下,下一時(shí)刻狀態(tài)轉(zhuǎn)為st+1的概率;γ為衡量當(dāng)前獎(jiǎng)勵(lì)與未來(lái)長(zhǎng)期獎(jiǎng)勵(lì)相對(duì)重要性的折扣因子.當(dāng)P已知時(shí),可以基于有模型的數(shù)值迭代求解,但大多數(shù)時(shí)候P難以求出,因此通常使用無(wú)模型的強(qiáng)化學(xué)習(xí)方法進(jìn)行控制.使用參數(shù)集合為θ的神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)逼近,則智能體的目標(biāo)為基于參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)策略π(s,a|θ),使得其能夠在決策過程中獲得最大化的未來(lái)期望獎(jiǎng)勵(lì),即 式中,rt∈R為t時(shí)刻智能體獲得的累計(jì)獎(jiǎng)勵(lì)值. 為達(dá)到最優(yōu)控制的目的,車輛需要學(xué)習(xí)一個(gè)最優(yōu)的策略π*,使得該策略在策略空間Θ有 (6) 在傳統(tǒng)的DRL方法中,π*一般通過環(huán)境與智能體的不斷交互進(jìn)行迭代更新.然而在離線強(qiáng)化學(xué)習(xí)中,智能體需要在一個(gè)靜態(tài)的數(shù)據(jù)集γ中進(jìn)行學(xué)習(xí),D由一系列的智能體軌跡(st,at,rt,st+1)組成.在此情況下,需要對(duì)智能體的狀態(tài)空間、動(dòng)作空間與獎(jiǎng)勵(lì)函數(shù)進(jìn)行定義. 1.2.1 狀態(tài)空間 網(wǎng)聯(lián)車智能體應(yīng)具備基于少量觀測(cè)信息即做出正確決策的能力.為減少狀態(tài)空間的維度,本文以四維向量對(duì)狀態(tài)空間進(jìn)行定義: st={dr(t),vr(t),φ(t),G(t)}T (7) 式中,dr(t)為車輛至交叉口停車線的距離與車道長(zhǎng)度L的比值;vr(t)為當(dāng)前速度與道路限速的比值;φ(t)為當(dāng)前綠燈剩余時(shí)間,s,如果當(dāng)前信號(hào)燈在車輛運(yùn)動(dòng)方向?yàn)榧t燈,則φ(t)=0;G(t)為當(dāng)前時(shí)刻到下一次綠燈開放的時(shí)間.dr(t)可以通過高精地圖或V2I通信獲取,vr(t)可由車輛儀表盤給出,φ(t)和G(t)可基于V2I通信傳輸?shù)腟PaT信息計(jì)算得到.φ(t)的計(jì)算公式為 (8) 1.2.2 動(dòng)作空間 根據(jù)車輛的動(dòng)力約束,以車輛的加速度作為智能體動(dòng)作輸入,其值應(yīng)該處于車輛的加速度可行域中,即at∈[dm,um].考慮到安全性和速度的物理意義,算法輸出的加速度在某些情況并不能被直接應(yīng)用于車輛的運(yùn)動(dòng),需進(jìn)行一定的約束.車輛加速后可能會(huì)導(dǎo)致追尾事故,或在紅燈期間越過信號(hào)交叉口停車線,因此需要用車輛跟馳模型對(duì)動(dòng)作進(jìn)行修正,即 (9) (10) 1.2.3 獎(jiǎng)勵(lì)函數(shù) 獎(jiǎng)勵(lì)函數(shù)應(yīng)與目標(biāo)函數(shù)(1)的形式相匹配,即將車輛智能體運(yùn)行過程中時(shí)間消耗指標(biāo)與能源消耗指標(biāo)同時(shí)納入考慮.直接以車輛的總延誤或總旅行時(shí)間作為獎(jiǎng)勵(lì)會(huì)面臨信用分配的問題,即網(wǎng)聯(lián)車必須在通過交叉口前停車線后才能計(jì)算出整個(gè)過程中的時(shí)間或能源消耗.該情況下,每一時(shí)間步的動(dòng)作對(duì)總消耗的貢獻(xiàn)程度難以衡量.因此,本文使用單個(gè)離散時(shí)間步下的縱向運(yùn)動(dòng)距離x(t)作為車輛運(yùn)動(dòng)效率指標(biāo)的替代,則相應(yīng)的復(fù)合獎(jiǎng)勵(lì)函數(shù)為 rt=ω1x(t)+ω2F(t) (11) 在傳統(tǒng)的DRL算法中,通過環(huán)境與智能體的接口,智能車可以根據(jù)MDP定義進(jìn)行策略評(píng)估與迭代,從而收斂到最優(yōu)策略.但在離線強(qiáng)化學(xué)習(xí)算法中,需要在未知行為策略πu控制下收集的數(shù)據(jù)集中進(jìn)行訓(xùn)練,且對(duì)未知行為策略的優(yōu)劣不具備任何先驗(yàn)知識(shí).本文提出的方法是在傳統(tǒng)GLOSA系統(tǒng)控制下搜集的少量靜態(tài)仿真數(shù)據(jù)中通過BCQ算法進(jìn)行策略學(xué)習(xí),并證明所得到的策略在較低延誤的情況下能夠降低車輛油耗. 圖2對(duì)在線強(qiáng)化學(xué)習(xí)與離線強(qiáng)化學(xué)習(xí)的流程進(jìn)行了對(duì)比.在線強(qiáng)化學(xué)習(xí)一般通過智能體與環(huán)境交互過程中產(chǎn)生的軌跡直接更新策略,或?qū)④壽E數(shù)據(jù)儲(chǔ)存到經(jīng)驗(yàn)池,并按照批量從經(jīng)驗(yàn)池提取數(shù)據(jù)進(jìn)行策略迭代.離線強(qiáng)化學(xué)習(xí)則是將任意的行為策略πu在環(huán)境執(zhí)行動(dòng)作后搜集到的軌跡數(shù)據(jù)儲(chǔ)存至經(jīng)驗(yàn)池,以離線方式對(duì)策略進(jìn)行迭代訓(xùn)練,學(xué)習(xí)較好的策略以部署在新環(huán)境中. (a) 在線強(qiáng)化學(xué)習(xí) 離線強(qiáng)化學(xué)習(xí)任務(wù)通常會(huì)面臨分布偏移與價(jià)值函數(shù)高估的問題.具體而言,將在離線數(shù)據(jù)集Υ上訓(xùn)練得到的策略部署在新環(huán)境中時(shí),智能體與環(huán)境發(fā)生交互觀測(cè)到的狀態(tài)與離線數(shù)據(jù)中的狀態(tài)集合分布存在不一致現(xiàn)象.策略僅能對(duì)與Υ中數(shù)據(jù)分布相同的輸入實(shí)現(xiàn)最優(yōu)動(dòng)作的輸出,但對(duì)于新的狀態(tài)動(dòng)作(st,at)對(duì)應(yīng)的Q值無(wú)法準(zhǔn)確估計(jì),且通常會(huì)對(duì)價(jià)值函數(shù)進(jìn)行高估,此處的Q值為給定策略π下的狀態(tài)價(jià)值函數(shù): (12) 相應(yīng)地,當(dāng)Q函數(shù)對(duì)錯(cuò)誤動(dòng)作的價(jià)值高估時(shí),就會(huì)選擇這些實(shí)際收益可能非常差的動(dòng)作,從而導(dǎo)致執(zhí)行動(dòng)作后系統(tǒng)表現(xiàn)較差.離線強(qiáng)化學(xué)習(xí)算法的主要任務(wù)就是解決分布偏移的問題,使得智能體在靜態(tài)數(shù)據(jù)集中學(xué)習(xí)的策略能夠較好地適應(yīng)新環(huán)境. BCQ算法在選取能最大化Q值的動(dòng)作時(shí),并不考慮動(dòng)作空間中所有可能的動(dòng)作,而是通過約束選擇出現(xiàn)在離線數(shù)據(jù)集Υ中的動(dòng)作,即其執(zhí)行的動(dòng)作大多與未知行為策略πu執(zhí)行過的動(dòng)作保持一致[25].在這種情況下,行為策略πu應(yīng)當(dāng)具備較好的表現(xiàn). BCQ算法通過訓(xùn)練一個(gè)變分自編碼器(VAE)進(jìn)行行為策略重建,即生成可能來(lái)自數(shù)據(jù)集Υ中的動(dòng)作,接著使用對(duì)動(dòng)作at進(jìn)行擾動(dòng)的擾動(dòng)網(wǎng)絡(luò)對(duì)生成的動(dòng)作進(jìn)行微調(diào). 令Gψ={Eψ1,Dψ2}表示VAE,其中Eψ1、Dψ2分別表示encoder和decoder,則VAE的參數(shù)集合ψ的損失函數(shù)為 (13) 用ξ?(s,a)表示參數(shù)為?的擾動(dòng)網(wǎng)絡(luò)在特定狀態(tài)動(dòng)作對(duì)(s,a)下的輸出,則策略函數(shù)可定義為 π(s,a)=a+Φξ?(s,a) (14) 式中,a為VAE中decoder的輸出;Φ為擾動(dòng)因子.Φ使得智能體可以在一定的區(qū)域內(nèi)采樣動(dòng)作,而不僅僅依靠生成器生成.基于此,策略π可以在備選動(dòng)作中選取能最大化Q值的動(dòng)作,即 L(θi)=Est,at,rt,st+1~Υ[(y-Qθi(st,at))2] (16) 其中, (17) 目標(biāo)網(wǎng)絡(luò)的更新規(guī)則為 (18) 式中,λ和τ分別為Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)的更新權(quán)重參數(shù). 最后,擾動(dòng)網(wǎng)絡(luò)的參數(shù)損失函數(shù)為 J(?)=Est~Υ,at~Dψ2(st,z)[Qθ(st,π(st,at))] (19) 本文在SUMO環(huán)境下進(jìn)行仿真系統(tǒng)的搭建,算法使用Python語(yǔ)言編寫,算法與仿真環(huán)境通過SUMO的Traci接口進(jìn)行交互,以達(dá)到車輛控制的目的.表1給出了相關(guān)的仿真參數(shù)配置. 表1 仿真參數(shù)設(shè)置 本文建立了單交叉口與多交叉口2種仿真環(huán)境.在單交叉口環(huán)境,進(jìn)口道長(zhǎng)度為300 m;而在多交叉口環(huán)境,連續(xù)3個(gè)交叉口的進(jìn)口道長(zhǎng)度分別為300、500、400 m.目標(biāo)車輛以[0,vm]區(qū)間內(nèi)的隨機(jī)速度駛?cè)肼肪W(wǎng),且在車輛駛?cè)肼肪W(wǎng)前,信號(hào)燈進(jìn)行[0,Ts]區(qū)間內(nèi)隨機(jī)時(shí)間的預(yù)加載,以使得車輛能夠遇到不同信號(hào)相位的情況.通過隨機(jī)速度與隨機(jī)相位時(shí)間的仿真,可以證明算法的魯棒性.此外,將獎(jiǎng)勵(lì)函數(shù)的權(quán)重參數(shù)設(shè)為ω1=1、ω2=2,以平衡對(duì)運(yùn)行效率與能耗經(jīng)濟(jì)性的相對(duì)重要性. 為獲取用于離線強(qiáng)化學(xué)習(xí)算法訓(xùn)練的數(shù)據(jù)集Υ,本文使用SUMO中內(nèi)嵌的GLOSA系統(tǒng)作為行為策略.該策略基于簡(jiǎn)單的規(guī)則進(jìn)行車速控制:當(dāng)車輛接近亮紅燈的信號(hào)控制時(shí),將預(yù)估以當(dāng)前速度到達(dá)停車線的時(shí)間與交通燈轉(zhuǎn)為綠燈的時(shí)間進(jìn)行對(duì)比,若無(wú)法通行,則進(jìn)行減速;當(dāng)車輛接近亮綠燈的交叉口控制時(shí),將預(yù)估到達(dá)停車線時(shí)間與綠燈剩余時(shí)間進(jìn)行對(duì)比,若可以通行,即進(jìn)行加速操作.考慮真實(shí)交通環(huán)境,目前乘用車上大多預(yù)裝有諸如GLOSA的車速建議系統(tǒng),通過收集真實(shí)車輛軌跡數(shù)據(jù)與網(wǎng)聯(lián)交通燈數(shù)據(jù),可以處理形成真實(shí)情景的數(shù)據(jù)集,即可實(shí)現(xiàn)方法由仿真到實(shí)際的遷移.本文為證明方法的實(shí)用性,通過仿真收集了1 000條數(shù)據(jù),通過一系列仿真實(shí)驗(yàn)證明基于少量數(shù)據(jù),結(jié)合所構(gòu)建的馬爾可夫決策過程,BCQ算法訓(xùn)練的智能體也能具備較好的表現(xiàn). 對(duì)于BCQ算法的參數(shù),本文采用網(wǎng)格搜索與人工調(diào)整相結(jié)合的方式,最終確定Q網(wǎng)絡(luò)、目標(biāo)Q網(wǎng)絡(luò)、擾動(dòng)網(wǎng)絡(luò)的學(xué)習(xí)率均為0.001,同時(shí)采用隱藏層單元數(shù)目為256的單隱藏層全連接網(wǎng)絡(luò),使用Relu激活函數(shù)對(duì)輸出進(jìn)行非線性處理.訓(xùn)練數(shù)據(jù)的批量大小為100,擾動(dòng)因子Φ為0.05,獎(jiǎng)勵(lì)折扣系數(shù)γ為0.99,并且每步采樣100個(gè)動(dòng)作進(jìn)行選擇. 對(duì)于單交叉口場(chǎng)景,基于1 000條軌跡數(shù)據(jù)將BCQ智能體訓(xùn)練50 000步,將訓(xùn)練好的智能體部署在新的仿真環(huán)境中.將SUMO內(nèi)置默認(rèn)的車輛跟馳模型、BCQ算法和GLOSA系統(tǒng)進(jìn)行對(duì)比.進(jìn)行100次仿真以消除隨機(jī)性影響,每次仿真均在隨機(jī)時(shí)刻以隨機(jī)速度在路網(wǎng)生成車輛并施加控制,對(duì)車輛旅行時(shí)間和油耗的分布統(tǒng)計(jì)結(jié)果分別如圖3(a)和(b)所示.將旅行時(shí)間定義為車輛從生成位置,途徑各個(gè)路段到通過最后一個(gè)交叉口耗費(fèi)的時(shí)間.可以發(fā)現(xiàn),BCQ算法控制下的車輛在旅行時(shí)間與油耗方面的中位數(shù)均低于另外2種方法. (a) 單交叉口旅行時(shí)間對(duì)比 表2展示了100次獨(dú)立仿真的平均結(jié)果.在單交叉口場(chǎng)景下,相比于默認(rèn)的車輛跟馳模型,BCQ算法控制的車輛可以節(jié)省約25.14%的燃油消耗,相比于GLOSA系統(tǒng)可以節(jié)省13.78%的油耗.同時(shí),該方法可使得車輛旅行時(shí)間略微降低,證明基于BCQ算法的策略接近全局最優(yōu)策略. 表2 單交叉口平均評(píng)價(jià)結(jié)果對(duì)比 類似地,將在單交叉口仿真環(huán)境訓(xùn)練的智能體部署到多交叉口環(huán)境中進(jìn)行仿真.當(dāng)且僅當(dāng)車輛進(jìn)入通信范圍Rc后才進(jìn)行基于GLOSA或者BCQ算法的控制.圖4為對(duì)某個(gè)場(chǎng)景的采樣,在該場(chǎng)景中,信號(hào)相位、車輛初始速度均設(shè)為相同值以進(jìn)行變量控制.由圖可見,BCQ算法控制的網(wǎng)聯(lián)車軌跡更為平滑.同時(shí),網(wǎng)聯(lián)車基于自身位置與SPaT信息,在強(qiáng)化學(xué)習(xí)算法控制下進(jìn)行運(yùn)動(dòng)決策,可以使其通過適當(dāng)?shù)募訙p速來(lái)規(guī)避紅燈,從而降低其能耗.由圖可見,SUMO中的GLOSA系統(tǒng)在第1個(gè)交叉口實(shí)現(xiàn)了不停車通行,但在后續(xù)交叉口前依然出現(xiàn)停車等待現(xiàn)象. 同時(shí),BCQ算法訓(xùn)練的智能體在部分路段學(xué)習(xí)到了勻速運(yùn)動(dòng)策略,這一運(yùn)動(dòng)方式可以幫助車輛更好地提升燃油經(jīng)濟(jì)性. (a) 車輛軌跡對(duì)比 同樣進(jìn)行100次獨(dú)立的仿真測(cè)試,表3對(duì)比了不同控制方法下的平均旅行時(shí)間與油耗水平.可知,在多交叉口場(chǎng)景下,相比默認(rèn)跟馳模型,BCQ算法能夠節(jié)省超過11.49%的燃油消耗,同時(shí)其僅犧牲了1%的運(yùn)行效率.其優(yōu)化效果相較單交叉口場(chǎng)景發(fā)生衰減,主要原因?yàn)椋孩?智能體為單交叉口場(chǎng)景下訓(xùn)練得到,部署在新的場(chǎng)景中適應(yīng)性發(fā)生下降;② 在通信范圍以外的區(qū)域,車輛僅進(jìn)行跟馳運(yùn)動(dòng),導(dǎo)致整體優(yōu)化比例下降.但這也符合在真實(shí)交通場(chǎng)景下部署的要求,即使面對(duì)新的情況,在一定通信水平下,離線強(qiáng)化學(xué)習(xí)算法訓(xùn)練的智能體仍然能夠達(dá)到節(jié)能控制的目的. 表3 多交叉口平均評(píng)價(jià)結(jié)果對(duì)比 考慮到現(xiàn)實(shí)情況下V2I通信水平的發(fā)展,在不同通信范圍的情況下,交叉口信號(hào)燈的有效通信范圍可能不同.為測(cè)試通信范圍Rc對(duì)控制結(jié)果的影響,將Rc依次設(shè)為100、150、200、250、300 m,將在進(jìn)口道為300 m的單交叉口情景下訓(xùn)練的智能體部署在多交叉口環(huán)境,針對(duì)每種通信范圍,均進(jìn)行100次獨(dú)立的仿真實(shí)驗(yàn),以評(píng)估算法的有效性. 圖5為不同通信范圍下網(wǎng)聯(lián)車平均旅行時(shí)間與油耗的變化情況.其中誤差線代表對(duì)應(yīng)情況下100次實(shí)驗(yàn)的數(shù)據(jù)標(biāo)準(zhǔn)差.通過圖5(a)可以看出,隨著通信范圍的增加,車輛的平均旅行時(shí)間略有下降,但其趨勢(shì)并不是非常明顯.旅行時(shí)間標(biāo)準(zhǔn)差有較為明顯的減弱趨勢(shì),證明通信水平的提升可以使控制算法表現(xiàn)得更加穩(wěn)定,減少了極端情況的發(fā)生.由圖5(b)可知,車輛的油耗隨著通信范圍的增加有明顯的下降趨勢(shì),且標(biāo)準(zhǔn)差也明顯下降,說(shuō)明BCQ算法訓(xùn)練的智能體在較大的V2I通信覆蓋范圍下更容易逼近全局最優(yōu)策略. (a) 車輛旅行時(shí)間隨通信范圍變化曲線 1) 以智能網(wǎng)聯(lián)汽車在城市信號(hào)交叉口的節(jié)能 通行控制過程為研究對(duì)象,考慮車路協(xié)同環(huán)境下V2I通信的便利性,提出適用于強(qiáng)化學(xué)習(xí)的馬爾可夫決策過程,并基于BCQ算法實(shí)現(xiàn)離線強(qiáng)化學(xué)習(xí). 2) 相比于傳統(tǒng)DRL算法,本文為強(qiáng)化學(xué)習(xí)在車輛控制場(chǎng)景的應(yīng)用提供了更具實(shí)踐意義的方案.仿真表明,在單交叉口場(chǎng)景與多交叉口場(chǎng)景下,車輛的能耗可分別節(jié)省25.14%和11.49%,且車輛的延誤幾乎沒有增加.此外,本文對(duì)不同V2I通信范圍下的控制結(jié)果進(jìn)行了對(duì)比,研究表明,通信范圍越大,生態(tài)駕駛的效果與穩(wěn)定性越好. 3) 未來(lái)研究中,將考慮在不同規(guī)模訓(xùn)練樣本集下的對(duì)比,以探究在不同行為策略和數(shù)據(jù)集中如何進(jìn)行更魯棒地學(xué)習(xí),將該方法推廣到車隊(duì)控制,從而最大限度挖掘智能網(wǎng)聯(lián)車路協(xié)同系統(tǒng)的效益.1.2 馬爾可夫決策過程
2 離線強(qiáng)化學(xué)習(xí)算法
3 實(shí)例分析
3.1 仿真配置與數(shù)據(jù)集建立
3.2 單交叉口仿真實(shí)驗(yàn)
3.3 多交叉口仿真實(shí)驗(yàn)
3.4 不同通信范圍下控制表現(xiàn)
4 結(jié)論