徐澤洲,曲大義,洪家樂,宋曉晨
(1.青島市城市規(guī)劃設(shè)計研究院,山東 青島 266071;2.青島理工大學,山東 青島 266520)
駕駛決策是交通安全永恒的話題,車輛在交叉口的交通事故仍有發(fā)生,剖析車輛交互駕駛行為對駕駛決策具有重要的指導作用。駕駛決策是車輛在進行駕駛操作時通過實時獲取車輛之間的交通信息,做出更安全的判斷,實現(xiàn)車車安全交互的目的,提高行車的安全性和快速性。自動駕駛車輛通過安裝各種先進感知設(shè)備實現(xiàn)自動運行,減少人為產(chǎn)生的交通事故[1]。隨著智能網(wǎng)聯(lián)、車路協(xié)同技術(shù)的發(fā)展,自動駕駛技術(shù)有望代替人從“車—道路—人”的控制系統(tǒng)徹底分離開來,從源頭解決道路運行中的交通問題[2]。然而,由于各種實際交通運行環(huán)境復雜多變,自動駕駛?cè)匀粯O具挑戰(zhàn)。
智能駕駛技術(shù)包括網(wǎng)絡(luò)導航、自主駕駛,車上的傳感器通過收集交通環(huán)境信息,進行認知計算控制相應的控制系統(tǒng)。自主駕駛是車輛從人工向智能的轉(zhuǎn)變,完全自動駕駛面對的是復雜多變的道路環(huán)境,無法被抽象成公式或簡單邏輯去使機器執(zhí)行。對此國內(nèi)外學者進行了廣泛且深入的研究,Lange等[3]通過深度強化學習方法構(gòu)造深度自動編碼器,利用任務(wù)相關(guān)信息改進特征空間拓撲結(jié)構(gòu)的方法成功地學習良好的控制策略,直接合成真實的圖像。Lange和Riedmiller等[4]提出深度擬和Q學習框架,嘗試對模型小車進行控制。Mnih等[5]將深度學習與強化學習方法結(jié)合進行決策與控制,給控制決策領(lǐng)域開啟了一種解決問題的新思路。Chae等[6]提出了一種基于深度強化學習的新型自動制動系統(tǒng),當遇到碰撞風險時,所提出的自動制動系統(tǒng)利用傳感器獲得的障礙物信息自動決定是否在每個時間步長應用制動,而用于制動控制的策略是通過DQN方法進行計算機模擬學習,實驗表明該控制策略在各種不確定環(huán)境中表現(xiàn)出了理想的控制行為,避免了汽車碰撞。Sallab等[7]采用深度確定性策略梯度算法在開放賽車模擬器中訓練自動駕駛汽車決策模型,并在TORCS上進行了測試,仿真顯示在復雜的彎曲道路和其他車輛簡單交互的情況下自主機動的學習決策。Vasquez等[8]提出了一種基于深度強化學習的多目標自主制動系統(tǒng),制動控制策略通過使用兩種強化學習方法(即最近策略優(yōu)化和深度確定性策略梯度)的計算機模擬來學習,并仿真比較了兩種方法的效率。結(jié)果表明,該系統(tǒng)能夠在保持安全制動運行的同時,將對乘客舒適性的負面影響降低一半。智能網(wǎng)聯(lián)技術(shù)為車輛精確控制和車輛軌跡優(yōu)化提供了巨大的活力,Wang等[9]對過去十年間CAV(Connected Automated Vehicle)優(yōu)化研究進行總結(jié),對CAV軌跡優(yōu)化研究進行分類梳理。CAV精確控制和軌跡優(yōu)化主要包括優(yōu)化目標模型、場景構(gòu)建、通信類型、CAV占有率及基于各種場景的現(xiàn)場實驗。Ubiergo等[10]將跟馳模型和排放模型結(jié)合,模擬CAV通過信號交叉口的行為,提出一種V2I環(huán)境下的速度反饋控制策略,討論車輛滲透率、交通擁堵水平、通信類型和定位精度以及跟車模型本身幾個參數(shù)對策略的影響,并進行不同場景實驗進行分析來驗證策略的效果。Yao等[11]在Ubiergo的基礎(chǔ)上提出一種基于軌跡優(yōu)化的可變限速系統(tǒng),利用V2I通信的車載設(shè)備來平滑車輛軌跡,使車輛在不同時間不同路段采用不同的速度快速通過信號控制的交叉口,減少停車次數(shù)及時間損失、提高交通流的通行效率從而降低油耗。Jiang等[12]提出了一個獨立交叉口聯(lián)網(wǎng)環(huán)境下AV(Automated Vehicle)生態(tài)駕駛系統(tǒng),通過AV的速度分布來優(yōu)化整個交通流。AV的速度通過最優(yōu)控制問題求解,通過服務(wù)水平、油耗、排放等參數(shù)進行模擬評估及分析。研究表明所提出的生態(tài)駕駛系統(tǒng)能夠消除信號控制引起的沖擊波,并對傳統(tǒng)車輛的阻抗和交通的隨機性具有魯棒性。Xu等[13]提出了一種交通信號優(yōu)化和車速控制的協(xié)同方法,可以同時優(yōu)化交通信號配時和車速軌跡,從而提高通行效率,降低燃油消耗。Han等[14]提出一種基于車隊的軌跡優(yōu)化方法,幫助車輛以最大的速度通過交叉口。該方法通過間隙反饋控制系統(tǒng)將車隊的軌跡優(yōu)化轉(zhuǎn)化為車隊領(lǐng)頭車的軌跡優(yōu)化問題,從而平滑車輛軌跡來減少車隊停車,實現(xiàn)節(jié)油、緩解交通擁堵。夏偉等[15]研究了深度強化學習方法在自動駕駛方向中的應用,通過交互式學習階段獲取到具備自動駕駛能力的策略網(wǎng)絡(luò)模型。范鑫磊等[16]通過深度強化學習方法使得導彈自主規(guī)避決策更好,測試結(jié)果具備一定的泛化能力。徐國艷等[17]通過采用改進的確定性策略梯度算法,定義無人車的輸入和輸出狀態(tài),討論車輛內(nèi)外約束條件,通過設(shè)計靜態(tài)和動態(tài)障礙環(huán)境進行仿真訓練生成無人車避障的最優(yōu)決策行為。楊順等[18]提出了一種基于多類型傳感數(shù)據(jù)訓練自動駕駛策略的方法,采用卷積網(wǎng)絡(luò)對傳感數(shù)據(jù)進行特征提取并進行組合,采用組合特征學習自動駕駛策略。通過TORCS軟件仿真中設(shè)計車道跟隨任務(wù)對提出的決策方法進行驗證,仿真結(jié)果表明基于多類型傳感信息進行深度強化訓練可以取得較好的車速和車輛橫向偏移控制效果。故針對交叉口自動駕駛車輛與其他車輛直行沖突的問題,構(gòu)建自動駕駛汽車行為決策模型,采用深度確定性策略梯度算法在仿真平臺上對自動駕駛行為決策進行訓練優(yōu)化,探索自動駕駛汽車通過交叉口的最優(yōu)決策行為,并通過非支配排序遺傳算法對比驗證此算法的穩(wěn)定性,保證自動駕駛車輛的安全性和舒適性,使得駕駛決策能夠更快且策略最優(yōu)。
深度確定性策略梯度算法[8](Deep Deterministic Policy Gradient,DDPG)是將深度學習神經(jīng)網(wǎng)絡(luò)融合進DPG的策略學習方法,包括Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)(如圖1所示),利用深度神經(jīng)網(wǎng)絡(luò)逼近確定性策略μ和行為值函數(shù)Q。
圖1 DDPG算法的網(wǎng)絡(luò)結(jié)構(gòu)及其功能
DDPG算法結(jié)合了確定性策略方法和神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器,故DDPG有一個行動者和批評者網(wǎng)絡(luò),算法的步驟如下:
首先將當前狀態(tài)s作為輸入提供給參與者網(wǎng)絡(luò),計算當前狀態(tài)的輸出動作a
a=μ(s;θμ)+Nt
(1)
其中,a為當前狀態(tài)的輸出動作值;s為當前狀態(tài);μ為行為策略;Nt為隨機噪聲;θ為神經(jīng)網(wǎng)絡(luò)的更新參數(shù);θμ為演員網(wǎng)絡(luò)的權(quán)重。
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
(2)
其中,yi為下一個狀態(tài)的目標行動者和目標批評者網(wǎng)絡(luò)的即時報酬和輸出的總和;ri為即時獎勵;γ為折扣因子;通過最小化的yi和使用批評者網(wǎng)絡(luò)計算的原始Q值之間的均方差損失來更新批評網(wǎng)絡(luò),即Q(si,ai|θQ)。
目標更新方式為
ω′←τω+(1-τ)ω′
(3)
θ′←τθ+(1-τ)θ′
(4)
其中,Actor當前網(wǎng)絡(luò)、Actor目標網(wǎng)絡(luò)、Critic當前網(wǎng)絡(luò)、Critic目標網(wǎng)絡(luò)參數(shù)分別為θ、θ′,ω,ω′;τ是狀態(tài)-動作的序列,為軟更新系數(shù)。
DDPG的損失函數(shù)為
(5)
其中,φ(Sj)為狀態(tài)的特征向量。
確定性策略梯度公式為
(6)
其中,πθ為采樣空間;?θπθ(s)為分值函數(shù);m為批量梯度下降的樣本數(shù)。
輸入:Actor當前網(wǎng)絡(luò),Actor目標網(wǎng)絡(luò),Critic當前網(wǎng)絡(luò),Critic目標網(wǎng)絡(luò)參數(shù)分別為θ、θ′、ω、ω′,衰減因子γ,軟更新系數(shù)τ,批量梯度下降的樣本數(shù)m,目標Q網(wǎng)絡(luò)參數(shù)更新頻率C。最大迭代次數(shù)T,隨機噪音函數(shù)Nt。
輸出:最優(yōu)Actor當前網(wǎng)絡(luò)參數(shù)θ,Critic當前網(wǎng)絡(luò)參數(shù)ω。具體流程如圖2所示。
圖2 DDPG算法執(zhí)行流程示意圖
由于交叉路口處車輛的行駛方向和路線不同,可能會發(fā)生碰撞,本文以無信號十字形交叉口為例。如圖3所示,黑色的自動駕駛汽車(AV)可能會與灰色的駕駛?cè)似?HV)發(fā)生碰撞,灰黑色區(qū)域是可能的沖突區(qū)域?;谲囕v在不同時間穿越十字路口,本文僅考慮駕駛?cè)塑囕v的影響,建立了在這些空間中發(fā)生碰撞可能的決策模型。
圖3 無信號十字型交叉口沖突示意圖
減少制動被認為是一種直接的節(jié)油策略,這種策略產(chǎn)生了一種被稱為生態(tài)駕駛的駕駛實踐,有助于駕駛員實現(xiàn)更平穩(wěn)的速度波動。生態(tài)駕駛包括以生態(tài)友好的方式駕駛(避免駕駛中的突然速度變化,并在最佳燃油速度附近保持恒定速度,這與提高燃油經(jīng)濟性和減少排放有關(guān)),生態(tài)路線包括選擇消耗最少能源和產(chǎn)生最小排放水平的路線。考慮在交叉路口車輛產(chǎn)生碰撞的速度,引入預估通行侵入?yún)^(qū)域時間差EPET參數(shù)[19](Estimating Post Encroachment Time),該參數(shù)是指車輛通過沖突區(qū)域中心的時間差,可以有效地評估車輛任何角度的碰撞危險,如圖4所示。自動駕駛決策系統(tǒng)通過傳感器感知交叉口附近車輛運行的狀態(tài)來調(diào)整車輛速度,以節(jié)省延遲、燃料和排放。如果自動駕駛車輛預測到相鄰車道即將到來的車輛狀態(tài),則可以相應地調(diào)節(jié)車輛的速度以避免急剎車或加速,從而減少能量消耗和污染物排放。
圖4 EPET原理示意圖
其中,TAv和THv分別是AV和HV到達沖突區(qū)域的時間。較大的EPET值意味著發(fā)生碰撞的風險較小,則有:
(7)
其中,U是收益函數(shù),更大的U代表更理想的駕駛行為;Vcri是HV的預期速度,AV和HV在通過交叉口的速度均小于交叉口限定速度[14]。定義U負數(shù)的原因是為了方便觀測模型在通行效率上的表現(xiàn)。
在OpenAI Gym軟件平臺上訓練DDPG算法(見圖5);然后在Prescan上驗證DDPG算法的可靠性(見圖6)。仿真參數(shù)設(shè)置如下:選取多車場景測試算法,設(shè)置兩輛從北向南直行的駕駛?cè)塑囕v(HV),自動駕駛車輛(AV)作為研究對象,AV由決策算法控制行駛以確保安全、無碰撞地通過交叉路口。HV和AV的長度和寬度分別為4 800mm和2 178mm,兩車通信范圍為200m,交叉路口限速60 km/h。DDPG算法中,確定性行為策略網(wǎng)絡(luò)和評價策略網(wǎng)絡(luò)具有相同的結(jié)構(gòu),它們是具有兩個隱藏層(64-64)的多層感知網(wǎng)絡(luò)。采用基于隨機策略梯度的獨立探索網(wǎng)絡(luò)為DDPG算法探索策略,加快訓練時網(wǎng)絡(luò)的收斂速度。
圖5 OpenAI gym仿真平臺
圖6 Prescan仿真平臺
基于非支配排序的多目標遺傳算法[20](Non-dominated Sorting Genetic Algorithms-Ⅱ,NSGA-Ⅱ),通過引入精英策略,擴大采樣空間,對目標種群快速非支配排序,降低了算法的計算復雜度,提高了算法的運算速度和魯棒性。
為對本文提出的算法做出一個客觀的評價,將本文提出的DDPG算法與NSGA-Ⅱ算法進行對比,在同一場景下進行了兩組實驗,其中HV1和HV2距離交叉口的初始位置分別為10m和32m(南北方向),AV的初始位置為30m(東西方向),設(shè)置HV1和HV2以40km/h的速度勻速行駛,如圖7a和圖7b所示。分別基于NSGA-Ⅱ算法(A組)和DDPG算法(B組)對提出的交叉口多目標優(yōu)化模型進行了訓練,并測試了算法的性能,結(jié)果如圖8所示。
圖7 不同算法交叉口仿真示意圖
圖8 不同算法求解的通行效率對比
A組中,AV在t=3s之前采取減速策略以等待HV1和HV2優(yōu)先通過交叉口,t=3s后,HV1和HV2駛離交叉口,AV加速通過交叉口。通行過程中,當速度低于預期速度時(t=3s之前),獎勵值下降,而當速度高于預期速度時(t=3s之后),獎勵值上升,整個過程中A組的總獎勵為-44.184,如圖8a所示。B組中,AV采取效率通行策略,選擇在HV1和HV2之間通過交叉口,AV在t=2s時到達沖突區(qū)域,在HV2到達沖突區(qū)域前0.5s駛離。DDPG算法能探索最優(yōu)行駛策略,使AV在交叉口通行過程中保持2m/s2的加速度,整個過程的總獎勵為-18.743,明顯高于A組,如圖8b所示。可以看出,B組中AV通過交叉口的時間相較于A組減少了1.5 s,加速度變化更小,這意味著DDPG算法能有效減少交叉口擁堵,提高通行效率。具體數(shù)據(jù)對比如表1所示。
表1 不同算法的效果評價
為了比較DDPG算法和NSGA-Ⅱ算法的穩(wěn)定性,設(shè)置一組對比實驗,自動駕駛車輛(AV)的初始速度從30km/h至55km/h之間隨機選取。建立只有AV的單車場景,然后用訓練好的DDPG算法為AV生成最佳行駛策略,同樣將NSGA-Ⅱ算法設(shè)置為對比組,對同一交叉口通行任務(wù)進行10次重復實驗,結(jié)果如圖9所示。結(jié)果顯示,NSGA-Ⅱ算法用于求解該問題時,每次實驗都需要重新探索最優(yōu)策略,因此在相同的車輛初始速度下,每次實驗的總獎勵都是完全不同的,而DDPG算法在同一初始速度下不需要重復探索最優(yōu)策略,性能更穩(wěn)定,因此DDPG算法的總獎勵平均值明顯高于NSGA-Ⅱ算法。值得一提的是,當初始速度超過50km/h時,發(fā)生碰撞的可能性大大增加,兩種算法的總獎勵平均值均下降。
圖9 DDPG和NSGA-Ⅱ算法穩(wěn)定性對比
通過對智能網(wǎng)聯(lián)汽車決策方法進行優(yōu)化設(shè)計使得車輛應對復雜交通場景可以更加靈活安全,對比多目標遺傳算法,可以減少交叉口的沖突,提高通行效率。但智能網(wǎng)聯(lián)車輛在城市交叉口的決策過程通常受“人—車—路(環(huán)境)”的影響,受限于篇幅,本研究未考慮行人,非機動車,道路結(jié)構(gòu)類型和交通流密度對車輛決策的影響。將來會研究和討論這些因素的影響,并考慮駕駛員與車輛之間的交互作用,以進一步改善真實道路下的智能車輛行為決策模型。