沈 悅,陳 璟,周子涵,楊 達
車聯(lián)網(wǎng)環(huán)境下自動駕駛車輛動態(tài)障礙物協(xié)作避讓模型
沈 悅,陳 璟,周子涵,楊 達
(西南交通大學,交通運輸與物流學院,成都 611756)
車路協(xié)同和車聯(lián)網(wǎng)的發(fā)展為車輛群體之間的協(xié)作控制提供了可能。本文關注的是在車聯(lián)網(wǎng)環(huán)境下,自動駕駛車輛群體避讓動態(tài)障礙物的問題,目標是實現(xiàn)在不損失車輛個體效益的同時,可以達到車輛群體系統(tǒng)最優(yōu)。本文提出了一種基于深度強化學習算法(DQN)的自動駕駛車輛群體協(xié)作避讓動態(tài)障礙物的模型。模型在學習過程中考慮了車輛的安全性、單個車輛和車輛群體的行駛效率,并加入了車輛的換道協(xié)作機制。仿真驗證結果表明,與現(xiàn)有的非協(xié)作避障模型相比,該模型可以顯著地提高整體交通效率,在非常擁堵、比較擁堵和自由流三種給定的不同交通流狀態(tài)下,車輛行駛效率(車輛平均速度)分別提高5.26%、21.44%、10.38%,整體車流量分別提高8.22%、34.47%、0%。
自動駕駛;決策;強化學習;車輛群體;避障;車聯(lián)網(wǎng)
近年來,自動駕駛技術進入了高速發(fā)展的時代,被認為是緩解交通擁堵、減少交通事故的重要技術。然而車輛在實際行駛過程中,不合理的避障行為會引發(fā)大量的交通事故,因此,自動駕駛車輛的避障決策問題成為自動駕駛領域研究的重點和熱點[1-3]。
隨著車路協(xié)同和車聯(lián)網(wǎng)的高速發(fā)展,使得車輛與車輛、車輛與道路之間可以進行實時通信,這為車輛群體之間的協(xié)作控制提供了可能。當?shù)缆飞洗嬖诼?散水車、工程車、注意力分散的駕駛員)動態(tài)障礙物時,引發(fā)交通延誤,影響交通效率。因此,在圖1所示典型避讓動態(tài)障礙物的場景示例時,在車輛網(wǎng)環(huán)境下,本文搭建了一個基于深度強化學習且在目標中考慮到交通延誤問題的自動駕駛車輛群體避讓動態(tài)障礙物的模型。在獎勵函數(shù)中引入群體效率,并通過強化學習對模型進行訓練,旨在解決自動駕駛車輛群體避讓動態(tài)障礙物對于車流的影響,即在不損失個體車輛效益的情況下,實現(xiàn)車輛群體系統(tǒng)最優(yōu),提高自動駕駛車輛群體的通行效率。
圖1 自動駕駛車輛群協(xié)作避障模型問題
目前自動駕駛車輛避障的方法包含人工勢場法[4-6]、快速搜索隨機樹法[7-10]、網(wǎng)格法[11, 12]、安全距離模型[13-15]、強化學習[16, 17]等?,F(xiàn)有的一些研究也提出了自動駕駛車輛群體協(xié)作的概念[18, 19],但沒有對動態(tài)障礙物前群體協(xié)作避障問題進行探討。同時,Piacentini等人[20]提出了調節(jié)車輛最大速度來調整交通流的車輛控制方法。?i?i?和Johansson[21]提出了控制交通瓶頸中的一輛自動駕駛車輛,以最小化被控車輛延誤和避免交通堵塞為目標的交通擁堵消散控制問題。Piacentini[22]等人通過研究降低移動瓶頸所在位置整體交通流的自由流速度來緩解移動瓶頸周圍的影響。?i?i?和Johansson[23]討論了利用可直接控制的一部分車輛來消除停行波的問題,積累一定的受控車輛,調節(jié)交通流大小。Liard[24]等人研究自動駕駛車輛通過移動流量約束作用于交通流,改善移動瓶頸。Liard等人[25]研究自動駕駛車輛通過移動流量約束作用于交通流,改善移動瓶頸。從以上的回顧可以看出,以上的研究均為通過對自動駕駛車輛限速和調節(jié)車流量來緩解移動瓶頸問題,與自動駕駛車輛群體協(xié)作避讓障礙物的研究有較大的差異。鑒于此,本文提出了基于深度強化學習[26]的車輛控制模型—— 在車聯(lián)網(wǎng)環(huán)境下引入?yún)f(xié)作策略以交通延誤最小為目標的自動駕駛車輛協(xié)作避讓動態(tài)障礙物模型(a Cooperative Obstacle-Avoidance Model, COV模型)。本文使用DQN算法(Deep Q Learning)建立協(xié)作避障模型,并在換道過程中還加入車輛間的協(xié)作換道。目標是為了實現(xiàn)在動態(tài)障礙物前方車輛群體在安全避障的同時,保證車輛群體的效益最優(yōu),不因為避障行為而引發(fā)不必要的交通沖突和擁堵。最后,本文利用SUMO對COV模型進行了仿真驗證,對比了COV模型和傳統(tǒng)避障模型的差別,以及不同參數(shù)對于COV模型的影響。
本文所提出的自動駕駛車輛群體協(xié)作避障模型主要由三部分組成:狀態(tài)信息、強化學習模塊和動作模塊,其結構如圖2所示。狀態(tài)信息為各個模塊之間的輸入信息,包含的內容有本車狀態(tài)信息、周圍車輛狀態(tài)信息、障礙物狀態(tài)信息、環(huán)境狀態(tài)信息。強化學習模塊根據(jù)當前的狀態(tài)信息輸出車輛的動作決策。本文基于DQN算法,假定獎勵函數(shù)包括三個方面:車輛的安全性、單車行駛效率和車輛群體行駛效率,以此為衡量標準來獲取車輛在環(huán)境中動作可以獲取的最大累計獎勵,通過接受環(huán)境對動作的獎勵(反饋)獲得學習信息并更新模型參數(shù),最后達到模型的獎勵收斂,實現(xiàn)模型在交通環(huán)境中的應用。在執(zhí)行層,動作模塊是對強化學習輸出的動作進行執(zhí)行,且加入了車輛換道的協(xié)作機制。其原理是,當強化學習模塊輸出的車輛動作為換道時,如若目標車道存在后車,則目標車道后車的跟馳對象變?yōu)楫斍皼Q策換道的自動駕駛車輛。且當動作模塊執(zhí)行換道動作時,目標車道后車立即改變跟馳對象為換道車輛,對換道車輛進行避讓,保證了換道動作的執(zhí)行。最后,根據(jù)SUMO中自帶的車輛跟馳和車輛換道模型計算出下一時刻車輛和障礙物的速度、位置和所在車道的狀態(tài)信息,從而更新狀態(tài)信息。
圖2 模型框架
在本文的研究中,在車聯(lián)網(wǎng)環(huán)境下自動駕駛車輛在做避障決策時與過去的狀態(tài)完全獨立,可以被看作馬爾可夫決策過程[27, 28],表示為:
式中,s表示在時間的狀態(tài)信息,包括狀態(tài)信息(速度、位置、所在車道、與前車距離、與相鄰車道前車距離、與相鄰車道后車距離、與障礙物的距離)、動態(tài)障礙物狀態(tài)信息(位置、所占用車道)、環(huán)境狀態(tài)信息(車道數(shù)量、車道寬度、車道限速);表示狀態(tài)空間(s∈);a表示在時間的動作,表示自動駕駛車輛的動作空間(a∈),車輛的動作空間包括跟馳和換道,其分別對應SUMO自帶的跟馳模型Car Following-Krauss[29, 30]、換道模型LC2013[31]。算法1總結了DQN算法的實現(xiàn)過程。
算法1:DQN算法 初始化容量為N的經(jīng)驗回放池D; 初始化動作值函數(shù)Q的隨機參數(shù); 初始化目標動作值函數(shù)的隨機參數(shù); for每個訓練周期執(zhí)行 初始化序列和預處理序列 for每個循環(huán)執(zhí)行 以概率選擇一個隨機動作 否則選擇 在執(zhí)行器中執(zhí)行動作,觀察獎勵值和新的場景 更新狀態(tài),并且預處理 在D中存儲 在D中存儲的樣本中提取隨機最小批量 設定 根據(jù)網(wǎng)絡參數(shù)在上執(zhí)行梯度下降步驟的方法; 每C步重新重置; end end
DQN通過計算動作值函數(shù)的值來確定損失值,其表示方法如下:
則Q網(wǎng)絡訓練的損失函數(shù)可以表示如下:
在本文的研究內容中,自動駕駛車輛群體在避讓動態(tài)障礙物時,獎勵函數(shù)追求的是車輛安全性、單車效益和車輛群體效益最大化[26],并為三個獎勵值設定了不同權重系數(shù)。
自動駕駛車輛獲取的獎勵值可以表示為:
式中,安全性獎勵、個體效益獎勵和車輛群體效益獎勵的權重系數(shù)分別為1、2和3,且1+2+3=1。
1.3.1 安全性效益
車輛的安全性效益分別從跟馳和換道兩種動作行為與周邊車輛的安全距離、道路限速考慮,并加入了影響車輛行駛的換道獎勵。
(1)跟馳行為安全性
① 安全距離
式中,x為自動駕駛車輛SV在當前車道上與前車PVt的距離;x為車輛SV與PVc的安全距離。
② 道路限速
(2)換道情況的安全性
① 與目標車道前車PVt的安全距離
式中,x為自動駕駛車輛SV與目標車道前車PVt的距離;為車輛SV與PVt的安全距離。
② 與目標車道后車LVt的安全距離
式中,x2為自動駕駛車輛SV與目標車道上后車LVt的距離;為車輛SV與LVt的安全距離。
③ 道路限速
(3)避障獎勵
(4)避障懲罰
因此,關于自動駕駛車輛在安全性相關的獎勵整體可表示為:
1.3.2 速度效益分析
車輛的速度效益主要從兩方面考慮,個體速度效益和群體速度效益。
(1)個體速度效益
式中,max為時刻車輛群體的最大速度;min為時刻車輛群體的最小速度。
(2)群體速度效益
本文利用SUMO進行仿真驗證,實際仿真場景如圖3所示,障礙物為淺(綠)色車輛(低速行駛的障礙物車輛),深(紅)色車輛為群體協(xié)作避障車輛,根據(jù)參考文獻[33-35],可以通過現(xiàn)有的互聯(lián)車輛技術實現(xiàn)1 000 m以內的可靠通信。本文設定的車輛群體范圍為動態(tài)障礙物前方700 m范圍內的所有車輛,車輛超過移動障礙物則不在我們考慮的車輛群體范圍內。當車輛行駛到道路盡頭時,超出系統(tǒng)的限制范圍,則刪除車輛,不在系統(tǒng)內顯示和控制車輛,并停止對該車輛的訓練。具體的仿真場景中設定的環(huán)境參數(shù)如表1所示,仿真場景示意如圖3所示。
表1 自動駕駛車輛環(huán)境參數(shù)
圖3 仿真場景示意圖
自動駕駛車輛群體協(xié)作避讓動態(tài)障礙物COV模型基于深度強化學習,通過訓練達到穩(wěn)定的效果。本文模型進行了2 500回合的訓練,利用1 000步來評估性能,DQN的學習率是0.001,衰減因子為0.9,探索率為0.9,最小探索率為0.02,探索率衰減值為0.005,其中經(jīng)驗內存重播樣本為2 000,模型更新頻率為100。圖4為每回合總獎勵值,表明1 500回合后獲得穩(wěn)定的群體控制策略。
圖4 強化學習訓練結果
本文在初始車輛的狀態(tài)信息(速度、位置和所在車道)相同的情況下,對比協(xié)作避障模型和非協(xié)作避障模型[36, 37]兩種不同決策方式的輸出結果。本文引用的傳統(tǒng)模型的動作空間為跟馳和換道,且其避障決策的依據(jù)僅為單車的安全性和速度。傳統(tǒng)避障算法的換道決策[38]如下所示:
式中,d、d,other、d,back分別表示第輛車與本車道緊鄰前車的間距、相鄰車道緊鄰前車的間距與相鄰車道緊鄰后車的間距;safe表示模型中設定安全換道間距;safe為道路限速,且safe=safe。如果自動駕駛車輛同時滿足公式(13)、(14)和(15)時,車輛產生換道動機,如果不同時滿足,則保持跟馳的狀態(tài)。
在COV模型中,訓練結果設定的獎勵函數(shù)的權重系數(shù)為1= 0.3,2= 0.2,3= 0.5。為了說明車輛群協(xié)作避障模型的效率,圖5為COV模型與傳統(tǒng)避障模型的車輛平均速度、車流量變化的對比情況。在本次的仿真驗證中,為了展示模型在不同交通情況下與傳統(tǒng)模型之間的對比,選取的車頭時距值分別為0.5 s、1 s和3 s,三種情況分別代表交通流擁堵、比較擁堵和自由流是那種情況進行仿真驗證,如圖5所示。
車頭時距為1 s和3 s時,動態(tài)障礙物的車速從1 m/s到10 m/s等間隔選取,車頭時距為0.5 s時,動態(tài)障礙物的車速從1 m/s到2 m/s等間隔選取。在三種車頭時距,障礙物速度不同的情況下,本文搭建的模型與傳統(tǒng)模型在速度和車流量上的平均提升率分別為5.26%、21.44%、10.38%和8.22%、34.47%、0%。從圖中可以明顯看出,在比較擁堵的時候模型的應用提升效果最好,當障礙物速度過低時,前方車輛群體的反應距離和車輛群體之間的協(xié)作時間都會減少。隨著障礙物速度的增加,改進效果變好,當障礙物車輛速度為4 m/s時達到最大值,當障礙物車速再增加時,其速度更接近于正常行駛車輛,COV模型相比于傳統(tǒng)模型的改進效果明顯減弱;當在擁堵的情況下,提升效果隨著障礙物速度的提高而提高;在自由流時,速度的提升效果隨著障礙物速度的降低而降低,當障礙物速度達到一定值后,接近于0,這是因為處于自由流的狀態(tài),車頭時距相同時,車流量兩種方法相同。
本文對不同動態(tài)障礙物速度進行了仿真,形成COV模型與傳統(tǒng)避障模型在車頭時距為1 s時軌跡圖,圖6中(a)(b)(c)為COV模型,(d)(e)(f)為傳統(tǒng)避障模型。障礙物速度分別為1 m/s、4 m/s和7 m/s。軌跡圖中藍色的顏色深淺代表車輛行駛的速度,紅色的點劃線為障礙物的軌跡線。從圖中可以看出,動態(tài)障礙物車輛速度為1 m/s時,傳統(tǒng)避障方式的障礙物車輛會影響前方車輛進入該路段,導致交通流明顯減少,協(xié)作避障的方式可以更好地使車輛通過換道的方式避開障礙物。當障礙物速度為4 m/s時,傳統(tǒng)避障模型車輛間的間距更大,障礙物前的變道行為影響車輛群體的車速和行車間距,導致車流量和車速明顯減小。當動態(tài)障礙物速度為7 m/s時,速度較高,對于前方車輛群體的影響降低,COV模型仍可以通過協(xié)作的方式,減少車輛之間無效的空隙,提高交通效率。
為了驗證本文搭建的自動駕駛車輛群體協(xié)作避讓動態(tài)障礙物在不同交通情況下的應用,本文選取車頭時距分別為0.5 s、1 s和3 s三種情況,驗證模型在擁堵、比較擁堵、自由流中的應用。如圖7、8、9所示,其中圖(a)為車輛平均速度和車流量隨著障礙物速度變化的情況,可以看出,當車頭時距相同時,車輛群體的平均速度和車流量隨著障礙物速度的增加而增加,且隨著車頭時距的增加,平均速度和車流量增加的斜率逐漸減小。車頭時距為1 s和3 s時,當障礙物速度較大時,其平均速度和車流量的變化十分緩慢,可以得出,當障礙物的速度接近于正常車輛時,對于車流的影響很小。同時,從三個圖(b)中可以看出,隨著車頭時距的減小,車流量逐漸增加,協(xié)作配合避開動態(tài)障礙物的車輛也增多。因此,本論文提出的模型適用于不同的交通流密度,在較小交通流密度的情況下,行車間隙更小,軌跡應用效果更為明顯。
圖7 車頭時距為3 s時
圖8 車頭時距為1s時
圖9 車頭時距為0.5 s時
本文搭建的車聯(lián)網(wǎng)環(huán)境下自動駕駛車輛群體協(xié)作避讓動態(tài)障礙物模型基于深度強化學習,在訓練過程中,考慮了車輛安全性、個體車輛速度效益和車輛群體速度效益,動作空間為跟馳、換道兩種行為決策,運動模塊執(zhí)行車輛的行為決策,并提出車輛之間協(xié)作換道的執(zhí)行模型。通過仿真驗證,可以得出結論:
(1)在交通環(huán)境中存在動態(tài)障礙物時,本文搭建的協(xié)作避讓動態(tài)障礙物模型比傳統(tǒng)避障模型在車輛行駛效率方面有明顯的提升,當車頭時距固定時,隨著障礙物速度的提高,對于傳統(tǒng)避障模型的提高效果呈現(xiàn)先增加再減少的趨勢。
(2)本文搭建的車輛群體協(xié)作避讓動態(tài)障礙物模型適用于不同車流密度,當車流量越低時,障礙物的速度變化對于車輛群體平均速度和車流量的影響程度越大,當障礙物車輛速度達到較高的值時,障礙物對于后方車輛群體的影響逐漸減小。
未來的研究工作包括兩個方面:一是可以針對不同動態(tài)障礙物的情況,擴展車輛群的避讓動態(tài)障礙物問題;二是除了本文使用的DQN算法,也可以嘗試其他方法來解決本文關注的問題。
[1] 胡曉偉, 石騰躍, 于璐, 等. 基于擴展技術接受度模型的共享自動駕駛汽車用戶使用意愿研究[J]. 交通運輸工程與信息學報, 2021, 19(3): 1-12.
[2] 齊航, 夏嘉祺, 王光超, 等. 考慮出行者習慣與利他性偏好的自動駕駛網(wǎng)約車使用意向模型[J]. 交通運輸工程與信息學報,2021, 19(2): 1-10.
[3] 徐永. 基于滿意度的多目標約束模糊控制規(guī)則庫的建立及應用[J]. 交通運輸工程與信息學報, 2013, 11(01): 74-78.
[4] ELMI Z, EFE M ?. Path planning using model predictive controller based on potential field for autonomous vehicles[C] // IEEE. Proceedings of the IECON 2018-44th Annual Conference of the IEEE Industrial Electronics Society. New York: IEEE, 2018.
[5] KATHIB O. Real-time obstacle avoidance for manipulatorsand mobile robots[C]//Proceedings 1985 IEEE International Conference on Robotics and Automation, St. Louis: IEEE, 1985: 500-505,doi: 10.1109/ROBOT.1985.1087247.
[6] 修彩靖, 郭繼瞬, 梁偉強. 自動駕駛避障策略研究; 2020中國汽車工程學會年會暨展覽會, 中國上海, 2020[C].
[7] LAVALLE S M. Rapidly-exploring random trees: a new tool for path planning[J]. Computer. Science Dept Oct. 1998.
[8] MA L, XUE J, KAWABATA K, et al. Efficient sampling-based motion planning for on-road autonomous driving[J].IEEE Transactions on Intelligent Transportation Systems, 2015, 16(4): 1961-76.
[9] 王道威, 朱明富, 劉慧. 動態(tài)步長的RRT路徑規(guī)劃算法[J]. 計算機技術與發(fā)展, 2016, 26(3): 105-107, 112.
[10] 宋曉琳, 周南, 黃正瑜, 等. 改進RRT在汽車避障局部路徑規(guī)劃中的應用[J]. 湖南大學學報(自然科學版), 2017, 44(4): 30-37.
[11] HART P E, NILSSON N J, RAPHAEL B. A formal basis for the heuristic determination of minimum cost paths[J]. IEEE transactions on Systems Science and Cybernetics, 1972, 4(2): 28-29.
[12] 馬靜, 王佳斌, 張雪. A*算法在無人車路徑規(guī)劃中的應用[J]. 計算機技術與發(fā)展, 2016, 26(11): 153-156.
[13] KOMETANI E, SASAKI T. A safety index for traffic with linear spacing[J]. Operations Research, 1959, 7(6): 704-720.
[14] LIAN Y, YUN Z, HU L, et al. Longitudinal collision avoidance control of electric vehicles based on a new safety distance model and constrained-regenerative-braking-strength-continuity braking force distribution strategy[J]. IEEE Transactions on Vehicular Technology, 2016, 65(6): 4079-4094.
[15] 曾德全, 余卓平, 張培志, 等. 三次B樣條曲線的無人車避障軌跡規(guī)劃[J]. 同濟大學學報(自然科學版), 2019, 47(S1): 159-163.
[16] BAKKER L. Multi-agent deep reinforcement learning for automated Highway driving[D]. Delft: Delft university of technology, 2019.
[17] 單麒源, 張智豪, 張耀心, 等. 基于SAC算法的礦山應急救援智能車快速避障控制[J]. 黑龍江科技大學學報, 2021, 31(1): 14-20.
[18] 姬浩, 徐寅峰, 蘇兵. 基于城市清潔車作業(yè)行為的移動瓶頸建模與仿真[J]. 系統(tǒng)工程學報, 2016, 31(5): 676-688.
[19] WU K, GULER S I. Estimating the impacts of transit signal priority on intersection operations: a moving bottleneck approach[J]. Transportation Research Part C: Emerging Technologies, 2019, 105(3): 46-58.
[20] 徐建閩, 楊招波, 馬瑩瑩. 面向移動瓶頸的高速公路流量控制模型研究[J]. 廣西師范大學學報(自然科學版), 2020, 38(3): 1-10.
[21] PIACENTINI G, GOATIN P, FERRARA A. Traffic control via moving bottleneck of coordinated vehicles[J]. IFAC-PapersOnLine, 2018, 51(9): 13-18.
[22] ?I?I? M, JOHANSSON K H. Traffic regulation via individually controlled automated vehicles: a cell transmission model approach[C]// IEEE. Proceedings of the 2018 21st International Conference on Intelligent Transportation Systems(ITSC), New York: IEEE, 2018.
[23] PIACENTINI G, FERRARA A, PAPAMICHAIL I, et al. Highway traffic control with moving bottlenecks of connected and automated vehicles for travel time reduction[C]// IEEE. Proceedings of the 2019 IEEE, 58th Conference on Decision and Control(CDC), New York: IEEE, 2019.
[24] ?I?I? M, JOHANSSON K H. Stop-and-go wave dissipation using accumulated controlled moving bottlenecks in multi-class ctm framework[C]// IEEE. Proceedings of the 2019 IEEE 58th Conference on Decision and Control(CDC), New York: IEEE, 2019.
[25] LIARD T, STERN R, LAURA M, et al. Optimal driving strategies for traffic control with autonomous vehicles[C]//The 21rst IFAC World Congress, 2020.
[26] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.
[27] SUTTON R S, BARTO A G. Introduction to reinforcement learning[M]. Cambridge: MIT Press, 1998.
[28] KOBER J, BAGNELL J A, PETERS J. Reinforcement learning in robotics: a survey[J]. The International Journal of Robotics Research, 2013, 32(11): 1238-1274.
[29] KRAU? S. Towards a unified view of microscopic trafficflow theories[J]. IFAC Proceedings Volumes, 1997, 30(8): 901-905.
[30] KRAU? S, WAGNER P, GAWRON C. Metastable states in a microscopic model of traffic flow[J]. Physical Review E, 1997, 55(5): 5597.
[31] ERDMANN J. SUMO’s lane-changing model[C]// BEHRISCH M, WEBER M. Modeling Mobility with Open Data, Spring International Publishing Switzerland, 2015: 105-123.
[32] GIPPS P G. Behavioral car-following model for computer simulation[J]. Transport Research. 1981, 15(2): 105-111.
[33] NAIK G, CHOUDHURY B, PARK J-M. IEEE 802. 11 bd & 5G NR V2X: Evolution of radio access technologies for V2X communications[J]. IEEE Access, 2019, 7(70169-84).
[34] ZHOU H, XU W, CHEN J, et al. Evolutionary V2X technologies toward the internet of vehicles: challenges and opportunities[J]. IEEE Proceedings of the IEEE, 2020, 108(2): 308-323.
[35] MISHRA P K, KUMAR A, PANDEY S, et al. Hybrid resource allocation scheme in multi-hop device-to-device communication for 5G networks[J]. Wireless Personal Communications, 2018, 103(3): 2553-2573.
[36] 付智俊, 郭啟翔, 何薇, 等. 基于前車意圖識別的自動駕駛車輛實時避障換道策略研究[J]. 汽車電器, 2020, (12): 1-7, 11.
[37] 彭濤, 劉興亮, 方銳, 等. 智能汽車高速換道避障安全車距仿真分析[J]. 汽車工程師, 2020(12): 36-41.
[38] RICKERT M, NAGEL K, SCHRECKENBERG M, et al. Two lane traffic simulations using cellular automata[J]. Physica A: Statistical Mechanics and its Applications, 1996, 231(4): 534-550.
Model for Cooperative Dynamic Obstacle Avoidance of Automated Vehicle Swarms in Connected Vehicles Environments
SHEN Yue, CHEN Jing, ZHOU Zi-han, YANG Da
(School of Transportation and Logistics, Southwest Jiaotong University, Chengdu 611756, China)
The rapid development of connected vehicle technology and vehicle infrastructure cooperative systems has provided the possibility of cooperative control of vehicle swarms to avoid obstacles. This study examines the problem of automated vehicle swarm avoidance of dynamic obstacles in connected vehicle environments. The goal is to achieve an optimal swarm system without losing individual vehicle benefits. This study proposes a cooperative dynamic obstacle avoidance model for the automated vehicle swarm based on deep reinforcement learning. The proposed model considers the efficiencies of both individual vehicle and the vehicle swarm in the learning process, and a cooperative lane-changing execution model is proposed to ensure optimal decision making. Simulations showed that this model can significantly improve the overall traffic efficiency as compared with existing non-cooperative obstacle avoidance models. Under three given traffic flow conditions, namely, very congested, comparatively congested, and free flow, the increases in vehicle efficiency (i. e., average vehicle speed) were 5.26%, 21.44%, and 10.38% respectively, and the increases in overall traffic flow were 8.22%, 34.47% and 0% respectively.
automated vehicles; decision-making; reinforcement learning; vehicle swarm; obstacle avoidance; connected vehicles environment
U491.2
A
10.19961/j.cnki.1672-4747.2021.04.025
1672-4747(2021)04-0013-11
2021-04-20
2021-05-19
2021-05-26
2021-04-20; 04-21~4-26; 05-14~05-16; 05-17~05-19
國家自然科學基金項目(52172333);中央高?;究蒲袠I(yè)務費(2682021ZTPY010)
沈悅(1993—),女,吉林人,研究方向為自動駕駛,E-mail:suvi_sy@163.com
楊達(1985—),男,山西人,副教授,研究方向為智能交通、自動駕駛,E-mail:yangd8@swjtu.edu.cn
沈悅,陳璟,周子涵,等. 車聯(lián)網(wǎng)環(huán)境下自動駕駛車輛動態(tài)障礙物協(xié)作避讓模型[J]. 交通運輸工程與信息學報,2021, 19(4): 13-23.
SHEN Yue, CHEN Jing, ZHOU Zi-han, et al, Model for Cooperative Dynamic Obstacle Avoidance of Automated Vehicle Swarms in Connected Vehicles Environments[J]. Journal of Transportation Engineering and Information, 2021, 19(4): 13-23.
(責任編輯:劉娉婷)