• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    不確定性環(huán)境下基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃研究

    2023-12-20 11:45:30張?zhí)K男劉博程
    關(guān)鍵詞:不確定性軌跡加速度

    胡 博,江 磊,宋 潔,袁 春,張?zhí)K男,劉博程

    (重慶理工大學(xué) 車輛工程學(xué)院 汽車零部件先進(jìn)制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 重慶 400054)

    0 引言

    自動(dòng)駕駛汽車技術(shù)的開發(fā)是一項(xiàng)重要工作,可以提高交通運(yùn)輸?shù)陌踩院蜋C(jī)動(dòng)性。目前,有許多商用的高級(jí)駕駛輔助系統(tǒng),如自適應(yīng)巡航、車道保持輔助等?,F(xiàn)在研究者逐步轉(zhuǎn)向開發(fā)更加高級(jí)別的自動(dòng)駕駛車輛,這些車輛可以在更加復(fù)雜的環(huán)境中執(zhí)行駕駛?cè)蝿?wù),如并線、十字路口、匝道合并和環(huán)島等。此類場景都有一個(gè)典型的特征:強(qiáng)交互性,更具體來說,由于不同支路上的多個(gè)交通參與者帶來了無數(shù)的交通狀況和復(fù)雜的交互,使得在此類場景中的研究具有一定的挑戰(zhàn)性。環(huán)島是交互場景中一個(gè)很好的例子[1],因此,在此場景中的自動(dòng)駕駛技術(shù)研究顯得尤為重要。

    目前,研究人員在自動(dòng)駕駛汽車技術(shù)上的開發(fā)大體分為3個(gè)模塊,包括感知、規(guī)劃和控制模塊[2]。本文中主要研究運(yùn)動(dòng)規(guī)劃層,在運(yùn)動(dòng)規(guī)劃領(lǐng)域,通常采用的方法大體上分為基于圖[3-4](例如A*算法、Dijkstra算法和快速隨機(jī)搜索樹算法[5-9])、基于優(yōu)化[10](例如模型預(yù)測控制、EM Planner)和基于學(xué)習(xí)算法[11](例如深度強(qiáng)化學(xué)習(xí)方法)。目前,許多研究者基于以上方法對(duì)運(yùn)動(dòng)規(guī)劃進(jìn)行了大量的研究,產(chǎn)生了許多投入產(chǎn)業(yè)化應(yīng)用的案例,并且取得了良好的效果。運(yùn)動(dòng)規(guī)劃模塊主要負(fù)責(zé)為智能車輛生成局部運(yùn)動(dòng)軌跡,是自動(dòng)駕駛技術(shù)中至關(guān)重要的一環(huán)。圖搜索的算法通常是將自動(dòng)駕駛車輛所處的環(huán)境通過離散化的方法轉(zhuǎn)化為一個(gè)圖,并通過一些啟發(fā)式的算法生成一條滿足條件的路徑曲線[12]。Dijkstra算法就是一種非常經(jīng)典的基于圖搜索的算法。Dijkstra的主要特點(diǎn)是以起始點(diǎn)為中心向外層層擴(kuò)散,直至擴(kuò)散到目標(biāo)點(diǎn)為止。它的優(yōu)點(diǎn)是每次總能找到最優(yōu)解,缺點(diǎn)是隨著圖的范圍的擴(kuò)大,計(jì)算效率發(fā)生顯著地下降。A*算法則是一種啟發(fā)式的算法,它改善了Dijkstra的缺點(diǎn),提高了算法的搜索效率。Hybrid A*因其考慮了運(yùn)動(dòng)學(xué)的約束問題,可以直接生成可行駛的路徑,在智能車輛中被廣泛應(yīng)用。其他的圖搜索算法大多是以上算法的改進(jìn)或者變種[13-14]?;趦?yōu)化方法的核心問題在于構(gòu)建目標(biāo)函數(shù)和約束,函數(shù)的優(yōu)化在每個(gè)運(yùn)動(dòng)狀態(tài)都需要花費(fèi)算力資源[15]?;趦?yōu)化的方法需要在線優(yōu)化,在考慮障礙物過多的情況下,使求解空間呈現(xiàn)高度的非凸性,在考慮成本的情況下,這可能會(huì)成為實(shí)時(shí)應(yīng)用的巨大障礙[16]。近年來,基于學(xué)習(xí)的智能車輛運(yùn)動(dòng)規(guī)劃方法(如深度強(qiáng)化學(xué)習(xí))已被廣泛采用[17]。與上述基于優(yōu)化的方法相比,深度強(qiáng)化學(xué)習(xí)方法控制動(dòng)作的輸出只需少量的神經(jīng)網(wǎng)絡(luò)傳播時(shí)間,顯著地提高了計(jì)算效率[18]。一些研究試圖通過經(jīng)典強(qiáng)化學(xué)習(xí)來解決自動(dòng)駕駛問題,目前,強(qiáng)化學(xué)習(xí)大多應(yīng)用在從感知到控制或者規(guī)劃到控制這樣的端對(duì)端自動(dòng)駕駛?cè)蝿?wù)中。由于端對(duì)端的自動(dòng)駕駛不需要人為指定規(guī)則,且智能體通過和環(huán)境進(jìn)行交互學(xué)習(xí)駕駛策略與人類學(xué)習(xí)駕駛的方式十分相似,所以端對(duì)端的方法成為自動(dòng)駕駛領(lǐng)域的一個(gè)重要研究方向。

    在復(fù)雜環(huán)境中,車輛對(duì)動(dòng)態(tài)障礙物行為意圖的理解是十分重要的。在簡單環(huán)境或模擬環(huán)境中,自動(dòng)駕駛系統(tǒng)可以對(duì)其行為進(jìn)行簡單建模,對(duì)障礙物的未來軌跡進(jìn)行預(yù)測,通過預(yù)測軌跡對(duì)運(yùn)動(dòng)規(guī)劃系統(tǒng)生成的軌跡進(jìn)行評(píng)估,防止其與之發(fā)生碰撞。但是在自動(dòng)駕駛這樣的復(fù)雜環(huán)境中,交通參與者行為意圖的模型不能簡單的進(jìn)行建模,簡單模型無法準(zhǔn)確表達(dá)環(huán)境中的不確定性。因此,如何表達(dá)駕駛環(huán)境中的不確定性以及如何處理這些不確定性是目前自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃研究中亟待解決的問題。百度Apollo公司提出的EM Planner規(guī)劃方法采用了三維解耦的的運(yùn)動(dòng)規(guī)劃思想證明了在存在動(dòng)態(tài)障礙物的場景中進(jìn)行橫向的路徑規(guī)劃和縱向規(guī)劃可以代替同時(shí)處理多個(gè)維度的軌跡規(guī)劃。在這種思想下,縱向的速度規(guī)劃成為了動(dòng)態(tài)障礙物不確定性環(huán)境中需要解決的重要問題之一。例如使用深度強(qiáng)化學(xué)習(xí)在十字路口[19-20]、高速路口匝道合流[21-26]和環(huán)島[27]等場景。目前,基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃方法由于其較高的計(jì)算效率已被廣泛應(yīng)用到自動(dòng)駕駛行業(yè)。然而,當(dāng)前的方法大多是基于仿真模型來學(xué)習(xí)其駕駛策略,基于神經(jīng)網(wǎng)絡(luò)的駕駛策略往往對(duì)未知場景的預(yù)測過于自信,這就導(dǎo)致了不安全等問題。為了避免這一問題,需要結(jié)合基于規(guī)則的方法對(duì)駕駛策略的規(guī)劃結(jié)果進(jìn)行進(jìn)一步修正。許多研究人員設(shè)計(jì)了安全規(guī)則對(duì)運(yùn)動(dòng)規(guī)劃系統(tǒng)的安全性進(jìn)行冗余。Yang等[19-20]通過設(shè)置基于規(guī)則的過濾層對(duì)策略的不安全動(dòng)作進(jìn)行修正,最終在安全性指標(biāo)上取得了不錯(cuò)的效果。Lubars等[28]通過結(jié)合模型預(yù)測控制和強(qiáng)化學(xué)習(xí)的方法顯著地提高了運(yùn)動(dòng)規(guī)劃系統(tǒng)的安全性。

    綜上所述,目前自動(dòng)駕駛汽車的運(yùn)動(dòng)規(guī)劃研究方法也面臨著一些問題:1)在有限成本下,基于優(yōu)化的方法在強(qiáng)交互場景中存在計(jì)算效率低的問題;2)在復(fù)雜環(huán)境中,如何表達(dá)駕駛環(huán)境中的不確定性以及如何處理這些不確定性以及基于深度強(qiáng)化學(xué)習(xí)方法基于不確定性模型訓(xùn)練而得的駕駛策略不能嚴(yán)格滿足安全性的問題。本文中提出一種基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃方法,通過考慮周車的不確定性區(qū)域生成未來時(shí)域內(nèi)的車輛可達(dá)到狀態(tài)集,并通過設(shè)計(jì)基于規(guī)則的安全層,生成滿足給定動(dòng)力學(xué)約束、障礙物空間約束和強(qiáng)化學(xué)習(xí)優(yōu)化輸出約束下的修正軌跡,與傳統(tǒng)基于優(yōu)化的規(guī)劃方法相比,軌跡生成策略可以進(jìn)行離線訓(xùn)練和在線部署,解決了基線方法在線計(jì)算效率低的問題。同時(shí),通過構(gòu)建考慮不確定性的馬爾科夫決策過程表征不確定環(huán)境模型,隨后結(jié)合基于規(guī)則的方法作為考慮安全性的冗余操作,提高運(yùn)動(dòng)規(guī)劃系統(tǒng)的安全性。最后,通過搭建仿真平臺(tái)訓(xùn)練智能體,從安全性、通行效率、舒適性和計(jì)算效率等多個(gè)方面分析了方法的有效性。

    1 不確定環(huán)境下運(yùn)動(dòng)過程的構(gòu)建

    馬爾科夫決策過程(markov decision process,MDP)是1個(gè)典型的表示決策過程的模型[29],如圖1所示。其決策過程可以表示為〈S,A,T,R〉,其中S和A分別為狀態(tài)和動(dòng)作的集合,T為狀態(tài)轉(zhuǎn)移模型,R為構(gòu)建的獎(jiǎng)勵(lì)函數(shù)。整個(gè)決策過程就是t時(shí)刻狀態(tài)為St的智能體執(zhí)行動(dòng)作At,進(jìn)入下一時(shí)刻的狀態(tài),下一時(shí)刻的狀態(tài)由當(dāng)前狀態(tài)以及當(dāng)前采取的動(dòng)作決定,是一個(gè)隨機(jī)變量。

    圖1 馬爾科夫決策過程MDP示意圖

    對(duì)于自動(dòng)駕駛系統(tǒng),MDP中的狀態(tài)可以表示為智能車輛所處駕駛環(huán)境中每個(gè)時(shí)刻的表示,動(dòng)作為車輛中可被賦予的1個(gè)屬性,狀態(tài)轉(zhuǎn)移模型為環(huán)境中自我車輛與周圍車輛的運(yùn)動(dòng)模型,回報(bào)為針對(duì)駕駛環(huán)境而構(gòu)建的獎(jiǎng)勵(lì)函數(shù)。在自動(dòng)駕駛環(huán)境中,由于環(huán)境和傳感器誤差的限制,系統(tǒng)無法準(zhǔn)確知道周圍環(huán)境的狀態(tài),因此無法構(gòu)建一個(gè)精確的狀態(tài)轉(zhuǎn)移模型,此時(shí)構(gòu)建的狀態(tài)轉(zhuǎn)移模型需要考慮傳感器誤差的不確定性帶來的問題,在實(shí)際駕駛中,傳感器的狀態(tài)感知總是存在一定的誤差的,這造成了獲得的策略輸出可能不是最優(yōu)的,甚至是不安全的。為彌補(bǔ)這一差異,必須考慮這一不確定性。由于明確知道駕駛車輛的模型信息,因此自車的模型是1個(gè)確定性的模型。為了規(guī)劃自車在預(yù)測時(shí)域內(nèi)的軌跡,使用了如式(1)的確定性車輛縱向運(yùn)動(dòng)學(xué)模型,推出給定的強(qiáng)化學(xué)習(xí)策略的規(guī)劃解。值得注意的是,與預(yù)測周車的交通行為不同,通過結(jié)合運(yùn)動(dòng)學(xué)模型以及基于深度強(qiáng)化學(xué)習(xí)的方案,可以得到一個(gè)合理且確定的規(guī)劃結(jié)果。由于周圍車輛的不確定性有著來自駕駛?cè)藛T意圖的不確定性和自車傳感器誤差帶來的不確定性。因此,建立了考慮不確定性的交通流預(yù)測模型。智能駕駛員模型(IDM)被廣泛應(yīng)用于周車智能駕駛預(yù)測模型,并且能用統(tǒng)一的模型描述從自由流到完全擁堵流的不同狀態(tài)。使用智能駕駛員模型(IDM)作為交通流車輛的狀態(tài)轉(zhuǎn)移模型。為使所建模型能夠在微觀水平上與IDM盡量保持一致,使用IDM模型的運(yùn)動(dòng)表達(dá)式:

    (1)

    式中:dt為采樣周期;si、vi、ai和ji分別為在預(yù)測時(shí)域內(nèi)第i點(diǎn)車輛的縱向位移、速度、加速度和加加速度。

    (2)

    (3)

    為考慮傳感器帶來的數(shù)據(jù)誤差,我們考慮了加速度噪聲,不同車用測速雷達(dá)的測速誤差會(huì)影響策略性能,如式(4)所示。

    v′=v+σvel

    (4)

    式中:σvel為傳感器的測速誤差。

    2 深度強(qiáng)化學(xué)習(xí)

    2.1 強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是一類機(jī)器學(xué)習(xí)方法,借鑒于行為主義心理學(xué),強(qiáng)化學(xué)習(xí)算法要解決的問題是智能體在環(huán)境中如何執(zhí)行動(dòng)作以獲得最大的累計(jì)獎(jiǎng)勵(lì)。

    強(qiáng)化學(xué)習(xí)問題可以抽象成馬爾科夫決策過程(Markov Decision Process),馬爾科夫決策過程可以表示為

    {S,A,P,R,γ}

    (5)

    式中:S和A分別為狀態(tài)和動(dòng)作的集合;R為獎(jiǎng)勵(lì)函數(shù);γ為折扣因子。強(qiáng)化學(xué)習(xí)示意圖如圖2所示。假設(shè)t時(shí)刻狀態(tài)為st,智能體執(zhí)行動(dòng)作at,進(jìn)入下一時(shí)刻的狀態(tài)st+1,下一時(shí)刻的狀態(tài)由當(dāng)前狀態(tài)以及當(dāng)前采取的動(dòng)作決定,是一個(gè)隨機(jī)變量,狀態(tài)轉(zhuǎn)移概率如下:

    pa(s,s′)=p(st+1=s|st=s,at=a)

    (6)

    式中:pa為當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作a,下一時(shí)刻進(jìn)入狀態(tài)s′的條件概率,強(qiáng)化學(xué)習(xí)問題的核心是執(zhí)行動(dòng)作a的策略,它可以抽象成一個(gè)函數(shù)π,定義了每種狀態(tài)時(shí)選擇的動(dòng)作。這個(gè)函數(shù)定義了在狀態(tài)s所選擇的動(dòng)作為:

    π(a|s)=p(a|s)

    (7)

    圖2 強(qiáng)化學(xué)習(xí)示意圖

    2.2 深度強(qiáng)化學(xué)習(xí)

    深度強(qiáng)化學(xué)習(xí)方法是在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上結(jié)合深度學(xué)習(xí)而生成的一種更貼近人類思維方式的方法。DDPG (deep deterministic policy gradient)是應(yīng)用最為廣泛的深度強(qiáng)化學(xué)習(xí)算法之一。如圖3所示,基于Actor-Critic(AC)框架的DDPG算法,通過神經(jīng)網(wǎng)絡(luò)逼近價(jià)值函數(shù)和策略函數(shù),網(wǎng)絡(luò)通過梯度下降的方式進(jìn)行更新。θQ、θμ分別是策略網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)的權(quán)重。同時(shí)DDPG在DQN(deep Q-learning)的基礎(chǔ)上進(jìn)行了改進(jìn),結(jié)合了DQN以及DPG(deterministic polic gradient)的優(yōu)點(diǎn),包括雙網(wǎng)絡(luò)、構(gòu)建經(jīng)驗(yàn)回放池等。DDPG有2個(gè)網(wǎng)絡(luò),即演員網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò),2個(gè)網(wǎng)絡(luò)分別負(fù)責(zé)策略網(wǎng)絡(luò)參數(shù)的迭代更新和價(jià)值網(wǎng)絡(luò)參數(shù)的迭代更新[30]。由于自動(dòng)駕駛車輛通常有一個(gè)連續(xù)的狀態(tài)空間和動(dòng)作空間,而DDPG算法在連續(xù)空間中擁有一個(gè)良好的表現(xiàn)。因此,本文中使用DDPG算法作為基礎(chǔ)的強(qiáng)化學(xué)習(xí)模型。

    圖3 DDPG算法框圖

    3 基于DDPG算法的運(yùn)動(dòng)規(guī)劃策略框架

    為解決基于深度強(qiáng)化學(xué)習(xí)的方法在復(fù)雜環(huán)境中如何表達(dá)駕駛環(huán)境中的不確定性以及如何處理這些不確定性問題,提出了一種基于DDPG的運(yùn)動(dòng)規(guī)劃方法。

    圖4首先展示了這項(xiàng)工作的基礎(chǔ)深度強(qiáng)化學(xué)習(xí)框架,并在圖5所示的場景中完成駕駛策略的訓(xùn)練。通過結(jié)合本文中提出的車輛運(yùn)動(dòng)學(xué)模型推導(dǎo)軌跡規(guī)劃結(jié)果,得出規(guī)劃軌跡在未來一定時(shí)間段內(nèi)的可視化結(jié)果。其次,考慮由于真實(shí)信息和傳感器信息的差異,采用不確定性區(qū)間預(yù)測進(jìn)行近似最優(yōu)控制,在此基礎(chǔ)上,設(shè)計(jì)了一個(gè)基于規(guī)則的安全層,該安全層旨在保證不確定區(qū)域內(nèi)的交通信息的最壞情況下的安全性。安全層考慮了車輛的動(dòng)力性、安全性和最優(yōu)性約束。最后,通過搭建環(huán)島場景中不同密度下的交通流模型來評(píng)估駕駛策略的各種性能指標(biāo)。

    圖4 單車道環(huán)島場景示意圖

    圖5 基于強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃算法場景示意圖

    3.1 強(qiáng)化學(xué)習(xí)要素定義

    狀態(tài):所構(gòu)建的強(qiáng)化學(xué)習(xí)框架的環(huán)境狀態(tài)包括2種車輛的狀態(tài):完成環(huán)島任務(wù)的目標(biāo)車輛(e)及其由完美傳感器輸出的2個(gè)前方(f1,f2)和2個(gè)后方(b1,b2)的車輛信息。目標(biāo)車輛的狀態(tài)信息包括位置、速度和加速度。前車和后車的狀態(tài)包括位置(sf1,sf2,sb1,sb2)以及速度(vf1,vf2,vb1,vb2),所以,環(huán)境狀態(tài)空間可以表示為

    s=(se,ve,ae,sf1,sf2,sb1,sb2,

    vf1,vf2,vb1,vb2)

    動(dòng)作:強(qiáng)化學(xué)習(xí)框架的動(dòng)作是完成環(huán)島任務(wù)車輛的加加速度值,加加速度值是加速度的導(dǎo)數(shù),通常用來表示車輛的舒適性指標(biāo)。目標(biāo)車輛的加加速度值輸出在[-3.0,3.0]m/s3,這與道路車輛正常加加速度范圍值相同[27]。

    獎(jiǎng)勵(lì)函數(shù):在離線訓(xùn)練的過程中,訓(xùn)練神經(jīng)網(wǎng)絡(luò)是將駕駛經(jīng)驗(yàn)從一種形式轉(zhuǎn)移到另一種形式的過程,即把預(yù)期的行為轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置,強(qiáng)化學(xué)習(xí)算法使智能體獲得的累計(jì)回報(bào)最大化。因此,設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)必須能很好地代表預(yù)期行為。此次獎(jiǎng)勵(lì)函數(shù)分為3個(gè)部分:碰撞、任務(wù)完成、任務(wù)進(jìn)行中。對(duì)于環(huán)島任務(wù),智能體的第一目標(biāo)就是能夠無碰撞地到達(dá)目標(biāo)點(diǎn),此時(shí)給予智能體一個(gè)較大的獎(jiǎng)勵(lì),保證獎(jiǎng)勵(lì)數(shù)值不會(huì)被其他部分所覆蓋,同時(shí)給智能體在發(fā)生碰撞時(shí)一個(gè)較大的負(fù)獎(jiǎng)勵(lì),防止智能體與其他動(dòng)態(tài)障礙物發(fā)生碰撞,確保安全性。在智能體的運(yùn)行過程中,設(shè)置舒適性獎(jiǎng)勵(lì)、時(shí)間花費(fèi)獎(jiǎng)勵(lì)等,針對(duì)當(dāng)前環(huán)島場景所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)方程具體的實(shí)現(xiàn)方式可表示為

    r(x,u)=ω1s(x,u)-ω2-ω3u2

    (8)

    式中:ω1、ω2、ω3為智能體在探索過程中回合成功/失敗、通行效率和舒適性指標(biāo)加加速度指數(shù)的可調(diào)權(quán)重,s(x,u)表示該回合的成功,回合成功時(shí)取值20,回合失敗時(shí)取值-20。動(dòng)作u是目標(biāo)車輛在每一個(gè)仿真步長中加加速度值。在滿足無碰撞到達(dá)目標(biāo)點(diǎn)的前提下,通過給予智能體加加速度的獎(jiǎng)勵(lì),盡可能滿足車輛的舒適性指標(biāo)。約束速度盡可能在期望速度之間,同時(shí)使加速度和加加速度的值盡可能地小。在測試過程中,發(fā)現(xiàn)智能體存在停止不動(dòng)的情況,來獲取更多的累計(jì)回報(bào),為防止此類情況的發(fā)生,通過設(shè)置可調(diào)整的時(shí)間花費(fèi)懲罰權(quán)重ω2來懲罰此類行為。

    3.2 安全層修正框架

    在學(xué)習(xí)過程中,我們期望能夠?qū)W到最優(yōu)策略,最優(yōu)策略能夠在當(dāng)前狀態(tài)下的動(dòng)作空間輸出最優(yōu)動(dòng)作,生成最優(yōu)軌跡。不幸的是,在理論和實(shí)踐過程中,我們發(fā)現(xiàn)很難獲得這樣的最優(yōu)策略。因?yàn)轳{駛場景的狀態(tài)空間是連續(xù)的,自動(dòng)駕駛問題轉(zhuǎn)換為強(qiáng)化學(xué)習(xí)過程中,通過構(gòu)建等效問題來求解策略,這就意味著無法考慮到無限的狀態(tài)和約束;其次,模型的精確性也會(huì)直接影響規(guī)劃結(jié)果,從而導(dǎo)致了無法在全局保證安全性。本文所提出的解耦端對(duì)端的方法,能夠輸出規(guī)劃軌跡,為了確保規(guī)劃結(jié)果的安全性能,我們?cè)O(shè)計(jì)了一種安全規(guī)則軌跡優(yōu)化方法。

    1) 優(yōu)化規(guī)則:該優(yōu)化方法的目標(biāo)是在安全性行駛空間中找到與滿足效率和舒適性的強(qiáng)化學(xué)習(xí)方法目標(biāo)點(diǎn)最近的目標(biāo)位置。

    (9)

    ssafety={s′f∣s∩sf}∩{s′a∣s∩sa}

    (10)

    式中:s′f為滿足與他車保持安全距離的可行駛空間;s′a為滿足車輛動(dòng)力學(xué)約束下的可行駛空間。

    2) 算法的在線部署:得到離線訓(xùn)練的策略后,結(jié)合車輛縱向運(yùn)動(dòng)學(xué)模型,生成車輛未來時(shí)域下的軌跡點(diǎn),發(fā)現(xiàn)不安全的軌跡點(diǎn)后,使用上述優(yōu)化規(guī)則對(duì)前面5個(gè)時(shí)間步長的軌跡點(diǎn)進(jìn)行規(guī)則矯正,提高軌跡輸出的安全性,如算法1所示。

    算法1:在線部署-矯正不安全軌跡

    輸入:未來5 s的規(guī)劃軌跡。

    輸出:未來5 s的安全規(guī)劃軌跡。

    fori=1,50 do

    ui-1=π(xi-1,xj-1)

    ui=π(xi,xj)

    for eachsi∣t?ssafety

    end

    4 實(shí)驗(yàn)結(jié)果和分析

    4.1 DDPG算法訓(xùn)練結(jié)果分析

    使用自動(dòng)駕駛仿真模擬器SUMO模擬真實(shí)環(huán)島工況,使用DDPG算法對(duì)駕駛行為進(jìn)行訓(xùn)練,同時(shí)搭建如表1所示的不同密度下的交通流模型,并在不同模型中完成訓(xùn)練和測試(中等密度訓(xùn)練)。

    表1 不同密度的交通流模型

    通過離線訓(xùn)練的方式學(xué)習(xí)當(dāng)前設(shè)置的獎(jiǎng)勵(lì)函數(shù)下的行駛策略,為驗(yàn)證離線訓(xùn)練算法的有效性,以本文搭建的仿真環(huán)境為實(shí)驗(yàn)平臺(tái)對(duì)離線訓(xùn)練算法進(jìn)行訓(xùn)練,選擇智能體在一個(gè)訓(xùn)練周期內(nèi)獲得的平均獎(jiǎng)勵(lì)值作為評(píng)估指標(biāo)。通過圖6可以看出,整個(gè)訓(xùn)練過程中,當(dāng)前任務(wù)的獎(jiǎng)勵(lì)累積都呈上升的趨勢且在后面都趨于一個(gè)定值,證明了所提出的基于深度強(qiáng)化學(xué)習(xí)方法的有效性。此外收斂速度、不同隨機(jī)種子之間的差異以及最終性能隨交通工況的不同而不同,原因在于,在不同交通任務(wù)中與自車具有潛在沖突的動(dòng)態(tài)障礙物是不同的,從而導(dǎo)致了訓(xùn)練難度之間的差異。本文所有仿真任務(wù)均在2.5 GHz 英特爾i7-8700處理器進(jìn)行離線訓(xùn)練及在線部署仿真。DDPG算法的參數(shù)設(shè)置如表2所示。

    表2 DDPG算法的參數(shù)設(shè)置

    圖6 DDPG算法學(xué)習(xí)曲線

    4.2 基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃結(jié)果

    在中等密度場景中,完成基于DDPG算法的駕駛策略的訓(xùn)練,獲得離線策略。通過將離線策略在線部署,生成高密度和中等密度下的運(yùn)動(dòng)規(guī)劃軌跡。圖7顯示了使用增加傳感器帶來的速度噪聲的不確定性感知模型的自車和交通流車輛在預(yù)測時(shí)域內(nèi)的可視化軌跡,圖中的陰影區(qū)域表示通過設(shè)置傳感器測速誤差帶來的模型不確定性得到的車輛可能的行駛軌跡。本文中考慮了雷達(dá)所帶來的測速誤差,測速精度為±1.5 km/h,此精度為型號(hào)BGT24ATR12D的測速雷達(dá),此型號(hào)的雷達(dá)廣泛應(yīng)用在自動(dòng)駕駛解決方案中,不同傳感器的測速精度有所不同,本文的解決方案是一種考慮誤差下的通用解決方案。

    圖7 目標(biāo)車輛和周圍交通流車輛的預(yù)測軌跡可視化曲線

    在高等和低等密度下的交通流模型的訓(xùn)練測試中,圖7(a)和(b)顯示在一個(gè)任務(wù)回合過程中的5 s和10 s的規(guī)劃軌跡可視化結(jié)果,所學(xué)習(xí)到的策略并沒有表現(xiàn)出不安全的行為,這證明了DDPG算法所訓(xùn)練的駕駛策略的有效性,并表明了深度強(qiáng)化學(xué)習(xí)在一定程度上能夠獲得預(yù)期安全駕駛行為。圖7(c)和(d)顯示在一個(gè)任務(wù)回合過程中的15 s和20 s的規(guī)劃軌跡可視化結(jié)果??梢钥闯?自車和交通參與者在預(yù)測時(shí)域內(nèi),可能發(fā)生不安全的駕駛行為。這不代表在實(shí)際中一定會(huì)發(fā)生碰撞,而是所訓(xùn)練的駕駛策略和車輛的運(yùn)動(dòng)學(xué)的規(guī)劃結(jié)果,通過對(duì)未來結(jié)果的可視化,我們可以結(jié)合基于規(guī)則的安全層,對(duì)不安全的行為進(jìn)行在線優(yōu)化,來彌補(bǔ)傳感器誤差等帶來的策略性能的下降。本文中的安全層主要考慮了3個(gè)方面的性能考慮,即車輛動(dòng)力學(xué)限制、安全性和強(qiáng)化學(xué)習(xí)優(yōu)化結(jié)果(盡可能貼近訓(xùn)練結(jié)果)。從圖7(c)和(d)可以看出,通過考慮安全層的在線優(yōu)化后,原有軌跡大部分保持不變,不安全的區(qū)域被修改。

    4.3 不同方法結(jié)果對(duì)比分析

    將本文所提出的方法與今經(jīng)典基于優(yōu)化(動(dòng)態(tài)規(guī)劃+二次規(guī)劃)和端對(duì)端的強(qiáng)化學(xué)習(xí)方法(DDPG)進(jìn)行比較,主要衡量以下4個(gè)指標(biāo):

    1) 舒適性。通過計(jì)算所有評(píng)估回合合并車輛(控制車輛)的加速度的導(dǎo)數(shù)(加加速度)平均值來衡量舒適性, 加加速度通常用來衡量車輛舒適性,加加速度值越大,舒適性越差,加加速度值越小,舒適性越好。

    2) 安全性。安全性通常由任務(wù)過程中的碰撞率來衡量,碰撞率越高則代表安全性越差。

    3) 通行效率。通行效率是指合并車輛完成合并任務(wù)的平均通行時(shí)間。

    4) 在線計(jì)算效率。在線計(jì)算效率是指算法1個(gè)周期所花費(fèi)的計(jì)算時(shí)間。

    表3顯示了經(jīng)典基于優(yōu)化的動(dòng)態(tài)規(guī)劃加二次規(guī)劃的方法(DP+QP)、基于強(qiáng)化學(xué)習(xí)的端對(duì)端方法(DDPG)和本文所提出的方法在低密度的交通流模型中進(jìn)行測試的結(jié)果??梢钥闯?DDPG的方法的合并時(shí)間最短且加加速度值最小,這是由于DDPG方法設(shè)置的獎(jiǎng)勵(lì)函數(shù)考慮了車輛的通行效率和舒適性。但是其安全性卻是3種方法中最低的。這是由于,通過設(shè)置考慮多種性能指標(biāo)的獎(jiǎng)勵(lì)函數(shù)無法設(shè)置硬約束來滿足安全性能,這是使用基于強(qiáng)化學(xué)習(xí)的方法應(yīng)用在自動(dòng)駕駛技術(shù)的開發(fā)上的一個(gè)普遍存在的問題,此類端對(duì)端的研究方法不能嚴(yán)格滿足安全性。我們所提出的方法通過結(jié)合基于規(guī)則的方法著重考慮了安全性問題,由仿真結(jié)果可以得知,我們的方法在通行效率和舒適性指標(biāo)上能夠達(dá)到基于優(yōu)化方法的表現(xiàn),且也能夠獲得一個(gè)零碰撞率,從而嚴(yán)格保證安全性。

    表3 3種方法在低密度下的性能參數(shù)

    表4和表5顯示了3種方法在中等和高等密度下的具體表現(xiàn),總體趨勢與表3相似,但是由于交通密度的增加,3種方法的性能均有所下降,這是一個(gè)正常的表現(xiàn)。我們的方法在不同交通密度下均能保持一個(gè)零碰撞率,這是我們提出基于規(guī)則的安全層修正的結(jié)果。所提出的方法能夠在嚴(yán)格滿足安全性的同時(shí),在舒適性和通行效率上具有一個(gè)良好的表現(xiàn)。

    表4 3種方法在中等密度下的性能參數(shù)

    表5 3種方法在高密度下的性能參數(shù)

    如圖8所示,傳統(tǒng)基于優(yōu)化的動(dòng)態(tài)規(guī)劃和二次規(guī)劃的方法1個(gè)規(guī)劃周期的在線計(jì)算時(shí)間大概在100 ms,而本文所提出的方法在線計(jì)算時(shí)間能夠在10 ms以內(nèi),降低了1個(gè)數(shù)量級(jí)。這是因?yàn)楸疚闹兴岢龅姆椒▽⒋蟛糠衷诰€計(jì)算的壓力轉(zhuǎn)移到了離線端。在工業(yè)應(yīng)用中,當(dāng)車端算力有限時(shí),本文所提出的方法可能會(huì)成為一個(gè)比較理想的解決方法。

    圖8 2種方法的在線計(jì)算時(shí)間曲線

    5 結(jié)論

    1) 所提出的方法基于深度強(qiáng)化學(xué)習(xí)解決了含有大量約束的自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃問題。所提出的方法與基于在線優(yōu)化的傳統(tǒng)算法相比,降低了車輛與環(huán)境大量交互而產(chǎn)生的對(duì)車端硬件設(shè)備的算力需求。

    2) 該方法明確考慮了智能車輛傳感器誤差帶來的不確定性,建立了基于學(xué)習(xí)方法的運(yùn)動(dòng)規(guī)劃系統(tǒng)基本框架,并基于馬爾科夫決策過程構(gòu)建了一個(gè)模型來表征具有不確定性的駕駛環(huán)境。

    3) 結(jié)合基于規(guī)則的方法設(shè)置安全層,對(duì)軌跡結(jié)果進(jìn)行評(píng)估的同時(shí)能夠進(jìn)行在線動(dòng)作修正。增加1層安全防護(hù),使結(jié)果更加魯棒可靠。

    4) 通過構(gòu)建仿真框架對(duì)所提出的方法在不同交通密度下進(jìn)行了廣泛的評(píng)估,驗(yàn)證該方法在安全性、舒適性和在線計(jì)算效率等方面的性能。

    5) 本文提出的基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃方法在自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃領(lǐng)域中具有應(yīng)用價(jià)值。目前的研究僅集中在車輛的縱向規(guī)劃中,后續(xù)研究可以考慮車輛的橫縱向運(yùn)動(dòng)規(guī)劃,考慮更加優(yōu)秀的區(qū)間預(yù)測器,使不確定性預(yù)測區(qū)間不至于過度保守。

    猜你喜歡
    不確定性軌跡加速度
    法律的兩種不確定性
    法律方法(2022年2期)2022-10-20 06:41:56
    “鱉”不住了!從26元/斤飆至38元/斤,2022年甲魚能否再跑出“加速度”?
    軌跡
    軌跡
    英鎊或繼續(xù)面臨不確定性風(fēng)險(xiǎn)
    中國外匯(2019年7期)2019-07-13 05:45:04
    天際加速度
    汽車觀察(2018年12期)2018-12-26 01:05:42
    創(chuàng)新,動(dòng)能轉(zhuǎn)換的“加速度”
    金橋(2018年4期)2018-09-26 02:24:46
    死亡加速度
    軌跡
    進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
    中國三峽(2017年2期)2017-06-09 08:15:29
    确山县| 宜兴市| 信丰县| 丰宁| 石景山区| 壶关县| 兰西县| 许昌县| 石河子市| 冀州市| 乐都县| 酒泉市| 平谷区| 桦甸市| 扬州市| 珠海市| 庆阳市| 长葛市| 卢龙县| 天镇县| 贺兰县| 尚志市| 育儿| 和政县| 柳州市| 都江堰市| 绥中县| 华亭县| 雅安市| 大悟县| 会同县| 龙南县| 河曲县| 淳化县| 黎川县| 怀安县| 怀化市| 麻江县| 浮梁县| 滨州市| 唐河县|