李海川,陽(yáng)周明,王 洋,崔新悅,王 娜
(北方自動(dòng)控制技術(shù)研究所,太原 030006)
隨著現(xiàn)代科技的飛速發(fā)展,越來(lái)越多的人工智能技術(shù)被引入軍事領(lǐng)域中解決復(fù)雜問(wèn)題[1]。在軍事作戰(zhàn)過(guò)程中,后勤保障是很重要的一環(huán)。在補(bǔ)給運(yùn)輸?shù)倪^(guò)程中,駕駛員需要高度集中并長(zhǎng)時(shí)間行駛,對(duì)長(zhǎng)效作戰(zhàn)精力消耗很大。因此,無(wú)人駕駛可以減輕駕駛員負(fù)擔(dān),無(wú)人分隊(duì)運(yùn)輸補(bǔ)給能避免人們主觀失誤,大大提升運(yùn)輸效率。近年來(lái),隨著深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)的出現(xiàn),作為一種兼顧強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)優(yōu)點(diǎn)的學(xué)習(xí)方式,在游戲[2]、棋類(lèi)[3]、無(wú)人駕駛[4]、路徑規(guī)劃[5]、行為決策[6]、自然語(yǔ)言處理[7]、金融交易[8]、云計(jì)算[9]等方面都有著廣泛應(yīng)用。
本文針對(duì)SAC 算法[10]中經(jīng)驗(yàn)池以等概率采樣,忽視訓(xùn)練過(guò)程中最近經(jīng)驗(yàn)的重要性,單一經(jīng)驗(yàn)池沒(méi)有考慮不同條件下經(jīng)驗(yàn)狀態(tài)存在差異,造成收斂速度慢、穩(wěn)定性不高的問(wèn)題,在采樣階段提出最近雙經(jīng)驗(yàn)回放改進(jìn),一方面給予最近經(jīng)驗(yàn)較大的采樣權(quán)重,另一方面用兩個(gè)不同的經(jīng)驗(yàn)池分別存儲(chǔ)計(jì)劃狀態(tài)分布和策略狀態(tài)分布的經(jīng)驗(yàn),提高了經(jīng)驗(yàn)學(xué)習(xí)速率,加快了收斂速度。改進(jìn)后的SAC 算法應(yīng)用在無(wú)人分隊(duì)控制方面,可以有效提高任務(wù)成功率。
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)通過(guò)自身與環(huán)境交互,從環(huán)境中獲得獎(jiǎng)勵(lì)并根據(jù)獎(jiǎng)勵(lì)不斷調(diào)整其行為以達(dá)到最優(yōu)策略。通常采用馬爾科夫決策過(guò)程(Markov decision process,MDP)進(jìn)行建模,通過(guò)五元組(S,A,P,R,γ)來(lái)表示。在五元組中,S 為狀態(tài)集,A 為一組動(dòng)作,P 為狀態(tài)轉(zhuǎn)移概率,R 為獎(jiǎng)勵(lì)函數(shù),γ 為阻尼系數(shù)[11]。
強(qiáng)化學(xué)習(xí)算法主要有以下3 類(lèi):Actor 法,Critic法和Actor-Critic 法[12]。Actor 法直接進(jìn)行學(xué)習(xí)以獲得最優(yōu)決策;Critic 法根據(jù)當(dāng)前狀態(tài),選擇期望最大的動(dòng)作來(lái)學(xué)習(xí)最優(yōu)策略;Actor-Critic 法分兩部分,Actor 與環(huán)境交互后生成策略,Critic 評(píng)估Actor 的行為并指導(dǎo)其下一步動(dòng)作。
深度強(qiáng)化學(xué)習(xí)[13]通過(guò)學(xué)習(xí)獲得最優(yōu)的目標(biāo)策略,利用強(qiáng)化學(xué)習(xí)對(duì)神經(jīng)網(wǎng)絡(luò)產(chǎn)生動(dòng)作與環(huán)境交互的信息進(jìn)行決策。深度強(qiáng)化學(xué)習(xí)框架如圖1 所示,主要由環(huán)境、經(jīng)驗(yàn)回放和深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)3 部分組成。
圖1 深度強(qiáng)化學(xué)習(xí)框架Fig.1 Deep reinforcement learning framework
1.2.1 環(huán)境
DRL 的任務(wù)通過(guò)環(huán)境實(shí)現(xiàn)表征,環(huán)境由五元組中的P 和R 構(gòu)成,即狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù)是環(huán)境的核心,其流程是當(dāng)前狀態(tài)由狀態(tài)轉(zhuǎn)移概率決定進(jìn)入下一狀態(tài),由獎(jiǎng)勵(lì)函數(shù)對(duì)狀態(tài)進(jìn)行獎(jiǎng)勵(lì)反饋,因此,任務(wù)的實(shí)體表現(xiàn)即為獎(jiǎng)勵(lì),任務(wù)分?jǐn)?shù)為每一步的獎(jiǎng)勵(lì)之和。
1.2.2 經(jīng)驗(yàn)回放
經(jīng)驗(yàn)回放又稱(chēng)為off-policy 方法,主體訓(xùn)練思路是以經(jīng)驗(yàn)池中的經(jīng)驗(yàn)為基準(zhǔn),反復(fù)訓(xùn)練,提高樣本利用率,這樣做的好處是對(duì)比在線(xiàn)更新訓(xùn)練速度有明顯提升。經(jīng)驗(yàn)回放分兩步進(jìn)行:第1 步是通過(guò)選擇手段在經(jīng)驗(yàn)池中存儲(chǔ)經(jīng)驗(yàn)或丟棄經(jīng)驗(yàn),第2 步是通過(guò)采樣對(duì)經(jīng)驗(yàn)池中的經(jīng)驗(yàn)進(jìn)行選擇。
1.2.3 深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)
深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)由在線(xiàn)網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)和優(yōu)化器3 部分構(gòu)成。3 部分互有聯(lián)系又相互影響,其中在線(xiàn)網(wǎng)絡(luò)就是執(zhí)行網(wǎng)絡(luò),通過(guò)行為策略與環(huán)境的交互產(chǎn)生經(jīng)驗(yàn),是優(yōu)化器進(jìn)行函數(shù)計(jì)算的基礎(chǔ);目標(biāo)函數(shù)主要用于對(duì)目標(biāo)值的估計(jì),通過(guò)學(xué)習(xí)獲得目標(biāo)策略作為算法的穩(wěn)定輸出,并實(shí)時(shí)更新結(jié)果;優(yōu)化器就是以在線(xiàn)網(wǎng)絡(luò)的經(jīng)驗(yàn)和目標(biāo)網(wǎng)絡(luò)的更新結(jié)果為基礎(chǔ),計(jì)算損失函數(shù),實(shí)現(xiàn)網(wǎng)絡(luò)權(quán)重的更新。
軟行動(dòng)者-評(píng)論家算法(soft actor-critic,SAC)是基于最大熵強(qiáng)化學(xué)習(xí)框架的離線(xiàn)強(qiáng)化學(xué)習(xí)算法,算法流程如圖2 所示。
圖2 SAC 算法網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 SAC algorithm network structure diagram
SAC 算法的策略要同時(shí)滿(mǎn)足累計(jì)期望與熵的最大化,即:
其中,α 決定熵相對(duì)于獎(jiǎng)勵(lì)的重要性,以控制策略的隨機(jī)性。H 表示策略π 的熵,策略π 的熵由下式確定
SAC 算法策略迭代主要分為策略評(píng)估與策略改進(jìn)兩部分。在策略評(píng)估階段,對(duì)固定策略π,soft Q-value 可由Bellman backup 算子迭代計(jì)算:
其中,V(st)函數(shù)為:
通過(guò)Qk+1=ΓπQk進(jìn)行無(wú)數(shù)次迭代即可獲得收斂到π 的soft Q-value 函數(shù)。在策略改進(jìn)階段,SAC算法輸出與Q 函數(shù)同概率分布的策略函數(shù):
在實(shí)際操作中,為方便處理策略,采用KL 散度去投影新的策略:
其中,Zπold(st)是Q 值歸一化分布函數(shù)。對(duì)所有的(st,at)∈S×A 滿(mǎn)足Qπnew(st,at)≥Qπold(st,at)以保證每次更新的策略基于舊的策略。
此外,SAC 算法引入重參數(shù)的技巧,在訓(xùn)練過(guò)程中,soft Q-value 函數(shù)的更新梯度為:
策略網(wǎng)絡(luò)的更新梯度為:
為了加快收斂速度,提高學(xué)習(xí)效率,使用最近經(jīng)驗(yàn)回放(recently replay buffer,RRB)[14]采樣策略代替隨機(jī)采樣,將最近數(shù)據(jù)的重要程度作為采樣準(zhǔn)則。相比于隨機(jī)采樣,最近采樣中增加了最近經(jīng)驗(yàn)的權(quán)重,在采樣時(shí)最近經(jīng)驗(yàn)更容易被選中,有效加速對(duì)策略的學(xué)習(xí),提高了算法收斂性。最近經(jīng)驗(yàn)回放框架如圖3 所示。
圖3 最近經(jīng)驗(yàn)回放框架Fig.3 Recent experience playback framework
例如,在第m 次更新時(shí)(1≤m≤M)經(jīng)驗(yàn)i 的采樣概率為:
其中,ξ 作為超參數(shù),決定了最近數(shù)據(jù)的重要程度。當(dāng)ξ=1 時(shí),所有經(jīng)驗(yàn)的采樣概率相等;當(dāng)ξ<1 時(shí),最近數(shù)據(jù)采樣概率增大。當(dāng)ξ 較小時(shí),過(guò)去經(jīng)驗(yàn)占比下降,更容易遺忘過(guò)去經(jīng)驗(yàn),以提高學(xué)習(xí)速率,實(shí)現(xiàn)快速收斂;當(dāng)ξ 較大時(shí),過(guò)去經(jīng)驗(yàn)占比提升,在訓(xùn)練過(guò)程中收斂速度下降但不容易陷入局部最優(yōu)。
隨機(jī)經(jīng)驗(yàn)回放依賴(lài)于采樣的經(jīng)驗(yàn)服從預(yù)期,最近經(jīng)驗(yàn)回放不再按原有經(jīng)驗(yàn)池分布采樣,最近經(jīng)驗(yàn)的多次回放容易陷入局部最優(yōu)解,對(duì)目標(biāo)網(wǎng)絡(luò)造成過(guò)擬合。因此,為校正誤差,需要在更新梯度時(shí)引入重要性采樣:
其中,N 為經(jīng)驗(yàn)池容量,1/N 為隨機(jī)采樣概率,t 為校正程度。當(dāng)t=0 時(shí),所有經(jīng)驗(yàn)的重要性采樣都是1。
由于最近單經(jīng)驗(yàn)池訓(xùn)練后存在局部最優(yōu)的問(wèn)題,提出最近雙經(jīng)驗(yàn)池回放(recently dual replay buffer,RDRB),其框架如圖4 所示。
圖4 最近雙經(jīng)驗(yàn)池回放框架Fig.4 Recently dual experience pool playback framework
在經(jīng)驗(yàn)保留環(huán)節(jié),采用計(jì)劃經(jīng)驗(yàn)池Dfull與策略經(jīng)驗(yàn)池Dpolicy共同存儲(chǔ)經(jīng)驗(yàn)。其中,計(jì)劃經(jīng)驗(yàn)池存儲(chǔ)全部經(jīng)驗(yàn),策略經(jīng)驗(yàn)池存儲(chǔ)動(dòng)作和目標(biāo)策略一致的經(jīng)驗(yàn);在經(jīng)驗(yàn)采樣環(huán)節(jié),雙方都使用最近采樣,按擬定比例共同采取n 個(gè)經(jīng)驗(yàn),學(xué)習(xí)并更新策略網(wǎng)絡(luò)。
深度強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程本質(zhì)上是智能體與環(huán)境交互,在交互后得到反饋并根據(jù)反饋調(diào)整動(dòng)作,逐步讓獎(jiǎng)勵(lì)達(dá)到最大的過(guò)程。在這個(gè)過(guò)程中,動(dòng)作的學(xué)習(xí)主要是通過(guò)獎(jiǎng)勵(lì)函數(shù)引導(dǎo),因此,根據(jù)不同任務(wù)設(shè)計(jì)不同的獎(jiǎng)勵(lì)函數(shù)有助于提高算法性能。
本文基于無(wú)人分隊(duì)是否達(dá)到目標(biāo)任務(wù)點(diǎn)、車(chē)輛之間距離、面對(duì)突發(fā)問(wèn)題處理、行車(chē)能量消耗與車(chē)輛靜止懲罰4 個(gè)方面的信息來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。
1)任務(wù)重點(diǎn)是無(wú)人分隊(duì)是否到達(dá)目標(biāo)任務(wù)點(diǎn)與車(chē)輛間距離,對(duì)此其對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)如下:
其中,當(dāng)兩車(chē)之間距離在10 m~20 m 內(nèi),符合跟車(chē)要求,獎(jiǎng)勵(lì)函數(shù)以二次方式表示;當(dāng)距離過(guò)小或過(guò)大時(shí)會(huì)有碰撞或跟丟情況,因此,需要有相應(yīng)的懲罰機(jī)制。
2)行車(chē)過(guò)程中能量消耗與車(chē)輛靜止的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下:
其中,能量消耗的懲罰采用能量消耗值E,但是若只有能量消耗,會(huì)出現(xiàn)車(chē)輛靜止的錯(cuò)誤情況。為防止這類(lèi)問(wèn)題,需要設(shè)置獎(jiǎng)勵(lì)讓行駛有所收益,其中,v(t)是當(dāng)前速度;vlim(t)為限制速度,此獎(jiǎng)勵(lì)函數(shù)可以讓車(chē)輛更符合設(shè)定的限制速度。
3)面對(duì)突發(fā)問(wèn)題時(shí),車(chē)輛開(kāi)始減速,若為障礙物則以運(yùn)動(dòng)停止作為處理方式,若為上坡則減速到限定速度作為處理方式,采用另一個(gè)獨(dú)立經(jīng)驗(yàn)池,其獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下:
其中,運(yùn)動(dòng)停止說(shuō)明合理處理突發(fā)問(wèn)題,在減速期間以加速度為獎(jiǎng)勵(lì)函數(shù),vnow(t)是當(dāng)前狀態(tài)速度,vlast(t)為上一時(shí)刻速度,減速加速度越快獎(jiǎng)勵(lì)越高。
基于最近雙經(jīng)驗(yàn)回放的SAC 算法如算法1 所示。其輸入主要包括各類(lèi)網(wǎng)絡(luò)參數(shù)、訓(xùn)練步數(shù)、經(jīng)驗(yàn)池容量以及采樣經(jīng)驗(yàn)數(shù)量,輸出以目標(biāo)策略為主。
算法1:基于最近雙經(jīng)驗(yàn)回放的SAC 算法輸入:隨機(jī)初始化參數(shù)向量V-Critic 網(wǎng)絡(luò)ψ,目標(biāo)網(wǎng)絡(luò)參數(shù)ψˉ價(jià)值網(wǎng)絡(luò)參數(shù)θ,策略網(wǎng)絡(luò)參數(shù)φ,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率γ,訓(xùn)練步數(shù)T,經(jīng)驗(yàn)池容量N,批量采樣經(jīng)驗(yàn)數(shù)n輸出:目標(biāo)策略1:獲得初始化狀態(tài)s0 2:for step_t in T:3:觀察環(huán)境獲得狀態(tài)st 4:根據(jù)當(dāng)前策略選擇動(dòng)作αt=πφ(αt|st)5:執(zhí)行動(dòng)作αt,得到下一個(gè)狀態(tài)s(t+1)和獎(jiǎng)勵(lì)rt 6:將經(jīng)驗(yàn)(st,αt,rt,s(t+1))加入最近經(jīng)驗(yàn)池Dfull 中7:if action==policy:8:將經(jīng)驗(yàn)(st,αt,rt,s(t+1))加入最近經(jīng)驗(yàn)池Dpolicy 中9:for i in n:10:根據(jù)采樣比例選擇采樣經(jīng)驗(yàn)池11:根據(jù)最近經(jīng)驗(yàn)回放選擇經(jīng)驗(yàn)ei~P(i)=ξm+1-i/∑mξm+1-i 12:計(jì)算重要性采樣:ωi=1/(N·pi)t(t 為校正程度)13:if ωi>1/cmax&&ωi 算法首先獲得初始狀態(tài),在第1 行進(jìn)入環(huán)境。在算法3~5 行,根據(jù)當(dāng)前策略和噪聲疊加,選擇動(dòng)作,獲得下一狀態(tài)和獎(jiǎng)勵(lì)。在算法第6~8 行,將經(jīng)驗(yàn)加入到經(jīng)驗(yàn)池中,其中,經(jīng)驗(yàn)池Dfull存儲(chǔ)所有的經(jīng)驗(yàn),經(jīng)驗(yàn)池Dpolicy存儲(chǔ)符合執(zhí)行策略的經(jīng)驗(yàn)。在算法第10~12 行,根據(jù)采樣比例進(jìn)行采樣,根據(jù)最近經(jīng)驗(yàn)進(jìn)行經(jīng)驗(yàn)選擇,并計(jì)算重要性采樣以用于后續(xù)梯度更新。在算法第13 行進(jìn)行經(jīng)驗(yàn)過(guò)濾,與當(dāng)前策略相距過(guò)大的經(jīng)驗(yàn)將被濾去。在算法第14~16 行計(jì)算累積梯度。在算法第17~20 行更新網(wǎng)絡(luò)參數(shù)。 本次實(shí)驗(yàn)環(huán)境基于OpenAI Gym,通過(guò)設(shè)置不同獎(jiǎng)勵(lì)使無(wú)人分隊(duì)達(dá)到終點(diǎn)完成任務(wù),分別使用傳統(tǒng)SAC 算法、SAC 算法結(jié)合最近經(jīng)驗(yàn)回放和最近雙經(jīng)驗(yàn)回放進(jìn)行比較。 在OpenAI Gym 中搭建環(huán)境如下頁(yè)圖5 所示,其中,兩輛無(wú)人車(chē)作為分隊(duì)進(jìn)行運(yùn)輸任務(wù),運(yùn)輸路線(xiàn)總長(zhǎng)10 km,在運(yùn)輸開(kāi)始后5 km~6 km 處有一段長(zhǎng)為1 km 傾斜度為8%(水平前進(jìn)100 m,垂直高度上升8 m)的斜坡,其余均為平地;無(wú)人車(chē)初始速度為0,正常行駛速度為60 km/h,上坡期間行駛速度為20 km/h,在運(yùn)輸路線(xiàn)的平地部分固定放置4 個(gè)障礙物作為突發(fā)情況。當(dāng)無(wú)人車(chē)未遇到突發(fā)情況時(shí),只考慮跟車(chē)距離與能量消耗;當(dāng)遇到障礙物時(shí),讓兩輛無(wú)人車(chē)均減速至停止,在靜止5 s 后再繼續(xù)運(yùn)輸任務(wù),到達(dá)終點(diǎn)認(rèn)為任務(wù)成功。 圖5 固定障礙運(yùn)輸環(huán)境Fig.5 Fixed barrier transport environment 實(shí)驗(yàn)中,除SAC 算法沒(méi)有最近經(jīng)驗(yàn)重要程度外,其余的超參數(shù)設(shè)置均相同,如表1 所示。 表1 超參數(shù)設(shè)置Table 1 Hyperparameter settings 針對(duì)固定位置的突發(fā)問(wèn)題,在訓(xùn)練后分別從無(wú)人分隊(duì)任務(wù)成功率、回合平均獎(jiǎng)勵(lì)、策略網(wǎng)絡(luò)誤差幾方面進(jìn)行比較,訓(xùn)練后的結(jié)果如圖6 所示。其中,SAC+RRB 表示SAC 算法結(jié)合最近經(jīng)驗(yàn)回放,SAC+RDRB 表示SAC 算法結(jié)合最近雙經(jīng)驗(yàn)回放。 圖6 固定位置突發(fā)狀況訓(xùn)練結(jié)果圖Fig.6 Chart of Fixed position emergency training results 由圖6(a)可以看出,突發(fā)情況在固定位置下訓(xùn)練時(shí),三者任務(wù)成功率最終都在90%左右,但是在第100 回合~200 回合時(shí),SAC+RDRB 算法的任務(wù)成功率比其他兩者提升更快。圖6(b)表示訓(xùn)練過(guò)程中的回合平均獎(jiǎng)勵(lì),在SAC+RDRB 算法下,獎(jiǎng)勵(lì)增長(zhǎng)更快且比其他兩者更加穩(wěn)定,最終獎(jiǎng)勵(lì)收斂后也比其他兩者更多。圖6(c)表示策略網(wǎng)絡(luò)誤差,SAC+RDRB 算法從30 開(kāi)始收斂至0,SAC+RRB 算法從70開(kāi)始收斂至20,而SAC 算法從200 開(kāi)始收斂至30。 根據(jù)圖6 的結(jié)果,認(rèn)為無(wú)人分隊(duì)在SAC 算法結(jié)合最近雙經(jīng)驗(yàn)回放情況下能有效區(qū)分特殊情況,針對(duì)不同條件采用不同經(jīng)驗(yàn)池進(jìn)行學(xué)習(xí),訓(xùn)練效果較好,能有效提高收斂速度,降低策略網(wǎng)絡(luò)誤差。為更符合實(shí)際,新訓(xùn)練環(huán)境在運(yùn)輸?shù)缆飞铣掀侣范瓮怆S機(jī)生成4 個(gè)障礙物,其余條件不變,如圖7 所示。 圖7 隨機(jī)障礙運(yùn)輸環(huán)境Fig.7 Random obstacle transportation environment 隨機(jī)突發(fā)情況的環(huán)境下,再次測(cè)試模型訓(xùn)練效果,結(jié)果如圖8 所示。由圖8(a)可以看出,在隨機(jī)情況下,SAC 算法與SAC+RRB 算法明顯成功率降低,分別在77%和80%。而SAC+RDRB 算法成功率能達(dá)到85%,相對(duì)于傳統(tǒng)SAC 算法有較為明顯的提升。在圖8(b)中,前100 回合三者的訓(xùn)練效果幾乎相同,但是100 回合后SAC+RDRB 算法與SAC+RRB 算法提升較為明顯,效果比SAC 算法好。 圖8 隨機(jī)位置突發(fā)狀況訓(xùn)練結(jié)果圖Fig.8 Chart of Random position emergency training results 根據(jù)圖8 的結(jié)果,認(rèn)為無(wú)人分隊(duì)在SAC 算法結(jié)合最近雙經(jīng)驗(yàn)回放的情況下,訓(xùn)練效果雖然不如固定位置突發(fā)情況條件下好,但是相較于另外兩種算法,SAC+RDRB 仍有效提高了無(wú)人分隊(duì)的任務(wù)完成率,且回合平均獎(jiǎng)勵(lì)更高。 本文基于無(wú)人分隊(duì)的任務(wù)行為決策,在SAC 算法的基礎(chǔ)上,構(gòu)建了最近雙經(jīng)驗(yàn)回放模型。針對(duì)隨機(jī)采樣存在收斂速度慢的問(wèn)題,提出最近經(jīng)驗(yàn)采樣,以加快學(xué)習(xí)速度;針對(duì)單經(jīng)驗(yàn)池策略網(wǎng)絡(luò)誤差較大的問(wèn)題,構(gòu)建雙經(jīng)驗(yàn)池回放,以提高算法穩(wěn)定性。實(shí)驗(yàn)通過(guò)對(duì)隨機(jī)單經(jīng)驗(yàn)池回放、最近單經(jīng)驗(yàn)池回放和最近雙經(jīng)驗(yàn)池回放三組行為決策的結(jié)果進(jìn)行比較,驗(yàn)證了模型的有效性,提升了無(wú)人分隊(duì)的任務(wù)成功率。目前仿真任務(wù)環(huán)境除中途的爬坡以外其余均為直線(xiàn),出現(xiàn)的額外突發(fā)問(wèn)題只有停止一種情況,缺少其余突發(fā)情況與不同方向?qū)θ蝿?wù)帶來(lái)的影響與決策方式。未來(lái)可擴(kuò)展多種行駛路線(xiàn),同時(shí)增加天氣、極端地形等因素對(duì)行為決策的影響,使仿真環(huán)境更符合現(xiàn)實(shí)環(huán)境。3 實(shí)驗(yàn)及結(jié)果
3.1 實(shí)驗(yàn)環(huán)境
3.2 參數(shù)設(shè)置
3.3 實(shí)驗(yàn)結(jié)果
4 結(jié)論