張峻峰
(重慶交通大學機電與車輛工程學院,重慶400074)
主題詞:智能車 軌跡預測算法 十字路口 換道
縮略語
CNN Convolutional Neural Networks
DNN Deep Neural Networks
LSTM Long Short-Term Memory
RNN Recurrent Neural Network
MDN Mixture Density Networks
POMDP Partially Observable Markov Ddecision Processes
UKF Unscented Kalman Filter
IaKNN Interactive apperceive Kalman Neural Network
VBIN Vehicle Behavior Interaction Network
GISNet Graph Information Sharing Network
STLSTM Space Time Long Short-Term Memory Model
V-LSTM Very Long Short-Term Memory
CS-LSTM Cuckoo Search Long Short-Term Memory
MATF Multi Agent Tensor Fusion
NMP Neural Motion Planner
自上世紀80年代中期以來,自動駕駛技術一直是汽車制造商、大學和研究機構的研發(fā)工作重點,許多公司已經在不同類型的汽車上開發(fā)了自動駕駛汽車技術。完整的無人駕駛系統(tǒng)仍處于高級測試階段,但部分自動駕駛系統(tǒng)在過去幾年已經出現(xiàn)在汽車行業(yè)[1],這些部分自動駕駛系統(tǒng)提高了安全性、舒適性、運輸時間和能源消耗,目標是SAE級別達到L4級或更高。
IEEE通信協(xié)會的研究表明,超過90%的交通緊急情況是由人為失誤造成的[2]。隨著車輛未來軌跡預測技術的發(fā)展,自我車輛可以及時了解附近的車輛和交通狀況,從而有足夠的時間做出適當?shù)臎Q策,準確可靠的未來車輛軌跡預測算法可以提前發(fā)現(xiàn)潛在的碰撞,降低車輛碰撞風險[3]。預測周圍車輛的運動尤其困難,因為在一個場景中通常有多個交互主體[4],駕駛行為是多模態(tài)的,例如:從一個共同的歷史軌跡,可能會出現(xiàn)幾個不同的未來軌跡。自動駕駛汽車還必須在涉及人員(自身乘客、其他司機或行人)的安全與選擇到達目的地的有效速度之間找到平衡,同時不干擾現(xiàn)有交通。
本文收集了當前最新的主要研究機構對智能車軌跡預測方面的研究成果,并根據(jù)應用場景對算法進行分類,總結算法的優(yōu)缺點,提出了未來的發(fā)展方向。第2章分為3個部分,第1部分總結并分析基于十字路口場景的軌跡預測算法,第2部分總結并分析基于換道場景的軌跡預測算法,第3部分總結并分析基于其他場景的軌跡預測算法;第3章對本文進行總結,并在算法和傳感器2個方面提出未來的研究方向。
Lefevre等[5]將車輛軌跡預測模型分為物理模型、機動模型和交互感知模型,假設車輛行為僅依賴于物理定律的預測模型稱為物理模型;基于預期機動預測車輛行為的模型稱為機動模型;考慮車輛間交互的高級模型稱為交互感知模型。預測車輛軌跡的場景是多樣性的,例如:換道、T形路口、匯流和十字路口場景,不同的軌跡預測場景對于預測車輛的軌跡有不同的挑戰(zhàn),而目前大部分車輛軌跡預測的算法都應用于換道與十字路口場景下。因此,本文提出1種基于交通場景的車輛軌跡預測算法分類方法:基于十字路口場景、基于換道場景、基于其他場景。
十字路口有很多行人、汽車、自行車和其它交通工具,十字路口是事故多發(fā)地帶,隨著無人駕駛技術的發(fā)展,十字路口處的車輛軌跡預測技術就顯得尤為重要。近年來,神經網絡越來越受歡迎,神經網絡的優(yōu)勢在于,在給定相關且數(shù)量充足的訓練數(shù)據(jù)的情況下,能夠學習重要的特征。因此,Cui等[6]提出1種基于深度卷積神經網絡(Convolutional Neural Net?works,CNN)的自主駕駛多模態(tài)軌跡預測方法,將車輛的環(huán)境編碼成柵格圖像作為CNN的輸入,CNN輸出車輛的預測軌跡,該方法將圖像作為輸入而沒有歷史軌跡以及車輛速度的信息,有可能造成軌跡預測誤差,網絡結構如圖1。Sergio Casas等[4]提出了1種新的深度神經網絡(Deep Neural Networks,DNN),包括1個探測器和預測器,探測器檢測激光雷達傳感器產生的三維點云圖和環(huán)境的動態(tài)地圖作為預測器的輸入,預測器輸出車輛的駕駛意圖和預測軌跡,將其軌跡參數(shù)化為一系列的邊界框,包括當前和未來的位置,該方法相比各自單獨模塊具有更高的準確性,但也相應的增加了算法的計算時間,在權衡利弊的情況下該方法是更好的選擇。Luo等[7]提出1種基于單個CNN的車輛軌跡預測方法,該方法輸入激光雷達傳感器探測的數(shù)據(jù),使用CNN提取車輛的運動特征,然后添加2個卷積層來預測車輛的軌跡,試驗結果表明該方法對路徑上的遮擋和稀疏數(shù)據(jù)有很高的魯棒性。
圖1 自主駕駛多模態(tài)軌跡預測網絡結構[6]
長短期記憶網絡(Long Short-Term Memory,LSTM)是1種特殊的循環(huán)神經網絡(Recurrent Neural Network,RNN),主要是為了解決長序列訓練過程中的梯度消失和梯度爆炸問題。因此,Ma等[8]提出了1種基于LSTM的實時軌跡預測算法—TrafficPredict,該方法使用實例層來學習車輛的移動和交互,并使用類別層來學習屬于同一類型車輛的相似性,以細化預測的車輛軌跡。該方法具有一定的局限性,該算法的精度會根據(jù)交通狀況和過去軌跡的持續(xù)時間而變化。
單一神經網絡可能具有一定的缺陷,因此有些研究人員使用混合的神經網絡方法來預測車輛的軌跡,例如:Alex Zyner等[9]提出了1種基于多模態(tài)概率解的軌跡預測方法,該方法使用循環(huán)神經網絡(RNN)結合混合密度網絡(Mixture Density Networks,MDN)來實現(xiàn)車輛軌跡預測,再通過聚類算法從1組可能軌跡中選擇出1條最有可能的軌跡,試驗結果表明該方法具有很好的軌跡預測性能和很高的軌跡預測精度,網絡結構如圖2。Marcel Schreiber等[10]提出1種激光雷達網格融合和RNN結合的方法,場景的鳥瞰圖(包括占用率和速度)作為1個序列輸入到RNN,訓練RNN來預測車輛的未來軌跡,該方法相比之前的研究使用了更少的參數(shù),但得到了更好的預測結果。
圖2 RNN和MDN結合的網絡結構[9]
除了將神經網絡用于預測車輛的軌跡,還出現(xiàn)了一些其他方法用于預測車輛的軌跡,例如Constantin Hubmann等[11]提出了1個在線的(Partially Observable Markov Decision Processes,POMDP)框架結合道路模型和車輛狀態(tài)來預測車輛的軌跡,根據(jù)與自車可能發(fā)生碰撞的時間來改變自車的加速度,該方法需要獲得其他車輛的信息(如:速度、加速度),傳感器存在的測量誤差可能造成軌跡預測誤差。Li等[12]提出了1種基于概率軌跡預測的條件生成神經系統(tǒng)(CGNS),其中包含1個帶有環(huán)境注意機制的深度特征提取器(DFE)和1個生成式神經采樣器(GNS),DFE從一系列歷史圖像和多個交互主體的軌跡中提取特征作為GNS的輸入,GNS利用深度潛變量模型和變分發(fā)散最小化方法,生成1組可行的未來軌跡,試驗結果表明該方法相比其他幾種算法(例如CVM、S-LSTM等)具有更高的軌跡預測精度,網絡結構如圖3。李暾等[13]提出1種基于深度置信網絡和SoftMax(DBN-SoftMax)軌跡預測方法,車輛的歷史軌跡作為輸入訓練DBN-SoftMax網絡輸出車輛的未來軌跡,并使用權重聚類對結果進行優(yōu)化,該方法在拓撲結構復雜的路網中也能得到更好的預測精度。Zeng等[14]提出了1種神經運動規(guī)劃器(NMP),輸入原始激光雷達數(shù)據(jù)和高清地圖,輸出一系列車輛的預測軌跡,選擇代價最小的1條軌跡,該方法需要提高原始激光雷達數(shù)據(jù)的精確度,來確保軌跡預測的準確性?;谑致房诘能壽E預測算法總結如表1,根據(jù)算法的類別將算法分為單一神經網絡、混合神經網絡和其他方法3部分。
圖3 條件生成神經系統(tǒng)結構[12]
表1 基于十字路口的軌跡預測算法
車輛在變道場景也經常發(fā)生交通事故,當自動駕駛技術應用到交通道路上時,由于傳感器數(shù)據(jù)存在一定的誤差,有可能導致智能車在換道時容易發(fā)生交通事故,因此在換道場景下的車輛軌跡預測技術可以有效地提高車輛反應時間,從而減少交通事故的發(fā)生。很多學者將改進的卡爾曼濾波方法用于預測車輛的軌跡,例如張一鳴等[15]提出考慮駕駛意圖與基于車輛運動模型的方法,將車輛意圖定為保持和換道2種,結合無損卡爾曼濾波(Unscented Kalman Filter,UKF)預測車輛軌跡,該方法有效地提高了軌跡預測的預測精度和穩(wěn)定性。Ju等[16]提出了1種多層結構的交互感知卡爾曼神經網絡(Interactive apperceive Kalman Neural Network,IaKNN),其中交互層將環(huán)境觀測數(shù)據(jù)分解為交互感知的加速度,運動層將加速度轉換為軌跡,卡爾曼濾波網絡預測未來軌跡,該方法融合了動態(tài)信息和交互感知數(shù)據(jù),有效地提高了預測性能,網絡結構如圖4。
圖4 IaKNN網絡結構[16]
由于神經網絡具有可以學習特征的優(yōu)勢,很多學者使用神經網絡來預測車輛的軌跡,例如Mostafa等[17]提出1種基于CNN的軌跡預測方法,將車道和車輛檢測圖像作為輸入,CNN網絡輸出車輛的預測軌跡,該方法的輸入是圖像或視頻,而未考慮的環(huán)境不確定性會對預測結果造成影響。Ding等[18]提出了1種基于RNN的車輛行為交互網絡(Vehicle Behavior Interaction Network,VBIN)預測車輛軌跡,該方法采用RNN對車輛觀測狀態(tài)進行編碼,編碼結果作為VBIN的輸入進行車輛軌跡預測,該方法在規(guī)劃中考慮長期的未來回報,延長了預測范圍。
為了解決長序列訓練過程中的梯度消失和梯度爆炸問題,使用LSTM來預測車輛軌跡的方案備受關注,例如溫惠英等[19]提出1種基于生成對抗網絡的車輛軌跡預測模型,該模型采用了LSTM的編碼器-解碼器結構,將車輛歷史軌跡輸入給編碼器,由解碼器預測車輛的未來軌跡,該方法選擇不同的預測時長,在考慮計算速度和精確度方面選擇了最合適的預測時長,還需要提高預測精度。Deo等[20]提出了1種基于交互感知的LSTM模型,它將車輛的歷史軌跡和車道結構作為輸入,LSTM模型輸出車輛的預測軌跡,網絡結構如圖5。Deo等[21]后續(xù)提出1種改進的LSTM模型,該模型使用卷積社會池作為社會池的改進,將車輛的歷史軌跡作為輸入,輸出是預測軌跡的概率分布,該方法純粹依靠車輛的軌跡來推斷機動類別和未來的軌跡,許多互補的信息可以通過視覺捕捉,網絡結構如圖6。Dai等[22]提出了1種基于LSTM的時空軌跡預測模型(Space Time Long Short-Term Memory Model,STL?STM),在LSTM模型中嵌入空間相互作用,并在2個連續(xù)LSTM層的輸入和輸出之間增加快捷連接來處理梯度消失,該方法通過在2個連續(xù)LSTM層之間引入快捷連接,解決了LSTM梯度消失的問題。
圖5 交互感知的LSTM模型結構[20]
圖6 改進的LSTM模型結構[21]
單一神經網絡可能具有一定的缺陷,因此有些研究者使用混合的神經網絡方法來預測車輛的軌跡。Jeon等[23]提出了1種完全可擴展的軌跡預測網絡SCALE-Net,SCALE-Net由基于EGCN-LSTM的交互嵌入層和基于LSTM-MLP的未來軌跡生成層組成,該研究的重點是預測模型的擴展性,但是該方法不能考慮道路結構,對軌跡預測精度會有一定影響。Mo等[24]提出了1種基于CNN-LSTM網絡的車輛軌跡預測方法,使用LSTM編碼器對車輛動力學進行編碼,通過CNN提取車輛之間的交互,然后使用LSTM解碼器預測車輛軌跡,該方法的局限性在于它設定周圍有8輛車并且有3 s的歷史軌跡,未來工作需要打破這一限制才能運用于實際問題。Xie等[25]提出了1種基于順序模型的軌跡預測方法,該方法融合了CNN和LSTM 2個神經網絡,基于歷史軌跡數(shù)據(jù),對未來30 s內的軌跡進行預測,該方法預測時間太長,會大大增加算法的計算時間,從而降低軌跡預測的準確度。
依賴圖和其他新的方法來預測車輛的軌跡也成為新的研究方向,例如Zhao等[26]提出了1種新的基于圖的信息共享網絡(Graph Information Sharing Network,GIS?Net),該網絡學習目標和相鄰車輛之間的軌跡特征,使用LSTM對歷史軌跡進行編碼,然后輸出車輛的預測軌跡,該方法與其他幾種方法(如:Very Long Short-Term Memory,V-LSTM)作比較,在降低預測誤差上取得了更好的結果,網絡結構如圖7。Li等[27]提出1種基于圖的軌跡預測方法,該方法使用圖來表示對象之間的相互作用,用多個卷積塊來提取特征,然后使用編碼器-解碼器LSTM模型預測車輛的軌跡,試驗結果表明該方法相比(Cuckoo Search Long Short-Term Memory,CSLSTM)運行速度提升了5倍,運行速度的提升很可能會影響預測的精確度,需要在2者之間取平橫。Zhao等[28]提出1種多智能體張量融合(Multi Agent Tensor Fu?sion,MATF)網絡模型,該模型將過去軌跡和場景編碼為1個MATF,再對未來軌跡進行周期性解碼,利用對抗性損失來學習隨機預測,該方法結合了上下文約束、道路結構以及車輛交互信息,所以確保了該方法的預測精確度,輸入的信息量又導致了預測時間的增加。Zeng等[14]提出了1種神經運動規(guī)劃器(Neural Motion Planner,NMP),輸入原始激光雷達數(shù)據(jù)和高清地圖,輸出一系列其他車輛的預測軌跡,選擇代價最小的1條軌跡,該方法需要提高原始激光雷達數(shù)據(jù)的精確度,來確保軌跡預測的準確性。謝輝等[29]提出了基于交通場景特征辨識的軌跡預測方法,輸入雷達采集的車輛運動軌跡,采用基于車輛運動模型和Markov決策過程,預測車輛的運動軌跡,該方法在基于實車試驗的情況下,能夠在確保預測誤差的范圍內,預測8 s內的車輛軌跡。基于換道場景的軌跡預測算法如表2,根據(jù)算法的類別將算法分為4個部分,分別為卡爾曼濾波、單一神經網絡、混合神經網絡和其他方法。
表2 基于換道場景的軌跡預測算法
圖7 GISNet網絡結構[27]
T型路口與十字路口相似,目前也有一些用于T型路口處的車輛軌跡預測方法,例如Ding等[30]提出了1種適用于復雜環(huán)境的在線2級軌跡預測框架,該框架第1級使用LSTM網絡,并根據(jù)歷史觀察數(shù)據(jù)來預測車輛的未來軌跡,輸出層被修改為softmax層;第2級是設置合理的代價函數(shù)來選擇最優(yōu)的預測軌跡,該方法的大部分時間消耗在了成本圖上,解決在成本圖上消耗時間長的問題可以有效提升預測效率,軌跡預測框架如圖8。Zeng等[14]提出了1種神經運動規(guī)劃器(NMP),輸入原始激光雷達數(shù)據(jù)和高清地圖,輸出一系列其他車輛的預測軌跡,選擇代價最小的一條軌跡。Brechtel等[31]提出了1種基于求解連續(xù)POMDP的方法,輸入預測車輛的位置和速度,由POMDP輸出預測的車輛軌跡,該方法解決了在遮擋情況下的信息融合問題,并有效地提高了預測模型的魯棒性。車輛匯流時也容易發(fā)生交通事故,所以匯流場景的車輛軌跡預測也是很有必要的,因此,Deo等[20]提出了1種基于交互感知的LSTM模型用于匯流場景處的車輛軌跡預測,它將車輛的軌跡歷史和車道結構作為輸入,LSTM模型輸出車輛的預測軌跡?;谄渌鼒鼍暗能壽E預測算法如表3,用于其他場景的軌跡預測算法比較少,主要是屬于神經網絡和其他方法2類。
表3 基于其它場景的軌跡預測算法
圖8 在線2級軌跡預測結構[31]
為了在由人類駕駛員構成的復雜交通中安全高效地行駛,自動駕駛汽車需要具備主動能力,如決定何時變道、超車、減速或合流,這就要求自動駕駛汽車能夠對周圍車輛的未來運動進行推斷。本文基于車輛軌跡預測的交通場景不同,對現(xiàn)階段的車輛軌跡預測算法進行了分類,對本文的總結及其展望如下:
(1)車輛軌跡預測可以分為2種方式:一種方式是預測車輛的駕駛意圖以及固定的軌跡實現(xiàn)軌跡預測的目的,另一種方式是直接預測車輛的實際連續(xù)軌跡。
(2)目前大部分車輛軌跡預測算法是輸入車輛的歷史軌跡以及道路結構,使用神經網絡等方法來預測車輛的軌跡;還有一部分人使用其他方法來預測車輛的軌跡,這些方法主要是利用鳥瞰圖和激光雷達等傳感器數(shù)據(jù)來預測車輛軌跡。
(3)預測車輛軌跡需要車輛的位置、速度信息,智能車獲取信息是通過各種傳感器,所以傳感器的發(fā)展需要從降低成本以及提升傳感器的感知精確度2方面考慮。傳感器的精度需要從魯棒性、檢測精度方面考慮,目前激光雷達的檢測精度可以達到厘米級別,但是對于自動駕駛L5級,需要激光雷達的檢測精度達到毫米級別。
(4)未來真正實現(xiàn)L5級自動駕駛時,交通事故責任的承擔問題是阻礙自動駕駛汽車上路的最大瓶頸,所以政府需要出臺相關的法律政策和交通規(guī)則來支持自動駕駛的實現(xiàn)。
(5)研究基于馬爾可夫決策過程的車輛軌跡預測方法,只需根據(jù)車輛的當前狀態(tài)(位置、速度、加速度)和環(huán)境信息來預測車輛的軌跡,可以有效降低車輛軌跡預測算法的復雜度,是未來發(fā)展趨勢。