孫影 王鐵
摘 要:針對高速道路場景,對智能車輛前方的目標車輛進行軌跡預測。根據車輛運動軌跡數據具有時序性的特點,并為了增加軌跡特征的表征能力和上下文時空關聯(lián)性,提出了將車道線特征、目標車輛的特征與歷史軌跡數據的特征進行融合,和LSTM-CNN-LSTM融合模型,以提高目標車輛軌跡預測的精度。
關鍵詞:智能車輛;軌跡預測;LSTM;CNN
中圖分類號:TP183 ?文獻標識碼:B ?文章編號:1671-7988(2020)06-31-03
Abstract: In this paper, aiming at the high-speed road scene, the trajectory of the target vehicle in front of the intelligent vehicle is predicted. According to the temporal characteristics of vehicle motion track data, and in order to increase the representation ability of track characteristics and context spatiotemporal correlation, this paper proposes to integrate lane line characteristics, target vehicle characteristics and historical track data characteristics, and the lstm-cnn-lstm fusion model, in order to improve the accuracy of target vehicle trajectory prediction.
Keywords: Intelligent vehicle; Trajectory prediction; LSTM; CNN
CLC NO.: TP183 ?Document Code: B ?Article ID: 1671-7988(2020)06-31-03
引言
動態(tài)路徑規(guī)劃是智能車輛研究的關鍵任務之一,它的難點在于實際道路交通環(huán)境的復雜性,并且周邊車輛目標駕駛員的駕駛意圖隨時可能發(fā)生變化,因此通過實時預測目標車輛的軌跡,使本車及時調整新的路徑、避免交通事故的發(fā)生。
目前車輛運動軌跡預測的研究主要有兩類方法,一種是基于模型的軌跡預測方法,另一種是基于數據驅動的軌跡預測方法[1]。由于基于模型的軌跡預測方法大多依賴對車輛目標運動參數的估計和建模,忽略了駕駛員個性化和環(huán)境多樣性的影響,具有較大的試驗誤差。而基于數據驅動的軌跡預測方法可以挖掘出駕駛員駕駛的行為習慣、駕駛環(huán)境等潛在因素,受到廣大國內外研究學者們的青睞。同時近年來深度學習方法深度的特征表征和泛化能力在圖像領域已經超越了人類水平。在這樣的背景下,本文提出了一種深度卷積神經網絡和時間序列模型來實現(xiàn)前方目標車輛在未來一段時間的軌跡預測,為本車的路徑規(guī)劃提供參考。
1 主要問題分析
傳統(tǒng)的車輛軌跡預測的實時性、準確性較差,難以滿足現(xiàn)有的智能車輛需求。隨著計算機視覺的發(fā)展,本文提出了一種基于視覺的車輛軌跡預測方法,該方法首先通過視覺的方式檢測到目標車輛,進而可以獲得目標車輛歷史一段時間內的位置信息,通過融合歷史特征和當前特征,采取視覺深度學習方法對潛在的有效特征進行學習,例如駕駛員的駕駛行為習慣、環(huán)境因素等,可以更豐富、更多樣化、更準確的進行車輛軌跡預測。
2 模型介紹
2.1 LSTM網絡架構
2.2 特征融合
當前特征:當前特征包含目標車輛檢測框的坐標信息和車道線的坐標信息,分別從視覺車輛和車道線檢測算法獲取,這部分信息包含了待預測目標的圖像坐標位置和車道位置,蘊含道路環(huán)境和目標車輛位置的變化。
歷史特征:目標車輛的歷史軌跡信息,包含歷史時間步長t的目標車輛軌跡信息序列,同時歷史時間步長決定了能夠預測多長時間步的目標軌跡,這部分信息是先驗信息,由傳感器獲取,蘊含了駕駛員的駕駛行為特征信息。
參考word2vec[3]思想,為了更好地將稀疏高維的當前特征和歷史特征有機的結合在一起,提出了特征融合的方法。
當前特征和歷史特征經過歸一化預處理之后,統(tǒng)一按照時間步長輸入到特征嵌入層,將高維的特征向量映射成低維稠密的特征向量,從而為LSTM時間序列模型提供包含更多語義信息的輸入特征。
2.3 軌跡預測模型
為了增加軌跡特征的表征能力和上下文時空相關性,本文在LSTM模型的基礎上,介紹了兩種常用的時間序列預測模型:多層LSTM[4]和CNN-LSTM[5]模型。同時基于上述兩種常用模型,提出了LSTM-CNN-LSTM融合模型,以提高目標車輛軌跡預測的精度。
多層LSTM指的是由2層及以上的LSTM單元構成的網絡,通常為了增加網絡的深度非線性特征提取能力。
CNN模型對局部特征的空間關聯(lián)較敏感,對LSTM的時間上下文是一個補充特征,CNN-LSTM模型由CNN作為融合特征的輸入層,LSTM接受CNN層輸出的特征。
但是,CNN作為時間序列的特征輸入層,不利于提取目標車輛軌跡的時間相關性,為了進一步融合LSTM和CNN對時間、空間特征表達的優(yōu)點,提高模型的泛化能力,本文提出LSTM-CNN-LSTM模型。
車輛目標的生命周期分為新車輛目標出現(xiàn)、已有車輛目標的消失和能夠匹配的車輛目標,本文通過對重疊度選擇合適的閾值判定相鄰2幀之間目標車輛的相關性,假如閾值大于thresh,則認為該車輛目標是同一個車輛目標,否則為新出現(xiàn)的車輛目標,從而實現(xiàn)相同車輛目標軌跡匹配的目標,其中經驗參數thresh需要通過試驗確定。
3 實驗結果分析
在保證試驗數據集和訓練策略一致的基礎上,本節(jié)對不同的目標車輛軌跡預測算法的性能通過測試集進行試驗評估,自制測試集共包括11000張視頻幀圖片。
如表1所示,將測試集按照光照條件的不同分成白天和夜晚各5500張圖片,分別對Stacked LSTM、CNN-LSTM和LSTM-CNN-LSTM模型進行試驗效果對比,并選取MSE作為評價指標,其中*表示模型算法沒有采用特征融合改進,即通過對比說明特征融合對評價指標MSE的貢獻。
4 分析結論
由表1可知,本文提出的LSTM-CNN-LSTM模型的MSE明顯比Stacked LSTM、CNN-LSTM模型低,平均MSE為0.04;且相同模型在光照條件較好時的MSE明顯比光照較差時低,模型的泛化效果更好;另外當沒有特征融合時,LSTM- CNN-LSTM模型的MSE明顯低于帶有特征融合的LSTM- CNN-LSTM模型,試驗分析主要的原因是嵌入向量比稀疏向量包含更有效的深度特征表示,對目標車輛軌跡預測有益。
參考文獻
[1] 季學武,費聰,何祥坤,等.基于LSTM網絡的駕駛意圖識別及車輛軌跡預測[J].中國公路學報, 2019, 32(6): 34-42.
[2] Greff K, Srivastava R K, Koutník J, et al. LSTM: A search space odyssey[J]. IEEE transactions on neural networks and learning systems, 2016, 28(10): 2222-2232.
[3] Goldberg Y, Levy O. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method[J].arXiv preprint arXiv: 1402.3722, 2014.
[4] Li J, Mohamed A, Zweig G, et al. Exploring multidimensional LSTMs for large vocabulary ASR[C]//2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016: 4940-4944.
[5] Vosoughi S, Vijayaraghavan P, Roy D. Tweet2vec: Learning tweet embeddings using character-level cnn-lstm encoder-decoder[C]// Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2016: 1041-1044.