李 凱
(四川智慧高速科技有限公司,四川 成都 610000)
交通流預測是交通流數(shù)據(jù)建模、交通管理和運營的重要組成部分。對實時交通流進行準確的預測,可為公眾提供較為準確的交通信息,并對公眾出行的決策進行指導,也可為政府部門提出緩解擁堵的對策建議,以降低管理和運營成本。隨著基于高分辨率交通流數(shù)據(jù)的智能交通系統(tǒng)(Intelligent Transportation System,ITS)的應用,可通過歷史數(shù)據(jù)集和實時的在線數(shù)據(jù)驅動法來解決問題。從定義上來講,交通流預測是一個時間序列的問題,即根據(jù)一次或多次基于特定時空環(huán)境下收集到的前一個時期的位置數(shù)據(jù),來估計未來某個時間的車流量?;跈C器學習的交通流預測模型可分為參數(shù)模型和非參數(shù)模型。
現(xiàn)階段,主流的交通流預測模型有差分整合移動平均自回歸模型(Autoregressive Integrated Moving Average model,ARIMA)、神經(jīng)網(wǎng)絡模型以及非參數(shù)模型(見表1)。為了提高預測的準確率,學者們通過借鑒工業(yè)設計的理念,如用于時變參數(shù)的裁決性調(diào)整技術和自適應估計,以及用于估計參數(shù)的回饋環(huán)路結構。Chen等[1]基于天氣和時間提出了一種交通流運動的預測和管理模型,即在模型中將天氣分為好天氣和壞天氣,并采用一種基于時序聚類的算法,對工作日和周末的交通流進行預測,而其中的均方根誤差(Root Mean Square Error,RMSE)作為模型的一個評價指標,通過研究發(fā)現(xiàn),模型在30 min內(nèi)的預測效果良好。Lin等[2]提出了一種名為CORSIM的微觀模型來對短期交通流進行預測。Lin等[2]和Yu等[3]在模型中引入了城市交通網(wǎng)絡(Urban Traffic Network,UTN)的拓撲結構,這種模型是基于彼此鏈接的空間關系,將實時道路交通狀態(tài)作為UTN模型的輸入來預測交通流,將24 h分為四個階段,每個階段分別建立對應的統(tǒng)計模型,并滿足二項分布。該模型通過引入n個鄰居的平均流量來提高UTN的利用率,Yu等[3]建立的模型中的數(shù)據(jù)集來自2015年6月23日至7月8日的秦皇島交通流數(shù)據(jù)。另外,基于K最鄰近法(K-Nearest Neighbors,KNN)非參數(shù)回歸[4],以及基于自回歸集成移動平均誤差(Autoregressive Integrated Moving Average errors,ARIMAX)的多變量預測模型在生產(chǎn)中都有著相應的應用。
表1 基于傳統(tǒng)基于機器學習的交通流預測常用的模型策略
支持向量回歸(Support Vector Regression,SVR)適用于處理連續(xù)性數(shù)據(jù)值,而支持向量機(Support Vector Machine,SVM)則更適用于處理分類問題。核函數(shù)可將低維數(shù)據(jù)映射到更高維,超平面則用來預測目標值。超平面的邊界線可劃定相應的區(qū)域,支持向量既可在邊界線內(nèi)的區(qū)域,也可在邊界線外的區(qū)域,而最接近邊界的數(shù)據(jù)點則成為學者們最關心的重點。
SVR可用于多步驟的交通流預測。有學者[5-7]通過引入四種類型的參數(shù)作為模型輸入,即工作日、雙休日、節(jié)假日以及天氣,數(shù)據(jù)集則來自大連高爾基路取樣的實時數(shù)據(jù),并在SVM模型中引入徑向基核函數(shù)(Radial Basis Function,RBF),輸入變量分別為T、P T、HT、H PT,分別對應4種不同的SVM。研究結果表明,SVM-HPT模型的預測值比其他3個模型更好。在異常情況下,采用在線支持向量回歸(Online-Support Vector Regression,OL-SVR)[8]對交通流進行預測,與高斯最大似然模型(Gaussian Maximum Likelihood,GML)、霍爾特指數(shù)平滑模型(Holt Exponential Smoothing)[9]和人工神經(jīng)網(wǎng)絡模型(Artificial Neural Network models)相比,OL-SVR模型的預測結果更優(yōu)異。
Wang等[10]基于RBF和引入了核參數(shù)的SVR模型,對短時交通流進行預測。Dimitriou等[11]提出了一種節(jié)假日期間的交通流預測模型,即通過引入離散傅里葉變換(Discrete Fourier Transform,DFT)[12]來預測節(jié)假日和工作日的交通流的共同趨勢,同時使用SVR預測殘差。而在預測城市間交通流方面,基于蟻群策略優(yōu)化的SVR比集成移動平均模型的季節(jié)性自回歸更有效。
由于交通流具有隨機性和非線性,常量預測模型因其自身存在的設計缺陷,難以應對復雜多變的外界環(huán)境。非常量預測模型逐漸成為機器學習中最有效也應用最廣泛的方法,人工神經(jīng)網(wǎng)絡(Artificial neural network,ANN)就是其中的佼佼者,其也被學界公認為機器學習系統(tǒng)的范式。Bowen等[13-15]建立了一個深度神經(jīng)網(wǎng)絡模型,并與以前的常量預測法進行比較,研究結果表明,深度神經(jīng)網(wǎng)絡模型預測高峰期交通流的表現(xiàn)要遠優(yōu)于其他模型;Zhan等[16]對反向傳播神經(jīng)網(wǎng)絡(Back-propagation Neural Network,BPNN)在交通流量、速度和道路占用率等方面的預測進行研究,發(fā)現(xiàn)其也具有良好的應用前景。深度學習模型被廣泛地應用于交通流預測中,而為了提高深度學習模型的性能,將傳統(tǒng)的KNN和SVR等方法進行改良后應用于深度學習模塊中。
受混合機器學習模型不同模塊特征的啟發(fā),可將機器學習算法用于預測道路連接處短時間內(nèi)的交通堵塞。例如,Chang等[17]通過對不同的交通流模式進行分組歸類,然后再用神經(jīng)網(wǎng)絡對交通流進行計算。為了應對復雜的環(huán)境,而將混合機器學習的模塊引入漸進式預測模型中,但學術界提出了另一種思路:當外界環(huán)境和系統(tǒng)出現(xiàn)變化時,如系統(tǒng)框架的迭代和更新,離線模型可基于歷史信息進行訓練;而當模型在線時,可通過V2X或V2N通信的方式對數(shù)據(jù)進行即時處理和運算。
由于深度學習模型的結構復雜度高,可捕獲數(shù)據(jù)間的復雜關系,故可獲得較好的預測結果,深度學習技術已在圖像、視頻以及音頻的處理中得到了應用,但其也存在著可解釋性缺乏的問題,而傳統(tǒng)機理模型因其固有的限制,導致其預測精度往往不及深度學習模型,但其能夠較好地剖析交通現(xiàn)象,模擬演化過程,揭示路段間的交互規(guī)律。由于交通堵塞和交通流量的變化規(guī)律是非線性的,深度學習模型甚至能在沒有足夠信息時獲得所需的數(shù)據(jù)。Ozbay等[18-20]開發(fā)了一種基于堆疊式自動編碼器的深度學習方法用來預測交通流量。而以循環(huán)神經(jīng)網(wǎng)絡或時間遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)為代表的多模態(tài)深度學習方法也被廣泛地應用于交通流預測中,來應對更加復雜的環(huán)境。在不同的交通情況下,如事故、天氣情況、高峰期等會受到社會環(huán)境和自然因素的影響(見表2)。
表2 影響交通流預測的環(huán)境因素
研究證明,與淺層機器學習的預測模型相比,長短期記憶神經(jīng)網(wǎng)絡(Long-Short Term Memory,LSTM)模型在不同環(huán)境中具有更好的可操作性。LSTM可通過時間信息的組合來對缺失的觀測值進行預測,平均絕對誤差(Mean Absolute Error,MAE)、平均相對誤差(Mean Relative Error,MRE)和均方根誤差(Root Mean Square Error,RMSE)可作為評價對比LSTM和其他深度學習模型的指標。單預測模型的缺失可通過結合一個或兩個模型來克服,如Cheng等[21]將CNN和RNN進行結合,即將一維CNN模塊和兩個LSTM模塊進行結合,來構建模型,LSTM可用來捕捉長短期的時間依賴性,而CNN則用來記錄局部趨勢特征。Zhang等[22-25]將蟻群優(yōu)化和ANN結合來構建模型,ANN可減少數(shù)據(jù)預處理流程,蟻群優(yōu)化則是基于數(shù)據(jù)集的特征結構來構建交通流預測模型。Wu等[26-28]將GRU和LSTM應用于交通流的預測中,LSTM和GRU網(wǎng)絡可用于研究不同環(huán)境條件下的交通系統(tǒng)的時空相關性,二者由許多存儲單元組成,通過對500個觀察點每隔5 min收集數(shù)據(jù),對收集到的數(shù)據(jù)進行匯總,即可得到數(shù)據(jù)集。數(shù)據(jù)集的訓練一方面是對LSTM和GRU的訓練[29],另一方面是基于分類流量異常的方法訓練,最終得到的預測結果比傳統(tǒng)的深度學習預測模型要好[27]。相關深度學習方法在交通流預測中的優(yōu)缺點見表3。
表3 相關深度學習方法在交通流預測中的優(yōu)缺點
周相似性的時間序列、日相似性的時間序列和小時時間序列是由源時間序列直接生成的。移動平均數(shù)、指數(shù)平滑法、ARIMA法通常被用來預測這三種時間序列的數(shù)據(jù),并將其作為神經(jīng)網(wǎng)絡預測結果的預處理數(shù)據(jù)源。這種模型的時間處理策略比單個模型的效果要更好[30]。而基于遺傳算法的多層次結構優(yōu)化策略可協(xié)助時間和空間特征,以及選擇適當?shù)纳窠?jīng)網(wǎng)絡模塊,能夠更有針對性地處理長短時和空間地的依賴關系。此外,其還可以用于單變量和多變量交通流數(shù)據(jù)[31]。
為了能夠服務公眾出行,以及為政府部門的交通管理模式建言獻策,交通流預測需要考慮相關因素,并選擇恰當?shù)慕2呗?,以便能及時匹配各種環(huán)境情況和數(shù)據(jù)資源。本研究探討了機器學習技術在交通流預測中的發(fā)展和應用。盡管機器學習離真正的大規(guī)模生產(chǎn)應用還有不短的距離,但作為未來智能交通系統(tǒng)的關鍵一環(huán),隨著以GPU為代表的數(shù)據(jù)運算硬件的不斷改進和升級,深度學習算法也在逐步演進,人工智能關鍵技術也將得到長足發(fā)展,將人工智能引入交通行業(yè)是大勢所趨,這可有效控制因公路容量有限、可達性較差所引發(fā)的交通需求增長。通過對交通擁堵的治理,來提高交通資源利用率,這對節(jié)約出行成本、降低環(huán)境污染等具有重要意義。