郅英沖, 趙金寶, 李曉飛, 韓剛, 孔維超, 潘春雨
(1.濟南軌道交通集團有限公司, 山東 濟南 250000;2.山東理工大學 交通與車輛工程學院, 山東 淄博 255000;3.東南大學 交通學院, 江蘇 南京 210009)
數(shù)字化交通信息技術(shù)與智慧公路融合是未來科技引領(lǐng)基礎(chǔ)設(shè)施建設(shè)重要基礎(chǔ),數(shù)字化交通、信息化融合在交通行業(yè)中成為廣泛關(guān)注對象。2022年3月年交通運輸部與科學技術(shù)部聯(lián)合印發(fā)了《“十四五”交通領(lǐng)域科技創(chuàng)新規(guī)劃》[1],規(guī)劃提出要打造交通基礎(chǔ)設(shè)施數(shù)字化升級關(guān)鍵技術(shù),研發(fā)交通基礎(chǔ)設(shè)施數(shù)字化表征基礎(chǔ)理論與方法,推動交通基礎(chǔ)設(shè)施全壽命周期數(shù)字化。交通流作為交通基礎(chǔ)設(shè)施全壽命周期中重要組成部分,受到廣泛關(guān)注。道路智慧化信號實時調(diào)整、以大數(shù)據(jù)依托的交通規(guī)劃等方面,實時與精準的交通流預測至關(guān)重要,也是作為交通管理部門實時采取交通管控、強化實施交通誘導的重要依據(jù)[2]。
交通流預測為交通領(lǐng)域研究的重點課題,在以往交通流預測模型研究中,Ahmaed等[3]首次使用時間序列理論模型對高速公路交通流預測,隨著技術(shù)的不斷發(fā)展,傳統(tǒng)交通流預測模型因模型框架單一且預測精度不足,已不能滿足大數(shù)據(jù)交通流預測。智能預測模型開始逐漸出現(xiàn)在交通領(lǐng)域的視野,通過運用類似“黑箱”的模型進行多維度的處理數(shù)據(jù)分析。曹潔等[4]通過粒子群算法對BP神經(jīng)網(wǎng)絡(luò)算法進行算法優(yōu)化,并應(yīng)用于實測交通流數(shù)據(jù),驗證了算法的可行性和有效性。王楊等[5]構(gòu)建自適應(yīng)門控圖神經(jīng)網(wǎng)絡(luò),在Pe MSD7和Los-loop上網(wǎng)絡(luò)數(shù)據(jù)集證明了模型的優(yōu)越性。Lou等[6]建立了相關(guān)向量機模型,對數(shù)據(jù)小樣本進行分析,實驗表明,數(shù)據(jù)具有更好的泛化能力。智能預測分析對于大數(shù)據(jù)有較強的分析能力,但對于性能要求較高,計算時間較長,訓練過程復雜,不利于大數(shù)據(jù)的分析預測,專家開始將視野轉(zhuǎn)向構(gòu)建多組合的預測模型,目前國內(nèi)外最常用的方法是采用2種及以上模型組合的方式進行預測。組合模型主要分為兩類:一是使用不同模型相互組合,一種模型的輸出作為另一種模型的輸入;二是不同模型同時進行預測,通過評價指標選擇最優(yōu)結(jié)果。丁新宇等[7]建立了深度時空殘差網(wǎng)絡(luò)的路網(wǎng)短時交通流預測,通過驗證表明實驗結(jié)果的準確性。Xu等[8]將深度置信網(wǎng)絡(luò)與支持向量回歸模型結(jié)合對重慶金龍路交通數(shù)據(jù)預測,驗證了其效果更好。汪鳴等[9]通過門控循環(huán)單元模型挖掘數(shù)據(jù)的時空特征與長短期預測的精度,在長期預測方面具有較好的結(jié)果。組合模型之間相互協(xié)調(diào),彌補模型之間的缺點尤為重要,其組合方式變化多樣,不同模型適用于不同的道路交通狀況,需要與數(shù)據(jù)緊密配合,以實現(xiàn)預測的精度更加準確。
預測精度不僅受模型的影響,時間跨度與時間粒度對預測精度也有影響。Chen等[10]對出租車數(shù)據(jù)按照不同年份、不同日期、時間粒度為30、60 min作為樣本,結(jié)果顯示,不同時間對于預測精度具有重要影響。周海赟等[11]構(gòu)建SSARX-NARX模型,利用時間粒度為5 min的交通流,通過不同步長進行對數(shù)據(jù)進行預測,發(fā)現(xiàn)步長越大,效果越好。楊紫煜等[12]通過構(gòu)建改進卡爾曼濾波對交通流進行預測,分析預測6、10 min的交通流,發(fā)現(xiàn)精度越小,預測質(zhì)量越高且數(shù)據(jù)量越大精度越高。姚志洪等[13]建立了小時間粒度的交通流預測模型,小時間粒度能夠更好地反映交通流特征,預測精度更加準確。Tang等[14]將時間粒度分為2、10、60 min進行對比,利用模型對比發(fā)現(xiàn)小粒度預測結(jié)果適用性更強。將時間粒度與時間跨度縮短,更加精細化,預測精度可以繼續(xù)提高。
高速公路的數(shù)據(jù)樣本較大,通過采用深度學習組合預測進行訓練,可以使交通流預測更趨于真實值,但是大多數(shù)研究只針對單一時間段對交通流數(shù)據(jù)進行分析預測,未能充分考慮不同時間粒度對交通流預測的影響。本文中以英國高速公路M3為例,對高速公路交通流進行多模型行組合預測,并進行模型對比,同時針對不同時間粒度的交通流數(shù)據(jù)進行分析,觀察預測效果。
支持向量機(support vector machines, SVM)在統(tǒng)計算法中是一種比較經(jīng)典的模型[15],而支持向量機回歸(support vector regression , SVR)是在支持向量機的理論框架構(gòu)建的基礎(chǔ)上的回歸模型,損失函數(shù)是模型的核心算法,利用交通流數(shù)據(jù)樣本,結(jié)合損失函數(shù)的性質(zhì),采用不敏感損失函數(shù)ε,構(gòu)建SVR模型,稱為ε-SVR模型。
選定訓練數(shù)據(jù)集T={(x1,z1),(x2,z2),…,(xN,zN)},通過模型輸出f(xt)與真實值zt之間的差值進行損失函數(shù)的計算,當誤差小于ε時,忽略不計,反之,當誤差為ξ-|ε|時,ε-SVR的目標函數(shù)為
(1)
雙重問題定義為
(2)
當
Qij=K(xi,xj)≡φ(xi)Tφ(xj)。
解決問題后,近似函數(shù)為
(3)
利用ν-支持向量分類,另外設(shè)置一個參數(shù)ν來調(diào)節(jié)支持向量的個數(shù),具體優(yōu)化過程為
(4)
雙重問題定義為
(5)
近似函數(shù)為
(6)
(7)
核函數(shù)將采用高斯徑向基核函數(shù)(RBF)為
(8)
長短時記憶(long short-term memory, LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)中的特殊類型形式是由Hochreiter & Schmidhuber 在1997年提出,隨著技術(shù)的發(fā)展與創(chuàng)新,Alex Graves對模型算法進行了完善與優(yōu)化,LSTM模型因權(quán)重矩陣無法確定,從而導致梯度消失與梯度爆炸的問題[16],利用LSTM模型其強大的特殊記憶功能避免模型長期依賴的問題,得到國內(nèi)外學者的廣泛關(guān)注,具體流程圖如圖1所示。
圖1 LSTM模型流程圖
LSTM的核心稱為記憶模塊,記憶模塊由遺忘門、輸入門、輸出門和一個記憶單元組成的,整理的數(shù)據(jù)樣本基于cell state(單元狀態(tài))在模型中進行樣本傳輸,LSTM模型將利用“遺忘層”通過運用sigmoid函數(shù)控制什么樣的信息通過cell state,將無用信息進行過濾篩選,輸出ft,
ft=σ(Wf[ht-1,xt]+bf),
(9)
式中:σ為激活函數(shù)sigmoid;Wf為遺忘門單元權(quán)值;bf為偏移量
it=σ(Wi[ht-1,xt]+bi),
(10)
(11)
(12)
最后通過sigmoid層得出初始化輸出ot,并運用tanh層把Ct值歸一化到[-1.1]之間,最終得到ht如公式(13)。
(13)
LSTM模型構(gòu)建過程中使用的sigmoid激活函數(shù)是建立非線性模型算法過程中常用激活函數(shù),使神經(jīng)函數(shù)可以任意逼近任何非線性函數(shù),sigmoid激活函數(shù)如公式(14)。
(14)
將高速公路數(shù)據(jù)樣本加載到LSTM訓練模型進行運算,模型主要通過單元權(quán)重和偏移量不斷訓練與更新輸入輸出數(shù)據(jù),對數(shù)據(jù)樣本進行優(yōu)化調(diào)整,從而解決循環(huán)神經(jīng)網(wǎng)絡(luò)梯度消失問題,最終得出最優(yōu)結(jié)果,達到預測不同時間粒度狀態(tài)下的交通流的精度要求。
SVR模型構(gòu)建過程中最為關(guān)鍵問題在于懲罰因子C,懲罰因子的設(shè)置大小,會導致模型過擬合現(xiàn)象。LSTM模型由于其特殊的門控制,因此導致其存在梯度消失與梯度爆炸的問題。SVR-LSTM組合預測模型將結(jié)合LSTM模型強大的記憶功能以及SVR模型在高維空間中運用核函數(shù)替代功能,使原來的線性算法非線性化,通過不斷更新具有使用價值的信息,作為記憶保存,并進行長期跟蹤,不斷優(yōu)化,最后輸出模型,因此將SVR與LSTM進行結(jié)合能夠避免過擬合現(xiàn)象與梯度消失問題。高速公路上交通涵蓋了客車、小汽車、貨車等多種類型車輛,相對于其他道路特征較為復雜,同時交通流數(shù)據(jù)的時間跨度較長,通過建立組合模型的優(yōu)勢進行數(shù)據(jù)多方面優(yōu)化,結(jié)合模型特點,建立多層次預測模型結(jié)構(gòu),從不同層面、不同維度提取交通流數(shù)據(jù)中的相關(guān)特征,識別高速公路交通流量特點,并根據(jù)不同時間粒度對預測結(jié)果是否產(chǎn)生進行分析,能夠更加精確的預測出高速公路路段交通流?;诖?構(gòu)建SVR-LSTM組合預測模型的預測框架,對高速公路全年樣本交通流數(shù)據(jù)進行預測分析。具體預測模型流程框架如圖2所示。
圖2 SVR-LSTM系統(tǒng)模型框架圖
預測模型性能優(yōu)劣通過準確率不能直觀地反映出來,為更準確評價交通流預測模型的性能,通常采用評價指標的方式對交通流預測模型進行評價,評價指標通常有均方根誤差、平均絕對誤差、平均絕對百分誤差等。本文主要利用高速公路交通流數(shù)據(jù)非線性特性、流量特點與模型參數(shù)等多方面因素,建立評價指標體系。
① 均方根誤差。均方根誤差(RMSE)是誤差分析的常用指標評價之一,其結(jié)果主要表示預測結(jié)果的離散程度,均方根誤差值越趨于0,其擬合程度相對越好,計算公式為
(15)
② 平均絕對誤差。平均絕對誤差(MAE)亦是誤差分析的常用指標評價之一,采取誤差的絕對值進行綜合評價,主要是由于預測誤差值有正負之分,為避免正負抵消,平均絕對誤差越低代表預測精度越高。計算公式為
(16)
TensorFlow作為Python開源的深度學習框架,其具有完善的深度學習調(diào)用函數(shù),通過搭建數(shù)據(jù)流圖的處理框架,實現(xiàn)數(shù)據(jù)的分析預測。本文運用TensorFlow中的Keras高層神經(jīng)網(wǎng)絡(luò)模型,在Python開發(fā)環(huán)境中的Anaconda模塊中完成模型的搭建與訓練,完成數(shù)據(jù)的深度學習與預測。建立基于SVR-LSTM模型系統(tǒng)的交通流預測框架,在模型框架內(nèi)實現(xiàn)數(shù)據(jù)的運算與交互。為保證預測系統(tǒng)生成的實時性與有效性,避免數(shù)據(jù)對于訓練依賴性問題,通過多次實驗訓練、調(diào)整參數(shù),最終完成數(shù)據(jù)的擬合預測。
2.1.1 實驗數(shù)據(jù)描述
本文主要選取英國戰(zhàn)略公路網(wǎng)M3高速公路由北向南道路,道路環(huán)境如圖3所示,運用道路攝像頭采集的道路交通流數(shù)據(jù),采集的數(shù)據(jù)為15 min的南行四車道交通流量總和,通過Numpy模型對數(shù)據(jù)進行合并處理,得到1 440、60、15 min數(shù)據(jù)采樣時間粒度的數(shù)據(jù)樣本。
圖3 數(shù)據(jù)采集環(huán)境
2.1.2 實驗數(shù)據(jù)處理過程
將選取一周交通流(每15 min交通量為1組)共672組數(shù)據(jù)用于單一模型與組合預測模型的構(gòu)建,利用iloc函數(shù)進行測試集、訓練集的劃分,訓練集以樣本數(shù)據(jù)的80%的數(shù)據(jù)量,測試集以樣本數(shù)據(jù)的20%的數(shù)據(jù)量,總計538個訓練樣本與134個測試樣本。高速公路交通流數(shù)據(jù)分布具有非線性特點,其采集數(shù)據(jù)量及時間粒度跨度較大,存在異常波動情況、缺失值的情況較少,利用插值法對交通流數(shù)據(jù)樣本進行預處理,同時為了更好地滿足模型的訓練需要,提高數(shù)據(jù)預測的精準度與可信度,將差分后的數(shù)據(jù)進行標準歸一化處理,將按照歸一化標準將數(shù)據(jù)縮小至[0,1]的區(qū)間上,最終得出輸入訓練集、測試集的數(shù)據(jù)樣本。交通流數(shù)據(jù)歸一化結(jié)果如圖4所示。數(shù)據(jù)歸一化公式為
圖4 交通流數(shù)據(jù)歸一化結(jié)果
(17)
式中:x′為歸一化結(jié)果;x為數(shù)據(jù)樣本。
利用Python編程構(gòu)建SVR模型,選取RBF作為核函數(shù),進行模型訓練實驗,通過調(diào)整超參數(shù),模型訓練過程中重點考慮訓練周期過長時存在模型過擬合現(xiàn)象以及計算效率降低。最終在兼顧精度與效率的情況下,確定參數(shù)的設(shè)置:參數(shù)懲罰因子C為15;γ系數(shù)為0.659,SVR模型預測結(jié)果如圖5所示。隨著迭代次數(shù)的繼續(xù)增加,訓練模型誤差波動將越小,當增加到極限時模型有可能出現(xiàn)過擬合現(xiàn)象,LSTM模型預測結(jié)果如圖6所示,模型誤差最小如圖7所示,LSTM層數(shù)設(shè)置輸入層、隱藏層與輸出層,為提高預測精度,經(jīng)不斷調(diào)整模型參數(shù)設(shè)置,最終確定參數(shù)選擇:隱藏層神經(jīng)元個數(shù)為24,迭代數(shù)為100,一次訓練所選取的樣本數(shù)為20,此時模型趨近穩(wěn)定,LSTM模型迭代平均誤差如圖8所示。
圖5 SVR模型預測結(jié)果
圖6 LSTM模型預測結(jié)果
圖7 SVR模型誤差
圖8 LSTM模型迭代平均誤差
如圖9所示,通過構(gòu)建單一模型與組合模型預測的方式對不同模型預測結(jié)果進行對比分析,不同的預測模型的精度具有差異,LSTM模型在時間序列峰值與平穩(wěn)性方面性能展現(xiàn)了優(yōu)勢,與交通流特征擬合效果較好,體現(xiàn)了其強大的時間序列特征提取能力與強大的長時間記憶能力,但LSTM模型在突變的交通流序列中性能降低。SVR模型在識別時間序列波動較大的問題上,不能較好地擬合節(jié)假日等特殊因素的交通流特征,而SVR-LSTM模型能夠在突變交通流、平穩(wěn)時段等方面擬合效果更好,說明對于高速公路交通流狀態(tài)下,SVR-LSTM模型能夠具有很好的適應(yīng)能力。
圖9 模型對比結(jié)果
通過利用構(gòu)建的模型訓練分析,單一模型預測精度相對較低,評價指標顯示SVR模型與LSTM模型的RMSE)分別為37.09、33.46,MAE分別為29.58、24.70。傳統(tǒng)預測模型的效果較差:一方面原因是單一預測模型的影響覆蓋范圍較低,因素考慮不全;另一方面原因由于時間跨度較大,節(jié)假日與天氣之間的影響因素相對有較大明顯,使得交通流量的平穩(wěn)性較差,故擬合效果不夠理想。不同模型預測結(jié)果評價指標見表1。
表1 不同模型預測結(jié)果評價指標
根據(jù)表1可以看出, SVR預測模型預測精度最差,LSTM模型在其強大的記憶能力下相比于SVR預測精度有較大幅度,但是將SVR-LSTM模型組合預測,效果較單一模型較好,依據(jù)評價指標RMSE觀測,SVR-LSTM模型相比于單一預測模型精度分別提高了13.8%、4.45%;依據(jù)評價指標MAE觀測,SVR-LSTM模型相比于單一預測模型精度分別提高了22.79%、7.53%。
SVR-LSTM模型在預測精度可以保證的前提下,時間粒度與時間周期對于交通流預測也會產(chǎn)生影響,本文在基于組合預測模型的基礎(chǔ)上,提出基于不同時間粒度(DTS)狀態(tài)下的交通流預測,數(shù)據(jù)選取英國國家高速公路局提供的M3高速公路2018-01-01—12-31交通流數(shù)據(jù),時間粒度為24 h,數(shù)據(jù)樣本為365個;2018-06-01—30,時間粒度為1 h,數(shù)據(jù)樣本720個;2018-06-17—23,時間粒度為15 min,數(shù)據(jù)樣本為672個,獲取的數(shù)據(jù)樣本清單見表2。
表2 獲取的數(shù)據(jù)樣本清單
基于深度學習組合模型預測對數(shù)據(jù)樣本進行不同時間跨度、不同時間粒度下交通流的對比分析,通過不斷調(diào)整參數(shù)與多次實驗的方式將數(shù)據(jù)樣本進行模型擬合,以達到最優(yōu)擬合結(jié)果,結(jié)果分別如圖10、11、12所示。
圖10 時間粒度為1 440 min模型預測結(jié)果
圖11 時間粒度為60 min模型預測結(jié)果
圖12 時間粒度為15 min模型預測結(jié)果
不同時間粒度預測結(jié)果評價指標見表3,以周為周期、15 min為粒度的交通流量比以年為周期、1 440 min為粒度的交通流量的RMSE降低了74.63%,MAE減小了78.77%;以周為周期、15 min為粒度的交通流量比以月為周期、60 min為粒度的交通流量的RMSE降低了64%,MAE減小了60.55%;以月為周期、60 min為粒度的交通流量比以年為周期、1 440 min為粒度的交通流量的RMSE降低了29.52%,MAE減小了46.20%,以周為周期、15 min為粒度的交通預測精度較1 440、60 min的時間粒度預測精度更高,但相應(yīng)周期越長,預測效果越差。
表3 不同時間粒度預測結(jié)果評價指標
為使未來數(shù)字化交通中交通流預測更加精確,使出行者能夠在新時代交通系統(tǒng)中有更好的出行體驗,建立基于SVR-LSTM組合預測模型的高速公路交通流預測模型,運用歸一化方式降低數(shù)據(jù)波動范圍,通過SVR非線性回歸模型調(diào)整與LSTM模型不斷更新數(shù)據(jù)參數(shù)進行交通流預測,并增加對不同時間粒度(DTS)狀態(tài)下的交通流分析,通過建立評價指標體系對比分析預測結(jié)果。
實驗結(jié)果表明:建立SVR-LSTM模型預測模型對于高速公路交通流量的預測具有更高的預測精度,通過模型對比,SVR-LSTM模型預測結(jié)果更趨于真實值?;诓煌瑫r間粒度進行研究,發(fā)現(xiàn)交通流數(shù)據(jù)時間跨度越小,時間粒度越小,預測精度越高,預測效果越明顯。