孫振華,王轉(zhuǎn)轉(zhuǎn),肖 鑫
(1.紹興市交通建設(shè)有限公司,浙江 紹興 321000;2.長安大學(xué) 信息工程學(xué)院,陜西 西安 710064)
城市交通事故量是衡量一個(gè)城市特定時(shí)間內(nèi)道路安全水平的重要指標(biāo)。交通事故的發(fā)生雖然微觀上具有一定的不確定性和隨機(jī)性,但在宏觀空間層面上還呈現(xiàn)一定的規(guī)律性,因而具有可預(yù)測(cè)性。當(dāng)前,預(yù)測(cè)的方式主要可以分為實(shí)時(shí)預(yù)測(cè)和短周期(如周和月)預(yù)測(cè)。實(shí)時(shí)預(yù)測(cè)通常應(yīng)用深度學(xué)習(xí)技術(shù)結(jié)合獲取的空間多源交通數(shù)據(jù)進(jìn)行模型訓(xùn)練并進(jìn)行交通事故量的預(yù)測(cè)[1-2];短周期交通事故量預(yù)測(cè)通常將交通事故量按時(shí)間先后順序構(gòu)成序列,對(duì)序列數(shù)據(jù)進(jìn)行模型訓(xùn)練并進(jìn)行預(yù)測(cè)。短周期交通事故量預(yù)測(cè)是市一級(jí)交警部門制定交通決策和交通措施的重要參考。對(duì)于經(jīng)驗(yàn)豐富的交警而言,即使交通事故量時(shí)間序列基本趨勢(shì)表現(xiàn)為明顯的季節(jié)周期性特征,但疊加在周期性規(guī)律中的波動(dòng)也會(huì)使他們也很難對(duì)交通事故進(jìn)行較為準(zhǔn)確的估計(jì),因而如何使預(yù)測(cè)達(dá)到可接受的準(zhǔn)確度是需要解決的問題。短周期城市交通事故量的準(zhǔn)確預(yù)測(cè)需要捕獲交通事故量時(shí)間序列內(nèi)在的時(shí)序依賴關(guān)系。常用的基于時(shí)間序列的典型模型有自回歸模型、神經(jīng)網(wǎng)絡(luò)模型以及組合模型等。
時(shí)間序列自回歸模型是一種能對(duì)時(shí)間序列觀測(cè)值內(nèi)在時(shí)序依賴關(guān)系進(jìn)行線性表征的一類模型。該類模型應(yīng)用前需要對(duì)時(shí)間序列樣本數(shù)據(jù)的平穩(wěn)性(數(shù)據(jù)的均值、方差、協(xié)方差指標(biāo)是與時(shí)間無關(guān)的常數(shù))進(jìn)行校驗(yàn)以決定模型類型選擇并對(duì)參數(shù)定階來反映時(shí)序依賴關(guān)系。平穩(wěn)的數(shù)據(jù)適合選用自回歸滑動(dòng)平均模型(Auto-Regressive and Moving Average Model,ARMA),模型階數(shù)p與q分別表示序列觀測(cè)值由過去的p個(gè)序列觀測(cè)值和q個(gè)隨機(jī)擾動(dòng)的線性組合來表示。這兩個(gè)參數(shù)可通過計(jì)算相關(guān)系數(shù)和偏自相關(guān)系數(shù)并通過模型參數(shù)優(yōu)化方法最終確定,并由殘差序列是否為與時(shí)間序列無關(guān)的白噪聲來評(píng)估其有效性。謝華為[3]用具有平穩(wěn)特性的2003至2015年的全國交通事故數(shù)樣本確定ARMA參數(shù)并對(duì)2011至2015年的交通事故數(shù)進(jìn)行擬合。如果樣本數(shù)據(jù)具有非平穩(wěn)特點(diǎn),則需要采用差分自回歸移動(dòng)平均模型(Auto-Regressive Integrated Moving Average Model,ARIMA)進(jìn)行差分處理,差分次數(shù)d是該模型的一個(gè)輸入?yún)?shù)。張杰等[4]發(fā)現(xiàn)1970至1997年全國交通事故十萬人口死亡率時(shí)間序列樣本數(shù)據(jù)具有非平穩(wěn)特點(diǎn),因此采用ARIMA進(jìn)行差分處理并確定模型參數(shù)p、q和d,并對(duì)1993至1997年的死亡率進(jìn)行預(yù)測(cè)。張艷艷等[5]采用ARIMA模型對(duì)非平穩(wěn)的2011至2014年福建海域水上交通的月事故量進(jìn)行差分處理并確定參數(shù),對(duì)2015年各月水上交通事故量進(jìn)行預(yù)測(cè)并評(píng)估誤差。季節(jié)性差分自回歸滑動(dòng)平均模型(Seasonal Auto-Regressive Integrated Moving Average,SARIMA)在ARIMA基礎(chǔ)上引入季節(jié)性因子來表征數(shù)據(jù)的周期性特征,并從趨勢(shì)性、季節(jié)性變動(dòng)以及隨機(jī)變動(dòng)三個(gè)維度對(duì)時(shí)間序列數(shù)據(jù)內(nèi)在時(shí)序依賴關(guān)系進(jìn)行度量。Halim等[6]觀察到印度尼西亞孟加錫市2016至2019年間的交通事故量具有明顯的季節(jié)性特征外,再引入了2020年新冠病毒流行期間事故量有明顯下降趨勢(shì)的數(shù)據(jù),建立SARIMA預(yù)測(cè)模型對(duì)2021全年的交通事故量的變化趨勢(shì)進(jìn)行了預(yù)測(cè)。
基于神經(jīng)網(wǎng)絡(luò)的時(shí)間序列模型是能對(duì)時(shí)間序列觀測(cè)值變化進(jìn)行自學(xué)習(xí)的一類模型。有別于時(shí)間序列自回歸模型參數(shù)的定階依賴樣本數(shù)據(jù)特征或先驗(yàn)知識(shí),該類模型能自動(dòng)捕獲時(shí)間序列樣本觀測(cè)值內(nèi)在的時(shí)序依賴關(guān)系并能進(jìn)行樣本外預(yù)測(cè),實(shí)現(xiàn)這一點(diǎn)的前提往往需要樣本數(shù)據(jù)量足夠豐富,如果有同樣時(shí)空相關(guān)的截面數(shù)據(jù)輔助則更好。安杰等[7]為了預(yù)測(cè)2011年交通事故中的事故數(shù)、死亡人數(shù)、受傷人數(shù)及綜合死亡率,選取1997到2010年時(shí)間序列相關(guān)數(shù)據(jù)的同時(shí),還引入了同時(shí)期的國內(nèi)生產(chǎn)總值(GDP)、人口數(shù)、公路里程等維度數(shù)據(jù),評(píng)估它們與同年全國交通事故量的相關(guān)性進(jìn)而形成截面數(shù)據(jù),將當(dāng)年截面數(shù)據(jù)作為輸入以及將來年的年交通事故量作為期望輸出值,訓(xùn)練得到基于誤差反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)的道路交通安全預(yù)測(cè)模型。李興兵[8]等用BP神經(jīng)網(wǎng)絡(luò)對(duì)城市2011 至2016 年的每日數(shù)據(jù)作為時(shí)間序列訓(xùn)練樣本,結(jié)合機(jī)動(dòng)車年保有量、日天氣因素、節(jié)假日類型等構(gòu)成截面數(shù)據(jù),并對(duì)2017年每日數(shù)據(jù)作為驗(yàn)證樣本進(jìn)行預(yù)測(cè)。由于BP神經(jīng)網(wǎng)絡(luò)模型有收斂速度慢、訓(xùn)練時(shí)間長、容易陷入局部極小點(diǎn)等缺點(diǎn),因而張志豪等[9]針對(duì)1998至2012年全國交通事故死亡人數(shù)時(shí)序數(shù)據(jù)以及GDP、國民總收入、人均GDP等維度的截面數(shù)據(jù),采用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(Long Short-Term Memory,LSTM)進(jìn)行模型參數(shù)的訓(xùn)練,并對(duì)2013至2016年全國交通死亡人數(shù)進(jìn)行預(yù)測(cè),取得了較好的預(yù)測(cè)效果。
組合模型是將多個(gè)類型模型融合起來對(duì)交通事故進(jìn)行預(yù)測(cè)的一類模型,與時(shí)間序列自回歸模型一樣都具有很強(qiáng)的數(shù)據(jù)特性決定模型選擇的特征。孫秩軒等[10]發(fā)現(xiàn)城市2006年1月至2013年6月道路交通事故月度受傷人數(shù)為非平穩(wěn)數(shù)據(jù),提出基于ARIMA模型和支持向量回歸機(jī)(Support Vector Regression,SVR)的組合預(yù)測(cè)模型。該模型確定ARIMA參數(shù)來擬合2006至2012年的84個(gè)數(shù)據(jù)。由于殘差波動(dòng)具有明顯的季節(jié)性特征,繼而構(gòu)造含有殘差模糊粒子的子序列對(duì)SVR進(jìn)行參數(shù)尋優(yōu)回歸擬合。這樣得到的組合模型的預(yù)測(cè)準(zhǔn)確度相比于單一ARIMA模型有明顯提高。謝學(xué)斌[11]基于ARIMA 和XGBoost (Extreme Gradient Boosting,極端梯度提升)組合模型對(duì)1951至2010年全國交通事故量進(jìn)行擬合。XGBoost是一種基于決策樹的分布式高效梯度提升算法,在該研究中實(shí)現(xiàn)對(duì)ARIMA模型擬合值殘差進(jìn)行預(yù)測(cè)。張志豪等[12]提出LSTM-GBRT(Gradient Boosted Regression Trees, 梯度提升回歸樹,是一種基于決策樹的分布式高效梯度提升算法)組合預(yù)測(cè)模型,針對(duì)1998年至2012年全國交通事故中的死亡人數(shù)以及包含GDP、國民總收入、人均GDP等維度的截面數(shù)據(jù),采用LSTM進(jìn)行模型參數(shù)的訓(xùn)練,用GBRT實(shí)現(xiàn)對(duì)LSTM擬合值殘差進(jìn)行預(yù)測(cè),從而提升了2013至2016年全國交通死亡人數(shù)預(yù)測(cè)的準(zhǔn)確度。王臻[13]和張興強(qiáng)提出了ARIMA和模糊神經(jīng)網(wǎng)絡(luò)模型(Fuzzy Neural Network,F(xiàn)NN)組合模型,用ARIMA來擬合1980至2004年全國道路交通事故量,用模糊神經(jīng)網(wǎng)絡(luò)模型(Fuzzy Neural Network,F(xiàn)NN)以當(dāng)年的截面數(shù)據(jù)(公路里程、機(jī)動(dòng)車擁有量、客運(yùn)周轉(zhuǎn)量、貨運(yùn)周轉(zhuǎn)量以及GDP、事故起數(shù))為輸入,對(duì)來年的事故數(shù)作為輸出量進(jìn)行監(jiān)督擬合學(xué)習(xí),再通過最優(yōu)加權(quán)方法確定兩個(gè)模型的權(quán)重形成組合模型,利用該組合模型對(duì)全國2005至2007年道路交通事故量進(jìn)行預(yù)測(cè)并取得了較好的效果。
研究工作選用LSTM對(duì)國內(nèi)某市周交通事故量進(jìn)行預(yù)測(cè)的原因是:
(1)對(duì)交通事故量進(jìn)行預(yù)測(cè)需要捕獲特定時(shí)空交通事故量時(shí)間序列內(nèi)在的依賴關(guān)系,并假定依賴關(guān)系保持不變從而能進(jìn)行預(yù)測(cè)。然而這種依賴關(guān)系會(huì)因交通環(huán)境、道路、車輛數(shù)量、交通參與者隨著時(shí)間的變化而演變,因而采用LSTM進(jìn)行參數(shù)的自學(xué)習(xí)調(diào)整對(duì)模型隨時(shí)間演化就顯得很有必要;
(2)當(dāng)前對(duì)交通事故量預(yù)測(cè)研究所用的數(shù)據(jù)多為全國級(jí)別并以年為單位,尚沒有諸如對(duì)市級(jí)周交通事故量時(shí)空下不使用截面數(shù)據(jù)的相關(guān)預(yù)測(cè)研究,這種短周期城市級(jí)的預(yù)測(cè)對(duì)交警的實(shí)際決策工作更有意義。
it=δ(Wi·[at-1,xt]+bi)
(1)
ot=δ(Wo·[at-1,xt]+bo)
(2)
ft=δ(Wf·[at-1,xt]+bf)
(3)
(4)
(5)
ht=at=ot*tanh(ct)
(6)
其中,δ和tanh分別代表激活函數(shù)Sigmoid和雙曲線正切函數(shù)這兩類非線性函數(shù),W和b表示相應(yīng)的權(quán)重系數(shù)矩陣和偏置向量,“*”表示點(diǎn)乘。LSTM根據(jù)輸入序列計(jì)算輸出序列并與設(shè)定的期望值進(jìn)行誤差分析,通過迭代更新系數(shù)的學(xué)習(xí)方式使誤差最小化或收斂,從而具有逼近可表征觀測(cè)值函數(shù)的能力,即捕獲當(dāng)前序列觀測(cè)值和前序觀測(cè)值的時(shí)序依賴關(guān)系,最終完成系數(shù)調(diào)整的LSTM神經(jīng)網(wǎng)絡(luò)就具有了對(duì)訓(xùn)練樣本的擬合以及對(duì)驗(yàn)證樣本的預(yù)測(cè)能力。正因?yàn)槿绱?,LSTM神經(jīng)網(wǎng)絡(luò)及其擴(kuò)展型已應(yīng)用到具有時(shí)間序列特征但時(shí)序觀測(cè)值關(guān)系復(fù)雜的交通預(yù)測(cè)當(dāng)中,除交通事故量預(yù)測(cè)外,還應(yīng)用于短時(shí)交通流預(yù)測(cè)[14-15]、異常駕駛行為檢測(cè)[16]、道路交通速度預(yù)測(cè)[17]、鐵路貨運(yùn)量預(yù)測(cè)[18]、交通流狀態(tài)預(yù)測(cè)[19]、船舶航跡預(yù)測(cè)[20]、公交行程時(shí)間預(yù)測(cè)[21]等。
圖1 LSTM模型邏輯結(jié)構(gòu)
(1)構(gòu)造日粒度交通事故量時(shí)間序列。
對(duì)一個(gè)城市特定的時(shí)間段內(nèi)按照每日發(fā)生的事故起數(shù)進(jìn)行統(tǒng)計(jì),就可構(gòu)造出日粒度交通事故量時(shí)間序列Seq_X1={x1,x2,…,xt}。
(2)時(shí)間序列觀測(cè)值的離差標(biāo)準(zhǔn)化。
由于序列中的交通事故觀測(cè)值波動(dòng)較大,這會(huì)影響到LSTM訓(xùn)練的速度和精度。為消除這種影響,需針對(duì)觀測(cè)值序列進(jìn)行如式(7)的離差標(biāo)準(zhǔn)化[22]處理。
(7)
經(jīng)過離差標(biāo)準(zhǔn)化處理后的時(shí)間序列表示為:
(1)構(gòu)造訓(xùn)練集。
訓(xùn)練集X1與Y1如式(8)所示:
(8)
(2)確定LSTM超參數(shù)。
LSTM隱含層存儲(chǔ)單元個(gè)數(shù)N:
隱含層數(shù)目設(shè)為1,其存儲(chǔ)單元個(gè)數(shù)按經(jīng)驗(yàn)公式(9)來確定。
(9)
其中,n=w,m=1 ,a可取1到10中的一個(gè)值,此處a取10。
損失函數(shù):
損失函數(shù)選用平均絕對(duì)誤差(MAE),表示訓(xùn)練集擬合結(jié)果與期望輸出值的偏離程度loss,如式(10)所示。
(10)
迭代次數(shù)epochs:
該參數(shù)表示用(X1,Y1)訓(xùn)練LSTM并使式(10)的誤差loss趨向收斂的次數(shù),可通過觀察來確定。
(3)確定最優(yōu)滑動(dòng)時(shí)間窗口算法。
滑動(dòng)窗口w決定了(X1,Y1)構(gòu)成,不同的(X1,Y1)訓(xùn)練出的LSTM預(yù)測(cè)模型的擬合結(jié)果誤差有所不同,即w間接決定了誤差值,因而需要確定一個(gè)最優(yōu)長度的w',從而使訓(xùn)練出的LSTM預(yù)測(cè)模型擬合誤差最小,相應(yīng)的算法如圖2所示。
圖2 最優(yōu)滑動(dòng)窗口算法流程
(1)構(gòu)造驗(yàn)證集。
(11)
(2)預(yù)測(cè)結(jié)果對(duì)驗(yàn)證集的周粒度誤差評(píng)估。
(12)
(3)預(yù)測(cè)結(jié)果對(duì)驗(yàn)證集的周粒度擬合效果評(píng)估。
(13)
城市交通事故發(fā)生后,執(zhí)勤交警會(huì)記錄每個(gè)事故人、車、路、環(huán)境的詳細(xì)信息形成一條交通事故記錄,包括事故發(fā)生的時(shí)間、發(fā)生路段地點(diǎn)、車輛、駕駛員、環(huán)境、財(cái)產(chǎn)損失、傷亡人數(shù)、雨雪天氣等。對(duì)來自國內(nèi)某市2011至2015年20 988條交通事故記錄按日統(tǒng)計(jì)就形成日粒度交通事故量時(shí)間序列1 824條。以2014年為界形成訓(xùn)練集和驗(yàn)證集,將這些日統(tǒng)計(jì)記錄以月為單位分成四組,前三組七天為一個(gè)單位,后一組為剩余天數(shù),統(tǒng)計(jì)形成周粒度交通事故量時(shí)間序列240條(以下周粒度默認(rèn)指此類型),將2011年至2014年的時(shí)間序列(其中日粒度為1 459條,周粒度為192條)作為訓(xùn)練集,2015年的時(shí)間序列作為驗(yàn)證集(其中日粒度365條,周粒度48條)。經(jīng)過驗(yàn)證交通事故量是平穩(wěn)數(shù)據(jù),因而也可采用ARMA和SARMA進(jìn)行預(yù)測(cè)對(duì)比實(shí)驗(yàn)。
在Keras框架中,用Python3.8對(duì)周粒度時(shí)間序列訓(xùn)練集按圖2算法流程計(jì)算得到最優(yōu)滑動(dòng)窗口w'=45的LSTM市級(jí)周粒度交通事故量預(yù)測(cè)模型,其對(duì)訓(xùn)練集的擬合結(jié)果和驗(yàn)證集的預(yù)測(cè)擬合結(jié)果能很好表達(dá)數(shù)據(jù)的基本趨勢(shì),但不能很好地匹配波動(dòng)的數(shù)據(jù),因而圖3中度量擬合效果和預(yù)測(cè)擬合效果的R-square指標(biāo)值都欠佳。采用ARMA模型和SARMA模型也出現(xiàn)類似效果,這說明基于交通事故量訓(xùn)練的用于捕獲觀測(cè)值時(shí)序依賴關(guān)系的模型對(duì)數(shù)據(jù)基本趨勢(shì)準(zhǔn)確性的表達(dá)遠(yuǎn)好于對(duì)其波動(dòng)性的表達(dá)。
圖3 最優(yōu)滑動(dòng)窗口LSTM市級(jí)周級(jí)組粒度交通事故量預(yù)測(cè)模型對(duì)訓(xùn)練集擬合效果以及對(duì)驗(yàn)證集預(yù)測(cè)的擬合效果
圖4展示了最優(yōu)滑動(dòng)窗口w'=72的LSTM市級(jí)日交通事故量預(yù)測(cè)模型對(duì)訓(xùn)練集的擬合結(jié)果和對(duì)驗(yàn)證集的預(yù)測(cè)結(jié)果與圖3類似,因而度量擬合效果和預(yù)測(cè)擬合效果的R-square指標(biāo)值也都欠佳。需要注意的是,細(xì)粒度下的預(yù)測(cè)結(jié)果對(duì)交通事故量基本趨勢(shì)的準(zhǔn)確描述可轉(zhuǎn)化為粗粒度下對(duì)波動(dòng)性準(zhǔn)確描述的事實(shí),如周粒度下顯著的波動(dòng)在日粒度下則表現(xiàn)為較為平緩的變化趨勢(shì)疊加小規(guī)模的波動(dòng)。將這三類模型的擬合結(jié)果和預(yù)測(cè)結(jié)果從日粒度轉(zhuǎn)為周粒度統(tǒng)計(jì)口徑后,如圖5所示,三個(gè)模型相對(duì)于圖3各自都提升了擬合效果和預(yù)測(cè)擬合效果,尤其是LSTM和ARMA模型較為明顯,度量預(yù)測(cè)擬合效果的R-square指標(biāo)值分別為0.817和0.832,這意味著預(yù)測(cè)結(jié)果整體上與實(shí)際結(jié)果吻合程度分別達(dá)到了81.7%和83.2%。而SARIMA模型擬合效果相對(duì)較差的原因可解釋為數(shù)據(jù)季節(jié)周期性相對(duì)不突出所致。需要明確的是,LSTM預(yù)測(cè)模型對(duì)驗(yàn)證集較為準(zhǔn)確的預(yù)測(cè)能力實(shí)際上是來自對(duì)訓(xùn)練集交通事故量時(shí)間序列內(nèi)在依賴關(guān)系的學(xué)習(xí)與量化(ARMA也是如此),然而圖5中描述驗(yàn)證集的預(yù)測(cè)擬合效果的R-square指標(biāo)值0.817稍高于訓(xùn)練集擬合效果0.719,這可解釋為正常的交通事故量波動(dòng)引起。對(duì)于市級(jí)周交通事故量預(yù)測(cè)而言,平均絕對(duì)百分比誤差在15%以內(nèi)是可接受的準(zhǔn)確度,圖5中LSTM和ARMA模型對(duì)訓(xùn)練集的擬合結(jié)果和對(duì)驗(yàn)證集的預(yù)測(cè)結(jié)果的平均絕對(duì)百分比誤差都在這一范圍內(nèi)。
圖4 最優(yōu)滑動(dòng)窗口LSTM市級(jí)日交通事故量預(yù)測(cè)模型對(duì)訓(xùn)練集擬合效果以及對(duì)驗(yàn)證集預(yù)測(cè)的擬合效果
圖5 最優(yōu)滑動(dòng)窗口LSTM市級(jí)日交通事故量預(yù)測(cè)模型的輸出結(jié)果轉(zhuǎn)為周粒度時(shí)對(duì)訓(xùn)練集擬合效果以及對(duì)驗(yàn)證集的預(yù)測(cè)擬合效果
圖6展示了2011~2014年期間七天為一周的統(tǒng)計(jì)口徑得到的周交通事故量以及劃分的訓(xùn)練集和驗(yàn)證集,與圖5對(duì)比可發(fā)現(xiàn),雖然交通事故量曲線有了明顯變化,但是LSTM和ARMA則保持了同樣好的擬合效果和預(yù)測(cè)擬合效果,從另一個(gè)側(cè)面也印證了細(xì)粒度下預(yù)測(cè)結(jié)果對(duì)交通事故量基本趨勢(shì)的準(zhǔn)確描述可轉(zhuǎn)化為粗粒度下對(duì)波動(dòng)性的準(zhǔn)確描述。雖然LSTM和ARMA都取得了較好的預(yù)測(cè)效果,但LSTM不像ARMA那樣需要人工輔助來進(jìn)行參數(shù)定階,這個(gè)優(yōu)點(diǎn)有利于LSTM隨時(shí)間而滾動(dòng)更新參數(shù)以保證預(yù)測(cè)的準(zhǔn)確性,畢竟市級(jí)周交通事故時(shí)間序列內(nèi)在依賴關(guān)系會(huì)隨時(shí)間有所變化。然而需要注意的是,滑動(dòng)時(shí)間窗口的長度對(duì)基本趨勢(shì)準(zhǔn)確描述有直接影響。圖7展示了滑動(dòng)窗口w=306的LSTM市級(jí)日交通事故量預(yù)測(cè)模型輸出結(jié)果轉(zhuǎn)為周粒度后對(duì)訓(xùn)練集的擬合和對(duì)驗(yàn)證集的預(yù)測(cè)擬合效果,兩個(gè)R-square指標(biāo)值的顯著下降可解釋為w=306滑動(dòng)窗口首先會(huì)造成日粒度下對(duì)驗(yàn)證集的基本趨勢(shì)描述準(zhǔn)確度下降,進(jìn)而影響了周粒度下對(duì)數(shù)據(jù)波動(dòng)描述的準(zhǔn)確度。圖8展示了滑動(dòng)窗口長度w與周粒度擬合效果和預(yù)測(cè)擬合效果的R-square指標(biāo)值的關(guān)系——呈現(xiàn)了先增大后減小趨勢(shì),這個(gè)變化過程說明采用最優(yōu)窗口算法為LSTM市級(jí)日交通事故量預(yù)測(cè)模型確定最優(yōu)窗口長度很有必要。
圖6 最優(yōu)滑動(dòng)窗口LSTM市級(jí)日交通事故量預(yù)測(cè)模型的輸出結(jié)果轉(zhuǎn)為七天一周統(tǒng)計(jì)口徑時(shí)對(duì)訓(xùn)練集擬合效果以及對(duì)驗(yàn)證集的預(yù)測(cè)擬合效果
圖7 w=306滑動(dòng)窗口LSTM市級(jí)日交通事故量預(yù)測(cè)模型輸出結(jié)果轉(zhuǎn)為周粒度時(shí)對(duì)訓(xùn)練集擬合效果以及對(duì)驗(yàn)證集預(yù)測(cè)的擬合效果
圖8 LSTM市級(jí)日交通事故量預(yù)測(cè)模型輸出結(jié)果轉(zhuǎn)為周粒度時(shí)對(duì)訓(xùn)練集擬合以及對(duì)驗(yàn)證集預(yù)測(cè)的R-square值與滑動(dòng)窗口長度關(guān)系
實(shí)驗(yàn)結(jié)果表明,提出的“用LSTM對(duì)市級(jí)周交通事故預(yù)測(cè)方法”可基于市級(jí)日粒度交通事故量時(shí)間序列對(duì)周交通事故量進(jìn)行較為準(zhǔn)確的預(yù)測(cè)。對(duì)交通事故量進(jìn)行預(yù)測(cè)目前類似研究所用的數(shù)據(jù)多為全國每年的交通事故量時(shí)間序列,但由于該類數(shù)據(jù)量較少而很難發(fā)揮神經(jīng)網(wǎng)絡(luò)模型自我學(xué)習(xí)能力來捕獲數(shù)據(jù)的時(shí)序依賴關(guān)系,往往需要補(bǔ)充多維截面數(shù)據(jù),但截面數(shù)據(jù)會(huì)因涉及多個(gè)行業(yè)部門以及在統(tǒng)計(jì)上的滯后會(huì)影響交通事故量預(yù)測(cè)的時(shí)效性,而只基于交通事故量時(shí)間序列進(jìn)行預(yù)測(cè)則會(huì)減少這方面的困難并增強(qiáng)預(yù)測(cè)模型的實(shí)用性。
(1)提出了用LSTM對(duì)市級(jí)周交通事故量預(yù)測(cè)方法。該方法通過構(gòu)建一個(gè)對(duì)應(yīng)最優(yōu)輸入序列長度的LSTM市級(jí)日交通事故量預(yù)測(cè)模型捕獲交通事故量時(shí)間序列中的當(dāng)前觀測(cè)值與前序觀測(cè)值的時(shí)序依賴關(guān)系,當(dāng)將預(yù)測(cè)結(jié)果轉(zhuǎn)為周粒度統(tǒng)計(jì)口徑后,就實(shí)現(xiàn)了對(duì)交通事故量較為準(zhǔn)確的預(yù)測(cè)。該方法不需要相關(guān)截面數(shù)據(jù),因而對(duì)市級(jí)交警預(yù)測(cè)交通事故量具有實(shí)用價(jià)值。
(2)市級(jí)交通事故量時(shí)間序列的波動(dòng)是影響對(duì)其準(zhǔn)確預(yù)測(cè)的關(guān)鍵因素,所提的預(yù)測(cè)方法解決了影響市級(jí)周交通事故量準(zhǔn)確預(yù)測(cè)的問題。該方法發(fā)現(xiàn)基于交通事故量訓(xùn)練的用于捕獲觀測(cè)值時(shí)序依賴關(guān)系的LSTM模型對(duì)數(shù)據(jù)基本趨勢(shì)準(zhǔn)確性的表達(dá)遠(yuǎn)好于對(duì)數(shù)據(jù)波動(dòng)性的表達(dá),為此提出最優(yōu)窗口算法來確定LSTM模型最優(yōu)窗口長度,以確保對(duì)訓(xùn)練集基本趨勢(shì)表達(dá)的準(zhǔn)確性,再根據(jù)所發(fā)現(xiàn)的預(yù)測(cè)結(jié)果對(duì)細(xì)粒度交通事故量基本趨勢(shì)的準(zhǔn)確描述可轉(zhuǎn)化為粗粒度下對(duì)波動(dòng)性準(zhǔn)確描述的事實(shí),將日粒度預(yù)測(cè)結(jié)果轉(zhuǎn)為周粒度后就取得了較準(zhǔn)確的預(yù)測(cè)效果。
(3)用LSTM對(duì)市級(jí)周交通事故量預(yù)測(cè)方法能進(jìn)行較為準(zhǔn)確預(yù)測(cè)的前提是驗(yàn)證集和訓(xùn)練集保持相同的時(shí)序依賴關(guān)系。隨著時(shí)間的推進(jìn),如果預(yù)測(cè)結(jié)果與訓(xùn)練集時(shí)間過久很難保證這種時(shí)序依賴關(guān)系不發(fā)生變化,因而下一步將研究市級(jí)日交通事故量LSTM預(yù)測(cè)模型的自我優(yōu)化更新機(jī)制來保持預(yù)測(cè)的準(zhǔn)確性。