許宏科,趙 威,楊 孟,林 杉,劉冬偉
(1. 長安大學(xué)電子與控制工程學(xué)院,陜西 西安710064; 2. 招商局重慶交通科研設(shè)計(jì)院有限公司,重慶40067)
截至2018 年底,我國的高速公路總里程已達(dá)14.26 萬km[1]。 隨著高速公路網(wǎng)基本形成以及機(jī)動車保有量增加,由此帶來的交通事故頻發(fā)問題成為大眾關(guān)注的焦點(diǎn)。 目前,已有許多有效的模型與方法應(yīng)用于交通事故持續(xù)時間預(yù)測的研究,早期的主要算法有概率分布[2],回歸分析[3],時間序列[4],模糊模型[5]等。 Wang 等[6]針對不同類型的事故類型,采用偏最小二乘回歸(PLSR)建立了事故持續(xù)時間與影響因素之間的模型,并通過一個不區(qū)分事故類型的模型作為對比;Junhua 等[7]提出基于生存分析和對數(shù)邏輯分布的加速失效時間模型,可以接受不同分布的缺失數(shù)據(jù)并準(zhǔn)確預(yù)測事故持續(xù)時間;馬阿瑾[8]總結(jié)性地闡述了交通事故時空影響分析的相關(guān)理論基礎(chǔ),分別針對不同階段建立報警方式分類法、決策樹法、交通波理論和排隊(duì)論,將各個階段的預(yù)測時間總和作為交通事故持續(xù)時間;陳建軍等[9]總結(jié)了預(yù)測事故持續(xù)時間的過程,詳細(xì)地介紹了數(shù)據(jù)收集、數(shù)據(jù)處理、模型建立步驟,提出了基于條件概率的生存分析事故持續(xù)時間預(yù)測方法,最終通過得到的累積結(jié)束概率圖,來反映事故持續(xù)時間的預(yù)測值和對應(yīng)的預(yù)測概率。 傳統(tǒng)的方法為交通事故持續(xù)時間預(yù)測提供了研究思路,但由于模型自身特點(diǎn)導(dǎo)致預(yù)測的范圍和精度有限。 隨著交通流理論和人工智能新技術(shù)的發(fā)展,越來越多的交通事故持續(xù)時間預(yù)測模型被提出,如決策樹模型[10],貝葉斯網(wǎng)絡(luò)模型[11-12],支持向量機(jī)[13-14],人工神經(jīng)網(wǎng)絡(luò)[15-16]。 Ahmad 等[17]為了識別和量化影響因素的影響,提出了一種基于“綜合數(shù)據(jù)庫”歷史數(shù)據(jù)研究事故持續(xù)時間的方法,建立了參數(shù)化加速故障時間生存模型,總結(jié)出事故持續(xù)時間的因素包括事故特征(嚴(yán)重程度、類型、傷害、醫(yī)療需求等)、基礎(chǔ)設(shè)施特征(道路肩的可用性)、一天中的時間和交通特征;趙蕾[18]構(gòu)建以C4.5 算法為核心的決策樹模型來預(yù)測事故延遲時間, 構(gòu)建基于動態(tài)空間占有率的車流波模型來預(yù)測交通恢復(fù)時間,在不同交通環(huán)境及交通狀態(tài)下可對交通事故延誤進(jìn)行估計(jì)。綜上所述,目前的交通事故持續(xù)時間預(yù)測方法大都側(cè)重于追求預(yù)測精度,極大地增加了模型的復(fù)雜度,而實(shí)時的持續(xù)時間預(yù)測才能對事故處理具有指導(dǎo)作用。
針對現(xiàn)有交通事故持續(xù)時間預(yù)測方法的局限,提出因子分析和BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,通過因子分析法簡化預(yù)測指標(biāo)個數(shù),得到公共因子,從而用較少的公共因子代替較多的原始數(shù)據(jù)。 進(jìn)一步將公共因子作為BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入層參數(shù),簡化了預(yù)測模型的結(jié)構(gòu),提高了模型的迭代速度和運(yùn)算效率。 真實(shí)的交通事故數(shù)據(jù)測試結(jié)果表明,與經(jīng)典的交通事故持續(xù)時間預(yù)測模型相比,本文提出的預(yù)測模型預(yù)測準(zhǔn)確率更高,是一種準(zhǔn)確、合理的交通事故持續(xù)時間預(yù)測模型。
本文涉及的高速公路交通事故主要是指造成高速公路交通流狀態(tài)異常的交通事件,不考慮高速公路定期維修、基礎(chǔ)建設(shè)、計(jì)劃性改造等非緊急事件的影響。
高速公路交通事故持續(xù)時間是指從交通事故發(fā)生到恢復(fù)交通整個過程的時間,主要由事故發(fā)現(xiàn),事故響應(yīng)、事故清除和交通恢復(fù)時間4 個階段組成,如圖1 所示。 前3 個階段的總時間表示事故延遲時間,主要受事故檢測能力和事故清除效率的影響。 交通恢復(fù)階段是不可控的變量,不僅受到事故發(fā)生期間道路交通狀況的影響,還與事故的形態(tài)等級、天氣等因素有關(guān)。 本文從時間信息、路段信息、事故信息和環(huán)境角度考慮影響因素,主要包括交通事故總量及其類型分布、時間、地點(diǎn)、環(huán)境、車輛類型、事故原因、特征及造成損失等影響因素。
本文采用因子分析法對交通事故持續(xù)時間初始影響因素進(jìn)行篩選,因子分析法是通過研究多個變量間協(xié)方差矩陣的內(nèi)部依賴關(guān)系,找出能綜合所有變量主要信息的少數(shù)幾個不可觀測的隨機(jī)變量。 這些隨機(jī)變量稱為因子,各個因子間互不相關(guān),所有的變量都可以表示成為公因子的線性組合。
將高速公路交通事故持續(xù)時間的影響因素作為初始變量,通過因子分析法減少變量的數(shù)目,用較少的公共因子代替所有變量去分析整個問題,在不影響最終預(yù)測結(jié)果準(zhǔn)確性的同時,簡化了網(wǎng)絡(luò)結(jié)構(gòu)和提高了運(yùn)算效率。其計(jì)算過程可以分為四個步驟,設(shè)n 為交通事故數(shù)據(jù)樣本總數(shù),p 為影響因素個數(shù),m 為公共因子個數(shù),X 為總影響因素矩陣,F(xiàn) 為公共因子矩陣,具體原理及步驟如下:
第一步:計(jì)算總影響因素矩陣的協(xié)方差矩陣R,并計(jì)算協(xié)方差矩陣的特征根,同時計(jì)算特征根對應(yīng)的特征向量γ1,γ2,…,γp
第三步:建立因子得分模型
其中:εi為特殊因子,表示公因子以外的影響因素所導(dǎo)致的變量差異,實(shí)際分析時忽略不計(jì)。
第四步:通過回歸估計(jì)等方法,求解因子得分模型,可解出公因子矩陣F 的表達(dá)式
其中:(bij)p×m為因子得分系數(shù),實(shí)現(xiàn)總影響因素矩陣X 和公共因子矩陣F 的轉(zhuǎn)換。
BP 神經(jīng)網(wǎng)絡(luò)算法也稱為誤差逆?zhèn)鞑ニ惴ā?它采用梯度下降策略,能夠根據(jù)預(yù)設(shè)的參數(shù)更新規(guī)則,不斷調(diào)整網(wǎng)絡(luò)中的參數(shù),以達(dá)到最符合期望的輸出?;诟倪M(jìn)BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行交通事故持續(xù)時間預(yù)測的過程如下:
輸入:交通事故影響因素?cái)?shù)據(jù)集;輸入樣本數(shù)n;誤差函數(shù)E;計(jì)算精度值ε;最大學(xué)習(xí)次數(shù)M;學(xué)習(xí)率η 。輸出:交通事故持續(xù)時間。
1) 原始影響因素的采集和預(yù)處理,將影響因素?cái)?shù)值化得到影響因素?cái)?shù)據(jù)集D;
2) 采用min-max 標(biāo)準(zhǔn)化方法對影響因素?cái)?shù)據(jù)集D 進(jìn)行標(biāo)準(zhǔn)化,得到影響因素矩陣X;
3) 利用因子分析對影響因素矩陣X 進(jìn)行指標(biāo)提取,生成影響因素的公共因子矩陣F;
4) for i=1 to M or E>ε,重復(fù)執(zhí)行(a) (e):
(a) 網(wǎng)絡(luò)初始化過程,給各連接權(quán)重和偏置分別賦一個(0,1)之間的隨機(jī)數(shù);
(b) 將公共因子矩陣F 作為網(wǎng)絡(luò)的輸入,依次分別計(jì)算隱藏層和輸出層的輸出值;
(c) 根據(jù)誤差函數(shù)E 來進(jìn)行誤差的計(jì)算,如果誤差滿足要求,則跳出循環(huán),否則進(jìn)行步驟(d);
(d) 誤差反向傳播過程,使用梯度下降策略依次對輸出層單元和隱藏層單元的權(quán)值進(jìn)行更新;
(e) 返回步驟(4),開始下一個循環(huán)。
5) 迭代結(jié)束,得到最優(yōu)的模型參數(shù),進(jìn)行交通事故持續(xù)時間預(yù)測。
在數(shù)據(jù)標(biāo)準(zhǔn)化過程中,采用min-max 方法,其表達(dá)式如下
式中:xi為第i 個交通事故影響因素標(biāo)準(zhǔn)化后的值;di為第i 個原始的影響因素的值;dmin為原始數(shù)據(jù)中的最小值;dmax為原始數(shù)據(jù)中的最大值。
BP 神經(jīng)網(wǎng)絡(luò)中的誤差函數(shù)選擇均方誤差,其表達(dá)式如下式中:yk為期望輸出的交通事故持續(xù)時間;ok為預(yù)測網(wǎng)絡(luò)輸出的持續(xù)時間。
將預(yù)測結(jié)果的誤差作為模型評價指標(biāo),本文選擇常用的均方誤差(RMSE)、平均絕對誤差(MAE)和準(zhǔn)確率(ACC)作為評價指標(biāo),具體定義如下
式中:n 為預(yù)測樣本數(shù);yi為樣本預(yù)測值;yi為樣本真實(shí)值。
研究數(shù)據(jù)來源于包茂高速陜西省西安—延安高速公路路網(wǎng)交通時間管理系統(tǒng), 選取2016 年1 月至2017 年11 月近兩年來的153 個交通事故數(shù)據(jù),其中前120 條數(shù)據(jù)用于BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型的訓(xùn)練,后33條數(shù)據(jù)用于對訓(xùn)練的模型進(jìn)行測試。每組交通事故數(shù)據(jù)由交通事故的持續(xù)時間和影響交通事故持續(xù)時間的12 個相關(guān)影響因素組成,這些影響因素主要包括事故信息、路段信息、時間信息、環(huán)境信息。數(shù)據(jù)經(jīng)過預(yù)處理后,作為各影響因素的原始數(shù)據(jù),變量選取及其含義見表1。
表1 變量選取及其含義Tab.1 Variable selection and its meaning
3.2.1 因子分析及數(shù)據(jù)標(biāo)準(zhǔn)化
通過SPSS 對交通事故持續(xù)時間影響因素的數(shù)據(jù)進(jìn)行因子分析。 由Bartlett 檢驗(yàn)可以看出,獨(dú)立顯著性因子(Sig.)的值為0.001,應(yīng)該拒絕各變量獨(dú)立的假設(shè),即認(rèn)為變量間具有較強(qiáng)的相關(guān)性。得到的KMO 檢驗(yàn)統(tǒng)計(jì)量為0.725,說明變量間相關(guān)性較強(qiáng),也證明因子分析可行,Bartlett 和KMO 的檢驗(yàn)結(jié)果見表2。 按照特征根大于1 的默認(rèn)指標(biāo)提取了6 個公因子,將公因子進(jìn)行標(biāo)準(zhǔn)化處理,作為BP 神經(jīng)網(wǎng)絡(luò)預(yù)測的輸入數(shù)據(jù)。
表2 Bartlett 和KMO 的檢驗(yàn)結(jié)果Tab.2 Results of Bartlett and KMO
3.2.2 網(wǎng)絡(luò)的建立
預(yù)測模型結(jié)構(gòu)設(shè)置為3 層, 將通過因子分析得到的6 個公共因子代替原有12 個交通事故持續(xù)時間影響因素作為BP 神經(jīng)網(wǎng)絡(luò)輸入層參數(shù),將交通事故持續(xù)時間以15 min 為一個單位作為輸出層參數(shù)。
3.2.3 仿真訓(xùn)練
設(shè)置BP 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率為0.01,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度為1×1012,最大的學(xué)習(xí)次數(shù)為1 000 次,基于TensorFlow 環(huán)境進(jìn)行仿真。 經(jīng)過訓(xùn)練后的BP 神經(jīng)網(wǎng)絡(luò)模型對高速公路交通事故持續(xù)時間進(jìn)行預(yù)測,預(yù)測結(jié)果如圖2 所示。 從圖2 中可以看出,交通事故持續(xù)時間預(yù)測值與實(shí)際值吻合度較高,表明本文所提出的預(yù)測模型應(yīng)用于實(shí)際交通事故持續(xù)時間預(yù)測中具有可行性。
作為對比,本文還建立了經(jīng)典的回歸模型和支持向量機(jī)模型,用同樣的訓(xùn)練樣本對回歸模型和支持向量機(jī)模型進(jìn)行訓(xùn)練和測試。 將BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型與回歸模型、支持向量機(jī)模型的各類誤差指標(biāo)進(jìn)行對比,評價對比結(jié)果見表3。 從表3 可以看出,改進(jìn)的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型在預(yù)測精度方面明顯優(yōu)于支持向量機(jī)模型和回歸模型。 其中,基于改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)的MAE、ACC 值分別為0.85 和11.99%,均低于支持向量機(jī)和回歸模型,RMSE 的值與支持向量機(jī)相近,但明顯低于回歸模型,預(yù)測準(zhǔn)確率比支持向量機(jī)提高了7.8%。 總體來說,該模型是較好的交通事故持續(xù)時間預(yù)測方法,具有較高的準(zhǔn)確性和較好的實(shí)用性。
圖2 交通事故持續(xù)時間預(yù)測結(jié)果Fig.2 Prediction results of traffic accident duration
表3 預(yù)測模型結(jié)果分析Tab.3 Analysis of prediction model results
1) 構(gòu)建了因子分析與BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測模型,通過因子分析對原始數(shù)據(jù)進(jìn)行降維,將標(biāo)準(zhǔn)化后的公共因子作為BP 神經(jīng)網(wǎng)絡(luò)的輸入層參數(shù),簡化了預(yù)測模型的結(jié)構(gòu),提高了模型的迭代速度和數(shù)據(jù)處理效率。
2) 采用本文提出的神經(jīng)網(wǎng)絡(luò)預(yù)測方法對包茂高速西延段交通事故持續(xù)時間進(jìn)行預(yù)測,預(yù)測結(jié)果表明,該模型算法結(jié)構(gòu)簡單,性能優(yōu)異,綜合預(yù)測性能優(yōu)于典型的支持向量機(jī)和回歸模型,具有較高的準(zhǔn)確率和參考性。