劉坤 王瑩 劉興旺
(1.港珠澳大橋管理局,廣東 珠海 519000;2.北京中交華安科技有限公司,北京 100000)
跨海大橋作為交通基礎設施重要的組成部分,有效鏈接了地區(qū)間的交通網絡,提升了出行便捷性。但由于跨海大橋具有距離長、深入海洋環(huán)境等特點,當發(fā)生交通事故后,若不能及時根據事故的嚴重程度作出救援處理方案,則會嚴重影響交通正常通行。因此,及時研判跨海大橋交通事故嚴重程度,探究事故嚴重程度的影響因素,對保障跨海大橋的運營安全具有重要意義。
當前,交通事故嚴重程度的研究主要從駕駛員特性、道路特性、環(huán)境特性等角度出發(fā)。Lio,OF0、曹弋[2]等研究了氣象因素對道路交通事故嚴重程度的影響,Alkheder S[3]等研究指出,駕駛人乘坐位置、事故類型、是否使用安全帶,以及道路類型是影響交通事故嚴重程度的潛在因素,馮天軍[4]等研究發(fā)現,碰撞行人、涉事含摩托車、違反信號通行、夜晚無照明、酒駕等因素造成傷亡事故概率較大。還有學者探究了客、貨車交通事故嚴重程度的共性與差異[5],白玉等[6]提出事故認定原因、事故發(fā)生縱向位置、事故發(fā)生道路類型顯著影響事故嚴重程度。
在交通事故嚴重程度建模方面,研究者們通常采用傳統(tǒng)的統(tǒng)計模型和機器學習模型開展致因分析。Eboli L[7]、呂曉彎[8]等使用logistic模型評估不同特征的影響,申昕[9]等基于Multinomial Logit模型計算變量對慢行交通事故嚴重程度的邊際效應,尚婷[10]等采用部分優(yōu)勢比模型建立交通事故嚴重程度預測模型。考慮到統(tǒng)計模型存在的不足[11],孫軼軒[12]等建立了基于SVM靈敏度分析的城市交通事故嚴重程度影響因素模型。Shakil Ahmed[13]等研究了一組單模式和集成模式機器學習(ML)方法,Mubariz Manzoor[14]等結合隨機森林和卷積神經網絡集成機器學習和深度學習模型預測事故嚴重程度。呂通通[15]等提出先驗網絡構造方法,分析各因素變化與事故嚴重程度的定量互動關系。
綜上分析,以往研究多集中于城市道路或者一般公路,對跨海大橋的事故嚴重程度研究得并不多;基于事故歷史信息研究事故嚴重程度的影響因素較多,但利用這些信息來探究如何減少事故發(fā)生時的影響程度較少。因此,本文以某跨海大橋為例,綜合交通事故發(fā)生時的多維度影響因素,建立XGBoost跨海大橋交通事故嚴重程度預測模型,鑒別各因素對交通事故發(fā)生時嚴重程度的影響程度,可為應急救援部門在研判跨海大橋交通事故嚴重程度制定處置方案提供理論依據。
本文選取跨海大橋交通事故嚴重程度作為研究點,數據源于某跨海大橋2016年至2021年的交通事故記錄、交通事故上下游檢測器,以及交通事故處理報告。該跨海大橋5年內共發(fā)生1315起交通事故,在剔除含有缺失值的數據后保留1266條作為研究對象。
本文參考《道路交通事故信息調查》和胡立偉[16]等人的研究中對交通事故的分類分級,根據跨海大橋交通事故歷史數據、人員受傷及死亡情況及交通量大小,將跨海大橋交通事故嚴重程度分為的四級,如表1所示。
表1 跨海大橋交通事故嚴重程度
1.2.1 體系建立
考慮跨海大橋交通運行特征,本文通過分析與研究事故嚴重程度與事故原因,得到跨海大橋事故傷害影響因素體系,包括時間因素、位置因素、事故形態(tài)因素、車輛因素、交通流因素,如圖1所示。
圖1 跨海大橋事故傷害影響因素體系
結合道路擁堵指數定義,本文使用交通流量與速度來判斷事故發(fā)生后交通流運行狀態(tài)指數δ。其中,交通流運行狀態(tài)指數δ的計算公式如式(1)所示,(交通流量和速度的計算時間范圍為5min,計算區(qū)間范圍為距離交通事故發(fā)生點最近的上下游檢測器的距離)。
式(1)中:
當事故發(fā)生后,交通運行狀態(tài)發(fā)生改變,當變化程度較大時,容易引起二次事故的發(fā)生,產生交通運行風險,使用事故發(fā)生前、后區(qū)間范圍交通運行狀態(tài)指數δafter的變化率,來動態(tài)評估交通運行風險并劃分等級,具體如表2所示。
表2 事故后交通運行風險等級劃分表
1.2.2 數據處理
為確定模型的特征變量,本文基于上節(jié)交通事故嚴重程度影響因素體系的建立與跨海大橋的實際數據,對所建立體系中包括發(fā)生時刻、是否發(fā)生在工作日、交通指標、位置指標、事故形態(tài)指標等5類、8種特征變量與跨海大橋交通事故風險等級實施偏相關性分析,結果都表明顯著性相關(p<0.05)。經過數據處理,共得到兩個離散變量,6個分類變量,具體如表3所示。
表3 模型特征變量描述
預測分析模型分為兩部分,首先基于機器學習XGBoost算法構建跨海大橋事故嚴重程度預測模型,再利用SHAP歸因算法進一步解決多重因素耦合作用下對跨海大橋事故嚴重程度的分析難點,挖掘各特征變量與事故嚴重程度的綜合影響關系,以實現事故嚴重程度的預測及分析。
本文采用網格搜索法和五折交叉驗證法分別進行參數調整和最優(yōu)模型構建。網格搜索是遍歷所有可能的超參數組合,以找到產生最佳性能的組合;五折交叉驗證是指將原始跨海大橋交通事故數據集隨機分成5份,依次將其中4份作為訓練數據,1份作為測試數據模型訓練,最終將5次評價指標的平均值作為整個模型的評價指標取值。經過不斷測試調參,當模型性能最佳時,XGBoost的最優(yōu)參數如表4所示。
表4 XGBoost 模型最優(yōu)參數表
在模型訓練中,按照4:1劃分訓練集和測試集,共獲得1013組訓練樣本及253組測試樣本。本文分別使用XGBoost模型和Logistic模型預測跨海大橋交通事故嚴重等級,得到混淆矩陣。根據混淆矩陣結果,使用準確率(Accuracy)、精確率(Precision)和召回率(Recall)評價模型。
XGBoost模型的預測準確率為85.4%、精確率為88%;Logistic模型為77.1%、精確率為60.2%。結果表明,XGBoost模型預測準確率較高,具有較好的可行性與實用性。
根據模型結果分析特征變量的重要性:F-Score是一種衡量特征對因變量分辨能力的機器學習評價指標,其計算方法如式(8)所示。
式(8)中,i代表第i個特征,即每一個特征都會有一個F-score。是所有該特征值的平均數,而(+)(-)則分別代表所有陽性樣本和陰性樣本的特征值的平均數。k是對于具體第i個特征的每個實例差。
通過計算F-score可獲得各特征變量對跨海大橋交通事故嚴重程度的影響貢獻程度。F-score越大說明該特征對因變量的辨別能力越強,特征對模型輸出的貢獻程度就越大。各個特征變量的F-score和重要性排序如表5所示。
表5 特征變量F-Score 表
由結果可知,交通因素對跨海大橋事故嚴重程度的影響最大,當發(fā)生嚴重交通事故,出現人員傷亡并伴有較大的影響范圍時,會明顯造成交通流的聚集和排隊現象;其他特征變量的排序依次是涉及車輛類型、位置因素、涉及車輛數、事故形態(tài)因素、發(fā)生時間段,以及是否發(fā)生在工作日;此外,F-score計算結果表明,涉及車輛類型數對跨海大橋交通事故嚴重程度的影響可忽略不計,這可能是由于涉及車輛數和車輛類型指標已經足夠描述車輛因素所帶來的影響。
特征重要性分析往往代表了特征貢獻,能夠清晰地看出不同特征變量對跨海大橋交通事故嚴重程度的貢獻重要性次序,但不能體現特征變量如何影響模型結果,無法得到特征變量對事故嚴重程度的影響方向。因此,此項研究進一步總體分析特征變量,使用SHAP值分析各特征的正負影響,如圖2所示,顏色表示特征變量的取值,橫坐標 SHAP值用以衡量特征對交通事故嚴重程度的貢獻程度和影響作用的正負性。
圖2 XGboost 模型各特征變量正負性影響圖
通過SHAP框架解釋機器學習 XGBoost模型,結果表明,當涉及車輛數越多時,跨海大橋交通事故嚴重程度越高;側翻及碰撞這兩種事故形態(tài)導致的跨海大橋事故嚴重程度要大于車輛故障和剮蹭;當跨海大橋事故涉及車輛為大貨車、油罐車、半掛車時,事故嚴重的風險等級會較高;在工作日和夜晚發(fā)生的事故更有可能造成較大人員傷亡。
結合模型準確度和特征分析,基于XGboost與SHAP歸因模型的跨海大橋交通事故嚴重程度分析與面向交通事故的安全分析結論一致,可以很好地應用于實際跨海大橋交通事故嚴重程度的預測分析中,為事故發(fā)生后大橋管理者的判斷決策提供理論支撐。
本文以某跨海大橋1266起交通事故數據為基礎,建立了多維度交通事故嚴重程度影響因素體系;構建了基于XGBoost與SHAP歸因分析的預測分析模型并開展檢驗工作。通過與其他算法的對比,證明了XGBoost模型的有效性,預測準確率達到了85.4%,能夠較好地預測跨海大橋交通事故嚴重程度等級,為制定跨海大橋交通事故應急救援方案提供有效參考。
模型分析結果表明,交通因素、涉及車輛類型、位置因素、涉及車輛數等7類特征變量對跨海大橋交通事故影響程度較大。其中,事故發(fā)生時交通因素對模型結果的影響較為關鍵;就車輛因素而言,當車輛數越多,車輛類型為大貨車、油罐車、半掛車時,事故嚴重的風險等級會升高;就事故形態(tài)因素而言,側翻及碰撞導致的跨海大橋交通事故嚴重程度要大于車輛故障和剮蹭;此外,在工作日和夜晚發(fā)生的事故更有可能造成較大的人員傷亡。