劉星良 單玨 劉唐志 饒 暢 劉通
(重慶交通大學(xué)交通運輸學(xué)院 重慶 400064)
構(gòu)建可靠的高速公路交通事故實時風(fēng)險預(yù)測模型,能夠為管理部門及時采取交通管控措施提供依據(jù),有效提升在途車輛的行車安全水平。但針對整條道路預(yù)測實時風(fēng)險時,現(xiàn)有指標(biāo)集指標(biāo)數(shù)量較多,在途監(jiān)控設(shè)備往往難以采集龐大的數(shù)據(jù)樣本,從而削弱了模型的實用價值,還容易導(dǎo)致模型的過擬合,使預(yù)測效果達不到預(yù)期目標(biāo)。預(yù)測模型的過擬合反映為:預(yù)測模型在訓(xùn)練數(shù)據(jù)上的可靠性較好,但在測試數(shù)據(jù)上的可靠性較差[1-2]。為解決上述問題,本研究基于高速公路交通事故實時風(fēng)險預(yù)測指標(biāo)間的自相關(guān)性,新建交通流穩(wěn)定性系數(shù)減少預(yù)測指標(biāo)集的屬性數(shù)量,提出緩解高速公路交通事故實時風(fēng)險預(yù)測模型過擬合的新方法。
在交通事故實時風(fēng)險預(yù)測領(lǐng)域,當(dāng)前研究主要關(guān)注選取適當(dāng)?shù)乃惴ǎ蚋倪M算法以構(gòu)建可靠性更高的預(yù)測模型,準(zhǔn)確評估未來5~60 min內(nèi)預(yù)測路段發(fā)生事故的可能性。構(gòu)建交通事故實時風(fēng)險預(yù)測模型的算法可分為2類:①以數(shù)理統(tǒng)計為基礎(chǔ)的算法;②基于人工智能和數(shù)據(jù)挖掘技術(shù)的算法。Chen等[3]、曾強等[4]和Xu等[5]分別基于累計對數(shù)線性模型、貝葉斯統(tǒng)計和Logistic回歸捕捉危險交通狀況;Wang等[6]提出基于分類樹的方法識別與碰撞相關(guān)的預(yù)測變量,以此分析風(fēng)險駕駛等級;Oh等[7]采用模糊邏輯模型將追尾碰撞風(fēng)險分為6個類別;Theofilatos等[8]和趙海濤等[9]分別用支持向量機模型和深度學(xué)習(xí)預(yù)測實時碰撞,準(zhǔn)確度較高。關(guān)于高速公路交通事故實時風(fēng)險預(yù)測模型的指標(biāo)集,即所有潛在交通事故誘因,當(dāng)前研究主要使用3類預(yù)測指標(biāo)進行構(gòu)建,包括:交通狀態(tài)類、道路幾何線形類、環(huán)境類。Hossain等[10]、Sun等[11]和Yasmin等[12]主要考慮:預(yù)測路段上下游截面交通量、占有率、速度的均值、標(biāo)準(zhǔn)差作為交通狀態(tài)參量,同時分析上述參量在上、下游和不同車道間統(tǒng)計值的差異;Pande等[13]和Xu等[14]主要考慮:路段長度、車道數(shù)、路面寬度、車道寬度、分合流區(qū)長度和間距等道作為路幾何線形類參量;Ahmed等[15]和Wang等[16]則考慮天氣情況、時間、高峰時段和限速作為環(huán)境類參量。通過構(gòu)建預(yù)測指標(biāo)集,能夠全面梳理與高速公路交通事故實時風(fēng)險相關(guān)的各類元素。在建立預(yù)測模型時,程國柱等[17]和高珍等[18]通過基尼系數(shù)(gini index,GI)量化各指標(biāo)對交通事故實時風(fēng)險的影響程度。Oh等[7]、SUN等[11]和沈靜[19]認為:預(yù)測路段的交通量、占有率、速度在上、下游與不同車道間統(tǒng)計值的差異,和交通事故存在緊密的聯(lián)系。
可以發(fā)現(xiàn),目前在預(yù)測高速公路路段交通事故實時風(fēng)險時,通常建立了指標(biāo)數(shù)量超過20個的龐大指標(biāo)集,對數(shù)據(jù)采集工作造成極大的不便,同時指標(biāo)之間存在顯著的自相關(guān)性,尤其是與交通流狀態(tài)相關(guān)的指標(biāo)。因此極易導(dǎo)致模型的過擬合問題,對預(yù)測效果產(chǎn)生不利影響。為緩解過擬合,姜正申等[20]和王文憲等[21]發(fā)現(xiàn):減少預(yù)測指標(biāo)集屬性數(shù)量可以降低訓(xùn)練數(shù)據(jù)中產(chǎn)生噪聲的概率;Mitchell[1]和石寧寧[22]采用3類方法:增加數(shù)據(jù)集的規(guī)模、對樣本數(shù)據(jù)進行清洗,或降低模型復(fù)雜度。在交通事故風(fēng)險實時預(yù)測中,由于事故數(shù)據(jù)具有一定的保密性,因此增加數(shù)據(jù)集規(guī)模存在一定限制。降低模型復(fù)雜度、清洗樣本數(shù)據(jù)雖然較為常用,但也存在一些缺陷。前者在樣本量較大的條件下具有較高的工作量;而后者,由于不同模型具有不同的處理方式,更依賴于算法本身,不具有廣泛的適用性。因此,若能根據(jù)交通流狀態(tài)等指標(biāo)間的自相關(guān)性新建兼具可解釋性和實用價值的簡化指標(biāo)集,則可減少預(yù)測指標(biāo)集的屬性數(shù)量,降低預(yù)測指標(biāo)間的自相關(guān)性。同時,從算法之外的角度降低預(yù)測模型的復(fù)雜度,適用于不同預(yù)測模型,有望整體提升預(yù)測指標(biāo)的顯著性,提高預(yù)測模型的可靠性。
基于此,本研究提出具有更高推廣應(yīng)用價值的高速公路交通事故實時風(fēng)險預(yù)測的新方法,提升預(yù)測模型的有效性,以用于各種高速公路路段進行路段實時風(fēng)險預(yù)測,對于風(fēng)險的識別與預(yù)防提供了可靠依據(jù)?;陬A(yù)測指標(biāo)間的自相關(guān)性,新建交通流縱、橫向穩(wěn)定性系數(shù),降低預(yù)測指標(biāo)集的復(fù)雜性。采集西安市G3001高速公路交通事故與交通流歷史數(shù)據(jù),選取3種算法構(gòu)建高速公路交通事故實時風(fēng)險預(yù)測模型。通過改進GI指數(shù)(improved gini index)評估交通流穩(wěn)定性系數(shù)的顯著性;通過預(yù)測精度,曲線下面積值(area under curve,AUC),以及訓(xùn)練耗時評估交通流穩(wěn)定性系數(shù)對預(yù)測模型過擬合的緩解作用,以檢驗所提出新方法的可行性。
通過對當(dāng)前研究的梳理,可建立包含交通狀態(tài)、道路幾何線形、環(huán)境這3個類別35個高顯著性指標(biāo)的高速公路交通事故實時風(fēng)險預(yù)測完整指標(biāo)集[13],見表1。本研究將根據(jù)表1所列各指標(biāo)間的自相關(guān)性、對高速公路交通事故實時風(fēng)險的影響顯著性新建交通流穩(wěn)定性系數(shù),以降低完整指標(biāo)集的復(fù)雜度;并檢驗交通流穩(wěn)定性系數(shù)對預(yù)測模型過擬合的緩解作用。
表1 高速公路交通事故實時風(fēng)險預(yù)測指標(biāo)集Tab.1 Predictor set of expressway traffic accidents real-time risk forecast
選取西安市繞城高速(G3001)作為研究區(qū)域,G3001全長80.35 km,為雙向6車道高速公路,設(shè)計車速120 km/h,在非節(jié)假日交通量呈現(xiàn)典型的“M”形分布。道路基本線形與交通流監(jiān)測裝置的布置見圖1。G3001穿越西安市不同功能區(qū),全線共14座互通式立交,頻繁的匯入和駛出及立交之間不同的間距使得各路段交通流穩(wěn)定性、交通組成在同時段內(nèi)存在較大差異,為建立高速公路事故實時風(fēng)險預(yù)測模型提供了豐富的交通狀態(tài)樣本,是采集基礎(chǔ)數(shù)據(jù)的理想?yún)^(qū)域。西安市繞城高速共布設(shè)了14組由卡口相機和測速雷達組成的交通流監(jiān)測裝置,監(jiān)測裝置分布在相鄰立交的中間位置,按5 min時間間隔對交通流數(shù)據(jù)進行采集,可記錄各車道交通量、平均速度、車輛組成、時間占有率等信息。相鄰監(jiān)測裝置作為基本路段的起、終點,其最大間距為7.75 km,最小間距為2.2 km。以2018年為例,各基本路段平均運行車速為70 km/h,年平均日交通量最大的在謝王立交附近,為204 738 veh/d,最小在西高新立交附近,為97 396 veh/d。
圖1 G3001道路基本線形與交通流監(jiān)控系統(tǒng)布置Fig.1 Layout of G3001 basic alignment and traffic flow monitoring system
經(jīng)相關(guān)部門批準(zhǔn),獲取G3001高速公路2015年1月1日—2020年1月1日的575起交通事故數(shù)據(jù)。由于本研究新建了與交通流特性相關(guān)的交通流穩(wěn)定性系數(shù),因此剔除非交通因素導(dǎo)致的交通事故110起,以排除干擾因素,提升結(jié)論的可靠性。2015—2019年間各交通流監(jiān)控裝置附近(相鄰立交間)發(fā)生的交通事故數(shù)見圖2。針對每起事故,考慮事故風(fēng)險預(yù)測后交通管理部門對響應(yīng)時間的需求,提取事故前30 min內(nèi)基本路段交通流數(shù)據(jù),建立事故樣本數(shù)據(jù)集。相關(guān)研究表明,在提取的時間間隔過短的情況下,空間維度上的交通流連續(xù)性特征可能無法很好地捕捉到,而若提取過長的時間間隔則會忽略數(shù)據(jù)的短期變化[23]。此外,構(gòu)建高速公路交通事故實時風(fēng)險預(yù)測模型還需建立非事故樣本數(shù)據(jù)集,即相同路段的正常交通狀況下,以及同一時間段內(nèi)針對特定事故提取的上下游交通數(shù)據(jù)。相關(guān)研究表明,事故樣本量與非事故樣本量的最佳比值為0.2[11,24]。因此,針對每個事故樣本,在同一基本路段、臨近日期同一時段內(nèi)提取5組無事故狀態(tài)下的交通流數(shù)據(jù),組成非事故樣本數(shù)據(jù)集。其中,臨近日期的選取原則為:若事故發(fā)生在工作日,選取前/后1 d的工作日;若事故發(fā)生在休息日,則選取前/后1周的同1個休息日;若事故發(fā)生在法定假期,則選取同假期內(nèi)相鄰日期;以降低出行規(guī)律對交通流特性的影響。
圖2 2015—2019年G3001交通事故數(shù)Fig.2 Number of G3001 traffic incidents in 2015—2019
構(gòu)建高速公路交通事故實時風(fēng)險預(yù)測簡化指標(biāo)集的依據(jù)是各指標(biāo)間的自相關(guān)性,以及各指標(biāo)對事故風(fēng)險的影響顯著性。當(dāng)前研究普遍認為:在表1所列的預(yù)測指標(biāo)中,表征交通流在上、下游間,以及各車道間分布差異的指標(biāo)存在自相關(guān)性,且與事故風(fēng)險顯著相關(guān)[7,11,19]。這些指標(biāo)包括:Std.VCup,Std.VCdo,Std.OCCup,Std.OCCdo,Std.Sup,Std.Sdo,Dif.VCup,Dif.VCdo,Dif.VCdo,Dif.OCCdo,Dif.Sup,Dif.Sdo,Dif.VCup-do,Dif.OCCup-do,Dif.Sup-do。在 上 述 指 標(biāo) 中,Dif.VCup-do,Dif.OCCup-do與Dif.Sup-do的顯著性最高,說明:交通流在道路上下游之間,以及各車道之間的穩(wěn)定性是交通事故的顯著誘因,分別定義為:縱向穩(wěn)定性、橫向穩(wěn)定性。
上述諸多預(yù)測指標(biāo)均來源于交通流的3個基本參數(shù),即:交通量、占有率、速度。因此,以交通流3參數(shù)之間的關(guān)系說明上述預(yù)測指標(biāo)間的自相關(guān)性,見式(1)。
式中:OCC為預(yù)測路段占有率,%;li為預(yù)測路段中特定車輛的車長,m;L為預(yù)測路段的長度,m;k為交通密度,veh/km;VC為交通量,veh/h;S為速度,km/h。
可見,OCC的定義方式與交通密度相同,而OCC,VC,S具有顯著的相關(guān)性。同時,由于龐大的指標(biāo)集對數(shù)據(jù)采集的儀器設(shè)施有較高的要求,因此,基于各預(yù)測指標(biāo)間的相關(guān)性,以及各指標(biāo)對事故風(fēng)險的影響顯著性,綜合考慮指標(biāo)類型及數(shù)據(jù)獲取的難易程度,設(shè)計交通流縱向穩(wěn)定性系數(shù)(Dif.DEup-do)、交通流橫向穩(wěn)定性系數(shù)(Dif.DEdo),定義見式(2)~(3)。
式中:Dif.DEup-do的解釋性意義為單位里程內(nèi)上、下游間車流密度的差異;Dif.DEdo的解釋性意義為單位時間內(nèi)同一區(qū)段車道j-1與車道j間交通密度的差異。
通過式(2)~(3)可見:Dif.DEup-do替代了完整指標(biāo)集(表1)中的VCdo,Sdo,VCup,Sup和SL,即該區(qū)段內(nèi)的交通流縱向穩(wěn)定性,可反映上下游車輛隊列分布情況,縱向超車現(xiàn)象,以及是否存在移動瓶頸等問題;Dif.DEdo替代了完整指標(biāo)集中和VC、S有關(guān)的指標(biāo)與NL,即該區(qū)段內(nèi)交通流的橫向穩(wěn)定性,可反映車道間車輛分布是否均勻,以及橫向變道現(xiàn)象是否顯著等問題。由于交通流穩(wěn)定性系數(shù)計算方法簡潔,且使用的交通參數(shù)均能基于在途監(jiān)測裝置直接獲取,具有良好的實用價值。此外,重車混入率(%)為交通流中重型車輛數(shù)所占車輛總數(shù)的比例,在前期研究中,發(fā)現(xiàn)重車混入率(PT)對交通流穩(wěn)定性干擾較大[25],因此將其納入預(yù)測指標(biāo)集。在剩余的指標(biāo)中,相關(guān)研究結(jié)論普遍認為MA,DA和WC較為重要[13],同時這3個指標(biāo)屬于道路的線形、天氣條件,與研究構(gòu)建的交通流穩(wěn)定性系數(shù)指標(biāo)并不相關(guān),因此研究同步考慮這3個指標(biāo)。其中,表示天氣情況的指標(biāo)WC,賦值描述為:雪=3;霧=2;雨=1;其他=0。基于上述情況,構(gòu)建簡化預(yù)測指標(biāo)集(見表2)。由此,高速公路交通事故實時風(fēng)險的預(yù)測指標(biāo)數(shù)量由完整指標(biāo)集的35個簡化到6個,且簡化后的指標(biāo)參量均為基礎(chǔ)參量,不受檢測器種類限制,數(shù)據(jù)獲取方便,具有較強的推廣價值。
表2 基于交通流穩(wěn)定性系數(shù)的高速公路交通事故實時風(fēng)險預(yù)測簡化指標(biāo)集Tab.2 Traffic flow stability coefficients based simplified predictor set of expressway traffic accidents real-time prediction
為證明交通流穩(wěn)定性系數(shù)具有緩解高速公路交通事故實時風(fēng)險預(yù)測模型過擬合的能力,需要分別將基于交通流穩(wěn)定性系數(shù)的簡化指標(biāo)集、完整指標(biāo)集應(yīng)用于預(yù)測模型中,比對預(yù)測模型在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)上的可靠性差異。本研究從交通流穩(wěn)定性系數(shù)的顯著性、預(yù)測模型的可靠性2個層面評估交通流穩(wěn)定性系數(shù)緩解預(yù)測模型過擬合的可行性。
1)交通流穩(wěn)定性系數(shù)的顯著性評估方法。在3.1中,本研究新建了交通流縱、橫向穩(wěn)定性系數(shù),并提出了基于交通流穩(wěn)定性系數(shù)的交通事故預(yù)測簡化指標(biāo)集。因此,在構(gòu)建預(yù)測模型分析交通流穩(wěn)定性系數(shù)緩解過擬合的效果之前,需要先評估其顯著性[17-18],以證明:新建交通流穩(wěn)定性系數(shù)與交通事故實時風(fēng)險顯著相關(guān),能夠用于構(gòu)建事故實時風(fēng)險預(yù)測模型。本研究選取改進GI指數(shù)[26]評估新建交通流穩(wěn)定性系數(shù)的顯著性,計算見式(4)。
式中:P(tk|cτ)為特征tk出現(xiàn)在類別ci中的概率;P(cτ|tk)為當(dāng)特征tk出現(xiàn)時,該特征屬于類別cτ的條件概率。
改進GI指數(shù)用以度量1個特征包含某個類別信息的純度,如果1個特征包含某個類別信息的純度越接近于1,則表明該特征越能夠代表該類別。即:在交通事故預(yù)測中,若新建交通流穩(wěn)定性系數(shù)的改進GI指數(shù)越接近于1,則其顯著性越高,與事故發(fā)生的關(guān)聯(lián)性越強[27]。
2)預(yù)測模型的可靠性評估方法。當(dāng)前研究多采用預(yù)測精度與擬合能力綜合評價高速公路交通事故實時風(fēng)險預(yù)測模型的可靠性[1,3]。預(yù)測模型的精度指:正確預(yù)測次數(shù)與總預(yù)測次數(shù)的比值。另外,召回率與精準(zhǔn)率也可以在一定程度上反映模型的預(yù)測精度。其中,精準(zhǔn)率表示預(yù)測為正的樣本中實際的正樣本概率,召回率表示正樣本中正確預(yù)測的概率,以評價指標(biāo)F1綜合考慮精準(zhǔn)率和召回率,F(xiàn)1計算見式(5)。以AUC值表現(xiàn)模型的擬合能力,AUC值為受試者操作特征曲線(receiver operating characteristic,ROC)下圍成的面積,其值越接近于1,預(yù)測模型的真實性越高,計算見式(6)。
式中:P和R分別為精準(zhǔn)率和召回率。
式中:M和N分別為正樣本和負樣本的數(shù)量;rankμ表示第μ條樣本的序號。
此外,如3.1中所述,采用交通流穩(wěn)定性系數(shù)能夠降低預(yù)測指標(biāo)集的復(fù)雜度,有望對節(jié)約計算資源、提升預(yù)測效率有起到正面作用。訓(xùn)練耗時可用于評估預(yù)測模型占用的計算資源,因此,將訓(xùn)練耗時納入預(yù)測模型可靠性的評估指標(biāo)。后文將采用預(yù)測精度、AUC值、訓(xùn)練耗時多角度評估預(yù)測模型的可靠性,以測試交通流穩(wěn)定性系數(shù)是否能夠緩解高速公路交通事故實時風(fēng)險預(yù)測模型過擬合,從而達到提高實際預(yù)測可靠性的目的。
當(dāng)前研究結(jié)論尚無法證明:基于某種算法構(gòu)建高速公路交通事故實時風(fēng)險預(yù)測模型時,其準(zhǔn)確度、擬合能力、計算效率等方面均表現(xiàn)出顯著的優(yōu)勢。因此,為證明交通流穩(wěn)定性系數(shù)能夠顯著緩解預(yù)測模型的過擬合,需要選用不同的算法構(gòu)建預(yù)測模型,觀察基于交通流穩(wěn)定性系數(shù)的簡化指標(biāo)集、完整指標(biāo)集,在各預(yù)測模型中的表現(xiàn)。
為避免算法適用性、輸出結(jié)果類型等因素對研究結(jié)論可靠性的影響,選取模型應(yīng)遵循以下3點原則:①預(yù)測精度與擬合能力得到認可,能夠用于構(gòu)建高速公路交通事故實時風(fēng)險預(yù)測模型;②屬于二元分類算法,即在高速公路交通事故實時風(fēng)險預(yù)測中,輸出結(jié)果為1和0,代表事故的發(fā)生與否;③由于本研究獲取事故樣本有限,要求預(yù)測算法適用于小樣本任務(wù)?;谏鲜鲈瓌t,根據(jù)各類算法在相關(guān)研究中的具體表現(xiàn),本研究選取3類算法構(gòu)建高速公路交通事故實時風(fēng)險預(yù)測模型,包括:支持向量機(support vector machine,SVM)、隨機森林(random forest,RF)、Logistic回歸模型(logistic regression,LR)。各算法的實現(xiàn)過程如下所述。
1)支持向量機(SVM)。比選線形核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù),以精度最佳為原則選取徑向基核函數(shù)構(gòu)建SVM預(yù)測模型?;贙-CV(k-fold cross validation)優(yōu)化參數(shù),實現(xiàn)預(yù)測結(jié)果的穩(wěn)定輸出。
2)隨機森林(RF)?;贐ootstrap隨機抽取自助樣本集,重復(fù)500次形成新的訓(xùn)練集,以此生成分類樹。在每個節(jié)點隨機選取總數(shù)1/3的屬性特征,以節(jié)點不純度最小原則提取1個特征進行分枝生長。遞歸調(diào)用上述過程構(gòu)造各分枝,直至所有屬性特征均被使用,實現(xiàn)預(yù)測結(jié)果的穩(wěn)定輸出。
3)Logistic回歸模型(LR)。采用T檢驗方法,以95%為置信區(qū)間測試簡化指標(biāo)集與完整指標(biāo)集的顯著性。由于構(gòu)建2個指標(biāo)集時,顯著性為重要原則之一,因此各指標(biāo)滿足LR建模的要求。根據(jù)事故樣本比例,選取0.2為事故概率閾值,構(gòu)建LR預(yù)測模型。
綜上,簡化指標(biāo)集的模型驗證部分主要分為4個步驟:①將基礎(chǔ)數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù),其中,測試數(shù)據(jù)占總量的20%[3];②基于新建交通流穩(wěn)定性系數(shù):交通流縱、橫向穩(wěn)定性系數(shù),構(gòu)建簡化指標(biāo)集(見表2),并采用改進GI指數(shù)評估其顯著性;③分別基于簡化指標(biāo)集、完整指標(biāo)集,采用3種算法構(gòu)建高速公路交通事故預(yù)測模型,在每種預(yù)測模型中,保持訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的一致;④輸出每種預(yù)測模型、每條路段中,在簡化指標(biāo)集、完整指標(biāo)集下的預(yù)測精度、AUC值、訓(xùn)練耗時,對比評估交通流穩(wěn)定性系數(shù)對預(yù)測模型過擬合的緩解作用;在該過程中,僅對比同一預(yù)測模型采用簡化指標(biāo)集、完整指標(biāo)集時的可靠性差異,以排除模型自身對研究結(jié)果的影響。
在測試交通流穩(wěn)定性系數(shù)對緩解預(yù)測模型過擬合的實際作用前,首先采用改進GI指數(shù)證明新建交通流穩(wěn)定性系數(shù)的顯著性。其次,選用SVM,RF,LR分別構(gòu)建高速公路交通事故實時風(fēng)險預(yù)測模型,采用訓(xùn)練耗時綜合分析模型擬合效率,采用準(zhǔn)確率對比模型的預(yù)測精度,采用AUC值分析模型的擬合能力,以綜合評價在分別采用基于交通流穩(wěn)定性系數(shù)的簡化指標(biāo)集、完整指標(biāo)集時,各預(yù)測模型的可靠性。
在3.1中,本研究基于采集到的高速公路事故數(shù)據(jù)與交通流數(shù)據(jù),構(gòu)建了Dif.DEup-do和Dif.DEdo這2個交通流穩(wěn)定性系數(shù),用以替代預(yù)測指標(biāo)集中的交通狀態(tài)指標(biāo)。為證明上述交通流穩(wěn)定性系數(shù)的可用性,需要測試Dif.DEup-do和Dif.DEdo的改進GI指數(shù)是否顯著大于其他指標(biāo)。通過相關(guān)研究結(jié)論可以發(fā)現(xiàn):表1部分指標(biāo)對預(yù)測結(jié)果沒有顯著影響。因此,選擇表2所有指標(biāo),以及表1中對預(yù)測結(jié)果存在顯著影響的指標(biāo)構(gòu)建測試集。采用MATLAB編程,得到G3001高速公路每條路段中各測試指標(biāo)的改進GI指數(shù),見表3。
表3 各路段中受試指標(biāo)的改進GI指數(shù)Tab.3 Improved Gini index of tested predictors in each road section
可以發(fā)現(xiàn):交通流穩(wěn)定性系數(shù)Dif.DEup-do、Dif.DEdo的平均改進GI指數(shù)顯著大于其他受試指標(biāo),且在每個路段中均排在所有受試指標(biāo)的1,2位,均值分別為0.952、0.922,接近于1,說明交通流穩(wěn)定性系數(shù)與高速公路交通事故實時風(fēng)險高度相關(guān),證明了新建交通流穩(wěn)定性系數(shù)的可用性。在其他受試指標(biāo)中,Sdo,OCCdo,Sup作為交通流穩(wěn)定性系數(shù)的構(gòu)成要素,同樣表現(xiàn)出較高的顯著性,且在各路段中的排序基本為3,4,5,說明此3個指標(biāo)與交通事故實時風(fēng)險也存在較高相關(guān)性,與當(dāng)前研究結(jié)論一致[12]。受試指標(biāo)DA,MA,WC的平均改進GI指數(shù)依次降低,但其排序在各路段中存在較大差異。此外,受試指標(biāo)PT的改進GI指數(shù)較高,證明了考慮重車混入率的必要性。
4.2.1 交通流穩(wěn)定性系數(shù)對分析耗時的影響
如3.2中所述,采用交通流穩(wěn)定性系數(shù)既能緩解預(yù)測模型的過擬合,也可以降低預(yù)測指標(biāo)集的復(fù)雜度,對節(jié)約計算資源、提升預(yù)測效率有一定正面作用。基于控制變量原則,觀測簡化指標(biāo)集和完整指標(biāo)集在14個路段、3種預(yù)測算法訓(xùn)練數(shù)據(jù)中的訓(xùn)練耗時,形成6個測試組。各測試組在每個路段中的訓(xùn)練耗時見表4。可以發(fā)現(xiàn):各預(yù)測算法中,基于交通流穩(wěn)定性系數(shù)的簡化指標(biāo)集顯著降低了各預(yù)測模型的訓(xùn)練耗時。3種預(yù)測算法中,簡化指標(biāo)集降低平均訓(xùn)練耗時比例分別為,SVM:14.8%,RF:18.0%,LR:12.8%,平均值:15.2%。
表4 各測試組訓(xùn)練耗時情況Tab.4 Train time in each tested group
4.2.2 交通流穩(wěn)定性系數(shù)對預(yù)測精度的影響
基于控制變量原則,將3種預(yù)測算法(SVM,RF,LR),2類預(yù)測指標(biāo)集(簡化指標(biāo)集、完整指標(biāo)集),2類數(shù)據(jù)集(測試數(shù)據(jù)、訓(xùn)練數(shù)據(jù))交叉組合,形成12個測試組,各測試組在14個路段中的預(yù)測精度見圖3。如3.2中所述,過擬合表現(xiàn)為:預(yù)測模型在訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)中的精度和擬合能力存在顯著差異,從而達不到期望的預(yù)測精度。因此,觀察圖3各預(yù)測算法中,簡化、完整指標(biāo)集在測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)中的精度差異。3種預(yù)測算法中,簡化指標(biāo)集與完整指標(biāo)集在訓(xùn)練數(shù)據(jù)中的平均精度差異為,SVM:0.004,RF:0.007,LR:0.006,平均值:0.006;在測試數(shù)據(jù)中的平均精度差異為,SVM:0.032,RF:0.034,LR:0.023,平均值:0.030。同時,在測試集中,簡化指標(biāo)集與完整指標(biāo)集的F1值差異為:SVM:0.013,RF:0.017,LR:0.010,平均值:0.013??梢园l(fā)現(xiàn):14個路段中,各預(yù)測算法下,使用簡化指標(biāo)集的預(yù)測模型在訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)中的平均預(yù)測精度與完整指標(biāo)集相近,即使用簡化指標(biāo)集的預(yù)測模型保持了模型的預(yù)測精度。同時,3種預(yù)測算法中,簡化指標(biāo)集在各路段的平均預(yù)測精度差異為,SVM:0.66%,RF:0.59%,LR:0.81%,平均值:0.69%,平均F1值:3.8%。而完整指標(biāo)集在各路段的平均預(yù)測精度差異為,SVM:4.59%,RF:5.36%,LR:4.66%,平均值:4.87%,平均F1值:2.5%??梢园l(fā)現(xiàn):使用簡化指標(biāo)集的預(yù)測模型在測試數(shù)據(jù)、訓(xùn)練數(shù)據(jù)中的精度差異顯著低于完整指標(biāo)集。因此,從降低預(yù)測模型在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)中的精度差異方面考慮,交通流穩(wěn)定性系數(shù)在保持預(yù)測精度的同時,顯著改善了預(yù)測模型的過擬合。
圖3 各測試組預(yù)測精度Fig.3 ForecastAccuracy of Each Tested Group
4.2.3 交通流穩(wěn)定性系數(shù)對擬合能力的影響
如3.2所述,結(jié)合預(yù)測結(jié)果的AUC值,能夠很好地反應(yīng)預(yù)測模型的擬合能力。因此,基于控制變量原則,采用與4.2.1相同的方法得到12個測試組,各測試組的AUC值見圖4。觀察圖4中各預(yù)測模型中,簡化、完整指標(biāo)集在測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)中的AUC值差異。首先,可以發(fā)現(xiàn):14個路段中,各預(yù)測算法下,簡化指標(biāo)集在測試數(shù)據(jù)、訓(xùn)練數(shù)據(jù)中的AUC值差異顯著低于完整指標(biāo)集。3種預(yù)測算法中,簡化指標(biāo)集在各路段的平均AUC值差異分別為,SVM:1.17%,RF:1.45%,LR:2.22%,平均值:1.61%。而完整指標(biāo)集在各路段的平均AUC值差異分別為,SVM:7.18%,RF:5.33%,LR:5.09%,平均值:5.87%。因此,結(jié)合4.2.2中的結(jié)論,可以發(fā)現(xiàn)采用交通流穩(wěn)定性系數(shù)在保持預(yù)測模型預(yù)測精度的同時,大幅降低了預(yù)測模型在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)中擬合能力的差異,顯著改善了預(yù)測模型的過擬合。
圖4 各測試組AUC值Fig.4 AUC in Each Tested Group
1)構(gòu)建高速公路交通事故實時風(fēng)險預(yù)測簡化指標(biāo)集,將指標(biāo)數(shù)量減少到6個。新建交通流穩(wěn)定性系數(shù)Dif.DEup-do,Dif.DEdo具有良好的可解釋性和實用價值,且平均GI增益值均值分別為0.952,0.922,顯著大于其他受試指標(biāo),說明交通流穩(wěn)定性系數(shù)與高速公路交通事故實時風(fēng)險高度相關(guān),證明了新建交通流穩(wěn)定性系數(shù)的可用性。
2)在14個路段中、3種預(yù)測模型下,簡化指標(biāo)集在降低模型復(fù)雜度的同時,保持了模型的預(yù)測精度。簡化指標(biāo)集降低平均訓(xùn)練耗時比例為15.2%,說明交通流穩(wěn)定性系數(shù)顯著提升了模型的計算效率。簡化指標(biāo)集在訓(xùn)練和測試數(shù)據(jù)中的預(yù)測精度為:0.911,0.905,在測試集中的F1值為0.013,與完整指標(biāo)集相近。這說明,基于交通流穩(wěn)定系數(shù)的簡化指標(biāo)集在訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)中的平均預(yù)測精度與完整指標(biāo)集相近。
3)在14個路段中、3種預(yù)測模型下,簡化指標(biāo)集和完整指標(biāo)集在測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)中的可靠性差異顯著。簡化指標(biāo)集與完整指標(biāo)集平均預(yù)測精度差異分別為0.69%和4.87%;平均F1值3.8%和2.5%;平均AUC值差異分別為1.61%和5.87%;證明交通流穩(wěn)定性系數(shù)大幅降低了預(yù)測模型在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)中擬合能力的差異,顯著緩解了預(yù)測模型的過擬合。
4)研究成果在14個路段中均被證明,說明基于交通流穩(wěn)定性系數(shù)構(gòu)建高速公路交通事故實時風(fēng)險預(yù)測模型具有良好的通用性和推廣應(yīng)用價值,可用于各種高速公路路段進行整個路段的實時風(fēng)險預(yù)測,指導(dǎo)交通管理人員及時發(fā)現(xiàn)風(fēng)險路段并判別橫縱向交通風(fēng)險,進而采取針對性的預(yù)防措施。目前西安市繞城高速已有的監(jiān)測裝置是布設(shè)在相鄰立交中間位置,隨著時間推移,當(dāng)?shù)缆飞喜荚O(shè)的監(jiān)測裝置數(shù)量增加時,風(fēng)險預(yù)測也更為準(zhǔn)確,未來將對此進一步進行驗證。