文|陳彬 于鵬程 張奇
【導(dǎo)讀】
道路交通事故嚴(yán)重威脅人民群眾的生命財(cái)產(chǎn)安全,影響經(jīng)濟(jì)社會(huì)的和諧穩(wěn)定。為深入排查事故隱患,防范消除安全風(fēng)險(xiǎn),進(jìn)一步推進(jìn)道路交通事故預(yù)防“減量控大”工作,本文通過Apriori算法對(duì)隧道、橋梁和彎坡路三種特殊交通環(huán)境下的交通事故致因進(jìn)行關(guān)聯(lián)規(guī)則挖掘,用以發(fā)現(xiàn)事故致因間的關(guān)聯(lián)關(guān)系,可對(duì)道路交通事故防控起到一定的指導(dǎo)作用。
事故致因;關(guān)聯(lián)規(guī)則;Apriori算法
為實(shí)現(xiàn)事故致因間的藕合分析,本文采用了挖掘關(guān)聯(lián)規(guī)則的方法,其本質(zhì)就是挖掘要素間的頻繁項(xiàng)集合。以形式化的描述方式,介紹關(guān)聯(lián)規(guī)則如下:
設(shè)I={I1,I2,I3,...,Ii,...,In}是一個(gè)項(xiàng)集總集,其中Ii表示第i個(gè)項(xiàng),n為項(xiàng)的總數(shù)。事務(wù)ti表示I的某個(gè)子集,而由若干個(gè)事務(wù)t組成的集合D={t1,t2,t3,...,tn}為事務(wù)數(shù)據(jù)庫(kù)。
在衡量項(xiàng)集間的關(guān)系時(shí),常采用兩個(gè)度量值:支持度(support)和可信度(confidence)。
支持度是指某個(gè)待分析項(xiàng)集占據(jù)數(shù)據(jù)總項(xiàng)集的比例關(guān)系。公式如下:
其中,Support(X)表示X項(xiàng)目的支持度,number(X)表示X項(xiàng)集的頻數(shù),number(N)表示數(shù)據(jù)集總項(xiàng)集的頻數(shù)。而“最小支持度”則是根據(jù)經(jīng)驗(yàn)預(yù)設(shè)定的一個(gè)閾值。
可信度也叫做置信度,是指兩個(gè)具有關(guān)聯(lián)的項(xiàng)集之間的比例關(guān)系。表示為前項(xiàng)項(xiàng)集出現(xiàn)的情況下,后項(xiàng)項(xiàng)集出現(xiàn)的概率。公式如下:
公式(2)的計(jì)算可以看作求條件概率Confidence(X|Y),表示Y事件發(fā)生的條件下,X發(fā)生的概率,分子number(X,Y)表示X和Y兩個(gè)項(xiàng)集都出現(xiàn)的頻數(shù)。同理,“最小可信度”也是根據(jù)經(jīng)驗(yàn)預(yù)設(shè)定的一個(gè)閾值。而在實(shí)際計(jì)算可信度時(shí),往往直接根據(jù)已有的支持度數(shù)值做除法獲得,公式如下:
推薦理由:本書專門研究和論述戰(zhàn)略思維。戰(zhàn)略思維能力,就是高瞻遠(yuǎn)矚、統(tǒng)攬全局,善于把握事物發(fā)展總體趨勢(shì)和方向的能力。馬克思主義為我們正確認(rèn)識(shí)和妥善處理中國(guó)特色社會(huì)主義事業(yè)中諸多重大關(guān)系,樹立全局眼光、提高統(tǒng)籌能力提供了思想武器。
在最小支持度和最小可信度的選取上,一般有兩種方式:根據(jù)經(jīng)驗(yàn)和常用閾值數(shù)值進(jìn)行規(guī)定設(shè)置,或者針對(duì)具體問題具體分析,直接選取前百分之N作為結(jié)果。
頻繁項(xiàng)集挖掘,就是在已達(dá)到預(yù)設(shè)最小支持度的項(xiàng)集中,計(jì)算可信度??尚哦纫策_(dá)到預(yù)設(shè)閾值后,才滿足強(qiáng)關(guān)聯(lián)規(guī)則的條件。本文根據(jù)頻繁項(xiàng)集自身的性質(zhì),推導(dǎo)出兩個(gè)原則,在尋找頻繁項(xiàng)集時(shí)以此作為剪枝條件,可以簡(jiǎn)化計(jì)算復(fù)雜度,提高尋找頻繁項(xiàng)集的效率。原則一是頻繁項(xiàng)集的所有非空子集也為頻繁項(xiàng)集;原則二是若某一項(xiàng)集不是頻繁項(xiàng)集,則包含該項(xiàng)集的所有項(xiàng)集都不是頻繁項(xiàng)集。
本文實(shí)驗(yàn)主要選取經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法,即Apriori算法。該算法的原理如下:
第一步,輸入數(shù)據(jù)集,從單元素開始計(jì)算支持度,篩選出滿足最小支持度的頻繁一項(xiàng)集;第二步,從這些頻繁一項(xiàng)集中連接各個(gè)元素生成兩個(gè)元素的候選二項(xiàng)集,計(jì)算支持度,篩選出頻繁二項(xiàng)集;第三步,以此類推,直到不能生成新的頻繁項(xiàng)集為止;第四步,從頻繁二項(xiàng)集開始計(jì)算可信度,篩選出滿足最小可信度閾值的關(guān)聯(lián)關(guān)系;第五步,以此類推,遍歷所有的頻繁項(xiàng)集,進(jìn)行第四步操作;第六步,至此,所有滿足最小支持度和最小可信度閾值的關(guān)聯(lián)關(guān)系,即為強(qiáng)關(guān)聯(lián)規(guī)則。
以10條模擬事故數(shù)據(jù)分析為例,簡(jiǎn)單介紹Apriori算法的整體過程:事故數(shù)據(jù)如表1所示。10條記錄共包含5種因素:夜間行駛、大霧天氣、路面結(jié)冰、酒后駕駛、山路隧道。預(yù)設(shè)支持度閾值為0.2,可信度閾值為0.7。
表1 模擬事故數(shù)據(jù)
首先,遍歷10條事故數(shù)據(jù),通過計(jì)算事故因素的頻數(shù),計(jì)算出每個(gè)致因的支持度,生成候選一項(xiàng)集C1,再將支持度與閾值0.2做對(duì)比,將大于等于閾值條件的項(xiàng)作為頻繁一項(xiàng)集L1(因?yàn)镃1各項(xiàng)都滿足,所以這里L(fēng)1等于C1),如表2所示。
表2 候選一項(xiàng)集C1(頻繁一項(xiàng)集L1)
通過L1中的頻繁項(xiàng),再遍歷10條數(shù)據(jù),生成候選二項(xiàng)集C2,以此類推,最終得到候選三項(xiàng)集C3和頻繁三項(xiàng)集L3(這里計(jì)算得出恰好C3等于L3),結(jié)果如表3所示。
表3 候選三項(xiàng)集C3(頻繁三項(xiàng)集L3)
L3中的兩個(gè)集合自然連接的結(jié)果為{夜間行駛,大霧天氣,路面結(jié)冰,山路隧道},根據(jù)頻繁項(xiàng)集的性質(zhì)1可知,如果該自然連接結(jié)果也是頻繁項(xiàng)集,那么其所有非空子集都應(yīng)該也是頻繁項(xiàng)集,但很明顯其3項(xiàng)子集只有L3中的2個(gè)是頻繁項(xiàng)集,所以不滿足性質(zhì)1,已經(jīng)不能再衍生出頻繁項(xiàng)集L4。至此,得到了所有的頻繁項(xiàng)集和其支持度數(shù)值。
下一步,從L2開始,計(jì)算每個(gè)頻繁項(xiàng)集中各個(gè)元素間的可信度。{夜間行駛,大霧天氣}的可信度計(jì)算如下:
因?yàn)镃onfidence(夜間行駛→大霧天氣)=0.71>0.7,所以由“夜間行駛”推測(cè)出“大霧天氣”是強(qiáng)關(guān)聯(lián)規(guī)則。
表4所示為該10條記錄的所有強(qiáng)關(guān)聯(lián)關(guān)系計(jì)算結(jié)果。
表4 關(guān)聯(lián)關(guān)系結(jié)果
實(shí)驗(yàn)分析使用道路交通事故抽樣數(shù)據(jù),抽樣范圍為2015年至2019年間的道路交通事故,記錄了“數(shù)據(jù)編號(hào)”“事故發(fā)生時(shí)間”等在內(nèi)的33項(xiàng)屬性,以及“人員編號(hào)”“人員類型”等21項(xiàng)附加屬性。經(jīng)數(shù)據(jù)處理后,發(fā)現(xiàn)有16項(xiàng)事故影響屬性可能與事故發(fā)生存在強(qiáng)關(guān)聯(lián)關(guān)系,如表5所示。
表5 事故記錄屬性
本文實(shí)驗(yàn)針對(duì)三種特殊路段場(chǎng)景進(jìn)行關(guān)聯(lián)分析,包括隧道、橋梁和彎坡路。為了保證實(shí)驗(yàn)結(jié)果不遺漏有效信息,實(shí)驗(yàn)設(shè)置上相對(duì)選取了較小的最小支持度(min_Sup)閾值和最小可信度(min_Conf)閾值。
1.隧道場(chǎng)景
隧道場(chǎng)景下,取最小支持度min_Sup = 10/N(隧道),其中N(隧道)為隧道場(chǎng)景下數(shù)據(jù)采樣量總量。取最小可信度min_Conf= 0.05。通過python編程,經(jīng)Apriori算法計(jì)算,典型違法行為和事故形態(tài)間的強(qiáng)關(guān)聯(lián)規(guī)則示例,如表6所示。
表6 隧道場(chǎng)景強(qiáng)關(guān)聯(lián)規(guī)則結(jié)果
2.橋梁場(chǎng)景
橋梁場(chǎng)景下,取最小支持度min_Sup = 10/N(橋梁)、最小可信度min_Conf = 0.05。通過python編程,經(jīng)Apriori算法計(jì)算,典型違法行為和事故形態(tài)間的強(qiáng)關(guān)聯(lián)規(guī)則示例,如表7所示。
表7 橋梁場(chǎng)景強(qiáng)關(guān)聯(lián)規(guī)則結(jié)果
3.彎坡路場(chǎng)景
彎坡路場(chǎng)景下,取最小支持度min_Sup=100/N(彎坡路)、最小可信度min_Conf=0.05。通過python編程,經(jīng)Apriori算法計(jì)算,典型違法行為和事故形態(tài)間的強(qiáng)關(guān)聯(lián)規(guī)則示例,如表8所示。
表8 彎坡路場(chǎng)景強(qiáng)關(guān)聯(lián)規(guī)則結(jié)果
序號(hào)強(qiáng)關(guān)聯(lián)規(guī)則(違法行為→事故形態(tài)) 可信度3 逆行→碰撞運(yùn)動(dòng)車輛 0.905932203 4 違反交通信號(hào)→碰撞運(yùn)動(dòng)車輛 0.642594859 5無(wú)證駕駛→碰撞運(yùn)動(dòng)車輛 0.505936422 6 未按規(guī)定讓行→刮撞行人 0.416666667 7 違法會(huì)車→碰撞運(yùn)動(dòng)車輛 0.366013071 8 醉酒駕駛→撞固定物 0.213569776 9 超速行駛→刮撞行人 0.207845135 10 醉酒駕駛→追尾碰撞 0.144178874
根據(jù)三組實(shí)驗(yàn)的數(shù)據(jù)結(jié)果,隧道、橋梁和彎坡路場(chǎng)景下的強(qiáng)關(guān)聯(lián)規(guī)則既有相同性,也有差異性。
相同性主要體現(xiàn)在:一是在發(fā)生事故的前提下,發(fā)生“碰撞運(yùn)動(dòng)車輛”的事故形態(tài)的強(qiáng)度都很高。最高在隧道場(chǎng)景下,“違法超車”“違法變更車道”的行為發(fā)生時(shí),會(huì)有100%的概率導(dǎo)致“碰撞運(yùn)動(dòng)車輛”的事故結(jié)果;最低在隧道場(chǎng)景下,“醉酒駕駛”的行為會(huì)有約48%的概率導(dǎo)致“碰撞運(yùn)動(dòng)車輛”的事故結(jié)果。二是三種特殊路段場(chǎng)景下,強(qiáng)關(guān)聯(lián)規(guī)則相似?!斑`法超車”“逆行”和“違法變更車道”三種違法行為的強(qiáng)關(guān)聯(lián)規(guī)則強(qiáng)度都很高,在90%以上。
差異性主要體現(xiàn)在:一是不同場(chǎng)景下相同違法行為導(dǎo)致相同事故形態(tài)的關(guān)聯(lián)度有差異?!澳嫘小鲎策\(yùn)動(dòng)車輛”的關(guān)聯(lián),在三種場(chǎng)景的關(guān)聯(lián)度都在90%以上,但是“疲勞駕駛→碰撞運(yùn)動(dòng)車輛”在隧道場(chǎng)景下的關(guān)聯(lián)度在61%左右,而在橋梁場(chǎng)景下的關(guān)聯(lián)度在45%左右,在彎坡路場(chǎng)景下的關(guān)聯(lián)度在36%左右?!盁o(wú)證駕駛→碰撞運(yùn)動(dòng)車輛”“違反交通信號(hào)→碰撞運(yùn)動(dòng)車輛”的關(guān)聯(lián),在三種場(chǎng)景的關(guān)聯(lián)度也存在一定差異。二是不同場(chǎng)景下相同違法行為導(dǎo)致不同事故形態(tài)的關(guān)聯(lián)度上有差異?!白砭岂{駛”違法行為,在隧道場(chǎng)景下導(dǎo)致“碰撞運(yùn)動(dòng)車輛”的事故形態(tài)在48%左右;在橋梁場(chǎng)景下導(dǎo)致“撞固定物”的事故形態(tài)在26%左右;在彎坡路場(chǎng)景下導(dǎo)致“追尾碰撞”的事故形態(tài)在14%左右。
使用Apriori算法對(duì)事故數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘分析,可以精準(zhǔn)定位到各因素間的關(guān)聯(lián)關(guān)系,指導(dǎo)道路交通事故防控。下一步計(jì)劃從兩個(gè)角度進(jìn)行優(yōu)化研究:一是將關(guān)聯(lián)規(guī)則分析由單點(diǎn)分析拓展為多維度分析;二是進(jìn)行多種事故場(chǎng)景分類綜合對(duì)比分析,最終形成事故致因的關(guān)聯(lián)規(guī)則庫(kù),為道路交通事故預(yù)防“減量控大”工作提供支撐。