王博文,王景升*,朱 茵,閆 碩,薛曦初
(1.中國(guó)人民公安大學(xué)交通管理學(xué)院,北京 100038;2.中國(guó)人民公安大學(xué)涉外警務(wù)學(xué)院,北京 100038)
據(jù)中華人民共和國(guó)交通事故統(tǒng)計(jì)年報(bào)數(shù)據(jù)統(tǒng)計(jì),2019年中國(guó)共發(fā)生道路交通事故1 247.3萬(wàn)起,造成62 763人死亡,256 101人受傷,直接財(cái)產(chǎn)損失達(dá)13.5億元。人為因素、車輛因素是交通事故最主要的兩個(gè)致因因素,其中機(jī)動(dòng)車駕駛?cè)说牟话踩袨閷?dǎo)致的交通事故約為90%,車輛的不安全狀態(tài)導(dǎo)致的交通事故約占8%[1]。固有性質(zhì)的差異,如:年齡、駕駛經(jīng)驗(yàn),會(huì)使駕駛?cè)藘A向于產(chǎn)生不同類別的交通事故致因因素并暴露在不同程度的風(fēng)險(xiǎn)中。研究不同特征的駕駛?cè)巳后w與交通事故致因因素的關(guān)聯(lián)性在目前來(lái)說(shuō)十分重要。
在研究交通事故風(fēng)險(xiǎn)傾向時(shí),研究人員主要關(guān)注駕駛?cè)说奶卣髋c人的不安全行為的關(guān)聯(lián)性,較少關(guān)注駕駛?cè)说奶卣髋c車輛的不安全狀態(tài)的關(guān)聯(lián)。Mark等[2]研究表明,年齡較小的駕駛?cè)巳菀滓蛩麄兊奈kU(xiǎn)駕駛行為發(fā)生交通事故。管滿泉等[3]通過(guò)使用灰色聚類方法,研究了不同年齡、駕駛經(jīng)驗(yàn)和屬地的駕駛?cè)说慕煌ㄕ厥聝A向,并分析了駕駛?cè)颂卣髋c肇事行為的關(guān)聯(lián)。Hu等[4]研究了不同年齡、駕駛經(jīng)驗(yàn)、駕駛風(fēng)格條件下,駕駛?cè)说氖鹿饰kU(xiǎn)傾向,說(shuō)明了年齡在18~30歲的駕駛?cè)舜嬖谳^高的事故危險(xiǎn)傾向,原因是青少年的攻擊性心理較強(qiáng),容易做出非法駕駛行為,此外,駕駛風(fēng)險(xiǎn)也與駕駛?cè)说鸟{駛經(jīng)驗(yàn)及駕駛風(fēng)格具備一定關(guān)聯(lián)性。
現(xiàn)研究年齡、駕駛經(jīng)驗(yàn)等駕駛?cè)颂卣髋c事故傷亡人數(shù)、事故責(zé)任、駕駛?cè)说牟话踩袨橹岛蛙囕v的不安全狀態(tài)值的關(guān)聯(lián)性,以中國(guó)公安交通管理綜合應(yīng)用平臺(tái)2020年的機(jī)動(dòng)車交通事故數(shù)據(jù)為基礎(chǔ),分析肇事駕駛?cè)说奶卣?,并采用K-means++進(jìn)行聚類分析,將駕駛?cè)巳后w分為3類,了解不同駕駛?cè)巳后w與交通事故致因因素的關(guān)聯(lián)性,針對(duì)性地開(kāi)展交通安全教育的有效途徑。
研究數(shù)據(jù)來(lái)源于公安交通管理綜合應(yīng)用平臺(tái)2020年的機(jī)動(dòng)車交通事故數(shù)據(jù),基于以下標(biāo)準(zhǔn)進(jìn)行采樣:①車輛類型為機(jī)動(dòng)車;②交通參與角色為駕駛?cè)?;③年齡在18歲以上;④駕駛經(jīng)驗(yàn)在1年以上;⑤詳細(xì)的事故傷亡人數(shù)記錄;⑥駕駛?cè)私煌ㄊ鹿食袚?dān)的責(zé)任的大?。虎咴敿?xì)的駕駛?cè)说牟话踩袨橹涤涗?;⑧詳?xì)的車輛的不安全狀態(tài)值記錄[5-9]。抽樣得到本研究樣本總數(shù)為3 616個(gè),樣本特征依次為:事故傷亡人數(shù)、駕駛經(jīng)驗(yàn)、年齡、事故責(zé)任、駕駛?cè)说牟话踩袨橹?、車輛的不安全狀態(tài)值[10]。數(shù)據(jù)的描述性統(tǒng)計(jì)如表1所示。
表1 數(shù)據(jù)的描述性統(tǒng)計(jì)表Table 1 Descriptive statistical tables of data
1.2.1K-means++算法
為優(yōu)化K-means算法隨機(jī)選擇初始聚類中心的方法,降低初始聚類中心選擇的隨機(jī)性,提高模型收斂效果及可靠性,K-means++初始化方案使算法生成的初始聚類中心彼此遠(yuǎn)離,得出了比隨機(jī)生成初始聚類中心更加可靠的結(jié)果。建立K-means++聚類分析模型,主要步驟如下。
步驟1確定n個(gè)樣本及對(duì)應(yīng)樣本的m個(gè)特征,構(gòu)造n×m的矩陣。
步驟2采用輪廓系數(shù)作為聚類算法的評(píng)價(jià)指標(biāo),繪制不同簇?cái)?shù)下樣本的輪廓系數(shù)分布圖,并選取最佳的簇?cái)?shù)劃分值K。
步驟3隨機(jī)抽取K個(gè)彼此遠(yuǎn)離的樣本作為最初的聚類中心。
步驟4進(jìn)入循環(huán):計(jì)算每個(gè)樣本點(diǎn)和聚類中心的距離,將每個(gè)樣本點(diǎn)分配到離他們最近的聚類中心,生成K個(gè)簇。對(duì)于每個(gè)簇,計(jì)算所有被分到該簇的樣本點(diǎn)的平均值作為新的聚類中心。
步驟5當(dāng)聚類中心的位置不再發(fā)生變化,迭代停止,聚類完成。
步驟6繪制K個(gè)簇的概率密度圖并進(jìn)行分析。
1.2.2 距離度量
每個(gè)樣本點(diǎn)到聚類中心的距離采用歐幾里得距離d進(jìn)行度量,可表示為
(1)
式(1)中:x為一個(gè)簇中的一個(gè)樣本點(diǎn);μ為該簇的聚類中心;n為特征個(gè)數(shù);i為組成點(diǎn)x的每個(gè)特征;xi為樣本點(diǎn)x的第i個(gè)特征;μi為簇的聚類中心的第i個(gè)特征。
1.2.3 輪廓系數(shù)
對(duì)沒(méi)有真實(shí)標(biāo)簽的數(shù)據(jù)進(jìn)行聚類時(shí),可以使用輪廓系數(shù)作為評(píng)價(jià)指標(biāo)。輪廓系數(shù)反映了聚類結(jié)果的簇內(nèi)稠密程度和簇間離散程度,單個(gè)樣本的輪廓系數(shù)計(jì)算公式為
(2)
式(2)中:s為單個(gè)樣本的輪廓系數(shù);a為樣本與同一簇中所有其他點(diǎn)之間的平均距離;b為樣本與下一個(gè)最近的簇中的所有點(diǎn)之間的平均距離。
輪廓系數(shù)可以同時(shí)衡量:樣本與其自身所在的簇中的其他樣本的相似度a以及樣本與其他簇中的樣本的相似度b。式(1)可被解析為
(3)
由式(3)得單個(gè)樣本的輪廓系數(shù)取值范圍為(-1,1),當(dāng)s越接近于1時(shí),該樣本與其所在的簇中的樣本相似度越高,同時(shí)與其他簇中的樣本相似度越低;當(dāng)s=0時(shí),該樣本與其所在簇及相鄰簇中的樣本相似度一致;當(dāng)s越接近于-1時(shí),該樣本與其所在的簇中的樣本相似度越低,同時(shí)與其他簇中的樣本相似度越高。
通過(guò)采樣獲得的3 616個(gè)交通事故樣本中,傷亡人數(shù)共4 105人,不同傷亡人數(shù)的交通事故的頻率如圖1所示。
圖1 不同傷亡人數(shù)的交通事故的頻率Fig.1 The frequency of traffic accidents with different casualties
由圖1可知,傷亡人數(shù)為2人的交通事故頻率最高,傷亡人數(shù)大于2時(shí),事故頻率呈現(xiàn)依次下降的趨勢(shì),重特大事故占事故總數(shù)的7.27%。
交通事故的嚴(yán)重程度與人的不安全行為及車輛的不安全狀態(tài)相關(guān),年齡、駕齡是影響人的不安全行為及車輛的不安全狀態(tài)相關(guān)因素。研究人員將駕駛?cè)朔譃?個(gè)年齡組:18~30、31~40、41~50、51~60、61~83歲,不同年齡段的駕駛員發(fā)生交通事故的次數(shù)與傷亡人數(shù)如圖2所示。
圖2 不同年齡段的駕駛員發(fā)生交通事故的次數(shù)與傷亡人數(shù)Fig.2 The number of accidents and casualties of drivers of different age groups
由圖2可知,30~40歲的駕駛?cè)税l(fā)生交通事故的頻率最高,60~83歲駕駛?cè)税l(fā)生交通事故的頻率最低。傷亡人數(shù)的趨勢(shì)與事故發(fā)生頻率的趨勢(shì)相同。
研究人員依據(jù)駕駛經(jīng)驗(yàn)將駕駛?cè)朔譃?組:0~2、2~5、5~10、10~20、20~50年,不同駕駛經(jīng)驗(yàn)的駕駛員發(fā)生交通事故的次數(shù)與傷亡人數(shù)如圖3所示。
圖3 不同駕駛經(jīng)驗(yàn)的駕駛員發(fā)生交通事故的次數(shù)與傷亡人數(shù)Fig.3 Number of traffic accidents and casualties among drivers with different driving experience
由圖3得,10~20年駕駛經(jīng)驗(yàn)組駕駛員事故數(shù)量最多,5~10年駕駛經(jīng)驗(yàn)組次之,0~2年駕駛經(jīng)驗(yàn)組事故數(shù)量最少。傷亡人數(shù)的趨勢(shì)與事故發(fā)生頻率的趨勢(shì)相同。
駕駛員的反應(yīng)速度、判斷能力、操作熟練程度等因素會(huì)隨著年齡和駕駛經(jīng)驗(yàn)的變化而產(chǎn)生變化,因此年齡及駕駛經(jīng)驗(yàn)會(huì)對(duì)駕駛員的事故危險(xiǎn)傾向造成影響。
使用K-means++算法,對(duì)事故傷亡人數(shù)、年齡、駕駛經(jīng)驗(yàn)、事故責(zé)任、駕駛?cè)说牟话踩袨橹怠④囕v的不安全狀態(tài)值進(jìn)行聚類分析,識(shí)別出不同駕駛?cè)巳后w的致因因素傾向性。
繪制聚類簇?cái)?shù)K為2~7時(shí)的輪廓系數(shù)分布如圖4所示。當(dāng)K為2~7時(shí)的輪廓系數(shù)數(shù)值變化如圖5所示。由圖4、圖5可知,平均輪廓系數(shù)隨著K的增加而減小,即聚類效果隨著K的增大而下降,當(dāng)聚類簇?cái)?shù)為2時(shí),平均輪廓系數(shù)為0.58,當(dāng)K為3時(shí),平均輪廓系數(shù)為0.52,結(jié)合對(duì)駕駛?cè)撕侠韯澐值男枨螅x擇K=3。
圖4 K為2~7時(shí)的輪廓系數(shù)分布情況Fig.4 The silhouette coefficient distribution when K is from 2 to 7
圖5 K為2~7時(shí)的輪廓系數(shù)數(shù)值變化情況Fig.5 When K is from 2 to 7,the silhouette coefficient value changes
使用K-means++算法將樣本分為三類,并繪制3個(gè)駕駛?cè)巳后w的概率密度分布曲線如圖6所示。
圖6 概率密度分布曲線Fig.6 Probability density distribution curve
聚類中心對(duì)應(yīng)類別下的樣本數(shù)目如表2所示。
表2 聚類中心對(duì)應(yīng)類別下的樣本數(shù)目Table 2 The number of samples under the corresponding category in the cluster center
由圖6及表2可知,駕駛員群體存在一定特征:群體0在Z0、Z1、Z2、Z5屬性上最大,占比27.56%;群體1在Z0、Z3、Z4屬性上最小,占比34.07%;群體2在Z1、Z2、Z5屬性上最小,在Z3、Z4屬性上最大,占比38.16%。將駕駛?cè)巳后w分為3個(gè)類型,具體如下。
(1)針對(duì)群體0進(jìn)行分析,駕駛經(jīng)驗(yàn)(Z1)或年齡(Z2)較高,事故責(zé)任(Z3)較高的駕駛?cè)巳后w往往存在較高的車輛的不安全狀態(tài)值(Z5),較高的傷亡人數(shù)(Z0)。駕駛經(jīng)驗(yàn)較多或年齡較大的駕駛?cè)巳后w往往具備良好的駕駛技能,可以較好地對(duì)危險(xiǎn)狀況做出判斷和處理。這類駕駛?cè)藢?duì)自己的駕駛能力有盲目的自信,以至于忽視了車輛的不安全狀態(tài)對(duì)駕駛風(fēng)險(xiǎn)的影響,在汽車處于制動(dòng)不良、照明及信號(hào)裝置失效等狀態(tài)下仍選擇上路行駛。年齡的影響也使這類群體有著更高的傷亡率。對(duì)于此類群體,可以開(kāi)展車輛使用方面的安全狀態(tài)教育,減少對(duì)車輛安全狀態(tài)的忽視帶來(lái)的安全隱患。
(2)針對(duì)群體1進(jìn)行分析,事故責(zé)任(Z3)較低的駕駛?cè)巳后w,往往不安全行為值(Z4)與車輛的不安全狀態(tài)值(Z5)均較低。此類事故多為事故對(duì)方承擔(dān)責(zé)任,對(duì)此類群體應(yīng)按照自愿接受交通安全教育的原則,適度對(duì)其進(jìn)行安全出行引導(dǎo)。
(3)針對(duì)群體2進(jìn)行分析,駕駛經(jīng)驗(yàn)(Z1)或年齡(Z2)較低,事故責(zé)任(Z3)較高的駕駛?cè)巳后w往往存在較高的不安全行為值(Z4)。駕駛經(jīng)驗(yàn)較少或年齡較小的駕駛?cè)巳后w,在駕駛機(jī)動(dòng)車時(shí)存在僥幸心理,因此不安全行為較為嚴(yán)重,如醉酒駕駛、逆向行駛、違法信號(hào)燈通行等。此類群體發(fā)生交通事故的頻率最高,風(fēng)險(xiǎn)性最大。對(duì)于此類駕駛?cè)巳后w,可以開(kāi)展交通安全行為教育,減少不良駕駛行為帶來(lái)的安全隱患。
以中國(guó)公安交通管理綜合應(yīng)用平臺(tái)2020年的機(jī)動(dòng)車交通事故數(shù)據(jù)為基礎(chǔ),使用K-means++算法對(duì)肇事駕駛?cè)说奶卣鬟M(jìn)行聚類分析,將駕駛?cè)巳后w分為3個(gè)類別,得出了不同駕駛?cè)巳后w與交通事故致因因素的關(guān)聯(lián)性,為針對(duì)性地開(kāi)展交通安全教育提供有效途徑。