• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聚類分析的交通事故影響因素研究

      2024-12-31 00:00:00王愷亮朱新宇
      科技創(chuàng)新與應(yīng)用 2024年35期
      關(guān)鍵詞:means聚類影響因素

      摘" 要:為研究道路交通事故的主要因素,先對數(shù)據(jù)變量集進(jìn)行賦值,使用Calinski-Harabasz函數(shù)選擇適宜聚類簇數(shù),利用K-means聚類算法聚類交通事故數(shù)據(jù),再采用Logistic模型對事故數(shù)據(jù)建立嚴(yán)重程度分類模型。結(jié)果表明,基于Calinski-Harabasz函數(shù)的K-means聚類的Logistic回歸,既考慮k值選擇的合理性以及數(shù)據(jù)的異質(zhì)性,又提高了模型的精度;星期、路面狀況、地形、路口路段類型僅在某一個類別中顯著。事故發(fā)生時間、年齡、交通方式、駕齡、季節(jié)、人員類型和能見度在兩個及以上類別中顯著。能見度、人員類型在多個類別中顯著,但是影響方式不同。可知,上述變量對交通事故的嚴(yán)重程度影響具有差異性。

      關(guān)鍵詞:道路交通安全;影響因素;K-means聚類;Calinski-Harabasz函數(shù);Logistic回歸

      中圖分類號:U491.31" " " 文獻(xiàn)標(biāo)志碼:A" " " " " "文章編號:2095-2945(2024)35-0107-06

      Abstract: In order to study the main factors of road traffic accidents, the data variable set is first assigned, the Calinski-Harabasz function is used to select the appropriate number of clusters, the K-means clustering algorithm is used to cluster the traffic accident data, and then the Logistic model is used to establish a severity classification model for the accident data. The results show that the Logistic regression based on K-means clustering based on the Calinski-Harabasz function not only considers the rationality of k value selection and data heterogeneity, but also improves the accuracy of the model; week, road condition, terrain, and intersection section type are only significant in a certain category. Accident time, age, transportation mode, driving age, season, personnel type, and visibility are significant in two or more categories. Visibility and person types are significant in multiple categories, but the impact is different. It can be seen that the above variables have different impacts on the severity of traffic accidents.

      Keywords: road traffic safety; influencing factor; K-means clustering; Calinski-Harabasz function; Logistic regression

      據(jù)國家統(tǒng)計局2022年的數(shù)據(jù)統(tǒng)計,汽車保有量已經(jīng)達(dá)到了26 150萬輛,隨著汽車保有量的增加,社會對道路交通完全問題也更加關(guān)注。交通事故受天氣[1]、環(huán)境[2]、道路[3]、駕駛員[4]和車輛自身[5]等因素影響,盡管交管部門通過完善法律法規(guī)來防范交通事故,但交通事故仍然時有發(fā)生。發(fā)生交通事故不但可能造成不必要的財產(chǎn)損失,還可能危及人身安全甚至更嚴(yán)重的后果。因此依據(jù)已有交通事故數(shù)據(jù),提取發(fā)生事故的特征,探究發(fā)生事故的主要影響因素,有利于預(yù)防事故的發(fā)生。

      近年來,眾多學(xué)者挖掘事故致因進(jìn)行了一系列深入而廣泛的研究。李英帥等[6]使用隨機(jī)森林模型探究電動自行車交通事故的影響因素;王天文等[7]使用多個模型進(jìn)行對比選擇多項Logit對人、路、環(huán)境、事故特征等方面的顯著因素進(jìn)行探討,最后對交管部門提出意見;戢曉峰等[8]利用TOPSIS法和Logistic模型識別時間、事故形態(tài)、車輛自身等與事故嚴(yán)重程度的相關(guān)性;何雅琴等[9]利用累積Logistic模型探討人、車、路和環(huán)境等事故特征與事故嚴(yán)重程度的相關(guān)性,發(fā)現(xiàn)事故發(fā)生時間、事故形態(tài)、車輛類型、照明條件、行人年齡等因素與事故嚴(yán)重程度顯著相關(guān)性;孟云偉等[10]利用Logistic模型探究高速公路交通事故與車型、天氣、時間、路段類型、事故類型和月份的關(guān)系,發(fā)現(xiàn)以上6個因素對事故嚴(yán)重程度均有顯著影響;溫惠英等[11]利用多項Logit模型識別對老年人交通事故嚴(yán)重程度的影響因素,發(fā)現(xiàn)車輛類型、車輛使用年限、路口路段類型、車道數(shù)和性別等因素為顯著影響因素;馬景峰等[12]利用多項、有序、廣義有序Logit模型進(jìn)行橫向?qū)Ρ葦M合度,識別出電動自行車與機(jī)動車事故嚴(yán)重性影響最大的因素為2種車輛類型、騎行者的年齡。

      在挖掘事故致因時,使用上述方法的學(xué)者們往往會忽略事故數(shù)據(jù)的異質(zhì)性,這可能會影響結(jié)果的準(zhǔn)確性。鑒于此,在研究水上交通事故時,張慶年等[13]考慮了數(shù)據(jù)的異質(zhì)性,使用因子分析法對特征變量進(jìn)行降維后,將交通事故數(shù)據(jù)通過K-means聚類,再將對各類別中的交通事故數(shù)據(jù)進(jìn)行分析。但在選擇K-means聚類時,需要提前確定聚類數(shù)目k值[14],在上述文章中作者所選擇的k值只是為了讓分類后的數(shù)據(jù)能適用Logistic模型,并不合理。因此,為了同時考慮數(shù)據(jù)的異質(zhì)性和k值的合理選擇,先使用Calinski-Harabasz函數(shù)來選擇適宜的k值,利用K-means聚類算法對事故數(shù)據(jù)進(jìn)行分類,最后利用Logistic模型分別對各個類別下事故嚴(yán)重程度的重要因素進(jìn)行識別。

      1" 研究方法

      1.1" 基于Calinski-Harabasz函數(shù)的K-means聚類算法

      1.1.1" K-means算法原理

      K-means算法是一種常用的聚類方法,用于將數(shù)據(jù)劃分為k個不重疊的簇。其基本步驟如下。

      1)設(shè)置簇的數(shù)量k,選擇初始的k個聚類中心。

      2)迭代更新:計算每個樣本與所有聚類中心的距離,將樣本分配給最近的聚類中心。然后,重新計算每個簇的中心,即簇內(nèi)樣本的平均值。

      3)檢查收斂:當(dāng)聚類中心穩(wěn)定或迭代次數(shù)達(dá)到預(yù)設(shè)值時,算法收斂。

      4)輸出結(jié)果:為每個樣本分配簇標(biāo)簽。

      在K-means算法中,初始聚類中心的選擇至關(guān)重要,因為它會影響最終的聚類效果。為了避免局部最優(yōu)解,可以多次運行算法并選擇最佳結(jié)果。

      將使用Calinski-Harabasz指數(shù)評估不同簇數(shù)量下的聚類質(zhì)量,選擇最佳的簇數(shù),以用于后續(xù)的嚴(yán)重程度分類模型的構(gòu)建。

      1.1.2" Calinski-Harabasz函數(shù)的定義和計算

      Calinski-Harabasz(CH)函數(shù)[15]是一種評估聚類結(jié)果的指標(biāo),衡量聚類的緊密度和分離度。其公式如下

      CH=×,

      式中:BSS(類間離差)表示不同簇中心與整體數(shù)據(jù)中心的差異,WSS(類內(nèi)離差)表示同一簇內(nèi)數(shù)據(jù)點之間的差異,N為總樣本數(shù),k為簇數(shù)。公式中的校正因子用于平衡簇數(shù)對CH值的影響。CH值越大,聚類效果越好。

      1.2" Logistic回歸

      設(shè)因變量Y為二分類變量,1表示發(fā)生傷亡事故,0表示發(fā)生財產(chǎn)損失事故。有n個自變量與因變量有關(guān),記X=(x1,x2,……,xn),則

      P(Y=1/X)=,

      式中:P為事故Y發(fā)生的概率;B0為回歸截距;Bi為自變量i的回歸系數(shù)。

      Logistic回歸模型因其良好的可解釋性和性能,在二分類問題中廣泛應(yīng)用。

      2" 數(shù)據(jù)

      2.1" 數(shù)據(jù)來源及處理

      交通事故數(shù)據(jù)來自某市歷史交通事故數(shù)據(jù),涉及機(jī)動車交通事故。由于數(shù)據(jù)格式不一致,通過查詢天氣等信息,盡量補全缺失數(shù)據(jù),以確保完整性。篩選標(biāo)準(zhǔn)包括:駕駛?cè)四挲g大于18歲;駕齡大于等于1年;交通事故類型;星期;月份;天氣;能見度;事故發(fā)生時間分類;人員分類;交通方式分類;車輛類型;路面狀況;路表情況;地形;道路線性;路口路段類型,得到事故樣本4 797個。

      2.2" 數(shù)據(jù)變量集構(gòu)建及賦值

      依據(jù)搜集到的事故數(shù)量及模型的要求,交通事故類型量化為2個等級:財產(chǎn)損失事故=“0”,傷人事故和死亡事故=“1”。各個變量的具體賦值及其含義見表1。

      3" 交通事故數(shù)據(jù)聚類結(jié)果

      K-means聚類在python平臺上進(jìn)行試驗。首先需要確定k值,將k值的范圍設(shè)置為2≤k<11,得到9組不同k值對應(yīng)的CH值,對應(yīng)結(jié)果如圖1所示。

      結(jié)合圖像可知:CH值隨著k的增加而減小,即聚類效果隨著k的增大而下降,但是需要進(jìn)行合理的劃分,當(dāng)聚類簇數(shù)為2時,CH值為763,當(dāng)k為3時,CH值為747,選擇k=3。

      使用K-means算法將樣本劃分為3類,各類別對應(yīng)的樣本數(shù)目見表2。

      4" 事故嚴(yán)重程度模型分析結(jié)果

      4.1" Logistic回歸模型檢驗

      通過Hosmer-Lemeshow檢驗來驗證模型:檢驗結(jié)果顯示,分類后的3種類別樣本數(shù)據(jù)的卡方值均低于15.507,且顯著性水平高于0.05。這表明分類后的樣本在回歸模型中的整體擬合度較好,自變量能夠有效解釋因變量。

      再將顯著性水平高于0.05的自變量剔除后,最終鑒別出各類事故中對傷亡事故有顯著影響的因素。

      4.2" 事故嚴(yán)重程度模型結(jié)果分析

      筆者采用聚類分析模型對事故數(shù)據(jù)進(jìn)行分析,進(jìn)而探究不同類別下影響水上交通事故嚴(yán)重程度的主要因素。下文將對3個類別的回歸結(jié)果進(jìn)行分析。

      由表3可知,在類別1中,事故發(fā)生時間、年齡、人員類型、交通方式、季節(jié)和地形6個變量顯著。

      事故發(fā)生時間:傷亡事故概率隨時間增加逐漸下降,其中[0:00,4:00]的事故概率是[20:00,24:00]的5.537倍。這可能是由于深夜和凌晨交通量低,駕駛員容易忽視交通規(guī)則,導(dǎo)致超速、闖紅燈等危險駕駛行為增加。

      季節(jié):夏季發(fā)生傷亡事故的概率為冬季的2.194倍,說明夏季對事故影響最大,春季和秋季次之。高溫可能導(dǎo)致駕駛員疲勞、分心、急躁等行為增多。

      年齡:36歲到45歲之間的傷亡事故概率是56歲及以上的1.676倍。位于年齡段的駕駛?cè)丝赡茉诠ぷ髦袎毫^大,影響專注度和決策能力,且對自身駕駛能力過于自信。

      人員類型:其他職業(yè)的傷亡事故概率是自主營業(yè)者的1.769倍,可能是因為工作壓力影響駕駛行為,自主營業(yè)者相比其他職業(yè)者的駕駛員工作壓力較小。

      交通方式:駕駛拖拉機(jī)比汽車更容易導(dǎo)致傷亡事故。拖拉機(jī)操作需要特定技能和經(jīng)驗,駕駛拖拉機(jī)駕駛員缺乏培訓(xùn)或經(jīng)驗比例較高,導(dǎo)致事故風(fēng)險更高。

      地形:平原地區(qū)發(fā)生傷亡事故的概率為非平原地區(qū)的1.516倍,可能是因為平原地區(qū)交通流量大,交通沖突和潛在危險情況更多。

      由表4可知,在類別2中,事故發(fā)生時間、人員類型、交通方式、駕齡、季節(jié)、能見度和路口路段類型7個變量顯著。

      事故發(fā)生時間:傷亡事故概率隨時間增加逐漸下降,[0:00,4:00]的事故概率是[20:00,24:00]的3.854倍,與類別1類似。

      季節(jié):同秋季相比夏季發(fā)生傷亡事故的概率最高,為冬季的2.04倍。原因可能是夏、秋季的氣溫升高,這可能導(dǎo)致駕駛員的注意力分散或不適應(yīng)高溫天氣,從而影響駕駛技能和判斷力,增加了事故發(fā)生的概率。

      人員類型:自主營業(yè)者對傷亡事故的影響最大,工人和農(nóng)民的系數(shù)為負(fù)。自主營業(yè)者可能缺乏必要的專業(yè)培訓(xùn)和安全知識。這可能導(dǎo)致他們在安全管理和控制方面的能力不足,增加了事故發(fā)生的概率。

      駕齡:駕齡6到10年發(fā)生傷亡事故的概率最高,為駕齡21年及以上的1.898倍。原因可能是,有駕駛經(jīng)驗的駕駛員更加謹(jǐn)慎和遵守交通規(guī)則,并且對于可能發(fā)生的危險有更好的預(yù)知能力。

      交通方式:駕駛農(nóng)用運輸車的傷亡事故概率是駕駛拖拉機(jī)的10.512倍,可能因為農(nóng)用運輸車需要更復(fù)雜的操控,駕駛?cè)巳菀壮霈F(xiàn)操作失誤導(dǎo)致交通事故的發(fā)生。

      能見度:能見度小于等于50 m對傷亡事故的影響最大,因為低能見度減少了駕駛員的反應(yīng)時間,導(dǎo)致事故較容易發(fā)生。

      路口路段類型:普通路段發(fā)生傷亡事故的概率是交叉口的1.406倍。普通路段通常為直線或相對較直的路段,駕駛員更容易高速行駛,而交叉口需要減速或停車,較高的車速導(dǎo)致事故的高發(fā)生率。

      由表5可知,在類別3中,事故發(fā)生時間段、年齡、人員類型、駕齡和能見度5個變量顯著。

      事故發(fā)生時間:凌晨[0:00,4:00]的傷亡事故概率是[20:00,24:00]的2.14倍??赡苁橇璩繒r段較容易出現(xiàn)疲勞駕駛,這無疑增加了事故風(fēng)險。

      年齡:36歲到45歲之間的傷亡事故概率是56歲及以上的1.755倍。原因可能是,年長駕駛?cè)丝赡芨鼉A向于遵守交通規(guī)則、保持謹(jǐn)慎和注意力集中。相比之下,年齡較小的駕駛?cè)丝赡芨菀桩a(chǎn)生駕駛過度自信或冒險行為,這可能增加了事故的風(fēng)險。

      人員類型:工人發(fā)生傷亡事故的概率是自主營業(yè)者的1.385倍,農(nóng)民為1.465倍。原因可能是職業(yè)為工人和農(nóng)民的駕駛?cè)?,缺乏系統(tǒng)的駕駛培訓(xùn)和交通安全教育,導(dǎo)致他們在駕駛過程中更容易忽視交通規(guī)則和安全注意事項。

      駕齡:駕齡11到15年的傷亡事故概率高于16到20年,為大于等于21年的1.574倍和2.073倍。原因可能是隨著駕駛經(jīng)驗的增加,駕駛員通常更加謹(jǐn)慎。

      能見度:能見度100~200 m的傷亡事故概率是能見度小于等于50 m的1.834倍。低能見度時,駕駛員更警覺,采取更保守的駕駛行為,有利于減少事故發(fā)生。

      4.3" 交通安全改善對策

      根據(jù)上述分析的結(jié)果,就道路方面而言,平原、普通路段、施工道路容易發(fā)生傷亡事故的概率較大。改善道路設(shè)計和標(biāo)志標(biāo)線,特別是在高風(fēng)險路段。增加警示標(biāo)志、限速標(biāo)志和行人過街設(shè)施,提高駕駛員和行人的警覺性,減少事故風(fēng)險。

      駕駛?cè)朔矫?,拖拉機(jī)駕駛員、農(nóng)用運輸車駕駛員、其他職業(yè)的從業(yè)人員、自主營業(yè)者、36歲到45歲傷亡事故的概率較高,隨著駕齡的增長發(fā)生傷亡事故的概率也更高。提供針對拖拉機(jī)駕駛員和農(nóng)用運輸車駕駛員的專門培訓(xùn)計劃,以提高他們的駕駛技能和安全意識,同時確保這些車輛在道路上符合必要的安全標(biāo)準(zhǔn)。向相關(guān)從業(yè)者提供針對性的交通安全培訓(xùn),強(qiáng)調(diào)他們在工作壓力下的注意力和決策能力的重要性,同時提供專門的交通安全指導(dǎo)和資源,幫助他們了解并實施適當(dāng)?shù)陌踩胧?。針對駕齡高和針對36歲到45歲的駕駛員,加強(qiáng)安全宣傳教育,提醒他們不要因為駕齡增長而掉以輕心,保持良好的駕駛習(xí)慣和注意力。鼓勵年齡較大的駕駛員進(jìn)行定期身體檢查,并確保他們的身體狀況適合駕駛。

      環(huán)境方面,凌晨、春、夏、秋、能見度較低容易導(dǎo)致傷亡事故的發(fā)生。在凌晨時段加強(qiáng)巡邏和監(jiān)控,提高警察和交通管理人員的存在感,以減少事故發(fā)生的可能性。在夏季、春季和秋季增加交通警力,加強(qiáng)交通管制,提高駕駛員的遵守交通規(guī)則和安全駕駛意識,提醒他們在高溫天氣下保持良好的體力和注意力,同時在雨雪天氣或能見度較差的情況下,加強(qiáng)巡邏和監(jiān)測,確保駕駛員遵守減速和保持安全距離的規(guī)定。

      根據(jù)上述分析的結(jié)果,就道路方面而言,平原、普通路段、施工道路容易發(fā)生傷亡事故。建議改善這些路段的設(shè)計和標(biāo)志標(biāo)線,增加警示標(biāo)志、限速標(biāo)志和行人過街設(shè)施,提高駕駛員和行人的警覺性,減少事故風(fēng)險。

      5" 結(jié)論

      1)基于Calinski-Harabasz函數(shù)的K-means聚類的Logistic回歸,既考慮k值選擇的合理性以及數(shù)據(jù)的異質(zhì)性,又提高了模型的精度,鑒此這個模型可用于分析交通事故嚴(yán)重程度。

      2)交通事故數(shù)據(jù)被分成3個類別。星期、路面狀況、地形、路口路段類型僅在某一個類別中顯著。事故發(fā)生時間、年齡、交通方式、駕齡、季節(jié)、人員類型、能見度在兩個及以上類別中顯著。能見度、人員類型在多個類別中顯著,但是影響方式不同。據(jù)結(jié)果可知,上述變量對交通事故的嚴(yán)重程度影響具有差異性。

      參考文獻(xiàn):

      [1] 馮忠祥,雷葉維,張衛(wèi)華,等.道路環(huán)境對繞城高速公路交通事故嚴(yán)重程度影響分析[J].中國公路學(xué)報,2016,29(5):116-123.

      [2] 孫軼軒,邵春福,趙丹,等.交通事故嚴(yán)重程度C5.0決策樹預(yù)測模型[J].長安大學(xué)學(xué)報(自然科學(xué)版),2014,34(5):109-116.

      [3] 林慶豐,鄧院昌.基于Logistic的城市公交事故嚴(yán)重程度影響因素分析:以廣東省為例[J].中山大學(xué)學(xué)報(自然科學(xué)版),2020,59(4):120-127.

      [4] 宋棟棟,楊小寶,祖興水,等.基于均值異質(zhì)性隨機(jī)參數(shù)Logit模型的城市道路事故駕駛員受傷嚴(yán)重程度研究[J].交通運輸系統(tǒng)工程與信息,2021,21(3):214-220.

      [5] 胡驥,閆章存,盧小釗,等.基于有序Logit與Probit模型的交通事故嚴(yán)重性影響因素分析[J].安全與環(huán)境學(xué)報,2018,18(3):836-843.

      [6] 李英帥,張旭,王衛(wèi)杰,等.基于隨機(jī)森林的電動自行車騎行者事故傷害程度影響因素分析[J].交通運輸系統(tǒng)工程與信息,2021,21(1):196-200.

      [7] 王天文,莊越.基于多項Logit模型的機(jī)動車相關(guān)事故影響因素和嚴(yán)重程度探究[J].交通工程,2023,23(2):11-18.

      [8] 戢曉峰,李德林,楊文臣.山區(qū)二級公路交通事故致因的時間演化機(jī)制[J].中國安全科學(xué)學(xué)報,2019,29(4):31-36.

      [9] 何雅琴,段雨陽,王晨.基于累積Logistic模型的行人交通事故嚴(yán)重程度分析及對策研究[J].安全與環(huán)境學(xué)報,2021,21(3):1165-1172.

      [10] 孟云偉,張熙衍,青光焱,等.基于Logistic回歸的高速公路交通事故后果的影響因素分析[J].武漢理工大學(xué)學(xué)報(交通科學(xué)與工程版),2022,46(1):12-16.

      [11] 溫惠英,區(qū)俊鋒,宋文通.老年駕駛?cè)私煌ㄊ鹿蕠?yán)重程度影響因素分析[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2021,44(6):812-817,850.

      [12] 馬景峰,任剛,李豪杰,等.電動自行車與機(jī)動車事故嚴(yán)重性影響因素分析[J].交通運輸系統(tǒng)工程與信息,2022,22(2):337-348.

      [13] 張慶年,張瑨,楊杰,等.基于聚類分析的水上交通事故影響因素研究[J].重慶交通大學(xué)學(xué)報(自然科學(xué)版),2022,41(6):1-7.

      [14] 何選森,何帆,徐麗,等.K-Means算法最優(yōu)聚類數(shù)量的確定[J].電子科技大學(xué)學(xué)報,2022,51(6):904-912.

      [15] 賈秀燕,孫秋霞,李勍.基于K-means聚類與PLS回歸模型的交通速度短時預(yù)測[J].青島大學(xué)學(xué)報(自然科學(xué)版),2023,36(1):42-48+53.

      猜你喜歡
      means聚類影響因素
      環(huán)衛(wèi)工人生存狀況的調(diào)查分析
      中國市場(2016年35期)2016-10-19 02:30:10
      農(nóng)業(yè)生產(chǎn)性服務(wù)業(yè)需求影響因素分析
      商(2016年27期)2016-10-17 07:09:07
      村級發(fā)展互助資金組織的運行效率研究
      商(2016年27期)2016-10-17 04:40:12
      基于系統(tǒng)論的煤層瓦斯壓力測定影響因素分析
      科技視界(2016年20期)2016-09-29 13:45:52
      人工神經(jīng)網(wǎng)絡(luò)在聚類分析中的運用
      雹云圖像的識別指標(biāo)設(shè)計
      基于QPSO聚類算法的圖像分割方法
      科技視界(2016年12期)2016-05-25 11:54:25
      基于知網(wǎng)的無指導(dǎo)詞義消歧
      荥经县| 绥芬河市| 二手房| 禹城市| 惠东县| 祁门县| 奉化市| 襄城县| 时尚| 大洼县| 焦作市| 湖南省| 五峰| 石棉县| 鹰潭市| 兴国县| 邳州市| 乐清市| 江阴市| 台北县| 乌拉特前旗| 连云港市| 阳西县| 正镶白旗| 九寨沟县| 三河市| 金溪县| 洛浦县| 福安市| 佳木斯市| 土默特右旗| 中山市| 合山市| 徐水县| 揭东县| 手机| 乌审旗| 无棣县| 虎林市| 丁青县| 承德县|