楊東紅
摘要:基于數(shù)據(jù)挖掘在潛在價(jià)值信息發(fā)現(xiàn)、具備大數(shù)據(jù)量處理能力等優(yōu)勢,采用關(guān)聯(lián)規(guī)則挖掘方法對(duì)英國近10年交通事故數(shù)據(jù)進(jìn)行分析,本文通過Python語言建立Apriori關(guān)聯(lián)規(guī)則挖掘模型,分析交通事故發(fā)生的頻繁因素集,發(fā)現(xiàn)交通事故數(shù)據(jù)中存在的關(guān)系和規(guī)則,從而為交通事故預(yù)警和管理提供數(shù)據(jù)決策支撐。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori;交通事故
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)10-0230-01
隨著社會(huì)經(jīng)濟(jì)快速發(fā)展,科技水平和人們生活提升,機(jī)動(dòng)車數(shù)量近年來呈現(xiàn)出逐年大幅度增長的趨勢。交通建設(shè)的進(jìn)度遠(yuǎn)遠(yuǎn)跟不上日益增長的車輛數(shù),隨之給城市交通帶來了巨大的壓力,導(dǎo)致交通堵塞問題嚴(yán)重、交通事故日益頻發(fā)[1],導(dǎo)致國家和人民大眾大量經(jīng)濟(jì)損失。
在傳統(tǒng)的交通事故分析中,多數(shù)采用統(tǒng)計(jì)學(xué)描述方法,通過事故發(fā)生概率、分析事故發(fā)生規(guī)律,基于這些規(guī)律給出一些交通相關(guān)參考意見。而數(shù)據(jù)挖掘作為一種從大量的數(shù)據(jù)中發(fā)掘有價(jià)值信息的技術(shù),能給予決策人員基于有價(jià)值信息通識(shí)全局和潛在情況,并制定相應(yīng)決策。
本文針對(duì)英國交通事故歷史數(shù)據(jù)進(jìn)行分析,利用數(shù)據(jù)挖掘技術(shù)挖掘出有效的關(guān)聯(lián)規(guī)則,探討相同類型交通事故發(fā)生規(guī)律,進(jìn)而通過天氣、道路情況等確定其可能的交通事故,利用關(guān)聯(lián)規(guī)則實(shí)現(xiàn)關(guān)聯(lián)事故的提前預(yù)警。同時(shí),了解車輛參數(shù)、駕駛員信息對(duì)交通事故發(fā)生的潛在影響,掌握交通事故多因素關(guān)聯(lián)關(guān)系。
1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中潛在價(jià)值信息的過程[2],自上世紀(jì)70年代起至今,數(shù)據(jù)挖掘從理論到實(shí)踐得到了快速進(jìn)步,特別是在應(yīng)用實(shí)踐中,其已涵蓋人類生活的方方面面。
數(shù)據(jù)挖掘常用的分析方法有分類、聚類、預(yù)測、關(guān)聯(lián)規(guī)則等,其中關(guān)聯(lián)規(guī)則分析由于其在商業(yè)領(lǐng)域的眾多成功應(yīng)用,使得該方法在數(shù)據(jù)挖掘領(lǐng)域成為一個(gè)重要分支。
1.1 關(guān)聯(lián)規(guī)則
設(shè)為項(xiàng)的集合,其中的元素稱為項(xiàng);事物數(shù)據(jù)庫為事務(wù)T的集合,每個(gè)事務(wù)都對(duì)應(yīng)I上的一個(gè)子集,有,,計(jì)為X和Y關(guān)聯(lián)。
1.2 支持度
設(shè),項(xiàng)集在事物數(shù)據(jù)庫D上的支持度指特定事務(wù)在D中所占的百分比,即:
若項(xiàng)集滿足最小支持度,則稱之為頻繁項(xiàng)集。Lk表示頻繁k-項(xiàng)集的集合。
1.3 置信度
關(guān)聯(lián)規(guī)則的置信度是指包含X和Y的事務(wù)數(shù)與包含X的事務(wù)數(shù)之比[3],即:
1.4 Apriori算法
Apriori算法采用逐層搜索的迭代方法,在分類上屬于布爾型關(guān)聯(lián)規(guī)則[4],反復(fù)沖頻繁K-項(xiàng)集去尋找頻繁(K+1)-項(xiàng)集。首先遍歷事物庫,找出頻繁1-項(xiàng)集的集合。記作L1,將L1自連接從而生成頻繁2-項(xiàng)集的集合L2,而L2生成L3,如此下去,直到不能找到LK ,即頻繁K-項(xiàng)集。
Apriori算法的流程圖如圖1。
2 實(shí)驗(yàn)
基于數(shù)據(jù)挖掘技術(shù)的交通事故關(guān)聯(lián)分析包括3個(gè)步驟:
(1)數(shù)據(jù)預(yù)處理,由于數(shù)據(jù)存在大量缺失、異常數(shù)據(jù)等問題,因此需要進(jìn)行數(shù)據(jù)預(yù)處理,包括缺失值處理、異常值處理、屬性變換、數(shù)據(jù)離散化等問題。
(2)建立挖掘模型,挖掘關(guān)聯(lián)規(guī)則。
(3)模型評(píng)估與分析,評(píng)估模型結(jié)果和分析關(guān)聯(lián)規(guī)則挖掘結(jié)果。
數(shù)據(jù)來源于英國交通部公布的2005-2015年交通事故數(shù)據(jù),共包括1780653條交通事故數(shù)據(jù),該數(shù)據(jù)集涵蓋了交通事故發(fā)生的地點(diǎn)、時(shí)間、道路類型、交通情況、人員、車輛、天氣等信息。
本文對(duì)數(shù)據(jù)缺失值處理主要采用KNN,回歸和刪除缺失值三種方法,其中對(duì)于缺失比過大的采用刪除缺失值的方法,對(duì)于連續(xù)型屬性采用回歸法填充,對(duì)于離散型屬性采用KNN法填充。
本文利用Python語言建立Apriori關(guān)聯(lián)規(guī)則模型,基于交通事故數(shù)據(jù)集中17個(gè)屬性構(gòu)建關(guān)聯(lián)分析模型。
在實(shí)驗(yàn)過程中,設(shè)定最小支持度min_Sup為10%,最小置信度min_Conf為35%,通過上述的關(guān)聯(lián)規(guī)則挖掘模型交通事故數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則提取和分析,得出一些有意義的關(guān)聯(lián)規(guī)則,下面舉例說明:
(天氣:雨)∧(光線:黑暗無光)∧(城鄉(xiāng)類型:農(nóng)村)∧(道路類型:B)∧(車輛操作:左轉(zhuǎn)彎)∧(道路形式:單向路)∧(性別:男)∧(年齡段:中年)∧(時(shí)段:22-24)側(cè)翻(sup=0.566,conf=0.873)
以上示例代表了一個(gè)關(guān)聯(lián)模式,其后面給出了支持度和置信度的取值,以此來表征該關(guān)聯(lián)模式在總事故數(shù)中出現(xiàn)的頻度和符號(hào)“”前面的因素組合推導(dǎo)出后面的事故類型的可能性大小。通過調(diào)整算法的最小支持度、最小置信度的閾值或采用不同屬性建模,可以發(fā)現(xiàn)更多的關(guān)聯(lián)規(guī)則。
3 結(jié)語
關(guān)聯(lián)規(guī)則挖掘是一種非常流行的技術(shù),可以用來識(shí)別事故發(fā)生時(shí)經(jīng)常發(fā)生的不同屬性之間的關(guān)系。在本文中,將關(guān)聯(lián)規(guī)則挖掘算法應(yīng)用于分析交通事故因素關(guān)系。對(duì)交通事故的發(fā)生實(shí)現(xiàn)了定性分析,進(jìn)而依據(jù)分析結(jié)果可以交通事故的發(fā)生提出預(yù)報(bào),為交通事故預(yù)警提供理論依據(jù)和數(shù)據(jù)支撐。
參考文獻(xiàn)
[1]陳錚.基于激光掃描數(shù)據(jù)的交通信息采集平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D].山東科技大學(xué),2010.
[2]RonZacharski,扎哈爾斯基,王斌.寫給程序員的數(shù)據(jù)挖掘?qū)嵺`指南[M].人民郵電出版社,2015.
[3]劉雨露,方剛.目標(biāo)關(guān)聯(lián)規(guī)則挖掘算法的研究與應(yīng)用[J].西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,35(6):115-119.
[4]高俊,何守才.布爾型關(guān)聯(lián)規(guī)則挖掘算法研究[J].計(jì)算機(jī)工程,2006,32(1):116-118.endprint