• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數據可視化的短時小數值交通事故的描述及成因推理

      2015-04-14 07:20:27陳永勝
      交通工程 2015年5期
      關鍵詞:交通事故成因可視化

      陳永勝

      (公路交通安全技術行業(yè)重點實驗室,交通運輸部公路科學研究院, 北京 100044) (加拿大艾爾伯塔省埃德蒙頓市交通安全辦公室,9304 41 Avenue Edmonton T6J 4L8)

      ?

      基于數據可視化的短時小數值交通事故的描述及成因推理

      陳永勝

      (公路交通安全技術行業(yè)重點實驗室,交通運輸部公路科學研究院, 北京 100044) (加拿大艾爾伯塔省埃德蒙頓市交通安全辦公室,9304 41 Avenue Edmonton T6J 4L8)

      交通事故是小概率隨機事件. 在特定時間空間內某些類型的交通事故指標通常是相對較小的數字. 應用傳統(tǒng)的針對連續(xù)變量的方法(例如廣義線性模型)對其進行分析和預測,通常由于數值小,隨機性及起伏波動大而無法獲得統(tǒng)計顯著的結果;而采用傳統(tǒng)的針對離散變量的方法(例如羅基模型)進行分析和預測,則又由于其分類數值太多而難以實現. 本論文探討以數據可視化方法來解決這種短時、小數值交通事故數據的描述及推理分析的問題. 基于加拿大某城市的交通事故與天氣數據,本論文探索使用一系列的“數據可視化”方法,例如數據分解、彩色散點矩陣圖、三維散點圖等,描述事故相關要素及其互動規(guī)律. 在此基礎上,進一步應用圖形模型作為成因推理的手段,以完成推理性的數據可視化分析,藉此分析造成交通事故的成因要素、各要素的關系結構以及要素對事故的數量化影響程度. 這一研究解決了在短時、小數值背景下對于交通安全狀況進行精確描述及成因分析的問題,其成果可直接應用于交通安全管理、交通執(zhí)法、道路養(yǎng)護等多個領域中的實時安全管控、安全治理措施的預案制訂與效果評估等實際工作之中.

      數據可視化; 短時事故; 成因推理

      0 引言

      交通事故是小概率隨機事件. 在傳統(tǒng)的交通事故分析中,必須在較長時間、較大空間兩個維度上對事故數據進行累計,以滿足最基本的統(tǒng)計分析有效性的要求. 與之相對的,在較短時間、較小空間內特定類型的交通事故數據一般是較小的數值. 這類事故數據包括了一些短時事故指標,例如一個城市的每日傷亡交通事故數;也包括了一些局部空間內的事故指標,例如一個小區(qū)的每年事故數據、某一特定路段的“駛出路外”事故等. 上述的交通事故指標一般較小,例如一個中小城市的每日傷亡交通事故數據,根據觀測均介于0~25之間. 應用傳統(tǒng)的針對連續(xù)變量的方法(例如廣義線性模型)對其進行分析和預測,通常由于數值小,隨機性及起伏波動大而無法獲得統(tǒng)計顯著的結果;而采用傳統(tǒng)的針對離散變量的方法(例如羅基模型)進行分析和預測,則又由于其分類數值太多而難以實現. 因此,不論是針對連續(xù)還是離散變量的傳統(tǒng)方法,均無法完成對于這類特定取值空間的事故數據的數據分析和建模,需要探索新的思路.

      一般而言,對一個數據序列進行的分析可分為“描述性分析”(Descriptive Analysis)及“推理性分析”(Inferential Analysis)兩大類[1],前者只能解決數據“看起來”呈現什么形態(tài)的問題,后者可解決結論和外推的問題. 對于上述小數值交通事故的數據而言,這兩類分析都無法采用傳統(tǒng)和簡單的方法,必須探究一些新型的方法來完成. 傳統(tǒng)的交通安全建模方法,包括獲得最成熟應用、由Ezra Hauer教授所開創(chuàng)的廣義線性模型(Generalized Linear Model, GLM)型式[2-3]及一些變化型式,都只適用于較長期(以年計),但不適用于短時(例如以天或小時計)的事故數據. 甚至于一些最近的作為GLM擴展形式而建立起來的廣義線性估計方法(Generalized Estimation Equation, GEE)[4],盡管其有著更復雜和更靈活的模型結構,但依然需要觀測數值必須積累到一定程度,才能滿足模型分析的有效性.

      另外一種傳統(tǒng)的建模分析方法,羅基模型(Logit Model),只適用于數值非常有限的離散變量,例如一個城市的每日死亡交通事故數,特定公路區(qū)段上的每日駛出路外交通事故等. 通常而言,它們或者是二元變量,即0/1取值,或者是分類變量但取值僅為0、1、 2、3等. 羅基模型典型的用途是用以辨別二元變量或者分類變量的致因并定量地預測該二元或者分類變量出現特定數值的概率[5].

      綜上所述,當前體系中尚未發(fā)現適用于短時、小數值交通事故數據的描述和推理建模分析的手段,需要開拓一種新的途徑. 本論文的基本思路是嘗試使用一些交通工程領域剛剛涌現的數據分析方法,例如數據可視化,來描述該種數據的形態(tài)、并挖掘其形態(tài)規(guī)律,進而辨別其相關要素和各要素間的關系結構,從而明確該類交通事故的成因.

      1 數據樣本

      本論文研究所用的數據包括了樣本城市的交通事故數據及其可能影響因素的數據,其中,交通事故數據選擇為該市的“每日FI事故數”,而影響因素則涵蓋了每日的日歷特征數據(年、月、日、周日、節(jié)假日等)、天氣觀測數據、天氣預報數據等(以下有關數據的描述省略“每日”字眼,除非特別說明,所有數據均表示每日數據).

      圖1描述了上述數據的來源. 其中,FI事故數來源于樣本城市的“機動車交通事故信息庫”[6];天氣的歷史觀測數據由“加拿大環(huán)境部”網站下載[7];定量(本論文中天氣對交通事故數的影響分析,必須用定量的天氣指標,簡單采用“陰、晴、雨、雪”等分類天氣指標過于粗略,無法精確反映對交通事故數波動的影響)的天氣預報由艾爾伯塔大學采用專門針對樣本城市進行了標定的“天氣研究與預報模型”來計算獲取,并持續(xù)提供更新的數據.

      最終,上述4個數據源通過日期為關鍵指標而整合為一體,形成一個整體的數據序列,這一數據序列包括了每日事故及各種潛在的相關影響因素數據,以日期為標準排列.

      圖1 4種交通事故及其相關因素數據源及其結構

      2 技術路線

      一種新型的數據分析思路、數據挖掘,可被用于處理復雜、大型的數據并從中發(fā)現規(guī)律. 在計算機科學領域中所稱的數據挖掘[8],在數據庫領域中又被稱為“知識發(fā)現”,是一個在大容量數據中發(fā)現模式、規(guī)律及關系的過程. 數據挖掘是一個集合,它組合了統(tǒng)計工具和人工智能分析工具(例如神經元網絡和機器學習等),同時與數據庫管理相結合,分析大型數字組合或者數據序列.

      本論文以樣本城市中FI事故為實例,探討應用數據挖掘方法來分析交通事故自身的變化規(guī)律及其成因. 由上所述,FI事故數據的特點是數值分布范圍狹窄但波動幅度大,同時相關因素眾多,FI事故數與相關因素之間、相關因素彼此之間的關系難以辨別. 根據這些特點,本論文有針對性地提出采用“數據可視化”方法實施數據分析,原因是數據可視化有利于展現變量的變化趨勢、眾多相關因素之間的互動規(guī)律以及復雜的相關關系結構. 適用于眾多變量的數據可視化方法歸屬于“高維數據挖掘”,在本論文研究中,具體的數據分析過程采用開源統(tǒng)計分析軟件R中一系列的數據可視化工具來完成[9].

      根據數據分析階段的不同,又將這些數據可視化分析過程歸類為描述性分析、推理性分析前后2個階段. 其中,描述性分析為第1階段,探索事故的規(guī)律和各因素彼此關聯(lián)的基本形態(tài),為第2階段的分析提供初始的備選變量;第2階段的推理性分析將更為深入、全面和系統(tǒng)地分析事故與各相關因素間的因果關系及其脈絡結構,并獲得和成因對FI事故數的定量化影響程度.

      3 應用數據可視化方法的交通事故描述性分析

      3.1 交通事故自身的一元數據可視化分析

      每日交通事故自身的變化趨勢,即其作為一元數據的可視化,可藉由“時間序列”[10]的“數據分解”來進行,即將其分解成為“趨勢”、“周期”、“隨機”3個成份[11]. 圖2描繪了事故數據拆分為3個部分后各自的變化趨勢,其中“周期”部分展示了事故數據自身是一個帶有周期重復性的時間序列數據.

      數據分解還可以更進一步地揭示事故的深層次規(guī)律特征,尤其是對于“周期”成份,如圖3所示,可以進一步揭示事故數據周期變化的長度. 從圖3中可以得出該事故數據最為明顯的重復變化是以1周為周期的變化,按月變化的趨勢不明顯,而按年變化體現出一定的四季變化規(guī)律,但也有一定的波動性. 綜合以上分析獲得的結論是:事故與周日分布直接相關,其首要的周期變化長度為一周.

      具體到該樣本數據,則可見周一至周五,事故數逐步上升,到周五則達到峰值,然后在周末回落,其中周日的交通事故數最低.

      圖2 交通事故的數據分解

      圖3 交通事故數據的周期分析

      3.2 交通事故及其相關因素的二元數據可視化分析

      交通事故數據自身的變化趨勢,即上述一元數據的可視化,揭示了事故的時間序列規(guī)律、周期變化特征以及周期長度,從中可以推斷出事故與“周日”這一因素具有較強相關性,但事故可能的相關因素有許多,如圖1所示,可能包括其他的日歷參數,或者天氣因素等,若要進一步厘清事故的相關因素,以及各要素間相互的關聯(lián)特征,則必須進行二元數據的分析,即將兩個變量進行相關分析.

      相關分析既可用于識別某一個結果變量,在此研究中為FI事故數,和它的潛在解釋性因素或稱為相關因素之間的相關特性,也用于識別兩個相關因素之間的相關特性. 對于前者,相關分析可初步篩選與結果變量有較好相關性的因素,為下一步的推理分析尋找潛在預測變量;對于后者而言,其根本目的在于判別彼此具有強相關性的兩個相關因素,然后在未來的建模過程中避免將這兩個因素同時納入一個方程. 具有強相關的兩個因素間的關系,稱為“共線性”. 共線性對模型具有負面干擾,它將導致回歸模型的系數不能正確代表變量與結果變量之間的關系,因此在建模中應避免共線性現象[12].

      由于FI事故數的潛在影響因素眾多,對它與影響因素之間的相關性、相關因素彼此之間的共線性的分析,宜采用擅長高維變量的數據可視化的方法進行. 在研究采用散點圖矩陣與相關系數表聯(lián)合使用的技術路線完成二元因素間的相關分析. 它們均為典型的高維數據可視化工具,擅長一次性展示眾多變量之間的兩兩相關關系. 其中,本論文采用“彩色加強版”的散點圖矩陣,以色彩配合相關系數表中的數值,表征1對因素之間的相關性強弱程度.

      采用R軟件中的分析模塊,針對樣本城市的FI事故數及其潛在影響因素的彩色散點圖矩陣見圖4所示,而它們的數量化相關系數表詳見表1[13].

      圖4 彩色散點圖矩陣

      散點圖矩陣一次性展示多維數據序列中任意1對數據項之間的相關關系. 在圖4中,各單元中的“顏色代碼”代表著這1對變量的相關程度. 這個顏色代碼與表1中的“相關系數”取值彼此呼應. 表1中相關系數大于0.6或者小于-0.6的,代表著強相關性,以加粗字體表示;相關系數處于-0.6~0.6,代表著相關性不強. 另外,相關系數為正值的,意味著兩個變量之間存在的是正相關性關系,也即當一個變量增加,另一變量也增加,例如表中的最高氣溫和最低氣溫;相關系數為負值,意味著兩個變量之間存在負相關性,即當一個變量增加,另一變量會減小,例如最高氣溫和地面積雪. 不論相關系數為正或負,只要其絕對值大于0.6,并且在圖4中的相應單元為紅色,即代表兩變量間存在強相關性. 例如,最高氣溫、最低氣溫和平均氣溫這3個變量兩兩之間存在著非常強的相關關系. 此外,降雨量和降水量之間有較強的相關性,而地面積雪、季節(jié)與上述3個氣溫變量之間均存在著負相關的關系.

      除了上述的相關變量外,從圖4中可以看出,其他各變量之間沒有存在著顯著的相關趨勢,代表著它們之間具有相對獨立性[14,13,15].

      3.3 交通事故及其相關因素的多元數據可視化分析

      上述相關分析揭示的是兩個變量之間的關聯(lián)和變化規(guī)律,數據可視化中還有一些工具可用于多個數據項之間的互動特征的分析,圖5為帶有“豎向垂線”和“回歸板”(即三維數據間的回歸趨勢平面)的“三維散點圖”,它揭示出FI事故數與“降水量”、“周日”3個變量間的相互關系和變化趨勢. 由散點在三維空間上的分布規(guī)律,加上以垂線強化視覺效果,尤其是以回歸板突顯出相關趨勢,最終可算出FI事故數隨著降水量的增加而提高的規(guī)律,同時也可得到FI事故數自周一至周五逐漸上升,周五達到高峰,周末降低的總體趨勢.

      數據可視化描述性分析,能夠從事故自身的一元化數據,事故及其相關因素的二元相關性、三維相關性等多個角度進行數據形態(tài)、分布和互動規(guī)律的探索,但其具有兩方面的局限性:①無法系統(tǒng)性地展示所有相關因素與事故指標間內在的規(guī)律,尤其是其中復雜的關系結構;②描述性分析更多地揭示樣本數據的視覺特性,而不是結論性的規(guī)律,即一般無法獲得具有高度抽象和概括性的,具備趨勢外推和預測功能的結果. 也就是說,它更多地是“展示”,而不是“推理”.

      4 交通事故的成因推理分析

      以上的描述性分析將FI事故及其相關因素數據的初步形態(tài)及相關規(guī)律進行了詳盡的描繪,在此基礎上,還應進一步采用“推理性分析”的方法,揭示所有相關因素與事故之間的內存關系,建立關系結構圖,并定量化分析成因對結果變量的影響程度,從而完成對事故成因的結論性分析.

      本論文采用基于數據可視化思維模式的推理性分析方法,例如“圖形模型”來完成事故的“成因推理”.

      表1 相關系數分析表

      注:圖中“周日”為1(星期一)至7(星期日). 圖5 帶有豎向垂線和“回歸板”的三維散點圖

      4.1 成因推理的基本概念及方法

      成因推理是現代數據挖掘中的一組方法集合的總稱,在統(tǒng)計軟件R中提供了成因推理的兩項功能:“成因結構學習”以及“因果效應估計”[16].

      本論文的研究首先厘清FI事故的影響因素及其相互關聯(lián)的結構圖. 具體而言,本次分析將應用統(tǒng)計軟件R中的“PC”算法[17],以便發(fā)現哪些因素可能是、哪些因素可能不是事故的成因,這些成因關系以“有向非循環(huán)圖”的形式來表達. 在DAG圖中,1個節(jié)點代表1個變量,1個有向邊代表1個“因果”關系. 在R中,這一算法的最終輸出結果為“完成的部分定向非循環(huán)圖”,用以描述數據中的“條件獨立信息”. 在CPDAG圖中,因果(即非獨立)關系表現為有向邊,而獨立關系表現為無向邊(在R的具體輸出圖中,以雙向邊來代替無向邊).

      上述“成因結構學習”的過程描述了因果關系,但不能回答因素間影響程度的問題,即定量化的成因效果水平. 這一問題需由“因果效應估計”來實現. 這一過程的實質為定量化兩個變量間的因- 果關系. 假設有2個隨機變量Vx和Vy,Vx為“因”,Vy為“果”;量化Vx與Vy之間的因果關系,其過程是強制Vx取值為x,獲取Vy的狀態(tài),并將之與強制Vx為x+1或者x+δ時Vy的狀態(tài)進行對比,以便分析隨機變量Vx在被強制取值下對于另一個隨機變量Vy分布的影響[16]. 在這一“定制”過程之后隨機變量的分布可表述為:

      P[Vy|do(Vx=x)]

      (1)

      這是一個與條件分布P[Vy|Vx=x]不同的過程[18]. 通常情況,我們用“平均變化率”作為變量Vx作用在變量Vy之上的“因果效應”通用指標[18]:

      (2)

      在統(tǒng)計軟件R中,上述過程采用“IDA”方法[16]來實現,最終的輸出為定量化的系數值,評價特定因素之間的因果效應的定量化程度.

      4.2 事故及其相關因素的成因結構學習

      在描述性分析的基礎上選取潛在的事故相關因素,采用PC算法,可得到樣本城市的FI事故的成因及其相互“因- 果”關系流程的結構[16-17],最終結果以CPDAG框圖的形式顯示,見圖6所示.

      圖6 FI事故的成因結構CPDAG圖

      由圖6可看出,首先,可以剔除若干“可能不是”FI事故成因的6個因素,包括最高氣溫、最低氣溫、溫度差、能見度和風速. 在這個分析中,“成因結構圖”是基于數據而獲得的抽象的“因- 果”關系結構圖,因此也會體現出數據本身的一些前提條件或者局限性. 例如,“能見度”和“風速”是由于在樣本數據中的有效樣本量不足,無法滿足統(tǒng)計有效性而被剔除在結構圖之外的. 另外,由于和“平均溫度”之間存在強相關性,“最高氣溫”、“最低氣溫”和“溫度差”這3個變量最終也被排除在結構圖之外.

      在此基礎上,圖6中的CPDAG圖描述了各變量間的因果關系,特別地,體現出了相關因素和目標變量- “FI事故數”- 之間的成因關系. “FI事故數”共有7條直接“因果關聯(lián)”的CPDAG圖的有向邊,而其起始節(jié)點分別為“降雪量”、“月”、“年”、“假日”、“周日”、“周末”和“周五”. 其中,“年”、“月”和“周日”3個變量沒有上游的“父母”成因變量,而其他的4個變量則同時又是其1個或者多個成因變量的“結果變量”,綜合考慮這些上游的因果關聯(lián),最終“FI事故”的成因除上述7個變量外,還可能間接地包括“平均溫度”、“季節(jié)”、“月日”等. 這些變量共同構成了一個成因結構流線圖,即圖6.

      4.3 事故及其相關因素的因果效應估計

      在“成因結構學習”的基礎上,選取FI事故直接或間接的成因要素,進一步采用R統(tǒng)計軟件中的“IDA”算法,定量化地計算這些要素與FI事故數的“因果效應”系數,結果見表2所示. 表2中每個成因要素所擁有的估計值的個數,取決于該要素與FI事故數之間的DAG圖的個數,由于我們無法判斷哪個DAG是“真的”成因DAG,所以最終將所有可能的估計值都輸出出來.

      假設表2中的成因要素為Vx,FI事故數為Vy,則表2中的因果效應值代表著下述回歸公式中對應著要素Vx的系數:

      lm(Vy~Vx+Pa(Vx))

      (3)

      其中l(wèi)m為線性回歸模型;Vy為FI事故數;Vx為FI事故數的可能成因變量;Pa(Vx)為成因變量Vx在DAG圖中的“父母”變量(即有向邊的上游節(jié)點).

      表2 FI事故的因果效應估計值

      由式(3)可知,表2中每個估計值,從數學角度代表著各成因要素發(fā)生了一個數量單位的變化時,所引發(fā)的FI事故數的波動.

      以下逐一具體分析各要素之間與FI事故數的因果效應水平. 首先“年”有2個估計值,但考慮到2個值均遠離零且彼此接近,因此可認為年與FI事故數之間有確切的因果效應,其效應值位于-0.63~-0.70的區(qū)間;“季節(jié)”與FI事故數有一個正相關的因果效應值;“月”與FI事故數有2個效應估計值,但均顯著大于零,因此也可認定它們之間存在著正相關的因果關系;“月日”與FI事故數之間的效應值接近零,可以認為不存在明顯的因果關系;“周日”與FI事故數存在著相對較明顯的正相關的因果效應;“周五”是FI事故數上升的顯著成因,與之相對,“假日”與“周末”對應著FI事故數的下降;“平均溫度”與FI事故數的因果關系較弱,而“降雪量”則較為顯著地引發(fā)FI事故數的提高.

      綜上所述,在各種日歷參數之中,假日與周末引發(fā)事故下降,而周五引發(fā)事故上升,不論其效應為正或者負效應,它們的絕對效應值均較高. 另外,事故數也呈現周一至周五遞增的關系. 在天氣要素之中,“降雪量”較明顯地引起事故上升.

      5 結論

      本研究經歷了“描述性分析”和“推理性分析”兩個階段,數據可視化和圖形模型的方法貫穿著整個的研究過程. 其中,描述性分析完成初步工作,通過交通事故數一元、二元、多元等不同維度的數據可視化分析,突顯其發(fā)展變化趨勢及潛在相關特征,初步選定事故的相關要素.

      在描述性分析成果的支持下,以其初選獲得的相關因素和事故數相關聯(lián),著重進行了成因推理的分析. 這一過程通過“圖形模型”中的2個相關算法來實現. 其中,“成因結構學習”算法構建事故及其要素之間的因果關系網絡、建立關系結構框圖. “因果效應評估”過程則更進一步地量化了各要素與事故之間的因果效應值,即要素對于事故數影響的數量化程度.

      本研究直接建立了樣本數據的結果變量“FI事故數”的生成原因及各原因的數量化影響程度. 成果中的“因果效應估計值”在數學層面反映的是每個事故成因發(fā)生一個數量單位的變化時所能引起的事故數的變化數值. 通過研究,FI事故數的成因主要在于日歷參數和天氣因素. 在各種日歷參數中,FI事故數最為顯著的成因依次為假日、周末及周五. 某天為假日或者周末時,將分別帶來約3.8和2.6的FI事故的降幅;而當某天為周五時,則帶來約1.9的FI事故的上升. 在天氣因素中,對于樣本城市這樣的北方城市而言,降雪量是最為顯著的事故成因,日均降雪量每增加1 cm,將增加約0.3的FI事故.

      在理論層面,本研究突破了傳統(tǒng)模型只能描繪長期事故變化趨勢的局限,建立了短時事故成因推理方法. 在應用層面,本研究成果對于在較短時間維度上的交通執(zhí)法、運營、養(yǎng)護等有著直接的指導作用. 交通執(zhí)法部門的警力部署和物資儲備、交通運行與實時信息發(fā)布(例如可變情報板)、針對瞬時事件的應對策略以及日常養(yǎng)護的預案制訂等,均可以依據本研究所確定的事故成因結構和定量化的因果效應值而制訂,從而為短時交通安全的執(zhí)法、管理與控制提供數量化的信息與決策依據. 因此,本論文的研究在交通安全執(zhí)法、管制和控制的實踐將發(fā)揮積極作用,創(chuàng)造出良好的社會效益和經濟效益.

      致謝:作者感謝加拿大埃德蒙頓市政府交通安全辦公室的Stevanus Tjandra博士及Gerry Shimko主任所提供的基礎數據,以及對論文研究提供的建議. 同時,也感謝加拿大艾爾伯塔大學地球與空氣科學系的教授Gerhard Reuter博士與 Clark Pennelly先生所提供的天氣預報數據.

      [1] Wallace D. Descriptive versus inferential statistics, Lesson 1: Introduction. Lecture Note of Statistics for Psychology [EB/OL]. Faytteville State University, North Carolina, United States [2014-08-04 ]. http:∥faculty. uncfsu. edu/dwallace/Lesson%201.pdf.

      [2] Hauer E, Bamfo J. Two Tools for Finding What Function Links the Dependent Variable to the Explanatory Variables[C/OL]. Published in Proceedings of ICTCT 97 Conference, November 5-7 1997, Lund, Sweden. [2014-04-13]. http:∥www. oocities. org/hauer@rogers. com/Pubs/ICTCT97TwoTools. pdf.

      [3] Hauer E. Observational Before-after Studies in Road Safety [M]. Bingley, United Kingdom: Emerald Group Publishing Limited, 2007.

      [4] Chin H C, Huang H. Modeling multilevel data in traffic safety: a bayesian hierarchical approach, chapter 3 of transportation accident analysis and prevention[M]. New York, United States: Nova Science Publishers, Inc., 2008.

      [5] Zhang H. Identifying and Quantifying Factors Affecting Traffic Crash Severity in Louisiana, Ph. D. Dissertation [D]. Baton Rouge, Louisiana, United States: Louisiana State University, 2010.

      [6] Office of Traffic Safety. Motor Vehicle Collision 2012, Annual Report, City of Edmonton [EB/OL]. [2013-07-25]. http:∥www. edmonton. ca/transportation/OTS_Motor_Vehicle_Collisions_2012_Annual_Report. pdf.

      [7] Environment Canada. Daily Data Reports, Environment Canada, Government Canada [EB/OL]. [ 2013-06-24]. http:∥climate. weather. gc. ca/climateData/dailydata_e. html?timeframe=2&Prov=ALTA&StationID=50149&dlyRange=2012-09-01%7C2012-11-08&cmdB1=Go&Year=2013&Month=6&cmdB1=Go.

      [8] Clifton C. Encyclopdia Britannica: Definition of Data Mining[EB/OL]. [2014-08-04]. http:∥www. britannica. com/EBchecked/topic/1056150/data-mining.

      [9] Torgo L. Data Mining with R-Learning with Case Studies [M]. Boca Raton, Florida, United States: Chapman & Hall/CRC, Taylor & Francis Group, 2011.

      [10] Easton V J, McColl J H. Time Series Data. Statistics Glossary, v 1. 1 [EB/OL]. [2012-07-10]. http:∥www. stats. gla. ac. uk/steps/glossary/time_series. html.

      [11] Coghlan A. Time Series 0. 2 Documentation [EB/OL]. [2012-07-03]. http:∥a-little-book-of-r-for-time-series. readthedocs. org/en/latest/index. html.

      [12] Mela C F, Kopalle P K. The Impact of Collinearity on regression analysis: the asymmetric effect of negative and positive correlations [J]. Applied Economics, 2002, 34: 667-677.

      [13] R Development Core Team. Correlation, Variance and Covariance (Matrices), R Documentation [EB/OL]. [2013-12-27]. http:∥stat. ethz. ch/R-manual/R-patched/library/stats/html/cor. html.

      [14] King W B. R Tutorials: Simple Linear Correlation and Regression [EB/OL]. [2013-12-27]. http:∥ww2.coastal.edu/kingw/statistics/R-tutorials/simplelinear.html.

      [15] Lund A, LundM. Laerd Statistics: Pearson Product-Moment Correlation [EB/OL]. [2013-12-27]. https:∥statistics. laerd. com/statistical-guides/pearson-correlation-coefficient-statistical-guide. php.

      [16] Kalisch M, Machler M, Colombo D, et al. Causal Inference Using Graphical Models with theR Package pcalg [J]. Journal of Statistical Software, 2012, 47(11): 1-26.

      [17] Spirtes P, Glymour C, Scheines R. Causation, Prediction, and Search [M]. 2nded. Cambridge, Massachusetts, United States: MIT Press, 2000.

      [18] Pearl J. Causality [M]. Cambridge, United Kingdom: Cambridge University Press, 2000.

      Description and Causal Inference of Short-term Small-number Collisionsby Data Visualizations

      CHEN Yong-sheng

      (Key Laboratory of Road Safety Ministry of Transport, Research Institute of Highway Ministry of Transport, Beijing 100088, China) (Office of Traffic Safety, Transportation Services, City of Edmonton, Alberta, Canada)

      Collisions are rare random events. Particular collision dataitems within specific temporal or spatial units, e.g., daily fatal and injury collisions of a small or medium sized city, are generally small numbers (say, 0-25).These small-numbered collisions are inadaptable to be analyzed and predicted by conventional approaches. For methods with continuous variables, such as generalized linear model (GLM), this type of data has limited value range, too high randomness and variation, so that statistically significant (SS) results are unlikely to be obtained. On another hand, for methods with discrete variables, e.g., the Logit Model, this type of data has too many classifications and therefore it is hard to be properly fitted. This paperworks on a solution to unravel this dilemma through newly developed data visualization approaches. Based on the sample data from a Canadian city, a series of data visualization methods, including data decomposition, colored scatter-plot matrix, 3D plots, were employed to describe collision patterns, and to identify its impact factors and figure out the interactions among the factors. Then, the graphic model, as a particular causal inference method, was introduced in order to establish intrinsic connections from collisions to causal factors and to draw causal structure among factors. Moreover, the causal effects between each particular factor and the collision were quantitatively estimated. This study, combined with descriptive and inferential methods, fills the methodological vacancy for the short-time small-numbered collision data and outcomes of this study can be directly utilized to support real-time safety management and control, pre-scheduling and effect evaluation for safety countermeasures across multiple disciplines such as traffic management, enforcement, and road maintenance.

      data visualization; short-term collision; causal inference

      10.13986/j.cnki.jote.2015.05.006

      2014- 12- 30.

      陳永勝(1970—),男,首席研究員,加拿大安省注冊職業(yè)工程師,研究方向為交通安全. E-mail: ys.chen@rioh.cn.

      U 268.6

      A

      1008-2522(2015)05-27-09

      猜你喜歡
      交通事故成因可視化
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      說說兩種『白氣』的成因
      不同尋常的交通事故
      預防交通事故
      基于CGAL和OpenGL的海底地形三維可視化
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      暈紋石成因解讀(上)
      寶藏(2017年7期)2017-08-09 08:15:19
      翻譯實踐問題及成因
      唐山文學(2016年11期)2016-03-20 15:25:54
      一起高速交通事故院前急救工作實踐與探討
      扬中市| 乌什县| 河南省| 东港市| 枣庄市| 邢台县| 云林县| 都昌县| 建始县| 琼结县| 黄石市| 任丘市| 股票| 清河县| 定日县| 安溪县| 长宁区| 长寿区| 兴国县| 天津市| 禄丰县| 凤阳县| 盐边县| 海口市| 玛多县| 阜南县| 铜梁县| 葵青区| 罗定市| 淄博市| 龙海市| 界首市| 临清市| 克拉玛依市| 贵定县| 崇礼县| 高雄市| 花垣县| 祁阳县| 太保市| 阳朔县|