徐 婷,孫小端,王偉力,賀玉龍
(1.北京工業(yè)大學(xué)交通工程重點(diǎn)實(shí)驗(yàn)室,北京 100124;2.西安公路研究所交通工程室,西安 710058)
基于 Panel Data的高速公路事故預(yù)測(cè)模型
徐 婷1,孫小端1,王偉力2,賀玉龍1
(1.北京工業(yè)大學(xué)交通工程重點(diǎn)實(shí)驗(yàn)室,北京 100124;2.西安公路研究所交通工程室,西安 710058)
使用Panel Data模型進(jìn)行不同路段交通事故的統(tǒng)計(jì)回歸,可以識(shí)別路段樣本間的固有差異以及未觀測(cè)到的變量影響.作者介紹了個(gè)體固定效應(yīng)模型和隨機(jī)效應(yīng)模型的建立過(guò)程和相關(guān)檢驗(yàn),并以京津塘高速為例,分別建立了一般混合回歸模型、個(gè)體固定效應(yīng)模型和隨機(jī)效應(yīng)模型,通過(guò)Hausman檢驗(yàn)比較模型效果,最終得出個(gè)體固定效應(yīng)模型更加合理、適合于高速公路事故分析的結(jié)論.
交通安全;事故預(yù)測(cè);一般混合模型;個(gè)體固定效應(yīng);隨機(jī)效應(yīng)
截止 2008年,我國(guó)公路通車(chē)總里程達(dá) 373.02萬(wàn)公里,僅次于美國(guó),排名世界第二,人們出行更為便捷,隨之而來(lái)的卻是道路交通安全狀況持續(xù)惡化.近年來(lái),交通安全形勢(shì)日趨嚴(yán)峻,交通事故及其帶來(lái)的經(jīng)濟(jì)損失已嚴(yán)重影響社會(huì)經(jīng)濟(jì)的發(fā)展和人民生活水平的提高.根據(jù)公安部的統(tǒng)計(jì)數(shù)據(jù),雖然 2004—2008年事故起數(shù),死亡人數(shù)和受傷人數(shù)有所下降,但與發(fā)達(dá)國(guó)家比較,我國(guó)的交通事故死亡人數(shù)和百萬(wàn)車(chē)公里死亡率仍高位運(yùn)行,2008年的統(tǒng)計(jì)數(shù)據(jù)分別達(dá)到 73 484人和 4.3[1].因此,預(yù)測(cè)道路交通事故對(duì)于探究道路交通事故的發(fā)生規(guī)律,分析現(xiàn)有道路交通條件下交通事故的發(fā)展趨勢(shì),制定道路交通安全規(guī)劃決策具有重要的現(xiàn)實(shí)意義.
交通事故是多種因素綜合作用的結(jié)果,其過(guò)程具有明顯的不確定性和隨機(jī)性[2-3].交通事故預(yù)測(cè)常用方法主要有直觀經(jīng)驗(yàn)預(yù)測(cè)法、線性回歸預(yù)測(cè)法、平滑預(yù)測(cè)技術(shù)、時(shí)間序列預(yù)測(cè)法等[4].文章在充分借鑒國(guó)外學(xué)者研究交通事故預(yù)測(cè)的基礎(chǔ)上,使用更符合數(shù)據(jù)特點(diǎn)的 Panel Data模型,并以京津塘高速公路為例,使用 STATA軟件,分別建立一般混合模型,固定效應(yīng)模型和隨機(jī)效應(yīng)模型.結(jié)果表明,采用個(gè)體固定效應(yīng)模型進(jìn)行統(tǒng)計(jì)分析更加合理.
建立事故預(yù)測(cè)模型時(shí),會(huì)將收集的多條道路數(shù)據(jù)組織在一起,視為相同母體中抽取的樣本,這必然忽略了路段之間的個(gè)體差異.將計(jì)量經(jīng)濟(jì)學(xué)的 Panel Data建模方法中引入交通事故分析,可以有效地克服該缺陷[5].Panel Data稱為面板數(shù)據(jù)或平行數(shù)據(jù),包括同一截面的時(shí)間序列數(shù)據(jù)和同一時(shí)間的不同截面數(shù)據(jù)[6].
Hausman在 1984年提出使用 Panel Data模型進(jìn)行事故預(yù)測(cè)[7],可以識(shí)別不同路段之間的差異和相同路段在不同時(shí)間段之間的差異,面板數(shù)據(jù)模型基本形式為[8]
式中,yit為因變量′為解釋向量 ;β =(β1,β2,…,βk)′為參數(shù)向量 ;t=1,2,…為時(shí)間變量;i=1,2,…為截面變量;隨機(jī)誤差 μit表示為式中,εit~iid(0,σ2);ai為個(gè)體效應(yīng);按 ai的不同假設(shè)導(dǎo)致最常見(jiàn)的 2種面板數(shù)據(jù)模型,固定效應(yīng)模型和隨機(jī)效應(yīng)模型[9].
京津塘高速公路全長(zhǎng) 142.69 km,全線路基寬 26m,雙向 4車(chē)道,中央分隔帶寬度 3m,橫斷面硬路肩2.5m,路基邊坡多采用 1∶2邊坡.京津塘高速公路設(shè)計(jì)時(shí)速為 120 km/h,設(shè)計(jì)交通量為每晝夜 5萬(wàn)輛.2005年平均日交通量北京段 51 519輛 /d、河北段 47 955輛/d、天津段 29 454輛 /d、全線加權(quán)平均日交通量為 35 247輛/d.近年來(lái),由于交通量的增長(zhǎng),大型車(chē)的增加以及其他道路因素的影響,給京津塘高速公路帶來(lái)極大的安全隱患.
項(xiàng)目共收集了京津塘高速公路 3方面的數(shù)據(jù):1)2002—2005年的事故信息,該部分的數(shù)據(jù)主要來(lái)源于高速公路的交警大隊(duì)的事故臺(tái)賬和卷宗;2)道路線形數(shù)據(jù),該部分?jǐn)?shù)據(jù)主要來(lái)源于高速公路的設(shè)計(jì)文件;3)2002—2005年交通量數(shù)據(jù),該部分的數(shù)據(jù)主要來(lái)源于京津塘高速公路全線的收費(fèi)站(大羊坊站、馬駒橋站、采育站、廊坊站、楊村站、宜興埠站、金鐘路站、機(jī)場(chǎng)站、塘沽西站、塘沽站等).
經(jīng)過(guò)統(tǒng)計(jì),京津塘高速公路 2002—2005年間,發(fā)生各類(lèi)交通事故共 3 860起.其中,死亡事故 175起,傷人事故 514起,財(cái)產(chǎn)損失事故 3 171起.調(diào)查時(shí)間段內(nèi)京津塘高速公路交通事故統(tǒng)計(jì)見(jiàn)圖 1,與美國(guó)高速公路同期交通安全狀況對(duì)比見(jiàn)圖 2.
圖1可以看出,在 2002—2005年期間,事故總數(shù)2004年最高,其他 3年比較平均,受傷、死亡人數(shù)、交通量呈逐年上升的趨勢(shì).
從圖 2可以看出,雖然京津塘高速公路的百萬(wàn)車(chē)公里死亡率從 2002—2005年逐年遞減,但與美國(guó)同期相比,仍然是美國(guó)的2~3倍.可見(jiàn),京津塘高速公路的安全狀況值得高度重視.京津塘高速公路交通事故里程分布見(jiàn)圖 3.
圖1 2002—2005年交通事故分布趨勢(shì)Fig.1 Traffic accidents distribution trends from 2002 to 2005
圖2 2002—2005年京津塘高速與美國(guó)高速百萬(wàn)車(chē)公里死亡率對(duì)比Fig.2 Death rate comparison between Jingjintang highway and american highway from 2002 to 2005
圖3 2002—2005年京津塘事故里程分布圖Fig.3 Jingjintang accidents spatial distribution from 2002 to 2005
從圖 3可以看出,交通事故的里程分布存在明顯的地段特性.4年中,10 km、40 km、120 km等路段的事故發(fā)生頻數(shù)明顯高于其他路段.
根據(jù)樣本的收集情況,設(shè)置模型的各項(xiàng)參數(shù),時(shí)間解釋變量 t=1,2,3,4.路段按事故數(shù)目以及道路類(lèi)型進(jìn)行劃分,長(zhǎng)度從 0.5km至 5km不等,共分成 64個(gè)子段,截面變量 i=1,2,…,64,每段視為 1個(gè) panel,則觀測(cè)的樣本數(shù)目為 256.
交通事故的發(fā)生是多種因素綜合作用的結(jié)果,相關(guān)性較大的自變量不能進(jìn)入模型參與回歸.因此,在建模之前進(jìn)行了一系列相關(guān)的統(tǒng)計(jì)和分析,確定 7個(gè)相互獨(dú)立的自變量進(jìn)入模型.將收集的數(shù)據(jù)整理成Panel Data數(shù)據(jù)形式,由于數(shù)據(jù)無(wú)缺失,產(chǎn)生平衡的 Panel Data數(shù)據(jù)形式,自變量的統(tǒng)計(jì)見(jiàn)表 1.
表 1 自變量描述統(tǒng)計(jì)表Table 1 Dependent variables classification and descrip tion
2.3.1 混合回歸模型
混合回歸模型,從時(shí)間上和截面上均不存在顯著性差異,估計(jì)的時(shí)候?qū)⑺械臄?shù)據(jù)放在一起,使用普通最小二乘法(OLS)估計(jì)參數(shù).令所有變量進(jìn)入初始模型,在顯著水平為 5%的情況下,取檢驗(yàn) p值小于0.005的自變量進(jìn)入最終模型,逐步剔除不顯著的變量,模型的最終形式表示為
式中,ci為 i路段每年發(fā)生的事故數(shù);li為 i路段長(zhǎng)度;vi為 i路段日平均交通量;pi為 i路段平均大車(chē)比例;ri為 i路段性質(zhì)的判斷;α為路段影響效應(yīng)總和;β1、β2、β3為待估計(jì)的系數(shù).利用 STATA軟件進(jìn)行最小二乘法回歸,得到可決系數(shù) R2=0.663 9,具體參數(shù)估計(jì)結(jié)果見(jiàn)表 2.
表 2 混合模型參數(shù)估計(jì)結(jié)果Table 2 Estimation resu lts by pool datamodel
從普通混合回歸的結(jié)果看出,京津塘事故與平均日交通量、平均大車(chē)比例成正比.在城鎮(zhèn)路段發(fā)生的事故總數(shù)大于鄉(xiāng)村路段發(fā)生的事故總數(shù),其他變量效果均不顯著,予以剔除.但該模型沒(méi)有考慮不同路段之間的固有差異.
2.3.2 個(gè)體固定效應(yīng)模型
假設(shè)事故組內(nèi)變量不存在異方差現(xiàn)象,使用虛擬最小二乘法進(jìn)行模型的估計(jì),在顯著水平為 5%的情況下,取檢驗(yàn) p值小于 0.005的自變量進(jìn)入最終模型,模型的形式表示為
式中,bi為 i路段是否為立交橋影響區(qū)的判斷;β1、β2、β3、β4為待估計(jì)的系數(shù);其他變量含義均同式(3).使用 STATA軟件,采用虛擬最小二乘法進(jìn)行回歸,得到可決系數(shù) R2=0.5569,具體參數(shù)估計(jì)結(jié)果見(jiàn)表 3.
表 3 個(gè)體固定效應(yīng)模型參數(shù)估計(jì)結(jié)果Table 3 Estimation results by fixed-effect model
2.3.3 固定效應(yīng)模型與混合回歸模型的檢驗(yàn)
使用 F統(tǒng)計(jì)量對(duì)個(gè)體固定效應(yīng)模型進(jìn)行檢驗(yàn).零假設(shè)為 H0:各子段的效應(yīng)都相等且為 0,檢驗(yàn)表示為
經(jīng)過(guò)檢驗(yàn),F值為 6.19拒絕原假設(shè).所以,固定效應(yīng)模型相對(duì)混合模型更適合描述京津塘高速公路事故特征.
2.3.4 隨機(jī)效應(yīng)模型
使用廣義線形回歸,對(duì)隨機(jī)效應(yīng)模型進(jìn)行構(gòu)建,在顯著水平為 5%的情況下,取檢驗(yàn)p值小于0.005的自變量進(jìn)入最終模型,回歸模型的形式表示為
式中各變量的含義均同式(4).使用 STATA軟件進(jìn)行回歸,得到可決系數(shù) R2=0.654 1,具體參數(shù)估計(jì)結(jié)果見(jiàn)表 4.
表 4 隨機(jī)疚模型參數(shù)估計(jì)結(jié)果Table 4 Estimation results by random-effectmodel
2.3.5 隨機(jī)效應(yīng)模型與個(gè)體固定效應(yīng)模型 Hausman檢驗(yàn)
使用 Hausman的 χ2統(tǒng)計(jì)檢驗(yàn),判斷變量之間的相關(guān)性,確定使用固定效應(yīng)模型還是隨機(jī)效應(yīng)模型,檢驗(yàn)表示為
檢驗(yàn)結(jié)果表明拒絕原假設(shè)說(shuō)明,對(duì)于交通事故統(tǒng)計(jì)預(yù)測(cè)分析,隨機(jī)效用模型估計(jì)將出現(xiàn)較大的偏差[9],采用個(gè)體固定效應(yīng)模型進(jìn)行高速公路事故分析更為合理.根據(jù)固定效應(yīng)模型,2002—2005年影響事故的主要因素為交通量、大車(chē)比例、路段是否在立交橋影響區(qū)以及路段是否為城鎮(zhèn)路段.隨著日平均交通量逐年增加和大車(chē)比例的增加,事故數(shù)將會(huì)逐年上升.在立交橋影響區(qū)或城鎮(zhèn)區(qū)域的路段也很容易發(fā)生交通事故.對(duì)于京津塘高速公路這樣的平原高速公路,縱坡和平曲線半徑變化不大,出現(xiàn)極端道路條件的情況很少.所以,高速公路事故發(fā)生頻率與線形的關(guān)系相對(duì)較弱,不是事故發(fā)生的主要因素.
針對(duì)忽視不同子路段之間的固有差異,導(dǎo)致事故模型不夠準(zhǔn)確的情況,提出了 Panel Data事故模型的新理念,解決樣本量不足以及樣本的共線性的問(wèn)題.收集了京津塘高速公路 2002—2005年的交通事故、日平均交通量、線形等基礎(chǔ)數(shù)據(jù).在 STATA環(huán)境下,建立混合回歸模型、固定效應(yīng)、隨機(jī)效應(yīng)模型,量化各影響因素與交通事故數(shù)之間的關(guān)系.使用 F檢驗(yàn)和 Hausman檢驗(yàn)進(jìn)行模型比較,結(jié)果表明,個(gè)體固定效應(yīng)模型更加適合高速公路事故的實(shí)際預(yù)測(cè).
[1]公安部交通管理局.中華人民共和國(guó)道路交通事故統(tǒng)計(jì)年報(bào)(2008)[R].江蘇,無(wú)錫:公安部交通管理科學(xué)研究所,2009:2-3.
[2]李金龍,孫晚華.高速公路交通事故成因分析及對(duì)策研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2005,15(1):59-62.LI Jin-long,SUN Wan-hua.Cause analysis of traffic accidents on express highway and study on their countermeasures[J].China Safety Science Journal,2005,15(1):59-62.(in Chinese)
[3]劉強(qiáng),陸化普,張永波,等.我國(guó)道路交通事故特征分析與對(duì)策研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2006,16(6):124-128.LIU Qiang,LU Hua-pu,ZHANG Yong-bo,etal.Characteristic analysis and countermeasure studyon road traffic accidents in China[J].China Safety Science Journal,2006,16(6):124-128.(in Chinese)
[4]陳鵬,李旭宏,孫華燦.基于分形理論的交通事故分析[J].公路交通科技,2008,5(3):130-133.CHEN Peng,LIXu-hong,SUN Hua-can.Analysis of traffic accident based on fractal theory[J].Journal of Highway and Transportation Research and Development,2008,5(3):130-13.(in Chinese)
[5]KWEON Young-Jun,KOCKELMAN M K.The safety effects of speed limit changes:use of panelmodels,including speed,use,and design variab les[J].Transportation Research Record,2005,1908(1):148-158.
[6]謝識(shí)予,朱弘鑫.高級(jí)計(jì)量經(jīng)濟(jì)學(xué)[M].上海:復(fù)旦大學(xué)出版社,2005:202-221.
[7]CHIN H C,QUADDASM A.App lying the random effect negative binomialmodel toexamine traffic accident occurrence at signalized intersections[J].Accident Analysis,2003,35(2):253-259.
[8]WHAHINGTON P S,KARLARFTIS G M,MANNERING L F.Statistical and econometric methods for transportation data analysis[M].Washington D.C,USA:A CRC Press Company,2003:476-489.
[9]KOCKELMAN M K.Safety impacts and other implications of raised speed limits on high-speed roads NCHRP final report 90(project 17-23)[R].Washington D.C.USA:Transportation Research Board,2006:132-146.
(責(zé)任編輯 鄭筱梅)
Highway Accidents Statistical Analysis With Panel Data Model
XU Ting1,SUN Xiao-duan1,WANGWei-li2,HE Yu-long1
(1.Key Lab of Traffic Engineering,Beijing University of Technology,100124,Beijing China;2.Transportation Engineering Department,Xi'an Highway Research Institute,Xi'an,710058,China)
Models,which employ panel data analysis to model highway crashes,can identify fixed differences and other unobserved factors in real world.This paper introduces process of individual fixed-effects and random effects models and related tests.These models are applied to Jingjintang highway.Pool data regression,models of fixed effects and random effects are established respectively.Hausman results show that fixed-effect model is better than others when describing the relationship between accidents and other factors.
traffic safety;accidents prediction;pool data model;individual fixed-effects;random-effects
U 491.3
A
0254-0037(2010)04-0495-05
2008-10-15.
交通部西部建設(shè)項(xiàng)目資助(2007 318 223 33-01).
徐 婷(1983—),女,江蘇常州人,博士研究生.