裘晨璐 季君 許卉瑩 道路交通安全公安部重點(diǎn)實(shí)驗(yàn)室 公安部交通管理科學(xué)研究所
道路交通事故回歸分析與預(yù)測(cè)
裘晨璐 季君 許卉瑩 道路交通安全公安部重點(diǎn)實(shí)驗(yàn)室 公安部交通管理科學(xué)研究所
根據(jù)多元線性回歸分析基本原理,以道路交通事故數(shù)據(jù)為研究基礎(chǔ),結(jié)合城市GDP、人口數(shù)、汽車(chē)保有量、城市道路長(zhǎng)度、公路客運(yùn)量、公路貨運(yùn)量六項(xiàng)影響因素,采取逐步進(jìn)入策略,建立道路交通事故次數(shù)多元線性回歸分析數(shù)學(xué)模型;結(jié)合顯著性檢驗(yàn)原理,給出了各因素導(dǎo)致道路交通事故發(fā)生的顯著性作用評(píng)估方法,為合理有效地進(jìn)行道路交通事故分析和預(yù)測(cè)提供了科學(xué)依據(jù)。
多元線性回歸 事故預(yù)測(cè)
一直以來(lái),中國(guó)是世界上交通事故死亡人數(shù)最多的國(guó)家之一,每年都由此造成大量的人員傷亡和巨大的財(cái)產(chǎn)損失。為了有效控制和減少我國(guó)道路交通事故的發(fā)生,保障道路交通安全,開(kāi)展一系列的交通安全方面的統(tǒng)計(jì)分析研究十分必要。其中基于回歸分析的預(yù)測(cè)技術(shù)開(kāi)展對(duì)區(qū)域安全狀況分析及發(fā)展趨勢(shì)預(yù)測(cè)的研究就是道路安全研究的重要方面[1-3]。本文采用多元線性回歸方法,開(kāi)展對(duì)影響道路交通安全趨勢(shì)的相關(guān)因素分析,包括國(guó)民生產(chǎn)總值(GDP)、人口總數(shù)、汽車(chē)保有量、城市道路長(zhǎng)度、公路客運(yùn)量和公路貨運(yùn)量等,找出其主要影響因素及其關(guān)聯(lián)性,建立交通事故預(yù)測(cè)回歸模型,實(shí)現(xiàn)對(duì)區(qū)域內(nèi)交通安全狀況分析并預(yù)測(cè)其未來(lái)的發(fā)展趨勢(shì),從而為有針對(duì)性地、科學(xué)有效地制定合理的交通安全對(duì)策提供科學(xué)依據(jù),這對(duì)于制定交通安全管理目標(biāo)、提高交通安全管理水平具有十分重要的意義。本文還提出了對(duì)模型進(jìn)行回歸方程的顯著性檢驗(yàn)和回歸系數(shù)的顯著性檢驗(yàn)方法。
道路交通是一個(gè)涉及到多因素的復(fù)雜系統(tǒng),一般與當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展水平、客觀環(huán)境及人類社會(huì)活動(dòng)有密切關(guān)系。交通事故雖然具有隨機(jī)特性,但從統(tǒng)計(jì)的角度看,一個(gè)地區(qū)在較長(zhǎng)時(shí)域內(nèi)發(fā)生的交通事故又具有一定的規(guī)律性,因此可以運(yùn)用數(shù)理統(tǒng)計(jì)方法對(duì)交通事故總體狀況進(jìn)行研究,分析其發(fā)展趨勢(shì)及規(guī)律,科學(xué)地對(duì)道路交通事故進(jìn)行預(yù)測(cè)。道路交通事故預(yù)測(cè)是通過(guò)對(duì)交通事故的過(guò)去和現(xiàn)在狀態(tài)的系統(tǒng)探討,并考慮其相關(guān)因素的變化所做出的對(duì)交通事故未來(lái)狀態(tài)的描述過(guò)程。預(yù)測(cè)方法有多種,本文選擇回歸分析預(yù)測(cè)法[4]來(lái)進(jìn)行預(yù)測(cè)分析。
回歸分析是確定兩種或兩種以上變量間相互依賴定量關(guān)系的一種統(tǒng)計(jì)分析方法。在回歸分析中,把變量分為兩類,一類是因變量,代表實(shí)際問(wèn)題中所關(guān)心的一些指標(biāo),通常Y用來(lái)表示;而影響因變量取值的另一類變量稱為自變量,用X1,X2,…Xp來(lái)表示。當(dāng)研究的因果關(guān)系只涉及因變量和一個(gè)自變量時(shí),叫做一元回歸分析;當(dāng)研究的因果關(guān)系涉及因變量和兩個(gè)或兩個(gè)以上自變量時(shí),叫做多元回歸分析。此外,回歸分析中,又依據(jù)描述自變量與因變量之間因果關(guān)系的函數(shù)表達(dá)式是線性還是非線性,分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問(wèn)題可以通過(guò)變量變換,將非線性回歸化為線性回歸,然后用線性回歸方法處理[4]。回歸分析的一般步驟如下:
1. 收集資料:通過(guò)調(diào)查分析,確定待研究變量可能的相關(guān)因素,并收集和處理這些因素的相關(guān)統(tǒng)計(jì)資料;
2. 相關(guān)性分析:對(duì)待研究目標(biāo)和其影響因素作定性分析,確定是否存在相關(guān)關(guān)系;
3. 建立回歸模型:選取相關(guān)度高的因素作為自變量建立回歸分析模型,根據(jù)最小二乘法估計(jì)參數(shù),求出回歸方程;
4. 檢驗(yàn)?zāi)P停涸谶\(yùn)用回歸方程進(jìn)行預(yù)測(cè)之前,對(duì)回歸方程和回歸系數(shù)進(jìn)行顯著性檢驗(yàn);
5. 利用模型進(jìn)行預(yù)測(cè):利用模型進(jìn)行預(yù)測(cè),并討論預(yù)測(cè)結(jié)果的置信度。
自變量為多個(gè)的線性回歸稱之為多元線性回歸。設(shè)變量Y與變量X1,X2,…Xp間有線性關(guān)系,則多元線性回歸方程式為[4],
其中,β0是截距項(xiàng),βj(j=1,2,…,p)為回歸系數(shù),p是自變量的個(gè)數(shù),ε代表誤差項(xiàng)。在有些應(yīng)用情況下,模型假設(shè)截距項(xiàng)β0為零。
設(shè)(xi,1,xi,2,…,xi,p,yi),i=1,2,…,n,是(X1,X2,…,Xp,Y)的次獨(dú)立觀測(cè)值,令
則多元線性模型可表示為矩陣形式Y(jié)=Xβ+ε 。其中,β是未知的回歸系數(shù)向量。最小二乘法通過(guò)最小化誤差平方和Q(β)=(Y-Xβ)T(Y-Xβ)來(lái)求回歸系數(shù)β的估計(jì)值。其他常見(jiàn)的估計(jì)方法有最大似然估計(jì)和矩估計(jì)??梢宰C明,回歸系數(shù)β的最小二乘估計(jì)為從而可得經(jīng)驗(yàn)回歸方程和殘差向量
擬合優(yōu)度是指所建立的回歸模型對(duì)于數(shù)據(jù)來(lái)說(shuō),自變量能夠解釋因變量的程度。令yi代表yi的估計(jì)值,。模型的可決系數(shù)為模型的可決系數(shù)是一個(gè)取值范圍在0和1之間的非負(fù)統(tǒng)計(jì)量??蓻Q系數(shù)越大,說(shuō)明模型的擬合優(yōu)度越好。在多元回歸分析中,調(diào)整可決系數(shù)剔出了自變量個(gè)數(shù)對(duì)擬合優(yōu)度的影響,作為綜合度量模型對(duì)觀測(cè)值擬合優(yōu)度的指標(biāo),可以有效地防止過(guò)擬合。
顯著性檢驗(yàn)有兩種,一種是回歸方程的顯著性檢驗(yàn);另一種是回歸系數(shù)的顯著性檢驗(yàn)。
回歸方程的顯著性檢驗(yàn),即檢驗(yàn)整個(gè)回歸方程的顯著性,或者說(shuō)評(píng)價(jià)所有自變量與因變量的線性關(guān)系是否密切,一般用F檢驗(yàn)法。對(duì)于給定的顯著性水平α,假設(shè)成立時(shí),模型的F統(tǒng)計(jì)量服從自由度為(p,n-p-1)的F分布,記為
回歸系數(shù)的顯著性檢驗(yàn),即檢驗(yàn)回歸模型中各個(gè)自變量是否具有顯著性,一般用t檢驗(yàn)法。給定顯著性水平α,對(duì)于每一個(gè)回歸系數(shù)βj,模型的t統(tǒng)計(jì)量服從自由度為n-p-1的t分布,記為。如果t大于臨界值則認(rèn)為α在水平下回歸系數(shù)βj顯著不為零,即自變量Xi對(duì)因變量的線性影響顯著。
當(dāng)多元線性回歸方程經(jīng)過(guò)檢驗(yàn)是顯著的,且其中每一個(gè)系數(shù)均顯著時(shí),可用此方程作預(yù)測(cè)。給定自變量將其帶入經(jīng)驗(yàn)回歸方程得到估計(jì)值和一個(gè)置信度為1-α的預(yù)測(cè)區(qū)間,其中
我國(guó)目前在交通安全管理上常采用的指標(biāo)包括交通事故起數(shù)、受傷人數(shù)、死亡人數(shù)和直接經(jīng)濟(jì)損失,即交通事故四項(xiàng)指標(biāo)。選擇交通事故起數(shù)這一指標(biāo)進(jìn)行回歸分析。以某市2005~2012年道路交通事故起數(shù)作為因變量,與同期該市的城市GDP、人口數(shù)、汽車(chē)保有量、城市道路長(zhǎng)度、公路客運(yùn)量、公路貨運(yùn)量共六項(xiàng)影響因素作相關(guān)分析,選取相關(guān)度高的因素作為自變量建立多元線性回歸模型。該市2005~2012年相關(guān)數(shù)據(jù)見(jiàn)表1。
?
回歸分析是對(duì)具有因果關(guān)系的影響因素(自變量)和預(yù)測(cè)對(duì)象(因變量)所進(jìn)行的數(shù)理統(tǒng)計(jì)分析處理。只有當(dāng)變量與因變量確實(shí)存在某種關(guān)系時(shí),建立的回歸方程才有意義。進(jìn)行相關(guān)分析,一般要求出相關(guān)關(guān)系,以相關(guān)系數(shù)的大小來(lái)判斷自變量和因變量的相關(guān)程度。圖1展現(xiàn)了道路交通事故起數(shù)與城市GDP、人口數(shù)、汽車(chē)保有量、城市道路長(zhǎng)度、公路客運(yùn)量、公路貨運(yùn)量之間的散點(diǎn)圖。觀察可得,事故起數(shù)和死亡人數(shù)與城市道路長(zhǎng)度沒(méi)有明確的線性關(guān)系,與其他各指標(biāo)呈現(xiàn)明顯的負(fù)相關(guān)關(guān)系。
我們進(jìn)一步對(duì)各個(gè)變量做Pearson相關(guān)分析。對(duì)于連續(xù)型數(shù)值變量,Pearson相關(guān)系數(shù)是一個(gè)介于-1與1之間的統(tǒng)計(jì)量,測(cè)量了變量之間的相關(guān)程度[5]。表2顯示了事故起數(shù)與各指標(biāo)之間的Pearson相關(guān)系數(shù)和對(duì)應(yīng)的單邊顯著性水平。從表中可以看出,事故起數(shù)與人口數(shù)之間的相關(guān)系數(shù)為-0.916,它們?cè)?.05顯著性水平下顯著負(fù)相關(guān);事故起數(shù)與GDP、汽車(chē)保有量、公路客運(yùn)量和公路貨運(yùn)量之間的相關(guān)系數(shù)分別為-0.714、-0.683、-0.688和-0.673,它們?cè)?.05顯著性水平下顯著負(fù)相關(guān)。根據(jù)散點(diǎn)圖和Pearson相關(guān)分析,初步將城市道路長(zhǎng)度這個(gè)影響因素排除。
?
一般來(lái)講,如果在一個(gè)回歸方程中忽略了對(duì)因變量有顯著影響的自變量,那么所建立的方程必然與實(shí)際有較大的偏離,但是如果自變量選的過(guò)多,特別是當(dāng)方程中還有對(duì)因變量影響不大的自變量時(shí),就會(huì)影響回歸方程的擬合優(yōu)度和預(yù)測(cè)精度。本文采用逐步回歸策略來(lái)選擇自變量。逐步回歸策略按全部自變量對(duì)因變量的顯著程度大小(貢獻(xiàn)程度大?。?,由大到小地將自變量逐個(gè)引入回歸方程,而對(duì)那些對(duì)因變量作用不顯著的變量則不被引入回歸方程。另外,己被引入回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引入一個(gè)變量或者從回歸方程中剔除一個(gè)變量都稱為逐步回歸的一步,每一步都要進(jìn)行F檢驗(yàn),以保證在引入新變量前回歸方程中只含有對(duì)因變量影響顯著的變量,而不顯著的變量已被剔除。令y為道路交通事故起數(shù),x1為城市GDP,x2為人口數(shù)、x3為汽車(chē)保有量,x4為公路客運(yùn)量、x5為公路貨運(yùn)量。我們采用逐步回歸策略,通過(guò)SPSS計(jì)算求解[5],得出事故數(shù)量的回歸方程為,
模型的調(diào)整可決系數(shù) R2=0.993,這說(shuō)明模型的擬合優(yōu)度較好。由回歸方程式可知,GDP與事故數(shù)量是負(fù)相關(guān)的,即隨著GDP的增加,事故數(shù)呈下降趨勢(shì)。相反,人口規(guī)模與事故數(shù)量是正相關(guān)的,即隨著人口的增加,事故數(shù)呈上升趨勢(shì)。
用F檢驗(yàn)法對(duì)上述回歸方程進(jìn)行顯著性檢驗(yàn),經(jīng)過(guò)計(jì)算得出回歸方程的F統(tǒng)計(jì)量為54.721,在α=0.01水平下是顯著的,即認(rèn)為GDP和人口規(guī)模兩個(gè)影響因素總體對(duì)交通事故起數(shù)的線性影響是顯著的。用t檢驗(yàn)法對(duì)單個(gè)回歸系數(shù)進(jìn)行顯著性檢驗(yàn),經(jīng)過(guò)計(jì)算得出回歸系數(shù)的t統(tǒng)計(jì)量為5.365,在α=0.01水平下是顯著的,即認(rèn)為GDP對(duì)交通事故起數(shù)的線性影響是顯著的;回歸系數(shù)的 t統(tǒng)計(jì)量為-2.496,在α=0.05水平下是顯著的,即認(rèn)為人口規(guī)模對(duì)交通事故起數(shù)的線性影響也是顯著的。因此,事故起數(shù)與GDP和人口數(shù)之間的線性關(guān)系顯著,建立的上述多元線性回歸模型是恰當(dāng)?shù)?。?jīng)檢驗(yàn),回歸方程及各回歸系數(shù)都是顯著的,給定自變量和置信水平,就可以根據(jù)回歸方程預(yù)測(cè)出因變量的估計(jì)值和置信區(qū)間。
經(jīng)檢驗(yàn),回歸方程及各回歸系數(shù)都是顯著的,那么就可以利用回歸模型計(jì)算預(yù)測(cè)值。若該市GDP按8%速度增長(zhǎng),2013年和2014年將分別達(dá)到8173.60億元和8827.49億元;若該市人口數(shù)按0.5%速度增長(zhǎng),2014年將達(dá)到472.42萬(wàn)人和474.78萬(wàn)人。根據(jù)式(1)中的多元回歸分析模型,2013年道路交通事故起數(shù)的90%預(yù)測(cè)上限為2485起,即2013年發(fā)生2485起以上道路交通事故的可能性不超過(guò)10%;2014年交通事故死亡人數(shù)的預(yù)測(cè)上限為2422起,即2014年發(fā)生2422起以上道路交通事故的可能性不超過(guò)10%。
本文通過(guò)建立多元線性回歸模型,對(duì)某市的道路交通事故數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。選取道路交通事故次數(shù)作為因變量,城市GDP、人口數(shù)、汽車(chē)保有量、城市道路長(zhǎng)度、公路客運(yùn)量、公路貨運(yùn)量作為自變量,進(jìn)行多元線性回歸分析。分析結(jié)果說(shuō)明,交通事故次數(shù)與GDP之間的線性關(guān)系是顯著的,隨著GDP的增加,事故數(shù)呈下降趨勢(shì)。根據(jù)結(jié)果建立了預(yù)測(cè)模型,且模型的擬合優(yōu)度較好,通過(guò)了模型的顯著性檢驗(yàn)。多元線性回歸模型是定量分析和預(yù)測(cè)道路交通事故發(fā)展趨勢(shì)的有效手段之一,可廣泛應(yīng)用于道路交通事故的分析和預(yù)測(cè)中,科學(xué)地對(duì)道路交通事故進(jìn)行預(yù)測(cè),從而為科學(xué)交通管理提供技術(shù)支撐。
[1] 董玉波.道路交通事故多元線性回歸模型及檢驗(yàn)方法.中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013年第2期.
[2] 房曰榮,沈斐敏.道路交通事故發(fā)展趨勢(shì)分析與預(yù)測(cè).中國(guó)安全生產(chǎn)科學(xué)技術(shù),2012年第8卷第2期.
[3] 胡向陽(yáng), 姚慧芳.運(yùn)用回歸分析法研究足跡樣本.警察技術(shù),2002年03期.
[4] 薛毅,陳立萍. 統(tǒng)計(jì)建模與R軟件.北京:清華大學(xué)出版社, 2007.
[5] 張文,張文彤, 鄺春偉. SPSS統(tǒng)計(jì)分析基礎(chǔ)教程.高等教育出版社,2011.