松雪瑩 張雪
摘 要:本文以美國50個州的六項指標數(shù)據(jù)(Murder(謀殺率)、Population(人口)、Illiteracy(文盲率)、Income(平均收入)、Frost(結(jié)霜天數(shù))、Area(地理面積))為例,引入統(tǒng)計分析方法——多元線性回歸分析,將謀殺率作為因變量,其余指標作為待選自變量,來探究一個州的謀殺率和其他因素的關(guān)系,運用R軟件通過定量的統(tǒng)計分析找出了人口與文盲率是影響謀殺率的主要因素,并最終建立了相應(yīng)的多元線性回歸方程。
關(guān)鍵詞:多元線性回歸模型;影響因素分析;統(tǒng)計分析;R軟件
1問題的背景與分析
美國作為世界頭號強國,在科技、文化、經(jīng)濟等各方面的發(fā)展都具有較強的競爭優(yōu)勢,然而其居高不下的謀殺率卻在一定程度上威脅著美國人民及世界人民的安全。本文即以美國50個州的六項指標數(shù)據(jù),包括謀殺率、人口、文盲率、平均收入、結(jié)霜天數(shù)、地理面積為研究對象,探究謀殺率的主要影響因素。數(shù)據(jù)來源為R軟件自帶數(shù)據(jù)包state.x77。值得強調(diào)的是,由于搜集近期數(shù)據(jù)具有一定難度,盡管本文所用數(shù)據(jù)的年限已久,不具有時效性,但是所用的研究方法卻具有普遍性與可靠性,可廣泛應(yīng)用于不同時期的數(shù)據(jù)統(tǒng)計分析,不受時間年限的約束。
2模型的建立與求解
2.1多元線性回歸模型的理論
多元線性回歸主要是研究一個因變量與多個自變量之間的線性相關(guān)關(guān)系,模型的形式為:
其中n為觀測的數(shù)目,k為預測變量的數(shù)目。建立多元線性回歸模型的目標是通過減少響應(yīng)變量的真實值與預測值的差值來獲得模型參數(shù)。具體而言,即使得殘差平方和最?。?/p>
同時,隨機誤差必須滿足以下四個條件,多元線性回歸方程才有意義:
①正態(tài)性,即隨機誤差必須是符合正態(tài)分布的隨機變量;
②無偏性,即隨機誤差的期望值為0;
③同方差性,即所有隨機誤差的方差都相等;
④獨立性,即所有隨機誤差都相互獨立。
2.2模型的建立與求解
2.2.1變量的選擇
運用向后逐步回歸方法對五個自變量進行篩選,依據(jù)的準則是AIC準則。運行結(jié)果如下:
開始時模型包含五個自變量,然后每一步提供了刪除一個自變量后模型的AIC值。經(jīng)過三步后,自變量結(jié)霜天數(shù)、平均收入、地理面積依次被刪除,其間AIC持續(xù)下降,直到達到92.28后,選擇程序終止。因此,自變量人口和文盲率為最終選定的回歸自變量。
2.2.2多元線性回歸模型的建立
由上一步的結(jié)果,將謀殺率作為因變量,以人口和文盲率為自變量擬合回歸方程,得到回歸方程:,并進行顯著性檢驗,結(jié)果如下:
從表中可以看出,在α=0.05的水平下,F(xiàn)統(tǒng)計量的估計值為30.75,對應(yīng)的P值為2.89e-09,說明回歸方程是顯著的,可決系數(shù)R2=0.8668,修正的可決系數(shù)R2=0.8484,說明方程的擬合效果較好;同時從回歸系數(shù)的檢驗表中可以看出,自變量x1、x2的回歸系數(shù)顯著不為0,表明當控制其他變量不變時,Population、Illiteracy與Murder的線性相關(guān)關(guān)系顯著,即建立的多元線性回歸方程
具有統(tǒng)計學意義。
2.2.3回歸診斷
2.2.3.1正態(tài)假設(shè)檢驗
首先通過殘差分析對模型的正態(tài)假設(shè)進行檢驗,繪制出相應(yīng)的學生化殘差的Q-Q圖和分布圖:
由圖可以看出,出了一個明顯的離群點Nevada,誤差很好地服從了正態(tài)分布,這表明正態(tài)性假設(shè)符合的很好。
2.2.3.2復共線性檢驗
復共線性可用統(tǒng)計量VIF(方差膨脹因子)進行檢測。一般原則下,就表明存在復共線性問題。用R軟件中的vif()函數(shù)計算各自變量的VIF值,結(jié)果如下:
由表中可以看出,所有自變量的均小于2,故模型中不存在復共線性問題。
3綜合評價
由以上建模過程和結(jié)果可以看出,影響美國各州謀殺率的主要因素為人口和文盲率。通過分析可知,在人口相對較多的州部,發(fā)生謀殺案件的可能性較大,同時,犯罪率隨文盲率的增加而增加,人民受教育的水平越低,則犯罪的可能性越大。除此之外,通過查閱相關(guān)的資料可得,美國的槍支合法制度也是造成美國謀殺率居高不下的重要原因之一。
參考文獻:
[1][美]Robert I.Kabacoff,R語言實踐,人民郵電出版社,2014版.
[2]張鵬輝,孫晚華,多元線性回歸在影響分析中的應(yīng)用,北方交通大學,2000.
[3]董躍嫻,影響高校教師教學質(zhì)量的多元線性回歸分析與思考,北京:北京農(nóng)學院,2009.