潘麗靜
(1.渭南師范學(xué)院 數(shù)學(xué)系;2.渭南師范學(xué)院 統(tǒng)計(jì)科學(xué)與社會(huì)計(jì)算研究所,陜西 渭南 714000)
基于Matlab語(yǔ)言的統(tǒng)計(jì)數(shù)據(jù)異常值檢驗(yàn)
潘麗靜
(1.渭南師范學(xué)院 數(shù)學(xué)系;2.渭南師范學(xué)院 統(tǒng)計(jì)科學(xué)與社會(huì)計(jì)算研究所,陜西 渭南 714000)
從回歸模型診斷的角度對(duì)統(tǒng)計(jì)數(shù)據(jù)中的異常值進(jìn)行探測(cè)與分析,并基于Matlab語(yǔ)言,結(jié)合具體實(shí)例,給出回歸診斷在統(tǒng)計(jì)數(shù)據(jù)異常值探測(cè)中的應(yīng)用.
回歸診斷;異常值;Matlab
評(píng)估統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性是統(tǒng)計(jì)學(xué)研究的一個(gè)重要課題,在實(shí)際統(tǒng)計(jì)工作中遇到的數(shù)據(jù)常會(huì)出現(xiàn)下面的兩種情況:一是單個(gè)變量的值過(guò)大或過(guò)小,明顯偏離該變量大多數(shù)觀測(cè)值;二是單個(gè)變量值雖未表現(xiàn)出異常,但卻不符合變量間的結(jié)構(gòu)和相關(guān)性,明顯擾亂這種相關(guān)關(guān)系,我們稱這種觀測(cè)值為異常值[1].異常值是影響統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的一個(gè)非常重要的因素,因此如何發(fā)現(xiàn)和處理這些異常數(shù)據(jù)十分重要,文獻(xiàn)[1-5]對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的概念及統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估的方法進(jìn)行了討論,本文利用Matlab軟件采用殘差分析的方法對(duì)統(tǒng)計(jì)數(shù)據(jù)中的異常值進(jìn)行了檢驗(yàn).
設(shè)線性回歸模型為:Y=Xβ+ε,其中Y是由響應(yīng)變量構(gòu)成的n維向量,n×(p+1)階設(shè)計(jì)矩陣,β是p+1維向量,ε是n維誤差向量.
通過(guò)對(duì)殘差和殘差的置信區(qū)間進(jìn)行分析,可以看出原始數(shù)據(jù)中是否存在異常點(diǎn),若殘差的置信區(qū)間不包括0點(diǎn),可認(rèn)為該組觀測(cè)為異常點(diǎn).
(1)調(diào)用regress函數(shù)作一元線性回歸[b,bint,r,rint,s]=regeess(y,xdsta);返回系數(shù)的估計(jì)值、殘差的估計(jì)值及估計(jì)值的95%置信區(qū)間、判定系數(shù)、F統(tǒng)計(jì)量的觀測(cè)值和檢驗(yàn)的p值.
(2)調(diào)用rcoplpt(r,rint)按順序畫出各組觀測(cè)數(shù)據(jù)對(duì)應(yīng)的殘差和殘差的置信區(qū)間.
分析2010年全國(guó)31個(gè)主要城市的年平均氣溫與全年日照時(shí)數(shù)的關(guān)系,并分析異常值點(diǎn).數(shù)據(jù)來(lái)源于中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局網(wǎng)站2010年資源和環(huán)境統(tǒng)計(jì)數(shù)據(jù).
經(jīng)初步分析,可以建立以年平均氣溫為自變量,全年日照時(shí)數(shù)為因變量的一元線性回歸模型,且該模型通過(guò)F檢驗(yàn),由程序輸出結(jié)果知,常數(shù)項(xiàng)和回歸系數(shù)項(xiàng)的估計(jì)值分別為3.138×103和-72.5957,從而得線性回歸方程為Y贊=3031.8-72.5957x,回歸系數(shù)的估計(jì)區(qū)間為[-102.1742,-43.0173].
其原始數(shù)據(jù)散點(diǎn)與回歸直線圖,原始數(shù)據(jù)殘差及置信區(qū)間圖和剔除異常值后的回歸直線圖如下:
圖1
圖2
圖3
圖1是原始散點(diǎn)及回歸直線圖,從圖形上看,第22、23、24和26號(hào)樣本點(diǎn)明顯偏離其他樣本點(diǎn);圖2是原始數(shù)據(jù)殘差及置信區(qū)間圖,從圖形上看,有三個(gè)樣本點(diǎn)的殘差置信區(qū)間不包含0點(diǎn),它們對(duì)應(yīng)得觀測(cè)序號(hào)分別23、24和26,可認(rèn)為這三組觀測(cè)數(shù)據(jù)為異常數(shù)據(jù),這和從散點(diǎn)圖上直接觀察的結(jié)果基本吻合.它們分別是成都(17.0,689.0),貴陽(yáng)(14.6,1021.5)和拉薩(10.0,3134.2),這可能是受到它們所處地理位置的影響;圖3是原始數(shù)據(jù)散點(diǎn)、原始數(shù)據(jù)對(duì)應(yīng)的回歸直線和剔除異常數(shù)據(jù)后的回歸直線,由于受異常數(shù)據(jù)影響,兩次回歸結(jié)果并不相同.
〔1〕趙慧,甘仲惟,肖明.多變量統(tǒng)計(jì)數(shù)據(jù)中異常值檢驗(yàn)方法的探討[J].華中師范大學(xué)學(xué)報(bào),2003,37(2):133-137.
〔2〕王懷亮.回歸診斷在統(tǒng)計(jì)數(shù)據(jù)異常值探測(cè)中的應(yīng)用[J].黑龍江對(duì)外經(jīng)貿(mào),2011(2):118-119.
〔3〕盧二坡,黃炳藝.基于穩(wěn)健MM估計(jì)的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法[J].統(tǒng)計(jì)研究,2010,27(12):16-22.
〔4〕劉洪,黃燕.我國(guó)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)估方法研究-趨勢(shì)模擬評(píng)估法及其應(yīng)用 [J].統(tǒng)計(jì)研究,2007,24(8).
〔5〕許永洪.統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的基本概念與數(shù)據(jù)質(zhì)量評(píng)估的基本模型[J].商業(yè)經(jīng)濟(jì)與管理,2010(12).
〔6〕李海濤,鄧櫻.MATLAB 程序設(shè)計(jì)教程[M].北京:高等教育出版社,2007.9.
O212.3
A
1673-260X(2012)11-0005-02
國(guó)家統(tǒng)計(jì)局項(xiàng)目(2011LY030),渭南市科技計(jì)劃項(xiàng)目(2011YKJ-2)