混合空間自回歸模型的異常值檢驗

2015-04-25 07:16:34金立斌戴曉文

統(tǒng)計與決策 2015年1期

關鍵詞：方差殘差擾動

金立斌，戴曉文，石磊

（1.中國人民大學統(tǒng)計學院，北京 100872；2.云南財經(jīng)大學統(tǒng)計與數(shù)學學院，昆明 650221）

0 引言

1 模型介紹及得分檢驗

1.1 混合空間自回歸模型

其中，y為n×1的因變量，ρ為空間自回歸系數(shù)，W為n×n的空間權重矩陣，X，β分別為設計矩陣及相應的參數(shù)向量。若In-ρW 可逆，其中In為n階單位陣，若略去前面的常數(shù)項，模型的對數(shù)似然函數(shù)為

由于參數(shù)的ML估計無法得到明顯的運算式，故只能通過迭代求解。

1.2 異常值模型

為識別混合空間自回歸模型中的單個異常值問題，我們同時考慮均值滑動模型和方差加權模型。并最終對兩種模型的異常值檢驗的結果加以對比。

對于混合空間自回歸模型，加入均值擾動的異常值模型如下：

ω表示第i個點的方差權重，若ω顯著不等于1，則說明第i個數(shù)據(jù)點有不同于其他點的方差，因而為異常點，該異常值的檢驗問題可以歸結為如下假設檢驗問題：

1.3 得分檢驗

2 SAR模型異常值的得分檢驗

對于SAR模型的均值滑動模型和方差加權模型，由于其參數(shù)的極大似然估計一般只能通過迭代求出。因此，一種常用的方法就是采用Score檢驗。我們首先考慮均值滑動模型，此時，對數(shù)似然函數(shù)為

高強度鋼筋的推廣應用，既有利于推動鋼鐵行業(yè)的轉型升級和產(chǎn)品結構調整，又能促進我國各類建筑和基礎設施的質量升級，推動建筑業(yè)的技術進步和裝備水平的提高，具有顯著的經(jīng)濟效益和環(huán)境效益，這也是我國建筑業(yè)和鋼鐵行業(yè)可持續(xù)發(fā)展的迫切要求。

3 應用

若將定理1和定理2的結論應用于一階空間自回歸模型，即可得出一階空間自回歸模型的均值滑動模型和方差加權模型的單個異常值得分檢驗統(tǒng)計量。

3.1 一階空間自回歸模型

顯然，F(xiàn)AR模型與SAR模型相比，缺少了Xβ這個線性回歸部分，即前者為后者的設計矩陣X=0時的特例。同樣，我們可以求得模型的對數(shù)似然函數(shù)

同樣由于參數(shù)的ML估計無顯式解，所以只能通過迭代求解。

3.2 FAR模型的異常值得分檢驗

4 實例分析

我們將用哥倫布市社區(qū)犯罪數(shù)據(jù)說明本文檢驗方法的應用，分別采用SAR模型和FAR模型對數(shù)據(jù)進行建模，再根據(jù)兩個模型對數(shù)據(jù)進行異常值檢驗。在識別出異常點之后，我們根據(jù)異常值模型的假設和異常值的檢驗結果建立優(yōu)化模型，通過對比優(yōu)化模型和原模型的性質來說明異常值檢驗方法的有效性。

4.1 基于SAR模型的分析

利用本文提出的方法，根據(jù)定理1和2的結論可知，SAR模型的均值擾動形式和方差擾動形式的得分檢驗統(tǒng)計量都服從分布χ2()1。分別考慮有標識和無標識的異常值檢驗問題，主要結論如下：

下面我們開始對數(shù)據(jù)進行分析，針對SAR模型，圖1給出了模型的標準殘差圖，可以看出某些數(shù)據(jù)點存在一定的異常。

圖1 SAR模型觀測數(shù)據(jù)的殘差圖.

圖2 (a)均值漂移模型下異常值 (b)方差加權模型下異常值檢驗統(tǒng)計量檢驗統(tǒng)計量

對比這SAR模型的兩種異常值模型的檢驗結果，我們發(fā)現(xiàn)雖然擾動方式不同，但是檢驗結果較為相似。此外，從圖2可看出，方差加權模型在識別哥倫布市社區(qū)犯罪數(shù)據(jù)時較均值漂移模型更敏感。

下面根據(jù)SAR模型異常值檢驗的結果，建立修正模型，并將之與原模型相比來驗證檢驗方法的有效性.這一方法已被一些作者采用。本文采用無標識的異常值檢驗結果進行分析。

根據(jù)圖2(a)的檢驗結果，SAR模型的均值優(yōu)化模型可記為：

λ1，λ2分別為第4和34個元素方差上的權重系數(shù)。

我們分別從殘差的峰度、偏度和殘差的Q-Q圖這兩種角度來對比原模型和修正模型，并分析這兩個修正模型的性質較原模型是否存在改進。若修正模型相對于原模型存在改進，即根據(jù)異常值檢驗結果提出的修正模型性質上優(yōu)于原模型，則說明我們的異常值檢驗方法是有效的。

圖3 (a)原模型殘差 (a)優(yōu)化模型(16)殘差 (b)優(yōu)化模型(17)殘差的Q-Q圖. 的Q-Q圖. 的Q-Q圖.

而從Q-Q圖角度來看，若數(shù)據(jù)嚴格服從正態(tài)分布，則這些概率點將形成一條直線；若點偏離直線，則正態(tài)性較為可疑。原模型（1）下的殘差的Q-Q圖如圖3(a)所示，雖然大部分概率點圍繞在擬合直線周圍，但是存在一個顯著的離群點.修正模型（16）和（17）殘差的Q-Q圖分別如圖3(b)和3(c)所示，兩者所有概率點都緊密圍繞在擬合直線周圍，消除了離群點。所以從Q-Q圖的角度，我們也得出了修正模型（16）和（17）性質遠遠優(yōu)于原模型（1）。

圖4 FAR模型觀測數(shù)據(jù)的殘差圖

綜合以上兩點，我們可以判定所采用的異常值檢驗方法是有效的，并取得了理想的效果。此外，修正模型（16）和（17）也為數(shù)據(jù)中存在的異常情況提供了一個有效的處理辦法。

4.2 基于FAR模型的分析

若采用FAR模型對數(shù)據(jù)進行描述，可得模型的標準殘差圖如圖4所示，也可看出某些數(shù)據(jù)點存在一定的異常。

FAR模型的兩種擾動形式的得分檢驗統(tǒng)計量均服從分布 χ2()1。同樣考慮有標識和無標識的異常值檢驗問題，取置信水平α=0.05，可得FAR模型的兩種擾動模式的Score檢驗結果如圖5所示。

圖5 (a)均值漂移模型下異常值 (b)方差加權模型下異常值檢驗統(tǒng)計量. 檢驗統(tǒng)計量

FAR模型的均值漂移模型的得分檢驗結果如圖5(a)所示：在臨界值為3.84時，4，17，34號個體為異常值；而臨界值為10.79時，只有4號個體為異常值.方差加權模型的檢驗結果如圖5(b)所示，檢驗的結果都是4，17號個體被識別為異常值。上述FAR模型的兩種擾動模型形式的異常值檢驗結果也較類似，且方差加權模型在該數(shù)據(jù)時較均值漂移模型更敏感。

同樣，我們根據(jù)FAR模型異常值檢驗的結果，建立修正模型來驗證檢驗方法的有效性。我們也采用無標識的異常值檢驗結果進行分析。

λ1，λ2分別為第4和17個元素方差上的權重系數(shù)。

同樣，我們通過考慮殘差的峰度、偏度和殘差的Q-Q圖這兩種角度來對比原模型和修正模型，進而論證異常值檢驗方法的有效性。

圖6 (a)FAR模型殘差 (b)優(yōu)化模型(18)殘差 (c)優(yōu)化模型(19)殘差的Q-Q圖. 的Q-Q圖. 的Q-Q圖.

對于FAR模型，計算得原模型殘差的偏度和峰度為SK=-1.416，K=7.2936，而均值修正模型（18）中殘差的SK=-0.4622，K=4.4334 ，方差修正模型（19）中殘差的SK=0.3068，K=2.4451，兩者在殘差的偏度和峰度的性質都大大優(yōu)于原模型，從而說明了我們的異常值檢驗方法的有效性。

原模型下的殘差的Q-Q圖如圖6(a)所示，存在兩個顯著的離群點。修正模型（18）和（19）殘差的Q-Q圖分別如圖6(b)和6(c)所示：修正模型（18）將原模型的離群值從兩個減少為一個，改善了殘差的正態(tài)性；而修正模型（19）所有點都緊密圍繞在擬合直線周圍。所以從Q-Q圖的角度，我們也得出了修正模型（18）和（19）性質遠遠優(yōu)于原模型的結論。

綜合以上兩點，我們也可以判定所采用的異常值診斷方法是有效的，并取得了理想的效果。此外，修正模型（18）和（19）為數(shù)據(jù)中存在的異常情況提供了一個有效的處理辦法。

5 結論

本文研究了混合空間自回歸模型的單個異常值檢驗問題，考慮均值滑動模型及方差加權模型，分別導出了得分檢驗統(tǒng)計量及近似分布，并將結論推廣到一階空間自回歸模型。我們運用提出的方法對實例數(shù)據(jù)進行分析，分別在SAR模型和FAR模型下進行分析，并基于均值漂移模型和方差加權模型進行異常值的檢驗，最終都識別出了其中的異常點。最后，我們基于異常值檢驗的結果建立了相應的修正模型，并通過對比說明了所提出的方法的有效性。本文得出的一些結論，為該數(shù)據(jù)的進一步分析提供了重要的信息。本文的方法可以推廣到SAR模型的多個異常值的檢驗，只是識別過程更困難，有待于進一步研究。

[1]Barnett V,Lewis T.Outliers in Statistical Data[M].New York：John Wiley&Sons,1978.

[2]Lesage P J.The Theory and Practice of Spatial Econometrics[R].Working Paper,Department of Economics,University of Toledo,1999.

[3]Anselin L.Spatial Econometrics：Methods and Models[M].Boston：Kluwer Academic,1988.

[4]Cook R D,Weisberg S.Residuals and Influence in Regression[M].New York：Chapman&Hall,1982.

[5]Zhang X,King M L.Influence Diagnostic in Generalized Autoregressive Conditional Heteroscedasticity Process[J].Journal of Business and Economics,2005,(1).

[6]石磊.雙向分類隨機效應套模型中異常值的UMPU檢驗[J].應用概率統(tǒng)計,1997,13(2).

[7]石磊,何利平,黃梅.平衡單向分類隨機效應模型中的多個異常值檢驗[J].數(shù)學物理學報,2007(3).

[8]韋博成,魯國兵,史建清.統(tǒng)計模型診斷[M].南京：東南大學出版社,1992.

[9]王松桂,史建紅,尹素菊,吳密霞.線性模型引論[M].北京：科學出版社,2004.