凌 佳,言方榮
(1.江蘇廣播電視大學(xué),南京 210036;2.中國藥科大學(xué) 數(shù)學(xué)教研室,南京 210009)
線性回歸模型在許多實際問題中得到了廣泛應(yīng)用,通常隨機(jī)誤差項都假設(shè)是正態(tài)白噪聲且具有方差齊性,但在一些復(fù)雜問題中會顯得不太合適。當(dāng)觀測值與時間有關(guān)時,數(shù)據(jù)之間往往存在序列相關(guān),尤其是自相關(guān)性。因此,這時對模型不僅要進(jìn)行異方差檢驗,還要進(jìn)行相關(guān)性的檢驗。對于具有AR(1)誤差的線性模型,Tsai(1986)得到了同時檢驗異方差和相關(guān)性的Score統(tǒng)計量。
對于具有方差齊性的均值漂移模型和數(shù)據(jù)刪除模型,文獻(xiàn)[1]給出了相應(yīng)的估計量、診斷統(tǒng)計量以及二者的等價性證明。對于異方差的條件下的均值漂移模型,文獻(xiàn)[2]得到了有關(guān)的估計量。本文進(jìn)一步推廣和發(fā)展了他們的結(jié)果,首先討論具有AR(1)誤差的均值漂移模型,得到了均值擾動值的Score檢驗統(tǒng)計量,接下來再討論具有AR(1)誤差的數(shù)據(jù)刪除模型,證明了該模型與具有AR(1)誤差的均值漂移模型之間并不具有等價性。最后,通過boq數(shù)據(jù)來說明了分析方法的合理性和有效性。
其中Y=(y1,…yn)T為n維觀察向量,X=(x1,…xn)T為n×p階列滿秩矩陣,di表示一個n維向量,其第i個分量為 1,其他均為零;β=(β0,β1,…,βp-1)T為p維未知參數(shù),γ為擾動值。ε為n維隨機(jī)誤差向量,參數(shù)φ滿足而{at}為一白噪聲序列,為未知參數(shù)。
記參數(shù)θ=(γ,βT,φ,σ2)T,θ0=(0,β,φ,σ2)T。參數(shù)θ與θ0的極大似然估計(MLE)分別記為:
考慮如下假設(shè)檢驗問題:
顯然,若H0成立,則認(rèn)為(yi,xiT)不是異常點;若H0被否定,則認(rèn)為(yi,xiT)為異常點。
引進(jìn)a=(at)n×1,ε=(εt)n×1。n階矩陣:
則a~N(0,σ2In)
其中M-T=(M-1)T。從而具有AR(1)誤差的均值漂移模型中參數(shù)θ的對數(shù)似然函數(shù)為:
定理1 對于模型(1)、(2),假設(shè)檢驗問題(3)的Score檢驗統(tǒng)計量為:
其中M在θ?0處計值。
證明:可求出l(θ)關(guān)于θ的前二階導(dǎo)數(shù)如下:
由此可得:
從而:
證畢.
H0成立時,β,φ,σ2的極大似然估計(MLE)分別為:
推論1若φ=0,則表示方差無自相關(guān),由(6)式可得
(10)式的SCi實際上就是方差齊性時均值漂移模型的均值擾動值的Score檢驗統(tǒng)計量,這與已知結(jié)果吻合。
其中Y(i)、X(i)、ε(i)分別為1中的Y、X、ε去掉第i行而得到的;β=(β0,β1,…,βp-1)T為p維未知參數(shù)。σ2為未知參數(shù)。
引進(jìn)a(i)=(a1,…,ai-1,ai+2,…,an)T(n-2)×1,ε(i)=(ε1,…,εi-1,εi+1,…,εn)T(n-1)×1。矩陣:
M(i)為M去掉第i行,第i+1行,第i列而得到的。則:
下面研究具有AR(1)誤差的均值漂移模型和數(shù)據(jù)刪除模型相應(yīng)的估計量是否相同,即二者是否具有等價性。首先:對于具有AR(1)誤差的均值漂移模型
由Y=Xβ+γdi+ε,兩邊同乘以M得到一個新的模型:
求該模型中的參數(shù)β的LSE就轉(zhuǎn)化為求模型(14)、(15)中的參數(shù)β的LSE。
由[1]中的單參數(shù)附加變量的參數(shù)估計公式可得β的LSE為:
其中Q=I-PMX=I-MX[(MX)TMX]-1(MX)T
其次:對于具有AR(1)誤差的數(shù)據(jù)刪除模型
由Y(i)=X(i)β+ε(i),兩邊同乘以M(i)得到一個新的模型:
求具有AR(1)誤差的數(shù)據(jù)刪除模型中的參數(shù)β的LSE就轉(zhuǎn)化為求以上模型中的參數(shù)β的LSE。
由[1]中的參數(shù)估計公式可得β的LSE為:
矩陣A由n階單位陣去掉第i行和第(i+1)行而得到,矩陣B由n階單位陣去掉第i列而得到。
此時,M(i)=AMB,X(i)=BTX,代入上式經(jīng)過化簡整理可得:
不等式的意義在于得到了在AR(1)誤差的條件下,均值漂移模型和數(shù)據(jù)刪除模型二者不是等價的。
這與文獻(xiàn)[5]中具有異方差的均值漂移模型和數(shù)據(jù)刪除模型二者是等價的結(jié)果是不同的。
由[1]知boq數(shù)據(jù)的方差齊性不太好,如果用通常的線性回歸模型(誤差項服從標(biāo)準(zhǔn)正態(tài)分布),則有好幾個點擬合的效果都不夠理想,同時考慮到誤差項之間可能存在自相關(guān)。此時進(jìn)行異常點的診斷可運用模型(1)。
利用(3)式計算假設(shè)檢驗(2)的Score值如表1:
表1 Score檢驗統(tǒng)計量的值
由表1知SC11=6.5189>χ2(1)=3.841,所以第11號點可能有漂移。事實上,由下面的散點圖可以發(fā)現(xiàn)第11號點確實有漂移,與計算結(jié)果吻合。
由于具有AR(1)誤差的均值漂移模型和數(shù)據(jù)刪除模型二者不是等價的,因此在討論具有AR(1)誤差的線性回歸模型的異常點時,不能像討論具有異方差的線性回歸模型那樣僅僅考慮更便于處理的均值漂移模型。用定理1的Score檢驗統(tǒng)計量進(jìn)行異常點的診斷,經(jīng)過實例分析發(fā)現(xiàn)用該方法進(jìn)行異常點診斷的效果是比較好的。
圖1 方差擾動時的散點圖
[1]韋博成,魯國斌,史建清.統(tǒng)計診斷引論[M].南京:東南大學(xué)出版社,1991.
[2]宗序平,韋博成.線性回歸診斷的若干問題[J].高校應(yīng)用數(shù)學(xué)學(xué)報,1993,(3).
[3]Sanford Weisberg.Applied LinearRegression[M].Chichester:John Wiley&Sons,1985.
[4]R.Dennis Cook,Sanford Weisberg.Diagnostics for Heteroscedasticity in Regression[J].Biometrika,1983,l70(1).
[5]凌佳,夏樂天.具有異方差的線性回歸模型的統(tǒng)計診斷[J].河海大學(xué)學(xué)報,2008,(2).