劉 鋒,胡 悅,康新梅
(重慶理工大學(xué) 理學(xué)院, 重慶 400054)
部分線性模型是20世紀(jì)80年代發(fā)展起來的一類重要的統(tǒng)計(jì)模型,既包含了參數(shù)部分,又包含了非參數(shù)部分。部分線性模型融合了參數(shù)模型和非參數(shù)模型的優(yōu)點(diǎn),可以概括和描述現(xiàn)實(shí)中的許多實(shí)際問題,較單純的參數(shù)模型或非參數(shù)模型具有更大的適應(yīng)性、更強(qiáng)的解釋能力。因此,該模型引起了廣泛的重視和研究,在工業(yè)、農(nóng)業(yè)、經(jīng)濟(jì)、生物統(tǒng)計(jì)等領(lǐng)域得到了廣泛的應(yīng)用。
在實(shí)際問題中,往往由于諸多原因?qū)е聰?shù)據(jù)缺失,比如獲取數(shù)據(jù)花費(fèi)的代價(jià)大、研究個(gè)體由于藥物的副作用而停止試驗(yàn)等。用缺失數(shù)據(jù)擬合模型的統(tǒng)計(jì)推斷已經(jīng)有很多的研究,但是大部分的研究還是在模型的估計(jì)方面。如果用錯(cuò)誤的模型擬合數(shù)據(jù),得到的結(jié)果可能是不合理的,所以關(guān)于模型的檢驗(yàn)具有非常重要的意義。
在回歸模型中,一般假定模型的誤差項(xiàng)εi是相互獨(dú)立的,且具有相同方差的隨機(jī)變量。對(duì)于一個(gè)擬合理想的模型,殘差中不再含有模型的信息,即殘差為白噪聲序列,所以模型的誤差項(xiàng)的獨(dú)立同方差是模型的一個(gè)基本假定。如果模型存在異方差會(huì)導(dǎo)致參數(shù)估計(jì)量非有效,變量的顯著性等檢驗(yàn)失去意義,會(huì)出現(xiàn)模型預(yù)測(cè)失效,甚至模型被誤用等問題。因此,在統(tǒng)計(jì)推斷之前,檢驗(yàn)?zāi)P褪欠窬哂挟惙讲钍欠浅S斜匾摹?/p>
考慮如下部分線性模型:
(1)
其中:β0是p維參數(shù)向量;g(·)是未知函數(shù);{(Xi,Ui,Yi),1≤i≤n}是來自(X,U,Y)的獨(dú)立同分布樣本;εi是隨機(jī)誤差,且?guī)缀跆幪幱蠩(εi|Xi,Ui)=0。 通常假設(shè)Ui的維數(shù)為1。不妨設(shè)Ui∈[0,1],此時(shí)g(·)為定義在[0,1]的未知函數(shù)。
假設(shè)響應(yīng)變量Y是隨機(jī)缺失(MAR)的,即在給定X和U時(shí),Y是否缺失與Y的值條件獨(dú)立。定義δi為指示第i個(gè)個(gè)體的響應(yīng)變量值Yi是否缺失的變量,當(dāng)Yi觀測(cè)到時(shí)δi=1,當(dāng)Yi缺失時(shí)δi=0,MAR缺失機(jī)制表示為P(δ=1|Y,X,U)=P(δ=1|X,U)。 MAR是經(jīng)常使用的缺失機(jī)制之一并且與很多實(shí)際情況基本吻合,可以參考文獻(xiàn)[1]。 假設(shè)得到了模型(1)的一個(gè)隨機(jī)樣本(Yi,δi,Xi,Ui),i=1,2,…,n。
首先估計(jì)參數(shù)β0,將式(1)兩端分別乘以δi可得
再將上式兩端取關(guān)于Ui的條件期望,得
E(δi|Ui=u)g(u)
由此可得
其中:
g1(u)=E(δX|U=u)/E(δ|U=u)
g2(u)=E(δY|U=u)/E(δ|U=u)
那么它們對(duì)應(yīng)的估計(jì)量是
和
(2)
當(dāng)Yi缺失時(shí),用回歸借補(bǔ)的思想對(duì)Yi進(jìn)行補(bǔ)齊,
(3)
下面考慮模型(1)響應(yīng)變量隨機(jī)缺失下的異方差檢驗(yàn)問題。
假定模型的隨機(jī)誤差項(xiàng)εi,i=1,2,…,n,有E(εi)=0,Var(εi)=σ2·mi,其中mi>0,假設(shè)mi滿足下面的函數(shù)形式:
mi=m(zi,γ),i=1,2,…,n
其中mi僅取決于q×1維向量zi和q×1維的未知參數(shù)γ。接下來假定m(·)是關(guān)于γ的可微函數(shù)且存在一個(gè)唯一的γ的特定值γ*使得對(duì)于所有的zi,使得m(zi,γ*)=1。因此檢驗(yàn)?zāi)P?1)的異方差性等價(jià)于檢驗(yàn)下面的假設(shè):
H0:γ=γ*?H1:γ≠γ*
為構(gòu)造經(jīng)驗(yàn)似然比,定義如下估計(jì)方程:
其中:
i=1,2,…,n
上述經(jīng)驗(yàn)似然比函數(shù)不僅含有未知討厭參數(shù)β0,σ2和感興趣的參數(shù)γ,而且還包含未知函數(shù)g1(·),g2(·), 因此L(γ,β0,σ2)不能直接用于統(tǒng)計(jì)推斷。一個(gè)直接的想法是分別利用它們各自的估計(jì)來代替,利用上述所介紹的估計(jì)方法得到它們的估計(jì)量。
代入未知函數(shù)及參數(shù)β0的估計(jì)量,得到估計(jì)函數(shù):
其中
i=1,2,…,n
利用Lagrange乘數(shù)法求得pi的最優(yōu)值為
其中λ為下面方程的解:
所以可以得到
(4)
接下來將通過一些假設(shè)條件,建立經(jīng)驗(yàn)似然的非參數(shù)版本的Wilk’s定理,具體假設(shè)如下:
A3:wnj(t)滿足一階Lipschitz條件;
A4:g(·),g1(·),g2(·)滿足一階Lipschitz條件;
A6:Cov(xi-E(xi|ti))為正定陣;
A7:
且矩陣A11和A22正定。
定理1 在零假設(shè)及假設(shè)條件A1~A7下,當(dāng)n→∞時(shí),l0(γ,σ2)具有自由度為q+1的漸近卡方分布,即
為了處理討厭參數(shù)σ2,定義
l0(γ)
則在上述假設(shè)條件及零假設(shè)下,當(dāng)n→∞時(shí),有[7]
本節(jié)通過數(shù)值模擬來研究本文提出的基于經(jīng)驗(yàn)似然的異方差檢驗(yàn)方法的可行性。
為了簡單起見,考慮如下模型:
核函數(shù)K(·)為Beweight核:
考慮下面4種響應(yīng)變量缺失情形:
情形A:
P(δ=1|X=x)={1/(1+0*exp(x))}
情形B:
P(δ=1|X=x)={1/(1+0.1*exp(x))}
情形C:
P(δ=1|X=x)={1/(1+0.25*exp(x))}
情形D:
P(δ=1|X=x)={1/(1+0.65*exp(x))}
這4種情形下,平均缺失率分別約為:0、0.1、0.2、0.4。樣本量n=100,200,300,各進(jìn)行1 000次模擬,顯著性水平α=0.05。結(jié)果如表1所示。
從表1、2的模擬結(jié)果來看,不論誤差服從正態(tài)分布還是均勻分布,都可以得到比較滿意的結(jié)果。當(dāng)在同一缺失情形下,隨著樣本量的增大,檢驗(yàn)的準(zhǔn)確度隨著提高:在原假設(shè)(γ=0)下,檢驗(yàn)水平(size)逐漸接近顯著性水平0.05;在備擇假設(shè)下,功效(power)逐漸接近于1。但可以看到,在原假設(shè)下,當(dāng)小樣本時(shí),檢驗(yàn)水平(size)偏高,這主要是由于經(jīng)驗(yàn)似然比檢驗(yàn)統(tǒng)計(jì)量是漸近服從卡方分布的。當(dāng)樣本量一定時(shí),隨著缺失率的增大,檢驗(yàn)的準(zhǔn)確性隨著降低,如表2所示,在缺失情形A、B、C、D下,當(dāng)n=300時(shí),在原假設(shè)(γ=0)下,檢驗(yàn)水平分別為0.050 3、0.050 4、0.050 8、0.051 0,隨著缺失率的增大檢驗(yàn)水平增大,但還是能達(dá)到比較滿意的效果。以上模擬結(jié)果可以說明:缺失率越大,即數(shù)據(jù)的完整性越低,檢驗(yàn)的不穩(wěn)定性和不準(zhǔn)確性越大。但是在缺失率增大時(shí),得到的結(jié)果依然比較滿意,這說明運(yùn)用本文提出的方法對(duì)響應(yīng)變量缺失下部分線性模型進(jìn)行異方差檢驗(yàn)的效果是比較好的。
表1 不同缺失情形下經(jīng)驗(yàn)似然比檢驗(yàn)結(jié)果(誤差服從正態(tài)分布)
表2 不同缺失情形下經(jīng)驗(yàn)似然比檢驗(yàn)結(jié)果(誤差服從均勻分布)
為了給出主要結(jié)果的證明,首先給出如下引理。
1) 存在絕對(duì)常數(shù)C1>0,C2>0,使得關(guān)于t∈[0,1]一致地有:
對(duì)充分大的n成立。
2) 存在絕對(duì)常數(shù)C3>0使得關(guān)于s,t∈[0,1]及n≥1一致地有:
那么對(duì)充分大的n有
證明過程見文獻(xiàn)[8]。
注權(quán)ani(t)為隨機(jī)時(shí)結(jié)論依然成立,見文獻(xiàn)[10]。
引理2 在假設(shè)條件A1~A6以及零假設(shè)下,有
證明由假設(shè)A1~A6與引理1即得,見文獻(xiàn)[8]。
引理3 設(shè)
b1≥b2≥…≥bn≥0,
M=max{S1,…,Sn}
則
(5)
為了應(yīng)用Abel不等式,式(5)可變形為
(6)
其中(j1,j2,…,jn)為(1,2,…,n)的任意重排。若序列bi的非負(fù)性限制去掉,有
(7)
對(duì)式(7)的后兩項(xiàng)分別進(jìn)行如式(6)的處理,最后得到:對(duì)任意2個(gè)序列{ai},{bi},總有
(8)
其中(j1,j2,…,jn)為(1,2,…,n)的任意重排。
(9)
證明過程見文獻(xiàn)[9]。
(a)A>0?A22>0,A11.2>0
(b) 若A22>0,則A≥0?A11.2≥0
證明過程見文獻(xiàn)[11]引理3.2.1。
引理6 在零假設(shè)及假設(shè)條件A1~A7下,有
證明首先證明
接下來證明:
又有
由引理2,有
由引理2,式(8)及(9)可得:
其中(j1,j2,…,jn)為(1,2,…,n)的任一置換。因此,Δn2=op(1),Δn3=op(1)。
記ε的i階矩為μi,P(δ=1|X,U)=p,有Ε(ζi)=0及
為正定矩陣。
因此,
當(dāng)n→∞時(shí),從而可得
由上述結(jié)論及條件A5,可得Lindeberg條件成立。由Lindeberg中心極限定理,有
從而由Cramer-Wold方法,有
引理7 在零假設(shè)及假設(shè)條件A1~A7下,有
證明定義
Rn4+Rn5+Rn6-Rn7
由假設(shè)條件A7與引理2,有
接下來考慮Rn3中的一項(xiàng)
由假設(shè)A5、 A7、 引理2以及大數(shù)定理,對(duì)任意q+1維非零向量θ,有
因此,
Rn1=op(1),Rn3=op(1),Rn4=op(1)
Rn5=op(1),Rn6=op(1)
由大數(shù)定理得
從而
同理
再由文獻(xiàn)[4]引理2,有
引理 7得證。
證明類似于文獻(xiàn)[2]。
引理9 在假設(shè)條件A1~A7及零假設(shè)下,有
證明類似于文獻(xiàn)[3]的引理3。
定理1的證明:
由引理8及引理9,將式(4)泰勒展開,可以得到
由引理6~9,文獻(xiàn)[7]中定理3.5,通過簡單的計(jì)算,有
l0(γ,σ2)
最后結(jié)合引理6、引理7,定理得證。具體證明類似于文獻(xiàn)[12]。
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2019年2期