于卓熙, 李夢麗
(吉林財經大學 管理科學與信息工程學院, 吉林省互聯網金融重點實驗室, 長春 130117)
(1)
目前, 關于模型(1)統(tǒng)計推斷問題的研究已有很多結果: 如Fan等[1]對模型(1)的回歸系數提出了兩種估計方法, 并且對模型(1)的變量選擇問題進行了研究; Hu等[2]探討了模型(1)的核和后移擬合方法; 薛留根等[3]利用經驗似然方法給出了模型(1)回歸系數置信區(qū)間的構造; 張濤等[4]利用分塊經驗似然方法, 對模型(1)的回歸系數提出了一種統(tǒng)計推斷方法; 柳長青等[5]基于分塊經驗似然對模型(1)提出了一個簡單有效的檢驗方法. 上述研究均是針對模型(1)的估計和變量選擇問題, 而對其基于經驗似然的變量選擇問題研究目前文獻報道較少. Owen[6-8]提出的經驗似然方法在許多方面都優(yōu)于正態(tài)逼近方法, 如不涉及方差估計、由數據自行決定置信域的形狀及Bartlett可糾偏等. 由于經驗似然有許多類似于參數似然的優(yōu)良性質[9-12], 所以可以考慮運用基于經驗似然的AIC(Akaike information criterion)和BIC(Bayesian information criterion)信息準則進行參數的變量選擇, Variyath等[13]已將基于經驗似然的變量選擇方法用于廣義線性模型等可以由一系列估計方程確定的模型中. 本文基于經驗似然提出一種縱向數據部分線性模型參數部分的變量選擇方法, 并證明其漸近性質. 模擬計算表明, 本文提出的基于經驗似然的AIC和BIC信息準則方法具有良好的模型選擇效果.
假設mi是有界的, 即總體的樣本容量N與個體數n是同階的量. 設Tij(i=1,2,…,n;j=1,2,…,mi)是獨立同分布(i.i.d.)的, 其共同密度f為Lebesgue可測的.
在式(1)兩邊求給定Tij下的條件期望, 并與式(1)兩邊分別相減可得
Yij-E(Yij|Tij)=[Xij-E(Xij|Tij)]Tβ+εij.
(2)
為構造β的經驗似然比函數, 引入輔助變量
其中
(3)
(4)
其中λ=λ(β)是p×1維向量, 且滿足
(6)
令s是{1,2,…,p}的子集, Xij[s]和β[s]分別表示模型(1)中由s確定位置的Xij和β的子向量, 模型(1)的子模型
Yij=(Xij[s])Tβ[s]+θ(Tij)+εij,
(7)
表明只有s確定位置的協變量有顯著影響. 令
這里λ[s]=λ(β[s])是s×1維向量, 滿足
(9)
再定義
l*(s)=inf{l*(β[s]): β[s]}.
(10)
則基于經驗似然的AIC信息準則EAIC(empirical likelihood Akaike information criterion)和BIC信息準則EBIC(empirical likelihood Bayesian information criterion)分別定義為
(11)
這里k是s的基數.
下面用c表示正常數, 在不同之處可表示不同的值. 假設下列條件成立:
(H1) 帶寬滿足h=h0N-1/5, 對某個常數h0>0;
(H2) 核K(·)是對稱的概率密度函數, 且在其支撐集[-1,1]上有界變差;
(H4) 密度函數f(t)在(0,1)上連續(xù)可微, 且存在正的常數d和D, 使得對一切t∈[0,1], 有d≤f(t)≤D;
(H5)θ(t)和μr(t)在(0,1)上二次連續(xù)可微,r=1,2,…,p, 其中μr(t)是μ(t)的第r個分量;
(H6) Γ是一個正定矩陣,
(12)
U=B-1-B-1Γ{ΓTB-1Γ}-1ΓTB-1,
(13)
Xi=(Xi1,…,Ximi)T, Ti=(Ti1,…,Timi)T, μ(Ti)=(μ(Ti1),…,μ(Timi))T,
εi=(εi1,…,εimi)T, Wi=diag(ω(Ti1),…,ω(Timi)).
從而
這里:
可以證明
(14)
由文獻[3]中引理3知
(15)
取an=op(n1/2), 可知
(16)
在上述計算中把矩陣中的元素由其極限代替, 可得
(17)
(18)
對Q1,n+1(β0,0)運用中心極限定理并由Slutsky定理知結論成立.
類似文獻[13]中定理2的證明可得:
類似文獻[13]中定理3的證明可得:
定理3假設定理1的條件成立, 若存在{1,2,…,p}的子模型s0是可識別的, 即當且僅當{1,2,…,p}的任意子集s?s0時,E(U(β[s]))=0對某些β成立, 則EBIC(s)具有相合性, 而EAIC(s)不具有相合性.
為說明如何運用基于經驗似然的準則EAIC與EBIC實現變量選擇, 下面給出變量選擇的算法設計. 算法步驟如下:
1) 給定β[s]的初值β0[s], 令λ0=0, c=0, γc=1, ε=10-8;
3) 如果‖Δ(λc)‖<ε, 則轉6), 否則轉4);
4) 計算δc=γcΔ(λc), 如果R(λc-δc) 5) 更新參數λc+1=λc-δc, c=c+1, γc+1=(c+1)-1/2, 轉2); 7) 應用現有的軟件包關于β[s]最小化l*(β[s]), 最小化結果即為l*(s); 8) 對所有的s計算l*(s), 用式(11)計算EAIC與EBIC, 選擇使EAIC與EBIC達到最小的模型. 為實施模擬, 選擇500個數據集, 每個數據集包含n=100個個體, 且每個體具有mi=3次觀測, 則總觀測數為N=300, 協變量Xij=(X1ij,X2ij,X3ij,X4ij,X5ij)T產生于多元正態(tài)分布, 均值為(0,0,0,3,4), 具有協方差結構cov(Xk,Xl)=(0.5)|k-l|,Tij服從(0,1)上的均勻分布, β=(0.5,0.5,0.6,0,0),θ(Tij)=sin(πTij/2), 誤差εij服從標準正態(tài)分布. 這里核函數取為Epanechnikov核K(u)=0.75(1-u2)+, 權函數ω(t)取為[0.001,0.999]上的示性函數, 帶寬h∝N-1/4. 對500個模擬數據集, 給出下列3種情況下, 模型選擇的正確率(%): 1) 選擇正確模型(TM); 2) 包含正確模型, 但至多有1個冗余變量(TM+1); 3) 包含正確模型, 但至多有2個冗余變量(TM+2). 表1列出了基于AIC與BIC準則的模型選擇正確率及基于EAIC與EBIC準則的模型選擇正確率. 由表1可見, EAIC與EBIC的模型選擇效果優(yōu)于AIC與BIC的模型選擇效果. 表1 不同準則下變量選擇的正確率(%)比較 選擇文獻[15]的數據集, 把EAIC與EBIC應用于縱向癲癇病數據研究. 該數據集由6個變量、236個觀測值組成, 有59名患者, 每個患者被記錄4次, 變量有id(個體識別號)、time(記錄時間: 1,2,3,4周)、counts(癲癇發(fā)作次數)、treat(治療: 0為安慰劑; 1為普羅加比)、bcounts(為期8周的基線癲癇發(fā)作數)、age(年齡), 因變量是計數變量counts. 本文分別用y,x1,x2,x3,x4表示變量counts,time,treat,bcounts,age, 考慮Poisson廣義線性縱向數據模型 lnyij=β0+β1x1ij+β2x2ij+β3x3ij+β4x4ij+εij,i=1,2,…,59,j=1,2,3,4. 研究表明, 變量x2,x4對y的影響不顯著, 應用EAIC與EBIC進行變量選擇, EACI選擇結果包含正確模型, 但有冗余變量x2, 而EBIC選擇了正確模型.3 模擬與應用
3.1 模 擬
3.2 應 用