閆 莉,陳 夏
(陜西師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,陜西 西安710119)
?
響應(yīng)變量隨機(jī)缺失下廣義線性模型的經(jīng)驗(yàn)似然
閆 莉,陳 夏*
(陜西師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,陜西 西安710119)
研究響應(yīng)變量隨機(jī)缺失下廣義線性模型的經(jīng)驗(yàn)似然推斷。首先構(gòu)造未知參數(shù)的經(jīng)驗(yàn)似然比函數(shù),并證明其漸近分布為卡方分布;其次得到參數(shù)的若干估計(jì)量并得到了其漸近分布,研究結(jié)果可以直接構(gòu)造參數(shù)的置信區(qū)間或置信域;最后利用模擬計(jì)算驗(yàn)證所提方法的優(yōu)良性質(zhì)。
經(jīng)驗(yàn)似然;廣義線性模型;缺失數(shù)據(jù);置信域
廣義線性模型(GeneralizedLinearModel,GLM)的理論是對線性模型經(jīng)典理論的重要推廣,自從1972年Nelder和Wedderburn引入此模型以來[1],它已應(yīng)用到許多領(lǐng)域。近年來,在實(shí)際應(yīng)用中,帶有缺失數(shù)據(jù)的統(tǒng)計(jì)分析成為研究的熱點(diǎn)問題?;诖?,本文討論響應(yīng)變量隨機(jī)缺失下,GLM的經(jīng)驗(yàn)似然推斷。
經(jīng)驗(yàn)似然方法作為一種非參數(shù)統(tǒng)計(jì)推斷方法由Owen在1988年提出[2-3]。經(jīng)驗(yàn)似然方法在構(gòu)造置信域方面有許多突出的優(yōu)點(diǎn),例如,無需對漸近方差進(jìn)行估計(jì)、置信域的形狀由數(shù)據(jù)自行決定、域保持性、變換不變性、Bartlett糾偏性以及無需構(gòu)造樞軸統(tǒng)計(jì)量等。許多統(tǒng)計(jì)學(xué)者已將經(jīng)驗(yàn)似然方法應(yīng)用到處理各種數(shù)據(jù)的問題[4-13]。在GLM的經(jīng)驗(yàn)似然研究方面,1994年文獻(xiàn)[14]利用擬似然函數(shù)方法討論了GLM的經(jīng)驗(yàn)似然。2006年文獻(xiàn)[15]研究了一種推廣的經(jīng)驗(yàn)似然方法。2011年,文獻(xiàn)[16]考慮了帶有缺失數(shù)據(jù)的GLM的經(jīng)驗(yàn)似然推斷。然而,上述工作均是利用擬似然函數(shù)方法研究經(jīng)驗(yàn)似然問題,即在假定均值函數(shù)和方差函數(shù)都能正確設(shè)定的情形下討論。利用擬似然方程方法,僅在均值函數(shù)有正確設(shè)定的情形下,2014年文獻(xiàn)[17]討論了固定設(shè)計(jì)和自適應(yīng)設(shè)計(jì)情形下GLM的經(jīng)驗(yàn)似然推斷?;谕耆珨?shù)據(jù)方法,文獻(xiàn)[18-19]討論了缺失數(shù)據(jù)下GLM的擬似然估計(jì)和經(jīng)驗(yàn)似然推斷問題。
(1)
考慮響應(yīng)變量yi有缺失的情形,即在模型(1)中得到了不完全樣本{(yi,Xi,δi):1≤i≤n},其中Xi可以觀測,若yi缺失,則δi=0,否則δi=1。這里假定yi是隨機(jī)缺失(Missing at Random, MAR)的情形,即選擇概率為
P(δi=1|yi,Xi)=P(δi=1|Xi)=π(Xi)。
(2)
在缺失數(shù)據(jù)的統(tǒng)計(jì)分析中,MAR是一種常見的假定且在很多實(shí)際應(yīng)用中是合理的[21]。
(3)
把其解定義為β0的極大擬似然估計(jì)(Maximum Quasi-likelihood Estimate, MQLE)。
本文從擬似然方程(3)的觀點(diǎn)出發(fā),討論了響應(yīng)變量隨機(jī)缺失下GLM的經(jīng)驗(yàn)似然推斷。為了處理缺失數(shù)據(jù),提出了未知參數(shù)的兩種類型的經(jīng)驗(yàn)對數(shù)似然比統(tǒng)計(jì)量,并證明了其漸近分布為卡方分布。為了與正態(tài)逼近方法進(jìn)行比較,同時構(gòu)造了未知參數(shù)的兩類估計(jì)量并得到了它們的漸近正態(tài)性。
該工作對已有成果有以下改進(jìn)。第一,利用了擬似然方程方法討論缺失數(shù)據(jù)下GLM的經(jīng)驗(yàn)似然問題,這不同于2011年文獻(xiàn)[16]的工作。文獻(xiàn)[16]利用擬似然函數(shù)方法,即在假定均值函數(shù)和方差函數(shù)都正確設(shè)定的情形下,討論該問題。這里,僅假定均值函數(shù)(1)有正確設(shè)定。第二,文獻(xiàn)[16]討論了隨機(jī)設(shè)計(jì)情形,如前文所述,這可以看作是本文固定設(shè)計(jì)的特例。第三,雖然文獻(xiàn)[19]利用擬似然方程方法討論了缺失數(shù)據(jù)下GLM的經(jīng)驗(yàn)似然,但該文僅利用完全數(shù)據(jù)方法處理缺失數(shù)據(jù),這在缺失率較高的情況下效率可能會降低。本文利用加權(quán)和借補(bǔ)方法以提高經(jīng)驗(yàn)似然推斷的效率。
1.1 基于完全數(shù)據(jù)方法的經(jīng)驗(yàn)似然
(4)
(5)
的解。
1.2 基于加權(quán)方法的經(jīng)驗(yàn)似然
如在節(jié)1.1提到的,可構(gòu)造一個關(guān)于參數(shù)β的加權(quán)經(jīng)驗(yàn)對數(shù)似然比函數(shù)
(6)
這里
如果選擇概率π(·)未知,則上述經(jīng)驗(yàn)似然比函數(shù)ln,W(β)不能直接用于統(tǒng)計(jì)推斷。此時,可用核光滑方法估計(jì)它,在一定的條件下,可以得到估計(jì)的加權(quán)經(jīng)驗(yàn)對數(shù)似然比函數(shù)與此處定義的ln,W(β)有相同的漸近分布。此處討論選擇概率π(·)已知的情形。
1.3 基于借補(bǔ)方法的經(jīng)驗(yàn)似然
(7)
(8)
1.4 主要結(jié)果
(C1) 聯(lián)系函數(shù)μ(t)二階連續(xù)可導(dǎo),選擇概率函數(shù)π(x)有連續(xù)導(dǎo)數(shù),且infxπ(x)>0。
(C3) 存在δ>0,使得
定理2在條件(C1)—(C3)下,有
為了應(yīng)用定理2去構(gòu)造參數(shù)β0的置信域,需要給出Fn和Gn的估計(jì),即
本節(jié)給出幾個模擬例子解釋所提出的方法。通過計(jì)算,發(fā)現(xiàn)所提方法在所構(gòu)造置信區(qū)間的覆蓋率和區(qū)間長度方面的優(yōu)勢。為簡單計(jì),這里僅考慮參數(shù)為一維的情形。
在模型中,取β0=1,μ(t)=et,設(shè)計(jì)變量Xi來自于給定種子的均勻分布U(0,I),使其在模擬中保持不變,模型誤差ei來自于均勻分布U(-1,1)。對于不同的樣本量n=30、60、120基于以下三種選擇概率分別產(chǎn)生2 000個隨機(jī)樣本:
(1) 如果樣本滿足|x-1|≤1,取π1(x)=P(δ=1|x)=0.8+0.2|x-1|, 否則取為0.95。
(2) 如果樣本滿足|x-1|≤4.5,取π2(x)=P(δ=1|x)=0.9-0.1|x-1|,否則取為0.1。
(3) 取π3(x)=0.6對所有x。
以上三種選擇概率對應(yīng)的平均缺失比率分別大約為0.07、0.22和0.4。
表1 參數(shù)β0=1的置信區(qū)間的經(jīng)驗(yàn)覆蓋率Tab.1 Empirical coverage probabilities of the confidence intervals for β0=1
表2 參數(shù)β0=1的置信區(qū)間的平均區(qū)間長度Tab.2 The Average lengths of the confidence intervals for β0=1
由表1和表2,可得到如下結(jié)論:
(ⅰ) 在選擇概率為π2(x)和π3(x)的情形下,IEL方法相比其他幾種方法而言,有較短的區(qū)間長度和較高的覆蓋率。對選擇概率π1(x),IEL有稍長的區(qū)間長度,但有更高的覆蓋率。這表明當(dāng)缺失率較大時,回歸借補(bǔ)方法是必要的。
(ⅲ) 對每一種缺失率而言,當(dāng)樣本量增加時,置信區(qū)間長度會減少而經(jīng)驗(yàn)覆蓋率會增加。而且,缺失率會影響區(qū)間長度和覆蓋率。
以下用c表示正常數(shù),每次出現(xiàn)其值可不同。為了證明主要結(jié)論,首先給出以下引理。
引理1在條件(C1)—(C3)下,有
(9)
(10)
(11)
其中ηi(β0)可取為ηi,W(β0)或ηi,I(β0)。
證明(a) 首先證明引理1對ηi,W(β0)成立。僅證明(9)式,(10)—(11)式的證明類似。易知
其中‖λ‖=1。由中心極限定理和Cramér-Wold定理知,為證明(9)式,只需證明對ε>0,有
(12)
由條件(C2)和(C3)知,
(13)
由條件(C1)和(C3)易知Sn≤cFn,故
(14)
由Cauchy-Schwarz不等式、(13)和(14)式以及條件(C1)—(C3)可得(12)式。因此(9)式得證。
(b) 現(xiàn)證明該引理對ηi,I(β0)成立。計(jì)算可得,
ηi,I(β0)=ηi,W(β0)+
由大數(shù)定律知,
(15)
由此,結(jié)合(a)的結(jié)果可知引理對ηi,I(β0)成立。
定理1的證明由引理1,利用Owen[2-3]提到的方法可以得到本定理的證明。
定理2的證明由條件(C1)—(C3)以及文獻(xiàn)[14]的引理1,可得
注意到引理1的(9)式,定理得證。
在響應(yīng)變量隨機(jī)缺失的情形下,研究了廣義線性模型中的經(jīng)驗(yàn)似然推斷問題。僅在基于均值函數(shù)正確設(shè)定的情形下,利用加權(quán)和借補(bǔ)方法,提出了未知參數(shù)的兩類經(jīng)驗(yàn)對數(shù)似然比統(tǒng)計(jì)量和估計(jì)量,并得到了它們的漸近分布。所得結(jié)果可直接應(yīng)用于統(tǒng)計(jì)推斷。和現(xiàn)有方法相比,本文構(gòu)造的統(tǒng)計(jì)量提高了經(jīng)驗(yàn)似然在構(gòu)造置信域方面的效率,尤其在缺失率較高的時候表現(xiàn)較為明顯。此方法利用一類簡單而重要的擬似然方程進(jìn)行研究,仍需進(jìn)一步改進(jìn),以便能處理更加一般的擬似然方程。
[1] Nelder J A, Wedderburn R W M. Generalized linear models[J]. Journal of the Royal Statistical Society, Series B, 1972, 135(3):370-384.
[2] Owen A B. Empirical likelihood ratio confidence intervals for a single function[J]. Biometrika, 1988, 75(2): 237-249.
[3] Owen A B. Empirical likelihood ratio confidence regions[J]. The Annals of Statistics, 1990, 18(1): 90-120.
[4] Qin J, Lawless J. Empirical likelihood and general estimating equations[J]. The Annals of Statistics, 1994, 22(1):300-325.
[5] Chen S X, Qin Y S. Empirical likelihood confidence intervals for local linear smoothers[J]. Biometrika, 2000, 87(4):946-953.
[6] Wang Q H, Rao J N K. Empirical likelihood-based inference under imputation for missing response data [J]. The Annals of Statistics, 2002, 30(3):896-924.
[7] Zhu L X, Xue L G. Empirical likelihood confidence regions in a partially linear single-index model[J]. Journal of the Royal Statistical Society, Series B, 2006, 68(3):549-570.
[8] Xue L G, Zhu L X. Empirical likelihood for a varying coefficient model with longitudinal data[J]. Journal of the American Statistical Association, 2007, 102(478):642-654.
[9] Xue L G, Zhu L X. Empirical likelihood semiparametric regression analysis for longitudinal data[J]. Biometrika, 2007, 94(4):921-937.
[10] Qin J, Zhang B. Empirical-likelihood-based inference in missing response problems and its application in observational studies[J]. Journal of the Royal Statistical Society, Series B, 2007, 69(1):101-122.
[11] Wang D, Chen S X. Empirical likelihood for estimating equations with missing values[J]. The Annals of Statistics, 2009, 37(1):490-517.
[12] Xue Liugen, Xue Dong. Empirical likelihood for semiparametric regression model with missing response data[J].Journal of Multivariate Analysis, 2011, 102(4):723-740.
[13] Yan Li, Chen Xia. Empirical likelihood for partly linear models with errors in all variables[J]. Journal of Multivariate Analysis, 2014, 130: 275-288.
[14] Kolaczyk E D. Empirical likelihood for generalized linear models[J]. Statistica Sinica, 1994, 4:199-218.
[15] Chen S X, Cui H J. An extended empirical likelihood for generalized linear models[J]. Statistica Sinica, 2006, 13:69-81.
[16] Xue Dong, Xue Liugen, Cheng Weihu. Empirical likelihood for generalized linear models with missing responses[J].Journal of Stastical Planning and Inference,2011, 141(6):2007-2020.
[17] Yan Li, Chen Xia. Empirical likelihood for generalized linear models with fixed and adaptive designs[J]. Statistics, 2014, DOI: 10.1080/02331888.2014.929135.
[18] 閆莉,陳夏.缺失數(shù)據(jù)下廣義線性回歸擬似然估計(jì)的強(qiáng)相合性[J].陜西師范大學(xué)學(xué)報(bào):自然科學(xué)版, 2010, 38(2):15-17.
[19] 閆莉,陳夏.缺失數(shù)據(jù)下廣義線性模型的經(jīng)驗(yàn)似然推斷[J]. 統(tǒng)計(jì)與信息論壇, 2013, 28(2): 14-17.
[20] Chen K, Hu Y, Ying Z. Strong consistency of maximum quasi-likelihood estimators in generalized linear models with fixed and adaptive designs[J]. The Annals of Statistics, 1999, 27(4):1155-1163.
[21] Little R J A, Rubin D B. Statistical analysis with missing data[M].New York: John Wiley & Sons,2002.
[22] 高啟兵, 吳耀華.廣義線性回歸擬似然估計(jì)的漸近正態(tài)性[J].系統(tǒng)科學(xué)與數(shù)學(xué), 2005, 25(6):738-745.
[23] Chen Xia, Chen Xiru. Adaptive quasi-likelihood estimator in generalized linear models[J]. Science China Mathematics, 2005, 48(6):829-846.
[24] Yin Changming, Zhao Lincheng. Asymptotic normality and strong consistency of maximum quasi-likelihood in generalized linear models[J].Science China Mathematics, 2006, 49(2):145-157.
[25] Zhang Sanguo, Liao Yuan. On some problems of weak consistency of quasi-maximum likelihood estimates ingeneralized linear models[J]. Science China Mathematics, 2008, 51(7):1287-1296.
[26] Zhu Chunhua, Gao Qibing. Asymptotic properties in generalized linear models with natural link function and adaptive designs[J]. Advances in Mathematics, 2013, 42(1):121-127.
〔責(zé)任編輯 宋軼文〕
Empirical likelihood for generalized linear models with missing responses
YAN Li, CHEN Xia*
(School of Mathematics and Information Science, Shaanxi Normal University,Xi′an 710119, Shaanxi, China)
The application of the empirical likelihood method to a generalized linear model with missing responses at random is considered. Firstly, a class of empirical likelihood ratios for the unknown parameter are defined such that any ratio in the class is asymptotically chi-squared. Secondly, a class of estimators for the parameter are constructed and the asymptotic distributions of the proposed estimators are obtained. Our results can be used directly to construct confidence intervals and regions for the parameters of interest. Finally, some simulations are conducted to illustrate the proposed methods.
empirical likelihood; generalized linear models; missing data; confidence region
62J12
1672-4291(2015)03-0001-05
10.15983/j.cnki.jsnu.2015.03.131
2014-11-09
國家自然科學(xué)基金資助項(xiàng)目(11201276); 陜西省自然科學(xué)基金資助項(xiàng)目(2014JQ1042); 中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目(GK201503012,GK201503015)
閆莉,女,講師,博士,主要研究方向?yàn)榉菂?shù)統(tǒng)計(jì)。E-mail: lyan@snnu.edu.cn
*通信作者:陳夏,男,副教授。E-mail: xchen80@snnu.edu.cn
O212.1
A