施紅星
(楚雄師范學院初等教育學院,云南 楚雄 675000)
Poisson回歸模型的局部影響分析*
施紅星
(楚雄師范學院初等教育學院,云南 楚雄 675000)
本文討論了Poisson回歸模型的局部影響分析,分別針對方差加權擾動模型、響應變量擾動模型、自變量擾動模型得到了相應的影響矩陣和影響曲率的計算公式,并通過實際例子驗證了本文診斷方法的有效性。
Poisson回歸模型;局部影響;擾動;影響矩陣;影響曲率
統(tǒng)計診斷的主要目的是判斷實際數(shù)據(jù)與既定模型是否存在偏離,并指出影響點,常用的識別方法有數(shù)據(jù)刪除法 (case-deletion)和局部影響分析 (local influence)。數(shù)據(jù)刪除法通過比較刪除數(shù)據(jù)點前后參數(shù)估計的變化大小來度量數(shù)據(jù)點的影響,進而識別影響點。局部影響分析有Cook(1986)[1]從微分幾何觀點提出的曲率準則方法,其基本思想是把模型擾動歸結為似然函數(shù)的擾動,基于似然距離函數(shù)建立影響圖,通過計算影響圖的法曲率來尋找最大影響方向,研究微小擾動的局部影響。近年來,局部影響的方法在許多模型中得到廣泛應用和發(fā)展,如文獻[1,2]系統(tǒng)研究了線性模型的局部影響,文獻[3—5]討論了非線性模型及廣義線性模型的情形,文獻[6—8]將局部影響推廣至半?yún)?shù)非線性模型和半?yún)?shù)廣義線性模型的情形。對于列聯(lián)表數(shù)據(jù)的局部影響分析,文獻[9]有系統(tǒng)的研究。本文討論Poisson回歸模型的局部影響分析。
首先介紹Poisson回歸模型及其極大似然估計。設(yi,)(i=1,2,…,n) 為n個數(shù)據(jù)點,β =(β1,β2,…,βP)T為 p 維未知參數(shù),設 yi服從 Poisson 分布,其概率函數(shù)為:
可知 μi=E(yi)=eθi,vi=Var(yi)=eθi,i=1,2,…,n。
考慮如下模型:
(2)式被稱為Poisson回歸模型,其向量形式為η=log(μ)=Xβ,其中η、μ均為n維向量,其分量分別為 ηi、μi,X=(x1,x2,…,xn)T為 n × p 矩陣,xi=(xi1,xi2,…,xip)T。
設Y=(y1,y2,…,yn)T,記Y關于β的對數(shù)似然函數(shù)為L(β),L(β)關于β的一階和二階導數(shù)分別記為和,則
該公式可形式地表示為加權最小二乘估計的形式:
在實際應用中,取一個合適的初值β0,(6)式的迭代收斂很快。當?shù)諗繒r,假定,則有
這里首先簡要介紹Cook局部影響分析的基本思想。設L(θ)為模型M相應的隨機變量Y=(y1,…,yn)T的對數(shù)似然函數(shù),θ為未知的p維參數(shù)向量,其定義域為RP的某一開子集Θ,ω=(ω1,…,ωq)T表示對模型M產生擾動的向量,其定義域為Rq的某一開子集Ω,受擾動的模型記為M(ω),其相應的對數(shù)似然函數(shù)記為L(θ|ω),L(θ)和L(θ|ω)的極大似然估計分別記為和。假設L(θ|ω)在Θ×Ω上存在二階以上連續(xù)偏導數(shù),并假定存在ω0∈Ω,使得M(ω0)=M對應于無擾動情形,因此有且定義似然距離函數(shù)為。從幾何上看Z=LD(ω)表示(q+1)維空間中的一個q維曲面,用參數(shù)方程的形式表示為:
曲面(8)稱為影響圖,影響圖隨ω變化情況全面刻畫了擾動對模型的影響。由于ω0對應于無擾動模型,因此影響圖在ω0處的變化率反映了原模型對于擾動的敏感程度,稱為局部影響。影響圖(8) 在 ω0處各方向的一階導數(shù)都為零[1,2],Cook(1986)[1]提出借助二階導數(shù),利用曲率來度量影響圖在ω0附近的變化情況。根據(jù)文獻[1,2]可知,(8)定義的影響圖在ω0處沿方向d的影響曲率可表示為:
下面我們針對不同的擾動形式,利用(9)討論Poisson回歸模型的局部影響分析。
假定每個數(shù)據(jù)點yi的方差有擾動,ω=(ω1,…,ωn)T表示描述擾動的n維向量,ω0=(1,…,1)T表示模型無擾動,在此擾動結構下,擾動模型的對數(shù)似然函數(shù)轉化為加權形式
由(10)直接計算,并在(^β,ω0)處計值可得
把上述結果代入(9)得到方差加權擾動模型的影響曲率計算公式為
相應的影響矩陣為F=D(e)X(XTVX)-1XTD(e),最大影響曲率表示為cmax=2λ1,λ1為影響矩陣F的特征值中絕對值最大者,最大影響曲率方向dmax為對應于λ1的特征向量。
響應變量的擾動也是一類常見的擾動形式。設擾動后響應變量為 Yω=Y+ω,ω=(ω1,…,ωn)T表示擾動向量,ω0=(0,…,0)T表示無擾動,在這種擾動形式下,模型的對數(shù)似然函數(shù)為
我們研究一個自變量有擾動的情形。假定第t個自變量受到擾動,即Xt轉化為Xt(ω)=Xt+ ω,其中 ω =(ω1,…,ωn)T,ω0=(0,…,0)T表示無擾動,此時,模型的分量形式化為
模型(12)的對數(shù)似然函數(shù)為
其中l(wèi)t表示第t個分量為1其余分量為0的p維向量,由此得到第t列自變量受到擾動的模型的影響曲率為,影響矩陣為由(14)給出。
我們以文獻[10]中的數(shù)據(jù)為例,利用本文方法進行分析,說明方法的有效性。
數(shù)據(jù)為某醫(yī)院在非氣質性心臟病并且僅有胸悶癥狀的就診者中隨機收集30個患者在24小時中的早搏數(shù)y,研究早搏與吸煙x1、喝咖啡x2和性別x3的關系。
其中y表示24小時內的早搏數(shù),x1=1表示吸煙,x1=0表示不吸煙,x2=1表示喜歡喝咖啡,x2=0表示不喜歡喝咖啡,x3=1表示男性,x3=0表示女性。
對于該實際例子,我們采用前面的回歸模型和算法,通過三次Gauss-Newton迭代算法的計算,得到
表一 參數(shù)估計值
由于本例子的自變量均是啞變量,討論自變量擾動的模型沒有實際意義,因此我們只進行前兩種擾動模型的局部影響分析。在上述參數(shù)估計的基礎上,分別計算基于方差擾動模型和響應變量擾動模型的各樣本點局部影響統(tǒng)計量如下表二。
表二 兩類擾動方式的局部影響統(tǒng)計量結果
由此可知相應的局部影響統(tǒng)計量圖為
從方差擾動的局部影響統(tǒng)計量的折線圖可以發(fā)現(xiàn),第16號,21號,4號是強影響點,其次是第11號,14號和19號,這與廣義Cook距離和得分函數(shù)SCi關于樣本點的變化具有大致相同的趨勢(//[11]);但從響應變量擾動的局部影響統(tǒng)計量來看,則第7號是最強影響點,其次是第1號,第17號和第21號,這與前一種擾動的結果就有很大的不同,也與廣義Cook距離和得分函數(shù)SCi的發(fā)現(xiàn)有很大的不同,值得進一步關注和分析。
[1] Cook R D.Assessment of local influence [J] .J R Statist Soc B,1986,48:133—169.
[2]韋博成,魯國斌,史建清.統(tǒng)計診斷引論 [M].南京:東南大學出版社,1991.
[3]Thomos W,Cook R D.Assessing influence on regression coefficients in generalized linear models [J].Biometrika,1989,76:741—749.
[4] Wei B C.Expenential Family Nonlinear Models[M] .Sinapore:Springer-Verlag,1998.
[5]Green P J,Silverman B W.Nonparametric Regression and Generalized Linear Models[M].London:Chapman and Hall,1994.
[6]朱仲儀,韋博成.半?yún)?shù)非線性模型的統(tǒng)計診斷與影響分析[J].應用數(shù)學學報,2001,24(4):568—581.
[7]曾林蕊,朱仲儀.半?yún)?shù)廣義線性模型的局部影響分析[J].華東師范大學學報(自然科學版),2005,4:18—25.
[8]曾林蕊,朱仲儀.半?yún)?shù)廣義線性隨機效應模型的影響分析[J].數(shù)學物理學報,2007,27A(4):584—593.
[9]何利平,石磊.列聯(lián)表數(shù)據(jù)的局部影響分析 [J].數(shù)學物理學報,2011,31A(2):518—527.
[10]峁詩松.統(tǒng)計手冊 [M].北京:科學出版社,2003.
[11]施紅星.Poisson回歸模型的統(tǒng)計診斷與影響分析 [J].云南師范大學學報 (自然科學版),2009,29(5):34—38.
Local Influence Analysis for Poisson Regression Model
SHI Hong-xing
(School of Primary Education,Chuxiong Normal University,Chuxiong 675000,China)
This paper studies the local influence for Poisson regression model.The counting formulas of influence curvature and influence matrix for case-weights perturbation model,mean shift perturbation model and arguments perturbation model are obtained.Finally the numerical example illustrates that the method is effective.
Poisson regression model;local influence;perturbation;influence matrix;influence curvature.
O212.1
A
1671-7406(2012)06-0005-05
云南省教育廳科研基金項目 (06Y027A);楚雄師院科研基金項目 (05-YJYB01)
2012-02-27
施紅星 (1970—),男,云南楚雄人,副教授,理學碩士,主要研究方向:應用統(tǒng)計。
(責任編輯 李艷梅)