蘇艷云,李開燦
(湖北師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 湖北 黃石 435002)
在實(shí)踐和統(tǒng)計(jì)研究中,線性回歸模型Y=XTθ+e是一類被廣泛使用的模型。但是在許多實(shí)際問題中,響應(yīng)變量Y和自變量X之間可能不滿足這類簡單的線性關(guān)系,因?yàn)樗鼈兊木€性系數(shù)可能隨著其它的協(xié)變量(如時(shí)間、溫度等)而變化。自從Hastie和Tibshirani[1]第一次定義了變系數(shù)模型,它已經(jīng)變成了一種用來探索變量間動(dòng)態(tài)關(guān)系的重要工具,并被廣泛應(yīng)用在經(jīng)濟(jì)學(xué)、政治學(xué)、金融學(xué)等領(lǐng)域。隨著數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展,變系數(shù)模型也是一種用來進(jìn)行高維回歸分析的有用工具。首先我們給出它的一般形式:
Y=XTθ(t)+e
(1)
其中X是一個(gè)p維的協(xié)變量向量,Y是響應(yīng)變量;θ(t)=(θ1(t),……,θp(t))T是一個(gè)p維的未知向量,并且假設(shè)變系數(shù)函數(shù)θk(t),k=1,…,p關(guān)于t是連續(xù)有界的;隨機(jī)誤差e滿足E(e|X,t)=0,并且通常假設(shè)e獨(dú)立同分布;t是可以觀測的協(xié)變量,這里假設(shè)t是一個(gè)單變量,不失一般性設(shè)t∈[0,1].
為了估計(jì)模型(1)中的變系數(shù),我們可以用傳統(tǒng)的非參數(shù)回歸方法:核估計(jì)、樣條逼近、正交級(jí)數(shù)逼近等。應(yīng)用這些方法,模型(1)已經(jīng)被許多學(xué)者研究過,更詳細(xì)的可以參見文獻(xiàn)[1,2,5-7]。在這些文獻(xiàn)中,證明了估計(jì)值的大樣本性質(zhì),結(jié)果表明對模型(1)的估計(jì),這些方法是有效的。另一方面,在模型(1)中,常假設(shè)協(xié)變量X能夠被直接觀測,但在實(shí)際應(yīng)用中,X可能存在隨機(jī)測量誤差,這時(shí)模型(1)就變?yōu)樽兿禂?shù) EV(error-in-variable)模型。此外變系數(shù)模型常用來進(jìn)行時(shí)間序列、縱向數(shù)據(jù),功能數(shù)據(jù)分析等,我們將模型(1)中獨(dú)立的隨機(jī)誤差e拓展為線性平穩(wěn)的時(shí)間序列。現(xiàn)給出本文的變系數(shù)EV模型:
(2)
在本文中,我們假設(shè)隨機(jī)誤差ei是一個(gè)時(shí)間序列,它已經(jīng)被許多學(xué)者研究過,具體可參見文獻(xiàn)[9-11]。在這些文獻(xiàn)中,通過對時(shí)間序列性質(zhì)的討論,得到了相應(yīng)估計(jì)值的漸近性質(zhì)。另一方面,當(dāng)協(xié)變量x的維數(shù)p相當(dāng)大并且真實(shí)的變系數(shù)θ0(t)的部分分量為零或者漸近趨近于零時(shí),為了減少模型的復(fù)雜度、增強(qiáng)模型的預(yù)測能力,我們需要對模型進(jìn)行變量選擇,選出對Y真正有效的變量。自從Fan和Li[3]提出帶有懲罰函數(shù)的變量選擇方法,許多統(tǒng)計(jì)學(xué)家將其應(yīng)用到模型(1)中。Wang和Xia[4]通過結(jié)合局部多項(xiàng)式光滑和收縮估計(jì)的方法,對模型(1)進(jìn)行變量選擇。Zhao和Xue[6]基于樣條函數(shù)逼近和收縮估計(jì),對半?yún)?shù)變系數(shù)部分線性EV模型提出偏差修正的變量選擇方法。Zhao和Xue[7]運(yùn)用同樣的方法對帶有獨(dú)立隨機(jī)誤差ei的模型(2)選擇有效的變量。但是,對帶有相依誤差的變系數(shù)EV模型的變量選擇,卻很少有人研究。本文即是關(guān)于模型(2),對文獻(xiàn)[7]中結(jié)論的一個(gè)推廣。
本文的安排如下:在第一節(jié)中,當(dāng)測量誤差的協(xié)方差矩陣Σuu已知,我們提出了基于樣條函數(shù)逼近和SCAD懲罰函數(shù)的偏差修正的變量選擇方法。在第二節(jié)中,當(dāng)隨機(jī)誤差ei是一個(gè)線性平穩(wěn)時(shí)間序列,在一些合適的正則條件下,我們得到了正則估計(jì)的相合性和最優(yōu)收斂速率,并且所得到的估計(jì)滿足變量選擇稀疏性。在第三節(jié)中,我們給出了漸近結(jié)果的詳細(xì)證明。
記B(t)=(B1(t),…,BL(t)T是M階B樣條基函數(shù),其中L=K+M+1并且K是內(nèi)結(jié)點(diǎn)的個(gè)數(shù)。那么,應(yīng)用B樣條逼近的思想[8],θk(t)能夠被下式逼近
θk(t)≈B(t)Tβk,k=1,…,p
(3)
將(3)式帶入模型(2)中,我們可以得到
(4)
(5)
其中a>2,ω>0,并且pλ(0)=0.
在給出本文的結(jié)論之前,首先給出本文必需的一些正則性條件。為了敘述的簡單和方便,讓C表示正的常數(shù),并且在不同的地方其值可以不同。
C2.t的密度函數(shù),記為f(t),在[0,1]上有限,進(jìn)一步假設(shè)f(t)在(0,1)內(nèi)連續(xù)可導(dǎo)。
C3. 記G1(t)=E{xxT|t},G2(t)=E{(μμT)2|t},并且對所有的t∈[0,1],G1(t)和G2(t)連續(xù),對給定的t,G1(t)和G2(t)是正定陣,它們的特征值有界。
C4. 記s1,…,sK為[0,1]中有序的內(nèi)結(jié)點(diǎn),s0=0,sK+1=1,hi=si-si-1則存在常數(shù)C0使得
C5. 對給定的非零變量ω,滿足
本文對懲罰函數(shù)的要求類似于Fan和Li[3]、Wang和Xia[4]、Zhao和Xue[6][7],并且SCAD懲罰函數(shù)滿足這些約束條件。
為了敘述的簡單和方便,讓θ0(t)表示變系數(shù)θ(t)的真實(shí)值,相應(yīng)β的真實(shí)值記為β0.不失一般性,我們假設(shè)θk0(t)≡0,k=d+1,…,p,并且θk0(t),k=1,…,d是未知的非零部分。本文主要結(jié)論如下:
通過文獻(xiàn)[3]中的注記1,對SCAD閥值懲罰函數(shù),當(dāng)λ→0,有an=0.再結(jié)合定理1和定理2,當(dāng)選擇合適的調(diào)整參數(shù)時(shí),我們的變量選擇是相合的,可以達(dá)到最優(yōu)收斂速率,并且滿足選擇稀疏性,就像真實(shí)系數(shù)的非零部分我們事先已經(jīng)知道了一樣。
(6)
首先,定義△(α)=K-1{Q(β)-Q(β0)},Rk(ti)=θk0(ti)-B(ti)Tβk0,k=1,…,p,并且Zi=Ip?B(ti)·μi,那么R(ti)=(R1(ti),…,Rp(ti))T寫成向量的形式為
R(ti)=θ(ti)-[Ip?B(ti)]T·β
J1+J2+J3+J4+J5+J6+J7
應(yīng)用條件C1-C4和文獻(xiàn)[8]中的Corollary 6.21,我們能夠得到‖R(·)‖=O(K-r).更進(jìn)一步,由于E{Zi|xi,ti}=0,sup1≤t≤1B(t)=O(1)和E{ei|xi,ti}=0,并且
從而選擇足夠大的C,J6在階數(shù)上能夠一致得控制Jv,v=1,…,5,‖α‖=C.再結(jié)合條件C5,對pλ(‖βk‖H)進(jìn)行Taylor展開,可以得到
綜上,當(dāng)‖α‖=C時(shí),J6一致地控制著Jv,v=1,…,5,7.那么,通過選擇足夠大的常數(shù)C,(6)式可以滿足,定理1中的第一個(gè)結(jié)論得以證明。此外,由于
證明定理2:(稀疏性) 定理2的證明可以類似地參考文獻(xiàn)[7],這里我們省略了它的證明。
參考文獻(xiàn):
[1]Hastie T J, Tibshirani R. Varying-coefficient models[J]. J Royal Stat Soc SerB, 1993,55:757~796.
[2]Huang Jiahua Z, Wu Colin O, Zhou Lan. Varying-coefficient models and basis function approximations for theanalysis of the analysis of repeated measurements[J]. Biometrika, 2002,89:111~128.
[3]Fan Jianqing, Li Runze. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Journal of the American Statistical Association, 2001,96:1348~1360.
[4]Wang Hansheng, Xia Yingcun. Shrinkage estimation of the varying coefficient model[J]. Journal of the American Statistical Association, 2009,104:747~757.
[5]崔恒建. 變系數(shù)線性EV模型參數(shù)的調(diào)整加權(quán)最小二乘估計(jì)及其漸近性質(zhì)[J]. 系統(tǒng)科學(xué)與數(shù)學(xué), 2007, 27(1):82~92.
[6]Zhao Peixin, Xue Liugen. Variable selection for semiparametric varying coefficient partially linear error-in-variables models[J].Journal of Multivariate Analysis, 2010,101:1872~1883.
[7]Zhao Peixin, Xue Liugen. Variable selection for varying coefficient models with measurement errors[J]. Metrika, 2011,74:231~245.
[8]Schumaker Larry L. Spline functions[M]. New York:Wiley, 1981.
[9]胡舒合. 誤差為線性時(shí)間序列下的回歸模型[J]. Chinese Annals of Mathematics Series A, 1999, 20(6):733~740.
[10]Cui Hengjian, He Xuming,Zhu Lixing.On regression estimators with de-nosied variables[J]. Statistica Sinica, 2002, 12:1191~1205.
[11]You Jinhong, Chen Min, Chen Gemei. Asymptotic normality of some estimators in a fixed-design semiparametric regression model with linear time series errors[J]. Journal of Systems Science and Complexity, 2004, 17(4):511~522.