張景肖,李向杰,郭海明
(1.中國人民大學 a.應(yīng)用統(tǒng)計科學研究中心,b.統(tǒng)計學院,北京 100872;2.常州大學 商學院, 江蘇 常州 213164)
?
HD-SIS超高維數(shù)據(jù)穩(wěn)健變量篩選
張景肖1a,1b,李向杰1a,1b,郭海明2
(1.中國人民大學 a.應(yīng)用統(tǒng)計科學研究中心,b.統(tǒng)計學院,北京 100872;2.常州大學 商學院, 江蘇 常州 213164)
摘要:超高維變量篩選是統(tǒng)計研究的重要問題。提出一種新的變量篩選方法HD-SIS,該方法不需要模型假設(shè),并且對異常值有很強的抵抗能力,具有很好的穩(wěn)健性。在Monte Carlo模擬中,對5種方法進行了比較,即確保獨立篩選法、確保獨立秩篩選法、穩(wěn)健秩相關(guān)系數(shù)篩選法、距離確保獨立篩選法和鞅差相關(guān)系數(shù)確保獨立篩選法。模擬結(jié)果顯示HD-SIS有更優(yōu)良的表現(xiàn)。
關(guān)鍵詞:超高維數(shù)據(jù);穩(wěn)健性;模型釋放;變量篩選
一、引言
超高維數(shù)據(jù)分析是現(xiàn)代統(tǒng)計學研究的熱點和難點,主要由于超高維數(shù)據(jù)的樣本量遠小于變量個數(shù)。為此,F(xiàn)an等基于Pearson相關(guān)系數(shù)提出確保獨立篩選法(Sure Independence Screening,SIS)解決這一問題[1]。但是,SIS也存在一些問題,如:不能發(fā)現(xiàn)非線性關(guān)系,對于異常值比較敏感。為此,很多學者進行了進一步的研究,例如:Hall等提出利用廣義經(jīng)驗相關(guān)系數(shù)進行超高維變量篩選[2],但其對異常值較敏感;Fan等利用邊際回歸研究了非線性模型的變量篩選[3];Fan等利用邊際回歸研究了廣義線性模型的變量篩選[4],而這兩種方法需要具體的模型假設(shè),當模型假設(shè)錯誤時就會造成較大的篩選誤差;Zhu等提出確保獨立秩篩選法(Sure Independent Ranking and Screening,SIRS),研究了模型釋放的超高維數(shù)據(jù)變量篩選[5];Li等基于Kendall相關(guān)系數(shù)提出穩(wěn)健秩相關(guān)系數(shù)篩選法(Robust Rank Correlation Screening,RRCS)[6];Li等基于距離相關(guān)系數(shù)提出距離確保獨立篩選法(Distance Correlation Sure Independence Screening,DC-SIS)[7];Shao等基于鞅差相關(guān)系數(shù)提出鞅差相關(guān)系數(shù)確保獨立篩選法(Martingale Difference Correlation Sure Independence Screening,MDC-SIS)[8];Fan等利用邊際回歸和樣條展開技術(shù)研究可加模型和變系數(shù)模型的超高維變量篩選[9-10];Liu等基于條件相關(guān)系數(shù)研究超高維變系數(shù)模型變量篩選[11];馬學俊提出組確保獨立篩選法[12],該方法是SIS和邊際回歸的延拓,它可以解決組變量的變量篩選問題。
本文主要研究模型釋放的超高維變量篩選方法。所謂模型釋放是指不需要對模型進行假設(shè),但是這并不意味著它能適合所有統(tǒng)計模型。關(guān)于模型釋放的研究主要有RRCS、SIRS、DC-SIS和MDC-SIS等,其中RRCS 利用的是Kendall tau相關(guān)系數(shù),該方法只利用自變量和因變量的聯(lián)合排序信息,而沒有利用它們各自的排序信息。另外,RRCS中的單調(diào)相關(guān)性條件比較強。SIRS主要利用因變量秩的信息將其轉(zhuǎn)換成為多個虛擬變量(Dummy Variable),然后計算這些虛擬變量與自變量的Pearson相關(guān)系數(shù),最后將這些相關(guān)系數(shù)的平方相加。但是,SIRS假設(shè)自變量通過其線性組合來影響因變量,這個線性假設(shè)比較強。DC-SIS和MDC-SIS分別是利用距離相關(guān)系數(shù)和鞅差相關(guān)系數(shù)篩選變量,而距離相關(guān)系數(shù)和鞅差相關(guān)系數(shù)對于異常值比較敏感,所以DC-SIS和MDC-SIS對于異常值不穩(wěn)健。
在本文中,利用Hoeffding’s D統(tǒng)計量,給出了一種新的穩(wěn)健模型釋放篩選方法,即Hoeffding’s D確保獨立篩選法,簡稱HD-SIS。它不僅可以發(fā)現(xiàn)非線性關(guān)系,還對異常值有一定抵抗力。與RRCS相比,HD-SIS不僅利用了自變量和因變量的秩的信息,也利用了它們組合秩的信息,從而利用信息更加充分。與SIRS相比,HD-SIS利用的是自變量的秩的信息,從而更加穩(wěn)健。與DC-SIS和MDC-SIS相比,HD-SIS只是利用秩的信息,沒有涉及到均值計算,從而更加穩(wěn)健。
二、研究方法
(一)Hoeffding’s D
Hoeffding’s D是Hoeffding于1948年提出的[13]。令U和V是隨機變量,它們的聯(lián)合分布函數(shù)是F(u,v),邊際分布分別是F(u,+∞)和F(+∞,v)。Hoeffding’s D統(tǒng)計量是衡量聯(lián)合分布函數(shù)和邊際分布函數(shù)乘積的差,即:
D(u,v)=F(u,v)-F(u,+∞)F(+∞,v)
從D的定義可以看出,兩個隨機變量獨立的充要條件是D等于0。D的絕對值越大,變量越相關(guān)。
其中:
D的估計是:
其中:
從上面公式可以看出,Ci是滿足Ut (二)HD-SIS篩選方法 本文利用Hoeffding’s D對超高維數(shù)據(jù)進行變量篩選,即HD-SIS。Hoeffding’s D可以度量兩個變量之間的關(guān)系,并且這種關(guān)系不僅可以是線性的,還可以是非線性的,所以HD-SIS不涉及具體模型假設(shè),是一種模型釋放的變量篩選方法。從D的估計可以看出,它利用數(shù)據(jù)的秩信息,從而對于異常值有一定的抵抗力,所以HD-SIS對異常值具有穩(wěn)健性。綜上兩個原因,HD-SIS是穩(wěn)健的模型釋放方法。 設(shè)Y是因變量,X=(X1,X2,…,Xp)T是p維的自變量向量。HD-SIS是計算Y與每一個Xk(k=1,2,…,p)的Hoeffding’s D,即: wk=|D(Xk,Y)| 超高維變量篩選的目的是選擇一個規(guī)模適中的子集,即: Μ={1≤k≤n:Xk對Y有影響} 對于HD-SIS,令這個子集的估計是: d的取法沒有比較統(tǒng)一的方法。一般來說,d取[n/log(n)]或n-1。 三、Monte Carlo模擬 下面將進行Monte Carlo模擬,并且將提出的方法與目前已有的5種方法進行比較,即SIS、SIRS、RRCS、DC-SIS和MDC-SIS??紤]如下模型: Y=4X1(X1-1)+3X2+(3X3-1)2+ε其中X={X1,X2,…,Xp}′~N(0,I),I是p×p單位矩陣,誤差項ε來自于標準正態(tài)分布N(0,1)和t(3)。 為了分析各種方法對異常值的影響,在X1隨機添加自由度為1 000的卡方分布的0%,5%,10%的異常值。重復模擬500次。樣本量n設(shè)置為200,自變量個數(shù)p為1 000。本文采用兩種準則來評價方法的優(yōu)劣:其一,r:給定d全部非零自變量被正確選出的比例,其中d1=[n/log(n)],d2=2d1和d3=n-1;其二,S:包含全部非零自變量的最小模型大小。 結(jié)果如表1和表2所示,SIS不能有效地識別非線性關(guān)系,并且對異常值比較敏感。因為不同d的r比較小,75%和95%的S比較大。RRCS、DC-SIS和MDC-SIS雖然是模型釋放方法,但是對于該模擬表現(xiàn)不佳,其中DC-SIS和MDC-SIS對于異常值比較敏感。SIRS表現(xiàn)還可以,但仍不及HD-SIS。因為SIRS的95%的S是HD-SIS的2倍多。綜上所述,HD-SIS表現(xiàn)最好,并且對異常值有很強的抵抗力。本文建議d取[n/log(n)],因為從表1可以看出,它可以保證至少93%的概率包含真實的模型。 表1 不同d的r模擬結(jié)果表 表2 S的25%、50%、75%和95%的模擬結(jié)果表 四、實例分析 下面將HD-SIS方法應(yīng)用于實際數(shù)據(jù)分析,該數(shù)據(jù)是研究小鼠的基因?qū)U張心肌病的影響。這組數(shù)據(jù)由對30個小鼠的觀測值構(gòu)成,其中包含6 319個自變量(基因)和1個因變量。由于每個基因的觀測值的量綱有所差別,所以在計算之前為了消除量綱的影響,需要對原始自變量進行標準化。經(jīng)過簡單的計算,發(fā)現(xiàn)有1 351個自變量存在數(shù)據(jù)點大于3倍的標準差,180個自變量存在數(shù)據(jù)點大于4倍的標準差。由于自變量個數(shù)太多,很難一一對它們的描述統(tǒng)計分析結(jié)果給出展示。本文通過對數(shù)據(jù)進行標準化處理,將30行6 319列的數(shù)據(jù)矩陣拉直成為一個189 570行1列數(shù)據(jù)向量進行描述,其最小值是-5.241,最大值是 5.057。從圖1可以看出,數(shù)據(jù)存在大量的異常值。 圖1 數(shù)據(jù)向量的箱線圖 由于數(shù)據(jù)的維度(基因個數(shù))p遠遠大于樣本量n,所以研究該實例的目的是試圖找出哪一個基因或者哪一些基因?qū)蛋白偶聯(lián)受體的影響較大,Segal等基于微陣列分析方法得到了影響最大的前幾個基因[15]。Li R等用DC-SIS方法也得到了影響最大的前幾個基因[7],結(jié)果見表3。 表3 不同方法對心肌病數(shù)據(jù)研究的結(jié)果表 表3給出了不同方法對心肌病數(shù)據(jù)研究的結(jié)果。從表3中可以看出,對于基因Msa.2877.0和基因Msa.2134.0都可以很好地被選擇出來,并且HD-SIS方法和DC-SIS方法篩選出的結(jié)果也有很多重合,Li R等已經(jīng)論證了DC-SIS的合理性,這也就驗證了HD-SIS的合理性。 五、結(jié)論 本文基于Hoeffding’s D統(tǒng)計量提出了一種新的穩(wěn)健的模型釋放變量篩選方法HD-SIS,該方法不需要對模型進行假設(shè),并且對異常值有很強的抵抗性,相比SIS、SIRS、RRCS、DC-SIS和MDC-SIS,具有一定的優(yōu)勢。模擬結(jié)果顯示HD-SIS優(yōu)于上面的5種方法,根據(jù)Monte Carlo模擬的結(jié)果,我們建議d取[n/log(n)]。 參考文獻: [1]Fan J,Lv J.Sure Independence Screening for Ultrahigh Dimensional Feature Space[J].Journal of the Royal Statistical Society,Ser.B,2008,70(5). [2]Hall P,Miller H.Using Generalized Correlation to Effect Variable Selection in very High Dimensional Problems[J].Journal of Computational and Graphical Statistics,2009,18(3). [3]Fan J,Samworth R,Wu Y.Ultrahigh Dimensional Feature Selection:Beyond the Linear Model[J].Journal of Machine Learning Research,2009(10). [4]Fan J,Song R.Sure Independence Screening in Generalized Linear Models with NP-Dimensionality[J].The Annals of Statistics,2010,38(6). [5]Zhu L,Li L,Li R,Zhu L.Model-Free Feature Screening for Ultrahigh Dimensional Data[J].Journal of the American Statistical Association,2011,106(496). [6]Li G R,Peng H,Zhang J,Zhu L X.Robust Rank Correlation Based Screening[J].The Annals of Statistics,2012,40(3). [7]Li R,Wei Z,Zhu L.Feature Screening via Distance Correlation Learning[J],Journal of the American Statistical Association,2012,107(499). [8]Shao X,Zhang J.Martingale Difference Correlation and Its Use in High-Dimensional Variable Screening[J].Journal of the American Statistical Association,2014,109(507). [9]Fan J,Feng Y,Song R.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Additive Models[J].Journal of the American Statistical Association,2011,106(494). [10]Fan J,Ma Y,Dai W.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Varying Coefficient Models[J].Journal of the American Statistical Association,2014,109(507). [11]Liu J,Li R,Wu S.Feature Selection for Varying Coefficient Models with Ultrahigh-dimensional Covariates[J].Journal of the American Statistical Association,2014,109(505). [12]馬學俊.GSIS超高維變量選擇[J].統(tǒng)計與信息論壇,2015,30(8). [13]Hoeffding W.A Non-parametric Test of Independence[J].The Annals of Mathematical Statistics,1948,19(4). [14]Hollander M,Wolfe D.Nonparametric Statistical Methods[M].New York:Wiley,1973. [15]Segal M R,Dahlquist K D,Conklin B R.Regression Approach for Microarrary Data Analysis[J].Journal of Computational Biology,2003,10(6). (責任編輯:崔國平) 收稿日期:2015-09-25;修復日期:2015-11-19 基金項目:中國人民大學科學研究基金(中央高?;究蒲袠I(yè)務(wù)費專項資金資助)項目(11XNI008) 作者簡介:張景肖,女,河北保定人,理學博士,教授,博士生導師,研究方向: 高維變量選擇; 中圖分類號:O212∶F224.0 文獻標志碼:A 文章編號:1007-3116(2016)04-0009-04 Robust Variable Screening for Ultrahigh Dimensional ZHANG Jing-xiao1a,1b,LI Xiang-jie1a,1b,GUO Hai-ming2 (a.Center for Applied Statistics,b.School of Statistics,1.Renmin University of China,Beijing 100872,China;2.Business School,Changzhou University,Changzhou 213164,China) Abstract:Variable screening is a very important issue in statistics.In this paper,we propose a new screening,HD-SIS,which do not assume specific models,is robust against outliers.We compare with five methods:Sure Independence Screening,Sure Independent Ranking and Screening,Robust Rank Correlation Screening,Distance Correlation Sure Independence Screening and Martingale Difference Correlation Sure Independence Screening.Simulations indicate that the proposed procedure is significantly better than others. Key words:ultrahigh dimensional data; robustness; model-free; variable screening 李向杰,男,河南商丘人,碩士生,研究方向:高維變量選擇; 郭海明,男,江蘇常州人,理學博士,講師,研究方向:信用風險,大數(shù)據(jù)。 【統(tǒng)計理論與方法】