• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      懲罰logistic 回歸用于高維變量選擇的模擬評(píng)價(jià)*

      2016-10-26 05:21:01孫紅衛(wèi)楊文越羅文海胡乃寶
      關(guān)鍵詞:高維模擬實(shí)驗(yàn)懲罰

      孫紅衛(wèi) 楊文越 王 慧 羅文?!『藢殹⊥酢⊥?/p>

      ?

      懲罰logistic 回歸用于高維變量選擇的模擬評(píng)價(jià)*

      孫紅衛(wèi)1,2楊文越2王慧1羅文海2胡乃寶2王彤1△

      【提要】目的logistic回歸是生物醫(yī)學(xué)研究中常用的方法,可以進(jìn)行影響因素篩選、概率預(yù)測(cè)、分類等。高通量測(cè)序技術(shù)得到的數(shù)據(jù)給高維變量選擇問題帶來挑戰(zhàn)。懲罰logistic回歸可以對(duì)高維數(shù)據(jù)進(jìn)行變量選擇和系數(shù)估計(jì),且其有效的算法保證了計(jì)算的可行性。方法本文介紹了常用的懲罰logistic算法如LASSO(least absolutes shrinkage and selection operator)、EN(elastic net)、SCAD(smoothly clipped absolute deviation)、MCP(minimax concave penalty)以及SIS(sure independence screening)等,并用模擬數(shù)據(jù)對(duì)各方法進(jìn)行評(píng)價(jià)。結(jié)果(1)各方法的結(jié)果與自變量間的相關(guān)程度有關(guān),不同懲罰logistic回歸的精確性與自變量間的相關(guān)程度有關(guān),如果相關(guān)較高,LASSO或EN的結(jié)果較好,而在相關(guān)較低時(shí),MCP或SCAD結(jié)果較好;(2)結(jié)合SIS的方法傾向于少選變量,誤選率低,但敏感度也低,而LASSO、MCP、SCAD選擇變量較多,誤選率高,但敏感度較高;(3)當(dāng)自變量間低度相關(guān)時(shí),SIS的三種方法結(jié)果非常接近,但相關(guān)較高時(shí),SIS+LASSO的結(jié)果表現(xiàn)較好。結(jié)論采用非小細(xì)胞型肺癌的基因數(shù)據(jù)集進(jìn)行實(shí)例分析,并表明如何根據(jù)模擬實(shí)驗(yàn)的結(jié)論,在多種方法的不同結(jié)果間進(jìn)行選擇。

      高維變量選擇懲罰logistic回歸LASSOMCPSCADSIS

      logistic回歸模型已經(jīng)被廣泛應(yīng)用在生物醫(yī)學(xué)領(lǐng)域,它適用于響應(yīng)變量為分類資料的情況。它通過對(duì)概率進(jìn)行l(wèi)ogit變換,并對(duì)其與協(xié)變量的線性組合建立模型,用來探索影響因素或者預(yù)測(cè)疾病的發(fā)生概率。

      隨著高通量技術(shù)的快速發(fā)展,現(xiàn)在的遺傳學(xué)研究已經(jīng)提供了豐富的數(shù)據(jù)集,用來識(shí)別與疾病(如癌癥、自身免疫性疾病、心臟病和精神疾病等)有關(guān)的遺傳變異[1-3]。這些數(shù)據(jù)共同的特點(diǎn)是變量維數(shù)遠(yuǎn)遠(yuǎn)大于樣本量,所以傳統(tǒng)統(tǒng)計(jì)方法難以進(jìn)行模型選擇和參數(shù)估計(jì);同時(shí)存在著計(jì)算成本大、最優(yōu)化難以實(shí)現(xiàn)等問題[4]。

      對(duì)高維數(shù)據(jù)的研究,通常預(yù)計(jì)只有部分基因位點(diǎn)或SNP與疾病有關(guān),即滿足稀疏性。懲罰回歸方法用來解決高維變量選擇問題,比如LASSO(least absolutes shrinkage and selection operator)[5],SCAD(smoothly clipped absolute deviation)[6],MCP(minimax concave penalty)[7]。很多學(xué)者將其擴(kuò)展到logistic模型中。Shevade 和Keerthi[8]為L(zhǎng)1規(guī)則化logistic回歸提出了一種有效的算法,并將其用于基因篩選研究。Jiang 等[9]用Coordinate Descent算法求解了MCP 懲罰的logistic 回歸。Jiang和Zhang[10]給出了GPLUS算法來計(jì)算SCAD懲罰和MCP懲罰的logistic估計(jì)。

      本文對(duì)目前的高維懲罰logistic方法進(jìn)行介紹,并用數(shù)值模擬的方法來評(píng)價(jià)各種高維logistic模型的優(yōu)劣。運(yùn)用一個(gè)非小細(xì)胞型肺癌的實(shí)際案例,篩選出可能影響其五年生存率的基因位點(diǎn),為下一步的研究作參考。

      logistic回歸模型的介紹

      設(shè)響應(yīng)變量Y為二分類資料,yi~B(1,πi),i=1,2,…,n,即共有n個(gè)觀測(cè),影響πi的有p個(gè)自變量x1,x2,…,xP。

      懲罰logistic回歸方法

      1.橋回歸、嶺回歸、LASSO懲罰模型、EN模型

      Frake和Friedman[11](1993)提出了橋回歸??芍苯訉蚧貧w推廣到logistic回歸模型。橋回歸logistic模型的目標(biāo)函數(shù):-(g(X,β),Y)+λ‖β‖q。

      橋回歸又稱Lq懲罰模型,參數(shù)估計(jì)式中‖β‖q為懲罰項(xiàng),λ為調(diào)整參數(shù),常常用AIC、BIC或者交叉驗(yàn)證等準(zhǔn)則確定最合適的λ值。當(dāng)λ=0時(shí),即不對(duì)原有的模型做懲罰,隨著λ的增大,原模型的懲罰力度會(huì)越來越大,則被選入的變量越來越少。當(dāng)0

      其中除嶺回歸在零點(diǎn)不存在奇異性,LASSO、EN和末稀疏模型的懲罰項(xiàng)在零點(diǎn)均存在奇異性,正是由于這三種方法的懲罰項(xiàng)在零點(diǎn)的導(dǎo)數(shù)不存在,所以將接近于零的系數(shù)壓縮為零(壓縮范圍由調(diào)整參數(shù)λ決定),從而實(shí)現(xiàn)模型的稀疏性假定。

      圖1 橋回歸不同懲罰下的估計(jì)系數(shù)

      Fan和Li(2001)[6]提出評(píng)判模型選擇優(yōu)劣的標(biāo)準(zhǔn),即Oracle的三個(gè)性質(zhì):(1)稀疏性:模型選擇中對(duì)參數(shù)的估計(jì)應(yīng)自動(dòng)實(shí)現(xiàn)系數(shù)的稀疏性,將一些不重要的變量的系數(shù)壓縮為零。(2)無偏性:估計(jì)的參數(shù)值應(yīng)該是無偏的或者近似無偏的。(3)連續(xù)性:參數(shù)估計(jì)與對(duì)應(yīng)的數(shù)據(jù)應(yīng)該是連續(xù)的,從而避免模型擬合的偏差與預(yù)測(cè)的不穩(wěn)定性。

      從圖1可知,當(dāng)q=0.1時(shí)即末稀疏模型,類似于最優(yōu)子集選擇(q=0),系數(shù)較小時(shí)壓縮為0,滿足稀疏性,系數(shù)較大時(shí)不進(jìn)行壓縮,滿足無偏性,但不滿足oracle性質(zhì)中的連續(xù)性,即在不連續(xù)點(diǎn)的估計(jì)系數(shù)會(huì)不穩(wěn)定;當(dāng)q=1時(shí)即LASSO模型不滿足Oracle性質(zhì)中的無偏性,但滿足稀疏性和連續(xù)性;當(dāng)q=2即嶺回歸,不滿足Oracle中的無偏性和稀疏性,滿足連續(xù)性;EN模型介于LASSO和嶺回歸之間,滿足稀疏性,但是同樣的λ下壓縮為0的范圍小于LASSO,同樣不滿足Oracle性質(zhì)中的無偏性。

      2.SCAD懲罰模型和MCP懲罰模型

      Fan 和Li[6](2001)提出了非凹懲罰似然的方法SCAD(smoothly clipped absolute deviation)來選擇變量,Zhang[7](2007)提出了MCP(minimax concave penalty)方法,MCP方法和SCAD方法類似,具備SCAD的優(yōu)點(diǎn),滿足Oracle的三個(gè)性質(zhì)。

      SCAD懲罰函數(shù):

      MCP懲罰函數(shù):

      MCP懲罰用于logistic回歸的目標(biāo)函數(shù):

      如圖2所示,SCAD和MCP這兩種方法,在自變量系數(shù)較小時(shí),都被壓縮為零;自變量系數(shù)很大時(shí),不進(jìn)行壓縮,這些自變量系數(shù)是無偏的;介于二者之間時(shí),都進(jìn)行部分壓縮,以保證連續(xù)性。SCAD和MCP滿足Oracle的三個(gè)性質(zhì)。MCP是在所有滿足無偏性條件的懲罰函數(shù)中,擁有最小最大凸性,有很好的理論性質(zhì),比如不需要很強(qiáng)的不可代表?xiàng)l件(LASSO所需要的),就可證明以很高的概率能夠正確選擇變量[7]。

      圖2 SCAD 和MCP的估計(jì)系數(shù)

      3.SIS方法

      Fan and Lv(2007)[13]提出了SIS(sure independence screening)方法,通常用于超高維的情況下,它可以快速地從超高維降到高維。該方法基本原理如下:

      令W={1≤i≤p∶βi≠0}為真實(shí)的稀疏模型,令d=(d1,…,dp)T;通過如下方式得到p維回歸變量:d=XTy。對(duì)任意給定的0<γ<1建立子模型:

      Wγ={1≤i≤p∶di為前|γn|相關(guān)性最大的子集}

      在子模型中我們選取與響應(yīng)變量有關(guān)聯(lián)的|γn|個(gè)自變量,由此一來就可以將模型從p維降到|γn|維。在將超高維數(shù)據(jù)利用SIS降到高維后,可以利用上述方法如LASSO,MCP,SCAD等方法對(duì)模型進(jìn)行懲罰回歸。

      模擬實(shí)驗(yàn)設(shè)計(jì)

      1.模擬設(shè)計(jì)

      在利用R軟件實(shí)現(xiàn)各種情況的模擬實(shí)驗(yàn)設(shè)計(jì)后,采用glmnet軟件包實(shí)現(xiàn)LASSO,EN,嶺回歸;利用ncvreg軟件包實(shí)現(xiàn)MCP,SCAD。利用SIS軟件包實(shí)現(xiàn)SIS+LASSO,SIS+MCP,SIS+SCAD。懲罰參數(shù)λ的選取采用交叉驗(yàn)證。

      2.評(píng)價(jià)指標(biāo)FDR、PSR、RMSPE、RMSE

      FDR(false discovery rate)和PSR(positive select rate)自1995年被Benjamini和Hochberg提出以來,被廣泛研究,特別是在高維數(shù)據(jù)回歸建模和復(fù)雜數(shù)據(jù)的多重比較領(lǐng)域有很好的應(yīng)用[14]。

      其中FP(falsepositive)表示假陽性的個(gè)數(shù),即在真實(shí)模型中的系數(shù)是零,但是被估計(jì)成非零。TP(truepositive)表示真陽性的個(gè)數(shù),即在真實(shí)模型中的系數(shù)是非零,估計(jì)的結(jié)果也是非零的個(gè)數(shù)。m為真實(shí)模型中非零系數(shù)的個(gè)數(shù)。FDR的意義是估計(jì)為非零的系數(shù)中假陽性占的比例。PSR的意義是真實(shí)模型中非零系數(shù)中真陽性占的比例。一般而言,F(xiàn)DR越接近于0,PSR越接近于1,說明該選擇方法越好。

      模擬實(shí)驗(yàn)結(jié)果

      1.模擬實(shí)驗(yàn)1p=150,n=100,自變量間最大相關(guān)系數(shù)r=0.2,見表1。

      表1 p=150且自變量間低度相關(guān)時(shí)五種方法的比較結(jié)果

      當(dāng)自變量最大、相關(guān)系數(shù)較小時(shí),MCP在FDR,PSR,RMPSE和RMSE四個(gè)方面均表現(xiàn)較好,即誤選率最低,預(yù)測(cè)準(zhǔn)確性最好,估計(jì)系數(shù)準(zhǔn)確性最高,選取了67.41%的真實(shí)變量。嶺回歸由于沒有進(jìn)行變量選擇,所以FDR接近于1。EN和LASSO的表現(xiàn)相似,F(xiàn)DR要大于MCP,而PSR卻低于MCP。SCAD預(yù)測(cè)誤差和參數(shù)估計(jì)誤差都較低,但是FDR較高。

      2.模擬實(shí)驗(yàn)2p=150,n=100,自變量間最大相關(guān)系數(shù)r=0.8,見表2。

      表2 p=150且自變量間高度相關(guān)時(shí)五種方法的比較結(jié)果

      當(dāng)自變量最大相關(guān)系數(shù)較大時(shí),EN和LASSO在FDR、PSR和RMSE均表現(xiàn)均較好,誤選率較低,且能選出60%以上的真實(shí)變量,估計(jì)系數(shù)的準(zhǔn)確性也較好。MCP和SCAD在RMSPE方面表現(xiàn)優(yōu)于其他三種方法,即預(yù)測(cè)準(zhǔn)確性方面較好。綜合四個(gè)指標(biāo)來看,EN和LASSO方法表現(xiàn)最好。

      3.模擬實(shí)驗(yàn)3n=200,p=1000,自變量間最大相關(guān)系數(shù)r=0.2,見表3。

      表3 p=1000且自變量間低度相關(guān)時(shí)六種方法的比較結(jié)果

      當(dāng)自變量間最大相關(guān)系數(shù)較小時(shí),SIS+MCP、SIS+SCAD和SIS+LASSO 三種方法與LASSO、MCP和SCAD三種方法相比較,其FDR比較小,即誤選率比較低,PSR比較低,即選出的真實(shí)變量比較少。SIS+MCP、SIS+SCAD和SIS+LASSO傾向于少選變量,而LASSO、MCP、SCAD則傾向于多選變量。其中MCP的FDR較低,SCAD其次,LASSO的FDR較高,RMSPE指標(biāo)和RMSE指標(biāo)上,MCP和SCAD的表現(xiàn)好于LASSO。所以在自變量間相關(guān)較小時(shí),如果傾向于誤選率低,那么采用SIS+MCP和SIS+SCAD,如果傾向于盡可能多地選出真實(shí)變量,且預(yù)測(cè)的準(zhǔn)確性較高,估計(jì)系數(shù)的準(zhǔn)確性較好,則應(yīng)該選擇SCAD和MCP。

      4.模擬實(shí)驗(yàn)4n=200,p=1000,自變量間最大相關(guān)系數(shù)r=0.8,見表4。

      當(dāng)自變量間最大相關(guān)系數(shù)較大時(shí),SIS的三個(gè)方法FDR較低,其中SIS+LASSO的FDR最低,且PSR最高,表現(xiàn)較好,LASSO的表現(xiàn)要好于MCP和SCAD。SIS+LASSO與LASSO相比,SIS+LASSO的FDR較低,而LASSO的PSR較高,這是由于SIS的方法傾向于少選變量,而LASSO的方法傾向與多選變量。所以當(dāng)自變量間最大相關(guān)系數(shù)較大時(shí),如果傾向于少選變量,誤選率低,可以用SIS+LASSO,如果傾向于盡可能多地選出真實(shí)變量則應(yīng)選擇LASSO。

      表4 p=1000且自變量間高度相關(guān)時(shí)六種方法的比較結(jié)果

      綜上,自變量最大相關(guān)系數(shù)較小時(shí),可結(jié)合SIS+MCP或者SIS+SCAD與MCP或者SCAD相結(jié)合分析;自變量最大相關(guān)系數(shù)較大時(shí)可結(jié)合LASSO和SIS+LASSO分析。

      實(shí)例分析

      本文采用Sandy D.Der et al[16]關(guān)于非小細(xì)胞型肺癌(non-small cell lung cancer,NSCLC)的數(shù)據(jù),其中包含181例I期和II期病人,共50248個(gè)基因位點(diǎn)的表達(dá)水平數(shù)據(jù),以病人五年生存率作為響應(yīng)變量。

      首先求得該數(shù)據(jù)集前5000個(gè)基因之間的相關(guān)矩陣,并求出每個(gè)變量與其他變量的最大相關(guān)系數(shù),相關(guān)系數(shù)的描述見表5和圖5。

      表5 肺癌數(shù)據(jù)5000個(gè)基因表達(dá)之間最大相關(guān)系數(shù)的統(tǒng)計(jì)描述

      圖3 肺癌基因數(shù)據(jù)5000基因表達(dá)之間最大相關(guān)系數(shù)的分布

      從最大相關(guān)系數(shù)的分布來看,基因表達(dá)之間的最大相關(guān)系數(shù)較高,以0.57為中心對(duì)稱分布,最大相關(guān)系數(shù)大于0.5的比例達(dá)到68.26%,而最大相關(guān)系數(shù)大于0.6的比例達(dá)到38.26%。由于維數(shù)p=50248,LASSO、MCP和SCAD等無法處理超高維數(shù)據(jù),而SIS的方法是先降維后,再用LASSO、MCP和SCAD等方法進(jìn)行變量選擇,所以本實(shí)例分析中采用SIS+LASSO、SIS+MCP和SIS+SCAD三種方法分別對(duì)肺癌基因數(shù)據(jù)進(jìn)行分析,計(jì)算其RMSPE以及AUC(area under curve)來衡量它們的預(yù)測(cè)結(jié)果。

      表6 SIS的三種方法預(yù)測(cè)肺癌基因數(shù)據(jù)的RMSPE和AUC

      由表6可以看到,SIS+LASSO的預(yù)測(cè)誤差稍高。SIS的三種方法的預(yù)測(cè)效果很好,AUC均達(dá)到了0.8以上,SIS+MCP和SIS+SCAD達(dá)到了0.83以上。

      但由模擬實(shí)驗(yàn)的結(jié)果看出,SIS+LASSO的預(yù)測(cè)誤差通常稍大,但是變量選擇的FDR和PSR卻在自變量相關(guān)較大時(shí)表現(xiàn)較好,所以不能僅通過預(yù)測(cè)性能的高低來判斷變量選擇的準(zhǔn)確性。

      表7 不同方法篩選的基因個(gè)數(shù)和基因列表

      從SIS三種方法篩選出的基因列表(表7)可以看到,三種方法都篩選出了8個(gè)基因位點(diǎn),且其中5個(gè)基因位點(diǎn)都是相同的,分別是探針集205433_at,217045_x_at,226476_s_at,234490_at,240078_at。這些探針集對(duì)應(yīng)的基因很可能與Ⅰ、Ⅱ期非小細(xì)胞型肺癌的五年生存率有關(guān)。有2個(gè)探針集228748_at,236391_at是其中兩種方法共同篩選出的基因。

      從對(duì)肺癌數(shù)據(jù)的相關(guān)性分析知,基因之間存在較大的相關(guān)性,所以通過模擬實(shí)驗(yàn)的結(jié)果知,SIS+LASSO的FDR較低,PSR較高,這樣SIS+LASSO篩選出的基因位點(diǎn)很可能與I、II期非小細(xì)胞型肺癌的五年生存率有關(guān)。

      這些方法篩選出的基因位點(diǎn),可以作為候選的基因,但這些結(jié)果僅僅說明這些候選基因與五年生存率存在相關(guān),不一定存在因果關(guān)系,所以需要進(jìn)一步從專業(yè)意義上進(jìn)行驗(yàn)證。

      討  論

      近年來,生物信息數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用,生物醫(yī)學(xué)中常見的響應(yīng)變量是分類資料,比如通過病例對(duì)照研究或隊(duì)列研究,來探索與疾病相關(guān)的基因位點(diǎn)或SNP等。但是,高維變量選擇方法用于logistic回歸方面的研究較少。本文對(duì)用于高維數(shù)據(jù)變量選擇的懲罰logistic方法進(jìn)行了比較,得出了以下結(jié)論:

      不同懲罰logistic回歸的表現(xiàn)與自變量間的相關(guān)程度有關(guān),如果相關(guān)較高,LASSO或EN的結(jié)果較好,而在相關(guān)較低時(shí),MCP或SCAD結(jié)果較好,MCP的估計(jì)誤差較低,SCAD的預(yù)測(cè)誤差較低。結(jié)合SIS的方法傾向于少選變量,誤選率低,但敏感度也低,而LASSO、MCP、SCAD選擇變量較多,誤選率高,但敏感度較高。當(dāng)自變量間低度相關(guān)時(shí),SIS的三種方法結(jié)果非常接近,但相關(guān)較高時(shí),SIS+LASSO的結(jié)果表現(xiàn)較好。

      就像文獻(xiàn)[17]所揭示的,LASSO懲罰(q=1)通過對(duì)相關(guān)的變量比較平等對(duì)待,而不像最優(yōu)子集選擇(q=0),一旦一個(gè)很強(qiáng)的變量進(jìn)入了,它就會(huì)排除其他相關(guān)的變量。MCP和SCAD等懲罰介于LASSO懲罰和最優(yōu)子集選擇之間,所以相對(duì)于LASSO,會(huì)傾向于排除其他相關(guān)的變量。當(dāng)自變量相關(guān)較高的時(shí)候,特別是相關(guān)較高的變量都是重要變量,LASSO會(huì)傾向于全選出來,而MCP等方法,當(dāng)一個(gè)很強(qiáng)的變量被選入后,其他相關(guān)的重要變量就很難進(jìn)入模型。所以當(dāng)自變量相關(guān)較高時(shí),且相關(guān)的變量都是重要變量時(shí),LASSO的結(jié)果會(huì)較好。在實(shí)際數(shù)據(jù)分析時(shí),要根據(jù)自變量間的相關(guān)性,選取性能較好的方法來進(jìn)行變量選擇或概率預(yù)測(cè)。

      本文的結(jié)論可以用來對(duì)高維logistic變量選擇方法的選用提供參考,但仍然存在一些不足。例如懲罰參數(shù)的選取只采用交叉驗(yàn)證,沒有考慮采用AIC、BIC、EBIC等方法來調(diào)整參數(shù),這有待后面的研究進(jìn)一步解決。

      [1]Cai T,Lin X,Carroll RJ.Identifying genetic marker sets associated with phenotypes via an efficient adaptive score test.Biostatistics,2012,13(4):776-790.

      [2]Zhu J,Hastie T.Classification of gene microarrays by penalized logistic regression.Biostatistics,2004,5(3):427-443.

      [3]Risch N,Merikangas K.The future of genetic studies of complex human diseases.Science,1996,273(5281):1516-1517.

      [4]李根,鄒國(guó)華,張新雨.高維模型選擇方法綜述.數(shù)理統(tǒng)計(jì)與管理,2012,31(4):641-651.

      [5]Tibshirani R.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society.Series B(Methodological),1996,58(1):267-288.

      [6]Fan J,Li R.Variable selection via non concave penalized likelihood and its oracle properties.Journal of the American Statistical Association,2001,96(4):1348-1360.

      [7]Zhang CH.Penalized linear unbiased selection.Technical Report,2007,52(17):374-393.

      [8]Shevade SK,Keerthi SS.A simple and efficient algorithm for gene selection using sparse logistic regression.Bioinformatics,19(17):2246-2253.

      [9]Jiang D,Huang J,Zhang Y.The cross-validated AUC for MCP-logistic regression with high-dimensional data.Stat Methods Med Res,2013,22(5):505-518

      [10]Jiang W,Zhange CH.Path following algorithm for penalized logistic regression using SCAD and MCP.Communications in Statistics-Simulation and Computation,2014,43(5):1064-1077.

      [11]Frank I,Friedman J.A statistical view of some chemometrics regression tools.Technometrics,1993,35:109-148.

      [12]Zou H,Hastie T.Regularization and variable selection via the elastic net.Journal of the Royal Statistical Society:Series B(Statistical Methodology),2005,67(2):301-320.

      [13]Fan J,Lv J.Sure independence screening for ultra-high dimensional feature Space.Journal of the Royal Statistical Society Series B,2007,70(4):849-911.

      [14]李瑞.SNP定位的一種降維及變量選擇方法.合肥:中國(guó)科技大學(xué),2011.

      [15]Alfons A,Croux C,Gelper S.Sparse least trimmed squares regression for analyzing high-dimensional large data sets.The Annals of Applied Statistics,2013,7(1):226-248.

      [16]Der SD,Sykes J,Pintilie M,et al.Validation of a histology-independent prognostic gene signature for early-stage,non-small-cell lung cancer including stage IA patients.J Thorac Oncol,2014,9(1):59-64.

      [17]Mazumder R,F(xiàn)riedman J,Hastie T.SparseNet:Coordinate Descent With Nonconvex Penalties.Journal of the American Statistical Association,2011:1125-1138.

      [18]閆麗娜,覃婷,王彤.LASSO方法在Cox回歸模型中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(1):58-60,64.

      [19]覃婷,閆麗娜,王彤.基于腫瘤患者高維生物信息的生存預(yù)測(cè).中國(guó)衛(wèi)生統(tǒng)計(jì),2011,28(1):101-103,105.

      [20]張秀秀,王慧,田雙雙,等.高維數(shù)據(jù)回歸分析中基于LASSO的自變量選擇.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):922-926.

      (責(zé)任編輯:鄧妍)

      國(guó)家自然科學(xué)基金資助(81473073),國(guó)家自然科學(xué)基金青年基金(81502891)

      王彤,E-mail:wtstat@21cn.com

      1.山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(030001)

      2.濱州醫(yī)學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室

      猜你喜歡
      高維模擬實(shí)驗(yàn)懲罰
      神的懲罰
      小讀者(2020年2期)2020-03-12 10:34:06
      斷塊油藏注采耦合物理模擬實(shí)驗(yàn)
      Jokes笑話
      一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
      懲罰
      趣味(語文)(2018年1期)2018-05-25 03:09:58
      基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
      輸氣管道砂沖蝕的模擬實(shí)驗(yàn)
      一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
      射孔井水力壓裂模擬實(shí)驗(yàn)相似準(zhǔn)則推導(dǎo)
      真正的懲罰等
      赫章县| 泰兴市| 宁津县| 天水市| 乌审旗| 桃江县| 长顺县| 霍州市| 永寿县| 东辽县| 靖边县| 讷河市| 望谟县| 松原市| 宁陕县| 嘉兴市| 荣昌县| 博湖县| 桦南县| 天台县| 云安县| 岳普湖县| 宁晋县| 保山市| 关岭| 白山市| 崇左市| 肇庆市| 凤山县| 乡城县| 邻水| 宁城县| 盱眙县| 建平县| 昌乐县| 泗阳县| 定远县| 秦皇岛市| 正定县| 日喀则市| 屯昌县|