許樹紅 董曉強(qiáng) 陶 然 高 雪 高 倩 虞明星 王 彤△
【提 要】 目的 基于LASSO-Cox模型探索交叉驗(yàn)證(cross validation)、pcvl法(penalized cross-validated log-likelihood)、EBIC準(zhǔn)則(extended bayesian information criterion)、平穩(wěn)選擇(stability selection)四種方法在控制FDR(false discovery rate)方面的表現(xiàn)及其變量選擇效果。方法 通過模擬研究評(píng)價(jià)各方法在不同刪失比例、自變量間不同相關(guān)程度以及回歸系數(shù)的不同稀疏水平下的FDR和PSR(positive select rate),并從GEO上下載DLBCL數(shù)據(jù)進(jìn)行基因與預(yù)后間的關(guān)聯(lián)分析。結(jié)果 模擬結(jié)果表明,在不同刪失比例、自變量相關(guān)程度和稀疏水平的情況下,平穩(wěn)選擇法控制FDR的能力都優(yōu)于其他方法且其變量選擇效能也較高。EBIC準(zhǔn)則在相關(guān)程度低、自變量較稀疏時(shí)表現(xiàn)較好,當(dāng)樣本量較小時(shí)結(jié)果較保守。pcvl法雖然不容易漏掉有效應(yīng)的變量,但其FDR仍較高。實(shí)例結(jié)果顯示,EBIC準(zhǔn)則只選出1個(gè)基因,平穩(wěn)選擇法選出的基因中大部分有統(tǒng)計(jì)學(xué)意義且與其他方法的結(jié)果重合度高。結(jié)論 在基于LASSO-Cox模型的高維數(shù)據(jù)生存分析中平穩(wěn)選擇法能較好地控制FDR且其變量選擇效能也較高。
LASSO(least absolute shrinkage and selection operator)作為一種常用的懲罰類方法,在GWAS研究、測序數(shù)據(jù)分析中應(yīng)用廣泛且發(fā)展迅速,其中心思想是將模型系數(shù)的絕對(duì)值函數(shù)作為懲罰項(xiàng)對(duì)模型中變量的系數(shù)進(jìn)行壓縮,使得一些弱效應(yīng)變量的系數(shù)變小,甚至被壓縮為0,以提供一個(gè)稀疏解[1]。LASSO類方法通過直接估計(jì)不為零的回歸系數(shù)來實(shí)現(xiàn)變量選擇,它不同于經(jīng)典的逐步回歸,并沒有采用假設(shè)檢驗(yàn)的步驟,并且其變量選擇和參數(shù)估計(jì)的結(jié)果在很大程度上受調(diào)整參數(shù)的影響,然而調(diào)整參數(shù)的傳統(tǒng)選擇方法如交叉驗(yàn)證法和信息準(zhǔn)則法,在選擇調(diào)整參數(shù)時(shí)主要考慮模型的擬合以及模型的復(fù)雜程度,亦未考慮Ⅰ類錯(cuò)誤估計(jì)和控制問題。目前已有研究者指出LASSO類方法存在較高的假陽性問題[2-3],因此,如何在控制或降低假陽性的前提下,選擇合適的調(diào)整參數(shù)從而選出正確的模型尤為重要。
目前已有一些研究在多重校正以及LASSO類方法的基礎(chǔ)上,發(fā)展了一些控制Ⅰ類錯(cuò)誤同時(shí)篩選出正確變量的方法[4]。FDR作為測序數(shù)據(jù)多重比較領(lǐng)域中控制Ⅰ類錯(cuò)誤的常用指標(biāo),由Benjamini& Hochberg在1995年提出,指拒絕的假設(shè)檢驗(yàn)結(jié)果中Ⅰ類錯(cuò)誤所占比例的期望,在整體上控制Ⅰ類錯(cuò)誤的同時(shí)能篩出更多有意義的基因[5]。本文將基于LASSO-Cox模型,通過模擬和實(shí)例研究比較交叉驗(yàn)證法、pcvl法、EBIC準(zhǔn)則和平穩(wěn)選擇法四種調(diào)整參數(shù)選擇方法在控制FDR方面的表現(xiàn)以及在高維數(shù)據(jù)生存分析應(yīng)用中的優(yōu)劣。
LASSO-Cox模型的最大化目標(biāo)函數(shù)為:
(1)
其中p表示協(xié)變量的維數(shù),β=(β1,β2,…,βp)T為各協(xié)變量對(duì)應(yīng)的回歸系數(shù),l(β)為Cox模型的對(duì)數(shù)偏似然函數(shù),λ>0為調(diào)整參數(shù)。調(diào)整參數(shù)λ的大小影響著模型的復(fù)雜程度和收斂速度,λ值過大可能會(huì)使最終的模型中協(xié)變量個(gè)數(shù)過少,導(dǎo)致重要的變量被遺漏,反之,λ值若過小可能會(huì)使最終的模型中協(xié)變量個(gè)數(shù)過多,使得模型包含很多噪聲變量,導(dǎo)致結(jié)果中FDR過高。本課題組前期研究中已對(duì)基于LASSO的Ⅰ類錯(cuò)誤控制方法的基本原理進(jìn)行了詳細(xì)闡述[4],本文對(duì)交叉驗(yàn)證法(cross validation,CV)、pcvl法(penalized cross-validated log-likelihood)、EBIC準(zhǔn)則(extended bayesian information criterion)、平穩(wěn)選擇法(stability selection)的原理進(jìn)行簡單介紹。
目前最常用的交叉驗(yàn)證是K折交叉驗(yàn)證(K-fold cross-validation),K為整數(shù),1≤K≤n,通常取5或者10。該方法利用訓(xùn)練集來建立模型并求得回歸參數(shù)估計(jì)值,然后用該回歸參數(shù)估計(jì)值來預(yù)測驗(yàn)證集。對(duì)于對(duì)數(shù)偏似然函數(shù),其目標(biāo)函數(shù)為:
(2)
Ternès[6]針對(duì)傳統(tǒng)交叉驗(yàn)證法容易出現(xiàn)過度擬合這一問題提出pcvl法,公式如下:
pcvl(λ)=cvl(λ)-pen(λ)
(3)
“體育是人的類存在的主體象征”[11],是人類主體本性需求下的產(chǎn)物,是本體體驗(yàn)與身體經(jīng)驗(yàn)的結(jié)合,體育不僅是肉體強(qiáng)蠻的塑造之法,同時(shí)也是主體自由的解放之徑。體育行為以對(duì)生命的養(yǎng)護(hù)為最終的實(shí)踐目的,以主體的自由為最高的價(jià)值旨?xì)w,見證人類個(gè)體自我造就的每一時(shí)刻。以銅為鏡,可以正衣冠;以史為鏡,可以知興替;以人為鏡,可以明得失。體育相當(dāng)于反觀人自身的明鏡,在體育競賽中反觀自我的品性,在體育訓(xùn)練中反觀肉體的健康,在體育游戲中反觀主體的自由。在體育的實(shí)踐行為當(dāng)中認(rèn)識(shí)自我,發(fā)揮自身的優(yōu)點(diǎn),摒棄自身的不足,避免自身的異化。
(4)
圖1 cvl(λ)和pcvl(λ)以及模型中非零自變量個(gè)數(shù)隨λ變化趨勢圖(n=100,p=1000,q=6,L=3時(shí)的模擬結(jié)果)
(5)
當(dāng)γ=0時(shí),EBIC準(zhǔn)則等于傳統(tǒng)的BIC準(zhǔn)則;當(dāng)γ=1時(shí),EBIC準(zhǔn)則與mBIC準(zhǔn)則類似。γ的取值大小影響著EBIC準(zhǔn)則的選擇一致性。Luo和Chen[8]基于線性模型對(duì)EBIC準(zhǔn)則的選擇一致性進(jìn)行了深入的探討。
(6)
參考Luo、Song和Fan 等的模擬情形[13-15],模擬試驗(yàn)中自變量個(gè)數(shù)p=1000,樣本量n=(100,120,140,160,180,200),模擬次數(shù)B=100。
模擬方案一:探索生存數(shù)據(jù)刪失比例的不同和自變量間的相關(guān)程度不同對(duì)調(diào)整參數(shù)選擇方法的影響,具體設(shè)置如下:
(7)
(8)
(3)刪失時(shí)間是由均數(shù)為Uexp(-xβ)的指數(shù)分布產(chǎn)生,其中U是[1,L]上的均勻分布,不同的L值對(duì)應(yīng)的刪失比例不同,設(shè)置L=(2,3,4,5)。
模擬方案二:研究自變量的不同稀疏情況對(duì)調(diào)整參數(shù)選擇方法的影響,具體設(shè)置如下:
(1)自變量服從均數(shù)為0的正態(tài)分布,自變量間相關(guān)結(jié)構(gòu)與模擬方案一的區(qū)組相關(guān)結(jié)構(gòu)相同。
(3)刪失時(shí)間的指數(shù)分布中L=3。
利用R 3.3.2軟件中g(shù)lmnet package建立LASSO-Cox模型,分別采用CV法、pcvl法、EBIC準(zhǔn)則、平穩(wěn)選擇法進(jìn)行調(diào)整參數(shù)的選擇和變量篩選。利用cv.glmnet函數(shù)進(jìn)行10折交叉驗(yàn)證分析。EBICγ1準(zhǔn)則中γ取值為1,EBICγ2準(zhǔn)則中γ取值略大于1-lnn/2lnp(在其基礎(chǔ)上向上取整)。pcvl法由于還沒有R軟件包可實(shí)現(xiàn),本次研究主要參考Ternès,Rotolo 和 Michiels提供的R程序[6]。利用lol package進(jìn)行平穩(wěn)選擇,平穩(wěn)選擇的重復(fù)抽樣次數(shù)設(shè)為100,截?cái)帱c(diǎn)πthr取0.6。
評(píng)價(jià)指標(biāo)主要為錯(cuò)誤發(fā)現(xiàn)率(FDR)和PSR(positive select rate)。FDR作為變量選擇的假陽性指標(biāo)。PSR作為變量選擇效能指標(biāo),用來評(píng)價(jià)模型發(fā)現(xiàn)確實(shí)存在的有效應(yīng)變量的能力。FDR和PSR定義如下:
FDR=FP/(TP+FP)
(9)
PSR=TP/(TP+FN)
(10)
其中FP(false positive)表示在模擬試驗(yàn)的真實(shí)模型中回歸系數(shù)為零,但估計(jì)的回歸系數(shù)是非零的個(gè)數(shù);TP(true positive)表示在模擬試驗(yàn)的真實(shí)模型中系數(shù)是非零,估計(jì)的結(jié)果也是非零的個(gè)數(shù);FN(false negative)表示在模擬試驗(yàn)的真實(shí)模型中回歸系數(shù)為非零,但估計(jì)的結(jié)果為零的個(gè)數(shù)。FDR越接近0、PSR越接近1,說明該調(diào)整參數(shù)選擇方法越好。
(1)如圖2和圖3,在樣本量、刪失比例、相關(guān)系數(shù)均一定的情況下,各方法的FDR從低到高依次為:平穩(wěn)選擇法≤EBICγ1準(zhǔn)則 (2)如圖4和圖5,在樣本量、自變量間相關(guān)系數(shù)和稀疏水平均一定時(shí),各方法的FDR相比較結(jié)果以及PSR相比較結(jié)果與方案一的結(jié)果一致。隨著真實(shí)非零自變量個(gè)數(shù)的增多即稀疏水平的降低,平穩(wěn)選擇法的FDR基本保持不變,pcvl法的FDR略升高且與CV法之間的差距逐漸減小,EBIC準(zhǔn)則對(duì)稀疏水平的變化比較敏感,其結(jié)果波動(dòng)較大;在樣本量較小且真實(shí)非零自變量個(gè)數(shù)增多的情況下,各方法的PSR值均出現(xiàn)不同程度的降低,平穩(wěn)選擇法的PSR值始終高于EBIC準(zhǔn)則。在樣本量較大的情況下,隨著真實(shí)非零自變量個(gè)數(shù)的增多,CV法、pcvl法和平穩(wěn)選擇法的PSR值基本保持不變且接近于1。 圖2 不同刪失比例和相關(guān)情況下模型變量選擇的FDR(100次模擬的平均值) 圖3 不同刪失比例和相關(guān)情況下模型變量選擇的PSR(100次模擬的平均值) (1)這些基因之間存在比較高的相關(guān)關(guān)系,每個(gè)變量與其他變量間的最大相關(guān)系數(shù)的平均值是0.810。 (2)上述方法選出與預(yù)后有關(guān)的基因數(shù)分別有51、28、13、1個(gè),其中EBICr1準(zhǔn)則和EBICr2準(zhǔn)則結(jié)果一致。分別以各方法選出的基因?yàn)閰f(xié)變量,擬合Cox比例風(fēng)險(xiǎn)模型,得到的模型擬合結(jié)果如表1所示:平穩(wěn)選擇法選出的13個(gè)基因中有11個(gè)基因具有統(tǒng)計(jì)學(xué)意義,且與CV法相同的基因有12個(gè),與pcvl法相同的基因有10個(gè);pcvl法選出的28個(gè)基因中12個(gè)有統(tǒng)計(jì)學(xué)意義,與CV法相同的基因有26個(gè),與EBIC準(zhǔn)則相同的基因有1個(gè)。CV法選出的51個(gè)基因中只有16個(gè)基因具有統(tǒng)計(jì)學(xué)意義。其中MMP12、CXCL2、P2RY12、MAL基因已有文獻(xiàn)報(bào)道與DLBCL 的預(yù)后和疾病進(jìn)展有關(guān)[17-21]。值得注意的是有文獻(xiàn)報(bào)道CD163基因與DLBCL預(yù)后有關(guān)[22],但只有pcvl法選出了CD163。實(shí)例結(jié)果表明CV法選出變量很多且大部分無統(tǒng)計(jì)學(xué)意義。pcvl法一定程度上減少了假陽性,且不容易漏掉有效應(yīng)的自變量,但選出的變量仍比較多。CV法、pcvl法選出的有統(tǒng)計(jì)學(xué)意義的基因大部分被平穩(wěn)選擇法選出,且占后者結(jié)果的絕大部分,說明平穩(wěn)選擇法選出的自變量假陽性很低,且與其他方法結(jié)果重合度高。EBIC準(zhǔn)則結(jié)果則過于保守。 圖4 自變量不同稀疏水平下模型變量選擇的FDR(100次模擬的平均值) 模擬研究和實(shí)例數(shù)據(jù)分析結(jié)果顯示傳統(tǒng)的CV法假陽性問題確實(shí)比較嚴(yán)重,原因是CV法在選擇調(diào)整參數(shù)時(shí)只考慮了模擬的擬合優(yōu)度未考慮模型的稀疏性。模擬結(jié)果顯示pcvl法既能將PSR保持在較高水平又能一定程度地減少FDR,同時(shí)其結(jié)果受自變量間相關(guān)的影響較小,但與EBIC準(zhǔn)則、平穩(wěn)選擇法相比其FDR仍然比較高,而且當(dāng)真實(shí)有效應(yīng)的自變量較多時(shí)pcvl法控制FDR的能力略微下降,可能是因?yàn)閜cvl法通過在CV法的目標(biāo)函數(shù)中加入懲罰項(xiàng)達(dá)到擬合優(yōu)度與稀疏程度的折中,其結(jié)果一定程度上依賴于CV法。 EBIC準(zhǔn)則γ參數(shù)取值不同時(shí)結(jié)果不相同,當(dāng)γ=1時(shí)其控制FDR的能力與平穩(wěn)選擇法相差不大,但其PSR在小樣本時(shí)比較低,提示樣本量很小時(shí)可能會(huì)遺漏重要的變量;與γ=1的結(jié)果相比,γ取值略大于1-lnn/2lnp時(shí)的PSR較高但其FDR也比較高;EBIC準(zhǔn)則結(jié)果受自變量間相關(guān)和稀疏水平影響較大;實(shí)例研究結(jié)果中EBIC準(zhǔn)則只選出1個(gè)基因,遺漏掉的重要變量比較多。Luo等[15]將EBIC準(zhǔn)則應(yīng)用于SIS-Adaptive LASSO的調(diào)整參數(shù)的選擇,在其實(shí)例分析中γ取值越小篩選的基因數(shù)越多,當(dāng)0.3≤γ≤0.7時(shí)只篩選出兩個(gè)基因,說明該方法確實(shí)比較保守。 平穩(wěn)選擇法將FDR控制在低水平的同時(shí)仍使PSR保持在可接受水平。該方法降低了模型變量選擇結(jié)果對(duì)調(diào)整參數(shù)值的依賴性,因此在自變量間不同相關(guān)程度和不同稀疏水平的情況下表現(xiàn)均比較穩(wěn)定,雖然在樣本量小且有意義變量多的情況下效能有所降低,但仍高于EBIC準(zhǔn)則。 圖5 自變量不同稀疏水平下模型變量選擇的PSR(100次模擬的平均值) 本研究主要基于LASSO-Cox模型進(jìn)行四種方法變量選擇的比較和評(píng)價(jià),然而這些方法不僅可以用于LASSO調(diào)整參數(shù)的選擇,還可以應(yīng)用于其他懲罰類方法如adaptive LASSO、SCAD(smoothly clipped absolute deviation)、MCP(minimax concave penalty)等,這部分內(nèi)容將在今后的研究工作中進(jìn)一步探討。在利用變量選擇方法篩選變量時(shí),除了考慮其統(tǒng)計(jì)學(xué)意義,還需要結(jié)合問題本身的專業(yè)知識(shí)和實(shí)際意義,尤其是面對(duì)目前日益龐大的生物學(xué)數(shù)據(jù),利用變量選擇方法篩選出很有可能與癌癥患者生存有關(guān)聯(lián)的候選基因后,其具體的生物學(xué)意義仍需要進(jìn)一步實(shí)驗(yàn)加以驗(yàn)證。 表1 各方法篩選出的基因 注:粗體字表示平穩(wěn)選擇法、pcvl法、CV法選出的相同基因;斜體字表示pcvl法、CV法選出的相同基因;斜體字加粗表示平穩(wěn)選擇法、CV法選出的相同基因;字體背景灰色表示EBIC準(zhǔn)則和pcvl法選出的相同基因;***表示P值小于0.001,**表示P值小于0.01,*表示P值小于0.05實(shí)例分析
1.數(shù)據(jù)來源及整理
2.實(shí)例分析結(jié)果
討 論