肖媛媛許傳志趙耐青
含特定比例均勻隨機(jī)刪失生存數(shù)據(jù)的SAS模擬實(shí)現(xiàn)*
肖媛媛1許傳志1趙耐青2△
刪失(censoring)是生存分析時(shí)經(jīng)常會(huì)遇到的一個(gè)實(shí)際問題,為生存數(shù)據(jù)的處理分析帶來了一定困難。針對(duì)這一問題,在實(shí)際研究中往往需要通過隨機(jī)模擬來產(chǎn)生含一定刪失比例的特定生存分布數(shù)據(jù),供探索性研究或?qū)Ρ刃匝芯渴褂?。文獻(xiàn)檢索后發(fā)現(xiàn),目前國內(nèi)外針對(duì)刪失生存數(shù)據(jù)的模擬研究數(shù)量較少[1-3]。
按照其發(fā)生是否與研究對(duì)象的其他特征有關(guān),刪失分為隨機(jī)刪失(random censoring)和非隨機(jī)刪失(non-random censoring)兩類,即非信息刪失(non-informative censoring)和信息刪失(informative censoring)[4]。由于非隨機(jī)刪失的影響因素眾多,故其特征難以全面捕捉,因此目前在模擬產(chǎn)生含刪失的生存分析數(shù)據(jù)時(shí),大都假定為完全隨機(jī)刪失。
本文針對(duì)現(xiàn)有模擬思路和方法中存在的某些問題或疑議,提出一種模擬產(chǎn)生含特定比例均勻隨機(jī)刪失生存數(shù)據(jù)的思路,以及實(shí)現(xiàn)這一思路的SAS宏程序,為科學(xué)工作者開展生存分析提供便利。
模擬產(chǎn)生含隨機(jī)刪失的生存數(shù)據(jù)時(shí),步驟一般為:先產(chǎn)生符合特定分布的完整數(shù)據(jù),再在此基礎(chǔ)上產(chǎn)生刪失數(shù)據(jù)。
生成完整數(shù)據(jù)時(shí),一般采用的是Bender等2005年提出的模擬方法[5]。該方法的基本思想是,從某一時(shí)刻風(fēng)險(xiǎn)函數(shù)的一般表達(dá)式入手:
得到當(dāng)前時(shí)刻仍存活的概率為:
假設(shè)Y是函數(shù)F的自變量,如果生存曲線足夠平滑,可以得知服從在[0,1]區(qū)間上的均勻分布,同樣可得知,1-F(Y)也服從在[0,1]上的均勻分布,即U=exp[-H0(t)exp(β′X)]服從[0,1]上的均勻分布U[0,1]。
假設(shè)生存時(shí)間為T,對(duì)前式取反函數(shù),得到:
基于上述思想,根據(jù)目標(biāo)生存分布所對(duì)應(yīng)的累積風(fēng)險(xiǎn)函數(shù)表達(dá)式H0和隨機(jī)模擬產(chǎn)生的均勻分布U,即可產(chǎn)生目標(biāo)生存時(shí)間。Weibull分布的累積風(fēng)險(xiǎn)函數(shù)表達(dá)式為:
因此可得到其生存時(shí)間T的計(jì)算公式為:
在進(jìn)一步產(chǎn)生含隨機(jī)刪失的生存數(shù)據(jù)時(shí),一般的思路為:假設(shè)生存時(shí)間T和刪失時(shí)間C服從相互獨(dú)立的兩個(gè)分布S(T)和B(C)。在模擬研究中,S(T)的參數(shù)已經(jīng)設(shè)定,可以順利產(chǎn)生生存時(shí)間Ti。再根據(jù)定義的刪失分布類型(即刪失發(fā)生時(shí)間的概率分布),如指數(shù)分布或均勻分布,結(jié)合設(shè)定的刪失比例,采用迭代或近似公式計(jì)算的方法得到刪失時(shí)間分布的參數(shù),在此基礎(chǔ)上隨機(jī)產(chǎn)生刪失時(shí)間Ci。最后通過比較生存時(shí)間Ti和刪失時(shí)間Ci的大小,形成結(jié)構(gòu)為(Ai,Ii)的數(shù)據(jù)形式。其中,A=min(T,C),I為指示變量,T<C時(shí)等于1,指代事件發(fā)生,T>C時(shí)等于0,指代截尾發(fā)生。
不難看出,通過上述模擬方法,確實(shí)可以順利得到隨機(jī)刪失的生存數(shù)據(jù),即刪失的發(fā)生與否與生存時(shí)間長短無關(guān)。但其在邏輯架構(gòu)上卻存在不恰當(dāng)之處。其一,我們通過S(T)已經(jīng)得到了“真實(shí)”的生存時(shí)間T,而按照定義,刪失的發(fā)生時(shí)間一定是小于真實(shí)生存時(shí)間的,即C一定小于T。而按照上述方法,將T和C完全當(dāng)作兩個(gè)相互獨(dú)立的分布來模擬,則可能出現(xiàn)C>T的情況。雖然在上述方法中,正好將這種情況定義為事件發(fā)生,但顯然已經(jīng)混淆了真實(shí)情況下事件發(fā)生的概念。其二,刪失分布一定是在真實(shí)生存時(shí)間T確定的基礎(chǔ)上,刪失時(shí)間C的概率分布,如某觀察對(duì)象真實(shí)生存時(shí)間為Ti,又已知其發(fā)生了刪失,假設(shè)其刪失分布為均勻分布,則表示Ci在[0,Ti]范圍內(nèi)取任意值的概率相等。因此,上述方法直接在同一時(shí)間維度上同時(shí)定義真實(shí)生存分布和刪失分布,同樣有悖常理。除此之外,在估計(jì)刪失分布的參數(shù)時(shí),有學(xué)者提及的“迭代法”缺乏明確、詳細(xì)的出處和表述,按照Halabi等提出的公式計(jì)算得到的刪失分布參數(shù),經(jīng)實(shí)際驗(yàn)證卻不能得到預(yù)先設(shè)定的刪失比例[6]。
由于現(xiàn)有模擬方法中存在著如上所述的問題或疑議,我們按照如下思路模擬產(chǎn)生含特定比例均勻隨機(jī)刪失的生存數(shù)據(jù):
步驟一:按照如前所述的步驟生成樣本含量為N的特定分布的完整生存數(shù)據(jù);
步驟二:根據(jù)預(yù)先設(shè)定的刪失比例P,在其中隨機(jī)抽取N×P個(gè)觀測,作為“刪失觀測”;
步驟三:每個(gè)刪失觀測的真實(shí)生存時(shí)間為Ti,由于為均勻刪失,因此在[0,Ti]的均勻分布上隨機(jī)產(chǎn)生其刪失時(shí)間Ci;
步驟四:將刪失觀測的刪失時(shí)間Ci與其他未刪失觀測的真實(shí)生存時(shí)間Tj整合為同一變量,定義為觀察時(shí)間,另外增加指示變量I,I=1表示發(fā)生結(jié)局,I=0表示刪失。
模擬宏程序以理論生存時(shí)間滿足Weibull分布為例,讀者可自行拓展至指數(shù)分布和Gompertz分布,也可重新定義研究變量的數(shù)量、類型及參數(shù),程序中只分析了單一的二項(xiàng)分布自變量factor1~B(1,0.5)。
具體程序如下:
在當(dāng)前研究中,我們針對(duì)現(xiàn)有刪失生存數(shù)據(jù)模擬方法中存在的問題和疑議,提出了一種含特定比例均勻隨機(jī)刪失生存數(shù)據(jù)的模擬方法,并給出了實(shí)現(xiàn)這一方法的SAS宏程序。經(jīng)反復(fù)驗(yàn)證,這一宏程序能正確產(chǎn)生設(shè)定特征的刪失生存數(shù)據(jù)。
模擬產(chǎn)生具有不同刪失特征的生存數(shù)據(jù),對(duì)于探索生存分析方法并驗(yàn)證其價(jià)值來說,有著十分重要的意義。在當(dāng)前研究中,我們僅設(shè)定了非常理想化的假設(shè)前提:即刪失的發(fā)生完全隨機(jī),且刪失分布滿足最簡單的均勻分布。需要指出的是,在現(xiàn)實(shí)情況下,生存數(shù)據(jù)中刪失的發(fā)生及其分布特征可能千變?nèi)f化。雖然無法對(duì)每一種可能都進(jìn)行模擬,但以下兩個(gè)方向卻值得進(jìn)一步研究:
方向一:同樣在完全隨機(jī)刪失的假設(shè)前提下,研究不同刪失分布類型生存數(shù)據(jù)的模擬實(shí)現(xiàn),如指數(shù)分布、對(duì)數(shù)分布等。
方向二:在方向一研究的基礎(chǔ)上,進(jìn)一步打破“完全隨機(jī)刪失”這一強(qiáng)假定,探索當(dāng)刪失的發(fā)生和理論生存時(shí)間之間存在關(guān)聯(lián),且滿足不同的關(guān)聯(lián)模式時(shí),含不同刪失比例、不同刪失分布生存數(shù)據(jù)的模擬實(shí)現(xiàn)。
[1]高峻,董偉,高爾生,等.多結(jié)局生存分析模型與Cox模型的隨機(jī)模擬比較.中國衛(wèi)生統(tǒng)計(jì),2007,20(3):248-251.
[2]錢俊,張超,陳平雁.模擬研究中隨機(jī)數(shù)據(jù)的產(chǎn)生及SAS實(shí)現(xiàn).中國衛(wèi)生統(tǒng)計(jì),2008,21(6):704-706.
[3]錢俊,劉國慶,周業(yè)明.不同刪失比例下生存數(shù)據(jù)模擬生成的方法.?dāng)?shù)理醫(yī)藥學(xué)雜志,2013,26(6):644-646.
[4]Leung KM,Elashoff RM,Afifi AA.Censoring issues in survival analysis.Annual Review of Public Health,1997,18:83-104.
[5]Bender R,Augustin T,Blettner M.Generating survival times to simulate Cox proportional hazardsmodels.Statistics in Medicine,2005,24(11):1713-1723.
[6]Halabi S,Singh B.Sample size determ ination for comparing several survival curves w ith unequal allocations.Statistics in Medicine,2004,23(11):1793-1815.
(責(zé)任編輯:劉 壯)
國家自然科學(xué)基金(81460519);云南省自然科學(xué)基金(2013FZ064)
1.昆明醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(650500)
2.復(fù)旦大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)教研室
△通信作者:趙耐青,E-mail:nqzhao1954@163.com