馬睿琳
摘要:生存分析是對壽命數(shù)據(jù)進(jìn)行統(tǒng)計推斷的方法,在此研究過程中,經(jīng)常會遇到刪失數(shù)據(jù),文章介紹刪失數(shù)據(jù)的類型。為了解決刪失數(shù)據(jù)中存在的治愈指標(biāo)部分缺失的生存問題,文章主要研究基于漸近正態(tài)數(shù)據(jù)擴(kuò)充的多重插補(bǔ)法,主要介紹多重插補(bǔ)法的基本原理和方法步驟。最后總結(jié)全文,給出今后研究的方向及展望。
關(guān)鍵詞:生存分析;右刪失數(shù)據(jù);多重插補(bǔ)法
一、引言
生存分析是對一個或多個非負(fù)隨機(jī)變量進(jìn)行統(tǒng)計分析,即對壽命數(shù)據(jù)進(jìn)行分析的一種方法,在醫(yī)學(xué)領(lǐng)域,主要是人和生物壽命的研究、手術(shù)后人的壽命的預(yù)測以及藥物療效的分析。在進(jìn)行生存分析研究中,經(jīng)常會遇到刪失數(shù)據(jù),現(xiàn)在研究人員已經(jīng)研究出許多方法去處理帶有刪失數(shù)據(jù)的問題,本文主要研究的多重插補(bǔ)法是一個處理缺失數(shù)據(jù)的流行并且實用的方法,最早由Rubin在1978年提出,隨后很多學(xué)者對此方法做出改進(jìn)和延伸。本文意在通過了解刪失數(shù)據(jù)類型,探究多重插補(bǔ)法對右刪失數(shù)據(jù)中缺失的治愈指標(biāo)進(jìn)行插補(bǔ)及分析的原理和實現(xiàn)過程。
二、刪失數(shù)據(jù)
在生存分析實驗研究中,常常要在給定的時間內(nèi)完成研究,所以得到的數(shù)據(jù)存在兩種狀態(tài),一種是完整觀測到的數(shù)據(jù),另一種是刪失數(shù)據(jù),本文針對刪失數(shù)據(jù)進(jìn)行介紹,分別介紹右刪失數(shù)據(jù)、左刪失數(shù)據(jù)和區(qū)間刪失數(shù)據(jù)。
(一)右刪失數(shù)據(jù)
在生存分析調(diào)查中,會有一個固定的時間,在給定時間開始給定時間結(jié)束。在此過程中,會出現(xiàn)患者在研究結(jié)束時沒有死亡或者研究人員與患者失去聯(lián)系等情況,此時,患者的生存情況未知,但已知患者的生存時間大于一個確定的數(shù)值,這種數(shù)據(jù)就被稱為右刪失數(shù)據(jù)。
具體來說,本文設(shè)患者的生存時間為X,刪失時間為C。若X≤C,則說明這個是可觀測到的數(shù)據(jù);若X>C,則說明此患者在C處刪失。令最終觀測時間為U,則U=XΛC,即觀測時間U為患者生存時間X和刪失時間C中較小的數(shù)值。本文設(shè)刪失指標(biāo)為δ,δ=I{X≤C}。若δ=1,則表示患者的生存時間是可被觀測的,此時U=X;若δ=0,則說明患者的生存時間是右刪失的,此時U=C。在試驗跟蹤期間,本文主要針對患者的生存時間來研究,患者分為已治愈和未治愈兩種狀態(tài),研究未治愈患者的生存時間是本文研究的重點。右刪失數(shù)據(jù)中患者的治愈狀況在研究中缺失,故便于后續(xù)研究,引入治愈指標(biāo)Y,若Y=1,則患者未治愈,若Y=0,則患者治愈。研究過程中,同時要分析生存概率,則引入?yún)f(xié)變量Z=(Z1,Z2,…ZP,P=1,2,3,…),最終的觀測數(shù)據(jù)集為(U,Z,δ)。
例如在一項為期一年的研究期間內(nèi)共有六位急性白血病患者進(jìn)入臨床研究,我們還假設(shè)某種治療對這些患者起作用而且實現(xiàn)了病情緩解,緩解時間在圖1中給出?;颊逜、C和E分別在2月初、4月初和9月初出現(xiàn)緩解后又分別4個月、6個月和3個月后病情復(fù)發(fā)?;颊連在3月初出現(xiàn)緩解但在四個月后失蹤(退出研究不被跟蹤觀察),從而緩解時間至少是4個月。患者D和F分別在5月初和10月初實現(xiàn)了緩解,到研究時間結(jié)束時仍舊處于緩解狀態(tài),從而他們的緩解時間分別至少是8個月和3個月。
(二)左刪失數(shù)據(jù)
在生存分析調(diào)查中,研究時間是固定的,在確定時間開始確定時間結(jié)束?;颊咴诖似陂g不同時間進(jìn)入研究,若此時,患者的確切壽命未知,但已知患者的生存時間小于一個確切的數(shù)值,那么這種數(shù)據(jù)是左刪失的。具體形式同上,不再贅述。
(三)區(qū)間刪失數(shù)據(jù)
區(qū)間刪失數(shù)據(jù)在實際研究中也經(jīng)常出現(xiàn)。在大多數(shù)文獻(xiàn)中可以了解到,事件是發(fā)生或即將發(fā)生在基于試驗時間的一個特定的時間區(qū)間內(nèi)而不是一個特定的時間點。也就是說,每一個患者都有一個包含了患者生存時間的觀測區(qū)間(L,R]。當(dāng)L=0時,區(qū)間刪失數(shù)據(jù)變?yōu)樽髣h失數(shù)據(jù),當(dāng)R=∞時,區(qū)間刪失數(shù)據(jù)則變?yōu)橛覄h失數(shù)據(jù)。
三、多重插補(bǔ)法
(一)基本原理
多重插補(bǔ)法是處理帶有缺失數(shù)據(jù)的問題的一種有效方法。其基本思想是:將數(shù)據(jù)集中的缺失數(shù)據(jù)用多個來自其可能分布的值來代替,插補(bǔ)成為一個完整的數(shù)據(jù)集,再利用已有的處理完整數(shù)據(jù)的統(tǒng)計分析方法對插補(bǔ)后的數(shù)據(jù)集進(jìn)行分析,得到理想且更可能依據(jù)所有數(shù)據(jù)信息的結(jié)果。
(二)方法步驟
本文針對右刪失數(shù)據(jù),基于漸近正態(tài)數(shù)據(jù)擴(kuò)充給出多重插補(bǔ)法的具體步驟如下:
四、總結(jié)與展望
本文針對生存分析中經(jīng)常出現(xiàn)的刪失數(shù)據(jù)進(jìn)行研究,利用基于漸近正態(tài)數(shù)據(jù)擴(kuò)充的多重插補(bǔ)法來插補(bǔ)右刪失數(shù)據(jù)中部分缺失的治愈指標(biāo)。多重插補(bǔ)法的優(yōu)勢在于,可以同時獲得參數(shù)及方差的估計,而且可以簡單方便的利用統(tǒng)計軟件來實現(xiàn)。其關(guān)鍵在于插補(bǔ)值的產(chǎn)生,也就是數(shù)據(jù)擴(kuò)充方法的結(jié)合使用。
在今后的研究中,我們還需針對生存分析問題中的模型進(jìn)行研究,其中混合治愈模型是研究生存分析很流行的方法,這種模型假設(shè)研究群體包括感興趣的事件和不感興趣的事件,通過邏輯斯蒂回歸對影響群體治愈率的協(xié)變量進(jìn)行建模。之后可以增加對模型的研究,進(jìn)而計算自然函數(shù)。利用仿真研究對模型等進(jìn)行假設(shè)驗證,同時收集適合的數(shù)據(jù)集,將此方法應(yīng)用到實際數(shù)據(jù)中去,進(jìn)一步驗證方法的有效性和優(yōu)勢。這是今后研究的方向。
參考文獻(xiàn):
[1]Pan W. A multiple imputation appr
oach to Cox regression with interval-censored data.[J]. Biometrics, 2000(01).
[2]Tanner M A. Applications of Multiple Imputation to the Analysis of Censored Regression Data[J].Biometrics,1991(04).
[3]ElisaT.Lee,陳家鼎,戴中維,等.生存數(shù)據(jù)分析的統(tǒng)計方法[J].數(shù)理統(tǒng)計與管理, 2000(02).
[4]陳家鼎.生存分析與可靠性[M].北京大學(xué)出版社,2005.
[5]Zhou J, Zhang J, Mclain A C, et al.
A multiple imputation approach for semiparametric cure model with interval censored data[J]. Computational Statistics & Data Analysis, 2016(C).