劉紅偉 ,張?zhí)鹛?,劉媛媛 ,李長平 ,2,胡良平
(1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,天津 300070;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會,北京 100029;3.軍事科學(xué)院研究生院,北京 100850
在分析多個因素對生存時間的影響時,人們通常希望像一般的回歸分析一樣,能建立生存時間(因變量)隨危險因素(自變量或協(xié)變量)變化的回歸方程,以便對危險因素的作用大小有一個全面的了解和掌握,并根據(jù)危險因素的不同取值對生存率(或危險率)進(jìn)行預(yù)測。能實(shí)現(xiàn)此目的的生存分析方法有Cox模型回歸分析和參數(shù)模型回歸分析。當(dāng)生存時間的準(zhǔn)確分布無法獲得時,可采用Cox模型回歸分析[1],此模型在形式上與參數(shù)模型相似,但對模型中各參數(shù)進(jìn)行估計(jì)時不依賴于特定分布的假設(shè),所以又稱半?yún)?shù)模型。當(dāng)然,在可以通過圖示法或統(tǒng)計(jì)檢驗(yàn)法得到待分析的生存時間服從某特定分布的參數(shù)模型時,如指數(shù)分布回歸模型或Weibull分布回歸模型,可采用生存資料的參數(shù)模型回歸分析直接擬合之,所得結(jié)果將更加準(zhǔn)確[2]。
生存資料參數(shù)回歸模型分析的一個重要內(nèi)容是模型擬合或分布擬合。描述生存時間分布的模型通常有指數(shù)分布、Weibull分布、Log-logistic分布、對數(shù)正態(tài)分布、廣義Gamma分布模型等。在生存分析研究中,常用概率密度函數(shù)f(t)、生存函數(shù)S(t)和風(fēng)險函數(shù)(或稱危險率函數(shù))h(t)來描述生存過程,這三種函數(shù)在數(shù)學(xué)推導(dǎo)上是等價的[3],如果給定其中一種函數(shù),另外兩種函數(shù)即可推導(dǎo)得出,它們的關(guān)系如下:
對實(shí)際的生存數(shù)據(jù)進(jìn)行分布擬合時,可用上述模型分別進(jìn)行擬合,根據(jù)擬合優(yōu)度檢驗(yàn)的結(jié)果選擇適當(dāng)?shù)哪P?。有時,對于一批生存數(shù)據(jù),事先不知道生存時間的確切分布,也難以判斷何種模型最合適,許多研究者一般直接采用非參數(shù)或半?yún)?shù)回歸模型。但是,如果已知一批數(shù)據(jù)確實(shí)符合某特定的參數(shù)回歸模型,由于非參數(shù)或半?yún)?shù)方法的精度一般低于參數(shù)方法,此時,宜選用相應(yīng)的參數(shù)回歸模型。由于篇幅所限,本文主要介紹指數(shù)分布回歸模型、Weibull分布回歸模型和Log-logistic分布回歸模型。
2.1.1 僅以生存時間t為自變量的指數(shù)分布回歸模型
指數(shù)分布回歸模型是最簡單的生存資料參數(shù)回歸模型,在任何時間點(diǎn)上的風(fēng)險函數(shù)為一常數(shù),風(fēng)險函數(shù)的大小不受生存時間長短的影響,即“無記憶性”。設(shè)生存時間服從指數(shù)分布,則生存時間變量的概率密度函數(shù)為:
分布函數(shù)為:
生存函數(shù)為:
風(fēng)險函數(shù)為:
λ為常數(shù),與時間無關(guān),代表指數(shù)分布回歸模型的風(fēng)險率,決定了生存率下降的快慢。風(fēng)險率越大,生存率下降越快,生存時間越短;風(fēng)險率越小,生存率下降越慢,生存時間越長。
指數(shù)分布回歸模型自變量既滿足比例風(fēng)險(Proportional Hazard,PH)假設(shè),也滿足加速失效時間(Accelerated Failure Time,AFT)假設(shè)。PH假設(shè)要求一個人的風(fēng)險與任何其他人的風(fēng)險成正比,且比例為一個常數(shù),與時間無關(guān);AFT假設(shè)要求對于任一固定生存概率,不同個體間生存時間比值為一個常數(shù),這個常數(shù)稱為加速因子(Accelerated factor)。因此PH假設(shè)中預(yù)測變量(即自變量或影響因素)對個體發(fā)生風(fēng)險的影響成比例,而AFT假設(shè)中預(yù)測變量對個體生存時間的影響成比例[4]。
2.1.2 基于生存時間t添加其他自變量的指數(shù)分布回歸模型
在上面的四個模型表達(dá)式中,生存時間t為自變量,其因變量分別為f(t)、F(t)、S(t)和h(t),它們分別為密度函數(shù)、分布函數(shù)、生存函數(shù)和風(fēng)險函數(shù)。但是,在處理實(shí)際的生存資料時,研究者希望考察除時間t之外的其他許多自變量或協(xié)變量對前述提及的四個因變量的影響,于是,統(tǒng)計(jì)學(xué)家將模型中的“重要參數(shù)”視為除時間t之外的其他許多自變量或協(xié)變量的函數(shù)(基于數(shù)學(xué)上處理方便角度考量,選取“指數(shù)函數(shù)”形式)。這樣,就建立起因變量依賴包括生存時間t在內(nèi)并包含其他自變量的回歸模型。為簡便起見,下面的例子中只包含了一個叫做“TRT”的“新自變量”。
將指數(shù)分布回歸模型應(yīng)用到42例白血病患者數(shù)據(jù)中[4],其中21例患者接受了治療,另外21例患者使用了安慰劑。結(jié)局為白血病患者的生存時間,預(yù)測變量(即自變量)是TRT,取值(0,1),1代表接受了治療,0代表未接受治療。
基于PH假設(shè),包含預(yù)測變量的指數(shù)分布回歸模型表達(dá)式(此處特指風(fēng)險函數(shù))為:
其中h(t)為個體風(fēng)險大小,TRT表示是否接受治療,則治療組相對于非治療組的風(fēng)險比(Hazard ratio)為:
基于AFT假設(shè),包含預(yù)測變量的指數(shù)分布回歸模型表達(dá)式為:
上式中,t代表個體生存時間,S(t)代表個體生存函數(shù)。對任一固定生存概率S(t)=q,治療組相對于非治療組的加速因子(Acceleration factor)γ為:
若α1> 0,則exp(α1)> 1,表明相對于安慰劑,治療對于生存時間有正向促進(jìn)作用,延長了患者的生存時間;若α1< 0,則exp(α1)< 1,表明相對于安慰劑,治療對于生存時間有反向抑制作用,縮短了患者的生存時間。
2.2.1 僅以生存時間t為自變量的Weibull分布回歸模型
Weibull分布回歸模型是最廣泛使用的參數(shù)回歸模型,由瑞典科學(xué)家Waloddi Weibull提出。Weibull分布是指數(shù)分布的一種推廣形式,應(yīng)用更廣泛。設(shè)生存時間服從Weibull分布,則對應(yīng)的概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險函數(shù)為:
λ是尺度參數(shù),γ是形狀參數(shù),決定函數(shù)圖像的形狀。若γ>1,風(fēng)險隨著時間的增加而增加;若γ=1,風(fēng)險為常數(shù),則Weibull分布變?yōu)橹笖?shù)分布;若γ<1,風(fēng)險隨著時間的增加而減小。
2.2.2 基于生存時間t添加其他自變量的Weibull分布回歸模型
基于PH假設(shè),包含預(yù)測變量的Weibull分布回歸模型表達(dá)式(此處特指風(fēng)險函數(shù))為:
基于AFT假設(shè),包含預(yù)測變量的Weibull分布回歸模型表達(dá)式為:
風(fēng)險比(Hazard ratio)和加速因子(Acceleration factor)的求解和解釋同指數(shù)分布類似,此處不再贅述。
2.3.1 僅以生存時間t為自變量的Log-logistic分布回歸模型
在生存分析中,Log-logistic分布用于描述事件的發(fā)生率,例如診斷或治療后的腫瘤患者的死亡率。設(shè)生存時間服從Log-logistic分布,則對應(yīng)的概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險函數(shù)為:
γ是形狀參數(shù),當(dāng)γ≤1時,風(fēng)險值隨著時間增加而下降;若γ>1,則風(fēng)險值先增加后減小,風(fēng)險函數(shù)圖像為“單峰”。Log-logistic分布回歸模型要求自變量滿足AFT假設(shè),不滿足PH假設(shè),但滿足比例優(yōu)比(Proportional odds,PO)假設(shè),PO假設(shè)要求生存優(yōu)勢比(Survival odds ratio)隨著時間的變化保持不變,即生存優(yōu)勢比為常數(shù),其中生存優(yōu)勢比(Survival odds ratio,SOR)定義為兩個個體的生存比值的比值,表達(dá)式為:
其中,S1(t)是個體1的生存函數(shù),S2(t)是個體2的生存函數(shù),若SOR和時間無關(guān),則Log-logistic分布回歸模型自變量滿足PO假設(shè)。
2.3.2 基于生存時間t添加其他自變量的Log-logistic分布回歸模型
以42例白血病患者數(shù)據(jù)中的白細(xì)胞計(jì)數(shù)變量(white blood cell count,WBCCAT)為例,WBCCAT變量取值1和2,1代表中位數(shù),2代表最大值?;赑O假設(shè),包含預(yù)測變量的Log-logistic分布回歸模型表達(dá)式為:
其中,變量WBCCAT的失效比為:
若β1>0,則WBCCAT取值1的結(jié)局風(fēng)險更大。基于AFT假設(shè),包含預(yù)測變量的Log-logistic分布回歸模型表達(dá)式為:
加速因子的求解與解釋與指數(shù)分布回歸模型類似,此處不再贅述。
2.4.1 對數(shù)正態(tài)分布回歸模型
對數(shù)正態(tài)分布參數(shù)回歸模型定義為時間變量的對數(shù)遵從正態(tài)分布,其概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險函數(shù)為:
其中,a=exp(-μ),Φ(x)為標(biāo)準(zhǔn)正態(tài)分布函數(shù)。對數(shù)正態(tài)分布的形狀與Log-logistic分布形狀接近,不同的是對數(shù)正態(tài)分布模型要求自變量滿足AFT假設(shè),但不滿足PO假設(shè)。
2.4.2 Gompertz分布回歸模型
Gompertz分布回歸模型定義為生存時間服從Gompertz分布,其概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險函數(shù)為:
Gompertz模型自變量不滿足AFT假設(shè),但回歸模型和Cox模型相似。
2.4.3 廣義Gamma分布回歸模型
廣義Gamma分布回歸模型有三個參數(shù),形狀有更大的靈活性。設(shè)生存時間服從廣義Gamma分布,則對應(yīng)的概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險函數(shù)為:
指數(shù)分布回歸模型根據(jù)S(t)=e-λt可以得出log[S(t)]=-λt,可繪制出log[S(t)]對t的Kaplan-Meier圖,若圖像是經(jīng)過原點(diǎn)的一條直線,表明數(shù)據(jù)符合指數(shù)分布回歸模型,斜率是-λ的估計(jì)值。
Weibull分布回歸模型根據(jù)S(t)=exp[-(λt)γ],可以得到ln[-lnS(t)]=γlnλ+γlnt,即ln[-lnS(t)]和lnt是線性關(guān)系,斜率為γ??衫L制出ln[-lnS(t)]對lnt的Kaplan-Meier圖,若圖像是一條直線,表明數(shù)據(jù)符合Weibull分布回歸模型,斜率為γ,截距為γlnλ。
參數(shù)回歸模型中回歸系數(shù)可以通過求極大似然函數(shù)最大值的方法得到。參數(shù)回歸模型的似然函數(shù)是觀測數(shù)據(jù)和未知參數(shù)的一個函數(shù),等于每個個體似然值相乘,其中似然函數(shù)的形式和結(jié)局變量的概率密度函數(shù)有關(guān)。在生存分析中似然函數(shù)和普通的似然函數(shù)區(qū)別在于數(shù)據(jù)包含刪失數(shù)據(jù),刪失數(shù)據(jù)類型一般包括左刪失、右刪失和區(qū)間刪失。個體失效時間與似然值之間的關(guān)系見表1。
表1是不同個體的失效時間和對應(yīng)的似然值,其中f(t)是個體生存時間的概率密度函數(shù)。若該研究共有表1中的5人,則總的似然函數(shù)為:
未知參數(shù)的解可以通過最大化似然函數(shù)得到,最大化似然函數(shù)的過程通常是將ln(L)對各參數(shù)求偏導(dǎo)數(shù),并令偏導(dǎo)數(shù)為零,從而獲得所謂的“正規(guī)方程組”,然后求解此方程組便可獲得各參數(shù)的估計(jì)值,即:
表1 個體失效時間和似然值
對同一個生存資料擬合了兩個包含參數(shù)數(shù)目不同的參數(shù)回歸模型后,需要比較它們之中哪一個更好,稱為“擬合優(yōu)度檢驗(yàn)”,通??刹捎谩八迫槐葯z驗(yàn)”。比較嵌套模型之間的擬合效果可以采用似然比檢驗(yàn)[5],似然比統(tǒng)計(jì)量的公式為:
式中服從自由度為v的χ2分布,-2logLq和-2logLq+v分別為含有q和q+v個參數(shù)的回歸模型的對數(shù)似然函數(shù)值。
一般來說,一個回歸模型對應(yīng)的“-2log(L)”的數(shù)值間接反映了模型對生存資料的擬合效果。當(dāng)有兩個回歸模型時,若所含參數(shù)數(shù)目相同,此值越小越好;若所含參數(shù)數(shù)目不相同,含參數(shù)數(shù)目多的回歸模型的“-2log(L)”的數(shù)值必須明顯小于含參數(shù)數(shù)目少的回歸模型的“-2log(L)”的數(shù)值(即上述檢驗(yàn)結(jié)果為P<0.05),則應(yīng)選取含參數(shù)數(shù)目多的回歸模型。否則,應(yīng)選擇含參數(shù)數(shù)目少的回歸模型。
在生存資料參數(shù)回歸模型中,圖示法幫助我們選擇合適的概率分布,擬合優(yōu)度檢驗(yàn)幫助我們確定嵌套模型中的最優(yōu)模型,兩種方法結(jié)合提供了一個有效的模型選擇方法。
相對于非參數(shù)和半?yún)?shù)回歸模型而言,參數(shù)回歸模型的結(jié)果精確度要高一些,但是,目前暫無非常精準(zhǔn)的方法判定待分析的生存資料中的生存時間究竟服從何種概率分布,這可能是生存資料參數(shù)回歸模型在實(shí)際使用中比較受限的根本原因。
本文比較詳細(xì)地介紹了三種常見的概率分布回歸模型的構(gòu)建、求解和擬合優(yōu)度的比較方法;扼要地介紹了其他幾種并非常用但很重要的概率分布回歸模型。在實(shí)際應(yīng)用過程中,應(yīng)首先采用圖示法判斷資料中的生存時間是否符合特定的概率分布,然后擬合對應(yīng)的參數(shù)回歸模型,采用最大似然法求解參數(shù),通過擬合優(yōu)度的比較,最后選擇出最優(yōu)的參數(shù)回歸模型。