張晨旭 謝 峰 林 振 賀 佳 金志超△
【提 要】 在醫(yī)學(xué)研究中存在許多隨時間推移動態(tài)變化的變量。傳統(tǒng)數(shù)據(jù)處理方法通常取變量在某時點的值或某段時間的均值進(jìn)行研究和比較,但是這種做法存在一些不足,如數(shù)據(jù)信息利用不充分、結(jié)果難以反映動態(tài)過程?;诮M軌跡模型是近年來提出的研究變量隨時間變化的發(fā)展軌跡的一種方法,它在處理縱向數(shù)據(jù)中具有一些獨特優(yōu)勢。本文闡述了基于組軌跡模型的基本原理及其具體形式,并介紹了模型的最新進(jìn)展及其在應(yīng)用中的一些誤區(qū),在此基礎(chǔ)上對模型的研究趨勢進(jìn)行探討。
在醫(yī)學(xué)研究領(lǐng)域,有許多隨時間變化的變量,它們遵循不同變化過程。發(fā)展軌跡(developmental trajectory)可描述變量隨時間的變化,動態(tài)反映變量特征。傳統(tǒng)分析發(fā)展軌跡的典型方法有分層建模(hierarchical modeling)及潛在曲線分析(latent curve analysis),它們通過連續(xù)分布函數(shù)對發(fā)展軌跡進(jìn)行建模,得到變量的總體平均軌跡并揭示預(yù)測因素與個體關(guān)于平均軌跡的變化之間的聯(lián)系,但它們對總體內(nèi)包含不同發(fā)展軌跡的情形難以處理,而基于組軌跡模型(group-based trajectory model,GBTM)能夠識別總體中不同的發(fā)展軌跡,研究軌跡與預(yù)測因素或結(jié)果間的聯(lián)系。
基于組軌跡模型最早出現(xiàn)于犯罪學(xué)領(lǐng)域。Nagin[1]等應(yīng)用非參混合泊松模型對犯罪生涯進(jìn)行建模。他們隨后對模型進(jìn)行了改進(jìn),包括擴(kuò)展可用數(shù)據(jù)類型、將變量與組成員概率關(guān)聯(lián)及提出確定最優(yōu)組數(shù)量的方法,得到半?yún)⒒诮M的模型[2]。模型假定總體內(nèi)存在一些遵循相似發(fā)展軌跡的成員集群,即“組”,用不同“組”的分布集合近似總體分布,進(jìn)而用“組”間差異來反映成員特征的差異。
軌跡模型在處理縱向數(shù)據(jù)方面有獨特優(yōu)勢。首先,它能充分利用時依變量信息;其次,模型使用正式統(tǒng)計結(jié)構(gòu),能夠區(qū)分隨機(jī)變異和真實差異;同時,模型可以以圖形化的方式呈現(xiàn),既易于理解又方便不同領(lǐng)域間的交流[3]。
近年來,軌跡模型在醫(yī)學(xué)領(lǐng)域的應(yīng)用不斷豐富,包括探索總體中可能存在的亞組[4]、按基線指標(biāo)分層研究分組與結(jié)果間的聯(lián)系[5]、揭示分組與基線協(xié)變量及預(yù)后結(jié)果之間的關(guān)聯(lián)[6]、研究協(xié)變量與分組對結(jié)果影響的交互作用[7]、應(yīng)用基于組多軌跡建模(group-based multitrajectory modelling)根據(jù)多種指標(biāo)識別分組[8]、依據(jù)病人分組進(jìn)行預(yù)測研究[9]等。
1.基本模型
基于組軌跡模型有兩個基本成分:(1)每組的預(yù)測軌跡;(2)總體中隨機(jī)選擇的成員屬于每個組的概率。
用Yi={yi1,yi2,…,yiT}表示成員i在T時間內(nèi)指標(biāo)的縱向測量值。假定總體中存在j個相互離散的組。以P(Yi)表示Yi的概率,有:
(1)
式中πj表示總體中隨機(jī)選擇的成員屬于組j的概率,Pj(Yi)表示成員在組j時得到Y(jié)i的概率,即Yi的概率分布函數(shù)。
基于組軌跡模型假定變量值在時間線上具有條件獨立性(conditional independence),即軌跡組j中的成員在t時間的變量值yit獨立于其在之前時間的值yit-1,yit-2,…,因此:
(2)
式中pj(yit)為給定成員在組j時yit的概率分布函數(shù)。進(jìn)行條件獨立假定可簡化建模過程。
模型的參數(shù)通常由極大似然估計法(maximum likelihood estimate,MLE)估計得到。實際應(yīng)用時,式(1)中Pj(Yi)的具體形式一般由數(shù)據(jù)類型決定。
(1)似然函數(shù)的具體形式
在建模之前,需要對數(shù)據(jù)的分布形式加以指定,模型處理不同類型數(shù)據(jù)時需要兩個關(guān)鍵成分:(1)描述數(shù)據(jù)分布特性的函數(shù);(2)變量值與年齡(或時間)的函數(shù),即鏈接函數(shù)(link function)。
(3)
(4)
Smin和Smax分別為數(shù)據(jù)的最小值與最大值。由正態(tài)分布累積密度函數(shù)可得:
(5)
當(dāng)數(shù)據(jù)服從泊松分布時,鏈接函數(shù)為:
(6)
相應(yīng)的概率分布函數(shù)為:
(7)
式中pj(yit)表示yit取任意非負(fù)整數(shù)值的概率。每種可能結(jié)果的概率取決于t時間所有成員的事件平均發(fā)生率λjt。
對于遵循二分類邏輯分布(logit distribution)的數(shù)據(jù),同樣借用潛變量處理:
(8)
(9)
除上述三種數(shù)據(jù)類型外,其他數(shù)據(jù)也可用基于組方法來處理,Elmer[10]等探討了將基于組軌跡模型應(yīng)用于不服從正態(tài)分布但符合β分布的定量數(shù)據(jù)。結(jié)果表明,數(shù)據(jù)得到良好的擬合。這類研究拓展了基于組軌跡模型的應(yīng)用范圍。
(2)組成員概率
式(1)中組成員概率πj表示總體中屬于組j的成員比例,即隨機(jī)選擇的成員遵循組j軌跡的概率,通常以如下形式指定:
(10)
其中θj,j=1,2,3,…,J為要估計的參數(shù),這種形式可以保證πj取值在0和1之間且所有πj總和為1。
2.組數(shù)量及多項式階數(shù)選擇
基于組軌跡模型目的是識別遵循不同軌跡的組。在建模之前,通常需要選擇模型組數(shù)及鏈接函數(shù)的多項式階數(shù)。常用的選擇過程分為兩步,首先為所有組指定固定的多項式階數(shù),依據(jù)標(biāo)準(zhǔn)判斷最優(yōu)組數(shù),然后固定組數(shù)選擇最優(yōu)多項式階數(shù)。
判斷組數(shù)的標(biāo)準(zhǔn)有客觀標(biāo)準(zhǔn)和主觀標(biāo)準(zhǔn)。用于判斷混合模型中最優(yōu)成分?jǐn)?shù)量的客觀標(biāo)準(zhǔn)很多。包括假設(shè)檢驗、信息標(biāo)準(zhǔn)、分類標(biāo)準(zhǔn)、最低信息比率標(biāo)準(zhǔn)[11]。目前軌跡模型尚無公認(rèn)最優(yōu)客觀標(biāo)準(zhǔn),但已發(fā)表文獻(xiàn)中貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)應(yīng)用較多:
BIC=log(L)-0.5klog(N)
(11)
BIC平衡了組數(shù)增加時模型復(fù)雜性的增加及擬合性能的改善。通常選擇BIC值最大的組數(shù)及多項式階數(shù),對不同BIC值的備選模型進(jìn)行判斷時,可根據(jù)量表選擇最優(yōu)模型[12]。
通常情況下客觀標(biāo)準(zhǔn)可作為建模依據(jù),但主觀判斷亦必不可少。當(dāng)BIC值隨組數(shù)增加單調(diào)遞增時用客觀標(biāo)準(zhǔn)難以作出判斷,可結(jié)合專業(yè)知識指定組數(shù)或多項式階數(shù)。最終模型應(yīng)在充分呈現(xiàn)數(shù)據(jù)特征的同時兼具簡潔性[3]。
許多學(xué)者針對模型組數(shù)選擇及數(shù)據(jù)分布假定作了深入研究。Klijn[13]等基于R軟件開發(fā)了一種圖形化的工具——擬合標(biāo)準(zhǔn)分析圖(fit-criteria assessment plot,F(xiàn)-CAP)。它可簡化備選模型的分類列舉過程并圖形化地呈現(xiàn)不同組數(shù)下各指標(biāo)值的變化,從而輔助選擇最優(yōu)組數(shù)。Elsensohn[14]等提出了用包絡(luò)圖(envelope plot)來評估模型分布假定的方法。他們對四種不同分布情形進(jìn)行了模擬分析,結(jié)果表明通過檢查包絡(luò)圖中變異區(qū)間寬度及上下限線條平行程度可以直觀地驗證殘差的方差齊性假定。Shah[15]等提出了兩種模型判別指標(biāo):判別指數(shù)(discrimination index)和修正熵(modified entropy)。它們可以快速有效地識別模型結(jié)果中可能不屬于某組的成員。
軌跡模型通常作出條件獨立性、組間方差齊性及方差的時間穩(wěn)定性假定。Davies[16]等探索了違背上述假定情形下模型的性能。他們對潛在分類增長分析(latent class growth analysis,LCGA)、增長混合建模(growth mixture modelling,GMM)和多元高斯混合建模(multivariate Gaussian mixture modelling,MGMM)3種建模方法下的18種情形進(jìn)行了模擬研究,結(jié)果表明在違背假定的情形下應(yīng)用基于傳統(tǒng)假定的方法如LCGA及MGMM進(jìn)行建模會產(chǎn)生較大的誤分類,這時應(yīng)用GMM進(jìn)行建??赡芨谩?/p>
3.組成員后驗概率
組成員后驗概率(posterior probabilities of group membership)表示具有某些特征的成員屬于軌跡組j的概率。后驗概率有重要意義,它不僅為組分配提供了客觀依據(jù),也可以用來創(chuàng)建軌跡組成員描述(profile)及評估模型的數(shù)據(jù)擬合質(zhì)量,還可作為權(quán)重計算軌跡組成員結(jié)果期望值或探索協(xié)變量與分組間的聯(lián)系。
(12)
4.模型的擴(kuò)展
(1)包含協(xié)變量
變量特征不同的成員可能遵循不同的發(fā)展軌跡。模型通??杉{入兩種協(xié)變量:普通協(xié)變量和時依協(xié)變量。普通協(xié)變量是模型建立前就存在且固定不變的變量,時依協(xié)變量值可隨時間而變。二者在模型構(gòu)建過程中有所區(qū)別。
在模型中納入?yún)f(xié)變量常用三步法[3]。首先,在基礎(chǔ)模型中確定最優(yōu)組數(shù)和多項式階數(shù)。其次,識別協(xié)變量對分組的影響是否顯著,可以通過基于z分?jǐn)?shù)的檢驗及Wald檢驗判斷協(xié)變量系數(shù)是否有意義及組間差異是否有意義。最后,聯(lián)合估計參數(shù),得到最終模型。
除三步法外,也有學(xué)者進(jìn)行了其他方法的探索。Block[17]等提出了“一步法(one-step approach)”,這種方法解決了三步法可能低估協(xié)變量與組成員間關(guān)聯(lián)的問題。Davies[18]等使用Mplus模擬比較了6種納入?yún)f(xié)變量的方法,結(jié)果表明所有方法中一步法偏倚最小,但由于計算的復(fù)雜性會隨協(xié)變量增加而加大,一步法有時難以實現(xiàn),其他方法中,I3S方法的表現(xiàn)較好。在應(yīng)用中可根據(jù)研究目的和數(shù)據(jù)特點進(jìn)行方法選擇。
(2)雙軌跡模型和多軌跡模型
在醫(yī)學(xué)研究中,經(jīng)常會遇到需要探索縱向數(shù)據(jù)變量之間關(guān)系的情形,雙軌跡模型(dual trajectory model)和多軌跡模型(multi-trajectory model)可處理此類問題。
雙軌跡模型可以研究兩變量間的關(guān)聯(lián)。它通常為每個單獨的變量建立軌跡模型,然后通過兩變量不同組的兩兩關(guān)聯(lián)概率將兩模型相聯(lián)系。與基礎(chǔ)模型相比,它能夠探索兩變量關(guān)聯(lián)的具體形式。
當(dāng)研究兩個以上變量間關(guān)系時,可應(yīng)用多軌跡模型,它與雙軌跡模型在形式上有所區(qū)別。雙軌跡模型在變量組數(shù)較多時關(guān)聯(lián)概率數(shù)量龐雜且難以解釋,而多軌跡模型可以構(gòu)建包含所有變量的模型,模型每個軌跡組都由多條軌跡構(gòu)成,每條軌跡對應(yīng)一種變量。這種建模形式可以簡化模型并提高可解釋性[19]。
Nagin[20]等構(gòu)建了多軌跡模型的似然函數(shù)并用實例呈現(xiàn)了建模過程。首先為每個指標(biāo)變量分別建立軌跡模型,觀察每個模型的組數(shù)及特點,然后按照能夠呈現(xiàn)變量數(shù)據(jù)特征及使擬合指標(biāo)達(dá)到最優(yōu)的原則,在模型充分性指標(biāo)的約束下,確定最終模型。
5.模型實現(xiàn)
目前主流的統(tǒng)計軟件SAS、R及stata均可實現(xiàn)基于組軌跡模型。其中SAS中Traj過程步的應(yīng)用比較常見[12],Stat常用Traj包進(jìn)行建模[21],R中也可通過擴(kuò)展包實現(xiàn)(表1)。
表1 三種統(tǒng)計軟件對基于組軌跡模型的實現(xiàn)
基于組軌跡模型在處理縱向數(shù)據(jù)時有許多優(yōu)勢,但在應(yīng)用中也存在一些誤區(qū)。
首先,對模型中“組”的理解?!敖M”是一種統(tǒng)計虛構(gòu),而非客觀事實,模型分組信息要和具體事實相區(qū)分。例如臨床研究中針對某項指標(biāo)建立模型并給予病人分組并不意味著病人一定屬于疾病某個亞型。軌跡模型是數(shù)據(jù)驅(qū)動的,它更傾向于呈現(xiàn)數(shù)據(jù)特征,且模型中組的數(shù)量并非固定不變[22]。
其次,根據(jù)后驗概率分組存在不確定性。在建模過程中,每個成員都依最大后驗概率分配到某個組。雖然模型診斷指標(biāo)有組均后驗概率不小于0.7的限制,但同一組中以不同概率分配到該組的成員間分組確定性不同。忽視不確定性直接進(jìn)行分析會帶來諸多問題[3]。將分組作為變量進(jìn)行分析時,應(yīng)對這種不確定性加以考慮。
基于組軌跡模型由于其對縱向數(shù)據(jù)處理的優(yōu)勢,目前正在醫(yī)學(xué)領(lǐng)域得到越來越廣泛的應(yīng)用,相比傳統(tǒng)數(shù)據(jù)處理方法,它可以從縱向數(shù)據(jù)中識別出不同的發(fā)展軌跡進(jìn)而為臨床診療提供參考,因此對模型理論體系及其應(yīng)用進(jìn)行深入探索非常有意義。本文闡述了基于組軌跡模型基本理論及其最新進(jìn)展,并在此基礎(chǔ)上討論了模型應(yīng)用中容易陷入的誤區(qū)。
目前,基于組軌跡模型在應(yīng)用中仍然存在諸多問題。首先,組數(shù)選擇尚缺乏統(tǒng)一的最優(yōu)判斷標(biāo)準(zhǔn)。其次,現(xiàn)有關(guān)于模型結(jié)果報告的可用指南較少[23],對模型在醫(yī)學(xué)領(lǐng)域中應(yīng)用的指導(dǎo)有待完善[24]。同時,模型對缺失數(shù)據(jù)的處理方法不夠成熟,已發(fā)表文獻(xiàn)探索了模型在非隨機(jī)缺失機(jī)制下的實現(xiàn)[25],但在其他類型缺失機(jī)制方面仍待探索。此外,模型擴(kuò)展形式,如多軌跡模型,在選擇組數(shù)時操作復(fù)雜且缺少客觀標(biāo)準(zhǔn),尚需深入研究。