殷 暢 武振宇 鄭雪瑩△
【提 要】 目的 介紹潛在類(lèi)別混合模型及其在縱向數(shù)據(jù)軌跡分析中的應(yīng)用。方法 以一項(xiàng)限制能量攝入的隨機(jī)對(duì)照臨床試驗(yàn)為例,應(yīng)用潛在類(lèi)別混合模型進(jìn)行軌跡分析,結(jié)合貝葉斯信息準(zhǔn)則、平均后驗(yàn)概率及高后驗(yàn)概率個(gè)體所占比例判斷最佳軌跡數(shù)目及形狀。結(jié)果 四組三次模型最優(yōu),人群分為四類(lèi)減重模式:高體重快速減重組、低體重快速減重組、高體重緩慢減重組及對(duì)照組。結(jié)論 潛在類(lèi)別混合模型既能識(shí)別群體中的異質(zhì)性,又能考慮到類(lèi)別內(nèi)個(gè)體發(fā)展軌跡,有望廣泛應(yīng)用于縱向數(shù)據(jù)的處理分析。
流行病學(xué)研究經(jīng)常關(guān)注某指標(biāo)隨時(shí)間變化的情況,并對(duì)該指標(biāo)在不同時(shí)間點(diǎn)進(jìn)行測(cè)量,由此得到的每個(gè)研究對(duì)象在不同時(shí)間點(diǎn)的測(cè)量值集合稱(chēng)為縱向數(shù)據(jù)[1]。與分析群體平均值或隨訪(fǎng)數(shù)據(jù)與基線(xiàn)數(shù)據(jù)的差值相比,分析數(shù)據(jù)縱向變化特征更能反映研究指標(biāo)的發(fā)生發(fā)展?fàn)顩r,從而為尋找疾病控制的敏感期提供科學(xué)依據(jù)。處理縱向數(shù)據(jù)常用的方法有混合效應(yīng)模型、廣義估計(jì)方程、多水平模型、重復(fù)測(cè)量設(shè)計(jì)的方差分析等[2],可擬合研究指標(biāo)隨時(shí)間變化軌跡,描述發(fā)展趨勢(shì)。而上述方法均假定研究對(duì)象的發(fā)展具有同質(zhì)性,即群體內(nèi)的所有個(gè)體遵循相似的發(fā)展規(guī)律,這一假設(shè)在現(xiàn)實(shí)中難以滿(mǎn)足。如群體內(nèi)有潛在的亞組在不同時(shí)期存在不同的變化模式,采用前述方法難以識(shí)別。
軌跡分析是流行病學(xué)領(lǐng)域新興的一種分析方法。它根據(jù)個(gè)體測(cè)量的縱向數(shù)據(jù),將其劃分為具有不同發(fā)展模式的潛在類(lèi)別,從而更好地描述隨時(shí)間推移研究指標(biāo)在個(gè)體內(nèi)和個(gè)體間的變異性和模式[3]。常用于縱向數(shù)據(jù)的軌跡分析模型有以下三種:潛在轉(zhuǎn)變分析(latent transition analysis,LTA)、基于組的軌跡模型(group-based trajectory models,GBTM)和潛在類(lèi)別混合模型(latent class mixed model,LCMM)。三者均假設(shè)總體中存在有限個(gè)未觀(guān)測(cè)到的具有相似發(fā)展模式的潛在類(lèi)。LTA用于多分類(lèi)變量的縱向數(shù)據(jù)分析,GBTM和LCMM可兼顧分類(lèi)變量與連續(xù)型變量[3]。在軌跡分析中,將固定效應(yīng)定義為每個(gè)潛類(lèi)別的平均參數(shù)(截距和斜率),隨機(jī)效應(yīng)則表示個(gè)體參數(shù)與類(lèi)平均參數(shù)的差異。GBTM假設(shè)不同類(lèi)別間的固定效應(yīng)不同,類(lèi)別內(nèi)的個(gè)體有相同的固定效應(yīng);LCMM則是GBTM的更一般形式:不同類(lèi)別間的固定效應(yīng)不同,類(lèi)別內(nèi)個(gè)體在固定效應(yīng)相同的基礎(chǔ)上還有不同的隨機(jī)效應(yīng)。相較于LTA與GBTM,LCMM兼顧類(lèi)別間的異質(zhì)性和類(lèi)別內(nèi)的個(gè)體效應(yīng),擬合更為準(zhǔn)確。近年來(lái),國(guó)內(nèi)學(xué)者用軌跡分析方法探究縱向隊(duì)列中研究對(duì)象身體質(zhì)量指數(shù)[4-8]、血壓[9-10]、腫瘤標(biāo)志物[11-12]、生活質(zhì)量[13]等重復(fù)測(cè)量指標(biāo)的潛在發(fā)展軌跡,并分析不同軌跡與相應(yīng)結(jié)局的關(guān)聯(lián)。本文對(duì)LCMM進(jìn)行介紹,并結(jié)合實(shí)例說(shuō)明其應(yīng)用,為相關(guān)專(zhuān)業(yè)人員提供參考。
1.基本思想與模型概述
LCMM基于潛變量分析(latent variable analysis)和增長(zhǎng)混合模型(growth mixed model,GMM)。假設(shè)群體中有若干不可觀(guān)測(cè)到的潛在類(lèi)別(定義為分組變量),計(jì)算個(gè)體屬于不同類(lèi)別的概率,實(shí)現(xiàn)對(duì)群體的分組。對(duì)縱向數(shù)據(jù)部分的處理則基于GMM:類(lèi)別間有不同的固定效應(yīng),類(lèi)別內(nèi)個(gè)體之間有隨機(jī)效應(yīng)[14]。因此,LCMM可以在考慮類(lèi)別內(nèi)個(gè)體差異的基礎(chǔ)上估計(jì)固定效應(yīng),進(jìn)而擬合出不同軌跡組的增長(zhǎng)曲線(xiàn)。
基于潛變量分析,可根據(jù)研究對(duì)象屬于各個(gè)潛在類(lèi)別的概率,將有相似發(fā)展模式的個(gè)體歸為一類(lèi)。假設(shè)N個(gè)研究對(duì)象有G個(gè)異質(zhì)的潛在類(lèi)別,每個(gè)研究對(duì)象i有且僅有一個(gè)歸屬類(lèi)別g(g=1,…,G)。用離散隨機(jī)變量ci=g(g=1,…,G)定義研究對(duì)象i屬于類(lèi)別g,其概率πig可用包含協(xié)變量Xci的多項(xiàng)式logistic回歸模型描述:
(1)
其中ξ0g是類(lèi)別g的截距項(xiàng),ξ1g是與協(xié)變量Xci相關(guān)的類(lèi)特定參數(shù)[14]。
基于GMM,可估計(jì)類(lèi)特定的固定效應(yīng)及類(lèi)別內(nèi)個(gè)體的隨機(jī)效應(yīng)。以高斯分布的變量為例,類(lèi)別g中的個(gè)體i在時(shí)刻j的測(cè)量值Yij可以表示為:
Yij|ci=g=XL1i(tij)Tβ+XL2i(tij)Tυg+Zi(tij)Tμig+ωi(tij)+ij
(2)
2.參數(shù)估計(jì)與分析步驟
LCMM采用最大似然法對(duì)參數(shù)進(jìn)行估計(jì),并用迭代MarQuardt算法獲得最優(yōu)解。該方法受初始值影響較大,在分析過(guò)程中需要嘗試設(shè)置不同初始值來(lái)避免模型獲得局部最優(yōu)解而收斂[14]。
在應(yīng)用LCMM前可結(jié)合專(zhuān)業(yè)背景及先驗(yàn)知識(shí)判斷總體中異質(zhì)性的存在。在此之后,通常需要遍歷公式(2)中協(xié)變量XL1、XL2和Z的線(xiàn)性、二次和三次形式,每種形式分別擬合1~6組。為了確定最佳的軌跡數(shù)目和形狀,采用以下標(biāo)準(zhǔn)進(jìn)行篩選和判斷:(1)貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)越低越好;(2)各類(lèi)別平均后驗(yàn)概率大于0.7;(3)各類(lèi)別中高后驗(yàn)概率(大于0.7)的個(gè)體占比超過(guò)65%。
常用R軟件中的LCMM Package進(jìn)行分析。LCMM Package中包含hlme、lcmm、multlcmm、jointlcmm等主要函數(shù)。hlme函數(shù)用于擬合潛在類(lèi)別線(xiàn)性混合模型;lcmm在hlme的基礎(chǔ)上增加了link函數(shù),將可分析數(shù)據(jù)類(lèi)型擴(kuò)展到非高斯分布的變量;multlcmm為多變量分析函數(shù);jointlcmm則將潛在類(lèi)別混合模型與生存模型結(jié)合起來(lái)[14]。使用者可根據(jù)數(shù)據(jù)類(lèi)型選擇函數(shù),本文以lcmm函數(shù)為例進(jìn)行結(jié)果展示。
1.數(shù)據(jù)來(lái)源
本研究數(shù)據(jù)來(lái)源于2011-2013年間能量攝入限制影響綜合評(píng)估(comprehensive assessment of long-term effects of reducing intake of energy,CALERIE)的二期研究。它是一項(xiàng)多中心隨機(jī)對(duì)照試驗(yàn),也是第一個(gè)專(zhuān)門(mén)關(guān)注人類(lèi)持續(xù)能量攝入限制(calorie restriction,CR)影響的研究。CALERIE試驗(yàn)對(duì)生理、心理、生活質(zhì)量和認(rèn)知功能進(jìn)行全面評(píng)估,證明了人類(lèi)持續(xù)CR(至少兩年)的可行性和對(duì)長(zhǎng)壽、心血管及代謝相關(guān)疾病的有利影響。CALERIE共招募了220名非肥胖健康研究對(duì)象,按照2∶1的比例隨機(jī)分配至能量攝入限制(calorie restriction,CR)組(n=145)和隨意飲食(ad libitum diet,AL)組(n=75),限制組兩年間每日能源攝入量相對(duì)基線(xiàn)水平減少25%,對(duì)照組隨意飲食。分別在干預(yù)開(kāi)始后的第1,3,6,9,12,18,24個(gè)月測(cè)量體重[15]。在實(shí)際數(shù)據(jù)分析中,按照一定納入排除標(biāo)準(zhǔn)(至少有基線(xiàn)數(shù)據(jù)、3~6個(gè)月之間的一次測(cè)量數(shù)據(jù)、12~24個(gè)月之間的一次測(cè)量數(shù)據(jù)),共納入研究對(duì)象200人。其中男性60名,女性140名。
2.統(tǒng)計(jì)分析
用LCMM識(shí)別體重變化的不同發(fā)展模式,體重變化軌跡設(shè)置為隨訪(fǎng)時(shí)間的多項(xiàng)式函數(shù)。遍歷了多項(xiàng)式函數(shù)的線(xiàn)性、二次和三次形式,考慮到研究人群數(shù)量不多,為了避免某一潛在類(lèi)別人數(shù)占比過(guò)低,每種形式分別擬合1~5組。以1組三次的模型參數(shù)作為起始值,按照前述標(biāo)準(zhǔn)篩選最優(yōu)模型。采用LCMM package(版本1.9.3)中的“l(fā)cmm”函數(shù)擬合模型,軟件為R 4.1.0。
3.結(jié)果
志愿者以白種人為主,占總?cè)藬?shù)的77%;其次為黑種人(12.5%),亞裔(6.5%)及其他(4%)?;€(xiàn)平均身高為168.71cm,平均年齡為38.16歲。
表1為L(zhǎng)CMM模型擬合結(jié)果。結(jié)合前述判斷標(biāo)準(zhǔn),4組三次模型為最佳模型,即:
表1 潛在類(lèi)別混合模型(LCMM)擬合過(guò)程
Y(ij|ci=g)=(υ0g+μ0ig)+(υ1g+μ1ig)time+(υ2g+μ2ig)time2+(υ3g+μ3ig)time3+ij
其中,Y為高斯縱向結(jié)果體重(單位:千克),time為隨訪(fǎng)時(shí)間(單位:月),υ=(υ0g,υ1g,υ2g,υ3g)為類(lèi)別g的固定效應(yīng)系數(shù),μ=(μ0ig,μ1ig,μ2ig,μ3ig)為類(lèi)別g中個(gè)體i的隨機(jī)效應(yīng)系數(shù),ij為隨機(jī)誤差。
圖1所示為最優(yōu)模型中不同亞組體重變化的軌跡曲線(xiàn)。根據(jù)體重的水平和變化速度,四個(gè)軌跡組分別命名為:高體重快速減重組(24%)、低體重快速減重組(42%)、高體重緩慢減重組(2.5%)和對(duì)照組(31.5%)。高體重快速減重組(n=48)平均從77kg開(kāi)始,六個(gè)月快速減重8kg,之后維持不變,在CR后14個(gè)月開(kāi)始產(chǎn)生較少的體重回漲,之后維持不變。在能量攝入限制后,低體重快速減重組(n=84)平均從68kg開(kāi)始,六個(gè)月快速減重6kg,之后維持不變,后續(xù)變化與高體重快速減重組類(lèi)似。高體重緩慢減重組(n=5)平均從80kg開(kāi)始緩慢減重,在18個(gè)月之后體重減少約10kg,之后開(kāi)始有反彈的回漲趨勢(shì)。但因高體重受試者人數(shù)較少,能量攝入限制后的體重變化軌跡有待進(jìn)一步驗(yàn)證。對(duì)照組(n=63)體重平均變化幅度很小,未進(jìn)行能量攝入的干涉,為CALERIE實(shí)驗(yàn)的對(duì)照組。緩慢減重組在CR開(kāi)始時(shí)體重下降速度較緩,但在長(zhǎng)時(shí)間堅(jiān)持后也能達(dá)到和快速減重組同樣的效果。持續(xù)性25%能量攝入限制的效果不因減重模式不同而不同。
圖1 體重變化軌跡分組
CALERIE試驗(yàn)有關(guān)的既往研究采用重復(fù)測(cè)量協(xié)方差分析的方法,認(rèn)為相較對(duì)照組而言,限制組的核心體溫并無(wú)顯著變化,靜息代謝率僅在一年內(nèi)有所下降[16];骨密度變化微小,與所降低體重相符[17];男性去脂體重下降百分比顯著高于女性[18];對(duì)睡眠質(zhì)量無(wú)影響[17]。在軌跡分組的基礎(chǔ)上擬合混合效應(yīng)模型,納入性別、年齡為協(xié)變量進(jìn)行分析,發(fā)現(xiàn)四組之間核心體溫?zé)o明顯差異,而低體重快速減重組調(diào)整后的靜息代謝率顯著低于其他三組,這可能與體重基數(shù)小有關(guān);高體重快速減重組、低體重快速減重組和對(duì)照組之間的去脂體重兩兩都有差異,可能因?yàn)榈腕w重快速減重組的男性占比(15.48%)顯著低于另外兩組(高體重快速減重組56.25%,對(duì)照組28.57%);四組之間的骨密度、睡眠質(zhì)量均無(wú)明顯差異。因此,保證營(yíng)養(yǎng)足夠的前提下,25%能量攝入限制是安全無(wú)害的,不同的減重模式并不影響這一結(jié)論。
LCMM假設(shè)已知的總體中含有限個(gè)未被觀(guān)測(cè)到的潛在類(lèi)別。不同類(lèi)別之間有不同的發(fā)生發(fā)展模式,同一類(lèi)別內(nèi)的個(gè)體是相似的。相較常用的縱向數(shù)據(jù)處理方法,LCMM既能捕捉人群中不同潛在類(lèi)別的異質(zhì)性,又考慮到類(lèi)別內(nèi)個(gè)體的隨機(jī)效應(yīng),從而更為準(zhǔn)確地刻畫(huà)并描述生長(zhǎng)曲線(xiàn)。在使用LCMM分析數(shù)據(jù)前,應(yīng)該考慮數(shù)據(jù)缺失的情況。有模擬研究表明,隨機(jī)缺失情況下對(duì)結(jié)果的影響不大,非隨機(jī)缺失的數(shù)據(jù)應(yīng)盡量降低其缺失率[19]。LCMM Package默認(rèn)刪除缺失的觀(guān)測(cè),同時(shí)假設(shè)用GMM模型擬合個(gè)體縱向發(fā)展趨勢(shì)時(shí)數(shù)據(jù)為隨機(jī)缺失(missing at random)[20]。因此,在分析數(shù)據(jù)前應(yīng)根據(jù)研究目的與數(shù)據(jù)質(zhì)量進(jìn)行合理的篩選或插補(bǔ)。
除了遍歷的方法,Hannah Lennon開(kāi)發(fā)了軌跡分析的八步法框架:先確認(rèn)最佳組數(shù),再確定多項(xiàng)式的形狀,最后進(jìn)行敏感性分析[21]。該方法是一種漸進(jìn)式建模法,最終模型的構(gòu)建建立在每一步的合理與恰當(dāng)上,要求研究者對(duì)數(shù)據(jù)本身和研究背景充分掌握,且確保建模過(guò)程中每一步的有效性。而LCMM的一些參數(shù)設(shè)置具有主觀(guān)性,設(shè)置不恰當(dāng)會(huì)改變最終的分析結(jié)果。因此,探索性的遍歷法在可操作性與靈活性方面更具優(yōu)勢(shì)。分析過(guò)程中,前述的判別準(zhǔn)則并不是唯一的,一些研究也會(huì)考慮熵(entropy)、赤池信息準(zhǔn)則(akaike information criterion,AIC)、對(duì)數(shù)似然比等作為選擇最佳軌跡數(shù)目及形狀的依據(jù)[22]。
流行病學(xué)研究中,分出潛在類(lèi)別并不是終點(diǎn)。很多研究會(huì)繼續(xù)探究影響軌跡分組的預(yù)測(cè)因素;或是將分組作為自變量,納入?yún)f(xié)變量后分析其與結(jié)局指標(biāo)之間的聯(lián)系,常用Cox模型(生存數(shù)據(jù))、logistic回歸模型等。有的研究根據(jù)個(gè)體發(fā)展的軌跡參數(shù),探討疾病發(fā)生發(fā)展過(guò)程的敏感期,為疾病控制提供科學(xué)依據(jù);還可以識(shí)別特殊的亞群,更好地探究病因?qū)W關(guān)聯(lián)[21]。
綜上所述,LCMM能更加準(zhǔn)確地?cái)M合群體中個(gè)體的變化軌跡,又能在群體中找出不可觀(guān)測(cè)的潛在類(lèi)別。有望在隊(duì)列研究等有隨訪(fǎng)的縱向數(shù)據(jù)分析中廣泛應(yīng)用。目前并沒(méi)有統(tǒng)一的使用及匯報(bào)規(guī)范,因此,應(yīng)用時(shí)須充分了解其原理、條件和注意事項(xiàng),合理解釋結(jié)果。
中國(guó)衛(wèi)生統(tǒng)計(jì)2022年4期