謝雁鳴 蔡博婧 田 峰 易丹輝 虞 鯤 康 澍 李建鵬 崔慶榮
絕經(jīng)后骨質(zhì)疏松癥(postmenopausal osteoporosis,PMOP)是目前患病率最高的慢病之一,在40~65歲婦女中有很高的患病率。如何判別PMOP的發(fā)生風(fēng)險,針對其危險因素采取有效的預(yù)防性干預(yù)措施,是防治PMOP的關(guān)鍵。由于中醫(yī)證候要素的復(fù)雜性,以及危險因素與骨密度(bone mineral density,BMD)定性診斷之間可能存在著某種非線性關(guān)系,運用logistic回歸模型等線性模型擬合效果不佳。廣義偏線性模型(generalized partial linear model,GPLM)是廣義線性模型(generalized linear model,GLM)的擴展,有機結(jié)合廣義線性模型的優(yōu)點與連續(xù)數(shù)值變量的非參數(shù)特點,增加判別模型的靈活性,避免因非參數(shù)形式過多而造成的估計困難,可以清楚地展示出特定變量的非線性作用。本文運用GPLM進行40~65歲絕經(jīng)后骨質(zhì)疏松癥風(fēng)險判別模型探索性研究。
1.資料來源 2009年3月至8月,在上海市和北京市社區(qū)進行PMOP高危人群篩選,對符合納入標準的人員進行現(xiàn)場問卷調(diào)查。研究人員在上海社區(qū)發(fā)放問卷1101份,返回問卷1027份,其中合格問卷1001份,占90.92%;在北京社區(qū)發(fā)放問卷800份,返回問卷763份,其中合格問卷739份,占92.38%。
2.研究方法
(1)PMOP調(diào)查問卷的設(shè)計
在課題組前期研究基礎(chǔ)上,根據(jù)量表學(xué)和臨床流行病學(xué)方法,結(jié)合骨質(zhì)疏松癥專家的臨床經(jīng)驗,制定了《40~65歲婦女骨質(zhì)疏松危險因素及證候調(diào)查問卷》。整個問卷包括一般信息、生活習(xí)慣、發(fā)病相關(guān)因素、軀體狀況、臨床體征等五個領(lǐng)域的內(nèi)容,共65個條目,為封閉式設(shè)計。在調(diào)查實施前,由獨立的中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所倫理委員會對問卷內(nèi)容進行論證,認為符合醫(yī)學(xué)倫理要求。
(2)調(diào)查人群篩選標準
納入標準 ①女性;②年齡40~65歲;③意識清楚,可用言辭表達,有閱讀能力,與調(diào)查人員溝通無障礙者;④經(jīng)調(diào)查人員說明研究目的后,本人愿意接受問卷調(diào)查和BMD檢測,并在“卷首頁”簽名同意者。
排除標準 ①藥物或其他疾病(如糖尿病、化膿性脊髓炎、腎炎、甲亢等)引起的繼發(fā)性骨質(zhì)疏松癥;②有惡性腫瘤、痛風(fēng)、類風(fēng)濕性關(guān)節(jié)炎等疾病,影響中醫(yī)證候判斷者;③精神障礙、認知障礙者。
(3)PMOP診斷標準
根據(jù)《中醫(yī)內(nèi)科常見病診療指南:西醫(yī)疾病部分》〔1〕中的 PMOP定性診斷標準,取腰椎 L1-L4、股骨頸、股骨全區(qū)3個部位的最小T值,T值≥M-1SD為骨量正常,M-1SD~-2.0SD為骨量減少,≤M-2.0SD以上為骨質(zhì)疏松癥。
(4)統(tǒng)計分析方法和軟件
運用前期分析篩選出與PMOP發(fā)病相關(guān)的重要危險因素和中醫(yī)癥狀為協(xié)變量,以BMD定性診斷為結(jié)局變量(骨量正常和骨質(zhì)疏松),建立基于 GPLM的PMOP判別模型。數(shù)據(jù)建模通過SAS 9.2實現(xiàn)。
Marlene Muller〔2〕對 GPLM 進行了較為詳細的介紹,模型公式為:
其中,G(·)為連接函數(shù);U表示一個含有有限的p個協(xié)變量的向量,可以包含分類數(shù)值協(xié)變量和連續(xù)數(shù)值協(xié)變量,主要構(gòu)成模型中的參數(shù)部分;T是一個含有q個由連續(xù)數(shù)值變量構(gòu)成的協(xié)變量向量,m(T)為模型中的非線性部分。
當結(jié)局變量Y為取值0或1的二分類變量時,參數(shù)部分的協(xié)變量矩陣為U,非參數(shù)部分只有一個協(xié)變量T時,GPLM模型可以寫作:
其中,P表示在給定U和T下結(jié)局變量Y取值為1的概率。
1.GPLM模型非參數(shù)部分的選擇
多項logit模型篩選出來的西醫(yī)危險因素和支持向量機方法篩選出來的中醫(yī)癥狀變量中,肉類膳食、魚類膳食、飲用咖啡、是否變矮、是否絕經(jīng)、畏寒、目睛干澀、齒搖、納呆、腹脹、胸脅苦滿、夜尿次數(shù)、下肢抽筋、下肢骨痛等是二分類變量,每天鍛煉時間、懷孕次數(shù)、生產(chǎn)次數(shù)、骨折次數(shù)、駝背是多分類等級變量,考慮其與BMD定性診斷呈線性關(guān)系,放入?yún)?shù)部分。年齡、體重指數(shù)和絕經(jīng)年限是連續(xù)性數(shù)值變量,可能與BMD定性診斷之間存在非線性關(guān)系。為探索其非線性效應(yīng),運用SAS 9.2軟件PROC GAM過程步對三個變量的非參數(shù)形式分別進行檢驗,設(shè)置method=gcv,plots=components(commonaxes),epsscore=1e-6,結(jié)果見表1。
表1 GPLM模型非參數(shù)變量的檢驗
年齡和體重指數(shù)檢驗的值均接近0,且P值缺失,說明這兩個變量與BMD定性診斷沒有明顯的非線性關(guān)系,而絕經(jīng)年限與BMD定性診斷間存在明顯的非線性效應(yīng),因此將絕經(jīng)年限設(shè)為GPLM模型的非參數(shù)部分,年齡和體重指數(shù)則放入?yún)?shù)部分。
2.GPLM模型參數(shù)部分估計
按α=0.05的標準,對于參數(shù)部分變量運用“逐步后退法”剔除,直到所有的參數(shù)估計都通過假設(shè)檢驗,GPLM模型參數(shù)部分的估計結(jié)果見表2。
從表2中可知,體重指數(shù)的系數(shù)為-0.15805,與PMOP的發(fā)生風(fēng)險呈負相關(guān),體重指數(shù)每增加1,發(fā)生PMOP的風(fēng)險概率是增加之前的Exp(-0.15805)=0.85381倍。是否絕經(jīng)、下肢抽筋和下肢骨痛的系數(shù)分別為:1.14182,0.36149和0.32267,與 PMOP的發(fā)生風(fēng)險呈正相關(guān);已絕經(jīng)婦女發(fā)生PMOP的風(fēng)險概率是未絕經(jīng)婦女的Exp(1.14182)=3.1325倍;有“下肢抽筋”癥狀的婦女發(fā)生骨質(zhì)疏松的概率比沒有該癥狀的婦女要高,比值比(odds ratio,OR)=Exp(0.36149)=1.4355;有“下肢骨痛”癥狀的婦女發(fā)生PMOP的風(fēng)險概率比沒有該癥狀的婦女要高,OR=Exp(0.32267)=1.3808。
表2 GPLM模型線性部分參數(shù)估計
3.GPLM模型非參數(shù)部分估計
經(jīng)檢驗絕經(jīng)年限對在模型中的非線性效應(yīng)具有統(tǒng)計意義(χ2=13.5948,P=0.0012)。
為直觀展現(xiàn)“絕經(jīng)年限”對PMOP發(fā)生風(fēng)險概率的非線性效應(yīng),繪制smoothing component plots圖,如圖1所示。
圖1 絕經(jīng)年限的非線性效應(yīng)圖
4.GPLM模型的判別效果
接收者工作特征曲線(receiver operating characteristic curve,ROC)因其不受患病率和診斷截斷值的影響、且綜合了靈敏度和特異度兩個指標,成為評價診斷試驗準確度的最佳指標〔3〕。通過ROC曲線下面積(area under the ROC curve,AUC)可以直接反映診斷試驗價值的大小〔4〕。這里運用ROC曲線來評價模型的判別準確性。用“是否絕經(jīng)”、“下肢抽筋”、“下肢骨痛”“體重指數(shù)”4個危險因素和中醫(yī)癥狀作為協(xié)變量,與結(jié)局變量(BMD定性診斷)擬合線性logistic回歸模型,其AUC值為0.7536。擬合GPLM模型時加入了“絕經(jīng)年限”的非線性效應(yīng),其AUC值為0.7971,提高了PMOP高危人群發(fā)病風(fēng)險的判別準確率,見表3。
表3 兩種模型的ROC曲線比較分析
經(jīng)檢驗,帶有非線性效應(yīng)的GPLM模型要優(yōu)于線性 logistic回歸模型(χ2=21.9162,P <0.001),見圖2。
圖2 logistic模型和GPLM模型的ROC曲線比較圖
1.GPLM 模型的優(yōu)點
在醫(yī)學(xué)研究中,GLM 模型〔5-7〕根據(jù)相關(guān)影響因素建立結(jié)局事件的判別模型,其應(yīng)用前提是事先假定協(xié)變量與結(jié)局變量為直線關(guān)系,會忽略協(xié)變量與結(jié)局變量之間可能存在的非線性效應(yīng),得到不可靠的參數(shù)估計結(jié)果。GPLM是一種半?yún)?shù)模型,能夠準確描述協(xié)變量與結(jié)局變量之間的關(guān)系,通過納入與結(jié)局變量之間存在非線性關(guān)系的連續(xù)數(shù)值協(xié)變量,增加模型的判別準確性,又不會帶來因非參數(shù)形式過多而造成的估計困難,可以清楚地展示出特定變量的特殊效應(yīng),若以線性形式假定,則不能發(fā)現(xiàn)這種效應(yīng)。將西醫(yī)危險因素(是否絕經(jīng)和體重指數(shù))和中醫(yī)癥狀(下肢抽筋和下肢骨痛)作為線性變量,以非參數(shù)的形式靈活地處理絕經(jīng)年限這個非線性變量,建立基于GPLM的可以反映中醫(yī)病證結(jié)合特點的PMOP判別模型,從AUC值來看,在絕年限存在非線性效應(yīng)的情況下,運用GPLM可以更準確地判別PMOP高危人群的發(fā)病風(fēng)險。
2.GPLM 模型的不足
GPLM屬于半?yún)?shù)模型中的一種特殊形式,更適合處理非參數(shù)部分只有一個變量的情況,當實際問題中所需要估計的非參數(shù)部分多于1個變量時,可以考慮運用廣義可加模型〔8〕。本研究中只有“絕經(jīng)年限”存在非線性效應(yīng),所以運用GPLM模型是合適的。但是,由于現(xiàn)有的GPLM模型擬合和檢驗只限于兩分類結(jié)局變量,尚無法實現(xiàn)對三分類結(jié)局變量判別模型的擬合,因此本研究只能對骨量正常和骨質(zhì)疏松兩部分人群進行PMOP判別模型建構(gòu),尚未能納入骨量減少人群的數(shù)據(jù),因此在PMOP高危人群不同骨量狀態(tài)的判別上存在一定的局限性。同時,現(xiàn)有的ROC曲線擬合方法也是針對兩分類結(jié)局變量數(shù)據(jù),目前尚無成熟的針對三分類結(jié)局變量判別模型的ROC曲線擬合方法,這些問題有待今后進一步探索研究。
1.中華中醫(yī)藥學(xué)會.中醫(yī)內(nèi)科常見病診療指南:西醫(yī)疾病部分.北京:中國中醫(yī)藥出版社,2008:242-245.
2.Müller M.Estimation and testing in generalized partial linear models—a comparative study.Statistics and Computing,2001,11(4):299-309.
3.宋花玲.ROC曲線的評價研究及應(yīng)用.上海:第二軍醫(yī)大學(xué),2006.
4.方積乾.醫(yī)學(xué)統(tǒng)計學(xué)與電腦試驗.上海:上??茖W(xué)技術(shù)出版社,2001:449.
5.Nevill A M,Copas J B.Using generalized linear models(GLMs)to model errors in motor performance.J Mot Behav,1991,23(4):241-250.
6.Zheng B,Agresti A.Summarizing the predictive power of a generalized linear model.Stat Med,2000,19(13):1771-1781.
7.Pan W.Application of conditional moment tests to model checking for generalized linear models.Biostatistics,2002,3(2):267-276.
8.賈彬.廣義可加模型及其在醫(yī)學(xué)中的應(yīng)用.山西醫(yī)科大學(xué),2005.