何賢英 趙 志 黃嘉玲 陳逸敏 張晉昕
中山大學公共衛(wèi)生學院醫(yī)學統(tǒng)計與流行病學系(510080)
自變量連續(xù)型測定值及基于中位數(shù)的0~1轉化值擬合logistic回歸模型的效果比較*
何賢英 趙 志 黃嘉玲 陳逸敏 張晉昕△
中山大學公共衛(wèi)生學院醫(yī)學統(tǒng)計與流行病學系(510080)
目的探討當logitπ與連續(xù)型自變量之間呈線性關系時,采用原始值法和中位數(shù)截斷法擬合logistic回歸模型的差異。方法以成組設計病例對照研究為背景產(chǎn)生模擬數(shù)據(jù),應用R軟件“SmeiPar”軟件包對logitπ與連續(xù)型自變量間函數(shù)關系進行判斷,進而采用原始值法和中位數(shù)截斷法分別擬合logistic回歸模型。結果原始值法較中位數(shù)截斷法能夠更好地擬合logistic回歸模型。結論當logitπ與連續(xù)型自變量間呈線性關系時,建議采用原始值法。
原始值法中位數(shù)截斷法 logistic回歸 半?yún)?shù)回歸 AIC
在醫(yī)學和流行病學研究中以連續(xù)型變量作為解釋變量很常見,研究者常利用這些變量,采用多因素回歸模型刻畫其與結局間的關聯(lián),進而探索疾病的危險因素、估計預后、指導治療等[1]。研究者從臨床應用及統(tǒng)計分析的角度考慮,經(jīng)常將連續(xù)型自變量轉變?yōu)槎诸愖兞窟M行分析[2],然而,在模型構建時,研究者對于應用條件的把握上尚存在諸多誤區(qū)。logistic回歸模型對自變量類型一般不做規(guī)定,但要求連續(xù)型自變量與logitπ之間呈線性關系[3]。本次研究以logistic回歸模型為例,探討連續(xù)型自變量的處理方法,其他類型的多因素回歸分析可類推。
1.模擬數(shù)據(jù)的產(chǎn)生
利用R軟件以成組設計病例對照研究為研究背景產(chǎn)生模擬數(shù)據(jù),選取效應量作為關鍵指標,以控制自變量和結局變量之間發(fā)生假陽性關聯(lián)的情形,其計算公式如下,
d=(M1-M2)/σpooled
(1)
(2)
上式中M1和M2分別代表實驗組和對照組的均數(shù),σ1和σ2分別代表兩組的標準差,σpooled為兩組合并計算的標準差。具體模擬條件設定如下:設定病例組和對照組的“年齡”(age)均服從正態(tài)分布,固定病例組和對照組標準差的取值相等,依次增加兩組均數(shù)的差值,使效應量的大小從0.1依次增加到1.2,每組樣本量為1000,從而產(chǎn)生模擬數(shù)據(jù)集A1~A12(logitπ隨自變量的增加而線性地增加)。
2.連續(xù)型自變量與logitπ線性關系的判斷
3.模型擬合效果的評價
模型擬合效果采用-2Loglikelihood和最小信息準則,即AIC準則(akaike information criterion)進行評價。AIC準則由日本統(tǒng)計學家Akaike于1973年提出。其基本思想是從兩方面評價模型擬合效果的優(yōu)劣:一方面是考慮模型擬合程度的似然函數(shù)值;另一方面是考慮模型中未知參數(shù)的個數(shù)。一個好的擬合模型應該是較優(yōu)擬合精度和較少未知參數(shù)個數(shù)的綜合最優(yōu)配置,不同模型擬合效果比較使AIC函數(shù)達到最小的模型被認為是最優(yōu)模型。
1.模擬數(shù)據(jù)集A產(chǎn)生的條件及基本信息匯總
由表1可見,模擬數(shù)據(jù)集A采用半?yún)?shù)回歸模型擬合后,均有自由度df=2,說明logitπ與自變量間呈線性關系。
表1 模擬數(shù)據(jù)集A基本信息匯總表
*:代表病例組和對照組合并后所得數(shù)據(jù)集的中位數(shù)。
2.模擬數(shù)據(jù)集A中l(wèi)ogitπ與自變量間的函數(shù)關系圖
logitπ與自變量間函數(shù)關系圖(圖1)顯示,在各模擬數(shù)據(jù)集中二者均呈線性變化關系。
3.采用原始值法、中位數(shù)截斷法擬合logistic回歸模型
兩種方法擬合logistic回歸模型的信息及有關評價指標如表2、圖2所示:
由表2及圖2可見當logitπ與自變量間呈單調變化關系時,若采用中位數(shù)法對連續(xù)型自變量截斷成二分類后擬合logistic回歸模型會損失信息量,主要表現(xiàn)為中位數(shù)法較原始取值法擬合logistic回歸模型會導致-2Loglikelihood和AIC增加、參數(shù)估計值的假設檢驗統(tǒng)計量χ2值減小(P值增大)、并且這種變化隨著病例組和對照組均數(shù)差別的增大更為明顯。當效應值較小時(效應值在0.1~0.3),隨著效應值的增加,兩種方法所得檢驗功效逐漸增大,并且兩者的差距越來越小,效應值較大時兩種方法所得檢驗功效均為1。
4.實例分析
實例數(shù)據(jù)來自一項有關高血壓患者發(fā)病影響因素的現(xiàn)況研究。選取是否患有高血壓作為因變量,年齡作為自變量,通過實例數(shù)據(jù)比較2種方法對原始數(shù)據(jù)進行預處理后擬合logistic回歸模型的效果。實例數(shù)據(jù)分析中l(wèi)ogitπ與自變量間的函數(shù)關系圖3所示,兩種方法擬合logistic回歸模型的信息如表3所示。由表3及圖3可見當logitπ與自變量間為單調變化關系時,若采用中位數(shù)法對連續(xù)型自變量二分類后擬合logistic回歸模型會損失信息量,主要表現(xiàn)為中位數(shù)法較原始取值法擬合logistic回歸模型會導致AIC增加、χ2值減小。
圖1 模擬數(shù)據(jù)集中l(wèi)ogitπ與自變量間的函數(shù)關系圖
模擬研究名稱數(shù)據(jù)預處理方法統(tǒng)計量(χ2)POR的95%CIAIC-2LoglikelihoodA1原始值法112.8803.320e-041.017(1.007,1.026)2763.62759.586中位數(shù)法24.2293.974e-021.202(1.009,1.433)2772.42768.355A2原始值法133.4997.132e-091.027(1.018,1.036)2742.22738.241中位數(shù)法216.1565.833e-051.435(1.203,1.711)2760.42756.367A3原始值法162.4572.723e-151.038(1.028,1.047)2711.12707.092中位數(shù)法236.7621.335e-091.729(1.448,2.063)2739.52735.482A4原始值法198.1903.802e-231.049(1.039,1.058)2670.62666.595中位數(shù)法259.9329.819e-152.020(1.691,2.414)2715.72711.727A5原始值法1138.9164.596e-321.059(1.049,1.070)2621.32617.319中位數(shù)法285.2542.624e-202.326(1.945,2.783)2689.42685.426A6原始值法1182.8031.184e-411.070(1.060,1.081)2563.92559.919中位數(shù)法2120.4115.142e-282.754(2.298,3.301)2652.32648.288A7原始值法1228.0961.551e-511.082(1.071,1.093)2499.12495.117中位數(shù)法2165.4787.192e-383.330(2.772,4.000)2603.62599.551A8原始值法1273.2102.222e-611.093(1.081,1.105)2427.72423.680中位數(shù)法2207.0386.083e-473.905(3.244,4.702)2557.42553.386A9原始值法1316.7767.120e-711.104(1.092,1.117)2350.42346.409中位數(shù)法2282.0622.668e-635.096(4.214,6.612)2470.72466.717A10原始值法1357.6699.057e-801.116(1.103,1.129)2268.12264.117中位數(shù)法2324.3471.637e-725.879(4.848,7.129)2419.72415.731A11原始值法1395.0096.685e-881.128(1.114,1.141)2181.62177.623中位數(shù)法2365.6591.649e-816.745(5.546,8.203)2368.22364.218A12原始值法1428.1513.976e-951.140(1.126,1.154)2091.72087.735中位數(shù)法2427.2696.383e-958.271(6.770,10.106)2287.82283.818
圖2 模擬數(shù)據(jù)集A兩種方法擬合logistic回歸模型效果比較
圖3 實例數(shù)據(jù)logitπ與自變量間的函數(shù)關系圖
logistic回歸模型對自變量類型一般不做要求,但規(guī)定logitπ與連續(xù)型自變量之間需滿足線性關系。嚴格來說,在應用logistic回歸之前必須先檢驗logitπ與連續(xù)型自變量之間是否符合線性關系,因為如果兩者之間的關系是非線性的,參數(shù)估計將會發(fā)生偏差,從而導致結果不準確以及結論不可靠。周春蓮等[5]對1996-2002年發(fā)表在《中華流行病學雜志》上應用logistic回歸分析的111篇文章進行系統(tǒng)回顧分析,發(fā)現(xiàn)在111篇文章中沒有一篇提及兩者之間的線性關系問題,說明在實際應用中這是一個很容易被忽視的問題。
表3 實例數(shù)據(jù)擬合logistic回歸模型信息匯總表
本研究利用半?yún)?shù)回歸模型對logitπ和連續(xù)型自變量之間的函數(shù)關系進行判斷。半?yún)?shù)回歸模型是參數(shù)回歸模型和非參數(shù)回歸模型的一種概括,其中的參數(shù)分量部分是對確定性影響因素進行分析,而非參數(shù)分量部分則是對隨機干擾因素的刻畫[6]。半?yún)?shù)回歸模型是參數(shù)線性模型和非參數(shù)回歸模型的混合模型,其較參數(shù)線性模型有較強的適應性[7]。在醫(yī)學研究中研究者經(jīng)常從臨床應用的角度考慮,將連續(xù)型的自變量轉變?yōu)槎诸愖兞亢髷M合回歸模型[2],目前常用的分類方法為中位數(shù)法[8]。當logitπ和連續(xù)型自變量之間滿足線性關系,若采用中位數(shù)截斷法進行分類后擬合logistic回歸模型會導致信息量的損失。因此,當logitπ和連續(xù)型自變量之間滿足線性關系時,建議采用連續(xù)型自變量擬合logistic回歸模型,而非進行二分類預處理后擬合logistic回歸模型。對于連續(xù)型自變量和logitπ為非單調變化關系的數(shù)據(jù)類型,本文研究者也進行了相關研究,建議借助OR值最大化的原則,對連續(xù)型自變量進行分類后擬合logistic回歸模型[3]。
[1] Sauerbrei W,Royston P.Continuous Variables:To Categorize or to Model? In:Reading,C.(Ed.):The 8th International Conference on Teaching Statistics-Data and Context in statistics education:Towards an evidence based society.International statistical Institute,Voorburg,2010.
[2] Brent Williams MS,Jayawant N.Mandrekar PD,Sumithra J.Mandrekar PD,et al.Finding Optimal Cutpoints for Continuous Covariateswith Binary and Time-to-Event Outcomes.Technical Report Series #79,2006.
[3] 何賢英,趙志,溫興煊,等.logistic回歸中連續(xù)型自變量離散化為二分類變量時適宜分界點的確定.中國衛(wèi)生統(tǒng)計,2015(02):275-277.
[4] Handan W,Ramjee G.Analyzing Continuous Measures in HIV Prevention Research Using Semiparametric Regression and Parametric Regression Models:How to Use Data to Get the(Right)Answer?.AIDS and Behavior,2012,16(6):1448-1453.
[5] 馮國雙,陳景武,周春蓮.logistic回歸應用中容易忽視的幾個問題.中華流行病學雜志,2004(06):92-93.
[6] Rosenberg PS,Katki H,Swanson CA,et al.Quantifying epidemologic risk factors using non-parametric regression:model selection remains the greatest challenge.Statistics in Medicine,2003,22(21):3369-3381.
[7] 王成勇.半?yún)?shù)回歸模型研究綜述.數(shù)理統(tǒng)計與管理,2009,28(5):845-857.
[8] MacCallum RC,Zhang S,Preacher KJ.On the practice of dichotomization of quantitative variables.Psychological Methods,2002,7(1):19-40.
ComparingtheEffectsofContinuousVariablesMethodandMedianSplitMethodFittingLogisticRegressionModel
He Xianying,Zhao Zhi,Huang Jialing,et al
(SchoolofPublicHealth,SunYat-senUniversity(510080),Guangzhou)
ObjectiveTo explore the difference between continuous variables method and median split method in fitting logistic regression model,when independent variables and logitπmeet linear relationship.MethodsThe simulation data were generated on the basis of two group divisible design case-control study.Justify the monotonerelationship between covariate and logitπby the “SmeiPar” software package of R software.Using continuous variables and median split method to discretize raw data,and then fit the logistic regression models.ResultsCompared with the median split method,the continuous variables method did better in goodness-of-fit test.ConclusionIt is recommended to use two cut-off points maximum OR values method to discrete continuous variables if the relationship between these variables and logitπis monotonic.
Continuous variables method;Median split method;Logistic regression;Semi-parametric regression;AIC
廣東省科技計劃項目(2014A020212713);中山大學教學改革研究重點項目(中大教務〔2017〕79-12-25)
△通信作者:張晉昕,E-mail:zhjinx@mail.sysu.edu.cn
郭海強)