• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      疾病發(fā)病風險預測模型擬合度評價方法的研究進展*

      2015-01-27 10:31:04鄭黎強
      中國衛(wèi)生統(tǒng)計 2015年3期
      關鍵詞:區(qū)分標定標志物

      鄭黎強 張 蕊

      ·綜述·

      疾病發(fā)病風險預測模型擬合度評價方法的研究進展*

      鄭黎強1△張 蕊2

      疾病風險預測模型可以使多危險因素和未來疾病的發(fā)生確定為一種定量關系,通過多危險因素的水平來預測某一個體未來某疾病的發(fā)病概率。在過去的30年中,預測模型在公共衛(wèi)生領域和臨床醫(yī)學領域不斷發(fā)展,除了最初的心血管病外,癌癥、高血壓、糖尿病等其他疾病研究領域也都開始了對預測模型的探索[1-4]。疾病風險預測模型得到越來越多的關注,如何對疾病發(fā)病風險預測模型的擬合度進行合理的評價,已經(jīng)成為當前統(tǒng)計研究中的難點和熱點問題。本文將就疾病風險預測模型的擬合度評價,以及近年來應用越來越多的最新幾種模型評價統(tǒng)計學方法進行綜述,希望能給出一個既全面又具體的闡述。

      模型擬合度的評價

      模型擬合度是指模型預測結果與實際觀察發(fā)生情況之間的符合程度,兩者越一致,模型建立的越“成功”,效用也越大。一般來說,評價一個模型的優(yōu)劣主要有兩個方面:標定能力(calibration)和區(qū)分能力(discrimination)。標定能力是指人群的平均預測概率與實際觀察到的發(fā)病概率的一致程度,通常做法是根據(jù)預測概率將研究對象分為若干個亞組(一般為10組),計算每組的平均預測發(fā)病概率和實際發(fā)病率,并采用Hosmer-Lemeshow 卡方檢驗(HL χ2)檢驗兩者的符合程度,有統(tǒng)計學意義說明預測概率和實際發(fā)病率之間有顯著性差異,標定能力較差。區(qū)分能力是指正確地把病人和非病人區(qū)分開的能力,如果實際發(fā)生事件者的預測發(fā)病概率均高于未發(fā)生事件者,此時模型的區(qū)分能力為最佳,通常反映區(qū)分能力的方法是采用受試者工作曲線下面積(the area under the receiver-operating characteristic curve,AUC)或叫C統(tǒng)計量(C-statistic)進行計算和檢驗,C統(tǒng)計量越大說明模型的區(qū)分能力越強。需要注意的是,區(qū)分能力最佳時其預測概率并不一定與實際發(fā)病率一致,也就是說標定能力并不一定好。如圖1所示。

      標定能力和區(qū)分能力反映了預測模型擬合度的兩個不同方面,通常情況下只能在兩者之間達到一種“平衡”而難以使兩者都達到最佳。有研究顯示,只有當發(fā)病概率分布的越分散,兩者才有可能同時達到最佳,概率密度函數(shù)都集中在0或1,即呈現(xiàn)“U”字型時,標定能力最佳,同時C統(tǒng)計量達到1,而實際情況中某疾病的發(fā)病概率通常很難呈現(xiàn)這樣的分布。

      此外,還有一些檢驗方法是對預測模型整體擬合度進行評價,如以似然統(tǒng)計量為基礎的決定系數(shù)(R2)和貝葉斯信息準則(Bayes information criterion,BIC)等。

      模型擬合度評價的統(tǒng)計學方法

      對于預測模型的評價包括對單個的新建模型利用驗證隊列進行驗證和評價、對新標志物是否能提高原有模型的預測能力進行評價、對兩個針對相同結局事件的預測模型進行比較性評價三種情況。

      1.利用驗證隊列對擬合的預測模型進行驗證與評價

      當一個預測模型通過來源隊列建立起來之后需要對其進行擬合度的驗證,即分別評價該模型的標定能力和區(qū)分能力。

      首先利用C統(tǒng)計量對預測模型的區(qū)分能力進行評價。AUC最早應用于篩檢試驗和診斷試驗領域。由于它同時考慮了靈敏度和特異度這兩個指標,所以能全面地評價試驗的真實性。之后,AUC漸漸被應用到了評價預測模型擬合度等領域,并命名為“C統(tǒng)計量”[5]。C統(tǒng)計量的實質是發(fā)生事件者的預測發(fā)病概率高于未發(fā)生事件者的可能性大小,故能夠反映模型區(qū)分病人和非病人的能力。C統(tǒng)計量的范圍在0.5~1,1表示可以將病人和非病人完全區(qū)分開,0.5表示病人和非病人的區(qū)分只靠偶然概率。通常0.7~0.8被認為模型可以接受,0.8~0.9被認為很好。

      其次利用HL χ2來評價預測模型的標定能力。與區(qū)分能力不同,標定能力評價的是預測模型正確預測人群絕對危險概率的能力。通常做法是根據(jù)預測概率的分位數(shù)(如十分位數(shù))將人群分為若干組,比較每組人群的平均預測概率與實際事件發(fā)生率之間的差異,采用HL χ2檢驗[6]。P<0.05代表模型的標定能力較差。

      2.對新標志物的評價或兩個模型的比較

      隨著疾病風險預測模型的發(fā)展,一些新的危險因素或標志物被不斷提出,研究人員試圖將這些新指標納入傳統(tǒng)預測模型中以期進一步提高模型的預測能力。而如何來評價新指標的預測能力?納入的新指標能否提高模型的預測能力?這就需要對原有模型和加入新標志物后的新模型進行比較。而針對相同結局事件的兩模型比較也與之類似,采用的統(tǒng)計學方法相同,因此對這兩種情況一并敘述。

      過去很長一段時間評價新標志物是否能提高原有模型的預測能力主要依靠擬合優(yōu)度檢驗(-2log likelihood)及C統(tǒng)計量的方法來進行評價。擬合優(yōu)度檢驗通常的做法是先利用傳統(tǒng)危險因素擬合模型1得到擬合優(yōu)度1,然后把新標志物加入到模型1中去,得到模型2的擬合優(yōu)度2,根據(jù)兩擬合優(yōu)度的差值查χ2分布表(自由度為1),若差異有統(tǒng)計學意義則說明新標志物能夠提高模型的預測能力。然而,Pencina則認為模型擬合優(yōu)度檢驗的要求過于寬松,在樣本量很大的研究中,就算新變量與結局變量的關聯(lián)性很弱,都能夠達到統(tǒng)計學意義。

      由此可見依靠傳統(tǒng)的統(tǒng)計學方法不能有效地評價新標志物的預測能力,故近5年來,一些新的統(tǒng)計學應運而生,包括凈重分組提高指數(shù)(netreclassificationimprovement,NRI)、整合區(qū)分提高指數(shù)(integrateddiscriminationimprovement,IDI)和重分組標定統(tǒng)計量(reclassificationcalibrationstatistic,RCS)[10-11]。這些方法的中心思想是新模型對研究對象進行了“重分組”(reclassification),從而引起個體在危險分層中的“變動”,如果這一“變動”是正確的或更符合實際情況的,那么相對于舊模型而言,新模型則有更優(yōu)的預測能力。此外,隨著這些新的統(tǒng)計學方法越來越受到人們重視程度,應用領域越來越廣,適用于生存分析或刪失數(shù)據(jù)的方法也不斷完善[12]。

      (1)NRI

      新模型較之于舊模型(或在模型中引入一個新標志物)區(qū)分能力有所提高表現(xiàn)在兩方面:發(fā)生事件者在新模型中的發(fā)病預測概率有所提高(即從較低風險組劃分到較高風險組),而未發(fā)生事件者的預測概率有所下降(即從較高風險組劃分到較低風險組)。如果這兩組人群的預測概率變動方向與上述相反,則會降低模型的區(qū)分能力[10]。因此,NRI需要分別在發(fā)生事件者和未發(fā)生事件者中計算預測模型發(fā)生改變的人數(shù)比例。

      (2)IDI

      葉斯梯度(Yatesslopes),也叫區(qū)分梯度(discriminationslopes),是指病人的平均預測概率與非病人的平均預測概率之差,差距越大,則說明模型區(qū)分病人和非病人的能力越強[13]。IDI相當于兩個模型的葉斯梯度之差,可以反映新模型較舊模型區(qū)分能力的提高程度[10]。

      IDI不需要進行危險分層,而是直接計算發(fā)生事件者和未發(fā)生事件者的平均預測概率,這一點與NRI有所不同。

      (3)RCS

      和NRI一樣,RCS的計算首先也要根據(jù)兩個模型將研究對象分配到“重分組表”的每個格子中(無需區(qū)分發(fā)生事件者和未發(fā)生事件者)。表中的每個格子都對應有一個實際發(fā)病率和分別由兩個模型預測得出的平均發(fā)病預測概率[11,14]。生存分析存在刪失數(shù)據(jù)的問題,可以通過K-M生存曲線來計算實際發(fā)病率。

      小 結

      以上介紹了幾種近幾年來最新的評價預測模型擬合度的方法,它們的優(yōu)勢在于可以直接反映模型區(qū)分能力或預測能力,并且可以進行模型之間的比較,或是新標志物的評價,故越來越受到研究者重視。關于這些方法的應用,有幾點需要注意:(1)評價預測模型的區(qū)分能力時,首先需要有一個較好的標定能力。如果標定能力差,那么所謂的區(qū)分能力評價起來也沒有任何意義,所以這兩方面的評價都不能少[15]。(2)與結局事件有統(tǒng)計學關聯(lián)的變量并不一定會提高模型的擬合度。如9q21基因多態(tài)性被證實與心血管病有相關性,但是卻沒有提高模型的區(qū)分能力和標定能力[16]。(3)危險分層界值的選取會影響NRI和RCS最終的評價結果。比如將發(fā)病風險從四組變?yōu)槿M時,NRI會減小,RCS的卡方值也會減小。因此,危險分層標準的選擇就顯得尤為重要,需要結合臨床實踐,具有臨床意義。通常選取公認的一些分層標準,如ATPⅢ中的標準[17]。對于那些目前尚無公認的危險分層標準的疾病,應用這些方法來評價和比較模型需要慎重[11]。(4)研究發(fā)現(xiàn),那些發(fā)生“重分組”的個體主要是“中危人群”,這部分患者由于很可能被分到高危組或者低危組,而導致接受完全不同的診療措施,所以受到更多的關注。一些研究就只關注于這部分人群。

      近年來,NRI、IDI等新方法的應用呈現(xiàn)快速增長的趨勢,除了心血管病研究外,其他研究領域正開始日益普及。然而一些研究者并未深刻了解到模型評價的意義所在,也未明白這些評價方法應該注意的問題和前提條件,導致部分相關文獻出現(xiàn)質量較差的情況。Tzoulaki在2011年總結了自這些新方法提出之后(2006年)的幾年間醫(yī)學文獻中NRI、IDI和RCS的使用現(xiàn)狀,發(fā)現(xiàn)在匯總的51篇文獻中,只有53%的研究評價了模型的標定能力,而僅有31%的文獻明確地寫出了所用的危險分層界值,27%的研究選取的界值是有臨床意義的[18]。作者指出,雖然這些新的方法在評價和比較預測模型方面有其獨特的優(yōu)勢,但是目前出現(xiàn)了“誤用”和“濫用”的傾向,因此建議規(guī)范其使用,并對文獻當中的相關表述作出一些規(guī)范化的指導。因此,在這篇文獻發(fā)表后不久,Pete撰寫了一篇短訊以明確涉及到這些方法時,文獻應該如何正確的表述結果,以此提供更多的信息和避免一些錯誤[15]。值得注意的是,這些方法由于尚很“年輕”未能普及,仍處于不斷完善和發(fā)展中,如NRI的置信區(qū)間問題,以及對于刪失數(shù)據(jù)的處理仍未有明確解決方法,還需進一步探討。

      [1]ParikhNI,PencinaMJ,WangTJ,etal.Ariskscoreforpredictingnear-termincidenceofhypertension:theFraminghamHeartStudy.AnnInternMed,2008,148(2):102-110.

      [2]GailMH,BrintonLA,ByarDP,etal.Projectingindividualizedprobabilitiesofdevelopingbreastcancerforwhitefemaleswhoarebeingexaminedannually.JNatlCancerInst,1989,81(24):1879-1886.

      [3]MeigsJB,ShraderP,SullivanLM,etal.Genotypescoreinadditiontocommonriskfactorsforpredictionoftype2diabetes.NEnglJMed,2008,359(21):2208-2219.

      [4]SchnabelRB,SullivanLM,LevyD,etal.Developmentofariskscoreforatrialfibrillation(FraminghamHeartStudy):acommunity-basedcohortstudy.Lancet,2009,373(9665):739-745.

      [5]HanleyJA,McneilBJ.Themeaninganduseoftheareaunderareceiveroperatingcharacteristic(ROC)curve.Radiology,1982,143(1):29-36.

      [6]HosmerDW,HosmerT,LeCessieS,etal.Acomparisonofgoodness-of-fittestsforthelogisticregressionmodel.StatMed,1997,16(9):965-980.

      [7]HanleyJA,McneilBJ.Amethodofcomparingtheareasunderreceiveroperatingcharacteristiccurvesderivedfromthesamecases.Radiology,1983,148(3):839-843.

      [8]PepeMS,JanesH,LongtonG,etal.Limitationsoftheoddsratioingaugingtheperformanceofadiagnostic,prognostic,orscreeningmarker.AmJEpidemiol,2004,159(9):882-890.

      [9]CookNR.Useandmisuseofthereceiveroperatingcharacteristiccurveinriskprediction.Circulation,2007,115(7):928-935.

      [10]PencinaMJ,D'AgostinoRS,D'AgostinoRJ,etal.Evaluatingtheaddedpredictiveabilityofanewmarker:fromareaundertheROCcurvetoreclassificationandbeyond.StatMed,2008,27(2):157-172,207-212.

      [11]CookNR,RidkerPM.Advancesinmeasuringtheeffectofindividualpredictorsofcardiovascularrisk:theroleofreclassificationmeasures.AnnInternMed,2009,150(11):795-802.

      [12]PencinaMJ,D'AgostinoRS,SteyerbergEW.Extensionsofnetreclassificationimprovementcalculationstomeasureusefulnessofnewbiomarkers.StatMed,2011,30(1):11-21.

      [13]YatesJF.Externalcorrespondence:decompositionofthemeanprobabilityscore.OrganizationalBehaviorandHumanPerformance,1982,30:132-156.

      [14]PepeMS.Problemswithriskreclassificationmethodsforevaluatingpredictionmodels.AmJEpidemiol,2011,173(11):1327-1335.

      [15]PepeMS,JanesH.Commentary:Reportingstandardsareneededforevaluationsofriskreclassification.IntJEpidemiol,2011,40(4):1106-1108.

      [16]PaynterNP,ChasmanDI,BuringJE,etal.Cardiovasculardiseaseriskpredictionwithandwithoutknowledgeofgeneticvariationatchromosome9p21.3.AnnInternMed,2009,150(2):65-72.

      [17]ExecutiveSummaryofTheThirdReportofTheNationalCholesterolEducationProgram(NCEP)ExpertPanelonDetection,Evaluation,AndTreatmentofHighBloodCholesterolInAdults(AdultTreatmentPanelIII).JAMA,2001,285(19):2486-2497.

      [18]TzoulakiI,LiberopoulosG,IoannidisJP.Useofreclassificationforassessmentofimprovedprediction:anempiricalevaluation.IntJEpidemiol,2011,40(4):1094-1105.

      (責任編輯:郭海強)

      *國家自然基金項目(項目編碼:81302495),遼寧省科技廳社會發(fā)展攻關計劃項目(項目編碼:2013225089)資助

      1.中國醫(yī)科大學附屬盛京醫(yī)院臨床流行病學教研室,圖書館(110004)

      2.遼寧省疾病預防控制中心慢病所

      △通信作者:鄭黎強,E-mail:zhenglq@sj-hospital.org

      猜你喜歡
      區(qū)分標定標志物
      區(qū)分“旁”“榜”“傍”
      你能區(qū)分平衡力與相互作用力嗎
      使用朗仁H6 Pro標定北汽紳寶轉向角傳感器
      教你區(qū)分功和功率
      基于勻速率26位置法的iIMU-FSAS光纖陀螺儀標定
      船載高精度星敏感器安裝角的標定
      膿毒癥早期診斷標志物的回顧及研究進展
      冠狀動脈疾病的生物學標志物
      罪數(shù)區(qū)分的實踐判定
      腫瘤標志物在消化系統(tǒng)腫瘤早期診斷中的應用
      辽阳市| 象山县| 竹溪县| 丽水市| 大竹县| 镶黄旗| 宜川县| 营山县| 嫩江县| 苍梧县| 和田市| 新化县| 张掖市| 米林县| 三原县| 安化县| 蒲江县| 汉寿县| 中方县| 深泽县| 化隆| 阜康市| 牟定县| 扶绥县| 如皋市| 大宁县| 灵寿县| 阳江市| 蓬莱市| 张家口市| 阳春市| 中山市| 高阳县| 乡宁县| 工布江达县| 霍林郭勒市| 尼木县| 军事| 锡林浩特市| 成武县| 南岸区|