羅艷虹 李 治 余紅梅 郭虎生 曹紅艷 王 蕾 宋春英 郭興萍△ 張巖波△
我國是先心病高發(fā)國家,2010-2011年我國活產新生兒先心病的發(fā)生率高于其他類型出生缺陷[1]。遺傳因素、母親孕期患病及用藥等因素都會導致子代先心病的發(fā)生,因此早期預測子代先心病的發(fā)病風險,盡可能消除各種可能的危險因素,對預防先心病起關鍵作用。利用山西省先心病數據,采用機器學習算法,建立預測性能優(yōu)良的預測模型,可為篩選先心病高危人群提供參考依據。國內外基于影響因素對出生缺陷的預測研究較多,但大多數研究關注分類預測[2-5],很少有研究針對先心病進行概率預測,故本文研究先心病的風險概率預測。對于全部出生兒的調查數據進行先心病概率預測時,先心病發(fā)生與否的兩種類別存在比例不平衡,機器學習算法通常針對類別平衡數據,因此,對于不平衡數據,機器學習算法對于多數類易產生“過擬合”,導致預測概率有偏差,降低預測性能[6-8]。
針對不平衡數據的處理方法大致分兩種:一種是改變訓練樣本分布,可以采用隨機抽樣以增加少數類樣本或減少多數類樣本降低數據的不平衡性[9];另一種通過改進算法補償數據的不平衡性,如代價敏感性學習。綜上所述,利用不平衡數據構建模型進行概率預測時,先心病預測概率有可能存在偏差,對此可以采用代價敏感性學習和概率校準的方法進行“糾正”,提高模型的概率預測性能。
概率校準(probability calibration)就是采用函數把原始模型的分類或概率轉換為準確的概率[10]。一個良好校準的預測模型可以反映疾病發(fā)生的潛在概率。常用的概率校準方法是Platt scaling和Isotonic regression[11-12]。眾多研究表明,經過Platt scaling校準的支持向量機(support vector machines,SVM)、隨機森林(random forest,RF)和boosted tree的預測概率最準確,其中boosted tree不僅訓練時間長而且需要的存儲量大,所以首選SVM和RF模型[13-14]。因此,選取SVM、RF及應用廣泛的logistic回歸模型作為本文的概率預測模型。logistic回歸的預測概率不產生偏倚,校準效果不明顯[14]。
根據山西省各縣、市的生態(tài)環(huán)境、地理位置、醫(yī)療條件和經濟狀況等因素,本文的研究對象選自山西省6個縣(市)(中陽縣、代縣、平定縣、懷仁縣、交口縣和汾陽市)在2006-2008年出生的所有健康新生兒及先心病患兒的母親或父親,通過讓研究對象填寫出生情況調查表獲取調查數據。先心病的確診以先前醫(yī)生的診斷為準;先心病疑似病例請先心病專家確診。
通過對調查數據進行初步分析發(fā)現,涉及的多數危險因素如母親孕期患病和母親既往病史等因素的發(fā)生率很低,直接引入方程,影響預測效果,故對變量進行初步分析,本文生成9個綜合變量,其中綜合變量的值為包含的各個危險因素的值相加得到[15-16]。綜合變量包含的危險因素見表1。
(1)加權支持向量機
支持向量機利用核函數采用非線性映射將線性不可分的原始數據投影到高維空間,使原始數據在高維空間線性可分。常用的核函數有線性核、徑向基核和多項式核等。本文通過測試確定SVM的核函數為線性核。當SVM處理的數據存在類別不平衡時,可以采用Veropoulos等提出的代價敏感性算法,將多數類和少數類樣本的懲罰系數之比定為二者例數的倒數,該法是SVM分析非平衡數據的常用方法[17]。本文采用該法,構建WSVM。
(2)加權隨機森林
RF對原始樣本進行多次bootstrap重抽樣產生多個樣本,每個樣本的樣本量和原始樣本相同,對所有樣本構建決策樹,且決策樹在生長過程中不剪枝,最終的預測結果通過對多棵決策樹的預測結果進行多數投票產生[18-19]。對于本文的先心病不平衡數據,為了保留原有數據結構,本文基于代價敏感性思想,構建WRF。根據相關文獻建議,小類的權重設定為2或3,本研究經過對比選擇權重為2[20]。
表1 9個綜合變量的描述
RF有三個主要參數:一是構成RF的決策樹棵數ntree;二是樹節(jié)點處預選的變量數mtry;三是葉節(jié)點nodesize的大小。經過對比,這些參數的取值分別設定為ntree=500,mtry=3,nodesize=65,cutoff=c(0.7,0.3)。
對于預測模型,需要從原數據中進行重抽樣生成訓練集和測試集。對于本文的極端不平衡數據,采用分層bootstrap重抽樣,即從少數類和多數類樣本中分別隨機抽取三分之二構成訓練集,剩余的樣本構成測試集。本文采用三折交叉驗證及網格搜索(grid search)選取WSVM和WRF的參數。由于隨機抽樣會使構建的模型結果存在多變性,故抽樣及構建模型過程重復1000次。本文所有程序均采用R軟件實現。
兩種常用的概率校準方法為Platt scaling校準和Isotonic regression校準。當模型的預測值產生S形扭曲,采用Platt scaling校準。Isotonic regression校準屬于非參數校準,采用pair-adjacent violators(PAV)算法[21-22]。
(1)Platt校準
針對模型的預測結果f(x),由(1)式sigmoid函數產生校準概率:
(1)
其中,f=f(x),采用最大似然估計得到參數A和B的取值[11]。
(2)Isotonic校準
保序回歸的公式如下:
yi=m(fi)+εi
(2)
常用的概率預測評價指標有AUC和RMSE。AUC的取值較高,RMSE的取值較低時,模型的預測精度較高。任何模型都不可能在所有的評價指標上取值都理想。當模型合適的評價指標未知時,SAR是一個穩(wěn)健的評價指標,SAR=(ACC+AUC+(1 -RMSE))/3[23-24],其中ACC為Accuracy的簡稱。選用AUC、RMSE和SAR作為本文模型的評價指標。
本文調查總人數為33831人,其中健康新生兒33753例,先心病患兒78例。綜合變量的描述見表1。
由于篇幅所限,本文結果僅針對測試集。表2給出重復抽樣1000次,6個模型評價指標的中位數、上四分位數P25和下四分位數P75,其中WSVM-Platt、WSVM-Iso分別代表基于Platt校準和Isotonic校準的WSVM模型。WRF-Platt和WRF-Iso分別代表基于Platt校準和Iso校準的WRF模型。
由表2可得,logistic模型的AUC和SAR值的中位數分別高于0.83和0.92;AUC值的P25和P75都高于0.8,SAR值的P25和P75都高于0.9。
表2 測試集6種模型預測結果的比較(Median(P25- P75))
從表2的WSVM-Platt 和WSVM-Iso的評價指標可得,二者的AUC及SAR值的中位數均高于0.83和0.90,且WSVM-Platt的AUC值和SAR值的中位數、P25和P75均高于WSVM-Iso;WSVM-Platt和WSVM-Iso的RMSE中位數均低于0.07,且WSVM-Platt的RMSE值的中位數、P25和P75均低于WSVM-Iso,故Platt校準效果略優(yōu)于Iso校準。
WRF-Platt、WRF-Iso和WRF的AUC和SAR中位數值均分別高于0.81和0.85。WRF-Platt和WRF-Iso與WRF相比,在AUC指標上,中位數、P25和P75取值接近;對比RMSE值可知,WRF-Platt和WRF-Iso的RMSE值的中位數、P25和P75均低于WRF對應的RMSE值,且WRF-Platt的上述三種取值均略低于WRF-Iso;WRF-Platt和WRF-Iso的SAR值的中位數、P25和P75均高于WRF,且WRF-Platt的上述三種取值均略高于WRF-Iso。由上可知,校準提高了WRF概率預測效果,且Platt校準效果略優(yōu)于Iso校準。
現階段關于先心病及其他出生缺陷的研究多數集中在發(fā)生率的預測、影響因素的探索及分類預測等方面。楊峰利用決策樹進行出生缺陷分類預測[2]。方俊群等利用判別分析和C5.0決策樹對2007-2008年湖南省45家醫(yī)院的出生缺陷患兒進行分類預測[3]。劉長云采用logitboost和分類樹算法進行唇腭裂概率預測[4]。趙佳璐利用關聯規(guī)則對出生缺陷進行概率預測[5]。Wang JF等采用SVM對和順縣1998-2005年出生的7880名嬰兒進行出生缺陷分類預測[25]。Sainz JA等進行了先心病分類研究[26],Wieczorek A等利用心血管風險得分預測先心病。在出生缺陷的預測中,關于分類預測較多,基于全人群調查資料進行先心病概率預測的研究甚少[27]。
本研究基于代價敏感性和概率校準構建了先心病概率預測模型,預測結果符合預期。國內有關概率校準的研究相對較少。呂奕等對SVM和AdaBoost的概率預測結果進行Platt校準,然后將二者的校準概率和logistic回歸的預測概率進行集成,結果顯示,經過校準模型的預測效果提高[28]。沈翠華對SVM進行保序回歸校準用于個人信用評估,預測效果優(yōu)良[29]。從表2模型的對比可知,WSVM校準模型和logistic模型的預測結果都優(yōu)于WRF及其校準模型,WRF雖然是性能優(yōu)良的學習器,但不適合處理不平衡數據。WRF-Platt和WRF-Iso預測效果優(yōu)于WRF,說明校準提高了模型概率預測性能。準確的預測概率對于預防先心病很關鍵,可為篩選先心病高危人群提供初步參考。
有關概率預測效果評價指標的選取,本文不僅選擇了概率評價指標RMSE和AUC,同時采用了SAR評價指標。由于SAR包含了閾值評價指標ACC、等級評價指標AUC和概率評價指標RMSE,故而非常穩(wěn)健。該指標提示校準提高了模型的概率預測性能[23]。
本文存在不足之處。第一,本研究僅選用了三種模型,在今后的研究中,將考慮建立其他模型如神經網絡和深度學習等進行比較;第二,由于本文建立了綜合變量,故而沒有考慮交互作用。