• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Logistic回歸和隨機森林算法的2型糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險預(yù)測及對比研究

      2017-01-05 09:18:49曹文哲應(yīng)俊陳廣飛周丹
      中國醫(yī)療設(shè)備 2016年3期
      關(guān)鍵詞:糖化視網(wǎng)膜腎病

      曹文哲,應(yīng)俊,陳廣飛,周丹

      中國人民解放軍總醫(yī)院 a. 生物醫(yī)學(xué)工程研究室;b. 醫(yī)務(wù)部,北京 100853

      基于Logistic回歸和隨機森林算法的2型糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險預(yù)測及對比研究

      曹文哲a,應(yīng)俊a,陳廣飛a,周丹b

      中國人民解放軍總醫(yī)院 a. 生物醫(yī)學(xué)工程研究室;b. 醫(yī)務(wù)部,北京 100853

      目的應(yīng)用隨機森林算法和Logistic回歸算法,分析2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)因素并構(gòu)建風(fēng)險預(yù)測模型。方法采用2011~2013年中國人民解放軍總醫(yī)院2型糖尿病住院患者的電子病歷信息,主要利用其中的糖尿病診斷數(shù)據(jù)、糖尿病糖化數(shù)據(jù)以及糖尿病生化檢查數(shù)據(jù),應(yīng)用Logistic回歸和隨機森林算法,根據(jù)ROC曲線下面積比較兩種模型的預(yù)測效果。結(jié)果在隨機森林模型的39個變量重要性評分中,糖化血紅蛋白、空腹血糖、尿素、肌酐、尿酸、年齡、冠心病和慢性腎病得分較高且具有臨床意義,Logistic回歸模型最終納入性別、血糖控制情況(糖化血紅蛋白濃度)、慢性腎病、冠心病、心梗和癌癥6個因素,ROC曲線下面積提示隨機森林模型預(yù)測效果優(yōu)于Logistic回歸模型。結(jié)論本次研究隨機森林算法分析結(jié)果給出了各個因素指標(biāo)的重要性評分,為2型糖尿病并發(fā)視網(wǎng)膜病變的早期診斷以及優(yōu)化診斷流程提供了一定的依據(jù)。

      2型糖尿??;視網(wǎng)膜病變;關(guān)聯(lián)因素;風(fēng)險預(yù)測;隨機森林算法;Logistic回歸算法

      0 引言

      糖尿病及其并發(fā)癥現(xiàn)已成為世界范圍內(nèi)的重要公共健康問題,且糖尿病發(fā)病率非常高,幾乎達(dá)到流行病的比例[1]。糖尿病并發(fā)視網(wǎng)膜病變,也稱糖尿病眼病,是糖尿病性微血管病變中最重要的表現(xiàn),也是糖尿病患者常見的并發(fā)癥之一。糖尿病并發(fā)視網(wǎng)膜病變在10年期以上的糖尿病患者中患病率高達(dá)80%[2],是全球中老年人視力喪失的主要原因[3],一項Meta分析結(jié)果[4]顯示在中國糖尿病患者中糖尿病并發(fā)視網(wǎng)膜病變的患病率為23%。糖尿病并發(fā)視網(wǎng)膜病變是勞動年齡人口(20~64歲)致盲的主要因素[5],有研究[6-7]提示40歲以下患糖尿病的人群中視網(wǎng)膜病變的發(fā)病率為33.3%,是40歲以上患病人群的2倍(15.6%),具有早期隱蔽性、慢性進(jìn)展性、不可逆性的特點,按照疾病的發(fā)展進(jìn)程可以分為2型6期,其中1~3期為單純型視網(wǎng)膜病變,4~6期為增殖型視網(wǎng)膜病變,因此針對糖尿病并發(fā)視網(wǎng)膜病變做好早期預(yù)防是很必要的。

      近年來,大數(shù)據(jù)分析與數(shù)據(jù)挖掘逐漸引起關(guān)注,尤其是在醫(yī)療衛(wèi)生領(lǐng)域,數(shù)據(jù)挖掘的運用極其廣泛。本研究采用了基于機器學(xué)習(xí)理論的隨機森林模型和基于流行病學(xué)研究設(shè)計的Logistic回歸模型,分析2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)因素并建立風(fēng)險預(yù)測模型,通過ROC曲線下的面積(Area Under Curve,AUC)比較兩種風(fēng)險預(yù)測模型的優(yōu)劣,以期為內(nèi)分泌科臨床實踐中糖尿病患者并發(fā)視網(wǎng)膜病變的風(fēng)險評估提供數(shù)據(jù)指導(dǎo),盡早發(fā)現(xiàn)病情,確定診斷方案,開展臨床治療。

      1 方法

      1.1 數(shù)據(jù)標(biāo)準(zhǔn)化與合并

      選取中國人民解放軍總醫(yī)院內(nèi)分泌科2011~2013年住院患者的糖尿病診斷、糖化以及生化檢查數(shù)據(jù)。其中3種數(shù)據(jù)分屬于獨立的表格,并對其進(jìn)行整合得到可用于統(tǒng)計分析的數(shù)據(jù)集。數(shù)據(jù)整合的步驟如下:① 根據(jù)首次診斷信息提取2型糖尿病并發(fā)視網(wǎng)膜病變以及無視網(wǎng)膜病變的2型糖尿病患者信息;② 根據(jù)患者就診ID以及診斷時間從糖化檢查以及生化檢查表中提取距離診斷時間最近的一次患者檢查信息;③ 從糖化、生化實驗室檢查中的診斷信息中提取出合并癥的信息,包括高血壓、血脂異常、腎病、腫瘤、大血管病變、周圍神經(jīng)病變、心梗、腦梗、冠心病。有關(guān)提取的變量信息見表1。

      表1 變量信息表類別變量名中文描述人口學(xué)信息Sex性別

      Age年齡

      診斷信息Diagnosis2型糖尿病并發(fā)視網(wǎng)膜病變

      Hyperten高血壓

      Hyperlip血脂異常

      Kidney Dis腎病

      Cancer腫瘤

      Macroangiopathy大血管病變

      PNP周圍神經(jīng)病變

      Myocadinf心梗

      Cerebralinf腦梗

      Guanxinbing冠心病糖化HbA1c糖化血紅蛋白生化ALT谷丙轉(zhuǎn)氨酶

      AST谷草轉(zhuǎn)氨酶

      TP血清總蛋白

      ALB血清蛋白

      TBIL總膽紅素

      DBIL直接膽紅素

      ALP 堿性磷酸酶

      Urea 尿素

      GGT γ-谷胺酰轉(zhuǎn)肽酶

      Cre肌酐

      GLU_blood血糖

      TG 甘油三酯

      S_UA尿酸

      TCHO 總膽固醇

      CK 肌酸激酶

      LDH 乳酸脫氫酶

      Ca 鈣

      Na 鈉

      K 鉀

      Cl 氯

      P 磷

      Mg 鎂

      Lipase 酯酶

      HDL_C 高密度脂蛋白膽固醇Fe 鐵

      UIBC 不飽和鐵結(jié)合力

      1.2 隨機森林模型

      1.2.1 隨機森林基本原理

      隨機森林由Breiman[8]在2001年提出,它通過自助法(bootstrap)重采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機抽取k個樣本生成新的訓(xùn)練樣本集合,然后根據(jù)自助樣本集生成k個分類樹組成隨機森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定。其實質(zhì)是對決策樹算法的一種改進(jìn),將多個決策樹合并在一起,每棵樹的建立依賴于一個獨立抽取的樣品,森林中的每棵樹具有相同的分布,分類誤差取決于每一棵樹的分類能力和它們之間的相關(guān)性。特征選擇采用隨機的方法去分裂每一個節(jié)點,然后比較不同情況下產(chǎn)生的誤差。能夠檢測到的內(nèi)在估計誤差、分類能力和相關(guān)性決定選擇特征的數(shù)目。單棵樹的分類能力可能很小,但在隨機產(chǎn)生大量的決策樹后,一個測試樣品可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計后選擇最可能的分類。

      1.2.2 隨機森林算法

      隨機森林中的每一棵分類樹為二叉樹,其生成遵循自頂向下的遞歸分裂原則,即從根節(jié)點開始依次對訓(xùn)練集進(jìn)行劃分;在二叉樹中,根節(jié)點包含全部訓(xùn)練數(shù)據(jù),按照節(jié)點不純度最小原則,分裂為左節(jié)點和右節(jié)點,它們分別包含訓(xùn)練數(shù)據(jù)的一個子集,按照同樣的規(guī)則節(jié)點繼續(xù)分裂,直到滿足分支停止規(guī)則而停止生長。若節(jié)點n上的分類數(shù)據(jù)全部來自于同一類別,點的不純度I(n)=0。不純度度量方法是Gini準(zhǔn)則,即假設(shè)P(ωj)是節(jié)點n上屬于ωj類樣本個數(shù)占訓(xùn)練樣本總數(shù)的頻率,則Gini準(zhǔn)則表示為:(1)

      具體算法過程如下:

      (1)N表示原始訓(xùn)練集樣本個數(shù),mall用來表示變量的數(shù)目。

      (2)應(yīng)用bootstrap法有放回地隨機抽取k個新的自助樣本集,并由此構(gòu)建k棵決策樹,每次未被抽到的樣本組成了k個袋外數(shù)據(jù)(Out-of-Bag,OOB)。

      (3)每個自助樣本集用于建立一棵決策樹,在每一棵樹的每個節(jié)點處隨機抽取mtry個變量(mtry<mall),然后在中選擇一個最具有分類能力的變量,變量分類的閾值通過檢查每一個分類點確定。

      (4)每棵樹最大限度地生長,不做任何修剪。

      (5)將生成的多棵分類樹組成隨機森林,用隨機森林分類器對新的數(shù)據(jù)進(jìn)行判別與分類,分類結(jié)果視樹分類器的投票多少而定。

      在隨機森林構(gòu)建過程中,自助樣本集用于每一個樹分類器的形成,每次抽樣生成的OOB被用來預(yù)測分類的正確率,對每次預(yù)測結(jié)果進(jìn)行匯總得到錯誤率的OOB估計,然后評估組合分類器判別的正確率。此外,在隨機森林中,所應(yīng)用的自助樣本集從原始的訓(xùn)練樣本集中隨機選取,每一棵樹所應(yīng)用的變量也是從所有變量mall中隨機選取,兩次隨機過程使得隨機森林具有較穩(wěn)定的錯誤率,同時應(yīng)用袋外數(shù)據(jù)來衡量分類器的性能。

      隨機森林中最重要的參數(shù)是mtry,Svetnik等[9]通過試驗證實是一種較好的選擇。隨機森林中另外兩個重要的參數(shù)是構(gòu)建分類樹的個數(shù)ntree和葉節(jié)點nodesize的大小,本研究采用ntree=500和nodesize=1進(jìn)行研究。

      1.2.3 變量重要性評分

      變量重要性評分用于評價變量對于結(jié)局發(fā)生的影響,變量的重要性評分越高,則表明該變量越有能力對結(jié)局變量進(jìn)行分類。設(shè)原始樣本含量為N,各影響因素變量分別為x1,x2,…,xm。應(yīng)用bootstrap法有放回地隨機抽取b個新的自助樣本,并由此形成b個分類樹,每次未被抽到的樣本則組成b個袋外數(shù)據(jù)[10]。袋外數(shù)據(jù)作為測試樣本可以用來評估各個變量在分類中的重要性,具體實現(xiàn)過程如下:

      (1)用自助樣本形成每一個樹分類器,同時對相應(yīng)的OOB進(jìn)行分類,得到b個自助樣本的OOB中每一個樣品的投票分?jǐn)?shù),記為rate1,rate2,...,rateb。

      (2)將變量xi的數(shù)值在b個OOB樣本中的順序隨機改變,形成新的OOB測試樣本,然后用已建立的隨機森林對新的OOB進(jìn)行分類,根據(jù)判別正確的樣品數(shù)得到每一個樣本的投票分?jǐn)?shù),所得結(jié)果用矩陣表示為

      (2)

      (3)用rate1,rate2,...,rateb與矩陣(2)對應(yīng)的第i行向量相減,求和平均后再除以標(biāo)準(zhǔn)誤得變量xi的重要性評分,即(3) 1.3 Logistic回歸模型

      基于大樣本數(shù)據(jù)庫應(yīng)用流行病學(xué)研究設(shè)計,采用等樣本量病例對照研究,將數(shù)據(jù)庫中全部2型糖尿病并發(fā)視網(wǎng)膜病變患者作為病例組,采用簡單隨機抽樣法在全部非2型糖尿病并發(fā)視網(wǎng)膜病變患者中抽取與病例組等樣本量的對照組。結(jié)合文獻(xiàn)資料、專家經(jīng)驗和臨床知識選取研究因素。采用SPSS 21軟件對數(shù)據(jù)進(jìn)行統(tǒng)計學(xué)分析,利用卡方檢驗分析不同因素與2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)性,檢驗水準(zhǔn)α=0.05。應(yīng)用Logistic回歸分析法建立2型糖尿病并發(fā)視網(wǎng)膜病變關(guān)聯(lián)因素模型,自變量篩選采用以似然比檢驗為依據(jù)的前向步進(jìn)法(Forward: LR),以P<0.05為納入標(biāo)準(zhǔn),P>0.1為剔除標(biāo)準(zhǔn)。

      2 結(jié)果

      2.1 隨機森林模型結(jié)果

      本研究應(yīng)用隨機森林方法對2型糖尿病與2型糖尿病并發(fā)視網(wǎng)膜病變進(jìn)行分類預(yù)測,算法通過R軟件實現(xiàn)。根據(jù)2型糖尿病患者的基本信息(年齡、性別)以及實驗室檢查信息建立隨機森林預(yù)測模型對2型糖尿病與2型糖尿病并發(fā)視網(wǎng)膜病變進(jìn)行分類預(yù)測研究。糖尿病數(shù)據(jù)中的檢查信息存在一些數(shù)值缺失,本研究利用隨機森林方法內(nèi)嵌的臨近估計填補方法對其進(jìn)行填補。

      為了準(zhǔn)確地評價隨機森林分類模型的效果,本研究將經(jīng)過預(yù)處理的樣本分析數(shù)據(jù)隨機分成兩部分,其中3/4為訓(xùn)練樣本,1/4為測試樣本,按此方法隨機組成100個訓(xùn)練集和100個測試集,分別利用訓(xùn)練集建立預(yù)測模型,然后利用測試集對模型進(jìn)行效果評價。對模型的評估側(cè)重于模型本身的精度、準(zhǔn)確度、效果、效率等,主要采用錯誤率(Err. rate)、靈敏度(Sen)、特異度(Spe)和AUC 4種評價指標(biāo),其中靈敏度和特異度是按照概率0.5為判別閾值預(yù)測分類的評價結(jié)果,AUC是綜合評價的結(jié)果。

      在隨機森林模型的建立過程中,隨機森林方法能夠給出模型中每個變量的重要性評分,結(jié)果見圖1??梢钥闯鎏悄虿∠嚓P(guān)指標(biāo)如HbA1c、GLU_blood得分較高,腎功能檢查指標(biāo)如Urea、Cr、UA等也對分類起一定的作用,除此以外,年齡、合并冠心病以及腎病也對模型分類有一定貢獻(xiàn)。

      圖1 隨機森林變量重要性評分

      表2 基本情況及卡方檢驗結(jié)果,n(%)

      2.2 Logistic回歸模型結(jié)果

      最終納入研究的樣本共1566例(病例組和對照組各783例),其中女性占40.1%,平均年齡為(64.2±13.0)歲,其中60~74歲的年輕老人占41.2%,血糖控制情況差或不理想者(糖化血紅蛋白濃度>8%)占42.3%,血糖重度升高者(空腹血糖濃度≥11.1 mmol/L)占80.8%,高血壓患者占23.6%,血脂異常者占3.7%,慢性腎病患者占12.6%,冠心病患者占13.2%,心?;颊哒?.2%,腦梗患者占3.9%,癌癥患者占2.0%,各分類變量基本情況及卡方檢驗結(jié)果見表2,其變量賦值可見表3。

      單因素分析結(jié)果顯示,糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)因素包括性別、年齡、血糖控制情況(糖化血紅蛋白濃度)、高血壓、慢性腎病、冠心病、心梗和癌癥,見表2。其中,女性、90歲以上老年人、血糖控制情況不理想(糖化血紅蛋白濃度8%~9%)、未患高血壓、患有慢性腎病、未患冠心病、未患心梗及未患癌癥的糖尿病患者視網(wǎng)膜病變的發(fā)生率較高。

      Logistic回歸模型因變量及各自變量賦值,見表3。最終納入Logistic回歸模型的關(guān)聯(lián)因素包括性別、血糖控制情況(糖化血紅蛋白濃度)、慢性腎病、冠心病、心梗和癌癥,見表4。其中,男性與女性相比,糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險減少29%(OR=0.71);血糖控制情況每惡化一個水平,糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險增加30%(OR=1.30);慢性腎病患者糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險增加4.48倍(OR=5.48);冠心病患者、心?;颊吆桶┌Y患者的糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險則分別減少68%(OR=0.32)、63%(OR=0.37)和82%(OR=0.18)。

      表3 Logistic回歸模型變量賦值

      表4 糖尿病并發(fā)視網(wǎng)膜病變關(guān)聯(lián)因素的Logistic模型

      2.3 兩種模型結(jié)果的比較

      表5中給出了隨機森林模型與Logistic回歸模型預(yù)測的結(jié)果,其中隨機森林是對100個測試數(shù)據(jù)集預(yù)測的結(jié)果,包括各評價指標(biāo)的均值和標(biāo)準(zhǔn)差??梢钥闯鲭S機森林模型在各個評價指標(biāo)結(jié)果中都要優(yōu)于Logistic回歸模型。兩種模型預(yù)測效果的ROC曲線見圖2,在檢驗水平α=0.05下對兩種模型作差異性檢驗,得P=0.0019,由此可見隨機森林模型綜合預(yù)測效果要優(yōu)于Logistic回歸模型。

      表5 隨機森林模型與Logistic回歸模型預(yù)測結(jié)果比較

      圖2 Logistic回歸與隨機森林的ROC曲線

      3 討論

      在進(jìn)行數(shù)據(jù)整理時發(fā)現(xiàn)數(shù)據(jù)本身存在著變量缺失和變量數(shù)據(jù)缺失的問題,如已知的2型糖尿病并發(fā)視網(wǎng)膜病變重要風(fēng)險因素糖尿病病程變量缺失,生化檢查結(jié)果變量有較多的缺失數(shù)據(jù),這些都造成了后續(xù)模型擬合時在準(zhǔn)確度和精密度上存在一定誤差[11-12]。

      既往研究表明2型糖尿病并發(fā)視網(wǎng)膜病變的發(fā)生發(fā)展與糖尿病病程、高血壓、高血糖、血脂異常、慢性腎病及相關(guān)實驗室檢查指標(biāo)等多種因素有關(guān)[13-16]。本文研究的Logistic分析結(jié)果顯示,慢性腎病與糖化血紅蛋白濃度是2型糖尿病并發(fā)視網(wǎng)膜病變的危險因素。慢性腎病與2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)性較為明確,臨床上認(rèn)為糖尿病并發(fā)視網(wǎng)膜病變與慢性腎病具有相似的病理基礎(chǔ),即微血管病變和微循環(huán)障礙,本研究中慢性腎病患者發(fā)生糖尿病并發(fā)視網(wǎng)膜病變的風(fēng)險增加近5倍,驗證了慢性病腎病與糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)性。許多研究進(jìn)一步指出,反映慢性腎病程度的尿白蛋白是與糖尿病并發(fā)視網(wǎng)膜病變高度相關(guān)的獨立危險因素[17-18]。血糖控制情況是糖尿病并發(fā)視網(wǎng)膜病變的另一重要影響因素。與多數(shù)研究結(jié)果相同,本研究中糖化血紅蛋白濃度的升高增加了2型糖尿病并發(fā)視網(wǎng)膜病變的風(fēng)險,但空腹血糖值與2型糖尿病并發(fā)視網(wǎng)膜病變在本次研究中未表現(xiàn)出關(guān)聯(lián)性。其原因可能是空腹血糖值僅反映一次測量的血糖水平,而糖化血紅蛋白可反映近3個月的血糖水平,能更好地反映平時血糖控制情況,與2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)性更顯著[19]。本研究中冠心病、心梗和癌癥與2型糖尿病并發(fā)視網(wǎng)膜病變也具有關(guān)聯(lián)性,但其對2型糖尿病并發(fā)視網(wǎng)膜病變的保護(hù)作用與臨床機制和相關(guān)研究不符,可能的原因是研究資料中存在共線性,或樣本中冠心病、心梗和癌癥的病例數(shù)太少導(dǎo)致參數(shù)估計不可靠。本研究發(fā)現(xiàn)糖尿病并發(fā)視網(wǎng)膜病變的另一關(guān)聯(lián)因素是性別,女性比男性糖尿病患者并發(fā)視網(wǎng)膜病變的風(fēng)險大。性別在有關(guān)2型糖尿病并發(fā)視網(wǎng)膜病變關(guān)聯(lián)因素的現(xiàn)有研究中較少涉及,其關(guān)聯(lián)程度和影響作用有待進(jìn)一步的流行病學(xué)研究或大數(shù)據(jù)分析驗證。此外,既往研究中2型糖尿病并發(fā)視網(wǎng)膜病變傳統(tǒng)的危險因素高血壓和血脂異常在本研究中均未被納入多因素模型,可能是樣本中高血壓和血脂異常的病例數(shù)太少導(dǎo)致(樣本總量中高血壓患者占23.6%,血脂異常僅占3.7%)。

      本次研究,隨機森林算法分析結(jié)果給出了各個因素指標(biāo)的重要性評分,為2型糖尿病并發(fā)視網(wǎng)膜病變的早期診斷以及優(yōu)化診斷流程提供了一定的依據(jù),但是在變量重要性評分中實驗室檢查結(jié)果變量的表現(xiàn)普遍優(yōu)于診斷結(jié)果變量,產(chǎn)生此現(xiàn)象主要是由于診斷結(jié)果變量在數(shù)據(jù)集中出現(xiàn)頻率較低,此種偏移在Logistic回歸分析中也產(chǎn)生了不利的影響。隨機森林算法分析結(jié)果篩選出了一些現(xiàn)在醫(yī)學(xué)機制上尚無法解釋的變量,這可為以后的研究提供方向,但值得注意的是這些無法解釋的變量可能是由于數(shù)據(jù)集本身的樣本量限制及自變量間的相關(guān)性導(dǎo)致[20-21]。與Logistic回歸相比,隨機森林算法通過大量隨機選擇樣本的方法平衡了樣本誤差的影響,對由此產(chǎn)生的大量不同測試數(shù)據(jù)進(jìn)行分類綜合評價,較僅以單個測試樣本進(jìn)行擬合的Logistic回歸的結(jié)果更為可靠,但其對影響因素的解釋較為模糊,無法給出影響因素相對危險度的估計以及作用的方向性。

      [1] Sun JK,Cavallerano JD,Silva PS.Future promise of and potential pitfalls for automated detection of diabetic retinopathy[J].JAMA Ophthalmol,2015,17:1-2.

      [2] Kertes PJ,Johnson TM.Evidence Based Eye Care[M]. Philadelphia,PA:Lippincott Williams & Wilkins,2007.

      [3] Ting DS,Cheung GC,Wong TY.Diabetic retinopathy: global prevalence,major risk factors,screening practices and public health challenges: a review[J].Clin Experiment Ophthalmol, 2015,43(9):1-4.

      [4] Liu L,Wu X,Liu L,et al.Prevalence of diabetic retinopathy in mainland China: a meta-analysis[J].PLoS One,2012,7(9):e45264.

      [5] Engelgau MM,Geiss LS,Saaddine JB,et al.The evolving diabetes burden in the United States[J].Ann Intern Med,2004,140(11): 945-950.

      [6] Raman R,Vaitheeswaran K,Vinita K,et al.Is prevalence of retinopathy related to the age of onset of diabetes?Sankara Nethralaya Diabetic Retinopath Epidemiology and Molecular Genetic Report No.5[J].Ophthalmic Res,2011,45(1):36-41.

      [7] Chatziralli IP,Sergentanis TN,Keryttopoulos P,et al.Risk factors associated with diabetic retinopathy in patients with diabetes mellitus type 2[J].BMC Res Notes,2010,3:153.

      [8] Breiman L.Random forests[J].Machine Learning,2001,45 (1):5-32.

      [9] Svetnik V,Liaw A,Tong C,et al.Random forest:A classification and regression tool for compound classification and QSAR modeling[J].J Chem Inf Comput Sci,2003,43(6):1947-1958.

      [10] Díaz-Uriarte R,Alvarez de Andrés S.Gene selection and classification of microarray data using random forest[J].BMCBioinformatics,2006,7:3.

      [11] Abougalambou SS,Abougalambou AS.Risk factors associated with diabetic retinopathy among type 2 diabetes patients at teaching hospital in Malaysia[J].Diabetes Metab Syndr,2015,9(2): 98-103.

      [12] Jee D,Lee WK,Kang S.Prevalence and risk factors for diabetic retinopathy: the Korea National Health and Nutrition Examination Survey 2008-2011[J].Invest Ophthalmol Vis Sci,2013,54(10):6827-6833.

      [13] Dowse GK,Humphrey AR,Collins VR,et al.Prevalence and risk factors for diabetic retinopathy in the multiethnic population of Mauritius[J].Am J Epidemiol,1998,147(5):448-457.

      [14] Ronald K,Barbara EK,Scot EM,et al.The Wisconsin epidemiologic study of diabetic retinopathy.II.Prevalence and risk of diabetic retinopathy when age at diagnosis is less than 30 years[J].Arch Ophthalmol,1984,102(4):520-526.

      [15] McKay R,McCarty CA,Taylor HR.Diabetic retinopathy in Victoria,Australia:the Visual Impairment Project[J].Br J

      Ophthalmol,2000,84(8):865-870.

      [16] Varma R,Macias GL,Torres M,et al.Biologic risk factors associated with diabetic retinopathy:the Los Angeles Latino Eye Study[J].Ophthalmology,2007,114(7):1332-1340.

      [17] Pontuch P,Vozár J,Potocky M,et al.Relationship between retinopathy,and autonomic neuropathy in patients with type 1 diabetes[J].J Diabet Complications,1990,4(4):188-192.

      [18] Savage S,Estacio RO,Jeffers B,et al.Urinary albumin excretion as a predictor of diabetic retinopathy,neuropathy,and cardiovascular disease in NIDDM[J].Diabetes Care,1996,19(11):1243-1248.

      [19] 伍春榮,馬志中,胡蓮娜,等.糖尿病視網(wǎng)膜病變相關(guān)因素的因子分析[J].國際眼科雜志,2007,7(4):1056-1059.

      [20] Nicodemus KK,Malley JD,Strobl C,et al.The behaviour of random forest permutation-based variable importance measures under predictor correlation[J].BMC Bioinformatics,2010,11:110.

      [21] Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:ilustrations,sources and a solution[J].BMC Bioinformatics,2007,8:25.

      Risk Prediction and Comparitive Research of Type 2 Diabetes Mellitus Complicated with Retinopathy based on Logistic Regression and
      Random Forest Algorithm

      CAO Wen-zhea, YING Juna, CHEN Guang-feia, ZHOU Danb
      a.Department of Biomedical Engineering; b.Department of Medical Management, General Hospital of PLA, Beijing 100853, China

      ObjectiveTo analyze the relevant factors of type 2 diabetes mellitus complicated with retinopathy and to construct the risk prediction model based on machine learning, the random forest algorithm, and the Logistic regression algorithm based on the epidemiological design.MethodsTo analyze the data from the electronic medical record of patients with type 2 diabetes mellitus complicated with retinopathy in the General Hospital of PLA during 2011-2013. The main focus was on the diagnostic data of diabetes mellitus, the glycosylated data, and biochemical examination data. The prediction effect of the two models were compared with the Logistic regression algorithm and random forest algorithm according the area under the ROC curve.ResultsAmong the 39 variables in the the random forest models, blood glucose control (HbAlc), fasting glucose, urea, creatinine, uric acid, age, coronary heart disease (CHD), and chronic kidney disease (CKD) had higher scores and were of significant clinical explanations. The Logistic regression model finally in corporated six factors: sex, HbAlc, CKD, CHD, myocardial infarction, and cancer. The area under the ROC curve showed that the prediction effect of the random forest model was better than the Logistic regression Model.ConclusionThe research provided grading of the significance of different variable, which to a certain extent provides guidance for the early diagnosis of type 2 diabetes mellitus complicated with retinopathy and the optimization of clinical diagnosis flow.

      type 2 diabetes mellitus; retinopathy; correlative factor; risk prediction; random forestalgorithm; Logistic regressionalgorithm

      TN957.51

      A

      10.3969/j.issn.1674-1633.2016.03.006

      1674-1633(2016)03-0033-06

      2016-01-15

      國家自然科學(xué)基金( 61501518)。通信作者:周丹,教授,博士生導(dǎo)師。

      郵箱:zd99@vip.sohu.com

      猜你喜歡
      糖化視網(wǎng)膜腎病
      深度學(xué)習(xí)在糖尿病視網(wǎng)膜病變診療中的應(yīng)用
      預(yù)防腎病,維護(hù)自己和家人的健康
      中老年保健(2021年4期)2021-08-22 07:07:58
      家族性滲出性玻璃體視網(wǎng)膜病變合并孔源性視網(wǎng)膜脫離1例
      高度近視視網(wǎng)膜微循環(huán)改變研究進(jìn)展
      中醫(yī)怎樣治腎病?
      腎病防治莫入誤區(qū)
      “重女輕男”的腎病
      新型糖化醪過濾工藝
      復(fù)明片治療糖尿病視網(wǎng)膜病變視網(wǎng)膜光凝術(shù)后臨床觀察
      甜酒曲發(fā)酵制備花生粕糖化液的研究
      吉林省| 马山县| 加查县| 新巴尔虎右旗| 平顶山市| 温泉县| 安西县| 沂水县| 中超| 馆陶县| 金山区| 嘉善县| 南昌市| 南漳县| 萨嘎县| 荃湾区| 宁陵县| 龙川县| 铜陵市| 六安市| 松江区| 河津市| 铁岭市| 平泉县| 大兴区| 措美县| 呼和浩特市| 灵寿县| 临潭县| 桂林市| 隆尧县| 张掖市| 沂南县| 资中县| 靖江市| 巴塘县| 通河县| 明光市| 扎赉特旗| 文山县| 尚志市|