陳宇斌,王 成,藍(lán)元隆,緱 錦
(1.漳州衛(wèi)生職業(yè)學(xué)院 臨床醫(yī)學(xué)系,福建 漳州 363000; 2.華僑大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門 361021;3.漳州市中醫(yī)院,福建 漳州 363000)
糖尿病(DM)是一種多病因的代謝疾病,其特點(diǎn)是慢性高血糖,是因胰島素(INS)分泌或作用缺陷引起的糖、脂肪和蛋白質(zhì)代謝紊亂的疾病[1].2020年,我國2型糖尿病(T2DM)患病率升至11.2%[2],作為其主要并發(fā)癥的糖尿病腎病(DKD)(下文中的DKD均指基于T2DM并發(fā)癥的糖尿病腎病)患病率也一路攀升.研究顯示,在我國住院慢性腎臟病(CKD)患者中DKD患者約占26.96%[3].
2017年,各國專家在國際共識中推薦“葡萄糖目標(biāo)范圍內(nèi)時間”(time in range,TIR)用于糖尿病(DM)臨床診斷[4].TIR強(qiáng)調(diào)的是血糖在正常達(dá)標(biāo)范圍內(nèi)的時間[5].近年來,關(guān)于TIR的研究大多集中于TIR作為血糖管理指標(biāo)的作用[6].研究表明,TIR與糖尿病金指標(biāo)糖化血紅蛋白(HbA1c)之間存在密切關(guān)系[7].TIR與糖尿病并發(fā)癥也存在顯著相關(guān)性[8],通過TIR可預(yù)測糖尿病微血管并發(fā)癥的危險性[9].美國Jaeb健康研究中心Beck教授研究發(fā)現(xiàn),TIR每下降10%,微量白蛋白尿的發(fā)生風(fēng)險增加40%[10].余萍萍等針對T2DM患者的尿白蛋白水平與TIR進(jìn)行相關(guān)性研究[11],證實TIR在DKD預(yù)測方面具有重要作用[12].但目前仍無關(guān)于TIR對DKD診斷結(jié)果是否有效并量化有效程度的研究.
在算法選擇上,分類算法可有效預(yù)測T2DM[13],且在神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、貝葉斯、支持向量機(jī)等機(jī)器學(xué)習(xí)算法中,決策樹算法預(yù)測DM的效果最佳[14],但目前卻少見使用決策樹算法預(yù)測DKD的文獻(xiàn)報道.本文選擇決策樹算法預(yù)測DKD,不但在理論上可行,且具有新穎性.其主要創(chuàng)新點(diǎn)和貢獻(xiàn)為:①提出一種基于決策樹算法的TIR用于診斷DKD的預(yù)測模型;②判別TIR屬性對DKD診斷預(yù)測是否有效,并量化TIR對DKD診斷結(jié)果的重要程度;③在漳州市區(qū)三乙以上醫(yī)院數(shù)據(jù)集的基礎(chǔ)上進(jìn)行驗證.
選取漳州市區(qū)三乙以上醫(yī)院2020年9月至2021年3月進(jìn)行TIR采集的54條T2DM患者數(shù)據(jù),其中DKD患者20例,占比為37.03%.選取對DKD臨床診斷較有意義的9個特征屬性:性別、年齡、總膽固醇(TCHO)、甘油三酯(TG)、高密度脂蛋白(HDL-C)、低密度脂蛋白(LDL-C)、尿微量白蛋白(mALB)、糖化血紅蛋白(HbA1c)、尿微量白蛋白與尿肌酐的比值(UACR),以及1個待研究指標(biāo)TIR,見表1.未確診DKD的用0表示,確診DKD的用1表示.
表1 DKD數(shù)據(jù)集的屬性
1.2.1 基于決策樹的DKD診斷預(yù)測方法
在機(jī)器學(xué)習(xí)算法中,決策樹[15]也稱判定樹,是用于分類的一種樹結(jié)構(gòu),也是一種簡單且應(yīng)用廣泛的預(yù)測方法.決策樹的基本組成部分是決策結(jié)點(diǎn)、分支和葉結(jié)點(diǎn).每個決策結(jié)點(diǎn)代表對某個屬性的一次測試,每條分支代表一個測試結(jié)果,葉結(jié)點(diǎn)代表某個類或類的分布,最上面的結(jié)點(diǎn)是根結(jié)點(diǎn).決策樹算法采用自頂向下的遞歸方法,首先對數(shù)據(jù)進(jìn)行處理,利用歸納法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進(jìn)行分析[16].本質(zhì)上,決策樹算法是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程.好的決策樹希望類別越少,即樹越小,因此屬性選擇尤為重要.屬性選擇依賴于對樣本集合的不純度度量方法.
將表1中診斷預(yù)測DKD的9個常用指標(biāo),以及1個待研究的TIR指標(biāo)作為屬性,將是否確診DKD作為類別,基于數(shù)據(jù)驅(qū)動,利用決策樹和訓(xùn)練集構(gòu)建一個DKD診斷預(yù)測問題的分類器,并在測試集上驗證算法預(yù)測的精度,精度越高,說明基于決策樹的DKD診斷預(yù)測方法的準(zhǔn)確性越高,具有一定的可行性.
1.2.2 基于決策樹的TIR對DKD診斷重要程度的評估方法
通過增減TIR屬性對DKD診斷結(jié)果的影響權(quán)重來確定TIR指標(biāo)的有效性.TIR(包含TIR和不包含TIR)對DKD診斷的作用越無法代替,基于決策樹的DKD診斷預(yù)測準(zhǔn)確率差異就越大.將DKD的9個常用指標(biāo)和TIR指標(biāo)作為自變量來生成決策樹模型,分析所有自變量的重要性,得出重要性數(shù)值和排名,并通過實驗量化TIR的重要程度.TIR對DKD診斷重要程度的評估方法比較見表2.
表2 TIR對DKD診斷重要程度的評估方法比較
將Gini指數(shù)作為測量指標(biāo),采用留一法進(jìn)行交叉驗證,使用風(fēng)險評估及標(biāo)準(zhǔn)誤差對模型預(yù)測的正確性進(jìn)行測量,并給出所構(gòu)建的決策樹模型預(yù)測的準(zhǔn)確率[17].分析算法使用決策樹CRT算法,因變量為分類變量,生成的即為分類樹模型.數(shù)據(jù)分析使用IBM的SPSSStatistics 24版決策樹分析分類器[18].
1.3.1 自變量中含TIR屬性
自變量為表1中的1~10,最大樹深度設(shè)定為5.對模型的準(zhǔn)確率進(jìn)行統(tǒng)計,并分析每個自變量對模型的重要性.其算法語法運(yùn)行如下:
* 決策樹.
TREE診斷結(jié)果[n] BY 性別 [n] 年齡 [s] TG [s] HDLC [s] TCHO [s] LDLC [s] UmALB [s] HbA1c [s] UACR [s] TIR[s]
/TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO
/DEPCATEGORIES USEVALUES=['0' '1'] TARGET=['1']
/PRINT MODELSUMMARY IMPORTANCE CLASSIFICATION RISK
/GAIN CATEGORYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO
/PLOT IMPORTANCE
/METHOD TYPE=CRT MAXSURROGATES=AUTO PRUNE=NONE
/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=2 MINCHILDSIZE=1
/VALIDATION TYPE=CROSSVALIDATION(5) OUTPUT=TESTSAMPLE
/CRT IMPURITY=GINI MINIMPROVEMENT=0.0001
/COSTS EQUAL
/PRIORS FROMDATA ADJUST=NO
/MISSING NOMINALMISSING=MISSING
1.3.2 自變量中不含TIR屬性
自變量為表1中的1~9,其它參數(shù)設(shè)置同1.3.1.其算法語法運(yùn)行如下:
* 決策樹.
TREE 診斷結(jié)果 [n] BY 性別 [n] 年齡 [s] TG [s] HDLC [s] TCHO [s] LDLC [s] UmALB [s] HbA1c [s] UACR [s]
/TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO
/DEPCATEGORIES USEVALUES=['0' '1'] TARGET=['1']
/PRINT MODELSUMMARY IMPORTANCE CLASSIFICATION RISK
/GAIN CATEGORYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO
/PLOT IMPORTANCE
/METHOD TYPE=CRT MAXSURROGATES=AUTO PRUNE=NONE
/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=5 MINCHILDSIZE=1
/VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES
/CRT IMPURITY=GINI MINIMPROVEMENT=0.0001
/COSTS EQUAL
/PRIORS FROMDATA ADJUST=NO
/MISSING NOMINALMISSING=MISSING
在使用CRT算法運(yùn)行后生成的含TIR的決策樹模型如圖1所示.其深度為4,總結(jié)點(diǎn)數(shù)為15,終端節(jié)點(diǎn)數(shù)為8,在根節(jié)點(diǎn)中確診DKD的比例為37%.樹模型的4層分別按照UACR,HDL-C、TCHO,年齡、TG,mALB、TIR作為節(jié)點(diǎn)進(jìn)行拆分,說明這幾個屬性對希望預(yù)測的目標(biāo)類別(確診DKD)有較大影響.將樹模型往下第一層結(jié)點(diǎn)以“UACR(尿微量白蛋白/肌酐)”進(jìn)行拆分,拆分點(diǎn)為:是否超過 60.58 mg/g,符合2020版中國2型糖尿病防治指南中“UACR>30 mg/g, 腎組織活檢符合糖尿病腎病(DKD)病理改變,臨床可診斷為糖尿病腎病(DKD)”[2,19]. 由此說明,該樹模型符合臨床實際,具有高度的可用性和參考性.
圖1 含TIR的樹模型結(jié)果Fig.1 Results of tree model with TIR
節(jié)點(diǎn)增益如表3所示.TIR≤78.5的節(jié)點(diǎn)13增益并列最高,其節(jié)點(diǎn)個案數(shù)僅占總樣本量的 9.3%,卻有 100%樣本被確診為DKD,即響應(yīng)率為 100%,遠(yuǎn)高于平均確診率 37%(見根結(jié)點(diǎn)).增益為節(jié)點(diǎn)確診個案樣本數(shù)與確診總樣本數(shù)的比值.指數(shù)體現(xiàn)增益一列百分比與節(jié)點(diǎn)一列百分比的比值信息.這說明TIR值低于 78.5%對確診DKD有更重要的作用,在理論上有可能TIR低于 78.5%的2糖患者被確診為DKD的風(fēng)險會增大,建議臨床上可針對此數(shù)值進(jìn)行深入研究.
表3 含TIR節(jié)點(diǎn)的增益
模型準(zhǔn)確率如表4所示.該模型的預(yù)測準(zhǔn)確率為100%,預(yù)測準(zhǔn)確率總體達(dá)100%.其中,0表示未確診DKD的樣本數(shù),1表示確診DKD的樣本數(shù).因此,該模型對是否確診DKD進(jìn)行分析預(yù)測的效果極好,其結(jié)果具有較高的參考價值.
表4 含TIR模型的準(zhǔn)確率
TIR在所有自變量中的重要性排名如表5所示.在“是否診斷DKD”的因變量中,排名前兩位的是“mALB”“UACR”,其與現(xiàn)有臨床DKD診斷標(biāo)準(zhǔn)基本符合[19],說明此模型分析結(jié)果與實際相符,具有高度的準(zhǔn)確性.TIR作為新加入的待研究指標(biāo),重要性在“高密度脂蛋白”后,在10項診斷指標(biāo)中排名第4,說明TIR指標(biāo)對診斷DKD的權(quán)重影響較大.
表5 含TIR的自變量重要性
在使用CRT算法運(yùn)行后生成的不含TIR的決策樹模型,其深度為4,總結(jié)點(diǎn)數(shù)為15,終端節(jié)點(diǎn)數(shù)為8.不含TIR的樹模型結(jié)果如圖2所示.樹模型的4層分別以UACR,HDL-C、TCHO,年齡、TG,mALB、TG作為節(jié)點(diǎn)進(jìn)行拆分,說明除去TIR后仍是原來幾個屬性對目標(biāo)類別有影響,并沒有出現(xiàn)新的屬性替代TIR.這說明TIR作為屬性,對目標(biāo)類別的作用是不可取代的.
圖2 不含TIR的樹模型結(jié)果Fig.2 Results of tree model without TIR
不含TIR樹模型的節(jié)點(diǎn)增益如表6所示,節(jié)點(diǎn)6、8、12、13的增益同時為最高,響應(yīng)率均為100%,節(jié)點(diǎn)14的響應(yīng)率為50%.
表6 不含TIR節(jié)點(diǎn)的增益
不含TIR的模型準(zhǔn)確率如表7所示.在預(yù)測確診DKD中出現(xiàn)了1條錯誤數(shù)據(jù),即實際為確診樣本,但預(yù)測為未確診樣本,由此導(dǎo)致預(yù)測確診DKD的正確百分比只有19/20=95%,預(yù)測確診DKD的總體百分比為35/54=64.8%,預(yù)測未確診DKD的總體百分比為19/54=35.2%,從而使得總體準(zhǔn)確率下降至98.1%.這說明TIR對“是否確診DKD”是有影響的.
表7 不含TIR模型的準(zhǔn)確率
不含TIR的9個自變量重要性排名如表8所示.在“是否診斷DKD”的因變量中,除去TIR后,所有自變量的重要性排名不變.這說明此模型的分析結(jié)果與實際相符,具有高度的準(zhǔn)確性.
表8 不含TIR的自變量重要性
為研究TIR對DKD診斷是否有影響,本文構(gòu)建了基于決策樹算法的DKD診斷預(yù)測模型,并在漳州市區(qū)三乙以上醫(yī)院數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了驗證,結(jié)果表明:TIR對臨床診斷DKD具有其他指標(biāo)不可替代的積極作用,TIR低于78.5%的T2DM患者可能被確診為DKD的風(fēng)險增大;TIR自變量的重要性排名靠前,說明其可作為DKD臨床診斷的重要指標(biāo)之一.
TIR作為新興指標(biāo),數(shù)據(jù)采集相對困難.本文所采集的數(shù)據(jù)僅限于漳州市區(qū)三乙以上醫(yī)院,數(shù)據(jù)的范圍和數(shù)量對建模來說相對較少,因此在某種程度上會影響模型的預(yù)測效果.另外,除決策樹外,下一步研究應(yīng)嘗試采用更多的機(jī)器學(xué)習(xí)算法進(jìn)行DKD診斷預(yù)測效果的比較.