張 穎,竇一峰
(天津市寶坻區(qū)人民醫(yī)院泌尿外科1,網(wǎng)絡(luò)信息中心2,天津 301800)
近年來,隨著交叉學(xué)科的不斷發(fā)展,作為疾病預(yù)測(cè)模型中的重要組成部分,越來越多的機(jī)器學(xué)習(xí)和人工智能算法應(yīng)用于醫(yī)學(xué)數(shù)據(jù)集上,在疾病預(yù)測(cè)與輔助診斷、藥物選擇與應(yīng)用、醫(yī)保欺詐與檢測(cè)等醫(yī)學(xué)相關(guān)領(lǐng)域展示出優(yōu)良性能。已有研究[1,2]采用隨機(jī)森林算法對(duì)電子病歷數(shù)據(jù)進(jìn)行分析,從而預(yù)測(cè)患者是否患有糖尿病。另有研究[3-6]分別采用K 最近鄰、決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等模型對(duì)糖尿病數(shù)據(jù)進(jìn)行分析預(yù)測(cè),用于輔助臨床決策。但目前大多研究只采用單一的進(jìn)行算法疾病預(yù)測(cè),或僅與極少常用的算法進(jìn)行比較。基于此,本研究基于WEKA 平臺(tái),將機(jī)器學(xué)習(xí)領(lǐng)域常見的各種算法應(yīng)用于糖尿病早期診斷預(yù)測(cè)中,探索機(jī)器學(xué)習(xí)算法對(duì)于醫(yī)學(xué)分類數(shù)據(jù)的可操作性和可移植性,現(xiàn)總結(jié)如下。
1.1 數(shù)據(jù)來源 本研究實(shí)驗(yàn)數(shù)據(jù)集是來源于UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫中美國國家糖尿病消化腎臟疾病研究所提供的皮馬印第安人糖尿病數(shù)據(jù)集,共計(jì)768 條數(shù)據(jù)。該數(shù)據(jù)集主要以美國亞利桑那州的普通居民為研究對(duì)象,因當(dāng)?shù)厝丝谥刑悄虿“l(fā)病率較高,為了更好的基于數(shù)據(jù)集中包含的某些診斷指標(biāo)來預(yù)測(cè)患者是否患有糖尿病,該研究所對(duì)這個(gè)地區(qū)的人口進(jìn)行持續(xù)性的調(diào)查研究。數(shù)據(jù)集構(gòu)成見表1。
表1 皮馬印第安人糖尿病數(shù)據(jù)集
1.2 分類算法 選取算法涵蓋了基于貝葉斯定理的算法、集成學(xué)習(xí)模型、基于規(guī)則的算法和基于樹思想的算法等6 大類,見表2。
1.3 評(píng)價(jià)指標(biāo) 根據(jù)混淆矩陣來確定評(píng)價(jià)指標(biāo),主要為Kappa 統(tǒng)計(jì)量,用于評(píng)判分類器的分類結(jié)果與隨機(jī)分類的差異度,取值范圍[-1,1],Kappa 值與分類器的AUC 指標(biāo)及準(zhǔn)確率呈正相關(guān),該值越接近1 表示算法越準(zhǔn)確。統(tǒng)計(jì)學(xué)指標(biāo)包括衡量預(yù)測(cè)值和觀測(cè)值之間絕對(duì)誤差的平均絕對(duì)誤差(mean absolute error,MAE)、表示預(yù)測(cè)值和觀測(cè)值之間差異的均方根誤差(root mean square error,RMSE)、平均絕對(duì)誤差平方根(root absolute error,RAE)、相對(duì)平方根誤差(root relative squared error,RRSE),其值越小越好。將被算法判定為正樣本且事實(shí)上也是正樣本的個(gè)案記為TP,將被算法判定為負(fù)樣本且事實(shí)上為負(fù)樣本的個(gè)案記為TN,將被算法判定為正樣本但事實(shí)上是負(fù)樣本的個(gè)案記為FP,將被算法判定為負(fù)樣本但實(shí)際上是正樣本的個(gè)案記為FN?;诖?,得到機(jī)器學(xué)習(xí)算法常用評(píng)價(jià)指標(biāo)的計(jì)算方式,包括TPR、FPR、Precision、Recall、F-Measure、Accuracy 和ROC曲線下面積(AUC)。
2.1 數(shù)據(jù)感知 該數(shù)據(jù)集768 人中有268 人患病,500 人不患病,患病率為34.90%。其中糖尿病患者的平均葡萄糖濃度、平均舒張壓、平均皮褶厚度、平均血清胰島素、平均體重指數(shù)、平均糖尿病譜系功能均高于正常人,其年齡一般在27~47 歲,懷孕次數(shù)1~8 次,見表3。
2.2 算法結(jié)果 運(yùn)用Weka3.6.12 軟件,采用十折交叉驗(yàn)證的方式對(duì)1.2 中提出的算法進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì)學(xué)評(píng)價(jià)指標(biāo)結(jié)果見表4,機(jī)器學(xué)習(xí)評(píng)價(jià)指標(biāo)結(jié)果見表5。結(jié)果顯示,本次選取的算法在該糖尿病數(shù)據(jù)的分類預(yù)測(cè)中均達(dá)到65%以上的準(zhǔn)確率,其中集成學(xué)習(xí)模型的準(zhǔn)確率較為穩(wěn)定,各算法均超過了74%,但從算法時(shí)間來看,集成學(xué)習(xí)算法普遍上較其他算法的運(yùn)行時(shí)間長。在內(nèi)部一致性上,LMT 和Logistic 兩種算法表現(xiàn)出較好的一致性,同時(shí)其均方根誤差和相對(duì)平方根誤差最低,而從機(jī)器學(xué)習(xí)評(píng)價(jià)指標(biāo)上來看,LMT 和Logistic 算法分類正確率、F-Measure 和AUC值在所有算法中最優(yōu),顯示這兩種算法在皮馬印第安人糖尿病數(shù)據(jù)集的分類預(yù)測(cè)上有較好的效果。
表2 分類算法
表3 數(shù)據(jù)集描述性統(tǒng)計(jì)情況
表4 統(tǒng)計(jì)學(xué)類指標(biāo)實(shí)驗(yàn)結(jié)果
表5 機(jī)器學(xué)習(xí)類指標(biāo)實(shí)驗(yàn)結(jié)果
表5 (續(xù))
為了實(shí)現(xiàn)基于WEKA 平臺(tái)的醫(yī)學(xué)數(shù)據(jù)分類和糖尿病早期預(yù)測(cè),本研究以皮馬印第安人糖尿病數(shù)據(jù)集為例,使用基于貝葉斯、基于函數(shù)、基于集成思想等六類共23 種算法進(jìn)行實(shí)驗(yàn),通過對(duì)多種基礎(chǔ)分類器及其衍生算法進(jìn)行比較,并利用多種評(píng)價(jià)指標(biāo)進(jìn)行性能評(píng)估,以期得到更加適合糖尿病數(shù)據(jù)預(yù)測(cè)的算法。
本研究中,從統(tǒng)計(jì)學(xué)評(píng)價(jià)指標(biāo)來看,Kappa>0.4,說明兩者一致性在可接受范圍,LMT、SMO、Logistic、NavieBayes、RotationForest 和Bagging 的Kappa 值均超過了0.44,說明其內(nèi)部一致性良好;而MAE、RMSE、RAE 和RRSE 的值越小說明分類器預(yù)測(cè)值和實(shí)際結(jié)果的差異越小,分類精度越高。RMSE 和RRSE 均較小的前5 位算法依次為Logistic、LMT、RotationForest、RandomForest 和Bagging。這與研究[7,8]報(bào)道采用決策樹、隨機(jī)森林、支持向量機(jī)和k 近鄰算法作用在糖尿病數(shù)據(jù)分類判別后得到的Random-Forest 最優(yōu)結(jié)果一致。從算法訓(xùn)練的時(shí)間上看,算法的輸入?yún)?shù)越少,剪枝迭代的次數(shù)越少,其訓(xùn)練時(shí)間越短,因而本次集成學(xué)習(xí)算法的訓(xùn)練時(shí)間普遍較長。
本研究中,從機(jī)器學(xué)習(xí)評(píng)價(jià)指標(biāo)來看,各個(gè)指標(biāo)的評(píng)價(jià)值越高說明算法的分類效果和預(yù)測(cè)精度越高。基于集成學(xué)習(xí)思想的模型整體上比其他模型的分類正確率、精確率、召回率、F-Measure 和AUC 值高,這可能是因?yàn)榧煞椒ㄆ骄藛蝹€(gè)模型的偏差,也減少了方差,同時(shí)集成學(xué)習(xí)使得算法的過擬合概率降低。從單個(gè)算法角度看,LMT、SMO、Logistic、NavieBayes、RotationForest 的分類正確率均超過了76%,這些算法的真陽性率也在76.2%以上,同時(shí)ROC 曲線下面積除SMO 外均達(dá)到了0.82 以上,說明它們?cè)谠撎悄虿?shù)據(jù)集上的分類性能較好,能夠在糖尿病早期預(yù)測(cè)中發(fā)揮重要作用。
綜上所述,在該糖尿病數(shù)據(jù)集上的分類預(yù)測(cè)效果較好的算法有六種,分別是LMT、SMO、Logistic、NavieBayes、RotationForest 和Bagging。未來,計(jì)劃將各個(gè)算法利用信息融合的思想對(duì)模型進(jìn)行組合優(yōu)化,結(jié)合各個(gè)模型的優(yōu)勢(shì)特點(diǎn)來提高對(duì)糖尿病的預(yù)測(cè)精度和效率。