文/王旭強(qiáng) 萬(wàn)亞平
中國(guó)是世界上糖尿病患者最多的國(guó)家,病人達(dá)到1.1億,每年有130萬(wàn)人死于糖尿病及其相關(guān)疾病。每年用于糖尿病的醫(yī)療費(fèi)用占中國(guó)公共醫(yī)療衛(wèi)生支出的比例超過(guò)13%,超過(guò)3000億元。
確診糖尿病的關(guān)鍵環(huán)節(jié)就是診斷過(guò)程,單純的僅靠臨床表現(xiàn)進(jìn)行判斷是不科學(xué)的。目前醫(yī)院里診斷糖尿病的主要依據(jù)是人體的各類(lèi)指標(biāo)。這些指標(biāo)包括尿糖,血糖,葡萄糖耐量,糖化血紅蛋白A1,血漿胰島素和C-肽等。妊娠期糖尿病還需要檢測(cè)其他不同的指標(biāo)。
表1
將人工智能應(yīng)用于輔助醫(yī)療是目前一個(gè)研究熱點(diǎn)。人工智能通過(guò)對(duì)大量患者的歷史數(shù)據(jù)分析、提取不易察覺(jué)的一些關(guān)鍵指標(biāo),總結(jié)和發(fā)現(xiàn)規(guī)律來(lái)輔助醫(yī)生對(duì)未來(lái)的病人進(jìn)行診斷。
本文將介紹國(guó)內(nèi)外應(yīng)用人工智能對(duì)糖尿病檢測(cè)的方法,之后介紹在該業(yè)務(wù)數(shù)據(jù)的情況下提取特征,應(yīng)用新型的人工智能算法來(lái)解決這個(gè)難題。
關(guān)于糖尿病檢測(cè)的分類(lèi)問(wèn)題,目前國(guó)內(nèi)外有很多專(zhuān)家進(jìn)行了研究。
在二十世紀(jì)70年代,由美國(guó)斯坦福大學(xué)研制的MYCIN系統(tǒng)是人工智能在醫(yī)學(xué)診斷中的早期應(yīng)用。IBM公司整合了20多個(gè)頂尖的癌癥醫(yī)療機(jī)構(gòu)提供的大數(shù)據(jù),它融合了自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù)。上個(gè)世紀(jì)八九十年代,一部分國(guó)外的專(zhuān)家學(xué)者用機(jī)器學(xué)習(xí)技術(shù)研究糖尿病。
在我國(guó),近些年就出現(xiàn)了一種機(jī)器學(xué)習(xí)檢測(cè)妊娠期糖尿病發(fā)病風(fēng)險(xiǎn)及病情程度的預(yù)測(cè)系統(tǒng),主要包括數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,特征提取,機(jī)器學(xué)習(xí),性能評(píng)估五個(gè)部分。數(shù)據(jù)的采集是采集孕婦的數(shù)據(jù)包括懷孕周數(shù),體重,年齡,等基本的數(shù)據(jù)信息。數(shù)據(jù)預(yù)處理是數(shù)據(jù)的清洗,異常值的排除,缺失值的填充,數(shù)據(jù)的標(biāo)準(zhǔn)化。特征提取是對(duì)數(shù)據(jù)的原始特征進(jìn)行二次組合,提取出對(duì)糖尿病預(yù)測(cè)更有效的特征。機(jī)器學(xué)習(xí)部分是運(yùn)用隱馬爾科夫模型分析單因素連續(xù)時(shí)間變量與妊娠期糖尿病之間的關(guān)系。性能評(píng)估模塊在獲得模型中的各個(gè)參數(shù)后,給定孕婦的某個(gè)項(xiàng)目的檢測(cè)指標(biāo),來(lái)判斷最終患糖尿病的機(jī)率。
數(shù)據(jù)來(lái)自于阿里天池的公開(kāi)數(shù)據(jù)集。數(shù)據(jù)共包含兩個(gè)文件,訓(xùn)練文件和測(cè)試文件,每個(gè)文件第一行是字段名,之后每一行代表一個(gè)個(gè)體。文件共包含42個(gè)字段,包含數(shù)值型、字符型、日期型等眾多數(shù)據(jù)類(lèi)型,部分字段內(nèi)容在部分人群中有缺失,其中第一列為個(gè)體ID號(hào)。訓(xùn)練文件的最后一列為標(biāo)簽列,即需要預(yù)測(cè)的目標(biāo)血糖值。
圖1
以每個(gè)人是否患妊娠糖尿病的預(yù)測(cè)結(jié)果,以整數(shù)形式表示類(lèi)別,取值為0或者1。該結(jié)果將與個(gè)體實(shí)際檢測(cè)到的是否患有妊娠糖尿病情況進(jìn)行對(duì)比,以F1為評(píng)價(jià)指標(biāo),結(jié)果越大越好,F(xiàn)1計(jì)算公式為:F1=2*P*R/(P+R)。其中P為準(zhǔn)確率,計(jì)算公式為:P=預(yù)測(cè)正確的正樣本數(shù)/預(yù)測(cè)的樣本數(shù)。R為召回率,計(jì)算公式為:R=預(yù)測(cè)正確的正樣本數(shù)/總正樣本數(shù)
其中正樣本數(shù)定義為數(shù)值為1的樣本數(shù)。
本實(shí)驗(yàn)中,通過(guò)對(duì)數(shù)據(jù)的預(yù)處理,特征提取,與特征篩選,最終得到如表1所示結(jié)果。
如表1所示,Xgboost和lightGBM的F1值要比RF的高。數(shù)據(jù)中各項(xiàng)指標(biāo)對(duì)結(jié)果的重要性如圖1。
如圖1可見(jiàn),超早期檢測(cè)這些強(qiáng)重要性特征,可以做到精準(zhǔn)預(yù)防。VAR00007越高越容易患GDM,超重、肥胖的孕婦容易患GDM,高齡孕婦容易患GDM,多孕多產(chǎn)次的孕婦易患GDM,具有DM家族史的孕婦GDM的發(fā)病率更高,當(dāng)前身體狀況偏差也會(huì)對(duì)GDM發(fā)病率升高,血壓偏高的孕婦GDM的發(fā)病率偏高,SNP34、SNP37等單核苷酸多態(tài)性以及聯(lián)合多態(tài)性。
本文基于XGBoost和lightGBM和RF的樹(shù)模型來(lái)判斷是否為糖尿病患者。通過(guò)一系列的數(shù)據(jù)預(yù)處理以及特征提取,找出了判斷是否為糖尿病患者的重要特征。下一步的工作包括:算法的幾個(gè)關(guān)鍵參數(shù)還需要更多次的實(shí)驗(yàn)。