人工智能在糖尿病遺傳預(yù)測(cè)中的應(yīng)用

2019-01-30 07:49:26王旭強(qiáng)萬(wàn)亞平

電子技術(shù)與軟件工程 2019年1期

文/王旭強(qiáng) 萬(wàn)亞平

1 引言

中國(guó)是世界上糖尿病患者最多的國(guó)家，病人達(dá)到1.1億，每年有130萬(wàn)人死于糖尿病及其相關(guān)疾病。每年用于糖尿病的醫(yī)療費(fèi)用占中國(guó)公共醫(yī)療衛(wèi)生支出的比例超過(guò)13%，超過(guò)3000億元。

確診糖尿病的關(guān)鍵環(huán)節(jié)就是診斷過(guò)程，單純的僅靠臨床表現(xiàn)進(jìn)行判斷是不科學(xué)的。目前醫(yī)院里診斷糖尿病的主要依據(jù)是人體的各類(lèi)指標(biāo)。這些指標(biāo)包括尿糖，血糖，葡萄糖耐量，糖化血紅蛋白A1，血漿胰島素和C-肽等。妊娠期糖尿病還需要檢測(cè)其他不同的指標(biāo)。

表1

將人工智能應(yīng)用于輔助醫(yī)療是目前一個(gè)研究熱點(diǎn)。人工智能通過(guò)對(duì)大量患者的歷史數(shù)據(jù)分析、提取不易察覺(jué)的一些關(guān)鍵指標(biāo)，總結(jié)和發(fā)現(xiàn)規(guī)律來(lái)輔助醫(yī)生對(duì)未來(lái)的病人進(jìn)行診斷。

本文將介紹國(guó)內(nèi)外應(yīng)用人工智能對(duì)糖尿病檢測(cè)的方法，之后介紹在該業(yè)務(wù)數(shù)據(jù)的情況下提取特征，應(yīng)用新型的人工智能算法來(lái)解決這個(gè)難題。

2 相關(guān)工作

關(guān)于糖尿病檢測(cè)的分類(lèi)問(wèn)題，目前國(guó)內(nèi)外有很多專(zhuān)家進(jìn)行了研究。

在二十世紀(jì)70年代，由美國(guó)斯坦福大學(xué)研制的MYCIN系統(tǒng)是人工智能在醫(yī)學(xué)診斷中的早期應(yīng)用。IBM公司整合了20多個(gè)頂尖的癌癥醫(yī)療機(jī)構(gòu)提供的大數(shù)據(jù)，它融合了自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù)。上個(gè)世紀(jì)八九十年代，一部分國(guó)外的專(zhuān)家學(xué)者用機(jī)器學(xué)習(xí)技術(shù)研究糖尿病。

在我國(guó)，近些年就出現(xiàn)了一種機(jī)器學(xué)習(xí)檢測(cè)妊娠期糖尿病發(fā)病風(fēng)險(xiǎn)及病情程度的預(yù)測(cè)系統(tǒng)，主要包括數(shù)據(jù)采集，數(shù)據(jù)預(yù)處理，特征提取，機(jī)器學(xué)習(xí)，性能評(píng)估五個(gè)部分。數(shù)據(jù)的采集是采集孕婦的數(shù)據(jù)包括懷孕周數(shù)，體重，年齡，等基本的數(shù)據(jù)信息。數(shù)據(jù)預(yù)處理是數(shù)據(jù)的清洗，異常值的排除，缺失值的填充，數(shù)據(jù)的標(biāo)準(zhǔn)化。特征提取是對(duì)數(shù)據(jù)的原始特征進(jìn)行二次組合，提取出對(duì)糖尿病預(yù)測(cè)更有效的特征。機(jī)器學(xué)習(xí)部分是運(yùn)用隱馬爾科夫模型分析單因素連續(xù)時(shí)間變量與妊娠期糖尿病之間的關(guān)系。性能評(píng)估模塊在獲得模型中的各個(gè)參數(shù)后，給定孕婦的某個(gè)項(xiàng)目的檢測(cè)指標(biāo)，來(lái)判斷最終患糖尿病的機(jī)率。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)描述

數(shù)據(jù)來(lái)自于阿里天池的公開(kāi)數(shù)據(jù)集。數(shù)據(jù)共包含兩個(gè)文件，訓(xùn)練文件和測(cè)試文件，每個(gè)文件第一行是字段名，之后每一行代表一個(gè)個(gè)體。文件共包含42個(gè)字段，包含數(shù)值型、字符型、日期型等眾多數(shù)據(jù)類(lèi)型，部分字段內(nèi)容在部分人群中有缺失，其中第一列為個(gè)體ID號(hào)。訓(xùn)練文件的最后一列為標(biāo)簽列，即需要預(yù)測(cè)的目標(biāo)血糖值。

圖1

3.2 評(píng)價(jià)標(biāo)準(zhǔn)

以每個(gè)人是否患妊娠糖尿病的預(yù)測(cè)結(jié)果，以整數(shù)形式表示類(lèi)別，取值為0或者1。該結(jié)果將與個(gè)體實(shí)際檢測(cè)到的是否患有妊娠糖尿病情況進(jìn)行對(duì)比，以F1為評(píng)價(jià)指標(biāo)，結(jié)果越大越好，F(xiàn)1計(jì)算公式為：F1=2*P*R/(P+R)。其中P為準(zhǔn)確率，計(jì)算公式為：P=預(yù)測(cè)正確的正樣本數(shù)/預(yù)測(cè)的樣本數(shù)。R為召回率，計(jì)算公式為：R=預(yù)測(cè)正確的正樣本數(shù)/總正樣本數(shù)

其中正樣本數(shù)定義為數(shù)值為1的樣本數(shù)。

3.3 實(shí)驗(yàn)結(jié)果及分析

本實(shí)驗(yàn)中，通過(guò)對(duì)數(shù)據(jù)的預(yù)處理，特征提取，與特征篩選，最終得到如表1所示結(jié)果。

如表1所示，Xgboost和lightGBM的F1值要比RF的高。數(shù)據(jù)中各項(xiàng)指標(biāo)對(duì)結(jié)果的重要性如圖1。

如圖1可見(jiàn)，超早期檢測(cè)這些強(qiáng)重要性特征，可以做到精準(zhǔn)預(yù)防。VAR00007越高越容易患GDM，超重、肥胖的孕婦容易患GDM，高齡孕婦容易患GDM，多孕多產(chǎn)次的孕婦易患GDM，具有DM家族史的孕婦GDM的發(fā)病率更高，當(dāng)前身體狀況偏差也會(huì)對(duì)GDM發(fā)病率升高，血壓偏高的孕婦GDM的發(fā)病率偏高，SNP34、SNP37等單核苷酸多態(tài)性以及聯(lián)合多態(tài)性。

4 結(jié)論

本文基于XGBoost和lightGBM和RF的樹(shù)模型來(lái)判斷是否為糖尿病患者。通過(guò)一系列的數(shù)據(jù)預(yù)處理以及特征提取，找出了判斷是否為糖尿病患者的重要特征。下一步的工作包括：算法的幾個(gè)關(guān)鍵參數(shù)還需要更多次的實(shí)驗(yàn)。