• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      人工智能在糖尿病遺傳預(yù)測(cè)中的應(yīng)用

      2019-01-30 07:49:26王旭強(qiáng)萬(wàn)亞平
      電子技術(shù)與軟件工程 2019年1期
      關(guān)鍵詞:樣本數(shù)特征提取預(yù)處理

      文/王旭強(qiáng) 萬(wàn)亞平

      1 引言

      中國(guó)是世界上糖尿病患者最多的國(guó)家,病人達(dá)到1.1億,每年有130萬(wàn)人死于糖尿病及其相關(guān)疾病。每年用于糖尿病的醫(yī)療費(fèi)用占中國(guó)公共醫(yī)療衛(wèi)生支出的比例超過(guò)13%,超過(guò)3000億元。

      確診糖尿病的關(guān)鍵環(huán)節(jié)就是診斷過(guò)程,單純的僅靠臨床表現(xiàn)進(jìn)行判斷是不科學(xué)的。目前醫(yī)院里診斷糖尿病的主要依據(jù)是人體的各類(lèi)指標(biāo)。這些指標(biāo)包括尿糖,血糖,葡萄糖耐量,糖化血紅蛋白A1,血漿胰島素和C-肽等。妊娠期糖尿病還需要檢測(cè)其他不同的指標(biāo)。

      表1

      將人工智能應(yīng)用于輔助醫(yī)療是目前一個(gè)研究熱點(diǎn)。人工智能通過(guò)對(duì)大量患者的歷史數(shù)據(jù)分析、提取不易察覺(jué)的一些關(guān)鍵指標(biāo),總結(jié)和發(fā)現(xiàn)規(guī)律來(lái)輔助醫(yī)生對(duì)未來(lái)的病人進(jìn)行診斷。

      本文將介紹國(guó)內(nèi)外應(yīng)用人工智能對(duì)糖尿病檢測(cè)的方法,之后介紹在該業(yè)務(wù)數(shù)據(jù)的情況下提取特征,應(yīng)用新型的人工智能算法來(lái)解決這個(gè)難題。

      2 相關(guān)工作

      關(guān)于糖尿病檢測(cè)的分類(lèi)問(wèn)題,目前國(guó)內(nèi)外有很多專(zhuān)家進(jìn)行了研究。

      在二十世紀(jì)70年代,由美國(guó)斯坦福大學(xué)研制的MYCIN系統(tǒng)是人工智能在醫(yī)學(xué)診斷中的早期應(yīng)用。IBM公司整合了20多個(gè)頂尖的癌癥醫(yī)療機(jī)構(gòu)提供的大數(shù)據(jù),它融合了自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù)。上個(gè)世紀(jì)八九十年代,一部分國(guó)外的專(zhuān)家學(xué)者用機(jī)器學(xué)習(xí)技術(shù)研究糖尿病。

      在我國(guó),近些年就出現(xiàn)了一種機(jī)器學(xué)習(xí)檢測(cè)妊娠期糖尿病發(fā)病風(fēng)險(xiǎn)及病情程度的預(yù)測(cè)系統(tǒng),主要包括數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,特征提取,機(jī)器學(xué)習(xí),性能評(píng)估五個(gè)部分。數(shù)據(jù)的采集是采集孕婦的數(shù)據(jù)包括懷孕周數(shù),體重,年齡,等基本的數(shù)據(jù)信息。數(shù)據(jù)預(yù)處理是數(shù)據(jù)的清洗,異常值的排除,缺失值的填充,數(shù)據(jù)的標(biāo)準(zhǔn)化。特征提取是對(duì)數(shù)據(jù)的原始特征進(jìn)行二次組合,提取出對(duì)糖尿病預(yù)測(cè)更有效的特征。機(jī)器學(xué)習(xí)部分是運(yùn)用隱馬爾科夫模型分析單因素連續(xù)時(shí)間變量與妊娠期糖尿病之間的關(guān)系。性能評(píng)估模塊在獲得模型中的各個(gè)參數(shù)后,給定孕婦的某個(gè)項(xiàng)目的檢測(cè)指標(biāo),來(lái)判斷最終患糖尿病的機(jī)率。

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)描述

      數(shù)據(jù)來(lái)自于阿里天池的公開(kāi)數(shù)據(jù)集。數(shù)據(jù)共包含兩個(gè)文件,訓(xùn)練文件和測(cè)試文件,每個(gè)文件第一行是字段名,之后每一行代表一個(gè)個(gè)體。文件共包含42個(gè)字段,包含數(shù)值型、字符型、日期型等眾多數(shù)據(jù)類(lèi)型,部分字段內(nèi)容在部分人群中有缺失,其中第一列為個(gè)體ID號(hào)。訓(xùn)練文件的最后一列為標(biāo)簽列,即需要預(yù)測(cè)的目標(biāo)血糖值。

      圖1

      3.2 評(píng)價(jià)標(biāo)準(zhǔn)

      以每個(gè)人是否患妊娠糖尿病的預(yù)測(cè)結(jié)果,以整數(shù)形式表示類(lèi)別,取值為0或者1。該結(jié)果將與個(gè)體實(shí)際檢測(cè)到的是否患有妊娠糖尿病情況進(jìn)行對(duì)比,以F1為評(píng)價(jià)指標(biāo),結(jié)果越大越好,F(xiàn)1計(jì)算公式為:F1=2*P*R/(P+R)。其中P為準(zhǔn)確率,計(jì)算公式為:P=預(yù)測(cè)正確的正樣本數(shù)/預(yù)測(cè)的樣本數(shù)。R為召回率,計(jì)算公式為:R=預(yù)測(cè)正確的正樣本數(shù)/總正樣本數(shù)

      其中正樣本數(shù)定義為數(shù)值為1的樣本數(shù)。

      3.3 實(shí)驗(yàn)結(jié)果及分析

      本實(shí)驗(yàn)中,通過(guò)對(duì)數(shù)據(jù)的預(yù)處理,特征提取,與特征篩選,最終得到如表1所示結(jié)果。

      如表1所示,Xgboost和lightGBM的F1值要比RF的高。數(shù)據(jù)中各項(xiàng)指標(biāo)對(duì)結(jié)果的重要性如圖1。

      如圖1可見(jiàn),超早期檢測(cè)這些強(qiáng)重要性特征,可以做到精準(zhǔn)預(yù)防。VAR00007越高越容易患GDM,超重、肥胖的孕婦容易患GDM,高齡孕婦容易患GDM,多孕多產(chǎn)次的孕婦易患GDM,具有DM家族史的孕婦GDM的發(fā)病率更高,當(dāng)前身體狀況偏差也會(huì)對(duì)GDM發(fā)病率升高,血壓偏高的孕婦GDM的發(fā)病率偏高,SNP34、SNP37等單核苷酸多態(tài)性以及聯(lián)合多態(tài)性。

      4 結(jié)論

      本文基于XGBoost和lightGBM和RF的樹(shù)模型來(lái)判斷是否為糖尿病患者。通過(guò)一系列的數(shù)據(jù)預(yù)處理以及特征提取,找出了判斷是否為糖尿病患者的重要特征。下一步的工作包括:算法的幾個(gè)關(guān)鍵參數(shù)還需要更多次的實(shí)驗(yàn)。

      猜你喜歡
      樣本數(shù)特征提取預(yù)處理
      勘 誤 聲 明
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      Bagging RCSP腦電特征提取算法
      淺談PLC在預(yù)處理生產(chǎn)線(xiàn)自動(dòng)化改造中的應(yīng)用
      絡(luò)合萃取法預(yù)處理H酸廢水
      三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
      基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      田間鑒定雜交棉品種純度的適宜時(shí)期和樣本數(shù)
      江门市| 繁峙县| 南漳县| 潞西市| 山丹县| 积石山| 和顺县| 安新县| 定襄县| 康马县| 芒康县| 芦溪县| 安康市| 繁峙县| 莫力| 宜春市| 五指山市| 巴楚县| 广丰县| 卢龙县| 桐乡市| 揭西县| 扬中市| 宁德市| 运城市| 裕民县| 栾城县| 铜山县| 西青区| 治县。| 宁阳县| 花莲县| 犍为县| 苏州市| 康保县| 茌平县| 连云港市| 隆尧县| 姚安县| 高邮市| 龙井市|