• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的早產(chǎn)兒視網(wǎng)膜病變高危因素分析

      2023-05-08 23:34:00周鵬程左海維楊倩倩
      電腦知識(shí)與技術(shù) 2023年9期
      關(guān)鍵詞:數(shù)據(jù)預(yù)處理

      周鵬程 左海維 楊倩倩

      關(guān)鍵詞:早產(chǎn)兒視網(wǎng)膜病變;高危因素分析;LightGBM;數(shù)據(jù)預(yù)處理;特征優(yōu)化

      早產(chǎn)兒視網(wǎng)膜病變(retinopathy of prematurity,ROP) 是一種視網(wǎng)膜血管增殖性眼底疾病,占全世界兒童視力損傷和失明的因素的11%~45.8%[1]。由于ROP的病因和發(fā)病機(jī)制復(fù)雜,有效治療的時(shí)間窗很短,因此需要盡快找到ROP相關(guān)高危因素。

      影響ROP發(fā)生的因素很多,目前學(xué)術(shù)界公認(rèn)的三大高危因素是胎齡、出生體重與氧療[2],分析ROP相關(guān)高危因素主要的方法是傾向評(píng)分匹配[3~5]、Logistic回歸分析[6-9]和回顧性統(tǒng)計(jì)分析等[10~13]等傳統(tǒng)醫(yī)學(xué)統(tǒng)計(jì)方法,其性能在很大程度上依賴于數(shù)據(jù)集樣本和維度的數(shù)量,所能分析出的高危因素比較淺顯,很難挖掘更深層次的ROP相關(guān)高危因素。隨著人工智能的不斷發(fā)展與成熟,機(jī)器學(xué)習(xí)算法為計(jì)算機(jī)輔助醫(yī)學(xué)診斷與分析提供了有效工具。機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)是適合處理高維數(shù)據(jù),對(duì)醫(yī)學(xué)領(lǐng)域的先驗(yàn)知識(shí)要求較少,評(píng)估精度比較高[14]。鑒于此,本文綜合分析ROP相關(guān)高危因素分析的研究難點(diǎn),創(chuàng)新性地將機(jī)器學(xué)習(xí)LightGBM 模型應(yīng)用到ROP相關(guān)高危因素的分析中,基于Light?GBM進(jìn)行特征優(yōu)化,挖掘ROP更多潛在的相關(guān)高危因素,驗(yàn)證機(jī)器學(xué)習(xí)方法在早產(chǎn)兒視網(wǎng)膜病變領(lǐng)域的應(yīng)用價(jià)值,為醫(yī)生提供診斷參考依據(jù)。

      1 算法

      1.1 LightGBM

      本文考慮到ROP數(shù)據(jù)集具有維度高、樣本少的特點(diǎn),難于在小樣本數(shù)據(jù)集中挖掘關(guān)鍵特征,因此本文使用機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域中廣經(jīng)驗(yàn)證的LightGBM算法進(jìn)行ROP相關(guān)高危因素的建模與分析,主要原因是LightGBM具有運(yùn)行效率高、內(nèi)存功耗小、模型精度高、特征降維速度快等優(yōu)點(diǎn)。

      具體優(yōu)化:因?yàn)镽OP數(shù)據(jù)分析存在維度很高的問題,需要對(duì)模型訓(xùn)練進(jìn)行時(shí)空開銷的優(yōu)化,本文通過將數(shù)據(jù)存儲(chǔ)在直方圖中從而提升模型的整體訓(xùn)練效率和降低內(nèi)存的占用;因?yàn)榘磳由L(zhǎng)的Level-wise生長(zhǎng)策略存在對(duì)同一層葉子節(jié)點(diǎn)不加區(qū)分所帶來的一些沒必要地計(jì)算開銷的問題,需要對(duì)模型訓(xùn)練過程中的生長(zhǎng)策略進(jìn)行優(yōu)化,本文使用Leaf-wise生長(zhǎng)策略選擇增益最大的節(jié)點(diǎn)進(jìn)行分裂,極大降低模型的計(jì)算代價(jià)和提高模型的準(zhǔn)確度;因?yàn)镽OP存在數(shù)據(jù)集數(shù)據(jù)有限的問題,需要在樣本少的前提下保持與精度之間的平衡,本文使用單邊梯度采樣算法從減少數(shù)據(jù)量的角度出發(fā),僅使用大梯度樣本和部分小梯度樣本進(jìn)行信息增益的計(jì)算,可以在ROP數(shù)據(jù)集中保持模型的高精度;因?yàn)樵谔卣鹘稻S時(shí)通常需要將部分特征捆綁在一起,為了防止捆綁互斥特征造成信息丟失,本文使用互斥特征捆綁算法進(jìn)行特征降維的優(yōu)化。

      1.2 Noise-student

      Noise-student是一種半監(jiān)督學(xué)習(xí)方法,其基本步驟是先在標(biāo)記圖像上訓(xùn)練模型并生成偽標(biāo)簽,然后在標(biāo)記和偽標(biāo)記圖像的組合上迭代訓(xùn)練生成更大的模型。本文基于Noise-student思想設(shè)計(jì)最優(yōu)特征集尋找方法,從零開始搭建最優(yōu)特征集,分別進(jìn)行特征添加特征刪減,根據(jù)評(píng)判標(biāo)準(zhǔn)與容錯(cuò)值(rate) 之差的結(jié)果不斷更新最優(yōu)特征集。尋找最優(yōu)特征集的評(píng)判標(biāo)準(zhǔn)基于訓(xùn)練結(jié)果受試者工作曲線(Receiver OperatingCharacteristic,ROC) 下方面積大小(Area Under所示。

      其中count 為每一輪模型訓(xùn)練的次數(shù),AUC 為每次模型搭建、訓(xùn)練、驗(yàn)證得到的AUC 值。基于Noisestudent思想的特征優(yōu)化方法具體如表1所示。

      2 實(shí)驗(yàn)

      本文使用LightGBM進(jìn)行ROP相關(guān)高危因素分析的實(shí)驗(yàn)流程結(jié)構(gòu)如圖1所示,依次完成了ROP數(shù)據(jù)集的基本信息分析與數(shù)據(jù)預(yù)處理,ROP高危因素分析模型的搭建、訓(xùn)練與驗(yàn)證,挖掘高危因素所進(jìn)行的特征優(yōu)化和對(duì)比驗(yàn)證。

      2.1 數(shù)據(jù)集基本信息分析與預(yù)處理

      數(shù)據(jù)集的質(zhì)量很大程度影響模型的性能,需要對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,本文采用的數(shù)據(jù)來源于醫(yī)院ROP真實(shí)臨床檢查結(jié)果,時(shí)間跨度為2017年2月至2021年5月。為了清楚地了解數(shù)據(jù)集的基本信息,對(duì)單變量數(shù)據(jù)的基本信息進(jìn)行分析,結(jié)果表明,數(shù)據(jù)共有141個(gè)樣本,數(shù)據(jù)中有“性別12”~“是否治療”共35個(gè)特征,數(shù)據(jù)類型有整數(shù)型(10個(gè))、浮點(diǎn)型(34個(gè))、字符型(1個(gè))。

      為了清楚地了解ROP數(shù)據(jù)集的分布情況,對(duì)數(shù)據(jù)集各特征變量數(shù)據(jù)的統(tǒng)計(jì)信息進(jìn)行分析,結(jié)果表明,除了特征“ps”“窒息012”“IVH”的數(shù)據(jù)驗(yàn)證缺失外,其余特征的數(shù)據(jù)基本完整,此外還得知了該數(shù)據(jù)集各特征的平均值、標(biāo)準(zhǔn)差、最大值、最小值等信息,為數(shù)據(jù)預(yù)處理提供參考。

      分析數(shù)據(jù)集的基本信息后,發(fā)現(xiàn)存在數(shù)據(jù)缺失、量綱不一致等問題。根據(jù)從數(shù)據(jù)集中識(shí)別出來的特征數(shù)據(jù)缺失的情況、數(shù)據(jù)的類型以及缺失值與目標(biāo)變量的關(guān)聯(lián)程度,使用計(jì)算該變量非缺失值的平均值進(jìn)行填充,或直接成列刪除該特征及其所代表的數(shù)據(jù)。對(duì)于字符型數(shù)據(jù)則進(jìn)行數(shù)據(jù)編碼,人為虛設(shè)十進(jìn)制自增的自然數(shù)來反應(yīng)該特征的不同屬性,從而量化原本不能定量處理的特征。由于部分特征的取值量綱不統(tǒng)一,這將會(huì)極大影響估計(jì),為了縮短特征數(shù)據(jù)之間的差距,使數(shù)據(jù)更加趨于正態(tài)分布,同時(shí)保持?jǐn)?shù)據(jù)的完整性,使用區(qū)間縮放法將數(shù)據(jù)集樣本映射到[0, 1]之間。最后對(duì)比參照數(shù)據(jù)的分位數(shù)與正態(tài)分布的分位數(shù),查看數(shù)據(jù)是否符合正態(tài)分布,分別繪制特征的直方圖和Q-Q圖,特征“胎齡”預(yù)處理后的直方圖和Q-Q圖如圖2和圖3所示??梢钥闯鲱A(yù)處理后特征“胎齡”的數(shù)據(jù)分布近似于正態(tài)分布,QQ圖中的數(shù)據(jù)基本根據(jù)對(duì)角線分布,經(jīng)過數(shù)據(jù)預(yù)處理后的數(shù)據(jù)集相較于原始數(shù)據(jù)集質(zhì)量已經(jīng)有了很大提升,可以足夠適應(yīng)接下來的模型訓(xùn)練。為了方便模型搭建與提高模型分析結(jié)果的準(zhǔn)確度,本文還進(jìn)行了設(shè)置圖片顯示字體、劃分特征變量與目標(biāo)變量、忽略代碼警告信息、SMOTE過采樣、切分訓(xùn)練集與測(cè)試集(8:2) 等準(zhǔn)備工作。

      2.2 模型搭建、訓(xùn)練、驗(yàn)證

      進(jìn)行ROP相關(guān)高危因素分析的關(guān)鍵所在是構(gòu)建LightGBM 分類模型,使用網(wǎng)格搜索對(duì)learning_rate、n_estimators、num_leaves 進(jìn)行參數(shù)調(diào)優(yōu),其中,learn?ing_rate用于控制模型訓(xùn)練性能,n_esti mators用于指定算法的迭代次數(shù),num_leaves用于指定一棵樹上的葉子節(jié)點(diǎn)個(gè)數(shù),分別設(shè)置評(píng)估標(biāo)準(zhǔn)為AUC 值和進(jìn)行5 折交叉驗(yàn)證。調(diào)優(yōu)后得到的參數(shù)最優(yōu)值如下:learn?ing_rate:0.2,n_estimators:20,num_leaves:10,然后對(duì)訓(xùn)練集進(jìn)行模型訓(xùn)練。訓(xùn)練結(jié)束后計(jì)算模型的精度和F1值測(cè)試模型性能,精度為0.7142,F(xiàn)1值為0.71。為了使得測(cè)試的結(jié)果更加準(zhǔn)確,計(jì)算模型的AUC 值。分別搭建1000次LightGBM模型,調(diào)整隨機(jī)種子使得每次訓(xùn)練集和測(cè)試集的劃分均不同,并通過控制KS值以防止模型發(fā)生異常。經(jīng)過訓(xùn)練與驗(yàn)證后,發(fā)現(xiàn)當(dāng)隨機(jī)種子為547時(shí)的LightGBM模型AUC 值最高,為0.8352,而KS 值為0.4942也驗(yàn)證了該模型的優(yōu)越性能以及確定了模型沒有發(fā)生異常情況。

      2.3 特征優(yōu)化

      計(jì)算原始特征集的特征重要性,以特征重要性≥1 的特征作為候選特征集,初始化rate為0.02,衰減值為0.002。經(jīng)過10輪特征優(yōu)化后,所得到的最優(yōu)特征集為Apgar1、胎膜早破、胎齡、母親年齡、Apgar5、敗血癥(E/L)、貧血E/L、氧時(shí)/d、Px、無創(chuàng)/d,且在第9輪后不再發(fā)生變動(dòng),其AUCMEAN為0.9189。

      2.4 對(duì)比驗(yàn)證

      使用LightGBM對(duì)最優(yōu)特征集進(jìn)行模型再驗(yàn)證,相關(guān)評(píng)判標(biāo)準(zhǔn)的結(jié)果如表2所示??梢钥闯觯P驮衮?yàn)證的精度相對(duì)于優(yōu)化前提高了20.00%,F(xiàn)1 相對(duì)于優(yōu)化前提高了21.23%,AUC 值為相對(duì)于優(yōu)化前提高了13.42%,KS 值為0.7460,低于0.75說明模型沒有發(fā)生異常。

      對(duì)特征優(yōu)化過程進(jìn)行拆分實(shí)驗(yàn),分別驗(yàn)證未特征優(yōu)化、僅特征添加和有無增加容錯(cuò)值的特征優(yōu)化后的最優(yōu)特征集在模型上的性能表現(xiàn),如表3所示??梢钥闯觯黾尤蒎e(cuò)值的特征優(yōu)化后的最優(yōu)特征集在模型上的性能表現(xiàn)更加準(zhǔn)確,其精度、F1、AUC 值都有所提升。

      計(jì)算最優(yōu)特征集的特征重要性,如表4所示??梢钥闯觯顑?yōu)特征集中的特征按特征重要性從高到低排分別為:Px、氧時(shí)/d、無創(chuàng)/d、胎齡、Apgar1、母親年齡、Apgar5、胎膜早破、貧血E/L、敗血癥(E/L),對(duì)應(yīng)的特征重要性分別是18、16、15、14、12、11、9、6、1、0,其中貧血E/L和敗血癥(E/L)相比于其他特征由于特征重要性太低,可能是特征優(yōu)化過程中沒有剔除出去的噪聲。最終得出ROP相關(guān)高危因素為Px、氧時(shí)、無創(chuàng)、胎齡、Apgar1、母親年齡、Apgar5、胎膜早破,其中氧時(shí)與胎齡與學(xué)術(shù)界公認(rèn)的結(jié)果一致,母親年齡、胎膜早破也符合臨床醫(yī)生診斷經(jīng)驗(yàn),而Px、無創(chuàng)、Apgar1、Ap?gar5則是通過機(jī)器學(xué)習(xí)挖掘出的ROP潛在相關(guān)高危因素。

      3 結(jié)論

      本文旨在基于機(jī)器學(xué)習(xí)進(jìn)行ROP相關(guān)高危因素分析,對(duì)ROP原始數(shù)據(jù)集進(jìn)行了基本信息分析和數(shù)據(jù)預(yù)處理后,建立了基于LightGBM的ROP相關(guān)高危因素分析模型,并根據(jù)該模型進(jìn)行特征優(yōu)化得到ROP最優(yōu)特征集,即ROP相關(guān)高危因素,得出以下結(jié)論

      1) 從數(shù)據(jù)集本身和模型訓(xùn)練的結(jié)果來看,本文使用的徐州醫(yī)科大學(xué)附屬醫(yī)院的ROP數(shù)據(jù)集能夠較好地反映ROP的潛在相關(guān)風(fēng)險(xiǎn)因素,利用胎齡、出生體重、高氧、氧時(shí)等34個(gè)特征作為L(zhǎng)ightGBM模型的輸入特征,可以很好地挖掘出ROP的相關(guān)高危因素以及更深層次的潛在風(fēng)險(xiǎn)因素,其中,LightGBM分析模型的精確度達(dá)到0.7142,AUC 值達(dá)到0.8352,KS 值達(dá)到0.4942也證明了機(jī)器學(xué)習(xí)模型在早產(chǎn)兒視網(wǎng)膜病變分析領(lǐng)域處理高維度數(shù)據(jù)集的有效性;

      2) 從模型再驗(yàn)證的結(jié)果來看,本研究對(duì)最優(yōu)特征集再次進(jìn)行LightGBM模型搭建、訓(xùn)練與驗(yàn)證后,經(jīng)過LightGBM的特征優(yōu)化所得的高危因素相對(duì)原始數(shù)據(jù)集的模型預(yù)測(cè)性能有了大幅提升,驗(yàn)證了特征優(yōu)化過程的有效性和合理性,所得的最優(yōu)特征集是通過機(jī)器學(xué)習(xí)模型特征優(yōu)化后的ROP相關(guān)高危因素,其中大部分因素與臨床醫(yī)生經(jīng)驗(yàn)一致,并通過對(duì)相關(guān)高危因素進(jìn)行特征重要性排名,篩選出了潛在高危因素。

      猜你喜歡
      數(shù)據(jù)預(yù)處理
      審計(jì)數(shù)據(jù)預(yù)處理探析
      基于數(shù)據(jù)預(yù)處理的病蟲草害農(nóng)田小氣候監(jiān)測(cè)系統(tǒng)設(shè)計(jì)
      基于云計(jì)算的海量數(shù)據(jù)挖掘研究
      無線傳感器網(wǎng)絡(luò)的異常檢測(cè)
      基于人臉識(shí)別的智能大數(shù)據(jù)處理系統(tǒng)的研究
      棗果實(shí)品質(zhì)鑒定因子數(shù)據(jù)的預(yù)處理研究
      基于小轎車車門拉手的逆向建模設(shè)計(jì)
      科技視界(2016年27期)2017-03-14 22:45:40
      自動(dòng)氣象站數(shù)據(jù)預(yù)處理方法
      芻議電力系統(tǒng)規(guī)劃設(shè)計(jì)在電力工程設(shè)計(jì)中的應(yīng)用
      慢性乙肝癥狀與生物信息相關(guān)性的數(shù)據(jù)挖掘研究
      乐昌市| 通城县| 宣城市| 平原县| 剑河县| 呼图壁县| 牡丹江市| 南安市| 随州市| 分宜县| 偃师市| 濮阳县| 黄冈市| 湖北省| 清水县| 香河县| 镇安县| 三穗县| 开原市| 黔西| 中西区| 石渠县| 田东县| 信丰县| 汪清县| 新乐市| 若尔盖县| 绥宁县| 射阳县| 宁河县| 五华县| 密山市| 安宁市| 兴国县| 布尔津县| 于都县| 延津县| 读书| 合肥市| 巴南区| 南开区|