• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于機(jī)器學(xué)習(xí)的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型與實(shí)證研究

    2022-09-20 14:05:30趙緒悅紀(jì)江明王厲行
    關(guān)鍵詞:分類器準(zhǔn)確率分類

    趙緒悅,紀(jì)江明,王厲行

    (1.湖州師范學(xué)院 信息工程學(xué)院,浙江 湖州 313000; 2.湖州師范學(xué)院 經(jīng)濟(jì)管理學(xué)院,浙江 湖州 313000)

    0 引 言

    糖尿病是由于胰腺分泌胰島素紊亂或人體無法有效利用其產(chǎn)生的胰島素而發(fā)生的一種慢性疾病,是21 世紀(jì)人類面臨的健康問題之一.糖尿病伴有彌漫性并發(fā)癥,其包括心血管病變、腎臟疾病、高血壓、中風(fēng)等160余種,由此增加了過早死亡的風(fēng)險(xiǎn).因此,糖尿病防治形勢(shì)十分嚴(yán)峻.國(guó)際糖尿病聯(lián)盟(IDF)2021年發(fā)布的糖尿病報(bào)告顯示,目前全球有5.37億成年人患有糖尿病,比IDF 2019年的估計(jì)數(shù)字增加了16%(7 400萬).最新的IDF糖尿病圖譜報(bào)告顯示,全球糖尿病患病率已達(dá)10.5%,還有近一半(44.7%)的成年人未被診斷.IDF的預(yù)測(cè)顯示,到2045年,將有7.83億成年人患有糖尿病.這將比2021年增加46%,是同期估計(jì)人口增長(zhǎng)率(20%)的兩倍多.糖尿病潛伏時(shí)間長(zhǎng)且不易被發(fā)覺,往往直到各種并發(fā)癥出現(xiàn)時(shí)人們才意識(shí)到是糖尿病.為應(yīng)對(duì)糖尿病的大流行趨勢(shì),早期診斷與干預(yù)糖尿病并發(fā)癥至關(guān)重要.

    目前,許多學(xué)者對(duì)糖尿病進(jìn)行了分析研究.部分學(xué)者采用單一學(xué)習(xí)器對(duì)糖尿病風(fēng)險(xiǎn)預(yù)測(cè)進(jìn)行研究,如支持向量機(jī)、邏輯回歸、決策樹、人工神經(jīng)網(wǎng)絡(luò)等.Kumari等運(yùn)用支持向量機(jī)中徑向基函數(shù)核方法對(duì)Pima數(shù)據(jù)集進(jìn)行分類,選擇特定核參數(shù)的最佳值,并比較分類精度、靈敏度等性能參數(shù)[1].Aiswarya 等使用J48決策樹和樸素貝葉斯作為分類器,對(duì)皮馬印第安人糖尿病數(shù)據(jù)集進(jìn)行分類,得出J48決策樹和樸素貝葉斯方法的準(zhǔn)確率分別為74.8%、79.5%[2].Chang Ho Ahn利用單變量與多變量邏輯回歸分析和KRS,對(duì)韓國(guó)國(guó)家健康和營(yíng)養(yǎng)調(diào)查的數(shù)據(jù)進(jìn)行評(píng)分比較,得出邏輯回歸效能更佳的結(jié)論[3].車前子等運(yùn)用特征重要度排名提取輸入變量,基于人工神經(jīng)網(wǎng)絡(luò)(ANN)算法構(gòu)建 2 型糖尿病發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型[4].Kedir Eyasu等以VB為前端,使用Clisp進(jìn)行后端編碼,利用WEKA中的3種分類算法——J48、PART和JRip對(duì)糖尿病進(jìn)行預(yù)測(cè),得出J48分類算法的預(yù)測(cè)準(zhǔn)確度最高的結(jié)論[5].

    還有學(xué)者運(yùn)用集成分類器對(duì)糖尿病進(jìn)行分析預(yù)測(cè),其集成模型包括Bagging、Boosting、Stacking等.Kandhasamy等運(yùn)用隨機(jī)森林方法對(duì)UCI數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘測(cè)試,在數(shù)據(jù)預(yù)處理前和預(yù)處理后兩種情況下測(cè)量算法的性能[6].張占林等對(duì)烏魯木齊市某街道服務(wù)中心35~74歲全民健康體檢數(shù)據(jù)進(jìn)行研究,并分析比較多因素邏輯回歸算法與隨機(jī)森林算法對(duì)糖尿病的預(yù)測(cè)性能[7].張春富等利用遺傳算法良好的全局搜索能力彌補(bǔ) Xgboost收斂較慢的缺陷,建立GA_Xgboost 模型對(duì)糖尿病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)[8].鄭家浩等(2021)基于體檢電子病歷數(shù)據(jù)建立空腹血糖預(yù)測(cè)模型,綜合比較后向序列選擇算法,得出隨機(jī)森林算法為最佳空腹血糖糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型的結(jié)論[9].Yadav等在Decision table、OneR和JRIP 3種基于規(guī)則分類算法的基礎(chǔ)上,采用Bagging和Boosting集成方法管理這3種選定的算法,得出Bagging的準(zhǔn)確率最高的結(jié)論[10].Kalagotla等運(yùn)用特征選擇相關(guān)技術(shù)從Pima印度糖尿病數(shù)據(jù)集中提取相關(guān)特征,并針對(duì)相關(guān)特征進(jìn)行AdaBoost分類,設(shè)計(jì)和開發(fā)了一種具有多層感知器、支持向量機(jī)和邏輯回歸的Stacking集成模型[11].孫彤等提出一種基于層次分析法(AHP)的Stacking模型,并利用加權(quán)求和的方法對(duì)多種基分類器組合進(jìn)行評(píng)價(jià),從而提升了分類器的性能[12].

    從單一線性模型到多變量融合模型,再?gòu)暮?jiǎn)單的單一機(jī)器學(xué)習(xí)模型到復(fù)雜的多學(xué)習(xí)器模型,學(xué)者們一直在尋找對(duì)糖尿病分析預(yù)測(cè)的最佳方案.目前已經(jīng)運(yùn)用集成學(xué)習(xí)模型來預(yù)測(cè)糖尿病,但采用的多是單一模型,且大多數(shù)模型只在一個(gè)數(shù)據(jù)集上取得了良好表現(xiàn),模型的適用性和有效性不能滿足其他場(chǎng)景的需要.Kalagotla等運(yùn)用Stacking集成方法取得了很好的成果[11].本文依據(jù)其提出的Stacking模型,將Bagging、Boosting簡(jiǎn)單集成學(xué)習(xí)融合成復(fù)雜的Stacking集成模型,并將此模型在其他數(shù)據(jù)集上進(jìn)行驗(yàn)證,找出一個(gè)精確度高的模型,從而為糖尿病的早期篩查和診斷提供有效的輔助決策.

    1 機(jī)器學(xué)習(xí)算法

    在目前的糖尿病預(yù)測(cè)模型研究中,大多采用單一的機(jī)器學(xué)習(xí)方法建立模型,其包括邏輯回歸、支持向量機(jī)等.本研究提出一種運(yùn)用Stacking方法將Bagging、Boosting等多種集成學(xué)習(xí)方法集合成的多集成算法數(shù)據(jù)分析模型,并比較各個(gè)模型的評(píng)估指標(biāo),最終得出最優(yōu)模型.

    1.1 邏輯回歸算法

    邏輯回歸(LR)是用回歸的辦法做分類任務(wù),具有模型訓(xùn)練和預(yù)測(cè)速度快、解釋性強(qiáng)、輸入特征不需要縮放等優(yōu)點(diǎn).邏輯回歸(LR)假設(shè)數(shù)據(jù)服從伯努利分布,通過極大似然函數(shù)的方法,運(yùn)用梯度下降來求解參數(shù),以達(dá)到將數(shù)據(jù)二分類的目的.

    1.2 支持向量機(jī)算法

    支持向量機(jī)(SVM)是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,其分類思想是通過找到合適的核函數(shù)和懲罰因子C來建立超平面,從而對(duì)數(shù)據(jù)樣本進(jìn)行預(yù)測(cè).在分類問題中,支持向量機(jī)通常運(yùn)用超平面來隔離兩個(gè)類別.超平面通過最大邊緣距離的分類線對(duì)數(shù)據(jù)進(jìn)行分類,其適用于線性可分?jǐn)?shù)據(jù)和非線性數(shù)據(jù),且該平面產(chǎn)生的分類結(jié)果具有良好的魯棒性和泛化能力.SVM在處理非線性和小樣本數(shù)據(jù)、高維、泛化等問題方面具有一定的優(yōu)勢(shì).懲罰因子C用于權(quán)衡樣本的擬合能力和測(cè)試樣本的測(cè)試能力.C越大,樣本的預(yù)測(cè)能力越強(qiáng),擬合能力越弱,越容易出現(xiàn)過擬合.C越小,樣本的擬合能力越強(qiáng),預(yù)測(cè)能力越弱,越容易出現(xiàn)欠擬合.

    1.3 Bagging算法

    在Bagging算法中,隨機(jī)森林(RF)是通過集成學(xué)習(xí)思想將多棵樹集成的一種算法,其基本單元是決策樹.隨機(jī)從n個(gè)屬性中選擇m個(gè)屬性(m

    圖1 隨機(jī)森林流程Fig.1 Random forest flow

    1.4 Boosting算法

    Boosting算法選用自適應(yīng)增強(qiáng)算法(AdaBoost算法).AdaBoost的核心思想是將多個(gè)低準(zhǔn)確率分類器通過加權(quán)方式組合來形成高準(zhǔn)確率分類器.AdaBoost算法能夠重新采樣數(shù)據(jù),對(duì)正確分類的樣本,在構(gòu)造下一個(gè)樣本時(shí)權(quán)重會(huì)下降;對(duì)錯(cuò)誤分類的樣本,在構(gòu)造下一個(gè)樣本時(shí)權(quán)重會(huì)升高.更新權(quán)重后的樣本集被用于訓(xùn)練下一個(gè)分類器,并如此迭代更新下去,使原本分類不平衡的數(shù)據(jù)進(jìn)行權(quán)重分配,進(jìn)而提高模型整體的準(zhǔn)確率和一致性,使其適用于各類醫(yī)療方面的多分類預(yù)測(cè)問題[13].分類器有一個(gè)反饋系統(tǒng),其中的每個(gè)弱分類器都會(huì)進(jìn)行權(quán)重變化,這些變化會(huì)被傳遞并影響下一個(gè)弱分類器的工作方式.分類器AdaBoost對(duì)噪聲數(shù)據(jù)較敏感,一個(gè)分類器的錯(cuò)誤可能會(huì)影響其他分類器,進(jìn)而擴(kuò)散其他錯(cuò)誤.

    1.5 Stacking集成學(xué)習(xí)

    單一的模型預(yù)測(cè)方法存在樣本分類不平衡和泛化誤差較大等問題.將多個(gè)數(shù)據(jù)分析模型相融合的模型,能夠在一定程度上彌補(bǔ)單一模型在同樣數(shù)據(jù)分析上存在的缺陷,從而大大提升模型的預(yù)測(cè)準(zhǔn)確性.集成學(xué)習(xí)主要分為Stacking、Bagging和Boosting 等方法.

    本研究中的Stacking框架有兩層:第0層是基礎(chǔ)學(xué)習(xí)器;第1層是元學(xué)習(xí)器算法.將支持向量機(jī)、隨機(jī)森林、AdaBoost 3種機(jī)器學(xué)習(xí)分類算法作為底層學(xué)習(xí)器.支持向量機(jī)具有不容易過擬合的最佳超平面;AdaBoost算法能很好地平衡權(quán)重,但隨著迭代次數(shù)的增加,可能會(huì)出現(xiàn)過擬合情況;隨機(jī)森林具有較強(qiáng)的抗過擬合能力,且對(duì)分類不平衡的數(shù)據(jù)集能夠平衡誤差;邏輯回歸參數(shù)小、計(jì)算量少,且是簡(jiǎn)單的線性模型,所以選擇邏輯回歸作為Stacking策略分類組合模型的次級(jí)學(xué)習(xí)器[14].本研究采用的隨機(jī)森林屬于Bagging方法,而AdaBoost也屬于Boosting方法的一種,其相當(dāng)于在Bagging和Boosting集成學(xué)習(xí)的基礎(chǔ)上再進(jìn)行Stacking集成.模型的選擇基于技術(shù)優(yōu)勢(shì),如果一個(gè)模型表現(xiàn)不佳,則必須選擇另一個(gè)模型來彌補(bǔ)其缺點(diǎn),從而減少誤差,提升模型的準(zhǔn)確率和泛化能力,使模型的效果更好.Stacking的研究原理和研究框架見圖2.

    圖2 Stacking研究框架Fig.2 Research framework of Stacking

    為尋找最優(yōu)參數(shù),運(yùn)用Grid search網(wǎng)格搜索調(diào)優(yōu)方法,將各個(gè)參數(shù)的可能取值進(jìn)行排列組合后形成“網(wǎng)格”,然后對(duì)每種模型進(jìn)行訓(xùn)練,從而找到最優(yōu)參數(shù).采用Grid search方法,其模型最終的表現(xiàn)好壞與初始數(shù)據(jù)的劃分結(jié)果有很大關(guān)系.為處理這種情況,本文采用十折驗(yàn)證方式來減少偶然性.將數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),運(yùn)用十折交叉驗(yàn)證方法,將訓(xùn)練數(shù)據(jù)的9折數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),10折數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),并將這個(gè)過程重復(fù)10次.最后將基礎(chǔ)學(xué)習(xí)器對(duì) 10個(gè)驗(yàn)證數(shù)據(jù)集的預(yù)測(cè)視為新特征訓(xùn)練數(shù)據(jù),將對(duì)每個(gè)折疊測(cè)試數(shù)據(jù)所做的預(yù)測(cè)進(jìn)行平均,并視為新特征測(cè)試數(shù)據(jù).對(duì)所有基礎(chǔ)學(xué)習(xí)器重復(fù)此過程,最終的新特征訓(xùn)練數(shù)據(jù)集用于訓(xùn)練邏輯回歸模型,訓(xùn)練后的模型用于對(duì)新特征測(cè)試數(shù)據(jù)的預(yù)測(cè).

    2 數(shù)據(jù)來源與預(yù)處理

    本研究的實(shí)驗(yàn)數(shù)據(jù)來自University of California,UGI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的Pima Indian Diabetes數(shù)據(jù)集,其研究對(duì)象是亞利桑那州鳳凰城附近的皮馬印第安人.該數(shù)據(jù)集共有768條數(shù)據(jù)項(xiàng),包含8個(gè)醫(yī)學(xué)預(yù)測(cè)變量和1個(gè)結(jié)果變量,其具體屬性包括:懷孕次數(shù)(Pregnancies)、血糖濃度(Glucose)、年齡(Age)、血壓(Blood Pressure)、肱三頭肌皮脂厚度(Skin Thickness)、胰島素含量(Insulin)、身體質(zhì)量指數(shù)(BMI)、糖尿病遺傳系數(shù)(Diabetes Pedigree Function)和結(jié)果(Outcome,1代表患糖尿病,0代表未患糖尿病).在Pima Indian Diabetes數(shù)據(jù)集中,Outcome為1的有268例,即為糖尿病患者人數(shù);Outcome為0的有500例,即為未患有糖尿病的人數(shù).

    在收集數(shù)據(jù)的過程中,數(shù)據(jù)集往往存在記錄不規(guī)范、數(shù)據(jù)缺失等情況,這些缺失的錯(cuò)誤數(shù)據(jù)往往會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)果產(chǎn)生誤差.如:舒張壓、血糖濃度、BMI指數(shù)、肱三頭肌皮質(zhì)厚度值在人體測(cè)量中均不可能為0,而在此數(shù)據(jù)集中卻存在0的數(shù)值.為減少缺失值對(duì)實(shí)驗(yàn)結(jié)果造成的影響,本研究使用均值代替各項(xiàng)數(shù)據(jù)的缺失值,并對(duì)數(shù)據(jù)集進(jìn)行擬合和標(biāo)準(zhǔn)化.對(duì)于異常值,將處于低位四分位數(shù)的點(diǎn)(1/4)的量設(shè)置成Q1,處于高位四分位數(shù)的點(diǎn)(3/4)的量設(shè)置成Q3,再運(yùn)用四分差的公式 IQR=Q3-Q1,對(duì)存在異常的數(shù)據(jù)進(jìn)行合理化處理.未經(jīng)數(shù)據(jù)均值處理和四分差方法得到的數(shù)據(jù),以及經(jīng)數(shù)據(jù)均值處理和四分差方法得到的數(shù)據(jù)描述性統(tǒng)計(jì)如圖3和圖4所示.經(jīng)處理后的胰島素含量(Insulin)最大值由846.00變?yōu)?79.25.

    圖3 未經(jīng)數(shù)據(jù)均值處理和四分差方法的Pima數(shù)據(jù)描述性統(tǒng)計(jì)Fig.3 Descriptive statistics of Pima data without data mean processing and quartile method

    圖4 經(jīng)數(shù)據(jù)均值處理和四分差方法的Pima數(shù)據(jù)描述性統(tǒng)計(jì)Fig.4 Descriptive statistics of Pima data with data mean processing and quartile method

    為驗(yàn)證模型在其他數(shù)據(jù)集上的有效性,收集浙江省某中心醫(yī)院2014—2016年糖尿病患者的體檢數(shù)據(jù)共506條,數(shù)據(jù)變量包括年齡、性別、BMI等45項(xiàng).原始數(shù)據(jù)存在空缺值、維度高、噪聲大等問題.因此,本研究首先對(duì)記錄明顯不合理的數(shù)據(jù)進(jìn)行手動(dòng)刪除,然后參考醫(yī)學(xué)文獻(xiàn)和相關(guān)體檢數(shù)據(jù),運(yùn)用XGBoost方法進(jìn)行特征重要性分析,如圖5所示.

    圖5 體檢數(shù)據(jù)的特征重要性Fig.5 Significance of physical examination data features

    從數(shù)據(jù)集中選取8個(gè)可能對(duì)糖尿病或糖尿病并發(fā)癥產(chǎn)生影響的特征變量作為模型的輸入變量,其包括年齡(Age)、血壓(BP)、身體質(zhì)量指數(shù)(BMI)、血糖(Sugar)、總膽固醇(TC)、甘油三酯(TG)、心率(VT)和血清鐵蛋白(SF).在糖尿病患者的體檢數(shù)據(jù)集中,結(jié)果變量DIBETIC為1的有233例,即為糖尿病患者人數(shù);DIBETIC為0的有273例,即為未患有糖尿病的人數(shù).

    3 性能指標(biāo)

    混淆矩陣(Confusion Matrix)是可視化工具,特別用于監(jiān)督學(xué)習(xí),在無監(jiān)督學(xué)習(xí)中一般被稱為匹配矩陣.在圖像精度評(píng)價(jià)中,其主要用于比較分類結(jié)果和實(shí)際測(cè)得值,它可把分類結(jié)果的精度顯示在一個(gè)混淆矩陣中.混淆矩陣的結(jié)構(gòu)如表1所示.

    表1 混淆矩陣

    True Positive(TP):真正類.樣本的真實(shí)類別是正類,且模型也將其識(shí)別為正類.

    False Negative(FN):假負(fù)類.樣本的真實(shí)類別是正類,但模型將其識(shí)別為負(fù)類.

    False Positive(FP):假正類.樣本的真實(shí)類別是負(fù)類,但模型將其識(shí)別為正類.

    True Negative(TN):真負(fù)類.樣本的真實(shí)類別是負(fù)類,且模型也將其識(shí)別為負(fù)類.

    從混淆矩陣中可以得到更高級(jí)的分類指標(biāo):Accuracy(精確率)、Precision(正確率)、Recall(召回率)、Specificity(特異性).

    精確率(Accuracy):精確率是最常用的分類性能指標(biāo),可表示模型的精度,即模型識(shí)別正確的個(gè)數(shù)/樣本的總個(gè)數(shù).在一般情況下,精確率越高,說明模型的效果越好.

    Accuracy=(TP+TN)/(TP+FN+FP+TN).

    正確率(Precision):正確率表示在模型識(shí)別為正類的樣本中,真正為正類的樣本所占的比例.在一般情況下,正確率越高,說明模型的效果越好.

    Precision=TP/(TP+FP).

    召回率(Recall):在所有確實(shí)為真的樣本中,被判為“真”的占比.

    Recall=TP/(TP+FN).

    F1-score是一個(gè)綜合考慮Precision和Recall的指標(biāo).

    F1-score=2×(Precision×Recall)/(Precision + Recall)

    4 實(shí)驗(yàn)過程與模型分析

    在進(jìn)行模型的建立和使用前,首先將糖尿病數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集與測(cè)試集的比例為8∶2.本研究采用Python語(yǔ)言,基于Grid Search網(wǎng)格搜索調(diào)優(yōu)方法和十折交叉驗(yàn)證方法進(jìn)行模型優(yōu)化,然后選出每個(gè)模型的最優(yōu)參數(shù)建立模型.在Pima印第安人數(shù)據(jù)集中,各模型的最優(yōu)參數(shù)如表2所示.

    首先通過Python語(yǔ)言搭建算法框架進(jìn)行糖尿病預(yù)測(cè),并分別對(duì)幾種基礎(chǔ)模型進(jìn)行訓(xùn)練,然后運(yùn)用得到的最優(yōu)參數(shù)進(jìn)行Stacking融合,再對(duì)比各個(gè)模型的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1分?jǐn)?shù)和ROC 曲線等指標(biāo),結(jié)果如表3所示.

    表3 Pima數(shù)據(jù)集各模型的性能指標(biāo)評(píng)估

    從表3可以得出,基于Stacking融合模型的預(yù)測(cè)準(zhǔn)確率最高,達(dá)83.74%,精確度也最好,達(dá)80.0%.在ROC穩(wěn)定性方面,隨機(jī)森林最高,達(dá)84.93%;Stacking位居第二,達(dá)78.05%.

    5 模型實(shí)證

    在體檢數(shù)據(jù)集中,采用Grid Search網(wǎng)格搜索調(diào)優(yōu)方法和十折交叉方法尋找各模型的最優(yōu)參數(shù),結(jié)果如表4所示.

    表4 體檢數(shù)據(jù)集各模型最優(yōu)參數(shù)

    Stacking集成模型在Pima數(shù)據(jù)集中表現(xiàn)良好,因此將體檢數(shù)據(jù)集用于該模型進(jìn)行適用性分析,并對(duì)比不同模型所得的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1分?jǐn)?shù)和ROC 曲線等指標(biāo),結(jié)果如表5所示.

    表5 體檢數(shù)據(jù)各模型性能指標(biāo)評(píng)估

    從表5可以得出,Stacking模型的準(zhǔn)確率達(dá)93.83%、精確度達(dá)97.30%,具有較強(qiáng)的泛化能力和通用性.因此,采用Stacking集成學(xué)習(xí)將多個(gè)學(xué)習(xí)器集合起來,能夠很好地提升機(jī)器學(xué)習(xí)的準(zhǔn)確率和精確率.

    6 結(jié) 論

    本研究以Pima印第安人糖尿病數(shù)據(jù)集和浙江某醫(yī)院體檢數(shù)據(jù)集為實(shí)驗(yàn)數(shù)據(jù),分析和研究其相關(guān)屬性,并對(duì)數(shù)據(jù)進(jìn)行擬合和標(biāo)準(zhǔn)化等預(yù)處理,還對(duì)缺失值和異常值進(jìn)行均值替換等處理,從而減少了異常數(shù)據(jù)對(duì)實(shí)驗(yàn)造成的影響;在Bagging和Boosting集成學(xué)習(xí)的基礎(chǔ)上構(gòu)建Stacking集成模型,并驗(yàn)證Stacking集成模型的性能,結(jié)果得出,在兩個(gè)不同數(shù)據(jù)集中,Stacking集成模型的表現(xiàn)為最佳.

    由于受條件限制,本文采用的數(shù)據(jù)樣本有限,只對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理和簡(jiǎn)單建模,并未對(duì)數(shù)據(jù)挖掘進(jìn)行深入研究與分析.今后的研究將基于充足的數(shù)據(jù)樣本建立多層模型結(jié)構(gòu),或進(jìn)行參數(shù)優(yōu)化來提高模型的準(zhǔn)確率,并實(shí)現(xiàn)其在多種疾病預(yù)測(cè)方面的聯(lián)合應(yīng)用.

    猜你喜歡
    分類器準(zhǔn)確率分類
    分類算一算
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    分類討論求坐標(biāo)
    高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
    數(shù)據(jù)分析中的分類討論
    BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
    教你一招:數(shù)的分類
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    玉山县| 青浦区| 宁安市| 宕昌县| 麻阳| 湖州市| 屏山县| 凭祥市| 潼关县| 寿宁县| 元朗区| 苍南县| 武定县| 伊金霍洛旗| 尤溪县| 敦煌市| 呼和浩特市| 上林县| 五华县| 邵阳市| 泗水县| 青岛市| 邯郸市| 孝义市| 多伦县| 黄浦区| 龙海市| 汤阴县| 密山市| 台安县| 巴彦淖尔市| 仁布县| 石阡县| 广宁县| 呼伦贝尔市| 崇阳县| 交城县| 闻喜县| 宜君县| 涪陵区| 山东省|