(天津工業(yè)大學(xué),天津 300000)
伴隨著科學(xué)技術(shù)的不斷發(fā)展與進(jìn)步,大數(shù)據(jù)時代的到來,面對技術(shù)巨大紛繁復(fù)雜的數(shù)據(jù)如何在大數(shù)據(jù)中挖掘出有用的信息,受到了個人團(tuán)體及企業(yè)的重視,信息為個人企業(yè)的決策提供了重要的參考,在近些年來機(jī)器學(xué)習(xí)算法受到了學(xué)校企業(yè)以及相關(guān)機(jī)構(gòu)的關(guān)注,機(jī)器學(xué)習(xí)是一門涉及到概率論,統(tǒng)計(jì)學(xué)等多門學(xué)科的交叉學(xué)科,從當(dāng)前現(xiàn)有的數(shù)據(jù)中發(fā)現(xiàn)相應(yīng)的規(guī)律,并利用這些規(guī)律對未來作出預(yù)測,通過利用機(jī)器學(xué)習(xí)方法能夠?qū)ο嚓P(guān)的數(shù)據(jù)進(jìn)行分析以及預(yù)測,在當(dāng)前各個領(lǐng)域中得到了廣泛的應(yīng)用[1]。在醫(yī)學(xué)領(lǐng)域中通過應(yīng)用機(jī)器學(xué)習(xí)算法能夠有效地降低財(cái)力物力以及能力,有效提高當(dāng)前醫(yī)療系統(tǒng)的運(yùn)作效率,緩解當(dāng)前人民群眾就醫(yī)難的問題,糖尿病是一種嚴(yán)重的慢性病以及多發(fā)病,在我國受多種因素影響,在近些年來呈現(xiàn)出上升趨勢,世界衛(wèi)生組織指出全世界糖尿病患者超過4.22億人,上述患者主要位于中低收入國家。糖尿病的并發(fā)癥主要包括中風(fēng)視力減退以及心臟病發(fā)作的給患者的健康產(chǎn)生嚴(yán)重的負(fù)面影響。你得通過選擇邏輯回歸,神經(jīng)網(wǎng)絡(luò),決策樹,支持向量機(jī)以及貝葉斯等5種機(jī)器學(xué)習(xí)算法對糖尿病進(jìn)行預(yù)測,通過實(shí)驗(yàn)顯示角色所取得了良好的效果,相關(guān)研究報告如下[2]。
決策樹是機(jī)器學(xué)習(xí)算法理論的重要組成部分,通常情況下也被稱之為判定書,往往是根據(jù)探測到的信息,根據(jù)相關(guān)的標(biāo)準(zhǔn)對其進(jìn)行劃分,最終得到的結(jié)果世家某一數(shù)據(jù)安置在相應(yīng)的枝條上,一般情況下整個決策過程往往開始于根節(jié)點(diǎn),決策樹的特征節(jié)點(diǎn)與待測數(shù)據(jù)之間進(jìn)行比較,選擇具有分歧的,結(jié)果作為分支,決策樹的學(xué)習(xí)方法主要有以下選擇:首先在特征選擇中,通過某一組給定的數(shù)據(jù)將其分類標(biāo)準(zhǔn)作為節(jié)點(diǎn),其次是依據(jù)相關(guān)的標(biāo)準(zhǔn)生成決策樹從上到下規(guī)則的形成子節(jié)點(diǎn)一直到相關(guān)的數(shù)據(jù)不可分割,在這一冊書中很容易進(jìn)行擬合,針對這一情況往往是用剪枝來解決[3]。
決策樹的基本算法如下:
(1)輸入:訓(xùn)練集z={(x1,Y1,z1),(X2,Y2,Z2),(XM,YM,ZM)};屬性集B={B1,B2,bn}
(2)過程:函數(shù)TG(Z,b)
①生成節(jié)點(diǎn)n;
②如果Z 樣本都屬于同一類別A,那么
③將n標(biāo)記為a類葉節(jié)點(diǎn);return
④結(jié)束if
⑤如果B 是空集或Z,則B 中的樣本具有相同的值
⑥那么
⑦將n標(biāo)記為葉節(jié)點(diǎn),將類別標(biāo)記為具有最大樣本數(shù)的Z
等級;回報
⑧結(jié)束if
⑨從b中選擇最佳的分區(qū)屬性b*;
⑩B*B*V do的每個B*值
為n生成一個分支;
設(shè)zv表示Z中的樣本子集,其值為b*上的b*V;
如果zv為空
將分支節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn),將其類別標(biāo)記為Z中間節(jié)點(diǎn)
樣本最多的類;返回else
以TG(zv,B{B*})作為分支節(jié)點(diǎn)
結(jié)束if
(3)輸出:如果決策樹的根節(jié)點(diǎn)為n,通過以上相關(guān)的決策算法可以表明產(chǎn)生這一決策樹的過程是一個遞歸。
在整個算法運(yùn)作過程中,希望每個分支點(diǎn)中所含的樣本應(yīng)當(dāng)盡可能的屬于同一個類型,即保持較高的節(jié)點(diǎn)程度,在臨床中通常使用信息熵來對評價樣本的集合程度進(jìn)行評價。
假定集合A 中第n 類樣本所占的比例為:
pn(n=1,2,…,x),則A的信息熵定義公式為
Ent(A)這一數(shù)值的大小與a的程度有著密切的關(guān)系,兩者呈現(xiàn)出正比例的關(guān)系,通過,根據(jù)其相關(guān)的屬性分析,采取信息爭議的方法,必有多個選擇,樣本a使用b來對其進(jìn)行話費(fèi)將會產(chǎn)生多個分枝葉節(jié)點(diǎn),要對樣本集進(jìn)行屬性劃分,別說獲得的信息增益如公式(2),當(dāng)信息增益增大時,則屬性b劃分所獲得的“純度提升”越大。
在學(xué)習(xí)的整個過程中,由于對節(jié)點(diǎn)的劃分會導(dǎo)致不斷的重復(fù),進(jìn)一步增加相關(guān)決策樹的分支,最終導(dǎo)致整個樣本出現(xiàn)擬合,通常情況下,主動采取措施來降低紛爭,從而進(jìn)一步減少出現(xiàn)擬合的風(fēng)險,并且在進(jìn)行剪枝的過程中,科學(xué)的選擇處理方法,一般情況下有預(yù)剪枝和后剪枝兩種方法,點(diǎn)畫風(fēng)不好時,使得整個性能出現(xiàn)偏差時,這種情況下,要積極主動停止進(jìn)行劃分,把當(dāng)前的節(jié)點(diǎn)設(shè)置為相關(guān)的節(jié)點(diǎn)后剪枝,從先給定的訓(xùn)練集中成一棵完整的樹然后使用葉子節(jié)點(diǎn)來進(jìn)行替換,這種方法比第1種方法要保留更多的分支,因此其性能更加優(yōu)秀[4]。
在整個學(xué)習(xí)過程中。在啊,語言環(huán)境中本實(shí)驗(yàn)順利進(jìn)行,首先對原始數(shù)據(jù)進(jìn)行預(yù)處理和清理,清除掉不相關(guān)的數(shù)據(jù),對于相關(guān)缺少的數(shù)據(jù),使用隨機(jī)地帶方法進(jìn)行填充,按照70∶30的比例進(jìn)行數(shù)據(jù)劃分,并且建立測試集合訓(xùn)練集。在隨機(jī)訓(xùn)練模型中有兩個參數(shù)是需要人為控制的,一個是隨機(jī)出現(xiàn)變量的個數(shù)m try,另一個是每次迭代生成的隨機(jī)森林中的角色數(shù)個數(shù)ntree。在實(shí)驗(yàn)數(shù)據(jù)中共有9個變量相關(guān)的參數(shù),從1~8可以對其進(jìn)行8次建模,將每次的錯誤率進(jìn)行統(tǒng)計(jì)并選擇錯誤率最低地值,根據(jù)相關(guān)研究結(jié)果表明,當(dāng)mtry等于70,整個樣本出現(xiàn)錯誤的概率最低,通過決策數(shù)量以及可視化模型錯誤率之間的關(guān)系得出ntree的值為118[5]。進(jìn)行cayenne建模得最關(guān)鍵的因素是選擇k 參數(shù),科學(xué)合理地選擇k 參數(shù),能有效的保證實(shí)驗(yàn)的準(zhǔn)確和順利,筆者在研究過程中通過應(yīng)用交叉驗(yàn)證的相關(guān)方法,通過利用相關(guān)函數(shù)發(fā)現(xiàn)參數(shù)最優(yōu)為15,整個測試集的進(jìn)度達(dá)到74%,通過利用e1071軟件包建立支持向量機(jī)模型。在非線性模型中通常采取的核函數(shù)有多項(xiàng)式核函數(shù)以及徑向基函數(shù)等。用于實(shí)驗(yàn)調(diào)節(jié),支持向量機(jī)函數(shù)來選擇相關(guān)的條件探索,通過采取交叉驗(yàn)證的方法來對參數(shù)進(jìn)行調(diào)節(jié),最后將整個核函數(shù)作為優(yōu)化建模的模型[6-7]。
在整個決策樹建模過程中,通過應(yīng)用xgboost軟件包,第一時間建立相應(yīng)的模型網(wǎng)絡(luò),連續(xù)多次使用交叉驗(yàn)證法,對整個參數(shù)進(jìn)行系統(tǒng)優(yōu)化,最終得到最優(yōu)參數(shù),從而建立相關(guān)的模型,利用該函數(shù)在信息包中尋找最優(yōu)概率閾值,使誤差最小化,并得到最優(yōu)概率閾值優(yōu)化模型。
這次我們一共選取了15000條記錄的數(shù)據(jù)集,共有11個特征點(diǎn),分別是病人編號,懷孕次數(shù),血糖舒張壓,三頭肌皮褶厚度,血清胰島素體質(zhì)指數(shù)、糖尿病譜系、年齡、是否患糖尿病以及患者醫(yī)生[8-9]。其中有10500個數(shù)據(jù)用作訓(xùn)練,其余4500個數(shù)據(jù)進(jìn)行測試,微軟的決策樹學(xué)習(xí)是此次應(yīng)用的學(xué)習(xí)工具。通過我們進(jìn)行改進(jìn),整體準(zhǔn)確率達(dá)到了95.4%,整個預(yù)測精度達(dá)93.4%。
伴隨著當(dāng)前我國經(jīng)濟(jì)社會的不斷發(fā)展,在新時期人工智能領(lǐng)域以及大數(shù)據(jù)分析理論得到了社會大眾的廣泛關(guān)注,機(jī)器學(xué)習(xí)是較為常用的一種方法,在論文中通過應(yīng)用邏輯回歸神經(jīng)網(wǎng)絡(luò)決策樹支持向量機(jī)以及被子等相關(guān)的機(jī)器算法來對預(yù)測糖尿病,通過橫向的研究表明在整個預(yù)測過程中,通過應(yīng)用決策數(shù)及準(zhǔn)確率更高,但接下來在研究過程中,筆者將采集更多的數(shù)據(jù),對當(dāng)前的預(yù)測方法進(jìn)行驗(yàn)證,筆者堅(jiān)信在未來醫(yī)療領(lǐng)域中機(jī)器學(xué)習(xí)算法將會得到日益廣泛的應(yīng)用,給人們的疾病治療產(chǎn)生積極的推動作用,有效降低當(dāng)前的醫(yī)療衛(wèi)生系統(tǒng)負(fù)擔(dān)。