• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘在乳腺癌復(fù)發(fā)預(yù)測(cè)中的應(yīng)用研究

      2019-05-16 01:39:44程國(guó)建魏珺潔
      關(guān)鍵詞:樸素貝葉斯分類器

      程國(guó)建,張 晗,魏珺潔

      (西安石油大學(xué) 計(jì)算機(jī)學(xué)院,西安710065)

      0 引 言

      數(shù)據(jù)挖掘的概念是在1995年加拿大召開的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘會(huì)議中提出的,早期主要研究從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)[1]。數(shù)據(jù)挖掘通常是指從大量的數(shù)據(jù)中尋找隱藏的有用信息的過(guò)程,主要任務(wù)有分類、聚類、關(guān)聯(lián)分析、時(shí)序模式、偏差檢測(cè)和預(yù)測(cè)。自從數(shù)據(jù)挖掘被提出以來(lái),就引起了許多專家學(xué)者的廣泛關(guān)注。近年來(lái),隨著大數(shù)據(jù)的興起,數(shù)據(jù)挖掘逐漸被應(yīng)用到各行各業(yè)中,例如醫(yī)療領(lǐng)域[2]、金融業(yè)[3]、電力行業(yè)[4]等領(lǐng)域。

      乳腺癌是乳腺上皮細(xì)胞增生癌變后,形成的一個(gè)凹陷腫塊。乳腺癌是一種常見(jiàn)的惡性腫瘤,不僅危及女性的生命,也嚴(yán)重影響了患者的身心健康。自從20世紀(jì)70年代末開始,乳腺癌的發(fā)病數(shù)一直位居女性腫瘤首位,并且每年都有遞增的趨勢(shì)[5]。隨著醫(yī)療技術(shù)的發(fā)展和人們對(duì)乳腺癌研究的不斷深入,現(xiàn)在乳腺癌已經(jīng)有手術(shù)治療、放射治療、化學(xué)藥物治療、免疫治療等多種治療方法。然而,受乳腺癌原發(fā)腫塊的大小、位置、患者年齡、受侵淋巴數(shù)等因素的影響,乳腺癌在手術(shù)后兩年內(nèi)有可能發(fā)生復(fù)發(fā)或者轉(zhuǎn)移[6]。因此,利用數(shù)據(jù)挖掘算法對(duì)乳腺癌復(fù)發(fā)的影響因素進(jìn)行分析,進(jìn)而實(shí)現(xiàn)對(duì)乳腺癌術(shù)后是否會(huì)復(fù)發(fā)的預(yù)測(cè),可以有效地幫助患者盡早采取措施、積極治療。

      1 數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)的一個(gè)重要步驟,已有許多經(jīng)典的算法,例如,常用于分類的決策樹算法C4.5、能夠根據(jù)屬性進(jìn)行聚類的K-Means算法、可以挖掘數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則的Apriori算法等。本文主要利用C4.5算法、樸素貝葉斯算法和SVM算法對(duì)乳腺癌復(fù)發(fā)情況進(jìn)行分類與預(yù)測(cè)。對(duì)此可探討分述如下。

      1.1 C4.5

      C4.5算法是由澳大利亞悉尼大學(xué)Ross Quinlan教授提出的,是對(duì)ID3算法改進(jìn)后得到的一種決策樹分類算法。相比于ID3算法,C4.5算法引入了信息增益率來(lái)選擇屬性,可以對(duì)連續(xù)屬性進(jìn)行離散化處理[7]。 其次,C4.5 還在構(gòu)造樹的過(guò)程加入了剪枝,剪枝可以減少模型的復(fù)雜度,從而避免過(guò)擬合現(xiàn)象[8],而且C4.5算法還能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。

      如圖1所示,C4.5算法可以根據(jù)數(shù)據(jù)樣本的特征屬性構(gòu)造一棵決策樹,樹的葉子節(jié)點(diǎn)代表經(jīng)過(guò)分類得到的具體類別,樹的非葉子節(jié)點(diǎn)代表數(shù)據(jù)的屬性,從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)形成的一條路徑就是一條分類規(guī)則。該算法的本質(zhì)就是從訓(xùn)練數(shù)據(jù)中歸納出一組分類規(guī)則,并且這些分類規(guī)則是互斥且完備的。C4.5算法適合在小規(guī)模數(shù)據(jù)集和多屬性數(shù)據(jù)集上使用,并且得到的分類準(zhǔn)確率較高。只是在構(gòu)造決策樹的過(guò)程中,需要多次掃描和排序,因此該算法的效率較低。

      圖1 實(shí)現(xiàn)乳腺癌復(fù)發(fā)預(yù)測(cè)的C4.5決策樹Fig.1 C4.5 decision tree for breast cancer recurrence prediction

      1.2 樸素貝葉斯

      樸素貝葉斯算法是Duda和Hart于1973年提出的,是以貝葉斯定理為基礎(chǔ)的一種分類方法。之所以稱為樸素貝葉斯,是因?yàn)樵摲诸惼骷僭O(shè)數(shù)據(jù)的每一個(gè)屬性之間是相互獨(dú)立的,這些屬性都是直接與類屬性相關(guān)聯(lián)。樸素貝葉斯算法可以根據(jù)數(shù)據(jù)的一些特征屬性,計(jì)算各個(gè)類別的概率,最終概率最大的類別即為該數(shù)據(jù)的類。其方法可概述如下:

      (1)設(shè)x={a1,a2,…,am} 為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。

      (2)有類別集合C={y1,y2,… ,yn}。

      (3)計(jì)算在X個(gè)屬性條件下,所有類別的概率P(y1|x),P(y2|x),…,p(yn|x)。

      (4)在所有概率中,選取最大的概率P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則X屬于概率最大的類別x∈yk。

      樸素貝葉斯算法分類效率穩(wěn)定、算法簡(jiǎn)單,尤其對(duì)小規(guī)模數(shù)據(jù)的分類效果好,對(duì)缺失數(shù)據(jù)不敏感。由于樸素貝葉斯模型假定屬性之間是相互獨(dú)立的,因此與其它分類方法相比,該算法的誤差率可能較低。然而實(shí)際上,各個(gè)屬性之間往往具有一定的相關(guān)性。因此當(dāng)數(shù)據(jù)集的各個(gè)屬性實(shí)際相關(guān)性較小時(shí),樸素貝葉斯分類器分類效果良好,否則,分類效果不好。

      1.3 SVM

      支持向量機(jī)(Support Vector Machine,SVM)是一種監(jiān)督式學(xué)習(xí)的方法。支持向量機(jī)首先由Vapnik和Corinna Cortes在1995年提出的,通常被廣泛地應(yīng)用在統(tǒng)計(jì)學(xué)、模式分類和回歸分析等方面。SVM可以在最小化經(jīng)驗(yàn)誤差的同時(shí),最大化幾何邊緣。因此,SVM也被稱為最大化邊緣區(qū)分類器。如圖2所示,限制邊緣寬度的向量(點(diǎn))是支持向量(SV),2個(gè)異類支持向量到超平面的距離之和稱為間隔。支持向量機(jī)的基本思想就是將輸入數(shù)據(jù)視為n維空間中的2組向量。通過(guò)在該空間中構(gòu)建一個(gè)分離超平面來(lái)對(duì)輸入數(shù)據(jù)進(jìn)行分類,這個(gè)超平面使2個(gè)數(shù)據(jù)集之間的邊界最大化。支持向量機(jī)具有以下優(yōu)點(diǎn):

      (1)通用性:可以在多種函數(shù)集中構(gòu)造函數(shù)。

      (2)魯棒性:不需要微調(diào)。

      (3)有效性:在解決實(shí)際問(wèn)題時(shí)是最好的方法之一。

      (4)計(jì)算簡(jiǎn)單:方法的實(shí)現(xiàn)只需要利用簡(jiǎn)單的優(yōu)化技術(shù)。

      圖2 SVM原理圖Fig.2 SVM schematic

      2 乳腺癌復(fù)發(fā)預(yù)測(cè)

      2.1 實(shí)驗(yàn)過(guò)程

      本文使用的是來(lái)自南斯拉夫盧布爾雅那大學(xué)醫(yī)療中心乳腺癌腫瘤研究所,由Zwitter和Soklic提供的乳腺癌數(shù)據(jù)[9-12],表1展示了該數(shù)據(jù)集的一部分。該數(shù)據(jù)集包含286個(gè)實(shí)例和10個(gè)屬性,類屬性代表是否會(huì)復(fù)發(fā),其它 9個(gè)屬性分別為 Age(年齡)、Menopause(更年期)、Tumor-size(腫瘤大小)、Invnodes(受侵淋巴結(jié)數(shù))、Node-caps(有無(wú)結(jié)節(jié)冒)、Deg-malig(惡性腫瘤程度)、Breast(腫塊位置)、Breastquad(腫塊所在象限)、Irradiat(是否放療)[13]。

      表1 乳腺癌數(shù)據(jù)集Tab.1 Breast cancer dataset

      Weka是一個(gè)擁有可視化界面的數(shù)據(jù)挖掘平臺(tái),在這個(gè)平臺(tái)下,可以簡(jiǎn)單地完成數(shù)據(jù)挖掘的整個(gè)過(guò)程[14]。 本文的實(shí)驗(yàn)環(huán)境使用的是 Weka3.9。 過(guò)程中,各研發(fā)步驟可闡述如下。

      (1)啟動(dòng) Weka,打開Explorer面板,在Preprocess下點(diǎn)擊 Open File導(dǎo)入乳腺癌數(shù)據(jù)集(breast-cancer)。

      (2)在Classify下的Classifier中,點(diǎn)擊Choose選擇分類器。本文使用的3種分類算法對(duì)應(yīng)的分類器分別為:J48(C4.5 算法)、NaiveBayes(樸素貝葉斯算法)和 LibSVM(SVM 算法)。 其中,C4.5分類器的confidenceFactor參數(shù)設(shè)置為 0.25、numFold 參數(shù)值設(shè)置為3、seed參數(shù)設(shè)置為1、reduceErrorPruning參數(shù)設(shè)置為False,即使用C4.5剪枝。樸素貝葉斯分類器的useKernelEstimator參數(shù)和useSupervisedDiscretization參數(shù)均設(shè)置為False。

      C4.5算法使用createNode()函數(shù)為決策樹創(chuàng)建新節(jié)點(diǎn);使用find_best_split()函數(shù)來(lái)選擇屬性;使用Classify()函數(shù)確定葉節(jié)點(diǎn)的類別標(biāo)簽;使用stopping_cond()來(lái)檢查是否要終止決策樹的增長(zhǎng)。

      樸素貝葉斯算法在進(jìn)行分類時(shí),首先要假設(shè)數(shù)據(jù)的特征屬性是相互獨(dú)立的,并且所有的屬性變量都直接與類屬性相關(guān)聯(lián),把類屬性作為唯一的父節(jié)點(diǎn)。根據(jù)此次實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù),構(gòu)建樸素貝葉斯分類器模型。

      (3)在 Test options中選擇 Cross-validation(交叉驗(yàn)證),由于本文使用的是十折交叉驗(yàn)證,因此Cross-validation Fold為10。

      本文采用十折交叉驗(yàn)證的驗(yàn)證方法,相比于其它交叉驗(yàn)證方法,該方法在模型選擇中更為有效[15]。在十折交叉驗(yàn)證方法中,數(shù)據(jù)集被分成10份,在進(jìn)行實(shí)驗(yàn)時(shí),輪流將其中的9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù)。每次實(shí)驗(yàn)都會(huì)得到一個(gè)相應(yīng)的正確率,對(duì)10次實(shí)驗(yàn)得到的正確率求取平均值,并將該值作為算法最終的正確率。

      (4)點(diǎn)擊Start按鈕,開始實(shí)驗(yàn)。最后得到如圖3~圖5所示的運(yùn)行結(jié)果。

      圖3 C4.5算法預(yù)測(cè)乳腺癌復(fù)發(fā)的結(jié)果Fig.3 C4.5 algorithm predicts breast cancer recurrence

      圖4 樸素貝葉斯算法預(yù)測(cè)乳腺癌復(fù)發(fā)的結(jié)果Fig.4 Naive Bayesian algorithm predicts breast cancer recurrence

      圖5 SVM算法預(yù)測(cè)乳腺癌復(fù)發(fā)的結(jié)果Fig.5 SVM algorithm predicts breast cancer recurrence

      2.2 實(shí)驗(yàn)結(jié)果分析

      基于前文的實(shí)驗(yàn)結(jié)果,將其歸納整合后詳見(jiàn)表2。本次實(shí)驗(yàn)使用的數(shù)據(jù)集屬于小規(guī)模、多屬性,單從這一點(diǎn)分析,3種分類算法都易于實(shí)現(xiàn)、且性能表現(xiàn)良好。然而從表2的數(shù)據(jù)中可以看出,C4.5的分類正確率大于樸素貝葉斯分類器和SVM分類器的正確率。樸素貝葉斯算法在進(jìn)行分類時(shí),只考慮了每個(gè)屬性和類屬性之間的關(guān)系,而沒(méi)有考慮到各個(gè)屬性之間的關(guān)系,這就直接影響了算法的分類正確率。而且,根據(jù)最后一行可以看到,3種算法的均方誤差也是有差異的,C4.5算法的均方根誤差顯然比另外2種算法小。綜上所述,在乳腺癌數(shù)據(jù)預(yù)測(cè)實(shí)驗(yàn)中C4.5算法效果更好。

      表2 3種方法實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Comparison of experimental results of three methods

      3 結(jié)束語(yǔ)

      乳腺癌是一種可能危及女性生命的惡性腫瘤,而且乳腺癌在術(shù)后的2年內(nèi)存在復(fù)發(fā)的風(fēng)險(xiǎn)。文章利用了數(shù)據(jù)挖掘中的C4.5算法、樸素貝葉斯算法和SVM算法在Weka中對(duì)由Zwitter和Soklic提供的乳腺癌數(shù)據(jù)進(jìn)行實(shí)驗(yàn),從而實(shí)現(xiàn)對(duì)乳腺癌的復(fù)發(fā)預(yù)測(cè)。此次實(shí)驗(yàn)不僅實(shí)現(xiàn)了對(duì)乳腺癌的復(fù)發(fā)預(yù)測(cè),還可以對(duì)比分析3類算法,選出最合適的一種。C4.5算法的分類正確率較高,且均方根誤差明顯比另外2種算法小,因此,在此次實(shí)驗(yàn)中使用C4.5算法的效果更佳。

      今后主要研究的問(wèn)題就是在提高C4.5算法效率的同時(shí),尋找更優(yōu)的算法。如今,乳腺癌復(fù)發(fā)預(yù)測(cè)是廣受關(guān)注的一個(gè)問(wèn)題,未來(lái)會(huì)有越來(lái)越多的研究學(xué)者提出更好的算法和方案來(lái)解決這個(gè)問(wèn)題,并為醫(yī)學(xué)中的乳腺癌治療提供幫助。

      猜你喜歡
      樸素貝葉斯分類器
      隔離樸素
      樸素的安慰(組詩(shī))
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      最神奇最樸素的兩本書
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      貝葉斯公式及其應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      太仆寺旗| 焉耆| 左云县| 漳州市| 都匀市| 呼玛县| 文化| 灌阳县| 阿克陶县| 荥经县| 大化| 新竹市| 长汀县| 荥经县| 阜南县| 会泽县| 宜兰市| 鸡泽县| 凤台县| 蒙山县| 绥阳县| 广南县| 广河县| 康保县| 惠水县| 拉萨市| 扎囊县| 喀喇| 买车| 墨脱县| 隆安县| 潼南县| 滨州市| 东光县| 伽师县| 错那县| 商南县| 英山县| 玉溪市| 长寿区| 庆云县|