• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于系統(tǒng)聚類和SVM模型的乳腺癌診斷研究

      2021-05-04 11:09:12樊重俊朱人杰熊紅林
      智能計算機與應(yīng)用 2021年11期
      關(guān)鍵詞:特征選擇聚類乳腺癌

      余 瑩,樊重俊,朱人杰,2,熊紅林,3

      (1上海理工大學(xué) 管理學(xué)院,上海 200093;2同濟大學(xué)附屬東方醫(yī)院,上海 200120;3萬達信息股份有限公司,上海 201112)

      0 引 言

      近年來乳腺癌的多發(fā)以及所帶來的嚴重后果已經(jīng)在全球范圍內(nèi)引起了廣泛關(guān)注,乳腺癌是影響成年女性的主要慢性疾病之一。全球范圍內(nèi)每年都有約1 000萬的女性被診斷出罹患乳腺癌,并且超過50萬女性死于乳腺癌[1]。隨著現(xiàn)代經(jīng)濟的發(fā)展和醫(yī)療技術(shù)的進步,有大量的資源和現(xiàn)代技術(shù)可以應(yīng)用于乳腺癌的篩查、診斷和控制工作。對于醫(yī)生來說,要從大量的癌癥病例當(dāng)中詳細了解每一個癌癥患者的特征是十分困難的。因此,數(shù)據(jù)分析方法可以成為醫(yī)生做出癌癥診斷決策時的重要助手[2]。

      早在1999年,Pena-Reyes和Sipper[3]提出了一種模糊遺傳算法診斷乳腺癌。其研究結(jié)果表明,數(shù)據(jù)挖掘技術(shù)已成功應(yīng)用于癌癥預(yù)測中,傳統(tǒng)的乳腺癌診斷已轉(zhuǎn)化為數(shù)據(jù)分析領(lǐng)域的分類問題。現(xiàn)有的乳腺癌數(shù)據(jù)集被分為良性和惡性兩類,通過歷史腫瘤數(shù)據(jù)訓(xùn)練得到合適的分類器,來預(yù)測新的腫瘤數(shù)據(jù)。但隨著描述腫瘤特征數(shù)據(jù)的增加,分類器的計算時間也急劇增加,在這種情況下,乳腺癌診斷的基本要求不僅是準確性,還包括時間復(fù)雜度。考慮到時間效率,如何從龐大的數(shù)據(jù)集中挖掘和提取必要的信息、過濾特征成為一個新的問題。

      Akay(2009)[4]提出了一種基于SVM與特征選擇相結(jié)合的方法來進行乳腺癌診斷。通過使用F分數(shù)[5]來計算特征價值,選擇原始腫瘤特征的最佳子集進行SVM訓(xùn)練。

      Akay(2009)[4]提出了一種基于SVM與特征選擇相結(jié)合的方法來進行乳腺癌診斷,通過使用F分數(shù)[5]來計算特征價值。進而為了找到最佳的參數(shù)設(shè)置組合,使診斷準確率達到最高,進行了耗時較長的網(wǎng)格搜索,選擇原始腫瘤特征的最佳子集進行SVM訓(xùn)練。Prasad、Biswas和Jain(2010)[6]嘗試了啟發(fā)式算法和SVM的組合,以找出用于SVM訓(xùn)練的最佳特征子集。但是,這些方法的共同缺陷是,僅僅使用分類精確率作為評估不同特征選擇方法的標準,而忽視了對不同子集進行詳盡訓(xùn)練,以獲得具有最佳診斷精確率的最優(yōu)子集所消耗的大量模型訓(xùn)練時間。

      因此,本文提出了基于系統(tǒng)聚類和支持向量機的組合模型。系統(tǒng)聚類算法作為一種無監(jiān)督學(xué)習(xí)算法提取腫瘤特征,以識別腫瘤數(shù)據(jù)的隱藏模式,只在原始特征空間上進行聚類,不僅可以以更加緊湊的方式保留所有單個特征信息,而且避免了在不同子集上進行迭代訓(xùn)練,以節(jié)約模型訓(xùn)練時間?;谔卣鬟x擇的結(jié)果,應(yīng)用從屬函數(shù)計算這些隱藏模式與每個腫瘤之間的相似性,并將其作為新的特征對原始腫瘤數(shù)據(jù)進行特征重建,最后應(yīng)用SVM算法對重建后的數(shù)據(jù)集進行分類。

      1 研究方法

      1.1 基于系統(tǒng)聚類的特征選擇方法

      系統(tǒng)聚類,也稱層次聚類,是統(tǒng)計學(xué)方法中的一種聚類算法,其原理簡單。首先,將所有樣本本身歸為一類,類與類之間的距離就是它們所包含的樣本之間的距離;然后找出距離最近的兩個類將它們合并為一個類,重新計算新生成的類與舊類之間的距離;不斷重復(fù)以上步驟直到所有樣本歸為一類[7]。本文采用歐式距離計算距離矩陣,并采用離差平方和法判斷類與類之間的距離?;诜讲罘治龅乃枷胧牵喝绻诸愓_,則分類結(jié)果應(yīng)該滿足,同類樣本之間離差平方和較小,而異類樣本之間離差平方和較大。

      特征選擇過程也可描述為數(shù)據(jù)轉(zhuǎn)換過程,是將特征數(shù)據(jù)轉(zhuǎn)化為定量的數(shù)據(jù)結(jié)構(gòu),以方便訓(xùn)練模型的過程。特征選擇在具有高維特征空間的大規(guī)模數(shù)據(jù)中起著重要的作用。當(dāng)訓(xùn)練數(shù)據(jù)為高維數(shù)據(jù)時,這個過程可以用來消除不必要的訓(xùn)練信息,在保持訓(xùn)練精度的同時,縮短總體訓(xùn)練時間[8]。特征選擇的原則是,在不影響后續(xù)分類分布結(jié)果,不降低準確率及提取的特征子集應(yīng)為穩(wěn)定且適應(yīng)度強的集合基礎(chǔ)上,提取盡可能小的特征子集。在統(tǒng)計學(xué)中,特征選擇的統(tǒng)計模型一般使用數(shù)學(xué)統(tǒng)計模型建立,以數(shù)學(xué)方程式的形式表示變量之間的函數(shù)關(guān)系。通過計算模型的殘差平方和大小,評價模型的擬合程度。在對原始數(shù)據(jù)進行系統(tǒng)聚類后,需要對聚類結(jié)果進行相似性度量,從而決定最佳類的個數(shù),相似性度量的方法如式(1)、式(2)[9]所示:

      其中,θ是評估聚類數(shù)有效率的量值。θ求得最小值的過程,也是每個成員與其簇質(zhì)心的平均距離davg不斷減小,而任意兩個簇質(zhì)心之間的最小距離dmin不斷增加的過程。即在通過有效率θ求解最佳聚類數(shù)K*的過程中,也滿足了類內(nèi)距離小、異類間距離大的條件。

      當(dāng)K的取值接近特征數(shù)目時,則無法找出隱藏模式;當(dāng)K取值較小時,才會較明顯地顯示出隱藏模式。

      1.2 特征重建

      進行特征選擇后,需在原始數(shù)據(jù)集的基礎(chǔ)上進行特征重建。此時,未測試數(shù)據(jù)與之前步驟中選擇出的新特征之間的相似程度,在新數(shù)據(jù)集的特征重建中扮演著重要的角色。因此,計算原始數(shù)據(jù)與各新特征之間相似性的從屬函數(shù)極為重要。從屬函數(shù)計算如式(4)、式(5)所示[9]:

      通過ρic,可刻畫腫瘤i和腫瘤模式Sc之間的相似度程度,ρic的大小反映了二者的相似度,數(shù)值越大,相似度越高。將通過系統(tǒng)聚類提取的新模式作為腫瘤新的抽象特征,并通過從屬函數(shù)計算所有原始腫瘤數(shù)據(jù)與腫瘤模式Sc之間相似程度,將其組成新數(shù)據(jù),完成特征重建。

      1.3 支持向量機分類

      基于前兩步的操作,數(shù)據(jù)的特征維度已經(jīng)減小,并且具有新特征的數(shù)據(jù)集已經(jīng)重建,可以應(yīng)用傳統(tǒng)的機器學(xué)習(xí)算法。由于支持向量機算法(SVM)自身的優(yōu)勢,對于線性可分的二分類問題,可通過找到一個最優(yōu)分界面將兩類分開;對于線性不可分的二分類問題,可利用核函數(shù)實現(xiàn)在高維特征空間分類。支持向量機算法在小樣本、非線性及高維模式應(yīng)用中具有優(yōu)勢,故本文選擇支持向量機算法進行分類[11]:

      其中,x是訓(xùn)練向量;y是與訓(xùn)練向量相關(guān)的標簽;α是分類器超平面的參數(shù)向量;K·()為核函數(shù);L是由懲罰參數(shù)決定的錯誤分類數(shù)量。

      2 實驗及結(jié)果

      2.1 乳腺癌數(shù)據(jù)描述

      本文使用的數(shù)據(jù)來自加州大學(xué)爾灣分校的威斯康星州診斷性乳腺癌(WDBC)數(shù)據(jù)集。該數(shù)據(jù)集包含每個細胞核10個類別的32個特征,其分別是:半徑、紋理值、周長、面積、光滑度、緊密度、凹度、凹點、對稱性、分形維數(shù)。對于每個類別,分別測量3個指標:平均值、標準誤差和最大值,包括樣本的名稱和類別一共32維,共包含569條數(shù)據(jù),見表1。

      表1 WDBC數(shù)據(jù)集分布描述Tab.1 Summary of WDBC data attributes

      2.2 H-SVM算法

      使用H-SVM算法對乳腺癌數(shù)據(jù)進行診斷。為了對特征進行降維,分別在良性數(shù)據(jù)集和惡性數(shù)據(jù)集上使用特征選擇方法提取腫瘤數(shù)據(jù)的隱藏模式,在判斷最佳聚類數(shù)時,應(yīng)用式(1)、(2)、(3)得到K*,在特征選擇的基礎(chǔ)上,利用式(4)、(5)進行特征重建,最后應(yīng)用SVM算法進行分類。整個算法流程[10]如圖1所示。

      圖1 H-SVM算法流程Fig.1 H-SVM algorithm flow

      2.2.1 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理過程主要包括二個方面,一是分離良性數(shù)據(jù)集與惡性數(shù)據(jù)集;二是數(shù)據(jù)標準化。

      (1)良惡性數(shù)據(jù)集分離。由于在進行腫瘤隱藏模式識別時,良性腫瘤與惡性腫瘤的隱藏模式是分別存在的,而原數(shù)據(jù)集中良性腫瘤數(shù)據(jù)與惡性腫瘤數(shù)據(jù)則混合在一起。原數(shù)據(jù)中第二維為數(shù)據(jù)分類的標識,在進行數(shù)據(jù)集分離時只需按照B(良性腫瘤數(shù)據(jù)集)或M(惡性腫瘤數(shù)據(jù)集)篩選分離即可。

      (2)數(shù)據(jù)標準化。在進行系統(tǒng)聚類分析前,需對數(shù)據(jù)集中標簽屬性進行歸一化處理,以消除量綱對相似度的影響。即消除對聚類過程中相似矩陣計算的影響,從而獲得一個更優(yōu)的聚類結(jié)果。歸一化公式如式(7):

      2.2.2 特征選擇

      首先,分別對良性腫瘤數(shù)據(jù)集與惡性腫瘤數(shù)據(jù)集進行系統(tǒng)聚類。圖2為聚類結(jié)果譜系圖(其中(a)為良性腫瘤數(shù)據(jù)聚類譜系圖,(b)為惡性腫瘤聚類譜系圖)。由圖可見,系統(tǒng)聚類在良惡性腫瘤數(shù)據(jù)集上有很好的聚類效果,能夠比較清晰地體現(xiàn)出類別的層次,即乳腺癌腫瘤數(shù)據(jù)的隱藏模式明顯,各隱藏模式之間差距較大。

      圖2 腫瘤數(shù)據(jù)系統(tǒng)聚類圖Fig.2 Hierarchical graph

      進行特征選擇時,利用式(1)、(2)分別求得良惡性腫瘤數(shù)據(jù)對應(yīng)的有效率,其中聚類數(shù)K的取值范圍為(2,30)。聚類產(chǎn)生的每一類,代表一個腫瘤的隱藏模式;每一個類的類中心,代表該隱藏模式的類中心。利用式(3)求得每個簇的θ值,如圖3所示。從圖3中可以看出,在取值范圍內(nèi),有效率θ有一個最小值。即當(dāng)良性腫瘤類別數(shù)Kb=10時,θb求得最小值;當(dāng)惡性腫瘤類別數(shù)KM=5時,θm求得最小值。根據(jù)本文算法,以最緊湊的模式保留原始特征得到良、惡性腫瘤的最佳隱藏模式數(shù)分別為10種和5種。如圖5所示。

      圖3 腫瘤模式K值的確定Fig.3 Determine K for tumors

      2.3 分類結(jié)果

      分類算法結(jié)果的正確性用準確率來衡量,準確率越高說明分類的效果越好。本文H-SVM算法在WDBC數(shù)據(jù)集上應(yīng)用的準確率為96.5%。其計算公式為式(8)所示:

      其中,TP是真正數(shù);T N是真負數(shù);F P是假正數(shù);F N是假負數(shù)。

      就準確率而言,本文提出的H-SVM算法與僅使用SVM算法進行分類比較,保證了高的預(yù)測精度;另一方面,H-SVM算法是通過將原始數(shù)據(jù)進行特征選擇以減少特征空間的維度,然后特征重建轉(zhuǎn)換為新的數(shù)據(jù)集。從計算時間的角度來看,所提出的方法通過減少輸入特征的數(shù)量,顯著減少了訓(xùn)練時間。表2中將計算時間與傳統(tǒng)的SVM算法進行了比較,顯示了選擇和提取特征的重要性。

      表2 結(jié)果比較Tab.2 Result comparison

      3 結(jié)束語

      本文提出了一種基于系統(tǒng)聚類的特征選擇與支持向量機的組合模型(H-SVM)分類方法,并將實驗結(jié)果與SVM算法進行了比較。在特征選擇階段,使用系統(tǒng)聚類來識別乳腺癌的隱藏模式,將數(shù)據(jù)集與隱藏模式之間的相似性作為新腫瘤特征數(shù)據(jù)集,以此判斷待測腫瘤數(shù)據(jù)是否為惡性腫瘤。該算法通過特征提取和選擇對原始腫瘤數(shù)據(jù)集進行降維,在不減少樣本數(shù)量的前提下,將其重建為更加緊湊的新數(shù)據(jù)集。實驗結(jié)果表明,本文提出的算法與僅使用SVM算法比較,不僅在精確率上由原來的95.3%提高到97.5%,而且也明顯降低了模型的訓(xùn)練時間,由15.891 3 s減少到0.208 8 s。

      本文使用H-SVM對WDBC數(shù)據(jù)集進行診斷的精確率為97.5%,說明分類算法還存在優(yōu)化空間。探索在不增加模型訓(xùn)練時間的前提下,進一步提高分類精確率將作為下一步的研究方向。

      猜你喜歡
      特征選擇聚類乳腺癌
      絕經(jīng)了,是否就離乳腺癌越來越遠呢?
      中老年保健(2022年6期)2022-08-19 01:41:48
      乳腺癌是吃出來的嗎
      胸大更容易得乳腺癌嗎
      別逗了,乳腺癌可不分男女老少!
      祝您健康(2018年5期)2018-05-16 17:10:16
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標特征選擇算法
      基于改進的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      司法| 绵竹市| 长岛县| 宜城市| 清新县| 五大连池市| 彭阳县| 武威市| 武城县| 句容市| 陆河县| 剑川县| 怀集县| 山东| 利津县| 青岛市| 山阳县| 拉萨市| 阿巴嘎旗| 新沂市| 邵东县| 邵阳市| 贞丰县| 屯昌县| 乌海市| 曲阳县| 临清市| 南汇区| 东丽区| 南康市| 友谊县| 沁源县| 兴仁县| 昌都县| 阳信县| 徐州市| 桐乡市| 德令哈市| 富平县| 绍兴市| 宁陵县|