• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)的分類算法研究-以乳腺癌TNM分期為例

      2018-05-03 08:33:52王鐘廉
      電子制作 2018年7期
      關(guān)鍵詞:決策樹數(shù)據(jù)挖掘乳腺癌

      王鐘廉

      (西安交通大學附屬中學,陜西西安,710000)

      0 前言

      隨著當今世界經(jīng)濟、文化、政治等的高速發(fā)展,計算機自20世紀50年代產(chǎn)生以來,便經(jīng)歷著一代又一代的革新前進,并很快的滲透到社會生活的方方面面,為人們的工作、學習帶來了翻天覆地的變化,越來越成為了人們生活中不可分割的一部分。與此同時,近些年來,數(shù)據(jù)挖掘、大數(shù)據(jù)、云計算、機器學習,深度學習等最新技術(shù)越來越受到科研工作者的青睞[1],引起了廣泛的研究興趣,并在許多領(lǐng)域中得到不同程度的轉(zhuǎn)化利用,成為促使我國經(jīng)濟發(fā)展與技術(shù)革新的一大驅(qū)動力量。我們每天被科學數(shù)據(jù)、醫(yī)療數(shù)據(jù)、金融數(shù)據(jù)、銷售數(shù)據(jù)等各式各樣的海量數(shù)據(jù)所淹沒,如何從大量的、有噪聲的、不完全的、模糊的實際應用數(shù)據(jù)中提取出隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識成為當前困擾著人們的一大難題。在此大背景之下,數(shù)據(jù)挖掘技術(shù)應運而生。

      數(shù)據(jù)挖掘是20世紀末逐漸形成的一個多學科交叉領(lǐng)域,它是一個融合了人工智能、機器學習、統(tǒng)計學以及知識工程等諸多領(lǐng)域技術(shù)的一個多學科交叉領(lǐng)域。目前,已經(jīng)成功地應用在金融、零售、醫(yī)藥、通訊、電子工程、航空等有大量數(shù)據(jù)和深度分析需求的領(lǐng)域,是當前數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿研究方向之一[2]。例如,數(shù)據(jù)挖掘技術(shù)在CRM(客戶關(guān)系管理)中的應用,成功地將數(shù)據(jù)庫中的海量數(shù)據(jù)轉(zhuǎn)變?yōu)闃O具實用價值的分析依據(jù),為生產(chǎn)新產(chǎn)品提供決策[3],幫助企業(yè)確定客戶的特點,提供個性化的服務(wù);利用數(shù)據(jù)挖掘技術(shù)研發(fā)的指紋、虹膜,人臉等生物特征識別技術(shù),成功地應用到現(xiàn)實安全加密,人事考勤之中,促進了生產(chǎn)力的發(fā)展;分類算法在醫(yī)學影像上應用,成功的鑒別出了精神疾病患者區(qū)別于健康人的生物標志,促進了醫(yī)學研究的不斷進步,在輔助醫(yī)師做出正確的診斷,并及時的采取治療措施上取得了巨大成功。在此熱潮的推動下,各行各業(yè)都在加緊步伐利用數(shù)據(jù)挖掘技術(shù)發(fā)掘潛在價值,創(chuàng)造新的財富。

      1 研究內(nèi)容

      中醫(yī)藥物治療乳腺癌具有廣泛的適應癥和獨特的優(yōu)勢。根據(jù)臨床醫(yī)生的經(jīng)驗,各項中醫(yī)癥素表現(xiàn)與乳腺癌不同分期階段存在一定的關(guān)聯(lián)關(guān)系,中醫(yī)癥狀間的關(guān)聯(lián)關(guān)系和諸多癥狀之間的規(guī)律性。但是這種單純依靠經(jīng)驗的診斷方法缺乏統(tǒng)一的規(guī)范,難以做到診斷的標準化。其次,疾病的復雜性和體質(zhì)的差異,造成病人是多種癥素兼夾復合,有時臨床醫(yī)師可能會被自身的經(jīng)驗所誤導。

      因此,可以通過一定的規(guī)則,挖掘出各中醫(yī)癥素與乳腺癌TNM分期之間的關(guān)系。探索不同分期階段的乳腺癌患者的中醫(yī)癥素分布規(guī)律,指導乳腺癌的中醫(yī)臨床治療。數(shù)據(jù)挖掘技術(shù)發(fā)展較為成熟,具有堅實的理論基礎(chǔ),充分利用它在處理大數(shù)據(jù)方面的優(yōu)勢,通過尖端的算法充分分析復雜無序數(shù)據(jù)背后潛在的信息。本論文研究的意義在于,通過對臨床醫(yī)學數(shù)據(jù)的分析,以期得到影響乳腺癌不同分期階段與各項中醫(yī)癥素的交互關(guān)系,并且依據(jù)規(guī)則分析病因、預測病情的發(fā)展以及為未來臨床提供有效借鑒。同時,針對其他類型的實際問題,可以利用類似的研究思想進行分析[4]。

      2 研究方法

      本實驗的主要目的是利用數(shù)據(jù)挖掘的算法對數(shù)據(jù)進行處理,得到六項中醫(yī)癥素(肝氣郁結(jié)、熱毒蘊含、沖任失調(diào)、氣血兩虛、脾胃虛弱、肝腎陰虛)得分與乳腺癌TNM(H1、H2、H3、H4)分期之間的關(guān)系。這是一個典型的分類問題,可以見四個乳腺癌TNM分期看作要劃分的類別,六項中醫(yī)癥素當作屬性特折,因此可以簡化為利用特征進行分類的問題。在各種分類算法中,我們采取基于樹的分類器方法。具體地,我們擬采用三種最常見的分類方法,分別是決策樹,分類與回歸樹(CART),隨機森林(randomforest)[5]。

      ■2.1 決策樹

      決策樹,其核心是ID3算法,它是最簡單與基礎(chǔ)的分類器。它將一個樣本的屬性特征進行層層分裂,最后得出其分類類別,因其上小下大的形狀酷似一顆倒懸的樹而得名。ID3算法就是在每次需要分裂時計算出每個屬性的信息增益,然后選擇信息增益率最大的屬性進行分裂[6]。

      所謂信息增益是針對一個一個特征而言的,系統(tǒng)有它和沒有它時的信息量各是多少,兩者的差值就是這個特征給系統(tǒng)帶來的信息量,即信息增益。計算信息增益首先要計算信息熵,信息上就是一個離散隨機事件出現(xiàn)的概率,一個系統(tǒng)越有序。

      假如有變量X其可能的取值有n種,每一種取到的概率為Pi,那么X的熵就定義為:

      如果系統(tǒng)中存在m個變量X,那么總的信息熵為:

      分裂X所帶來的信息增益為:

      通過選取信息增益最大的屬性結(jié)點,就可以完成決策樹的構(gòu)建。

      ■2.2 分類與回歸樹

      分類與回歸樹的英文是Classi fi cation and regression tree,縮寫是CART。分類與回歸樹與簡單的決策樹算法最大的不同在于,CART本質(zhì)是對特征空間進行二元劃分(即CART生成的決策樹是一棵二叉樹),內(nèi)部結(jié)點特征的取值為“是”和“否”,左分支是取值為“是”的分支,右分支是取值為“否”的分支。對于目標類別大于兩個的實際問題而言,CART算法在進行樹的構(gòu)建的過程中通過考慮將目標類別合并成兩個超類別,來進行二元劃分。

      具體地,CART是通過一種叫做Gini指數(shù)的指標進行最優(yōu)特征的選取。

      GINI指數(shù)是一種用來度量樣本內(nèi)分布差異大小的一項指標,最開始來源于經(jīng)濟學家對某地區(qū)的收入分配差異。Gini指數(shù)是介于0~1之間的數(shù),0-完全相等,1-完全不相等;總體內(nèi)包含的類別越雜亂,GINI指數(shù)就越大?;嶂笖?shù)關(guān)注目標變量里最大的類,它試圖找到一個劃分把它和其他的類區(qū)分開來。

      ■2.3 隨機森林

      隨機森林英文Random Forest顧名思義,Random就是隨機抽取,F(xiàn)orest就是說這里不止一棵樹,而由一群決策樹組成的一片森林,連起來就是用隨機抽取的方法訓練出一群決策樹來完成分類任務(wù)。

      隨機森林用了兩次隨機抽取,一次是對訓練樣本的隨機抽??;另一次是對變量(特征)的隨機抽取。對樣本的隨機抽取是指在對每一棵樹的模型構(gòu)建中,通過有放回的抽取與原始樣本大小相等的樣本來作為訓練數(shù)據(jù)集[7]。一方面解決樣本數(shù)量有限的問題,另一方面由于每次抽取的樣本都是隨機的,可以保證構(gòu)建的樹之間存在差異。而對樣本的隨機抽取,是指每次構(gòu)建分類樹的時候都從所有特征里抽取相同數(shù)量的部分特征,從而使得每棵樹實際用到的特征都不是完全一樣的。RF的核心是由弱變強思想的運用。每棵決策樹由于只用了部分變量、部分樣本訓練而成,可能單個的分類準確率并不是很高。但是當一群這樣的決策樹組合起來分別對輸入數(shù)據(jù)作出判斷時,可以帶來較高的準確率。有點類似于俗語“三個臭皮匠頂個諸葛亮”。由于構(gòu)建了多顆決策樹,每棵樹都可以做出分類決策結(jié)果,根據(jù)少數(shù)服從多數(shù)的原則,最后的類別由所有樹中票數(shù)較高的那個類別所決定。隨機森林有兩個重要的參數(shù)一是樹節(jié)點預選的變量個數(shù),二是隨機森林中樹的個數(shù)。隨機森林相較于前兩種分類器最大的特點是,隨機建立了多棵分類樹,通過投票決定最有優(yōu)分類,這樣做大大提高了分類的準確性但增大了運算量。

      3 實驗分析

      圖1所示為四種乳腺癌TNM分期所包含的樣本數(shù)量,圖2表示的是六項中醫(yī)癥素中存在缺失值的情況。在實際應用中,由于各種不確定因素,數(shù)據(jù)極易受噪聲、缺失值等因素的影響,導致數(shù)據(jù)的質(zhì)量變低。對于樣本量有限的數(shù)據(jù)而言,基于低質(zhì)量的噪聲數(shù)據(jù)構(gòu)建的模型常常會偏離實際的情況,從而使得模型的通用性變低,不能很好的應用在其他場景之中。運用數(shù)據(jù)預處理技術(shù),可以顯著的提高挖掘模型的總體質(zhì)量[8]。

      圖1 TNM分期的樣本分布情況

      在本試驗中,分別采用了三種不同的分類器算法來對乳腺癌TNM分期階段進行分類研究,并比價了三種算法的分類性能。在這里,分類性能好壞主要是通過分類準確率來進行衡量的。分類準確性即為所有通過算法正確分類的樣本數(shù)占總樣本量的比例即:

      分類準確率=準確分類數(shù)÷參與分類樣本總數(shù)×100%

      圖2 屬性缺失值的分布情況

      為了對缺失值進行數(shù)據(jù)預處理操作,比較了兩種不同的缺失值替換策略,分別是直接去掉含缺失值的樣本以及利用對應屬性特征的均值替換缺失值。表1所示即為實驗結(jié)果,由表可知,三種分類算法中,隨機森林取得了最高的分了性能,說明隨機森林方法在該問題的研究中具有較大的優(yōu)勢;對于兩種確實只替換策略,取得的結(jié)果比較接近,其中去掉缺失值策略稍微高于利用均值替換缺失值,這可能是由于本實驗中包含的樣本相對較多,去掉其中較少的包含缺失值的樣本沒有對構(gòu)建的模型造成影響。

      表1 基于三種分類器算法在不同缺失值替換策略下的分類性能比較

      表2 隨機森林中不同數(shù)量樹對分類結(jié)果的影響

      此外,由于隨機森林是一種受包含樹的個數(shù)影響較大的算法,因此在此基礎(chǔ)之上,為了研究樹的數(shù)量對其分類性能的影響,我們將樹的個數(shù)分別設(shè)置為10,30,50,100,200,300,500,1000。由表2結(jié)果可知,隨著森林所包含的樹越來越多,分類性能由92.01%到96.12%逐漸升高。由此可見構(gòu)建決策樹的個數(shù)越多,分類的準確率也就越高。但是因此所帶的是計算速度的降低。

      4 總結(jié)

      數(shù)據(jù)挖掘是一種針對海量數(shù)據(jù)進行處理分析的技術(shù),能夠發(fā)現(xiàn)隱藏在數(shù)據(jù)之中的潛在有價值信息,將數(shù)據(jù)挖掘的知識應用到臨床實踐當中是一次有意義的嘗試過程。本論文主要利用數(shù)據(jù)挖掘中的分類算法對乳腺癌不同分期階段進行分類研究,通過對決策樹,分類與回歸樹以及隨機森林三種方法的分析,我們發(fā)現(xiàn)隨機森林的分類性能要明顯的高于其他兩種。此外,隨機森林算法的性能受其所包含的樹的個數(shù)影響較大,一般情況下樹越多,分類結(jié)果越高。這可能是因為隨著樹的增多,隨機采樣的樣本越均勻,最后構(gòu)建的模型就越穩(wěn)定,更具有代表性。

      在現(xiàn)實生活中,數(shù)據(jù)挖掘技術(shù)處理可用于多種實際問題的分析處理之中,尤其是在醫(yī)療領(lǐng)域中的應用可以大大促進理論知識到臨床實踐的轉(zhuǎn)化。

      * [1]趙倩倩, 程國建, 冀乾宇. 大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J]. 電腦知識與技術(shù), 2014, 33): 7831—7833

      * [2] 朱建平, 張潤楚. 數(shù)據(jù)挖掘的發(fā)展及其特點[J]. 統(tǒng)計與決策,2002,( 07): 71—72.

      * [3] 李寶東, 宋瀚濤. 數(shù)據(jù)挖掘在客戶關(guān)系管理(CRM)中的應用[J]. 計算機應用研究, 2002, 19(10): 71—74.

      * [4]彭丹, 謝鵬.大腦認知功能的神經(jīng)影像學研究現(xiàn)狀[J]. 中國臨床康復 , 2006,38): 133—135.

      * [5]趙紫奉,李韶斌,孔抗美.基于決策樹算法的疾病診斷分析[J].中國衛(wèi)生信息管理雜志,2011,8(05):67—69.

      * [6]趙微,蘇健民.基于ID3算法決策樹的研究與改進[J].科技信息(科學教研),2008,(23):383+392.

      * [7]方匡南,吳見彬,朱建平,謝邦昌. 隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(03):32—38.

      * [8]李曉菲. 數(shù)據(jù)預處理算法的研究與應用[D].西南交通大學,2006.

      猜你喜歡
      決策樹數(shù)據(jù)挖掘乳腺癌
      絕經(jīng)了,是否就離乳腺癌越來越遠呢?
      中老年保健(2022年6期)2022-08-19 01:41:48
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      乳腺癌是吃出來的嗎
      胸大更容易得乳腺癌嗎
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      別逗了,乳腺癌可不分男女老少!
      祝您健康(2018年5期)2018-05-16 17:10:16
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于決策樹的出租車乘客出行目的識別
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應用
      棋牌| 军事| 邵武市| 双鸭山市| 襄樊市| 高州市| 遵义市| 新兴县| 卢龙县| 乳源| 蓬溪县| 洱源县| 手机| 上蔡县| 兴山县| 新平| 昌吉市| 镇巴县| 合江县| 光山县| 山东省| 建瓯市| 拉萨市| 永福县| 沭阳县| 元氏县| 石棉县| 南平市| 香格里拉县| 海安县| 达孜县| 台东县| 叙永县| 渭源县| 安庆市| 陇南市| 北川| 正阳县| 潼关县| 马鞍山市| 天柱县|