• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于決策樹的醫(yī)療數(shù)據(jù)分析

    2014-04-29 00:00:00伍強(qiáng)伍鼎韡符錫成黃蘭葉志忠林加論

    摘 要:決策樹算法從一組無規(guī)則、無次序的事例中推理出分類規(guī)則,同樣適用于醫(yī)療數(shù)據(jù)的挖掘。本文研究基于決策樹的乳腺腫瘤醫(yī)療數(shù)據(jù)的分析和挖掘,提高癌癥診斷的準(zhǔn)確率。

    關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;乳腺癌診斷

    中圖分類號(hào):TP399

    隨著醫(yī)療數(shù)字化設(shè)備的快速發(fā)展,醫(yī)療數(shù)據(jù)庫中包括了大量的非結(jié)構(gòu)化的醫(yī)學(xué)圖像信息和病人的結(jié)構(gòu)化信息,這些數(shù)據(jù)為醫(yī)療數(shù)據(jù)的挖掘和分析提供了豐富的信息資源。醫(yī)療數(shù)據(jù)的挖掘旨在從海量的醫(yī)療數(shù)據(jù)中提取出有效的模型、關(guān)聯(lián)、規(guī)則、變化以及普遍的規(guī)律,加速醫(yī)生決策診斷的過程和提高其決策診斷的準(zhǔn)確度。決策樹算法是應(yīng)用最廣的歸納推理算法之一,對(duì)噪聲數(shù)據(jù)有很好的健壯性,能夠從醫(yī)療數(shù)據(jù)庫中發(fā)現(xiàn)有價(jià)值的信息和知識(shí)。

    1 決策樹算法

    1.1 決策樹簡介

    決策樹方法是數(shù)據(jù)挖掘的重要方法之一,它是利用樹形結(jié)構(gòu)的特性來對(duì)數(shù)據(jù)進(jìn)行分類的一種方法。決策樹學(xué)習(xí)從一組無規(guī)則、無次序的事例中推理出有用的分類規(guī)則,是一種實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。決策樹首先利用訓(xùn)練數(shù)據(jù)集合生成一個(gè)測(cè)試函數(shù),根據(jù)不同的權(quán)值建立樹的分支,即葉子結(jié)點(diǎn),在每個(gè)葉子節(jié)點(diǎn)下又建立層次結(jié)點(diǎn)和分支,如此重利生成決策樹,然后對(duì)決策樹進(jìn)行剪樹處理,最后把決策樹轉(zhuǎn)換成規(guī)則。決策樹的最大優(yōu)點(diǎn)是直觀,以樹狀圖的形式表現(xiàn)預(yù)測(cè)結(jié)果,而且這個(gè)結(jié)果可以進(jìn)行解釋。決策樹主要用于聚類和分類方面的應(yīng)用。

    1.2 常用決策樹算法

    決策樹算法的很多種,其中以ID3算法和C4.5算法應(yīng)用最廣泛。ID3算法根據(jù)信息理論,采用劃分后樣本集的不確定性作為衡量劃分好壞的標(biāo)準(zhǔn),在每個(gè)非葉節(jié)點(diǎn)選取時(shí),選擇信息增益最大的屬性作為測(cè)試屬性。C4.5算法是對(duì)ID3算法的改進(jìn)和擴(kuò)展。C4.5算法用信息增益率來選擇屬性,克服了ID3算法在選擇屬性時(shí)偏向于選擇取值多的屬性的不足;當(dāng)屬性值空缺時(shí),通過使用不同的修剪技術(shù)以避免樹的過度擬合。

    2 乳腺癌醫(yī)療數(shù)據(jù)決策分析

    2.1 醫(yī)療數(shù)據(jù)選擇

    乳腺癌是發(fā)病率較高一種惡性腫瘤。乳腺癌致死的主要原因在于惡性腫瘤細(xì)胞的轉(zhuǎn)移,淋巴結(jié)轉(zhuǎn)移是主要的途徑之一,腋窩淋巴是乳腺癌發(fā)生轉(zhuǎn)移的最早受累部位,轉(zhuǎn)移的程度是乳腺癌診斷、治療、放療和化療的主要參考依據(jù),也是判斷病情是否復(fù)發(fā)的因素。乳腺B超是乳腺癌早期檢測(cè)的最可靠的方法。本文選擇醫(yī)院200名乳腺癌病人的在術(shù)前、術(shù)后、化療前、化療后、放療前和放療后的B超圖像數(shù)據(jù)作為樣本,對(duì)圖像預(yù)處理及特征提取后,作為分類系統(tǒng)挖掘的輸入。

    2.2 模型評(píng)估變量

    決策樹建模時(shí),最重要的是選擇評(píng)估變量。根據(jù)淋巴結(jié)與乳腺癌的關(guān)系,評(píng)估變量包括病人的基本特征信息(年齡和月經(jīng)狀況)、病情信息(腫瘤部位、病理類型等)、淋巴結(jié)信息(B超檢查淋巴結(jié)狀況、淋巴結(jié)轉(zhuǎn)移狀況和術(shù)中發(fā)現(xiàn)的淋巴結(jié)狀況)。各評(píng)估變量的定義如表1所示。

    表1 模型評(píng)估變量定義表

    變量名含義值標(biāo)識(shí)變量值

    AGE年齡≤300

    30

    AGE>452

    YUEJING月經(jīng)狀況有0

    無1

    BUWEI

    腫瘤部位整個(gè)1

    乳暈區(qū)2

    內(nèi)上3

    內(nèi)下4

    外上5

    外下6

    BLSORT

    病理類型粘液癌1

    小葉癌2

    管內(nèi)癌早侵3

    LBJSTATUSB超檢查淋巴結(jié)狀況腫大0

    不腫大1

    LBTRANS淋巴結(jié)轉(zhuǎn)移狀況轉(zhuǎn)移0

    不轉(zhuǎn)移1

    SZSTATUS術(shù)中發(fā)現(xiàn)的淋巴結(jié)狀況腫大0

    不腫大1

    2.3 決策樹建模

    本文利用SAS軟件的Enterprise Miner模塊提進(jìn)行決策樹建模,步驟如下:(1)數(shù)據(jù)輸入和抽樣。將200名病人的數(shù)據(jù)輸入SAS軟件,數(shù)據(jù)盡量完整。(2)數(shù)據(jù)特征探索。在進(jìn)行模型建立時(shí),主要是分析病人的醫(yī)療的數(shù)據(jù)特征,探索出樣本數(shù)據(jù)中各屬性變量的分布情況,在不同情況下的分布概率進(jìn)行統(tǒng)計(jì)和分析。(3)數(shù)據(jù)集劃分。由于在進(jìn)行數(shù)據(jù)挖掘時(shí),樣本數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測(cè)試數(shù)據(jù)。本文將將樣本數(shù)據(jù)分別分成訓(xùn)練集、測(cè)試集和驗(yàn)證集,它們?cè)跀?shù)量上所占的比例4:3:3。(4)數(shù)據(jù)變量轉(zhuǎn)換。根據(jù)表1將數(shù)據(jù)中的連續(xù)變量,轉(zhuǎn)換成分散的變量。比如病人年齡是34歲,腫瘤部位在乳暈區(qū),則它的AGE=1,BUWEI=2。(5)數(shù)據(jù)替換。雖然缺失值對(duì)決策樹沒有影響,但是為了提高分類結(jié)果的正確性,還是借助數(shù)據(jù)替換模塊,以均值代替間隔尺度變量的缺失值,以眾數(shù)代替分類變量的缺失值。(6)決策樹建模。SAS提供了決策樹建模的方法,它根據(jù)判定標(biāo)準(zhǔn)將評(píng)估變量變成不同層次有節(jié)點(diǎn)結(jié)構(gòu),以二叉樹的形式顯示出來。本文在進(jìn)行挖掘分析時(shí),分別設(shè)置樹的最大深度為7,最小葉子觀測(cè)數(shù)為6。

    2.4 挖掘結(jié)果分析

    在分析的200名乳腺癌患者中,有76位確診為腋窩淋巴結(jié)轉(zhuǎn)移,124位沒有發(fā)生腋窩淋巴結(jié)轉(zhuǎn)移,轉(zhuǎn)移的患者平均年齡在45歲。通過對(duì)結(jié)果的回歸分析發(fā)現(xiàn),乳腺癌淋巴結(jié)轉(zhuǎn)移與腫瘤的部位和腋窩淋巴結(jié)狀況有明顯的關(guān)系,B超檢查腋窩淋巴結(jié)腫大者,容易發(fā)生乳腺癌的轉(zhuǎn)移;腫瘤部位在外上或外下的患者發(fā)生癌癥轉(zhuǎn)移的機(jī)率較高。

    3 結(jié)束語

    利用決策樹算法對(duì)乳腺癌淋巴結(jié)轉(zhuǎn)移判別分類研究,能夠?yàn)槿橄侔┗颊叩牟∏榭刂撇呗蕴峁┯袃r(jià)值的參考數(shù)據(jù),幫助醫(yī)生提高乳腺腫瘤是否轉(zhuǎn)移的診斷水平,減少誤診率。

    參考文獻(xiàn):

    [1]李如平.數(shù)據(jù)挖掘中決策樹分類算法和研究[J].東華理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(33):192-194.

    [2]孔抗美,張瑩,李邵斌.醫(yī)院醫(yī)療數(shù)據(jù)挖掘與分析[J].中國衛(wèi)生信息管理,2011(06):23-24.

    作者簡介:伍強(qiáng)(1969.04-),男,??谌耍T士,副教授,高級(jí)工程師,研究方向:數(shù)據(jù)挖掘、口腔設(shè)備學(xué)教學(xué)與研究。

    作者單位:海南醫(yī)學(xué)院附屬醫(yī)院設(shè)備科,???570102;華中科技大學(xué)機(jī)械學(xué)院11級(jí)機(jī)械2班,武漢 430074;海南科技職業(yè)學(xué)院,???570216;海南醫(yī)學(xué)院,???571199

    基金項(xiàng)目:海南省自然科學(xué)基金資助項(xiàng)目(NO:310154)。

    大竹县| 甘肃省| 台中市| 长泰县| 天门市| 广宗县| 浦东新区| 江孜县| 墨竹工卡县| 桦甸市| 古田县| 兴山县| 亚东县| 叶城县| 关岭| 长白| 囊谦县| 饶阳县| 乌海市| 沧源| 榆中县| 崇阳县| 涞源县| 华池县| 叙永县| 邹城市| 南乐县| 江北区| 张家川| 柳江县| 宕昌县| 南漳县| 仙桃市| 鲁甸县| 台州市| 南陵县| 玉田县| 象州县| 浠水县| 临沭县| 兖州市|