• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    醫(yī)療大數(shù)據(jù)的疾病關(guān)聯(lián)分析

    2018-01-28 10:15:08周洪
    電子技術(shù)與軟件工程 2017年18期
    關(guān)鍵詞:關(guān)聯(lián)分析疾病診斷置信度

    周洪

    摘要

    隨著醫(yī)療衛(wèi)生信息化的推進(jìn)和發(fā)展,醫(yī)療信息系統(tǒng)已經(jīng)從基礎(chǔ)的財(cái)務(wù)收費(fèi),全面覆蓋到藥品、臨床、電子病歷各個(gè)業(yè)務(wù)領(lǐng)域,同時(shí)也積累了海量的醫(yī)療業(yè)務(wù)數(shù)據(jù),如何對(duì)這些數(shù)據(jù)進(jìn)行深層次的挖掘,找到其中的規(guī)律具有重要意義。近年來大數(shù)據(jù)技術(shù)取得了突飛猛進(jìn)的發(fā)展,本文討論應(yīng)用大數(shù)據(jù)中的關(guān)聯(lián)分析算法,研究醫(yī)療臨床數(shù)據(jù)中疾病診斷之間的關(guān)聯(lián)關(guān)系,為形成診斷知識(shí)庫提供解決思路。

    【關(guān)鍵詞】數(shù)據(jù)挖掘 關(guān)聯(lián)分析 疾病診斷 支持度 置信度

    醫(yī)療衛(wèi)生關(guān)系國計(jì)民生,是人民生活幸福水平的重要體現(xiàn),在中國這樣一個(gè)人口大國,看病難一直是困擾普通民眾。醫(yī)療信息化系統(tǒng)運(yùn)行積累了海量的數(shù)據(jù)信息,這些數(shù)據(jù)隱藏了很多有價(jià)值的信息,如何使這些數(shù)據(jù)輔助醫(yī)療機(jī)構(gòu)做出科學(xué)決策、讓它們發(fā)揮更大價(jià)值,成為當(dāng)前的熱點(diǎn)話題之一。對(duì)于醫(yī)生這個(gè)職業(yè),經(jīng)驗(yàn)和知識(shí)的積累是非常重要的,我們是否可以利用大數(shù)據(jù)技術(shù)手段,挖掘出醫(yī)療行為的一些內(nèi)在關(guān)系,然后轉(zhuǎn)化為知識(shí)成為醫(yī)生技能提升和知識(shí)傳播的手段,加快醫(yī)生的成長進(jìn)程。關(guān)聯(lián)分析通過表征事物特征的兩個(gè)或多個(gè)變量的取值之間存在的某種規(guī)律性,找出數(shù)據(jù)之間隱藏的關(guān)聯(lián)關(guān)系。臨床上的某些疾病會(huì)同時(shí)呈現(xiàn)幾種不同的病癥,這些病癥之間就表現(xiàn)為一定程度的關(guān)聯(lián)性,而醫(yī)生診斷病癥的過程常常以觀察癥狀為基礎(chǔ)。因此本次研究就是利用居民就醫(yī)相關(guān)的數(shù)據(jù)(重點(diǎn)是疾病診斷類信息),進(jìn)行“居民所患疾病之間的關(guān)聯(lián)分析”,形成初步的知識(shí)庫,為后續(xù)醫(yī)生在治療過程提供診斷相關(guān)性的支撐。

    1數(shù)據(jù)采集及預(yù)處理

    本次采集的原始數(shù)據(jù)為診療標(biāo)準(zhǔn)數(shù)據(jù),數(shù)據(jù)量為1392185條。結(jié)合任務(wù)需求,僅提取病人的id以及疾病的名稱這兩列有意義的屬性列。另外在該階段,我們還清洗無意義的行記錄,例如同一病人重復(fù)的疾病記錄,以及僅得一種疾病的記錄等。第一步預(yù)處理后,數(shù)據(jù)量縮減到683703條。該診療數(shù)據(jù)以縱向格式存儲(chǔ),一個(gè)患者的不同時(shí)點(diǎn)資料以多條記錄的形式保存,而進(jìn)行關(guān)聯(lián)關(guān)系分析時(shí),需要以一個(gè)患者一條記錄的形式形成數(shù)據(jù)集,所以在被分析利用前,必須對(duì)該數(shù)據(jù)格式以病人ID為條件進(jìn)行縱橫轉(zhuǎn)置。轉(zhuǎn)置后,數(shù)據(jù)量縮減到181983條。

    2算法模型選擇

    在設(shè)計(jì)算法模型時(shí),初始時(shí)計(jì)劃選擇Apriori算法,但在后期編碼時(shí)發(fā)現(xiàn)該算法在構(gòu)造候選集、篩選候選集挖掘出頻繁項(xiàng)集,需要多次掃描原始數(shù)據(jù),當(dāng)原始數(shù)據(jù)較大時(shí),磁盤I/O次數(shù)太多,效率比較低下。后通過搜索相關(guān)資料,發(fā)現(xiàn)FP-growth算法。該算法基于Apriori構(gòu)建,但采用了高級(jí)的數(shù)據(jù)結(jié)構(gòu)減少掃描次數(shù),只需要對(duì)原始數(shù)據(jù)進(jìn)行兩次掃描,大大加快了算法速度。

    其算法思想以及實(shí)現(xiàn)步驟如下:

    (1)對(duì)于每個(gè)頻繁項(xiàng),構(gòu)造它的條件投影數(shù)據(jù)庫和投影FP-tree。

    (2)對(duì)每個(gè)新構(gòu)建的FP-tree重復(fù)這個(gè)過程,直到構(gòu)造的新FP-tree為空,或者只包含一條路徑。

    (3)當(dāng)構(gòu)造的FP-tree為空時(shí),其前綴即為頻繁模式;當(dāng)只包含一條路徑時(shí),通過枚舉所有可能組合并與此樹的前綴連接即可得到頻繁模式。

    最終,決定選擇FP-growth算法作為此次數(shù)據(jù)分析的算法模型。

    在算法實(shí)現(xiàn)工具方面,出于掌握難易度、可分布式進(jìn)行計(jì)算等方面考慮,本小組選擇Mahout這一輕量級(jí)數(shù)據(jù)挖掘軟件。它的關(guān)聯(lián)規(guī)則挖掘中就包括了FP Growth算法。

    3數(shù)據(jù)分析實(shí)現(xiàn)

    我們先將數(shù)據(jù)庫中的疾病數(shù)據(jù)導(dǎo)出,利用Mahout內(nèi)置的FP-growth模塊,對(duì)原始數(shù)據(jù)進(jìn)行關(guān)聯(lián)頻繁項(xiàng)分析,由于原始數(shù)據(jù)的量不大,我們沒有擴(kuò)展使用Mahout集成的Mapreduce模式進(jìn)行并行計(jì)算,通過對(duì)輸出的hdfs序列文件進(jìn)行反序列化后我們就能正常查看結(jié)果數(shù)據(jù)。

    上述步驟最后得出的文件為關(guān)聯(lián)關(guān)系分析后的各頻繁項(xiàng)以及相應(yīng)支持度統(tǒng)計(jì)數(shù),為方便后續(xù)關(guān)聯(lián)關(guān)系分析,我們基于原始result文件開發(fā)了輔助分析程序,可根據(jù)需求設(shè)定相應(yīng)的最小支持度和最小置信度閾值,最終輸出符合閾值設(shè)置的關(guān)聯(lián)關(guān)系。如圖1所示。

    4疾病關(guān)聯(lián)分析

    通過基于大數(shù)據(jù)的挖掘分析技術(shù),我們希望通過存數(shù)據(jù)分析的手段找出疾病診斷之間關(guān)聯(lián)規(guī)則,并于現(xiàn)有醫(yī)學(xué)知識(shí)進(jìn)行驗(yàn)證,以期發(fā)現(xiàn)其中的規(guī)律。這些規(guī)則可能會(huì)揭示數(shù)據(jù)庫中所含信息和一般規(guī)律,可以作為對(duì)新的病例診斷的參考依據(jù)。

    通常我們?cè)谧鲫P(guān)聯(lián)規(guī)則發(fā)現(xiàn)的時(shí)候都會(huì)設(shè)定支持度和置信度閾值最小支持度和最小置信度,而關(guān)聯(lián)規(guī)則發(fā)現(xiàn)則是發(fā)現(xiàn)那些支持度大于等于最小支持度并且置信度大于最小置信度的所有規(guī)則。支持度和置信度的意義在于,支持度是一個(gè)重要的度量,如果支持度很低,代表這個(gè)規(guī)則其實(shí)只是偶然出現(xiàn),基本沒有意義。因此,支持度通常用來刪除那些無意義的規(guī)則。而置信度則是通過規(guī)則進(jìn)行推理具有可靠性。用c(X->Y)來說,只有置信度越高,Y出現(xiàn)在包含X的事務(wù)中的概率才越大,否則這個(gè)規(guī)則也沒有意義。根據(jù)“指定最小支持度為0.001,最小置信度為0.8”的輸出結(jié)果,我們可以很快的發(fā)現(xiàn)其中有11條結(jié)果明確的疾病并發(fā)癥關(guān)系或病種的包含關(guān)系。如圖2。

    剩余4條記錄中,有三條是和胃炎相關(guān)的,見圖3。

    那我們可以就胃炎與十二指腸球部潰瘍、胃息肉、食管炎基于醫(yī)學(xué)上的知識(shí),進(jìn)行進(jìn)一步的分析。

    胃炎:是多種不同病因引起的胃黏膜急性和慢性炎癥,常伴有上皮損傷、黏膜炎癥反應(yīng)和上皮再生。胃炎是最常見的消化系統(tǒng)疾病之一[5]。

    4.1十二指腸球部潰瘍與胃炎關(guān)系

    十二指腸球部潰瘍:是指胃酸和胃蛋白酶接觸的十二指腸粘膜,發(fā)生局限性的超過粘膜肌層的潰破。疾病病因主要是胃炎和其它刺激因素。長期的影響于胃粘膜,使胃黏膜、十二指腸黏膜產(chǎn)生潰瘍性損壞。因此十二指腸球部潰瘍=>[胃炎]之間存在一定的關(guān)聯(lián)關(guān)系。

    4.2胃息肉與胃炎關(guān)系endprint

    胃息肉:是指胃黏膜表面長出的突起狀乳頭狀組織,較小時(shí)常無明顯癥狀,一般都是在胃腸鋇餐造影、胃鏡檢查或其他原因手術(shù)時(shí)偶然發(fā)現(xiàn)。胃息肉最常采用Mings分類法分為再生性胃息肉及腫瘤性胃息肉兩大類。第一類為再生性胃息肉一即為增生息性肉,發(fā)病較常見,其比例約76%?90%。分布于胃內(nèi)的部位不定,多數(shù)傾向于發(fā)生在胃炎的部位。這也就證明了胃息肉=>[胃炎]之間存在關(guān)聯(lián)關(guān)系。

    4.3食管炎與胃炎關(guān)系

    食管炎:即食道炎,泛指食管黏膜淺層或深層組織由于受到刺激或損傷,食管黏膜發(fā)生水腫和充血而引發(fā)的炎癥。胃炎是可以引起食道炎的。由于化學(xué)治療、放射治療導(dǎo)致食管局部受損,或患者本身抵抗力下降導(dǎo)致結(jié)核桿菌、真菌或病毒感染也可引發(fā)食管炎,臨床最常見的是胃酸反流引起反流性食管炎。所以說胃炎是會(huì)引起食道炎的。這也就證明了食管炎=>[胃炎]之間的關(guān)系。

    通過胃炎與十二指腸球部潰瘍、胃息肉、食管炎的醫(yī)學(xué)知識(shí)分析,驗(yàn)證了我們基于MahoutFP-growth進(jìn)行關(guān)聯(lián)性分析一定的科學(xué)性。

    還有我們還以對(duì)“指定最小支持度為0.001,最小置信度為0.7”的輸出結(jié)果進(jìn)行“高脂血癥”相關(guān)的分析。其中我們可以找到4條與“高脂血癥”相關(guān)的記錄。如圖4。

    高血脂癥,血脂是人體血漿內(nèi)所含脂質(zhì)的總稱,其中包括膽固醇、甘油三脂、膽固醇脂、β-脂蛋白、磷脂、未脂化的脂酸等。當(dāng)血清膽固醇超過正常值230毫克/100毫升,甘油三脂超過140毫克/100毫升,P-脂蛋白超過390毫克/100毫升以上時(shí),即可稱之為高血脂癥。高脂血癥是動(dòng)脈粥樣硬化的主要發(fā)病因素,它的直接損害是加速全身動(dòng)脈粥樣硬化,因?yàn)槿淼闹匾鞴俣家揽縿?dòng)脈供血、供氧,一旦動(dòng)脈被粥樣斑塊堵塞,就會(huì)導(dǎo)致嚴(yán)重后果。常因侵犯重要器官而引起嚴(yán)重的后果,如冠心病、糖尿病、腦血管意外、頑固性高血壓及腎病綜合癥、胰腺炎、結(jié)石癥、脂肪肝等。動(dòng)脈硬化的發(fā)生和發(fā)展,與血脂過高有著密切的關(guān)系。

    “高脂血癥”的分析,也同樣驗(yàn)證了我們基于MahoutFP-growth進(jìn)行關(guān)聯(lián)性分析一定的科學(xué)性。目前我們的課題作業(yè)是在百萬級(jí)數(shù)據(jù)的基礎(chǔ)上分析的結(jié)果,由于數(shù)量不足,分析結(jié)果還存在很多不準(zhǔn)確的地方,只能作為一種探索為后續(xù)更大數(shù)量的分析做些有益的嘗試。

    參考文獻(xiàn)

    [1]蘭小敏.大數(shù)據(jù)時(shí)代醫(yī)療信息系統(tǒng)應(yīng)用與研究[J].數(shù)字通信世界,2016(08).

    [2]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.

    [3]呂雪旗,李龍澍著.FP—Growth算法MapReduce化研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012.

    [4]陳封能,斯坦巴赫,庫瑪爾著,范明,范宏建等譯.數(shù)據(jù)挖掘?qū)д揑ntroduction to Data Mining[M].北京:人民郵電出版社,2011.

    [5]張尤歷編.消化內(nèi)科:疾病診療指南[M]北京:學(xué)苑出版社,2008.endprint

    猜你喜歡
    關(guān)聯(lián)分析疾病診斷置信度
    硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
    超高頻超聲在淺表器官疾病診斷中的應(yīng)用
    《呼吸疾病診斷流程與治療策略》已出版
    正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
    基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動(dòng)力學(xué)關(guān)聯(lián)分析模型
    關(guān)聯(lián)分析技術(shù)在學(xué)生成績分析中的應(yīng)用
    基于Web及知識(shí)推理的寵物狗疾病診斷專家系統(tǒng)
    基于關(guān)聯(lián)分析的學(xué)生活動(dòng)參與度與高校社團(tuán)管理實(shí)證研究
    科技視界(2016年15期)2016-06-30 12:43:00
    不同的數(shù)據(jù)挖掘方法分類對(duì)比研究
    CD10表達(dá)在滋養(yǎng)葉細(xì)胞疾病診斷中的臨床意義
    日土县| 香河县| 井研县| 武定县| 和龙市| 营口市| 宁海县| 临江市| 崇文区| 兴化市| 大英县| 姚安县| 元朗区| 辛集市| 花莲县| 襄汾县| 财经| 金塔县| 张家口市| 淄博市| 雷山县| 四子王旗| 临猗县| 柞水县| 德令哈市| 青冈县| 呼伦贝尔市| 吉安市| 阿巴嘎旗| 文昌市| 仪征市| 博乐市| 海城市| 岐山县| 屏边| 济南市| 固始县| 泽普县| 吴江市| 靖安县| 疏附县|