• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種應(yīng)用于醫(yī)療診斷推理機(jī)的改進(jìn)分類算法

    2018-05-28 11:10:10于霄陳偉建李嶄方然
    電腦知識(shí)與技術(shù) 2018年9期
    關(guān)鍵詞:專家系統(tǒng)數(shù)據(jù)挖掘

    于霄 陳偉建 李嶄 方然

    摘要 基于數(shù)據(jù)挖掘領(lǐng)域的分類算法成功設(shè)計(jì)并實(shí)現(xiàn)了醫(yī)療診斷專家系統(tǒng)的推理機(jī),并將應(yīng)用于推薦系統(tǒng)中的潛在因子算法的思想用于改進(jìn)分類算法。對(duì)幾種經(jīng)典分類算法在醫(yī)療診斷專家系統(tǒng)推理機(jī)中的應(yīng)用進(jìn)行了研究;結(jié)合醫(yī)療診斷中用戶個(gè)體差異對(duì)分類準(zhǔn)確度影響極大的實(shí)際情況,使用影響因子改進(jìn)了組合分類算法。實(shí)驗(yàn)結(jié)果表明基于改進(jìn)的組合分類算法的醫(yī)療診斷專家系統(tǒng)推理機(jī),實(shí)現(xiàn)了對(duì)疾病的診斷,對(duì)于現(xiàn)實(shí)醫(yī)療初診具有很大意義。

    關(guān)鍵詞 分類算法; 數(shù)據(jù)挖掘; 專家系統(tǒng); 潛在因子; 醫(yī)療診斷

    中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)09-0024-03

    Abstract: Based on the classification algorithm in the field of data mining, a reasoning machine of intelligent medical diagnosis expert system was designed and realized successfully. And the idea of the potential factor algorithm in the recommendation system is used for improvement. The application of several classical classification algorithms in reasoning machine of medical diagnosis expert system is studied. Combined with the actual situation in which the individual differences in the medical diagnosis affect the accuracy of the classification significantly, the combined algorithm is improved by using the latent factor. The experimental results show that the reasoning machine of medical diagnosis expert system based on improved combined classification algorithm has realized the diagnosis of diseases, which is of great significance to the reality medical diagnosis.

    Key words: classification algorithm; data mining; expert system; latent factor; medical diagnosis;

    1 引言

    分類是一種重要的數(shù)據(jù)分析方法,分類算法是解決分類問題的方法,是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別中一個(gè)重要的研究領(lǐng)域。分類算法通過對(duì)已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類別,在診斷預(yù)測(cè)系統(tǒng)的開發(fā)中應(yīng)用廣泛。

    專家系統(tǒng)是一個(gè)具有專業(yè)知識(shí)與經(jīng)驗(yàn)的計(jì)算機(jī)程序系統(tǒng),應(yīng)用人工智能技術(shù)和計(jì)算機(jī)技術(shù),根據(jù)某特定領(lǐng)域?qū)<姨峁┑闹R(shí)和經(jīng)驗(yàn),進(jìn)行推理和判斷,模擬人類專家的決策過程,從而解決需要人類專家親身處理的專業(yè)問題。而專家系統(tǒng)的核心就是推理機(jī)部分。

    對(duì)于目前醫(yī)療診斷領(lǐng)域的專家系統(tǒng)推理機(jī)的研究,國內(nèi)外多以針對(duì)特定疾病進(jìn)行二分類判斷開發(fā),過于狹窄不適應(yīng)當(dāng)前的實(shí)際應(yīng)用需求,存在的實(shí)現(xiàn)的系統(tǒng)多為基于固定的規(guī)則判斷,無法學(xué)習(xí)進(jìn)化,完全靠大量人工專家進(jìn)行維護(hù)改善,最重要的是在醫(yī)療診斷領(lǐng)域忽視了用戶個(gè)體差異帶來的及其重大的影響,其診斷準(zhǔn)確性并不可觀。研究了各種經(jīng)典分類算法在醫(yī)療診斷專家系統(tǒng)中的應(yīng)用,改進(jìn)了分類算法,并基于國內(nèi)外臨床醫(yī)學(xué)經(jīng)典著作,結(jié)合職業(yè)醫(yī)師建議建立了可靠的知識(shí)庫,實(shí)現(xiàn)了準(zhǔn)確可靠魯棒的醫(yī)療診斷專家系統(tǒng)推理機(jī)。

    2 醫(yī)療診斷專家系統(tǒng)推理機(jī)

    專家系統(tǒng)作為以智能計(jì)算機(jī)程序?yàn)楹诵牡南到y(tǒng),其系統(tǒng)內(nèi)蘊(yùn)含有專業(yè)領(lǐng)域?qū)<业闹R(shí),模擬人類專家的決策過程,解決復(fù)雜問題。專家系統(tǒng)由人機(jī)交互界面、知識(shí)庫、推理機(jī)、解釋器、綜合數(shù)據(jù)庫、知識(shí)獲取構(gòu)成。其核心為知識(shí)庫和推理機(jī)。推理機(jī)針對(duì)當(dāng)前輸入問題匹配知識(shí)庫中的知識(shí),結(jié)合內(nèi)置算法對(duì)問題進(jìn)行求解,過程如同人類專家的解決問題流程一樣。改進(jìn)后的分類算法被應(yīng)用于推理機(jī)模塊。

    3 分類算法在推理機(jī)中的應(yīng)用

    3.1 分類算法的發(fā)展

    分類是數(shù)據(jù)挖掘的一個(gè)重要概念。分類作為一種重要的數(shù)據(jù)分析形式,提取刻畫重要數(shù)據(jù)類的模型。這種模型成為分類器,預(yù)測(cè)分類的類標(biāo)號(hào)[1]。

    從最早的線性判別分析到?jīng)Q策樹分類再到神經(jīng)網(wǎng)絡(luò)。分類的方法數(shù)不勝數(shù),對(duì)于分類器的評(píng)價(jià)指標(biāo)也有很多,在不同的應(yīng)用環(huán)境和不同的數(shù)據(jù)集下應(yīng)當(dāng)將不同的指標(biāo)作為評(píng)價(jià)一個(gè)分類器的依據(jù)。

    3.2 經(jīng)典分類算法的效果對(duì)比與分析

    對(duì)一套皮膚科疾病數(shù)據(jù)集合使用經(jīng)典的分類算法進(jìn)行分類。此數(shù)據(jù)集包含內(nèi)科各種常見疾病,是由專家和研究人員共同從真實(shí)病例中提取得到I-S向量集,測(cè)試用數(shù)據(jù)集共有200條數(shù)據(jù)。對(duì)每種算法均采用10折交叉驗(yàn)證(10-fold Cross-validation)。對(duì)比結(jié)果如圖1所示:

    由于訓(xùn)練所使用的數(shù)據(jù)集皆為人類專家認(rèn)可的正樣本。故正負(fù)樣本分布得極不均勻,存在數(shù)據(jù)標(biāo)簽傾斜,此時(shí)使用F-Measure和Recall來評(píng)判分類器性能比ROC-AUC更有意義:則貝葉斯算法和近鄰算法以及決策樹算法C4.5相比其他分類算法有著明顯的優(yōu)勢(shì)。考慮到實(shí)際應(yīng)用下,近鄰算法的龐大計(jì)算量并不適合本系統(tǒng),而組合分類方法對(duì)分類算法的提升,以及大量理論及實(shí)驗(yàn)表明決策樹的優(yōu)化相比于貝葉斯算法對(duì)于過擬合問題有更方便地改善[3]。故本系統(tǒng)采取決策樹算法作為基礎(chǔ)算法進(jìn)行改進(jìn)。

    4 潛在因子在醫(yī)療診斷中的應(yīng)用

    4.1 潛在因子算法

    潛在因子算法是在NetFlix的推薦算法競(jìng)賽中獲獎(jiǎng)的算法,最早被應(yīng)用于電影推薦中。用戶-潛在因子矩陣Q,表示不同的用戶對(duì)于不用元素的偏好程度。潛在因子-電影矩陣P,表示每種電影含有各種元素的成分。由:

    [R=QPT] (1)

    可得每個(gè)用戶對(duì)每部電影的評(píng)分矩陣[R],從而進(jìn)行推薦。

    4.2 用于醫(yī)療診斷的潛在因子的挖掘

    在醫(yī)療診斷中諸如性別,年齡,地理位置,季節(jié)等因素導(dǎo)致的個(gè)體差異對(duì)于診斷的影響不可忽視,在算法中考慮這些潛在因子的影響就能更好地應(yīng)用在醫(yī)療診斷的場(chǎng)景中。潛在因子主要來源于臨床醫(yī)學(xué)資料以及專家的領(lǐng)域知識(shí)的經(jīng)驗(yàn)總結(jié)。同時(shí)曾勇對(duì)電子病歷的挖掘研究證明對(duì)病例進(jìn)行關(guān)聯(lián)規(guī)則分析是可行的[5]。故通過對(duì)大量病例進(jìn)行關(guān)聯(lián)規(guī)則分析也可以作為各種疾病隱藏的潛在因子的來源。

    本文采用XX市某三甲醫(yī)院皮膚科專家一年的診斷記錄進(jìn)行關(guān)聯(lián)規(guī)則分析,使用Apriori算法進(jìn)行挖掘,例如:

    {丘疹性蕁麻疹} => {兒童,秋季}(支持度=0.04186, 置信度=0.557241)

    從而我們認(rèn)為丘疹性蕁麻疹的潛在因子有秋季和兒童,這些都和專家的知識(shí)以及醫(yī)學(xué)資料的描述不謀而合。挖掘大量數(shù)據(jù)分析得到的關(guān)聯(lián)規(guī)則結(jié)合專家知識(shí)從而可以建立各種疾病的潛在因子的知識(shí)庫用于改進(jìn)算法。

    5 基于潛在因子的組合分類算法

    5.1 數(shù)據(jù)集中的數(shù)據(jù)對(duì)象

    系統(tǒng)中存在數(shù)據(jù)集的模塊包括知識(shí)庫和數(shù)據(jù)庫。知識(shí)庫中的數(shù)據(jù)來源由領(lǐng)域?qū)<彝ㄟ^知識(shí)獲取模塊輸入,如此得到的數(shù)據(jù)可以保證其準(zhǔn)確性、一致性以及可信性。采用數(shù)據(jù)挖掘中最經(jīng)典的屬性向量來存儲(chǔ)數(shù)據(jù)對(duì)象。

    本系統(tǒng)中的屬性向量包含illness-symptom向量以及對(duì)算法優(yōu)化所使用的user-latent factor向量和illness-symptom向量。illness-symptom向量,意為疾病-癥狀屬性向量,以下均簡(jiǎn)稱為I-S向量,由數(shù)值屬性以及標(biāo)稱屬性組成。某疾病的每種癥狀作為數(shù)值屬性,而最后一個(gè)標(biāo)稱屬性為疾病名稱本身:I-S向量的結(jié)構(gòu):(S1,S2,...,Sn,I)。例如,喉炎擁有如下常見的癥狀:聲嘶,中度咳嗽,咽癢,咽痛以及輕度淋巴結(jié)腫大。由專家選擇癥狀描述并根據(jù)輕重程度量化來得到I-S向量的數(shù)值屬性,最后以喉炎作為標(biāo)稱屬性得到I-S向量:{1 100,2 100,3 100,11 100,12 70,15 10,42 "喉炎"}。數(shù)據(jù)集中擁有大量的數(shù)據(jù)對(duì)象,從而保證了訓(xùn)練出的分類器的質(zhì)量。本文使用由大量真實(shí)病例整理,提取I-S向量作為研究所用數(shù)據(jù)集。

    5.2 使用潛在因子優(yōu)化組合分類結(jié)果

    潛在因子對(duì)于提高醫(yī)療診斷系統(tǒng)準(zhǔn)確度的影響是不可忽略的,再結(jié)合4.1小節(jié)中運(yùn)用組合分類思想,從而可以改進(jìn)出一種適用于醫(yī)療診斷專家系統(tǒng)推理機(jī)的組合分類算法。系統(tǒng)維護(hù)用戶-潛在因子矩陣(user-latent factor)陣,記為U陣,如表1所示:

    隨著時(shí)間和用戶的特定行為矩陣會(huì)變化:用戶自身信息的變化,地理遷移,重大疾病,接種疫苗等嚴(yán)重影響診斷的行為都會(huì)使該用戶的潛在因子向量發(fā)生改變。

    如4.2小節(jié)所述,挖掘大量數(shù)據(jù)分析得到的關(guān)聯(lián)規(guī)則結(jié)合專家知識(shí)所建立的知識(shí)庫中維護(hù)著疾病-潛在因子矩陣(illness-latent factor)陣,記為I陣,如表2所示:

    參考4.1小節(jié)則應(yīng)由 [D=UIT]可得診斷結(jié)果陣D,表示用戶對(duì)不同疾病的潛在偏向程度。事實(shí)上因?yàn)橐蜃颖姸?,并且?duì)于單一疾病而言,其與大部分因子并沒有關(guān)聯(lián)性,導(dǎo)致矩陣十分稀疏。為了避免耗時(shí)的分解降維處理,本算法應(yīng)用時(shí)由單用戶查找U陣得到向量R,由組合分類器各個(gè)子分類器的結(jié)果篩選I陣得到一個(gè)規(guī)模很小的I陣的子矩陣P,從而將之前的[D=UIT]運(yùn)算簡(jiǎn)化成了將單一的向量R和矩陣P的運(yùn)算:[D=RPT]。由于矩陣P是之前各個(gè)子分類器結(jié)果的并集,其規(guī)模很小,故不會(huì)得到稀疏矩陣,故不用進(jìn)行分解這一效率低耗時(shí)高的過程。然后得到一個(gè)診斷向量[D],對(duì)各維度的數(shù)值進(jìn)行降序排序,先序的診斷結(jié)果擁有更高的置信度。

    5.3 改進(jìn)后算法流程詳述

    5.3.1 基分類器算法

    設(shè)S是s個(gè)數(shù)據(jù)樣本的集合,m個(gè)不同類C,[si]是[Ci]的樣本數(shù),[pi]是任意樣本屬于[Ci]的概率:設(shè)非類別屬性A的取值集[{a1,a2,...,av}] ,依據(jù)A將S劃分為v個(gè)子集:[Sj]為在A上值為[aj]的樣本。[sij]是[Sj]中[Ci]的樣本數(shù),則A劃分S的熵由式(2)給出[9]:

    信息增益比率定義如式(3)所示:

    基分類器采用決策樹算法,訓(xùn)練流程如下:

    (1)生成結(jié)點(diǎn)node;

    (2)如果D中樣本全屬于同一類別C,則將node標(biāo)記為C類葉結(jié)點(diǎn);

    (3)如果A為空或D中所有樣本在A上均取值相同,則將node標(biāo)記為葉結(jié)點(diǎn),其類別標(biāo)記為D中最頻繁的類;

    (4)從A中選擇最優(yōu)劃分屬性a*:使式(3)取得最大值;

    (5)遍歷a*:對(duì)每一個(gè)a*_v為node生成一個(gè)分支;[Dv]表示D集合中在a*上取值為a*_v的樣本子集;若[Dv]為空則將分支結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn),其類別標(biāo)記為D中最頻繁的類;否則,以treeGenerate([Dv], A\{a*})為分支結(jié)點(diǎn)。

    輸出:?jiǎn)慰脹Q策樹

    5.3.2 改進(jìn)的組合分類器算法

    基于4.3小節(jié)中所述,改進(jìn)組合分類算法流程。其中調(diào)用函數(shù)接口定義如下:

    treeGenerate(D,A):4.4.1中基分類器的決策樹的訓(xùn)練算法;

    baseClassifier(I):使用treeGenerate(D,A)訓(xùn)練的模型對(duì)外供調(diào)用的接口,其輸入為癥狀向量I,返回分類器的分類結(jié)果。

    輸入:疾病大科分類 A 病癥屬性 I 用戶屬性 U

    組合的基分類器數(shù) N

    過程:function improvedClassifier(A, I, U, N)

    (1)如果A||D||U||N為空,判定為非法輸入;

    (2)根據(jù)A調(diào)用相應(yīng)訓(xùn)練好的分類器進(jìn)行分類,調(diào)用N次baseClassifier(I),將N次分類返回的結(jié)果存儲(chǔ)為集C

    (3)遍歷C:以C中每個(gè)c為索引查找illness-latent factor陣,將C的所有查找的結(jié)果即illness-latent factor陣的子矩陣存為P陣;

    (4)以U為索引查找user-latent factor陣結(jié)果存為向量R;

    (5)代入[D=RPT];

    (6)將[D]向量各個(gè)維度的值從大到小降序排序。

    輸出:最大的值對(duì)應(yīng)的疾病為分類結(jié)果

    5.4 改進(jìn)前后的組合分類結(jié)果對(duì)比分析

    下面對(duì)200例皮膚科患者病例分別使用C4.5算法和5.3中所述的改進(jìn)算法進(jìn)行了分類診斷,對(duì)比結(jié)果如圖2所示:

    如3.2小節(jié)中所述在這個(gè)場(chǎng)景中我們更加關(guān)注Recall和F-Measure的指標(biāo)。實(shí)驗(yàn)結(jié)果表明改進(jìn)后的算法比C4.5算法有更優(yōu)秀的表現(xiàn):改進(jìn)后的分類器的召回率Recall達(dá)到0.689相比C4.5的0.578有了極大的提升,F(xiàn)-Measure也由0.540提升到了0.642。運(yùn)行效率上由于I陣的規(guī)模小,且對(duì)于每次診斷是針對(duì)單個(gè)用戶向量R的,則實(shí)際上每次[D=RPT]運(yùn)算在如今計(jì)算機(jī)運(yùn)算能力下都是很輕松的,且各個(gè)基分類器在實(shí)際軟件系統(tǒng)的實(shí)現(xiàn)中可運(yùn)用多線程技術(shù)來并行計(jì)算的得到結(jié)果,故由潛在因子改進(jìn)的組合分類算法的優(yōu)化代價(jià)完全可以接受。

    6 結(jié)束語

    本文所提出的應(yīng)用于醫(yī)療診斷專家系統(tǒng)推理機(jī)的一種由潛在因子改進(jìn)的組合分類算法,解決了單顆決策樹易過擬合,導(dǎo)致泛化能力不強(qiáng)的問題,同時(shí)將個(gè)體差異對(duì)于診斷分類的強(qiáng)烈影響通過潛在因子的方式用于為組合分類器結(jié)果進(jìn)行加權(quán)優(yōu)化,最后排序后得到有最高置信度的分類結(jié)果。由潛在因子改進(jìn)的組合分類算法能更好地應(yīng)用在醫(yī)療診斷場(chǎng)景中,且實(shí)現(xiàn)了對(duì)常見疾病的診斷,對(duì)于現(xiàn)實(shí)醫(yī)療診斷具有極大的參考意義,算法性能穩(wěn)定、魯棒性強(qiáng),較好地滿足了使用要求。

    參考文獻(xiàn):

    [1] Han J, Kamber M, Pei J. Data Mining: Concepts and Techniques: Concepts and Techniques[J]. Data Mining Concepts Models Methods & Algorithms Second Edition, 2011, 5(4):1 - 18.

    [2] Yan R, Ma Z, Zhao Y, et al. A decision tree based data-driven diagnostic strategy for air handling units[J]. Energy & Buildings, 2016, 133:37-45.

    [3] Holzinger A. Data Mining with Decision Trees: Theory and Applications[J]. Online Information Review, 2015(3).

    [4] Gorunescu F. Introduction to Data Mining[J]. Data Analysis in the Cloud, 2016, 22(6):1-25.

    [5] 曾勇. 基于關(guān)聯(lián)規(guī)則的電子病歷挖掘的應(yīng)用研究[D]. 廣州:華南理工大學(xué), 2012.

    [6] Zhao Y, Wen J, Wang S. Diagnostic Bayesian networks for diagnosing air handling units faults – Part II: Faults in coils and sensors[J]. Applied Thermal Engineering, 2015, 90(5):145-157.

    [7] Breiman L I, Friedman J H, Olshen R A, et al. Classification and Regression Trees (CART)[J]. Biometrics, 2015, 40(3):358.

    [8] 孟杰. 隨機(jī)森林模型在財(cái)務(wù)失敗預(yù)警中的應(yīng)用[J]. 統(tǒng)計(jì)與決策, 2014(4):179-181.

    [9] 熊赟, 朱揚(yáng)勇, 陳志淵. 大數(shù)據(jù)挖掘[M]. 上海:上??茖W(xué)技術(shù)出版社, 2016.

    [10] Smith T C, Frank E. Introducing Machine Learning Concepts with WEKA[J]. Methods in Molecular Biology, 2016, 1418:353.

    猜你喜歡
    專家系統(tǒng)數(shù)據(jù)挖掘
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
    基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    TCDS地面專家系統(tǒng)的應(yīng)用和存在問題
    數(shù)控機(jī)床液壓系統(tǒng)故障診斷專家系統(tǒng)的研究
    商情(2016年42期)2016-12-23 16:53:09
    水中兵器故障診斷方法研究
    數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
    FCCU精餾塔故障診斷專家系統(tǒng)的研究與開發(fā)
    基于LabVIEW和Access的陀螺儀組故障診斷專家系統(tǒng)
    科技視界(2016年21期)2016-10-17 18:23:56
    火電機(jī)組汽輪機(jī)故障診斷方法總結(jié)研究
    科技視界(2016年5期)2016-02-22 13:39:03
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    平南县| 阿尔山市| 五河县| 晋州市| 会东县| 舟曲县| 宿迁市| 新龙县| 广平县| 耒阳市| 肇庆市| 老河口市| 浦东新区| 四会市| 堆龙德庆县| 蛟河市| 乳山市| 石狮市| 惠州市| 绥中县| 灵璧县| 竹山县| 如皋市| 金溪县| 秭归县| 商水县| 松江区| 惠州市| 靖远县| 彭阳县| 元朗区| 敦煌市| 嘉定区| 南岸区| 临潭县| 兴和县| 图木舒克市| 博客| 靖边县| 澄迈县| 新宾|