肖潔 冒宇清 李新霞
摘 要:數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的重要步驟,中醫(yī)藥數(shù)據(jù)挖掘是目前一個熱門的研究方向。文章探討了關聯(lián)規(guī)則方法中經(jīng)典的Apriori算法在中醫(yī)藥數(shù)據(jù)挖掘中的應用,初步發(fā)現(xiàn)中醫(yī)治療皮膚科疾病常用方劑中的最主要中藥,對中醫(yī)臨床治療皮膚科疾病具有一定的參考意義。
關鍵詞:數(shù)據(jù)挖掘;Apriori;中醫(yī)皮膚科;頻繁項集
中醫(yī)是我國優(yōu)秀的民族文化遺產(chǎn),其歷史悠久,理論獨特、療效顯著,承載著中華民族幾千年的寶貴經(jīng)驗和理論知識。對中醫(yī)在長期的醫(yī)療實踐中積累的大量數(shù)據(jù)進行整理,總結歸納其中的精髓,能夠豐富中醫(yī)的理論體系,推動中醫(yī)的發(fā)揚光大。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的現(xiàn)實世界數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。因此可以運用數(shù)據(jù)挖掘技術對中醫(yī)藥的數(shù)據(jù)進行分析,從中獲得有價值的知識。中醫(yī)藥的數(shù)據(jù)挖掘就是對采集到的中醫(yī)藥類的數(shù)據(jù)進行分析處理,運用合適的挖掘算法對中醫(yī)診治過程中的辨證—治法—方劑—中藥進行挖掘,實現(xiàn)中醫(yī)藥的知識發(fā)現(xiàn),為提高中醫(yī)藥理論研究和經(jīng)驗總結提供支持。
1 數(shù)據(jù)挖掘與關聯(lián)規(guī)則
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫知識發(fā)現(xiàn),一般是從大量的數(shù)據(jù)中通過算法搜索尋找隱藏在數(shù)據(jù)背后的信息的一個過程。數(shù)據(jù)挖掘通常是與計算機相關技術有關的,通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)目的。
數(shù)據(jù)挖掘這一技術的關鍵就在于數(shù)據(jù)挖掘的方法,目前常用的方法有:因子分析、描述性分析、關聯(lián)規(guī)則、聚類分析、人工神經(jīng)網(wǎng)絡、遺傳算法、對應分析、粗糙集、模糊集、決策樹方法、貝葉斯網(wǎng)絡、頻繁集方法和支持向量機等。當前數(shù)據(jù)挖掘這一技術最主要是應用在數(shù)據(jù)倉庫、數(shù)據(jù)挖掘語言、復雜數(shù)據(jù)類型等方面。
1.2 關聯(lián)規(guī)則
關聯(lián)規(guī)則是數(shù)據(jù)挖掘的核心技術之一,是通過對海量數(shù)據(jù)進行充分有效的分析與研究來獲取知識,尋找隱藏在數(shù)據(jù)中的關聯(lián),以提高數(shù)據(jù)挖掘的效率。其最初是來源于“購物籃分析”,通過分析購物籃里各種商品的關聯(lián)程度來總結購物習慣,優(yōu)化營銷。
關聯(lián)規(guī)則方法首先定義集合I={i1,i2,i3,…,in},其中ik稱為項,n是集合I中項的個數(shù),I集合也稱為項集。假設事務數(shù)據(jù)庫D是一個與任務相關的數(shù)據(jù)集合,其中每個事務T是一個項集的子集,即T?I,每個事務存在唯一的標識符TID。如果I中包含另一個項集X,當且僅當X?T時事務T包含X。關聯(lián)規(guī)則即為X?Y的蘊涵式,其中X?I,Y?I且X∩Y≠φ,表示若項集X在某一任務中出現(xiàn),可致Y以某一概率出現(xiàn)。通常關聯(lián)規(guī)則可用3個標準衡量:支持度、置信度和提升度。支持度S是任務D中包含X和Y兩個事務的百分比,S(X?Y)=P(X∪Y)/P(D)。置信度C是在含有X的項集中同時含有Y的可能性,C(X?Y)=P(Y|X)。提升度L是置信度與項目集Y發(fā)生的概率之比,L(X?Y)= P(Y|X)/P(Y)。對于某個任務中的最小支持度的閾值,支持度大于等于該閾值的項集稱為頻繁項集,關聯(lián)規(guī)則算法發(fā)現(xiàn)事務中的頻繁項集,并且通過設置最小置信度以發(fā)現(xiàn)強關聯(lián)規(guī)則,即同時滿足最小支持度閾值和最小信任度閾值的關聯(lián)規(guī)則,最后通過不斷地重復修剪獲得所需的關聯(lián)規(guī)則。
2 Apriori算法
Apriori算法是一種經(jīng)典的頻繁項集挖掘算法。Apriori的意思是先驗的、推測的,Apriori算法的核心思想就是先驗性:在進行推論的過程中滿足后續(xù)條件的結果一定是滿足之前的條件。Apriori算法采用逐層搜索迭代的方法獲得頻繁項集,先通過對事務數(shù)據(jù)庫的掃描找出支持度不小于最小支持度的頻繁項集[1],再利用循環(huán),對之前得到的頻繁項集中的項進行連接剪枝,生成新的候選項,掃描數(shù)據(jù)庫,計算支持度,從候選項集中刪除支持度小于最小支持度的候選項,直至不再有候選項集為止。
但隨著項目集個數(shù)的增加,產(chǎn)生的候選項集數(shù)目也隨之不斷增加,從而導致算法的效率迅速下降;同時在產(chǎn)生候選項后,還需要對每一項驗證其支持度,由于候選項數(shù)目巨大,對每個候選項的掃描又需要重新針對所有的數(shù)據(jù)庫進行,更進一步提高了計算機的工作負荷。針對這些不足,目前出現(xiàn)了很多Apriori算法的改進算法,例如韓家煒老師提出的FP-Growth算法,極大地減少了運算量,提高了數(shù)據(jù)挖掘的效率。但是由于Apriori算法能夠準確進行數(shù)據(jù)挖掘,且我們所用到的方劑數(shù)據(jù)對算法而言并不算大,對運行能力及運行速度沒有較明顯的影響,所以我們選擇采用這一算法來挖掘中醫(yī)方劑數(shù)據(jù)的用藥規(guī)律。
3 用藥規(guī)律
由于中醫(yī)治療皮膚科疾病方劑數(shù)據(jù)的復雜性與多樣性,在收集數(shù)據(jù)時就需要做好篩選和清洗工作。在數(shù)據(jù)錄入階段,進行規(guī)范化處理,并利用自然語言處理技術,去除無用的信息,統(tǒng)一中藥的名字,通過數(shù)據(jù)預處理工作,將原始數(shù)據(jù)轉化為數(shù)據(jù)挖掘方法所需要的數(shù)據(jù)形式。
本研究通過對大量中醫(yī)文獻中治療皮膚科疾病的記錄,以及南京中醫(yī)藥大學附屬醫(yī)院的名中醫(yī)治療皮膚科疾病的處方數(shù)據(jù)進行統(tǒng)計與分析,從所有方劑包含的中藥名中篩選得到320條數(shù)據(jù),共計158味中藥。運用關聯(lián)規(guī)則方法中經(jīng)典的Apriori算法進行挖掘,所挖掘出的頻繁項集是中醫(yī)治療皮膚科疾病方劑中的重要核心方,對中醫(yī)治療皮膚科疾病具有一定的研究價值。本次計算設置的最小支持度S為20%,最小置信度C為70%。通過實驗,得到本數(shù)據(jù)集所有方劑中的中藥頻繁項集,結果如表1所示。
通過Apriori算法對我們所得數(shù)據(jù)的挖掘,我們得到相關的研究結果,分析可知有“利水滲濕,健脾,寧心”性能的茯苓在這種以治療皮膚科疾病時是使用最多的一種中藥,頻率高達53%[2],而具有“補血活血,調(diào)經(jīng)止痛,潤腸通便”性能的當歸以及功效為“滋陰清熱,涼血補血”的生地黃也分別以49%,48%的占比緊跟其后[3],生甘草、赤芍、川芎、牡丹皮、黃芩、梔子、澤瀉、防風、紅花這9味中藥也是較高頻度出現(xiàn)的[4],也就是對于中醫(yī)治療皮膚科疾病而言,這12味中藥是最主要、最有效的,它們出現(xiàn)的原因自然也與它們的功效有著重要的聯(lián)系[5-6],這也是我們以后實驗中更需要注意的方向,以便為中醫(yī)臨床治療提供更多有效的信息。
4 結語
本研究利用Apriori算法對中醫(yī)治療皮膚科疾病方劑進行關聯(lián)規(guī)則挖掘,在支持度為20%,置信度為70%的條件下得到核心中藥19味。該結果為中醫(yī)臨床治療皮膚科疾病提供了初步的治療依據(jù),具有一定的參考價值。但中醫(yī)方劑的中藥頻數(shù)并不是中醫(yī)用藥規(guī)律的唯一要素,在接下來的研究中,需要進一步挖掘高頻中藥之間的關聯(lián)信息,并且結合證型、藥物的劑量和用藥周期等特征,對中醫(yī)用藥規(guī)律進行更深層次的挖掘,以發(fā)現(xiàn)更加有用的知識。
[參考文獻]
[1]汪玉薇.面向中醫(yī)處方的關聯(lián)規(guī)則挖掘模型改進與應用研究[D].武漢:湖北中醫(yī)藥大學,2017.
[2]劉廣.基于Apriori算法的中醫(yī)治療咳嗽關聯(lián)規(guī)則挖掘研究[J].信息系統(tǒng)工程,2016(7):123,127.
[3]楊青.基于關聯(lián)規(guī)則的近十五年緊張型頭痛中醫(yī)用藥規(guī)律研究[D].濟南:山東中醫(yī)藥大學,2016.
[4]吳同恩.基于關聯(lián)規(guī)則的腦出血中醫(yī)用藥規(guī)律研究[D].濟南:山東中醫(yī)藥大學,2016.
[5]石昆.基于關聯(lián)規(guī)則三叉神經(jīng)痛近十五年中醫(yī)用藥規(guī)律研究[D].濟南:山東中醫(yī)藥大學,2016.
[6]嚴剛.關聯(lián)規(guī)則算法在中醫(yī)數(shù)據(jù)挖掘中的應用[J].硅谷,2009(24):65.