何棟
摘 要
當(dāng)今是一個(gè)信息技術(shù)飛速發(fā)展的時(shí)代,人們?cè)谌粘5纳詈凸ぷ髦挟a(chǎn)生的數(shù)據(jù)量越來(lái)越大,要讓人們理解和接受這些錯(cuò)綜復(fù)雜的數(shù)據(jù),數(shù)據(jù)研究工作者需要采用數(shù)據(jù)挖掘技術(shù)來(lái)解決這一難題。本研究就對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,并對(duì)當(dāng)前運(yùn)用較多的關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行探討。
【關(guān)鍵詞】數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則算法
數(shù)據(jù)挖掘是對(duì)數(shù)據(jù)進(jìn)行理解分析,對(duì)數(shù)據(jù)中隱藏的知識(shí)進(jìn)行挖掘發(fā)現(xiàn)的技術(shù),所以也稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)。數(shù)據(jù)挖掘技術(shù)在近幾年來(lái)的研究越來(lái)越深入,這是數(shù)據(jù)研究工作者經(jīng)過(guò)長(zhǎng)期在大量的應(yīng)用過(guò)程中探索研究的成果。在數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則是應(yīng)用較為廣泛的一種算法,數(shù)據(jù)研究工作者在大量數(shù)據(jù)中獲取微量信息時(shí),關(guān)聯(lián)規(guī)則能發(fā)揮其重要的價(jià)值。本研究在對(duì)數(shù)據(jù)挖掘技術(shù)相關(guān)概念進(jìn)行分析的基礎(chǔ)上,對(duì)關(guān)聯(lián)規(guī)則中的集中常用算法進(jìn)行探討,以期為數(shù)據(jù)研究工作這提供可靠參考。
1 數(shù)據(jù)挖掘技術(shù)介紹
1.1 數(shù)據(jù)挖掘技術(shù)的概念
數(shù)據(jù)挖掘技術(shù)是一門包容性以及開(kāi)放性較強(qiáng)的跨領(lǐng)域數(shù)據(jù)信息揭示學(xué)科,這項(xiàng)技術(shù)能從大量含有噪聲,且模糊不確定的實(shí)際業(yè)務(wù)數(shù)據(jù)中進(jìn)行計(jì)算,在這些數(shù)據(jù)中對(duì)當(dāng)前尚未發(fā)現(xiàn),或者沒(méi)有被明確認(rèn)知的具有一定價(jià)值的知識(shí)信息進(jìn)行揭示。在進(jìn)行數(shù)據(jù)挖掘中的業(yè)務(wù)數(shù)據(jù)形式不是單一固定的,是復(fù)雜多樣的,所以數(shù)據(jù)挖掘得出的分析結(jié)果形式能以多種形式表現(xiàn)出來(lái),可以是具有較強(qiáng)邏輯性的數(shù)學(xué)表達(dá)式,也可以是容易被一般用戶理解的結(jié)果。且數(shù)據(jù)挖掘技術(shù)在科學(xué)研究、市場(chǎng)分析等領(lǐng)域均得到了廣泛的應(yīng)用。
1.2 數(shù)據(jù)挖掘技術(shù)分類
數(shù)據(jù)挖掘功能的分類主要是根據(jù)數(shù)據(jù)挖掘功能的不同進(jìn)行的,當(dāng)前的數(shù)據(jù)挖掘技術(shù)主要有關(guān)聯(lián)規(guī)則挖掘技術(shù)、分類挖掘技術(shù)、孤立點(diǎn)挖掘技術(shù)以及聚類挖掘技術(shù)等。本研究主要對(duì)關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行詳細(xì)探討。
2 關(guān)聯(lián)規(guī)則挖掘算法
2.1 關(guān)聯(lián)規(guī)則種類介紹
關(guān)聯(lián)規(guī)則按照不同的標(biāo)準(zhǔn),能用各種不同的方法分成不同類型。將關(guān)聯(lián)規(guī)則分為挖掘頻繁項(xiàng)集、閉頻繁項(xiàng)集、被約束頻繁項(xiàng)集、極大頻繁項(xiàng)集,是根據(jù)挖掘模式的完全性分類的;將關(guān)聯(lián)規(guī)則分為多層和單層關(guān)聯(lián)規(guī)則,以及單位和多維關(guān)聯(lián)規(guī)則是根據(jù)規(guī)則所涉及的數(shù)據(jù)進(jìn)行分類的;將關(guān)聯(lián)規(guī)則分為量化關(guān)聯(lián)規(guī)則和挖掘布爾型規(guī)則是根據(jù)規(guī)則處理值類型分類的;將關(guān)聯(lián)規(guī)則分為序列模式挖掘、頻繁項(xiàng)集挖掘以及結(jié)構(gòu)模式挖掘是根據(jù)俄關(guān)聯(lián)規(guī)則挖掘模式進(jìn)行分類的;將關(guān)聯(lián)規(guī)則分為興趣度約束、知識(shí)類型約束、數(shù)據(jù)約束,是根據(jù)規(guī)則所挖掘的約束類型分類的。
2.2 關(guān)聯(lián)規(guī)則挖掘算法分析
2.2.1 Apriori算法分析
關(guān)聯(lián)規(guī)則算法中的挖掘完全頻繁項(xiàng)集中,Apriori算法該類型中最具有應(yīng)用價(jià)值,影響力最大的算法。Apriori算法主要有兩個(gè)步驟:
(1)發(fā)現(xiàn)所有的頻繁集;
(2)生成強(qiáng)關(guān)聯(lián)規(guī)則。
在Apriori算法中的第一步是最為重要的步驟,該算法的核心思路是,給定一個(gè)數(shù)據(jù)庫(kù),在第一次數(shù)據(jù)庫(kù)掃描中找出所有支持度大于等于最小支持度的項(xiàng)目組成頻繁1—項(xiàng)集,也就是L1,1—項(xiàng)集C1,由L1進(jìn)行連接得到;接著進(jìn)行第二次數(shù)據(jù)庫(kù)掃描,將C1中所有支持度大于等于最小支持度的項(xiàng)集組成頻繁2—項(xiàng)集,也就是L2,候選2—項(xiàng)集C2由L2連接得到。以此類推,直到找出最大項(xiàng)頻繁集。即在進(jìn)行第N次數(shù)據(jù)庫(kù)掃描時(shí),找出CN-1中所有支持度大于等于最小支持度的項(xiàng)集組成頻繁N—項(xiàng)集,即是LN,N—項(xiàng)集CN要由LN連接得出,一直到找不出新的選集為止。在這里還要用到Apriori算法性質(zhì),即是頻繁項(xiàng)集是頻繁項(xiàng)集的子集,非頻繁項(xiàng)集是非頻繁項(xiàng)集的超集。在Apriori算法中對(duì)數(shù)據(jù)庫(kù)的掃描次數(shù)需要大于最大頻繁項(xiàng)集的項(xiàng)數(shù)。
Apriori算法的操作具有兩個(gè)明顯的缺點(diǎn)。(1)該算法的使用需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次掃描,因此在讀寫(xiě)操作上會(huì)花費(fèi)很多的時(shí)間,從而增加挖掘算法的時(shí)間成本,這種成本的增加不可小覷,因?yàn)樗怯袛?shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)的增加,以幾何級(jí)數(shù)上升的成本;
(2)Apriori算法會(huì)出現(xiàn)眾多的候選頻繁集,頻發(fā)集的產(chǎn)生量在每一步都很大,這會(huì)使算法在廣泛度和深入度上的適應(yīng)性較差。
2.2.2 FP—growth算法分析
FP—growth算法是關(guān)聯(lián)規(guī)則算法中屬于深度優(yōu)化的一種算法,這種算法是深度優(yōu)化算法中較新且具有較高成效的,不同于Apriori算法本質(zhì)的常用算法。FP?—growth算法的基本基本步驟有兩個(gè):
(1)先將頻繁模式樹(shù)FP—tree生成;
(2)在生成的FP—tree頻繁模式樹(shù)中搜索頻繁項(xiàng)集。
(1)需要將項(xiàng)集關(guān)聯(lián)信息保留住,并采用一棵頻繁模式樹(shù)(FP—tree)用來(lái)容納壓縮后的數(shù)據(jù)庫(kù);
(2)再將壓縮后的FP—tree再分散為幾個(gè)小的條件數(shù)據(jù)庫(kù),再分別對(duì)這些數(shù)據(jù)庫(kù)進(jìn)行信息挖掘。FP—growth算法相較于Apriori算法,只需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行兩次掃描,不需要多次掃描,大幅度減少了挖掘算法的時(shí)間成本;也不會(huì)出現(xiàn)大量的候選項(xiàng)集,大幅度減少了頻繁集的搜索空間。也就是說(shuō)FP—growth算法能明顯提高時(shí)間和空間效率。但是該算法也有缺點(diǎn),在對(duì)龐大且松散的數(shù)據(jù)庫(kù)進(jìn)行挖掘處理過(guò)程中,不管是遞歸計(jì)算還是信息挖掘都需要占據(jù)大量的空間。
3 總結(jié)
綜上所述,本研究對(duì)對(duì)數(shù)據(jù)挖掘技術(shù)概念和分類進(jìn)行了簡(jiǎn)單的介紹,并對(duì)關(guān)聯(lián)規(guī)則的種類進(jìn)行了詳細(xì)的分析,對(duì)關(guān)聯(lián)規(guī)則中常用的兩種算法FP—growth算法和Apriori算法進(jìn)行了詳細(xì)的分析。兩種算法都還存在各自需要改進(jìn)缺點(diǎn),怎樣在挖掘過(guò)程中提高挖掘效率,滿足人們對(duì)挖掘系統(tǒng)的需求,這將是數(shù)據(jù)研究工作者仍然需要突破的重難點(diǎn)。
參考文獻(xiàn)
[1]毛國(guó)君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究[D].北京:北京工業(yè)大學(xué),2015.
[2]張弛,王本德,李偉等.數(shù)據(jù)挖掘技術(shù)在水文預(yù)報(bào)中的應(yīng)用及水文預(yù)報(bào)發(fā)展趨勢(shì)研究[J].水文,2015,27(02):74-77,85.
[3]魏陵博,付先軍.基于Aprio關(guān)聯(lián)規(guī)則挖掘技術(shù)分析歸心經(jīng)中藥與抗心律失常藥理作用的相關(guān)因素[J].中西醫(yī)結(jié)合心腦血管病雜志,2014(05):517-518.
[4]付先軍,周永紅,王中琳等.基于頻繁項(xiàng)集與關(guān)聯(lián)規(guī)則挖掘技術(shù)探索王新陸臨床用藥及處方配伍規(guī)律的初步研究[J].中國(guó)中醫(yī)藥信息雜志,2015,17(09):92-94.
[5]郭濤,門瑞.關(guān)于數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法的研究[J].無(wú)線互聯(lián)科技,2014(10):150-150,264.
作者單位
山西輕工職業(yè)技術(shù)學(xué)院 山西省太原市 030013