關(guān)聯(lián)規(guī)則下的數(shù)據(jù)挖掘算法分析

2018-02-19 20:35:55潘燕

信息記錄材料 2018年7期

潘燕

（福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院福建福州 350007）

1 引言

隨著“互聯(lián)網(wǎng)+”在全球的不斷普及，計算機信息技術(shù)的應(yīng)用范圍也變得越來越廣闊。尤其是在數(shù)據(jù)庫里信息分析、處理領(lǐng)域里面，數(shù)據(jù)挖掘技術(shù)當中的數(shù)據(jù)挖掘算法發(fā)揮了其獨一無二的作用。大量研究中，關(guān)聯(lián)規(guī)則下的數(shù)據(jù)挖掘算法作為數(shù)據(jù)挖掘技術(shù)的集中體現(xiàn)，便是其重要研究成果之一，本文將對此做出詳細探討。

2 關(guān)聯(lián)規(guī)則下數(shù)據(jù)挖掘技術(shù)(Apriori算法)分析及應(yīng)用

數(shù)據(jù)挖掘技術(shù)在進行信息處理的時候，相比于傳統(tǒng)技術(shù)，它是一種比較新型的信息處理技術(shù)，無論是從商業(yè)價值還是從經(jīng)濟價值上來看，它都能從根本上對傳統(tǒng)數(shù)據(jù)處理技術(shù)提出挑戰(zhàn)[1]。

在關(guān)聯(lián)規(guī)則下，數(shù)據(jù)挖掘的在進行的過程當中，主要有兩個步驟。首先，相關(guān)工作人員需要從復(fù)雜的數(shù)據(jù)庫當中篩選出比較集中的一部分高頻項目組。其次，要將選好的高頻項目組進行一定的分類、歸納，并且找到其中的某些關(guān)聯(lián)。在歸納的過程當中，要對各種各樣的數(shù)據(jù)進行統(tǒng)一的統(tǒng)計，并且對于數(shù)據(jù)庫中一些相關(guān)的屬性進行集中的反應(yīng)，進而實現(xiàn)實時統(tǒng)計，這種方法被稱為 AQ 法[2]。

在進行實際高頻組篩選的時候，需要注意的是高頻的概率指的是一個項目組在所有數(shù)據(jù)當中出現(xiàn)的概率達到一定的水平，而不是單個的數(shù)據(jù)信息。而從專業(yè)的角度上來說，此概率可以被稱之為支持度。在第二階段當中，相關(guān)高頻項目組，在進行關(guān)聯(lián)規(guī)則，獲取的時候也需要注意信賴度的問題，而這里的信賴度是指相關(guān)項目組當中所有的數(shù)據(jù)真實度達到一定的水平。在關(guān)聯(lián)規(guī)則下，必須要信賴度達到一定標準的項目組才能被舉例出來。

在關(guān)聯(lián)規(guī)則下，原創(chuàng)Apriori算法主要是用于對頻繁項數(shù)據(jù)的挖掘。在進行Apriori算法使用的時候，主要應(yīng)用的是迭代方法。并且，此算法的應(yīng)用過程分為兩個步驟。第一個步驟是連接步，通過把自身與kl-1連接起來，從而快速的找到頻繁k項集，進而在一定程度上產(chǎn)生候選k項集Ck，在此過程當中，kl-1當中的元素都可以被直接連接起來。第二個步驟是剪枝步，這之后，Ck就作為Lk的超集，需要注意的是，在Ck當中的元素，它可以是具有頻繁性的，也可以是不具有頻繁性的。在Ck當中，包含了所有的頻繁項集，因此，在對數(shù)據(jù)庫進行實際掃描的時候，可以具體到確定每一個數(shù)值。從而使得Lk在一定程度上被確認，但是在此期間需要注意的是，Ck項集里面如果數(shù)值很大的話，就容易引起相對的偏差。所以通常情況下都會對Ck項集做壓縮處理。具體過程如下。

輸入：首先在事物數(shù)據(jù)庫中輸入D；并且獲得最小的支持度閾值為min-sup

輸出：然后在D中的頻繁項集設(shè)置為L

（1）L1=find_frequent_1_etemsets(D);

（2）for(k=2;k++){

（3）Ck=aproiri_gen(Lk-1;min_sup);

（4）for each transaction t D{//對D進行掃描并獲取計數(shù)

（5）Ct=subset(Ck，t);//這樣能夠獲得t的一些候選子集

（6）for each candidate 錯誤！未找到引用源。Ct

（7）c.count++;

（8）)}

（9）Lk={Ck|c.count≥min_sup}

（10）return L=錯誤！未找到引用源.Lk;procedure_apriori_gen(Lk_1;frequent(k-1)-itemsets)重復(fù)，返回Ck

這就是進行Apriori算法，在操作執(zhí)行中經(jīng)歷的各個階段流程。

3 關(guān)聯(lián)規(guī)則下數(shù)據(jù)挖掘算法應(yīng)用

3.1 數(shù)據(jù)挖掘算法在數(shù)據(jù)交互上的應(yīng)用

為了有效避免數(shù)據(jù)重復(fù)這一情況，相關(guān)關(guān)聯(lián)規(guī)則下的數(shù)據(jù)研究人員往往會對數(shù)據(jù)挖掘技術(shù)的研究過程進行整體上的改革，進一步加大研究力度，刷新挖掘目標，科學(xué)的完善整體的挖掘計算機制。比如，相關(guān)研究人員在進行實際研發(fā)的時候，要對數(shù)據(jù)挖掘計劃做一個詳細的數(shù)據(jù)總結(jié)，并且對整個系統(tǒng)當中的工作控制具體到任務(wù)分配環(huán)節(jié)上來。使得每一位研究人員都能夠在一個理想的挖掘數(shù)據(jù)信息環(huán)境當中來指定挖掘算法的約束。進而從不同的階段上面，來對數(shù)據(jù)挖掘技術(shù)基本形式進行實時的數(shù)據(jù)交互。

3.2 數(shù)據(jù)挖掘算法在反饋機制下的應(yīng)用

在進行實際數(shù)據(jù)挖掘算法研究的過程當中往往會受到很多不可測因素的影響，所以在其間建立有效的反饋機制和負反饋機制是非常有必要的。針對于計算結(jié)果，要及時的進行驗證，防止由于錯誤導(dǎo)向?qū)е碌乃惴〝?shù)據(jù)修正。因為在數(shù)據(jù)修正的過程當中會消耗大量的人力、物力以及時間。建立約束機制是必不可少的，數(shù)據(jù)挖掘算法當中的各個階段都需要約束機制的作用。確保邏輯上的正確性，并且根據(jù)客戶的側(cè)重面來進行實際主觀改良。數(shù)據(jù)挖掘算法的約束是不變的，像數(shù)學(xué)上的邏輯性一樣。在研究的過程當中一定要滿足各方面的實際需求，符合邏輯性。

3.3 數(shù)據(jù)挖掘算法在約束條件下的線性應(yīng)用

在進行約束類型選擇的過程當中，一定要遵守相關(guān)的關(guān)聯(lián)規(guī)則：在時態(tài)的約束條件之下。數(shù)據(jù)量的上升以及計算機的內(nèi)存是呈線性關(guān)系的，倘若在一個數(shù)據(jù)庫中，對數(shù)據(jù)挖掘算法進行掃描的時候，發(fā)現(xiàn)少了I/O個數(shù)的話，在關(guān)聯(lián)規(guī)則之下，數(shù)據(jù)挖掘算法就有其必要性，此內(nèi)容就是ISS的容量控制。ISS容量控制如果非?？茖W(xué)、合理的話，能夠在一定程度上減少CPU的占用量，提升性能。

4 數(shù)據(jù)挖掘算法的其他類應(yīng)用

在我們的日常生活當中，常使用數(shù)據(jù)挖掘算法來進行各種問題的求解，數(shù)據(jù)挖掘算法轉(zhuǎn)化成現(xiàn)實應(yīng)用有多種類型。其中，C4.5算法是比較常見的，在運用C4.5的算法方式時，主要利用決策樹來創(chuàng)建完整的分類器，其主要指的是和流程圖比較相似，能夠?qū)Ω鞣N新數(shù)據(jù)展開合理分配，從而構(gòu)建了完整的決策樹。同時，在對數(shù)據(jù)展開挖掘操作時，應(yīng)用比較普遍的工具就是分類器，通過對各種數(shù)據(jù)進行明確劃分種類，而且能夠及時對一些新數(shù)據(jù)種類進行預(yù)測。在運用C4.5算法來進行計算時，必須充分結(jié)合C4.5來提供的相關(guān)表達內(nèi)容，這樣才能按照所給的數(shù)據(jù)性質(zhì)，來分別組成不同的數(shù)據(jù)集合，并且展開數(shù)據(jù)分類。如果在數(shù)據(jù)集中含有的病人信息非常龐大，那么在已知病人的年齡、脈搏、血壓、最大攝氧量以及家族病史等等信息之后，需要充分應(yīng)用病人的數(shù)據(jù)屬性集合與病人所反饋的相關(guān)類型保持對應(yīng)，只有充分運用C4.5算法，才能針對病人的需求，充分結(jié)合病人的屬性因素，構(gòu)建科學(xué)、合理的決策樹圖形，實現(xiàn)數(shù)據(jù)挖掘應(yīng)用。

5 結(jié)語

在關(guān)聯(lián)規(guī)則之下，數(shù)據(jù)挖掘算法是在數(shù)據(jù)挖掘技術(shù)當中所引發(fā)出來的非常重要的數(shù)據(jù)處理方法，它的合理應(yīng)用能夠使得數(shù)據(jù)庫在進行大范圍內(nèi)的數(shù)據(jù)處理時，能夠高效，及時并且容錯率低地進行數(shù)據(jù)統(tǒng)計、分析、計算、預(yù)測。所以，本文中的主體主要是介紹數(shù)據(jù)挖掘技術(shù)以及數(shù)據(jù)挖掘算法，以供相關(guān)讀者參考。

[1] 吐爾遜江?托合提.基于關(guān)聯(lián)規(guī)則映射的生物信息網(wǎng)絡(luò)多維數(shù)據(jù)挖掘算法分析[J].無線互聯(lián)科技，2015(19)：35-36.

[2] 楊澤民，郭顯娥，王文軍.數(shù)據(jù)挖掘中關(guān)聯(lián)弱化問題的解決方法分析[J].計算機科學(xué)，2013，40(08)：220-222.