潘 燕
(福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院 福建 福州 350007)
隨著“互聯(lián)網(wǎng)+”在全球的不斷普及,計算機信息技術(shù)的應(yīng)用范圍也變得越來越廣闊。尤其是在數(shù)據(jù)庫里信息分析、處理領(lǐng)域里面,數(shù)據(jù)挖掘技術(shù)當中的數(shù)據(jù)挖掘算法發(fā)揮了其獨一無二的作用。大量研究中,關(guān)聯(lián)規(guī)則下的數(shù)據(jù)挖掘算法作為數(shù)據(jù)挖掘技術(shù)的集中體現(xiàn),便是其重要研究成果之一,本文將對此做出詳細探討。
數(shù)據(jù)挖掘技術(shù)在進行信息處理的時候,相比于傳統(tǒng)技術(shù),它是一種比較新型的信息處理技術(shù),無論是從商業(yè)價值還是從經(jīng)濟價值上來看,它都能從根本上對傳統(tǒng)數(shù)據(jù)處理技術(shù)提出挑戰(zhàn)[1]。
在關(guān)聯(lián)規(guī)則下,數(shù)據(jù)挖掘的在進行的過程當中,主要有兩個步驟。首先,相關(guān)工作人員需要從復(fù)雜的數(shù)據(jù)庫當中篩選出比較集中的一部分高頻項目組。其次,要將選好的高頻項目組進行一定的分類、歸納,并且找到其中的某些關(guān)聯(lián)。在歸納的過程當中,要對各種各樣的數(shù)據(jù)進行統(tǒng)一的統(tǒng)計,并且對于數(shù)據(jù)庫中一些相關(guān)的屬性進行集中的反應(yīng),進而實現(xiàn)實時統(tǒng)計,這種方法被稱為 AQ 法[2]。
在進行實際高頻組篩選的時候,需要注意的是高頻的概率指的是一個項目組在所有數(shù)據(jù)當中出現(xiàn)的概率達到一定的水平,而不是單個的數(shù)據(jù)信息。而從專業(yè)的角度上來說,此概率可以被稱之為支持度。在第二階段當中,相關(guān)高頻項目組,在進行關(guān)聯(lián)規(guī)則,獲取的時候也需要注意信賴度的問題,而這里的信賴度是指相關(guān)項目組當中所有的數(shù)據(jù)真實度達到一定的水平。在關(guān)聯(lián)規(guī)則下,必須要信賴度達到一定標準的項目組才能被舉例出來。
在關(guān)聯(lián)規(guī)則下,原創(chuàng)Apriori算法主要是用于對頻繁項數(shù)據(jù)的挖掘。在進行Apriori算法使用的時候,主要應(yīng)用的是迭代方法。并且,此算法的應(yīng)用過程分為兩個步驟。第一個步驟是連接步,通過把自身與kl-1連接起來,從而快速的找到頻繁k項集,進而在一定程度上產(chǎn)生候選k項集Ck,在此過程當中,kl-1當中的元素都可以被直接連接起來。第二個步驟是剪枝步,這之后,Ck就作為Lk的超集,需要注意的是,在Ck當中的元素,它可以是具有頻繁性的,也可以是不具有頻繁性的。在Ck當中,包含了所有的頻繁項集,因此,在對數(shù)據(jù)庫進行實際掃描的時候,可以具體到確定每一個數(shù)值。從而使得Lk在一定程度上被確認,但是在此期間需要注意的是,Ck項集里面如果數(shù)值很大的話,就容易引起相對的偏差。所以通常情況下都會對Ck項集做壓縮處理。具體過程如下。
輸入:首先在事物數(shù)據(jù)庫中輸入D;并且獲得最小的支持度閾值為min-sup
輸出:然后在D中的頻繁項集設(shè)置為L
(1)L1=find_frequent_1_etemsets(D);
(2)for(k=2;k++){
(3)Ck=aproiri_gen(Lk-1;min_sup);
(4)for each transaction t D{//對D進行掃描并獲取計數(shù)
(5)Ct=subset(Ck,t);//這樣能夠獲得t的一些候選子集
(6)for each candidate 錯誤!未找到引用源。Ct
(7)c.count++;
(8))}
(9)Lk={Ck|c.count≥min_sup}
(10)return L=錯誤!未找到引用源.Lk;procedure_apriori_gen(Lk_1;frequent(k-1)-itemsets)重復(fù),返回Ck
這就是進行Apriori算法,在操作執(zhí)行中經(jīng)歷的各個階段流程。
為了有效避免數(shù)據(jù)重復(fù)這一情況,相關(guān)關(guān)聯(lián)規(guī)則下的數(shù)據(jù)研究人員往往會對數(shù)據(jù)挖掘技術(shù)的研究過程進行整體上的改革,進一步加大研究力度,刷新挖掘目標,科學(xué)的完善整體的挖掘計算機制。比如,相關(guān)研究人員在進行實際研發(fā)的時候,要對數(shù)據(jù)挖掘計劃做一個詳細的數(shù)據(jù)總結(jié),并且對整個系統(tǒng)當中的工作控制具體到任務(wù)分配環(huán)節(jié)上來。使得每一位研究人員都能夠在一個理想的挖掘數(shù)據(jù)信息環(huán)境當中來指定挖掘算法的約束。進而從不同的階段上面,來對數(shù)據(jù)挖掘技術(shù)基本形式進行實時的數(shù)據(jù)交互。
在進行實際數(shù)據(jù)挖掘算法研究的過程當中往往會受到很多不可測因素的影響,所以在其間建立有效的反饋機制和負反饋機制是非常有必要的。針對于計算結(jié)果,要及時的進行驗證,防止由于錯誤導(dǎo)向?qū)е碌乃惴〝?shù)據(jù)修正。因為在數(shù)據(jù)修正的過程當中會消耗大量的人力、物力以及時間。建立約束機制是必不可少的,數(shù)據(jù)挖掘算法當中的各個階段都需要約束機制的作用。確保邏輯上的正確性,并且根據(jù)客戶的側(cè)重面來進行實際主觀改良。數(shù)據(jù)挖掘算法的約束是不變的,像數(shù)學(xué)上的邏輯性一樣。在研究的過程當中一定要滿足各方面的實際需求,符合邏輯性。
在進行約束類型選擇的過程當中,一定要遵守相關(guān)的關(guān)聯(lián)規(guī)則:在時態(tài)的約束條件之下。數(shù)據(jù)量的上升以及計算機的內(nèi)存是呈線性關(guān)系的,倘若在一個數(shù)據(jù)庫中,對數(shù)據(jù)挖掘算法進行掃描的時候,發(fā)現(xiàn)少了I/O個數(shù)的話,在關(guān)聯(lián)規(guī)則之下,數(shù)據(jù)挖掘算法就有其必要性,此內(nèi)容就是ISS的容量控制。ISS容量控制如果非??茖W(xué)、合理的話,能夠在一定程度上減少CPU的占用量,提升性能。
在我們的日常生活當中,常使用數(shù)據(jù)挖掘算法來進行各種問題的求解,數(shù)據(jù)挖掘算法轉(zhuǎn)化成現(xiàn)實應(yīng)用有多種類型。其中,C4.5算法是比較常見的,在運用C4.5的算法方式時,主要利用決策樹來創(chuàng)建完整的分類器,其主要指的是和流程圖比較相似,能夠?qū)Ω鞣N新數(shù)據(jù)展開合理分配,從而構(gòu)建了完整的決策樹。同時,在對數(shù)據(jù)展開挖掘操作時,應(yīng)用比較普遍的工具就是分類器,通過對各種數(shù)據(jù)進行明確劃分種類,而且能夠及時對一些新數(shù)據(jù)種類進行預(yù)測。在運用C4.5算法來進行計算時,必須充分結(jié)合C4.5來提供的相關(guān)表達內(nèi)容,這樣才能按照所給的數(shù)據(jù)性質(zhì),來分別組成不同的數(shù)據(jù)集合,并且展開數(shù)據(jù)分類。如果在數(shù)據(jù)集中含有的病人信息非常龐大,那么在已知病人的年齡、脈搏、血壓、最大攝氧量以及家族病史等等信息之后,需要充分應(yīng)用病人的數(shù)據(jù)屬性集合與病人所反饋的相關(guān)類型保持對應(yīng),只有充分運用C4.5算法,才能針對病人的需求,充分結(jié)合病人的屬性因素,構(gòu)建科學(xué)、合理的決策樹圖形,實現(xiàn)數(shù)據(jù)挖掘應(yīng)用。
在關(guān)聯(lián)規(guī)則之下,數(shù)據(jù)挖掘算法是在數(shù)據(jù)挖掘技術(shù)當中所引發(fā)出來的非常重要的數(shù)據(jù)處理方法,它的合理應(yīng)用能夠使得數(shù)據(jù)庫在進行大范圍內(nèi)的數(shù)據(jù)處理時,能夠高效,及時并且容錯率低地進行數(shù)據(jù)統(tǒng)計、分析、計算、預(yù)測。所以,本文中的主體主要是介紹數(shù)據(jù)挖掘技術(shù)以及數(shù)據(jù)挖掘算法,以供相關(guān)讀者參考。
[1] 吐爾遜江?托合提.基于關(guān)聯(lián)規(guī)則映射的生物信息網(wǎng)絡(luò)多維數(shù)據(jù)挖掘算法分析[J].無線互聯(lián)科技,2015(19):35-36.
[2] 楊澤民,郭顯娥,王文軍.數(shù)據(jù)挖掘中關(guān)聯(lián)弱化問題的解決方法分析[J].計算機科學(xué),2013,40(08):220-222.