• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      關(guān)聯(lián)規(guī)則下的數(shù)據(jù)挖掘算法分析

      2018-02-19 20:35:55
      信息記錄材料 2018年7期
      關(guān)鍵詞:項集項目組數(shù)據(jù)挖掘

      潘 燕

      (福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院 福建 福州 350007)

      1 引言

      隨著“互聯(lián)網(wǎng)+”在全球的不斷普及,計算機信息技術(shù)的應(yīng)用范圍也變得越來越廣闊。尤其是在數(shù)據(jù)庫里信息分析、處理領(lǐng)域里面,數(shù)據(jù)挖掘技術(shù)當中的數(shù)據(jù)挖掘算法發(fā)揮了其獨一無二的作用。大量研究中,關(guān)聯(lián)規(guī)則下的數(shù)據(jù)挖掘算法作為數(shù)據(jù)挖掘技術(shù)的集中體現(xiàn),便是其重要研究成果之一,本文將對此做出詳細探討。

      2 關(guān)聯(lián)規(guī)則下數(shù)據(jù)挖掘技術(shù)(Apriori算法)分析及應(yīng)用

      數(shù)據(jù)挖掘技術(shù)在進行信息處理的時候,相比于傳統(tǒng)技術(shù),它是一種比較新型的信息處理技術(shù),無論是從商業(yè)價值還是從經(jīng)濟價值上來看,它都能從根本上對傳統(tǒng)數(shù)據(jù)處理技術(shù)提出挑戰(zhàn)[1]。

      在關(guān)聯(lián)規(guī)則下,數(shù)據(jù)挖掘的在進行的過程當中,主要有兩個步驟。首先,相關(guān)工作人員需要從復(fù)雜的數(shù)據(jù)庫當中篩選出比較集中的一部分高頻項目組。其次,要將選好的高頻項目組進行一定的分類、歸納,并且找到其中的某些關(guān)聯(lián)。在歸納的過程當中,要對各種各樣的數(shù)據(jù)進行統(tǒng)一的統(tǒng)計,并且對于數(shù)據(jù)庫中一些相關(guān)的屬性進行集中的反應(yīng),進而實現(xiàn)實時統(tǒng)計,這種方法被稱為 AQ 法[2]。

      在進行實際高頻組篩選的時候,需要注意的是高頻的概率指的是一個項目組在所有數(shù)據(jù)當中出現(xiàn)的概率達到一定的水平,而不是單個的數(shù)據(jù)信息。而從專業(yè)的角度上來說,此概率可以被稱之為支持度。在第二階段當中,相關(guān)高頻項目組,在進行關(guān)聯(lián)規(guī)則,獲取的時候也需要注意信賴度的問題,而這里的信賴度是指相關(guān)項目組當中所有的數(shù)據(jù)真實度達到一定的水平。在關(guān)聯(lián)規(guī)則下,必須要信賴度達到一定標準的項目組才能被舉例出來。

      在關(guān)聯(lián)規(guī)則下,原創(chuàng)Apriori算法主要是用于對頻繁項數(shù)據(jù)的挖掘。在進行Apriori算法使用的時候,主要應(yīng)用的是迭代方法。并且,此算法的應(yīng)用過程分為兩個步驟。第一個步驟是連接步,通過把自身與kl-1連接起來,從而快速的找到頻繁k項集,進而在一定程度上產(chǎn)生候選k項集Ck,在此過程當中,kl-1當中的元素都可以被直接連接起來。第二個步驟是剪枝步,這之后,Ck就作為Lk的超集,需要注意的是,在Ck當中的元素,它可以是具有頻繁性的,也可以是不具有頻繁性的。在Ck當中,包含了所有的頻繁項集,因此,在對數(shù)據(jù)庫進行實際掃描的時候,可以具體到確定每一個數(shù)值。從而使得Lk在一定程度上被確認,但是在此期間需要注意的是,Ck項集里面如果數(shù)值很大的話,就容易引起相對的偏差。所以通常情況下都會對Ck項集做壓縮處理。具體過程如下。

      輸入:首先在事物數(shù)據(jù)庫中輸入D;并且獲得最小的支持度閾值為min-sup

      輸出:然后在D中的頻繁項集設(shè)置為L

      (1)L1=find_frequent_1_etemsets(D);

      (2)for(k=2;k++){

      (3)Ck=aproiri_gen(Lk-1;min_sup);

      (4)for each transaction t D{//對D進行掃描并獲取計數(shù)

      (5)Ct=subset(Ck,t);//這樣能夠獲得t的一些候選子集

      (6)for each candidate 錯誤!未找到引用源。Ct

      (7)c.count++;

      (8))}

      (9)Lk={Ck|c.count≥min_sup}

      (10)return L=錯誤!未找到引用源.Lk;procedure_apriori_gen(Lk_1;frequent(k-1)-itemsets)重復(fù),返回Ck

      這就是進行Apriori算法,在操作執(zhí)行中經(jīng)歷的各個階段流程。

      3 關(guān)聯(lián)規(guī)則下數(shù)據(jù)挖掘算法應(yīng)用

      3.1 數(shù)據(jù)挖掘算法在數(shù)據(jù)交互上的應(yīng)用

      為了有效避免數(shù)據(jù)重復(fù)這一情況,相關(guān)關(guān)聯(lián)規(guī)則下的數(shù)據(jù)研究人員往往會對數(shù)據(jù)挖掘技術(shù)的研究過程進行整體上的改革,進一步加大研究力度,刷新挖掘目標,科學(xué)的完善整體的挖掘計算機制。比如,相關(guān)研究人員在進行實際研發(fā)的時候,要對數(shù)據(jù)挖掘計劃做一個詳細的數(shù)據(jù)總結(jié),并且對整個系統(tǒng)當中的工作控制具體到任務(wù)分配環(huán)節(jié)上來。使得每一位研究人員都能夠在一個理想的挖掘數(shù)據(jù)信息環(huán)境當中來指定挖掘算法的約束。進而從不同的階段上面,來對數(shù)據(jù)挖掘技術(shù)基本形式進行實時的數(shù)據(jù)交互。

      3.2 數(shù)據(jù)挖掘算法在反饋機制下的應(yīng)用

      在進行實際數(shù)據(jù)挖掘算法研究的過程當中往往會受到很多不可測因素的影響,所以在其間建立有效的反饋機制和負反饋機制是非常有必要的。針對于計算結(jié)果,要及時的進行驗證,防止由于錯誤導(dǎo)向?qū)е碌乃惴〝?shù)據(jù)修正。因為在數(shù)據(jù)修正的過程當中會消耗大量的人力、物力以及時間。建立約束機制是必不可少的,數(shù)據(jù)挖掘算法當中的各個階段都需要約束機制的作用。確保邏輯上的正確性,并且根據(jù)客戶的側(cè)重面來進行實際主觀改良。數(shù)據(jù)挖掘算法的約束是不變的,像數(shù)學(xué)上的邏輯性一樣。在研究的過程當中一定要滿足各方面的實際需求,符合邏輯性。

      3.3 數(shù)據(jù)挖掘算法在約束條件下的線性應(yīng)用

      在進行約束類型選擇的過程當中,一定要遵守相關(guān)的關(guān)聯(lián)規(guī)則:在時態(tài)的約束條件之下。數(shù)據(jù)量的上升以及計算機的內(nèi)存是呈線性關(guān)系的,倘若在一個數(shù)據(jù)庫中,對數(shù)據(jù)挖掘算法進行掃描的時候,發(fā)現(xiàn)少了I/O個數(shù)的話,在關(guān)聯(lián)規(guī)則之下,數(shù)據(jù)挖掘算法就有其必要性,此內(nèi)容就是ISS的容量控制。ISS容量控制如果非??茖W(xué)、合理的話,能夠在一定程度上減少CPU的占用量,提升性能。

      4 數(shù)據(jù)挖掘算法的其他類應(yīng)用

      在我們的日常生活當中,常使用數(shù)據(jù)挖掘算法來進行各種問題的求解,數(shù)據(jù)挖掘算法轉(zhuǎn)化成現(xiàn)實應(yīng)用有多種類型。其中,C4.5算法是比較常見的,在運用C4.5的算法方式時,主要利用決策樹來創(chuàng)建完整的分類器,其主要指的是和流程圖比較相似,能夠?qū)Ω鞣N新數(shù)據(jù)展開合理分配,從而構(gòu)建了完整的決策樹。同時,在對數(shù)據(jù)展開挖掘操作時,應(yīng)用比較普遍的工具就是分類器,通過對各種數(shù)據(jù)進行明確劃分種類,而且能夠及時對一些新數(shù)據(jù)種類進行預(yù)測。在運用C4.5算法來進行計算時,必須充分結(jié)合C4.5來提供的相關(guān)表達內(nèi)容,這樣才能按照所給的數(shù)據(jù)性質(zhì),來分別組成不同的數(shù)據(jù)集合,并且展開數(shù)據(jù)分類。如果在數(shù)據(jù)集中含有的病人信息非常龐大,那么在已知病人的年齡、脈搏、血壓、最大攝氧量以及家族病史等等信息之后,需要充分應(yīng)用病人的數(shù)據(jù)屬性集合與病人所反饋的相關(guān)類型保持對應(yīng),只有充分運用C4.5算法,才能針對病人的需求,充分結(jié)合病人的屬性因素,構(gòu)建科學(xué)、合理的決策樹圖形,實現(xiàn)數(shù)據(jù)挖掘應(yīng)用。

      5 結(jié)語

      在關(guān)聯(lián)規(guī)則之下,數(shù)據(jù)挖掘算法是在數(shù)據(jù)挖掘技術(shù)當中所引發(fā)出來的非常重要的數(shù)據(jù)處理方法,它的合理應(yīng)用能夠使得數(shù)據(jù)庫在進行大范圍內(nèi)的數(shù)據(jù)處理時,能夠高效,及時并且容錯率低地進行數(shù)據(jù)統(tǒng)計、分析、計算、預(yù)測。所以,本文中的主體主要是介紹數(shù)據(jù)挖掘技術(shù)以及數(shù)據(jù)挖掘算法,以供相關(guān)讀者參考。

      [1] 吐爾遜江?托合提.基于關(guān)聯(lián)規(guī)則映射的生物信息網(wǎng)絡(luò)多維數(shù)據(jù)挖掘算法分析[J].無線互聯(lián)科技,2015(19):35-36.

      [2] 楊澤民,郭顯娥,王文軍.數(shù)據(jù)挖掘中關(guān)聯(lián)弱化問題的解決方法分析[J].計算機科學(xué),2013,40(08):220-222.

      猜你喜歡
      項集項目組數(shù)據(jù)挖掘
      CSCO生物統(tǒng)計學(xué)專家委員會RWE項目組簡介
      Association between estradiol levels and clinical outcomes of IVF cycles with single blastocyst embryo transfer
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于數(shù)字化平臺的項目組管理實踐
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項集的快速挖掘算法
      計算機工程(2014年6期)2014-02-28 01:26:12
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      項目組研究式教學(xué)對社會主義學(xué)院教師能力素質(zhì)的要求及培養(yǎng)
      阿荣旗| 池州市| 咸阳市| 类乌齐县| 长泰县| 重庆市| 修文县| 东阳市| 平江县| 泰来县| 南宫市| 南郑县| 通许县| 绵竹市| 辽阳市| 临夏县| 崇信县| 屯留县| 昭通市| 江口县| 南宁市| 年辖:市辖区| 太仓市| 鸡西市| 象山县| 龙州县| 吕梁市| 河东区| 绥中县| 小金县| 安龙县| 柳州市| 体育| 鲁甸县| 德江县| 铁岭市| 中方县| 应用必备| 桃园县| 遂宁市| 华亭县|