• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于有向圖的多維多值屬性關聯(lián)規(guī)則挖掘算法

      2015-02-15 09:25:04汪峰坤張婷婷
      宿州學院學報 2015年12期
      關鍵詞:有向圖項集事務

      汪峰坤,張婷婷

      安徽機電職業(yè)技術學院,安徽蕪湖,241000

      ?

      一種基于有向圖的多維多值屬性關聯(lián)規(guī)則挖掘算法

      汪峰坤,張婷婷

      安徽機電職業(yè)技術學院,安徽蕪湖,241000

      針對多維多值數(shù)據(jù)特點,提出了基于FP-Growth的改進算法FP-G。FP-G算法存儲結構使用有向圖,增加了頭結點,方便對圖剪枝和遍歷。針對圖結構使用了新的剪枝策略,對于小于最小支持度的邊直接刪除,無須修改結點指針。關聯(lián)規(guī)則生成時通過頭結點進行深度遍歷生成最大頻繁模式集。實驗結果表明,F(xiàn)P-G算法相比FP-Growth算法,在百萬數(shù)量級的高維數(shù)據(jù)集上,執(zhí)行時間平均節(jié)約30%左右。

      數(shù)據(jù)挖掘;關聯(lián)規(guī)則;頻繁項集;多值屬性

      1 問題的提出

      關聯(lián)規(guī)則數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)集之間潛在聯(lián)系的一項技術。根據(jù)數(shù)據(jù)集維數(shù)是否大于1,數(shù)據(jù)挖掘分為單維和多維兩種;又根據(jù)數(shù)據(jù)集屬性取值情況,分為布爾和多值兩種情況。

      Srikant R.和Agrawal R.于1996年提出了基于Apriori算法的多值屬性關聯(lián)規(guī)則[1],即通過量化規(guī)則將數(shù)據(jù)集的屬性轉換為單維二元屬性,然后使用經典的Apriori算法進行挖掘,但容易造成事務屬性急劇增加,挖掘效率較低。后來,國內學者穆云婷等提出了基于FP-Growth的多維關聯(lián)規(guī)則挖掘[2]即把樹中每個節(jié)點作為一個屬性值,樹中每個分支作為數(shù)據(jù)集中的一條記錄,在第一次掃描數(shù)據(jù)庫時統(tǒng)計1階頻繁集,按個數(shù)的逆序生成頭節(jié)點列表。第二次掃描數(shù)據(jù)庫時生成頻繁樹,樹中每個節(jié)點出現(xiàn)下一屬性指針等,但當維數(shù)和屬性值較多時生成的樹的深度很大,生成關聯(lián)規(guī)則較慢。

      在多值屬性挖掘應用中,在某些情況下一條記錄中某屬性的取值是唯一的。例如,某位教職工在某次常規(guī)體檢中,他的空腹血糖只能是正常、受損、糖尿病三種情況中的任意一種,不可能同時是兩種及兩種以上的組合。針對這些情況的應用,本文提出了FP-G算法。FP-G算法是FP-Growth關聯(lián)規(guī)則的一種改進算法,它通過修改FP-Tree為有向圖、增加新的數(shù)據(jù)存儲結構和優(yōu)化的剪枝策略,提高了算法執(zhí)行的效率,實驗結果驗證了它的有效性。

      2 關聯(lián)規(guī)則的基本概念和理論

      關聯(lián)規(guī)則挖掘中基本概念和相關定義[1-8]:

      定義1 設I={I1,I2,…,Im}是文字屬性,稱為項(item)。給定一個事務數(shù)據(jù)庫D,其中每個事務T是項的集合,滿足T?I。每個事務都有一個標識符,稱為TID。X是I的子集,如果X?I,則稱T包含X;如果X的元素個數(shù)為k,則可以稱X為k-項集(k-ItemSet)。

      定義2 如果項集X?I,Y?I,并且X∩Y=?,形如X?Y的蘊涵式稱為關聯(lián)規(guī)則,其中,X稱為規(guī)則的前項集,Y是規(guī)則的后項集。

      定義3 給定最小支持度閾值minSup,如果項集X的支持度大于等于minSup,則稱X為頻繁項集。頻繁k項集的集合記為項集Lk。

      對于數(shù)據(jù)挖掘中的關聯(lián)規(guī)則主要有兩個步驟:(1)給定事務數(shù)據(jù)庫D和項目集I={I1,I2,…,Im},發(fā)現(xiàn)D中所有大于指定minSup的頻繁模式完全集P;(2)從頻繁項集中的每個頻繁模式中抽取關聯(lián)規(guī)則I?l-s,其置信度大于等于minConf。其中,第(1)步是核心,決定挖掘關聯(lián)規(guī)則的總體性能。

      關聯(lián)規(guī)則挖掘算法中的主要性質:

      性質1 頻繁項集的所有非空子集都是頻繁的。

      性質2 非頻繁項集的所有超集都是非頻繁項集。

      在多維多值屬性挖掘應用中,有些應用針對某個屬性在一條記錄中其取值是唯一的,有如下性質:

      性質3 每條事務所包含的屬性數(shù)目相同,即每個事務的長度相同。

      性質4 某一屬性的不同的屬性值不會出現(xiàn)在同一個頻繁屬性集中。

      3 改進算法

      3.1 算法的基本數(shù)據(jù)結構

      設事務數(shù)據(jù)有N維,每一維的屬性都是多值屬性,各維屬性個數(shù)為:x1,x2,…,xn。設第m維的屬性取值標記為Vm(1),Vm(2),…,Vm(xm)。

      構建基于維的單鏈表,每個單鏈表對于某一維的所有屬性取值。

      單鍵表中每個節(jié)點包括3個數(shù)據(jù)域和2個指針域。

      屬性值:指此節(jié)點所在維屬性取值的一個。

      出現(xiàn)次數(shù):指此節(jié)點在數(shù)據(jù)庫中出現(xiàn)的次數(shù)。

      next指針:指向下一維的某個節(jié)點,表示此節(jié)點值和下一節(jié)點值在某條事務中同時出現(xiàn)。

      next指針個數(shù):表示此節(jié)點值和下一節(jié)點值在事務數(shù)據(jù)庫中一共出現(xiàn)了多少次。

      right指針:指向同一維的下一個屬性值節(jié)點。

      3.2 FP-G算法流程

      3.2.1 構建有向圖G

      (1)第一遍掃描事務數(shù)據(jù)庫D,統(tǒng)計每一維的每個屬性值出現(xiàn)的個數(shù),生成一階頻繁子集。

      (2)根據(jù)一階頻繁子集和頻繁項所在的維,按順序生成相應的單鏈表,每一維生成一條單鏈表。每條單鏈表中每個節(jié)點是此維的頻繁屬性值。

      (3)生成G的Head節(jié)點,Head節(jié)點通過指針指向第一維的所有節(jié)點。

      (4)第二遍掃描事務數(shù)據(jù)庫D,對于每條記錄按維加入到FP-G中。首先去除不在一階頻繁子集中的維,然后根據(jù)記錄中各維值的順序關系在FP-Tree中增加邊。如果是第一次增加,將節(jié)點的next指針指向下一維值對應的節(jié)點。如果不是第一次增加,將next個數(shù)加1,并且將兩個節(jié)點出現(xiàn)次數(shù)加1。

      3.2.2 生成關聯(lián)規(guī)則

      (1)深度遍歷有向圖G,將邊值小于minSup的邊刪除。如果剩余路徑上的結點還有父指針指向,則不作處理;如果沒有父指針指向,則掛在Head節(jié)點下。當遍歷結束時,樹中結點之間的邊數(shù)目都是大于minSup的。

      (2)再深度遍歷有向圖G,得到的每條路徑就是滿足minSup的最大頻繁模式項。

      (3)最后根據(jù)組合算法,可求出所有頻繁項。

      本算法類似于FP-Growth算法,都是在內存中生成事務數(shù)據(jù)庫的結構。根據(jù)多維多屬性數(shù)據(jù)特點,使用的是有向圖作為內存數(shù)據(jù)存儲結構。在根據(jù)有向圖生成關聯(lián)規(guī)則之前,對有向圖G使用了新的剪枝策略。生成關聯(lián)規(guī)則時,先生成最大頻繁模式集,最后根據(jù)最大頻繁模式集生成所有的頻繁集。

      4 FP-G算法實驗與分析

      4.1 算法流程實驗

      某事務數(shù)據(jù)庫中有6個事務,D={T1,T2,T3,T4,T5,T6},每條事務固定有4個屬性,每個屬性有若干取值。如表1所示。

      表1 多值屬性數(shù)據(jù)示例

      假設最小支持度30%,即最小支持計數(shù)為:minSup=30%×|D|=30%×6≈2。

      圖1 生成的FP-G圖

      (1)第一遍掃描事務數(shù)據(jù)庫D,統(tǒng)計每一維的屬性值出現(xiàn)的個數(shù)。統(tǒng)計結果:{{"1"∶3,"2"∶2,"3"∶1},{"4"∶3,"5"∶1,"6"∶2},{"7"∶3,"8"∶3},{"9"∶3,"10"∶2}}。根據(jù)minSupNum=2,則得到一階頻繁子集:{{"1"∶3,"2"∶2},{"4"∶3,"6"∶2},{"7"∶3,"8"∶3},{"9"∶4,"10"∶2}},并同時生成一階頻繁子集相應維的單鏈表和Head節(jié)點。

      (2)第二次掃描事務數(shù)據(jù)庫,將記錄按維加入到FP-G中。規(guī)則是,每條記錄按維在圖G上生成邊。如果維值不在圖中,則跳過此維。如果兩維之間的邊不存在,則增加邊并計數(shù)為1。如果兩維之間的邊存在,則邊上的計數(shù)加1。

      本例中,生成的FP-G如圖1。

      (3)對FP-G進行遍歷剪枝。深度遍歷圖G,去除邊計數(shù)小于minSupNum的邊(與Head相連的除外)。結果如圖2所示。

      圖2 剪枝后的FP-G圖

      (4)深度優(yōu)先遍歷FP-G,得到滿足minSup的最大頻繁模式集:{{"1"∶2,"4"∶2,"7"∶3,"9"∶null},{"2"∶2,"7"∶3,"9"∶null},{"6"∶2,"8"∶2,"10"∶null}}。數(shù)據(jù)含義:“1”等是指某維的屬性值節(jié)點,屬性值后面的數(shù)字指此節(jié)點與下一節(jié)點的連接邊的個數(shù)。根據(jù)組合算法,可以得到所有的頻繁項。

      4.2 算法性能比較

      關聯(lián)規(guī)則挖掘中,核心內容是生成支持minSup的頻繁模式完全集,決定了算法的總體性能。本文以生成頻繁模式完全集的時間開銷,來對FP-G算法和FP-Growth算法進行性能比較。

      測試數(shù)據(jù)為某醫(yī)院健康體檢數(shù)據(jù),共有9個屬性,即9維,每個屬性有3~5個屬性值。取最小支持度為10%,數(shù)據(jù)量從16萬條升到200萬條。

      圖3 低維數(shù)據(jù)運行時間和數(shù)據(jù)量關系

      由圖3中可見,當數(shù)據(jù)量較少時,F(xiàn)P-G算法性能與FP-Growth算法性能相近。在數(shù)據(jù)量較大時,F(xiàn)P-G算法要優(yōu)于基本的FP-Growth算法。

      圖4為數(shù)據(jù)集有16維,每維有3~5個屬性值時的性能比較。

      從圖4中可見,F(xiàn)P-Growth對維數(shù)敏感,當數(shù)據(jù)集的維數(shù)較高時,算法開銷比較大。FP-G算法在高維數(shù)據(jù)集上算法性能也較好。

      圖4 高維數(shù)據(jù)運行時間和數(shù)據(jù)量關系

      圖5表示FP-G算法在不同的最小支持度下的性能,測試數(shù)據(jù)集共16維,每維3~5個屬性值,數(shù)據(jù)集有100萬條記錄。

      圖5 FP-G運行時間和最小支持度關系

      從圖5中可見,當最小支持度過小時,需要更長的運行時間,因為要判斷和生成圖中更多的邊。當最小支持度較大時,運行時間較短,最后穩(wěn)定在某個時間值,這個時間值應該是掃描兩次數(shù)據(jù)集所用的時間。選擇合適的最小支持度,F(xiàn)P-G算法在較大數(shù)據(jù)集上性能表示良好。

      5 結束語

      本文根據(jù)多維多值關聯(lián)規(guī)則的特點,提出了基于有向圖的關聯(lián)規(guī)則挖掘算法。該算法總體思路類似于FP-Growth算法,通過第一遍掃描數(shù)據(jù)庫計算一階的頻繁集,通過第二遍掃描數(shù)據(jù)庫在內存中生成基于有向圖的頻繁數(shù)據(jù)結構。相對于FP-Growth算法,該算法無須對一階頻繁集排序,也無須生成每個葉子結點的指向下一個相同結點的指針。結合本文提出的剪枝策略,可以方便地生成最大關聯(lián)規(guī)則模式集。通過仿真,本算法性能相對于經典的FP-Growth算法有了一定的提升。

      [1]AgrawalR,ImielinskiT,SwamiA.MiningAssociationRulesBetweenSetsofItemsinLargeDatabases[J].ACMSIGMODRecord,1993,22(2):207-216

      [2]穆云婷,謝文閣.基于FP-Growth算法的多維關聯(lián)規(guī)則挖掘方法[J].遼寧工業(yè)大學學報:自然科學版,2010,4(2):81-83

      [3]楊云,羅艷霞.FP-Growth算法的改進[J].計算機工程與設計,2010,31(7):1506-1510

      [4]姜麗莉,孟凡榮,周勇,等.多值屬性關聯(lián)規(guī)則挖掘的Q-Apriori算法[J].計算機工程,2011,37(9):81-83

      [5]鄭亞軍,胡學鋼.基于PFP的關聯(lián)規(guī)則增量更新算法[J].合肥工業(yè)大學學報,2015,38(4):500-505

      [6]石杰.一種快速頻繁模式挖掘算法[J].煙臺大學學報:自然與工程版,2015,28(2):113-119

      [7]Sathish K.Efficient tree based distributed data mining algorithms for mining frequent patterns[J].International Journal of Computer Application,2010,11(10):233-242

      [8]Rahul M.Comparative analysis of apriori algorithm and frequent pattern algorithm for frequent pattern mining in web log data[J].International Journal of Computer Science and Information Technologies,2012,3(4):4662-4665

      (責任編輯:汪材印)

      2015-06-29

      安徽省高校省級自然科學研究重點項目“基于移動客戶端的教職工健康體檢數(shù)據(jù)智能分析管理系統(tǒng)的研發(fā)”(KJ2014A038)。

      汪峰坤(1978-),安徽霍邱人,碩士,講師,主要研究方向:數(shù)據(jù)挖掘、大數(shù)據(jù)處理。

      TP301.6

      :A

      :1673-2006(2015)12-0099-04

      10.3969/j.issn.1673-2006.2015.12.027

      猜你喜歡
      有向圖項集事務
      “事物”與“事務”
      基于分布式事務的門架數(shù)據(jù)處理系統(tǒng)設計與實現(xiàn)
      有向圖的Roman k-控制
      河湖事務
      超歐拉和雙有向跡的強積有向圖
      關于超歐拉的冪有向圖
      關聯(lián)規(guī)則中經典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項集的快速挖掘算法
      計算機工程(2014年6期)2014-02-28 01:26:12
      有向圖的同構判定算法:出入度序列法
      SQLServer自治事務實現(xiàn)方案探析
      肥乡县| 白水县| 邯郸市| 平潭县| 肇源县| 利川市| 齐河县| 开封市| 平邑县| 新野县| 崇仁县| 安顺市| 犍为县| 金堂县| 雷州市| 綦江县| 揭东县| 六安市| 富阳市| 太和县| 合肥市| 遂宁市| 济源市| 乌审旗| 崇文区| 广元市| 周宁县| 彭水| 安仁县| 奉贤区| 城固县| 古蔺县| 洪泽县| 镇雄县| 凤山市| 中山市| 龙里县| 瓦房店市| 德昌县| 调兵山市| 五华县|