【摘 要】針對目前幾乎所有算法都無法在一個包含頻繁模式的大數(shù)據(jù)庫中挖掘到極大頻繁模式的問題,本文提出一種基于模式圖的頻繁模式挖掘算法GFPMA(Graph-Based Frequent Pattern Mining Algorithm),算法采用一種自上而下的挖掘方式,將交易數(shù)據(jù)庫轉(zhuǎn)換成模式圖,通過兩個優(yōu)化階段:剪枝冗余團和擴展候選模式,挖掘模式圖中的極大團,進而得到Top-N極大頻繁模式。
【關(guān)鍵詞】頻繁模式挖掘 模式圖
一、前言
頻繁模式挖掘是數(shù)據(jù)挖掘研究中的一個基本問題。在文獻[1]中,首次提出一種模式為巨模式(Colossal Pattern),挖掘指定數(shù)量(如,K)的頻繁巨模式,并提出了一種基于模式融合方法的算法。文獻[2]中提出的算法,旨在尋找Top-K最大頻繁模式,文中提出一種極大團算法,該算法以自上而下的方式進行檢測。
在本文中,提出一種新的自上而下的挖掘方法,將交易數(shù)據(jù)庫轉(zhuǎn)換成模式圖,通過兩個優(yōu)化階段:剪枝冗余團和擴展候選模式,挖掘模式圖中的極大團,進而得到Top-N極大頻繁模式。
二、基本概念
(一)基本概念
(四)結(jié)論
本文中,提出基于模式圖的頻繁模式挖掘算法是一種新的自上而下的挖掘模式,旨在大數(shù)據(jù)集中挖掘出極大頻繁模式。通過將數(shù)據(jù)集劃分為模式圖,找出模式圖的最大子圖,通過無效團的剪枝和擴展候選模式,Top-N極大頻繁模式。
參考文獻:
[1]神鵬飛,王希武,耿志廣,姜樟,王創(chuàng)偉.數(shù)據(jù)挖掘的方法分類研究[J].價值工程.2012:146-147.
[2]肖海林,李興明.層次分析法在通信告警加權(quán)關(guān)聯(lián)規(guī)則挖掘中的應(yīng)用研究[J].電信科學.2006(11): 36-39.
作者簡介:陳一心,廣西銀行學校,助理講師。