桑沐晨 王業(yè)
摘要:針對(duì)傳統(tǒng)的Apriori算法在處理大規(guī)模數(shù)據(jù)集時(shí)面臨的計(jì)算復(fù)雜度高和內(nèi)存消耗大的問(wèn)題,提出了在使用二進(jìn)制編碼的Apriori算法并采用Ray分布式框架以及與Sample動(dòng)態(tài)采樣算法結(jié)合——RBE-Apriori算法。將事務(wù)、候選集、頻繁項(xiàng)集轉(zhuǎn)化為二進(jìn)制,并使用Sample動(dòng)態(tài)采樣算法對(duì)候選集進(jìn)行處理,在生成關(guān)聯(lián)規(guī)則的過(guò)程中使用Ray分布式框架,可以有效的減少生成關(guān)聯(lián)規(guī)則的時(shí)間,從而提高算法效率。通過(guò)實(shí)驗(yàn)結(jié)果表明,改進(jìn)的算法相比于經(jīng)典Apriori算法,在生成相同頻繁項(xiàng)集下,組合次數(shù)減少了65%,生成關(guān)聯(lián)規(guī)則的時(shí)間上減少50%。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori算法;Apriori改進(jìn)算法;頻繁項(xiàng)集
中圖分類(lèi)號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)04-0080-04