• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究
    ——以Apriori算法為例

    2016-02-27 06:48:55劉木林朱慶華
    計算機技術(shù)與發(fā)展 2016年7期
    關(guān)鍵詞:項集數(shù)據(jù)量事務(wù)

    劉木林,朱慶華

    (南京大學(xué) 信息管理學(xué)院,江蘇 南京 210023)

    基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法研究
    ——以Apriori算法為例

    劉木林,朱慶華

    (南京大學(xué) 信息管理學(xué)院,江蘇 南京 210023)

    為了解決傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法在挖掘效率、算法擴展性等方面無法適應(yīng)大數(shù)據(jù)挖掘需求的問題,以經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法—Apriori算法為例,首先基于Hadoop平臺和MapReduce編程模型,實現(xiàn)算法的并行化。在此基礎(chǔ)上,基于事務(wù)縮減的思想對算法進行優(yōu)化,進一步提高算法的挖掘效率。搭建Hadoop集群環(huán)境,對算法的挖掘結(jié)果和挖掘效率進行實驗。通過并行挖掘結(jié)果驗證、串行版與并行版效率對比、挖掘時間與節(jié)點數(shù)目的變化關(guān)系、挖掘時間與數(shù)據(jù)量的變化關(guān)系4組實驗,結(jié)果表明:文中實現(xiàn)的Apriori算法不僅能夠準確挖掘頻繁項集,而且比傳統(tǒng)串行算法具有更高的挖掘性能和可擴展性。該算法能夠更好地適應(yīng)大數(shù)據(jù)集的挖掘要求,能夠?qū)崿F(xiàn)從大規(guī)模數(shù)據(jù)集中高效挖掘頻繁項集和關(guān)聯(lián)規(guī)則。

    數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Hadoop;Apriori

    0 引 言

    關(guān)聯(lián)規(guī)則是指存在于兩個或多個變量之間的一類重要的能被發(fā)現(xiàn)的規(guī)律性,這種規(guī)律性往往對實際的生產(chǎn)生活有著重要的指導(dǎo)作用,因此關(guān)聯(lián)規(guī)則挖掘一直都是數(shù)據(jù)挖掘的一個重要方面。隨著大數(shù)據(jù)時代的來臨,傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法已難以滿足大數(shù)據(jù)量的挖掘需求。Hadoop平臺是在大數(shù)據(jù)背景下誕生的分布式計算平臺。Hadoop的工作方式是并行的,通過并行提高處理效率。因此將傳統(tǒng)挖掘算法的思想基于Hadoop平臺實現(xiàn),使得傳統(tǒng)關(guān)聯(lián)規(guī)則算法能夠適應(yīng)大規(guī)模數(shù)據(jù)集的處理要求,同時借助Hadoop平臺在分布式處理方面的優(yōu)勢,獲得處理性能方面的提升無疑是很有意義的,而這也正是文中研究的目的所在。

    1 關(guān)聯(lián)規(guī)則算法研究現(xiàn)狀

    1993年,Agrawal提出關(guān)聯(lián)規(guī)則挖掘后,關(guān)聯(lián)規(guī)則的挖掘算法就成為了研究的一個熱點,相繼出現(xiàn)了很多研究成果。其中最著名的包括Agrawal提出的Apriori算法[1],這是布爾型關(guān)聯(lián)規(guī)則挖掘的基礎(chǔ)算法,此外Han等提出的改進算法—FP-Growth算法[2]。隨著數(shù)據(jù)量的不斷積累,串行算法越來越難以滿足需要,因此Agrawal等又在1996年創(chuàng)造性地提出了并行的挖掘算法[3]。而Hadoop平臺誕生后,也有研究將關(guān)聯(lián)規(guī)則算法通過Hadoop平臺進行移植和改進。

    表1總結(jié)了目前關(guān)聯(lián)規(guī)則算法研究的現(xiàn)狀。

    表1 關(guān)聯(lián)規(guī)則算法研究現(xiàn)狀

    從文獻調(diào)研中發(fā)現(xiàn),基于Hadoop平臺實現(xiàn)關(guān)聯(lián)規(guī)則挖掘仍然主要基于Apriori和FP-Growth這兩種基礎(chǔ)算法,在實現(xiàn)并行化的基礎(chǔ)上,再采用優(yōu)化策略對算法進行性能優(yōu)化。但是已有的研究在對算法進行實驗時,大都只專注于提高挖掘性能,并不注重對挖掘結(jié)果的驗證和比較?;谶@種情況,文中重點關(guān)注Apriori算法,首先將算法在Hadoop平臺上進行實現(xiàn),同時利用事務(wù)縮減思想對算法進行改進,在保證挖掘結(jié)果正確性的前提下,提高算法的挖掘性能和可擴展性。

    2 基于Hadoop的Apriori算法的實現(xiàn)與改進

    2.1 Hadoop平臺簡介

    Hadoop是基于主從結(jié)構(gòu)的架構(gòu),集群中主要分為master節(jié)點和slave節(jié)點。整個平臺最核心的兩個部分是HDFS(Hadoop Distributed File System)和MapReduce。

    HDFS是GFS(Google File System)的開源實現(xiàn),從架構(gòu)上看是一個主從體系結(jié)構(gòu),以流式數(shù)據(jù)訪問模式來存儲超大文件[28]。它的高容錯性、高可擴展性、高吞吐率與高獲得性等特點為大數(shù)據(jù)提供了可靠的存儲。而MapReduce則大大降低了并行編程的門檻,并行編程中的工作調(diào)度、負載均衡以及容錯處理等問題均由MapReduce框架負責(zé)。使用MapReduce框架編寫分布式并行程序時,只需要實現(xiàn)框架下的map()和reduce()函數(shù)即可。

    2.2 Apriori算法的Hadoop實現(xiàn)

    Apriori的Hadoop實現(xiàn)一般有兩種思路,筆者這里是通過迭代MapReduce的方法來實現(xiàn),因為HDFS默認的數(shù)據(jù)分塊大小是64 MB,如果采取另一種思路來實現(xiàn),則意味著每個節(jié)點都需要單獨處理64 MB的數(shù)據(jù)量,同時可能會產(chǎn)生數(shù)量龐大的局部頻繁項集。雖然Hadoop允許自定義文件塊的大小,但是這種更改會對Hadoop的可擴展性、伸縮性以及并行性造成影響,并不值得提倡。實現(xiàn)后的程序流程圖見圖1。

    圖1 并行后的程序流程圖

    下面對程序?qū)崿F(xiàn)的關(guān)鍵細節(jié)進行說明。

    (1)初始化過程。

    挖掘頻繁項集首先需要確定實際的支持度計數(shù),這要根據(jù)事務(wù)總數(shù)和輸入的支持度百分比來確定,但實驗中是以文件代替數(shù)據(jù)庫來存儲事務(wù)集,因此需要通過一個單獨的Job來完成事務(wù)總數(shù)的統(tǒng)計,統(tǒng)計完成后再計算出最小支持度計數(shù),并放入全局配置對象中。

    (2)挖掘頻繁1項集。

    挖掘頻繁1項集的過程類似于單詞計數(shù)過程,不同的是需要Reducer判斷每個條目的計數(shù)是否滿足最小支持度,并將滿足最小支持度的條目輸出,這個過程同樣需要主進程新建一個Job。

    (3)迭代挖掘頻繁k項集。

    這一步是整個算法實現(xiàn)的核心。首先需要讀入上一步得出的頻繁1項集,進行連接后產(chǎn)生候選2項集,由于候選2項集的產(chǎn)生無法進行剪枝,因此只需要進行連接步即可,然后再進行候選2項集的支持度計數(shù)與篩選。隨后Mapper從全局配置對象中獲取候選2項集的路徑,然后將文件中的條目讀入放到內(nèi)存中。隨后在map函數(shù)中按行讀入每一條事務(wù),并將包含于事務(wù)中的候選2項集輸出至Combiner中。Combiner先對本地相同key值的條目進行匯總,將本地匯總結(jié)果輸出至Reducer中,Reducer對全部的結(jié)果進行最終匯總,并且判斷條目的支持度計數(shù)是否滿足最小支持度計數(shù),如果滿足,則將條目及其支持度輸出至HDFS。主進程在Job完成之后,到對應(yīng)的上一次頻繁項集的輸出路徑中讀取k-1項頻繁項集,并且判斷k-1項頻繁項集是否為空,如果是,則結(jié)束挖掘,如果否,則對讀入的k-1項頻繁項集進行自連接,并利用先驗性質(zhì)進行剪枝,隨后開始一個Job對候選頻繁項集進行支持度計數(shù),并且不斷迭代這個過程,直到產(chǎn)生的頻繁項集為空。

    2.3 基于事務(wù)縮減的算法改進策略

    上節(jié)敘述了Apriori算法在Hadoop平臺上實現(xiàn)的基本思路,在這一思路中將數(shù)據(jù)庫的掃描過程實現(xiàn)了并行化,而數(shù)據(jù)庫掃描是Apriori算法的主要瓶頸之一。在基本實現(xiàn)的基礎(chǔ)上,還可以對算法的實現(xiàn)進行改進。表1中分析了Apriori算法的兩處性能瓶頸,對于問題二,文中算法在主程序產(chǎn)生候選項集的過程中應(yīng)用了先驗剪枝,對于候選項集的數(shù)量產(chǎn)生了限制作用。而對于問題一,文中進一步采用事務(wù)縮減的思想來減少數(shù)據(jù)庫事務(wù)的掃描次數(shù)。事務(wù)縮減思想同樣基于頻繁項集的一種性質(zhì)即:不包含任何k-1項頻繁集的事務(wù)不可能包含k項頻繁集,因此在數(shù)據(jù)庫掃描過程中可以將這些事務(wù)進行標記,從而減少需要掃描的事務(wù)數(shù)目,提高挖掘效率。而文中利用了與此相似的另外一種性質(zhì)即:不包含任何候選k項集的事務(wù)不可能包含任何k項頻繁集。

    基于事務(wù)縮減的算法改進策略需要解決的第一個問題就是如何唯一地標識每一條事務(wù)記錄。在HDFS中,每個文件都會以64MB的塊為單位進行存儲,每個塊都有一個唯一的URL。此外,在MapReduce執(zhí)行過程中,每個Mapper都需要單獨處理一個split(split與HDFS中的block是相對應(yīng)的),采用按行讀入事務(wù)記錄的方式時,key值為該行記錄在文件中的偏移字節(jié)數(shù),對于該記錄而言,此key值可以作為其在該split中的唯一標識。這樣,由split的URL加該事務(wù)記錄的key值便可以將其唯一地標識出來。按照該策略,改進的重點就在Mapper的執(zhí)行邏輯中。即Mapper首先需要獲取split的URL,存入Mapper中的一個成員變量。同時根據(jù)split的URL,根據(jù)約定的路徑找到存儲其剔除列表的文件,并將剔除列表讀入一個HashSet中。map函數(shù)對候選項集計數(shù)時,如果發(fā)現(xiàn)該條事務(wù)不包含任何候選項集,則將其加入最新的剔除列表。最后在Mapper的cleanup函數(shù)中將新的剔除列表附加到剔除文件中,以供下一次掃描時使用。

    筆者在測試中發(fā)現(xiàn),采用事務(wù)縮減進行改進后,在挖掘頻繁3項集時可以剔除約5%的事務(wù),4項集時可以剔除約10%的事務(wù),5項集時可以剔除約17%的事務(wù),6項集時可以剔除約25%的事務(wù)。因此,隨著挖掘的不斷進行,剔除的事務(wù)量會不斷增多,挖掘效率的提升也更加明顯。

    3 實 驗

    3.1 Hadoop分布式環(huán)境搭建

    為了進行實驗,筆者搭建了一個小型的集群環(huán)境,包括1個master節(jié)點和2個slave節(jié)點(節(jié)點計算機配置如表2所示),namenode、jobtracker均位于master節(jié)點,datanode、tasktracker均位于slave節(jié)點,3個節(jié)點統(tǒng)一使用JDK1.7.0_45版本,Hadoop版本則為1.2.1。

    表2 集群節(jié)點配置情況

    3.2 實驗結(jié)果分析

    實驗采用的數(shù)據(jù)為FIMI Repository(Frequent Itemset Mining Implementations Repository,該網(wǎng)站提供大量IEEE國際數(shù)據(jù)挖掘大會上關(guān)于頻繁項集挖掘方面的數(shù)據(jù)集、論文、實驗結(jié)果等資料)提供的一份webdocs事務(wù)數(shù)據(jù)集,該數(shù)據(jù)是由意大利國家研究理事會的Claudio Lucchese等通過Web爬蟲爬取了170萬Web文檔后,通過初步清理(取出html標簽)和分詞,并通過詞干提取算法,獲得了出現(xiàn)在文檔中的所有單詞的事務(wù)集(同一個文檔中一個單詞只計1次,并將相應(yīng)的單詞轉(zhuǎn)換為數(shù)字id來表示)。文件大小為1.4 GB,包含169萬條事務(wù)集,其中最長的事務(wù)集約包含7萬個條目。為了方便實驗的進行,在原文件的基礎(chǔ)上,將文件分割成50 MB,100 MB,150 MB,200 MB,250 MB,300 MB,500 MB,750 MB,1 GB,1.4 GB等分塊。另外,筆者利用Java語言實現(xiàn)了單機串行版的Apriori算法(以下簡稱串行版),并將串行版與并行算法的效率進行對比,其中串行版程序都運行在slave1節(jié)點上,實驗共分為3組進行,每次實驗都運行3次取平均值。

    (1)并行挖掘結(jié)果驗證。

    挖掘結(jié)果的驗證主要通過串行程序與并行程序挖掘結(jié)果的對比來展示,如果并行程序的挖掘結(jié)果與串行程序的一致,則說明筆者實現(xiàn)的并行算法是可靠的,反之則說明并行算法的設(shè)計與實現(xiàn)存在問題,無法得出正確的挖掘結(jié)果。

    表3顯示了150 M文件的挖掘結(jié)果;表4顯示了250 M文件的挖掘結(jié)果(FIM1代表頻繁項集1項集,其他的依此類推)。

    表3 150 M文件挖掘結(jié)果

    表4 250 M文件挖掘結(jié)果

    從表中可以看出,串行算法與并行算法挖掘出的頻繁項集的數(shù)目是一致的,另外,筆者對比了從頻繁1項集到頻繁5項集的具體挖掘結(jié)果,均完全一致。因此,文中提出的并行挖掘算法是可靠的,能夠準確挖掘出滿足最小支持度的頻繁項集。

    (2)串行版與并行版效率對比。

    分別利用串行版程序與并行版程序?qū)Υ笮?0 MB,100 MB,150 MB,200 MB,250 MB,300 MB,350 MB,400 MB,450 MB,500 MB的數(shù)據(jù)進行挖掘,最小支持度設(shè)為0.25,實驗結(jié)果見圖2。

    圖2 串行版與并行版效率對比

    從圖中可以看出,在數(shù)據(jù)量較小時,并行算法由于在工作調(diào)度等方面的開銷,并沒有體現(xiàn)出挖掘效率的優(yōu)勢。而隨著數(shù)據(jù)量的不斷積累,并行算法的優(yōu)勢逐漸體現(xiàn)出來,挖掘時間也大大少于串行算法。更重要的是,串行算法在挖掘500 MB以上的數(shù)據(jù)量時,內(nèi)存不足等方面的限制會導(dǎo)致運行失敗,除非繼續(xù)改進單機的配置,否則無法繼續(xù)挖掘更大的數(shù)據(jù),而并行算法則不存在這樣的問題。

    (3)挖掘時間與節(jié)點數(shù)目的變化關(guān)系。

    筆者搭建的集群共有3臺計算機,其中配置較好的一臺即作為NameNode、JobTracker,也作為DataNode、TaskTracker。分別將集群調(diào)整為1個節(jié)點、2個節(jié)點、3個節(jié)點,并對300 M的數(shù)據(jù)進行挖掘,設(shè)最小支持度為0.25,實驗結(jié)果見圖3。

    圖3 挖掘時間與節(jié)點數(shù)目的變化關(guān)系

    從圖中可以看出,計算節(jié)點的增大能夠明顯提高挖掘效率,這也是分布式計算可擴展性方面的最大優(yōu)勢之一,即通過節(jié)點的靈活配置,可以很輕松地應(yīng)對大數(shù)據(jù)的處理。

    (4)挖掘時間與數(shù)據(jù)量的變化關(guān)系。

    采用并行版程序分別挖掘大小為100 MB,200 MB,300 MB,400 MB,500 MB,600 MB,700 MB,800 MB,900 MB,1 000 MB,1 100 MB,1 200 MB,1 300 MB,1 400 MB的數(shù)據(jù)集,設(shè)置最小支持度為0.25,觀察隨著數(shù)據(jù)量的增加挖掘時間的變化情況,實驗結(jié)果如圖4所示。

    圖4 挖掘時間與數(shù)據(jù)量的變化關(guān)系

    從圖中可以看出,隨著挖掘數(shù)據(jù)量的不斷增長,挖掘時間的增長速度低于線性增長速度,并且接近于對數(shù)增長速度,而圖3中的普通串行算法的挖掘時間會因數(shù)據(jù)量的增加而迅速增長,說明文中算法對于數(shù)據(jù)量的增長有著更好的適應(yīng)性。如果結(jié)合計算節(jié)點的適當擴展,完全能夠適應(yīng)更大數(shù)據(jù)量的挖掘要求。

    4 結(jié)束語

    文中通過Hadoop平臺實現(xiàn)了Apriori算法的并行化,通過事務(wù)集的并行掃描大大提高了算法的執(zhí)行效率,同時為了減少數(shù)據(jù)庫的掃描消耗,運用事務(wù)縮減思想優(yōu)化算法實現(xiàn),進一步提高了算法效率。經(jīng)過一系列的實驗表明,文中實現(xiàn)的并行Apriori算法在保證挖掘結(jié)果準確的前提下,比普通串行挖掘具有更少的時間消耗,能夠更快速地挖掘出頻繁項集,同時從實驗中看出,并行算法對數(shù)據(jù)量的不斷增長有著更好的適應(yīng)能力,對于大文件也有著很好的挖掘性能。此外,實驗結(jié)果還表明,計算節(jié)點的增加同樣能夠提高挖掘效率,這也是分布式集群系統(tǒng)的最大威力所在。綜合來看,文中的研究能夠為大數(shù)據(jù)條件下關(guān)聯(lián)規(guī)則的高效挖掘提供借鑒意義。當然,目前也還存在一些不足,比如最小支持度的變化對算法性能的影響比較明顯,特別在頻繁2項集的挖掘上,因為先驗剪枝無法對候選2項集的產(chǎn)生進行限制,同時文中提出的事務(wù)縮減思想同樣也無法提高頻繁2項集的挖掘效率。因此,下一步的研究重點主要是如何利用哈希散列的方式來限制候選2項集的產(chǎn)生,進一步提高算法的效率。

    [1] Agrawal R,Srikant R.Fast algorithms for mining association rules[C]//Proceedings of the 20th VLDB conference.Santiago,Chile:[s.n.],1994:487-499.

    [2] Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[J].ACM SIGMOD Record,2000,29(2):1-12.

    [3] Agrawal R,Shafer J C.Parallel mining of association rules[J].IEEE Transactions on Knowledge and Data Engineering,1996,8(6):962-969.

    [4] Zaki M J.Scalable algorithms for association mining[J].IEEE Transactions on Knowledge and Data Engineering,2000,12(3):372-390.

    [5] Park J S,Chen M S,Yu P S.An effective hash-based algorithm for mining association rules[J].ACM SIGMOD Record,1995,24(2):175-186.

    [6] Sarasere A,Omiecinsky E,Navathe S.An efficient algorithm for mining association rules in large databases[C]//Proc of 21st international conference on very large databases.Zurich,Switzerland:[s.n.],1995.

    [7] Toivonen H. Sampling large databases for association rules[C]//Proc of conference on very large data bases.[s.l.]:[s.n.],1999:134-145.

    [8] 孫逢嘯,倪世宏,謝 川.一種基于矩陣的Apriori改進算法[J].計算機仿真,2013,30(8):245-249.

    [9] 羅 丹,李陶深.一種基于壓縮矩陣的Apriori算法改進研究[J].計算機科學(xué),2013,40(12):75-80.

    [10] 高海洋,沈 強,張軒溢,等.一種基于數(shù)據(jù)壓縮的Apriori算法[J].計算機工程與應(yīng)用,2013,49(14):117-120.

    [11] 楊 云,羅艷霞.FP-Growth算法的改進[J].計算機工程與設(shè)計,2010,31(7):1506-1509.

    [12] 張玉芳,熊忠陽,耿曉斐,等.Eclat算法的分析及改進[J].計算機工程,2010,36(23):28-30.

    [13] 馮培恩,劉 嶼,邱清盈,等.提高Eclat算法效率的策略[J].浙江大學(xué)學(xué)報:工學(xué)版,2013,47(2):223-230.

    [14] Za?ane O R,El-Hajj M,Lu P.Fast parallel association rule mining without candidacy generation[C]//Proceedings IEEE international conference on data mining.[s.l.]:IEEE,2001:665-668.

    [15] Park J S,Chen M S,Yu P.Efficient parallel data mining for association rules[C]//Pissinou N,Silberschatz A,Park E K,et al.Proceedings of the fourth international conference on information and knowledge management.New York,NY,USA:ACM,1995:31-36.

    [16] Cheung D W,Han J,Ng V T,et al.A fast distributed algorithm for mining association rules[C]//Proc of fourth international conference on parallel and distributed information systems.[s.l.]:IEEE,1996:31-42.

    [17] Yang X Y,Liu Z,Fu Y.MapReduce as a programming model for association rules algorithm on Hadoop[C]//Proc of 3rd international conference on information sciences and interaction sciences.[s.l.]:IEEE,2010:99-102.

    [18] Li N,Zeng L,He Q,et al.Parallel implementation of Apriori algorithm based on MapReduce[C]//Proc of 13th ACIS international conference on software engineering,artificial intelligence,networking and parallel & distributed computing.[s.l.]:IEEE,2012:236-241.

    [19] Lin M Y,Lee P Y,Hsueh S C.Apriori-based frequent itemset mining algorithms on MapReduce[C]//Proceedings of the 6th international conference on ubiquitous information management and communication.[s.l.]:ACM,2012.

    [20] Li L,Zhang M.The strategy of mining association rule based on cloud computing[C]//Proc of international conference on business computing and global informatization.[s.l.]:IEEE,2011:475-478.

    [21] Woo J.Apriori-Map/Reduce algorithm[C]//Proc of the 2012 international conference on parallel and distributed processing techniques and applications.Las Vegas:[s.n.],2012.

    [22] 章志剛,吉根林.基于迭代式MapReduce的Apriori算法設(shè)計與實現(xiàn)[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2012(S1):9-12.

    [23] 黃立勤,柳燕煌.基于MapReduce并行的Apriori算法改進研究[J].福州大學(xué)學(xué)報:自然科學(xué)版,2011,39(5):680-685.

    [24] 范燕燕.基于MapReduce的分布式關(guān)聯(lián)規(guī)則挖掘算法研究[D].哈爾濱:哈爾濱工程大學(xué),2013.

    [25] Yong W,Zhe Z,Fang W.A parallel algorithm of association rules based on cloud computing[C]//Proc of 8th international ICST conference on communications and networking in China.[s.l.]:IEEE,2013:415-419.

    [26] Zhou L,Zhong Z,Chang J,et al.Balanced parallel FP-growth with MapReduce[C]//Proc of IEEE youth conference on information computing and telecommunications.Beijing:IEEE,2010:243-246.

    [27] 周詩慧.基于Hadoop的改進的并行Fp-Growth算法[D].濟南:山東大學(xué),2013.

    [28] White T.Hadoop:the definitive guide[M].3rd ed.USA:O'Reillv Media,2012.

    Research on Association Rules Mining Algorithm Based on Hadoop—Taking Apriori as an Example

    LIU Mu-lin,ZHU Qing-hua

    (School of Information Management,Nanjing University,Nanjing 210023,China)

    In order to solve the problem that the traditional association rules mining algorithm has been unable to meet the mining needs of large amount of data in the aspect of efficiency and scalability,take Apriori as an example,the algorithm is realized in the parallelization based on Hadoop framework and MapReduce model.On the basis,it is improved using the transaction reduce method for further enhancement of the algorithm’s mining efficiency.The experiment,which consists of verification of parallel mining results,comparison on efficiency between serials and parallel,variable relationship between mining time and node number and between mining time and data amounts,is carried out in the mining results and efficiency by Hadoop clustering.Experiments show that the paralleled Apriori algorithm implemented is able to accurately mine frequent item sets,with a better performance and scalability.It can be better to meet the requirements of big data mining and efficiently mine frequent item sets and association rules from large dataset.

    data mining;association rules;Hadoop;Apriori

    2015-08-13

    2015-11-18

    時間:2016-06-22

    國家自科基金面上項目(71473114)

    劉木林(1991-),男,碩士研究生,通訊作者,研究方向為互聯(lián)網(wǎng)用戶行為分析;朱慶華,教授,博士生導(dǎo)師,研究方向為網(wǎng)絡(luò)信息資源管理、信息用戶行為、信息政策分析、決策咨詢服務(wù)等。

    http://www.cnki.net/kcms/detail/61.1450.TP.20160621.1701.010.html

    TP393

    A

    1673-629X(2016)07-0001-05

    10.3969/j.issn.1673-629X.2016.07.001

    猜你喜歡
    項集數(shù)據(jù)量事務(wù)
    “事物”與“事務(wù)”
    基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計與實現(xiàn)
    基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
    計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
    高刷新率不容易顯示器需求與接口標準帶寬
    河湖事務(wù)
    寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
    電子制作(2019年13期)2020-01-14 03:15:18
    關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
    卷宗(2014年5期)2014-07-15 07:47:08
    一種頻繁核心項集的快速挖掘算法
    計算機工程(2014年6期)2014-02-28 01:26:12
    SQLServer自治事務(wù)實現(xiàn)方案探析
    欧美在线黄色| 日韩欧美一区二区三区在线观看| 亚洲精品一区av在线观看| 国产高清激情床上av| 最新中文字幕久久久久| 丰满的人妻完整版| 91麻豆精品激情在线观看国产| 女同久久另类99精品国产91| 村上凉子中文字幕在线| 国产91精品成人一区二区三区| 一二三四社区在线视频社区8| 99国产综合亚洲精品| 国产一区二区三区在线臀色熟女| 麻豆成人午夜福利视频| 欧美3d第一页| 老司机福利观看| 高清在线国产一区| 日韩国内少妇激情av| 女同久久另类99精品国产91| 亚洲美女黄片视频| 老熟妇仑乱视频hdxx| 熟女电影av网| 十八禁人妻一区二区| 男人和女人高潮做爰伦理| 香蕉丝袜av| 欧美在线黄色| 长腿黑丝高跟| 国产精品久久视频播放| 国产视频内射| 国产亚洲精品一区二区www| 青草久久国产| 99久久精品热视频| 亚洲真实伦在线观看| 国产免费一级a男人的天堂| 国产精品99久久久久久久久| 一本精品99久久精品77| 久久草成人影院| 日韩亚洲欧美综合| 香蕉av资源在线| 男女午夜视频在线观看| 亚洲精品一卡2卡三卡4卡5卡| 国产亚洲精品久久久久久毛片| 夜夜躁狠狠躁天天躁| 老司机福利观看| 久久久精品大字幕| 搞女人的毛片| av天堂中文字幕网| 伊人久久大香线蕉亚洲五| 亚洲精品在线美女| 一级毛片女人18水好多| 欧洲精品卡2卡3卡4卡5卡区| 国产成人啪精品午夜网站| 一本久久中文字幕| 一本久久中文字幕| aaaaa片日本免费| 欧美日韩一级在线毛片| 18禁黄网站禁片午夜丰满| 黄色丝袜av网址大全| 欧美丝袜亚洲另类 | 俄罗斯特黄特色一大片| 国产国拍精品亚洲av在线观看 | 中文字幕人成人乱码亚洲影| 97碰自拍视频| 久久中文看片网| 欧美午夜高清在线| 亚洲无线在线观看| 极品教师在线免费播放| a在线观看视频网站| 国产欧美日韩一区二区精品| 久久午夜亚洲精品久久| 亚洲成a人片在线一区二区| 亚洲不卡免费看| 久久久精品大字幕| 美女 人体艺术 gogo| 亚洲精品456在线播放app | 美女cb高潮喷水在线观看| 欧美中文日本在线观看视频| 亚洲天堂国产精品一区在线| 99精品在免费线老司机午夜| 欧美日韩亚洲国产一区二区在线观看| www.熟女人妻精品国产| 久久久国产精品麻豆| 国产高清视频在线观看网站| 天天添夜夜摸| 一个人观看的视频www高清免费观看| 嫩草影院入口| 精品人妻一区二区三区麻豆 | 成人三级黄色视频| 男人舔奶头视频| 欧美又色又爽又黄视频| 久久人人精品亚洲av| 12—13女人毛片做爰片一| 午夜福利在线在线| 成人三级黄色视频| 一进一出好大好爽视频| 国产不卡一卡二| 五月伊人婷婷丁香| 午夜a级毛片| 国产精品一及| 亚洲无线在线观看| 日韩欧美免费精品| 欧美成人一区二区免费高清观看| 免费在线观看成人毛片| 成人鲁丝片一二三区免费| 亚洲欧美精品综合久久99| 黄色丝袜av网址大全| 日日夜夜操网爽| 午夜免费男女啪啪视频观看 | 天天躁日日操中文字幕| 午夜福利视频1000在线观看| 色精品久久人妻99蜜桃| 精品欧美国产一区二区三| 一级黄片播放器| 日本撒尿小便嘘嘘汇集6| 国产亚洲精品综合一区在线观看| 免费看a级黄色片| 一个人免费在线观看的高清视频| 人妻久久中文字幕网| 真人一进一出gif抽搐免费| 高潮久久久久久久久久久不卡| 91久久精品电影网| 国产一区二区激情短视频| 最近在线观看免费完整版| 两个人看的免费小视频| 婷婷精品国产亚洲av在线| 综合色av麻豆| 非洲黑人性xxxx精品又粗又长| 真人做人爱边吃奶动态| 亚洲精品在线观看二区| 欧美成人性av电影在线观看| 成年女人毛片免费观看观看9| 好看av亚洲va欧美ⅴa在| 女人高潮潮喷娇喘18禁视频| 深爱激情五月婷婷| 蜜桃久久精品国产亚洲av| 99久久九九国产精品国产免费| 搡老岳熟女国产| 51午夜福利影视在线观看| 99久国产av精品| 天天一区二区日本电影三级| 久久婷婷人人爽人人干人人爱| 老鸭窝网址在线观看| 高清在线国产一区| 全区人妻精品视频| 亚洲国产欧美人成| 狂野欧美激情性xxxx| 日本一本二区三区精品| 日本免费一区二区三区高清不卡| 偷拍熟女少妇极品色| bbb黄色大片| 91在线观看av| 一区福利在线观看| 久9热在线精品视频| 成人一区二区视频在线观看| 好男人电影高清在线观看| 最近视频中文字幕2019在线8| 在线看三级毛片| 国产午夜精品论理片| 精品久久久久久,| 日本免费a在线| 亚洲男人的天堂狠狠| 亚洲精品一卡2卡三卡4卡5卡| 国产精品一及| 国内精品久久久久久久电影| 天天一区二区日本电影三级| 国产精品,欧美在线| 亚洲五月婷婷丁香| 国产欧美日韩精品一区二区| 亚洲精品亚洲一区二区| 亚洲七黄色美女视频| 色av中文字幕| 国产亚洲精品久久久久久毛片| 男人舔女人下体高潮全视频| 99riav亚洲国产免费| 国产在线精品亚洲第一网站| 波多野结衣高清无吗| 欧美性猛交╳xxx乱大交人| 性欧美人与动物交配| 在线十欧美十亚洲十日本专区| 3wmmmm亚洲av在线观看| 亚洲精品久久国产高清桃花| 免费在线观看日本一区| 国产男靠女视频免费网站| 亚洲av一区综合| e午夜精品久久久久久久| 在线国产一区二区在线| 欧美bdsm另类| 国产成人影院久久av| 怎么达到女性高潮| 国产男靠女视频免费网站| 男女之事视频高清在线观看| 国产又黄又爽又无遮挡在线| 精品国产美女av久久久久小说| 久久精品国产清高在天天线| 久久久久久久久大av| 色综合亚洲欧美另类图片| 亚洲精品粉嫩美女一区| 欧美xxxx黑人xx丫x性爽| 午夜免费激情av| 三级毛片av免费| 最新美女视频免费是黄的| 特级一级黄色大片| av在线蜜桃| 久久亚洲精品不卡| 成人特级av手机在线观看| 51午夜福利影视在线观看| 热99re8久久精品国产| 狂野欧美激情性xxxx| av专区在线播放| 黄色日韩在线| 1000部很黄的大片| 变态另类丝袜制服| 老司机午夜福利在线观看视频| 亚洲av五月六月丁香网| 欧美黄色片欧美黄色片| 在线看三级毛片| 老司机在亚洲福利影院| 黄片小视频在线播放| 操出白浆在线播放| 免费无遮挡裸体视频| 欧美午夜高清在线| 在线看三级毛片| 成年版毛片免费区| 亚洲精品色激情综合| 精品无人区乱码1区二区| 色老头精品视频在线观看| 少妇人妻一区二区三区视频| 欧美成人一区二区免费高清观看| 日日摸夜夜添夜夜添小说| 婷婷精品国产亚洲av在线| 观看美女的网站| 一本一本综合久久| 亚洲国产精品合色在线| 国产主播在线观看一区二区| 97超级碰碰碰精品色视频在线观看| 岛国在线观看网站| 九色成人免费人妻av| 欧美色欧美亚洲另类二区| 欧美日韩瑟瑟在线播放| 丰满人妻一区二区三区视频av | 午夜免费男女啪啪视频观看 | 亚洲国产欧美网| 国产私拍福利视频在线观看| 亚洲av不卡在线观看| 色哟哟哟哟哟哟| 精品免费久久久久久久清纯| 在线国产一区二区在线| 丰满人妻一区二区三区视频av | 制服人妻中文乱码| 村上凉子中文字幕在线| 欧美激情在线99| 午夜视频国产福利| 高清日韩中文字幕在线| 午夜福利免费观看在线| 亚洲在线自拍视频| 久久精品国产清高在天天线| 成年免费大片在线观看| 亚洲中文字幕日韩| 欧美一区二区亚洲| 黑人欧美特级aaaaaa片| 午夜影院日韩av| 中国美女看黄片| 国产精品野战在线观看| 18禁国产床啪视频网站| 蜜桃亚洲精品一区二区三区| 亚洲成人久久性| 欧美日韩乱码在线| 国产伦精品一区二区三区四那| 一级a爱片免费观看的视频| 高清毛片免费观看视频网站| 特级一级黄色大片| 亚洲av免费在线观看| 国产亚洲精品久久久com| 好看av亚洲va欧美ⅴa在| 国产欧美日韩一区二区三| 久99久视频精品免费| 一个人看视频在线观看www免费 | 亚洲国产色片| 亚洲av二区三区四区| 色吧在线观看| 精品熟女少妇八av免费久了| 又紧又爽又黄一区二区| 少妇裸体淫交视频免费看高清| 法律面前人人平等表现在哪些方面| 三级男女做爰猛烈吃奶摸视频| 99在线人妻在线中文字幕| 久久草成人影院| 国产一级毛片七仙女欲春2| 深爱激情五月婷婷| 夜夜躁狠狠躁天天躁| 日韩欧美国产一区二区入口| 国产成人影院久久av| 欧美乱色亚洲激情| 美女黄网站色视频| 欧美zozozo另类| 国产淫片久久久久久久久 | 中文字幕熟女人妻在线| 国产成人av教育| 精品久久久久久久久久免费视频| av福利片在线观看| 国产不卡一卡二| 69人妻影院| 国产成人欧美在线观看| 国产亚洲精品一区二区www| 此物有八面人人有两片| 国产精品av视频在线免费观看| 国产精品久久久久久人妻精品电影| 少妇的丰满在线观看| 国产成+人综合+亚洲专区| 精品人妻1区二区| 99在线人妻在线中文字幕| 最近视频中文字幕2019在线8| 性欧美人与动物交配| 色哟哟哟哟哟哟| 啪啪无遮挡十八禁网站| 看黄色毛片网站| 国产精品久久久人人做人人爽| 99精品久久久久人妻精品| 亚洲专区国产一区二区| 亚洲av熟女| 丁香六月欧美| 日韩欧美三级三区| 在线播放国产精品三级| 一a级毛片在线观看| 可以在线观看的亚洲视频| 亚洲av二区三区四区| 99国产综合亚洲精品| 亚洲天堂国产精品一区在线| 国产一区在线观看成人免费| 亚洲一区高清亚洲精品| 精品人妻偷拍中文字幕| 桃红色精品国产亚洲av| 精品福利观看| 亚洲av熟女| 亚洲成av人片在线播放无| 中文字幕人妻丝袜一区二区| 校园春色视频在线观看| 成人三级黄色视频| 国产精品嫩草影院av在线观看 | 国产高清有码在线观看视频| 国产色婷婷99| 国产精品久久久久久精品电影| e午夜精品久久久久久久| 人妻夜夜爽99麻豆av| 一区二区三区免费毛片| 日韩精品中文字幕看吧| 噜噜噜噜噜久久久久久91| 淫妇啪啪啪对白视频| 久久99热这里只有精品18| 欧美黄色淫秽网站| 日韩免费av在线播放| 日韩欧美免费精品| 91九色精品人成在线观看| 天堂√8在线中文| xxx96com| 中文字幕人成人乱码亚洲影| e午夜精品久久久久久久| 国产极品精品免费视频能看的| 免费人成视频x8x8入口观看| 欧美绝顶高潮抽搐喷水| 免费看美女性在线毛片视频| 天堂av国产一区二区熟女人妻| 久久精品国产自在天天线| 少妇人妻精品综合一区二区 | 亚洲最大成人手机在线| 在线观看免费视频日本深夜| 欧美性感艳星| 久久久久精品国产欧美久久久| 国产精品久久久久久亚洲av鲁大| 亚洲精品久久国产高清桃花| 国产免费男女视频| 欧美一区二区国产精品久久精品| 国产综合懂色| 国产不卡一卡二| 国产麻豆成人av免费视频| 99久久99久久久精品蜜桃| 国产精品香港三级国产av潘金莲| 成人鲁丝片一二三区免费| 一区二区三区高清视频在线| 亚洲黑人精品在线| 亚洲在线自拍视频| 国产蜜桃级精品一区二区三区| 国产单亲对白刺激| 变态另类成人亚洲欧美熟女| 成人午夜高清在线视频| 99精品在免费线老司机午夜| 国内揄拍国产精品人妻在线| av片东京热男人的天堂| 欧美又色又爽又黄视频| 啦啦啦免费观看视频1| 日本黄色视频三级网站网址| av专区在线播放| 国产精品久久久久久亚洲av鲁大| 偷拍熟女少妇极品色| 国产高清videossex| 欧美又色又爽又黄视频| 亚洲精品久久国产高清桃花| 成人精品一区二区免费| 男人舔女人下体高潮全视频| 欧美黑人巨大hd| 天堂网av新在线| 亚洲精品在线观看二区| 亚洲黑人精品在线| 夜夜躁狠狠躁天天躁| 亚洲成人中文字幕在线播放| 一级作爱视频免费观看| 欧美激情久久久久久爽电影| 男女床上黄色一级片免费看| 露出奶头的视频| 偷拍熟女少妇极品色| 高清在线国产一区| 又粗又爽又猛毛片免费看| 91久久精品国产一区二区成人 | 国产成人av教育| 国产精品野战在线观看| 国产三级在线视频| 亚洲精华国产精华精| 免费一级毛片在线播放高清视频| 在线视频色国产色| 亚洲成av人片免费观看| 亚洲无线观看免费| 国产私拍福利视频在线观看| 99久久精品国产亚洲精品| 99久久九九国产精品国产免费| 欧美黄色片欧美黄色片| 久久久久性生活片| 在线a可以看的网站| 国产国拍精品亚洲av在线观看 | 国产探花极品一区二区| 亚洲av成人av| 欧洲精品卡2卡3卡4卡5卡区| 岛国视频午夜一区免费看| 淫妇啪啪啪对白视频| 亚洲精品粉嫩美女一区| 国产免费男女视频| 在线观看午夜福利视频| 一区二区三区高清视频在线| 亚洲欧美激情综合另类| 国内揄拍国产精品人妻在线| 淫妇啪啪啪对白视频| 色综合站精品国产| www日本在线高清视频| 中国美女看黄片| 色哟哟哟哟哟哟| 在线免费观看不下载黄p国产 | 91字幕亚洲| 欧美丝袜亚洲另类 | 成人国产一区最新在线观看| 欧美黄色淫秽网站| www.色视频.com| 日韩大尺度精品在线看网址| 极品教师在线免费播放| 国语自产精品视频在线第100页| 日本一二三区视频观看| 日韩欧美国产一区二区入口| 欧美日韩亚洲国产一区二区在线观看| 亚洲av美国av| 亚洲成av人片在线播放无| 深夜精品福利| 少妇的逼水好多| 免费观看人在逋| 亚洲专区国产一区二区| 在线观看免费午夜福利视频| 91av网一区二区| 国产精品久久电影中文字幕| 日韩欧美三级三区| 亚洲国产欧美网| 久久6这里有精品| 亚洲成人免费电影在线观看| 麻豆成人午夜福利视频| 在线视频色国产色| 国产 一区 欧美 日韩| 国产三级黄色录像| 757午夜福利合集在线观看| 99国产精品一区二区蜜桃av| 成人国产综合亚洲| а√天堂www在线а√下载| 成人亚洲精品av一区二区| 观看免费一级毛片| 国产免费av片在线观看野外av| 精品久久久久久成人av| 亚洲片人在线观看| 婷婷丁香在线五月| 国产成人a区在线观看| 免费av毛片视频| 国产欧美日韩一区二区精品| 12—13女人毛片做爰片一| 精品熟女少妇八av免费久了| 免费在线观看影片大全网站| 久久久久久久久久黄片| 国产精品 欧美亚洲| 热99在线观看视频| 精品人妻一区二区三区麻豆 | 国产精品久久久久久亚洲av鲁大| 久久性视频一级片| 成年女人看的毛片在线观看| 国产精品嫩草影院av在线观看 | 久9热在线精品视频| 国产午夜福利久久久久久| 禁无遮挡网站| 国产99白浆流出| 久久九九热精品免费| 身体一侧抽搐| 精品熟女少妇八av免费久了| 身体一侧抽搐| 国产精华一区二区三区| 国产老妇女一区| 日韩欧美精品免费久久 | 国产午夜福利久久久久久| 国模一区二区三区四区视频| 亚洲色图av天堂| 国产高清有码在线观看视频| 无限看片的www在线观看| 露出奶头的视频| 真人做人爱边吃奶动态| 亚洲精品国产精品久久久不卡| 国产精品一区二区免费欧美| 国产欧美日韩一区二区三| 国产精品久久电影中文字幕| 男人舔女人下体高潮全视频| 91麻豆av在线| 免费看a级黄色片| av片东京热男人的天堂| 国产精品影院久久| 可以在线观看的亚洲视频| 麻豆久久精品国产亚洲av| 国产精华一区二区三区| 99视频精品全部免费 在线| 亚洲aⅴ乱码一区二区在线播放| 99国产精品一区二区三区| av在线天堂中文字幕| 欧美日本视频| 露出奶头的视频| 亚洲成av人片在线播放无| svipshipincom国产片| 午夜福利18| 又爽又黄无遮挡网站| 亚洲国产精品999在线| 日本黄色片子视频| 日本五十路高清| aaaaa片日本免费| 婷婷精品国产亚洲av在线| 首页视频小说图片口味搜索| 国产野战对白在线观看| 欧美日韩亚洲国产一区二区在线观看| 九九久久精品国产亚洲av麻豆| 久久人妻av系列| 国产国拍精品亚洲av在线观看 | 午夜福利在线在线| x7x7x7水蜜桃| av中文乱码字幕在线| 亚洲第一欧美日韩一区二区三区| 啦啦啦免费观看视频1| 成人亚洲精品av一区二区| 中文字幕人成人乱码亚洲影| 亚洲av电影不卡..在线观看| 亚洲欧美日韩无卡精品| 亚洲一区高清亚洲精品| 亚洲狠狠婷婷综合久久图片| 看黄色毛片网站| 亚洲av一区综合| 国产激情偷乱视频一区二区| 精品一区二区三区人妻视频| 日韩亚洲欧美综合| 国内精品美女久久久久久| 日本一二三区视频观看| 我的老师免费观看完整版| av片东京热男人的天堂| 中文字幕av成人在线电影| 在线观看免费午夜福利视频| 动漫黄色视频在线观看| 国产精品久久久久久人妻精品电影| 亚洲欧美日韩东京热| 亚洲av一区综合| 午夜视频国产福利| 亚洲熟妇中文字幕五十中出| 国产亚洲精品av在线| 久久香蕉国产精品| 一个人看视频在线观看www免费 | 一级毛片女人18水好多| 琪琪午夜伦伦电影理论片6080| 亚洲在线自拍视频| 少妇的逼好多水| 99精品在免费线老司机午夜| 久久久久久久午夜电影| 国产亚洲精品综合一区在线观看| 一夜夜www| 国产乱人伦免费视频| 在线观看午夜福利视频| 三级国产精品欧美在线观看| 国产美女午夜福利| 成人三级黄色视频| 一本精品99久久精品77| 国产一区二区亚洲精品在线观看| 久久精品亚洲精品国产色婷小说| 亚洲精品影视一区二区三区av| 精品一区二区三区人妻视频| 欧美色欧美亚洲另类二区| 少妇人妻一区二区三区视频| 亚洲精品456在线播放app | 久久精品国产综合久久久| 亚洲aⅴ乱码一区二区在线播放| 一区二区三区激情视频| 无人区码免费观看不卡| 国产精品香港三级国产av潘金莲| 国产亚洲精品综合一区在线观看| 久久午夜亚洲精品久久| 九九久久精品国产亚洲av麻豆| 国产伦一二天堂av在线观看| 午夜精品久久久久久毛片777| 色综合亚洲欧美另类图片| 两性午夜刺激爽爽歪歪视频在线观看| 女警被强在线播放| 国产成年人精品一区二区| 国产精品98久久久久久宅男小说|