何正玲
(西安文理學(xué)院 ,陜西西安,710065)
隨著信息通信技術(shù)的發(fā)展,人類社會(huì)已經(jīng)進(jìn)入了“網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代”,各種數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價(jià)值密度低。如何從海量 的數(shù)據(jù)中探尋數(shù)據(jù)規(guī)律,發(fā)現(xiàn)有意義的信息是迫切解決的難題。作為信息技術(shù)自然進(jìn)化的結(jié)果,數(shù)據(jù)挖掘這一研究領(lǐng)域應(yīng)運(yùn)而生。關(guān)聯(lián)規(guī)則( Association Rules)的挖掘在數(shù)據(jù)挖掘中扮演著一個(gè)重要的角色,對(duì)于關(guān)聯(lián)規(guī)則的挖掘算法已經(jīng)進(jìn)行了很多研究。閥值篩選、刪除候選項(xiàng)集,然后進(jìn)行下一次的合成并生成該層的頻繁項(xiàng)集。篩選之后,候選項(xiàng)集數(shù)減少,提高其挖掘速度。
Apriori算法是一種尋找頻繁項(xiàng)集的基本算法, 其基本原理是使用一種稱作逐層搜索的迭代方法,即用k項(xiàng)集去探索(k+1)項(xiàng)集。Apriori算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),該集合記作L1。Apriori算法的基本思想如下:先找出所有的頻繁1項(xiàng)集的集合L1,然后利用L1找L2(頻繁2項(xiàng)集的集合),利用L2找L3(頻繁3項(xiàng)集的集合),以此類推,直至不能找出的頻繁K項(xiàng)集的集合,結(jié)束。找出全部項(xiàng)集之后利用預(yù)先設(shè)定的最小支持度
Mining Frequent Patterns without Candidate Generation 一文中提出了一種新型的模式增長算法FP-growth。FP-growth算法是基于FP-tree結(jié)構(gòu),不會(huì)生成候選項(xiàng)集,挖掘頻繁項(xiàng)集采用模式增長的方法。它是一種關(guān)聯(lián)規(guī)則挖掘的新思路。
基本思路:不斷地迭代FP-tree的構(gòu)造和投影過程
算法描述如下:
1、對(duì)于每個(gè)頻繁項(xiàng),構(gòu)造它的條件投影數(shù)據(jù)庫和投影FP-tree。
2、對(duì)每個(gè)新構(gòu)建的FP-tree重復(fù)這個(gè)過程,直到構(gòu)造的新FP-tree為空,或者只包含一條路徑。
3、當(dāng)構(gòu)造的FP-tree為空時(shí),其前綴即為頻繁模式;當(dāng)只包含一條路徑時(shí),通過枚舉所有可能組合并與此樹的前綴連接即可得到頻繁模式。
FP-Growth 算法輸入: 對(duì)數(shù)據(jù)庫DB 進(jìn)行最小支持度約束后得到的FP-tree。 輸出: 全部頻繁項(xiàng)的集合。
首先, DB的FP-tree 包含了DB 中為了完成支持度閾值為N的挖掘所需的完整信息。其次, 如果FP-tree包含單一路徑,它可以進(jìn)行頻繁模式集的生成工作。否則,對(duì)頭表中的每個(gè)項(xiàng),產(chǎn)生它的條件模式基,將其與目前的模式合并,并構(gòu)造新模式下的條件模式樹。如果樹不為空,則繼續(xù)調(diào)用新模式下的函數(shù);否則, 函數(shù)在此結(jié)束。
綜上所述可知,兩種算法中,F(xiàn)P-Growth 算法的表現(xiàn)更好。
我們不直接比較算法的絕對(duì)運(yùn)行時(shí)間,因?yàn)?,不同的機(jī)器結(jié)構(gòu)可能有很大的不同。我們實(shí)現(xiàn)自己的算法,最好將不同的算法在同一臺(tái)機(jī)器上、同一環(huán)境下運(yùn)行,運(yùn)行時(shí)間這里指總的執(zhí)行時(shí)間,即輸入和輸出之間的期間,而不是CPU。此外,在FP增長的運(yùn)行時(shí)的所有報(bào)告,包括從原始構(gòu)建FP樹的時(shí)間數(shù)據(jù)庫。
通過對(duì)Apriori和FP- Growth算法進(jìn)行測(cè)試,可以看出,隨著最小支持度的逐漸減小,Apriori算法性能急劇降低,而FPGrowth算法性能相對(duì)穩(wěn)定,所需時(shí)間沒有發(fā)生突變的增加。經(jīng)過多次測(cè)試,結(jié)果顯示,F(xiàn)P- Growth 算法比Apriori算法快一個(gè)數(shù)量級(jí),且FP-Growth算法對(duì)不同長度的規(guī)則都有很好的適應(yīng)性。
FP-Growth和Apriori算法顯示線性可擴(kuò)展性與交易從10K到100K的數(shù)量。然而,F(xiàn)P-Growth增長比Apriori算法更具擴(kuò)展性。由于交易的數(shù)量增長時(shí),兩種方法之間差距變得越來越大。總體而言,F(xiàn)P-Growth在同一個(gè)數(shù)量級(jí)比Apriori算法在大型數(shù)據(jù)庫速度更快,而且這種差距變寬當(dāng)最小支持度閾值降低。
數(shù)據(jù)挖掘也是進(jìn)行商業(yè)決策的輔助工具,數(shù)據(jù)挖掘可一充大嶺的商業(yè)數(shù)據(jù)之中,對(duì)各種數(shù)據(jù)進(jìn)行抽樣、轉(zhuǎn)換、分析以及進(jìn)行模型化處理,進(jìn)而從中的出關(guān)鍵性數(shù)據(jù)。就此而言,數(shù)據(jù)挖掘在商業(yè)領(lǐng)域有著十分廣闊的應(yīng)用前景,特別是在市場(chǎng)營銷中的有著十分廣闊的應(yīng)用空間。通過系統(tǒng)的數(shù)據(jù)局分析,我們可以發(fā)現(xiàn)用戶的消費(fèi)特點(diǎn),在此基礎(chǔ)上,作出合理的營銷策略,促進(jìn)商品的銷售。目前,數(shù)據(jù)挖掘技術(shù)在營銷領(lǐng)域的應(yīng)用以及涉及到了各個(gè)領(lǐng)域,如,金融領(lǐng)域、電子商務(wù)等諸多方面。利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)顧客的潛在需求,對(duì)于促進(jìn)營銷的發(fā)展意義重大[2]。
學(xué)校的教學(xué)系統(tǒng)的是由不同的元素想和配合構(gòu)成的,充分發(fā)揮數(shù)據(jù)挖掘技術(shù)來挖掘數(shù)據(jù)庫中的知識(shí),發(fā)現(xiàn)教學(xué)系統(tǒng)中個(gè)不同的要素之間的關(guān)系,可以為師實(shí)現(xiàn)學(xué)校管理的科學(xué)化以及合理化提供科學(xué)的根據(jù)[3]。除此之外,通過數(shù)據(jù)挖掘技術(shù),我們可以發(fā)現(xiàn)教師的教學(xué)質(zhì)量與教師的經(jīng)驗(yàn)、教學(xué)的職齡以及專業(yè)等因素之間的內(nèi)在關(guān)聯(lián)用于提高教師的教學(xué)水平。同時(shí),通過數(shù)據(jù)挖掘我們也可以發(fā)現(xiàn),不同年段的學(xué)生的學(xué)習(xí)認(rèn)知特點(diǎn),根據(jù)學(xué)生的學(xué)習(xí)特點(diǎn)和學(xué)習(xí)特征,制定教學(xué)過程中,為實(shí)現(xiàn)了個(gè)性化教學(xué)體提供了技術(shù)支持[4]。
在我國,農(nóng)業(yè)是基礎(chǔ)產(chǎn)業(yè),農(nóng)業(yè)數(shù)據(jù)信息多而繁雜,具體可能涉及農(nóng)作物生長情況、土地使用情況、水設(shè)施情況、收成情況等等。然而,由于地域性、時(shí)效性的限制,對(duì)這些農(nóng)業(yè)數(shù)據(jù)信息要進(jìn)行及時(shí)、準(zhǔn)確的進(jìn)行整合、提取,需要借助于數(shù)據(jù)挖掘技術(shù),這樣才能夠提高農(nóng)業(yè)數(shù)據(jù)信息處理的實(shí)時(shí)性,充分發(fā)揮其預(yù)測(cè)、指導(dǎo)作用。數(shù)據(jù)挖掘技術(shù)的在農(nóng)業(yè)數(shù)據(jù)信息中的應(yīng)用的最大優(yōu)勢(shì)就是在保證信息質(zhì)量的前提下,深入挖掘其中作為有效的農(nóng)業(yè)信息,從而為我國農(nóng)業(yè)發(fā)展提供有力的數(shù)據(jù)支持,實(shí)現(xiàn)農(nóng)業(yè)部門的科學(xué)決策與管理,保證了我國農(nóng)業(yè)的快速、有效、健康發(fā)展[5]。
近年來,社會(huì)進(jìn)入快速發(fā)展時(shí)期,大數(shù)據(jù)所帶來的海量信息,對(duì)于數(shù)據(jù)挖掘技術(shù)來說既是機(jī)遇也是挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)的更新發(fā)展需要依靠高科技,需要改進(jìn)處理數(shù)據(jù)的工具進(jìn)行數(shù)據(jù)挖掘分析、以提高有預(yù)測(cè)性和決策力,從而保證數(shù)據(jù)信息的及時(shí)性、準(zhǔn)確性、。數(shù)據(jù)挖掘技術(shù)因其自身優(yōu)勢(shì),其應(yīng)用前景廣闊,必將推動(dòng)我國經(jīng)濟(jì)的快速發(fā)展,實(shí)現(xiàn)社會(huì)的信息化發(fā)展。
參考文獻(xiàn)
[1] Jiawei Han, Jian Pei, and Yiwen Yin. Mining Frequent Patterns without Candidate Generation[J].In Data Mining And Knowledge Discovery,8.53-87,2004
[2] 李平榮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報(bào),2014.3(3):45-47
[3] 魏萍萍等.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程, 2003,29(11):87 -89.
[4] 李汪麗等.數(shù)據(jù)挖掘在中國教育領(lǐng)域的應(yīng)用研究綜述[J].湖北第二師范學(xué)院學(xué)報(bào),2012.2(27):55-58
[5] 羅鳳娥等. 數(shù)據(jù)挖掘在農(nóng)業(yè)領(lǐng)域中的應(yīng)用研究[J]. 農(nóng)業(yè)網(wǎng)絡(luò)信息,2009.1(1)55-58