張東澤
摘 要:數(shù)據(jù)挖掘是人工智能和自然語(yǔ)言理解等相關(guān)技術(shù)的綜合利用,目的是從大量數(shù)據(jù)中提取出可利用、有價(jià)值的信息或模式。人工智能、數(shù)據(jù)庫(kù)技術(shù)、概率與數(shù)理統(tǒng)計(jì)等技術(shù)是現(xiàn)代數(shù)據(jù)挖掘技術(shù)的主要支柱。而數(shù)據(jù)挖掘過(guò)程中應(yīng)用的技術(shù)越多,其得到的結(jié)果就越準(zhǔn)確。
關(guān)鍵詞:數(shù)據(jù)挖掘;發(fā)展進(jìn)程;應(yīng)用研究
1 數(shù)據(jù)挖掘相關(guān)概念
數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)告、在線分析處理)不同的是,數(shù)據(jù)挖掘的前提假設(shè)是沒(méi)有明確的信息挖掘和知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘得到的信息應(yīng)該具有未知,有效和實(shí)用三個(gè)特點(diǎn)。事先未知的信息指的是不可預(yù)見(jiàn)的,也就是說(shuō),數(shù)據(jù)挖掘就是發(fā)現(xiàn)那些找不到信息,甚至違反直覺(jué)的信息或知識(shí),挖掘出更意想不到的信息,可能會(huì)更有價(jià)值,而且它是一個(gè)重要的過(guò)程,也可能開(kāi)采過(guò)程不是線性的,而是反復(fù)循環(huán),挖掘知識(shí)不是通過(guò)一個(gè)簡(jiǎn)單的分析,而是通過(guò)大量數(shù)據(jù)的比較分析,利用一些特殊的處理大量的數(shù)據(jù)所使用的據(jù)挖掘工具才可以實(shí)現(xiàn)。
2 數(shù)據(jù)挖掘的功能應(yīng)用
數(shù)據(jù)挖掘的任務(wù)通??煞譃閮深悾好枋龊皖A(yù)測(cè)。描述性挖掘任務(wù)顯示數(shù)據(jù)庫(kù)中的數(shù)據(jù)的一般特征。預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。
(l)通過(guò)概念描述發(fā)現(xiàn)廣義知識(shí)
廣義知識(shí)是知識(shí)特性的一般描述,是對(duì)數(shù)據(jù)的概括、提煉和抽象。概念描述是對(duì)某些對(duì)象的內(nèi)涵進(jìn)行描述,總結(jié)這種類型的對(duì)象的特征。概念描述分成特征描述和區(qū)別性描述,前者描述特定對(duì)象的共同特征,后者描述不同的類和對(duì)象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象的共性。產(chǎn)生區(qū)別性描述的方法很多,如決策樹(shù)方法、遺傳算法等。概念描述方法和實(shí)現(xiàn)技術(shù)有很多,如數(shù)據(jù)立方體,面向?qū)傩詺w納等等。數(shù)據(jù)立方體也有其他別名,如“多維數(shù)據(jù)庫(kù)”、“視圖”、“OLA”等。
(2)通過(guò)關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)知識(shí)
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。如果兩個(gè)或兩個(gè)以上的變量值之間存在某種某種規(guī)律,則稱為一個(gè)關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)知識(shí)是反映一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識(shí)。如果兩個(gè)或更多屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。
(3)通過(guò)分類和聚類方法發(fā)現(xiàn)分類知識(shí)
分類知識(shí)反映了同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)。其中最典型的分類方法是基于決策樹(shù)的分類方法,即從實(shí)例構(gòu)建決策樹(shù),是一種指導(dǎo)學(xué)習(xí)方法。該方法根據(jù)訓(xùn)練子集(也被稱為窗口)形成決策樹(shù)。如果樹(shù)不能給所有對(duì)象的正確分類,然后選擇一些例外添加到窗口,重復(fù)這個(gè)過(guò)程,直到形成正確的決策集。最終的結(jié)果是一棵樹(shù),它的葉子節(jié)點(diǎn)是類名,中間節(jié)點(diǎn)屬性是一個(gè)分支,分支應(yīng)是屬性的某一個(gè)可能值。常用分類技術(shù)有貝葉斯分類和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集、模糊邏輯等。
(4)通過(guò)預(yù)測(cè)方法得到預(yù)測(cè)型知識(shí)
預(yù)測(cè)型知識(shí)指的是根據(jù)時(shí)間序列數(shù)據(jù),通過(guò)歷史和當(dāng)前數(shù)據(jù)推測(cè)未來(lái)的數(shù)據(jù),也可以認(rèn)為這是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。目前,時(shí)間序列預(yù)測(cè)方法有經(jīng)典統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。1968博克斯和詹金斯已經(jīng)提出了一套相對(duì)完整的時(shí)間序列建模理論和分析方法,這些經(jīng)典的數(shù)學(xué)方法通過(guò)建立隨機(jī)模型,如自回歸移動(dòng)平均模型和季節(jié)性調(diào)整模型等對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)。因?yàn)榇罅康臅r(shí)間序列是非平穩(wěn)的,特征參數(shù)和數(shù)據(jù)分布隨時(shí)間變化的,因此,僅僅通過(guò)對(duì)某段歷史數(shù)據(jù)的分析,創(chuàng)建一個(gè)單一的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型不能準(zhǔn)確預(yù)測(cè)任務(wù)。由于這個(gè)原因,人們提出了基于統(tǒng)計(jì)學(xué)和基于精度性的再訓(xùn)練方法,當(dāng)發(fā)現(xiàn)現(xiàn)有的預(yù)測(cè)模型不再適合當(dāng)前數(shù)據(jù)時(shí),對(duì)模型重新排練,獲得一個(gè)新的權(quán)重參數(shù),建立一個(gè)新的模型。
(5)通過(guò)偏差檢測(cè)得到偏差型知識(shí)
偏差檢測(cè)對(duì)檢測(cè)數(shù)據(jù)庫(kù)中常出現(xiàn)的異常記錄是非常有意義的,而偏差知識(shí)就是對(duì)差異和極端特例的描述,它揭示了事物偏離常規(guī)的異常現(xiàn)象,例如在分類中存在的反常實(shí)例、觀測(cè)值與預(yù)測(cè)值之間的偏差、隨時(shí)間而變化的量值和不滿足規(guī)則的特例等。隨著概念層次的提升,這些知識(shí)都可以被發(fā)現(xiàn),從微觀到宏觀滿足不同用戶的需要,也能滿足不同層次決策的需要。
4 當(dāng)前數(shù)據(jù)挖掘的主要技術(shù)
人工智能、數(shù)據(jù)庫(kù)技術(shù)、概率與數(shù)理統(tǒng)計(jì)等技術(shù)是現(xiàn)代數(shù)據(jù)挖掘技術(shù)的主要支柱。而數(shù)據(jù)挖掘過(guò)程中應(yīng)用的技術(shù)越多,其得到的結(jié)果就越準(zhǔn)確。以下是常用的數(shù)據(jù)挖掘技術(shù):
(1)關(guān)聯(lián)分析。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的主要模式之一。通過(guò)關(guān)聯(lián)分析可以挖掘隱藏在數(shù)據(jù)間的相互關(guān)系以及發(fā)現(xiàn)用戶瀏覽時(shí)的相關(guān)頁(yè)面,從數(shù)據(jù)中挖掘出最大頻繁訪問(wèn)項(xiàng)集,再經(jīng)過(guò)關(guān)聯(lián)商品喜好分析得出顧客的購(gòu)物傾向。在電子商務(wù)中,用戶關(guān)聯(lián)分析的典型例子是購(gòu)物籃分析,描述顧客的購(gòu)買(mǎi)行為,可以幫助零售商決定商品的捆綁銷售策略如著名的(面包-黃油-牛奶)例子就屬于關(guān)聯(lián)分析訪問(wèn)模式。所以網(wǎng)頁(yè)上擺放商品的時(shí)候可以將面包、黃油、牛奶一起出售,這對(duì)于企業(yè)確定生產(chǎn)銷售產(chǎn)品分類,設(shè)計(jì)市場(chǎng)分析等多方面是有價(jià)值的。
(2)聚類分析方法。聚類分析就是直接比較樣本中各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,而將性質(zhì)差別較大的分在不同的類。對(duì)變量聚類計(jì)算變量之間的距離,對(duì)樣本聚類則計(jì)算樣本之間的距離它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別上的個(gè)體間的距離盡可能大。
在電子商務(wù)中,聚類分析常用于市場(chǎng)細(xì)分,根據(jù)已有客戶的數(shù)據(jù),利用聚類技術(shù)將市場(chǎng)按客戶消費(fèi)模式的相似性分為若干細(xì)分市場(chǎng),以進(jìn)行有針對(duì)性的市場(chǎng)營(yíng)銷,提供更適合、更滿意的服務(wù)。通過(guò)對(duì)聚類的客戶特征的分析,電子商務(wù)網(wǎng)站可以為客戶提供個(gè)性化的服務(wù)。
(3)分類和預(yù)測(cè)。分類和預(yù)測(cè)功能可以用來(lái)提取描述重要數(shù)據(jù)類的模型,并使用模型來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。最常用的算法有判定歸納樹(shù)、貝葉斯分類法、距離分割算法等。分類分析是數(shù)據(jù)挖掘中應(yīng)用最多的方法,分類是將事件或?qū)ο髿w類,這樣既可以分析已有的數(shù)據(jù),也可以用來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)分類,通過(guò)分析已知分類信息的歷史數(shù)據(jù),總結(jié)出一個(gè)預(yù)測(cè)模型,預(yù)測(cè)哪些人可能會(huì)對(duì)產(chǎn)品目錄等有反應(yīng),可以針對(duì)這一類客戶的特點(diǎn)展開(kāi)商務(wù)活動(dòng),同樣可以提供個(gè)性化的信息服務(wù)。
(4)序列模式分析。序列模式挖掘就是要挖掘出交易集之間有時(shí)間序列關(guān)系的模式。它挖掘的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后或因果關(guān)系,序列模式中要找到一些項(xiàng)跟隨另一些項(xiàng),以預(yù)測(cè)未來(lái)。與序列模式分析和關(guān)聯(lián)分析類似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后或者因果關(guān)系,序列模式便于進(jìn)行電子商務(wù)的組織,預(yù)測(cè)客戶的訪問(wèn)模式,對(duì)客戶開(kāi)展有針對(duì)性的廣告服務(wù)或者主動(dòng)推薦客戶感興趣的頁(yè)面,以滿足訪問(wèn)者的特定要求。
在實(shí)際的應(yīng)用過(guò)程中,上述所有技術(shù)往往不是單獨(dú)使用的,各種方法的綜合利用才能夠最好的滿足人們的不同需求。
參考文獻(xiàn):
[1]任新. Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用研究[D].貴州大學(xué),2008.
[2]沈紅超. 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[D].江南大學(xué),2009.
[3]韓英. 淺談數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J]. 太原城市職業(yè)技術(shù)學(xué)院報(bào),2013,04:170-171.