數(shù)據(jù)挖掘的發(fā)展及功能概述

2019-12-11 12:23:14張東澤

科學(xué)與財(cái)富 2019年19期

關(guān)鍵詞：發(fā)展進(jìn)程數(shù)據(jù)挖掘應(yīng)用研究

張東澤

摘要：數(shù)據(jù)挖掘是人工智能和自然語(yǔ)言理解等相關(guān)技術(shù)的綜合利用，目的是從大量數(shù)據(jù)中提取出可利用、有價(jià)值的信息或模式。人工智能、數(shù)據(jù)庫(kù)技術(shù)、概率與數(shù)理統(tǒng)計(jì)等技術(shù)是現(xiàn)代數(shù)據(jù)挖掘技術(shù)的主要支柱。而數(shù)據(jù)挖掘過(guò)程中應(yīng)用的技術(shù)越多，其得到的結(jié)果就越準(zhǔn)確。

關(guān)鍵詞：數(shù)據(jù)挖掘；發(fā)展進(jìn)程；應(yīng)用研究

1 數(shù)據(jù)挖掘相關(guān)概念

數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析（如查詢、報(bào)告、在線分析處理）不同的是，數(shù)據(jù)挖掘的前提假設(shè)是沒(méi)有明確的信息挖掘和知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘得到的信息應(yīng)該具有未知，有效和實(shí)用三個(gè)特點(diǎn)。事先未知的信息指的是不可預(yù)見(jiàn)的，也就是說(shuō)，數(shù)據(jù)挖掘就是發(fā)現(xiàn)那些找不到信息，甚至違反直覺(jué)的信息或知識(shí)，挖掘出更意想不到的信息，可能會(huì)更有價(jià)值，而且它是一個(gè)重要的過(guò)程，也可能開(kāi)采過(guò)程不是線性的，而是反復(fù)循環(huán)，挖掘知識(shí)不是通過(guò)一個(gè)簡(jiǎn)單的分析，而是通過(guò)大量數(shù)據(jù)的比較分析，利用一些特殊的處理大量的數(shù)據(jù)所使用的據(jù)挖掘工具才可以實(shí)現(xiàn)。

2 數(shù)據(jù)挖掘的功能應(yīng)用

數(shù)據(jù)挖掘的任務(wù)通?？煞譃閮深悾好枋龊皖A(yù)測(cè)。描述性挖掘任務(wù)顯示數(shù)據(jù)庫(kù)中的數(shù)據(jù)的一般特征。預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷，以進(jìn)行預(yù)測(cè)。

（l）通過(guò)概念描述發(fā)現(xiàn)廣義知識(shí)

廣義知識(shí)是知識(shí)特性的一般描述，是對(duì)數(shù)據(jù)的概括、提煉和抽象。概念描述是對(duì)某些對(duì)象的內(nèi)涵進(jìn)行描述，總結(jié)這種類型的對(duì)象的特征。概念描述分成特征描述和區(qū)別性描述，前者描述特定對(duì)象的共同特征，后者描述不同的類和對(duì)象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象的共性。產(chǎn)生區(qū)別性描述的方法很多，如決策樹(shù)方法、遺傳算法等。概念描述方法和實(shí)現(xiàn)技術(shù)有很多，如數(shù)據(jù)立方體，面向?qū)傩詺w納等等。數(shù)據(jù)立方體也有其他別名，如“多維數(shù)據(jù)庫(kù)”、“視圖”、“OLA”等。

（2）通過(guò)關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)知識(shí)

數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。如果兩個(gè)或兩個(gè)以上的變量值之間存在某種某種規(guī)律，則稱為一個(gè)關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)知識(shí)是反映一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識(shí)。如果兩個(gè)或更多屬性之間存在關(guān)聯(lián)，那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。

（3）通過(guò)分類和聚類方法發(fā)現(xiàn)分類知識(shí)

分類知識(shí)反映了同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)。其中最典型的分類方法是基于決策樹(shù)的分類方法，即從實(shí)例構(gòu)建決策樹(shù)，是一種指導(dǎo)學(xué)習(xí)方法。該方法根據(jù)訓(xùn)練子集（也被稱為窗口）形成決策樹(shù)。如果樹(shù)不能給所有對(duì)象的正確分類，然后選擇一些例外添加到窗口，重復(fù)這個(gè)過(guò)程，直到形成正確的決策集。最終的結(jié)果是一棵樹(shù)，它的葉子節(jié)點(diǎn)是類名，中間節(jié)點(diǎn)屬性是一個(gè)分支，分支應(yīng)是屬性的某一個(gè)可能值。常用分類技術(shù)有貝葉斯分類和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集、模糊邏輯等。

（4）通過(guò)預(yù)測(cè)方法得到預(yù)測(cè)型知識(shí)

預(yù)測(cè)型知識(shí)指的是根據(jù)時(shí)間序列數(shù)據(jù)，通過(guò)歷史和當(dāng)前數(shù)據(jù)推測(cè)未來(lái)的數(shù)據(jù)，也可以認(rèn)為這是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。目前，時(shí)間序列預(yù)測(cè)方法有經(jīng)典統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。1968博克斯和詹金斯已經(jīng)提出了一套相對(duì)完整的時(shí)間序列建模理論和分析方法，這些經(jīng)典的數(shù)學(xué)方法通過(guò)建立隨機(jī)模型，如自回歸移動(dòng)平均模型和季節(jié)性調(diào)整模型等對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)。因?yàn)榇罅康臅r(shí)間序列是非平穩(wěn)的，特征參數(shù)和數(shù)據(jù)分布隨時(shí)間變化的，因此，僅僅通過(guò)對(duì)某段歷史數(shù)據(jù)的分析，創(chuàng)建一個(gè)單一的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型不能準(zhǔn)確預(yù)測(cè)任務(wù)。由于這個(gè)原因，人們提出了基于統(tǒng)計(jì)學(xué)和基于精度性的再訓(xùn)練方法，當(dāng)發(fā)現(xiàn)現(xiàn)有的預(yù)測(cè)模型不再適合當(dāng)前數(shù)據(jù)時(shí)，對(duì)模型重新排練，獲得一個(gè)新的權(quán)重參數(shù)，建立一個(gè)新的模型。

（5）通過(guò)偏差檢測(cè)得到偏差型知識(shí)

偏差檢測(cè)對(duì)檢測(cè)數(shù)據(jù)庫(kù)中常出現(xiàn)的異常記錄是非常有意義的，而偏差知識(shí)就是對(duì)差異和極端特例的描述，它揭示了事物偏離常規(guī)的異常現(xiàn)象，例如在分類中存在的反常實(shí)例、觀測(cè)值與預(yù)測(cè)值之間的偏差、隨時(shí)間而變化的量值和不滿足規(guī)則的特例等。隨著概念層次的提升，這些知識(shí)都可以被發(fā)現(xiàn)，從微觀到宏觀滿足不同用戶的需要，也能滿足不同層次決策的需要。

4 當(dāng)前數(shù)據(jù)挖掘的主要技術(shù)

人工智能、數(shù)據(jù)庫(kù)技術(shù)、概率與數(shù)理統(tǒng)計(jì)等技術(shù)是現(xiàn)代數(shù)據(jù)挖掘技術(shù)的主要支柱。而數(shù)據(jù)挖掘過(guò)程中應(yīng)用的技術(shù)越多，其得到的結(jié)果就越準(zhǔn)確。以下是常用的數(shù)據(jù)挖掘技術(shù)：

（1）關(guān)聯(lián)分析。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的主要模式之一。通過(guò)關(guān)聯(lián)分析可以挖掘隱藏在數(shù)據(jù)間的相互關(guān)系以及發(fā)現(xiàn)用戶瀏覽時(shí)的相關(guān)頁(yè)面，從數(shù)據(jù)中挖掘出最大頻繁訪問(wèn)項(xiàng)集，再經(jīng)過(guò)關(guān)聯(lián)商品喜好分析得出顧客的購(gòu)物傾向。在電子商務(wù)中，用戶關(guān)聯(lián)分析的典型例子是購(gòu)物籃分析，描述顧客的購(gòu)買(mǎi)行為，可以幫助零售商決定商品的捆綁銷售策略如著名的（面包-黃油-牛奶）例子就屬于關(guān)聯(lián)分析訪問(wèn)模式。所以網(wǎng)頁(yè)上擺放商品的時(shí)候可以將面包、黃油、牛奶一起出售，這對(duì)于企業(yè)確定生產(chǎn)銷售產(chǎn)品分類，設(shè)計(jì)市場(chǎng)分析等多方面是有價(jià)值的。

（2）聚類分析方法。聚類分析就是直接比較樣本中各事物之間的性質(zhì)，將性質(zhì)相近的歸為一類，而將性質(zhì)差別較大的分在不同的類。對(duì)變量聚類計(jì)算變量之間的距離，對(duì)樣本聚類則計(jì)算樣本之間的距離它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小，而不同類別上的個(gè)體間的距離盡可能大。

在電子商務(wù)中，聚類分析常用于市場(chǎng)細(xì)分，根據(jù)已有客戶的數(shù)據(jù)，利用聚類技術(shù)將市場(chǎng)按客戶消費(fèi)模式的相似性分為若干細(xì)分市場(chǎng)，以進(jìn)行有針對(duì)性的市場(chǎng)營(yíng)銷，提供更適合、更滿意的服務(wù)。通過(guò)對(duì)聚類的客戶特征的分析，電子商務(wù)網(wǎng)站可以為客戶提供個(gè)性化的服務(wù)。

（3）分類和預(yù)測(cè)。分類和預(yù)測(cè)功能可以用來(lái)提取描述重要數(shù)據(jù)類的模型，并使用模型來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。最常用的算法有判定歸納樹(shù)、貝葉斯分類法、距離分割算法等。分類分析是數(shù)據(jù)挖掘中應(yīng)用最多的方法，分類是將事件或?qū)ο髿w類，這樣既可以分析已有的數(shù)據(jù)，也可以用來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)分類，通過(guò)分析已知分類信息的歷史數(shù)據(jù)，總結(jié)出一個(gè)預(yù)測(cè)模型，預(yù)測(cè)哪些人可能會(huì)對(duì)產(chǎn)品目錄等有反應(yīng)，可以針對(duì)這一類客戶的特點(diǎn)展開(kāi)商務(wù)活動(dòng)，同樣可以提供個(gè)性化的信息服務(wù)。

（4）序列模式分析。序列模式挖掘就是要挖掘出交易集之間有時(shí)間序列關(guān)系的模式。它挖掘的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后或因果關(guān)系，序列模式中要找到一些項(xiàng)跟隨另一些項(xiàng)，以預(yù)測(cè)未來(lái)。與序列模式分析和關(guān)聯(lián)分析類似，其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系，但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后或者因果關(guān)系，序列模式便于進(jìn)行電子商務(wù)的組織，預(yù)測(cè)客戶的訪問(wèn)模式，對(duì)客戶開(kāi)展有針對(duì)性的廣告服務(wù)或者主動(dòng)推薦客戶感興趣的頁(yè)面，以滿足訪問(wèn)者的特定要求。

在實(shí)際的應(yīng)用過(guò)程中，上述所有技術(shù)往往不是單獨(dú)使用的，各種方法的綜合利用才能夠最好的滿足人們的不同需求。

參考文獻(xiàn)：

[1]任新. Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用研究[D].貴州大學(xué)，2008.

[2]沈紅超. 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[D].江南大學(xué)，2009.

[3]韓英. 淺談數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J]. 太原城市職業(yè)技術(shù)學(xué)院報(bào)，2013，04：170-171.