數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用研究

2012-08-06 12:52:06徐國慶段春梅

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2012年12期

徐國慶段春梅

山東師范大學(xué)管理科學(xué)與工程學(xué)院山東 250014

0 引言

面對信息時代巨大的客戶信息量，企業(yè)急需一種信息分析技術(shù)對各種數(shù)據(jù)進行準(zhǔn)確、有效的分析，數(shù)據(jù)挖掘技術(shù)就是這樣一種技術(shù)。數(shù)據(jù)挖掘(Data Mining，DM)，又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database，KDD)，是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中，通過知識發(fā)現(xiàn)活動，尋找關(guān)聯(lián)規(guī)則、分類規(guī)則、周期性規(guī)律等主要類型的知識，提取有用信息的過程。數(shù)據(jù)挖掘技術(shù)為客戶關(guān)系管理提供了強有力的技術(shù)保障。

1 典型的數(shù)據(jù)挖掘算法和過程

1.1 數(shù)據(jù)挖掘算法

(1) 最近鄰算法：K最近鄰(k-Nearest Neighbor，KNN)分類算法，是一個理論上比較成熟的方法，也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是：如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別。最近鄰算法主要用于分類。

(2) 關(guān)聯(lián)規(guī)則算法：關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一種主要形式，關(guān)聯(lián)規(guī)則主要以“如果……那么……”的形式描述，主要挖掘顧客同時購買兩種或者多種產(chǎn)品的可能性，比如一條規(guī)則可以描述為“如果顧客購買了啤酒，那么他購買尿布的概率為85%”。

(3) 神經(jīng)網(wǎng)絡(luò)算法：神經(jīng)網(wǎng)絡(luò)一詞來源于生物學(xué)，神經(jīng)網(wǎng)絡(luò)算法是從人工智能領(lǐng)域發(fā)展起來的，神經(jīng)網(wǎng)絡(luò)通過在計算機上運行的模式識別和機器學(xué)習(xí)算法的程序，在對大量歷史數(shù)據(jù)庫進行計算的基礎(chǔ)上建立的預(yù)測模型。

(4) 決策樹算法：決策樹算法是在客戶關(guān)系管理中應(yīng)用最為廣泛的算法之一，它被廣泛應(yīng)用于市場細(xì)分、客戶細(xì)分、客戶流失預(yù)測中。決策樹是樹形結(jié)構(gòu)的預(yù)測模型，樹的每一個分支都是一個分類問題，樹葉是帶有分類的數(shù)據(jù)分割。

(5) 遺傳算法：遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學(xué)機理的生物進化過程的計算模型，是一種通過模擬自然進化過程搜索最優(yōu)解的方法遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學(xué)機理的生物進化過程的計算模型，是一種通過模擬自然進化過程搜索最優(yōu)解的方法。

1.2 CRM中的數(shù)據(jù)挖掘流程

CRM中的數(shù)據(jù)挖掘流程如圖1所示。

圖1 CRM中的數(shù)據(jù)挖掘流程

(1) 數(shù)據(jù)整理

由于企業(yè)所收集數(shù)據(jù)的來源和表示方法等的不同，使得數(shù)據(jù)雜亂無序，在進行數(shù)據(jù)挖掘之前必須先進行數(shù)據(jù)整理。數(shù)據(jù)整理主要包括四個子過程，即數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換。數(shù)據(jù)清理的目標(biāo)是消除原始數(shù)據(jù)中的噪聲和不一致的數(shù)據(jù)，使多種數(shù)據(jù)源可以組合在一起，并從數(shù)據(jù)庫中檢索分析與任務(wù)相關(guān)的數(shù)據(jù)，使數(shù)據(jù)變成統(tǒng)一或適合挖掘的形式。

(2) 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘階段是運用已經(jīng)選定的數(shù)據(jù)挖掘方法對應(yīng)經(jīng)準(zhǔn)備好的數(shù)據(jù)進行操作，從這些數(shù)據(jù)中提取有用的信息。

(3) 評估與表示

這一階段分為模式評估與知識表示兩個子過程。模式評估指根據(jù)某種興趣度度量，識別知識表示的真正有趣的模式。知識表示指使用可視化和知識表示技術(shù)，向用戶提供挖掘的知識。

2 應(yīng)用實例

表1是客戶的基本信息以及他們對應(yīng)的對某企業(yè)產(chǎn)品每月的平均消費額度，下面我們將運用決策樹算法進行客戶盈利能力分析。

表1 初始客戶基本信息

(1) 數(shù)據(jù)整理

為了方便操作，對數(shù)據(jù)進行如下操作(表2)。進行整理后得到的數(shù)據(jù)表3所示。

表2 客戶信息分段

表3 整理后的客戶基本信息

(2) 運用決策樹算法進行數(shù)據(jù)挖掘

用決策樹算法的關(guān)鍵點就是計算信息增益，尋找分支節(jié)點，計算信息增益的公式為：

其中Gain(A)表示屬性A的信息增益，I(S1,S2,……Sm)表示描述結(jié)果的元素的期望信息，其中m表示屬性取值的個數(shù)。上表中描述結(jié)果的屬性試消費額度，即消費額度越高的表示客戶越有價值，共有兩個取值0、1，m取值2，S1=0，S2=1，E(A)表示屬性A的期望信息。又有：

Pi為屬性值i出現(xiàn)的頻率，P1=5/8(1出現(xiàn)的頻率),P2=3/8(0出現(xiàn)的頻率)，所以題目中的I(S1，S2)=-5/8log2(5/8)-3/8log2(3/8)=0.9544，再有：

其中I(S1j……Smj)的算法以屬性性別為例，性別也有兩個取值1和0，消費額度=1，性別=1，S11=3，同理可知S21=1,S12=2,S22=2，所以I(S11，S21)=I(3,1)=-3/4log2(3/4)-1/4log2(1/4)= 0.8112,I(S12,S22)=I(2,2)=1,所以E(性別)=4/8I(S11,S21)+4/8I(S12,S22)=0.9056,Gain(性別)=I(S1,S2)-E(性別)=0.9544-0.9056=0.0488。同理算出：

Gain(年齡)=0.2657

Gain(婚姻狀況)=0.0157

Gain(收入)=0.5032

Gain(距離)=0.90565

根據(jù)信息增益值畫出的決策樹如圖2所示。

圖2 以距離為分支結(jié)點得到的決策樹

按照上述方法最左右兩表分別計算信息增益得到的決策樹如圖3、圖4所示。

圖3 決策樹2

圖4 最終生成的決策樹

(3) 知識的評估與表示

分析結(jié)果表明：客戶居住地與銷售點的距離是決策樹分支的最重要的因素，其次是年齡和收入。通過分析，得到6個細(xì)分群體的市場模型，它們分為兩類，盈利能力較高的客戶和盈利能力較低的客戶。

根據(jù)預(yù)測模型中具有較高盈利能力的客戶的特征，企業(yè)可以采取相應(yīng)的措施，進一步提高此類客戶的盈利能力；對于預(yù)測模型中盈利能力較低的客戶。企業(yè)應(yīng)該展開各種促銷活動，吸引此類顧客，盡可能的提高他們的盈利能力(表4)。

表4 盈利能力分析的細(xì)分群

3 結(jié)束語

基于數(shù)據(jù)挖掘技術(shù)的CRM系統(tǒng)，能更好的利用客戶信息，快速有效的獲得有規(guī)律、有價值的知識，使企業(yè)實現(xiàn)高效的管理和經(jīng)營。數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用研究已經(jīng)取得了許多成果，企業(yè)越來越意識到CRM的重要地位，數(shù)據(jù)挖掘技術(shù)也取得了蓬勃發(fā)展。但是許多研究依然只停留在理論階段，缺乏實踐，許多理論需要在實踐中檢驗和完善。

[1] 陳安,陳寧.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].科學(xué)出版社.2006.

[2] 夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].科學(xué)出版社.2004.

[3] 湛悅斌.基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的客戶關(guān)系管理系統(tǒng)[J].2009.

[4] 李志玲.基于數(shù)據(jù)挖掘的客戶關(guān)系管理研究[J].2010.