徐國慶 段春梅
山東師范大學(xué)管理科學(xué)與工程學(xué)院 山東 250014
面對信息時代巨大的客戶信息量,企業(yè)急需一種信息分析技術(shù)對各種數(shù)據(jù)進行準(zhǔn)確、有效的分析,數(shù)據(jù)挖掘技術(shù)就是這樣一種技術(shù)。數(shù)據(jù)挖掘(Data Mining,DM),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中,通過知識發(fā)現(xiàn)活動,尋找關(guān)聯(lián)規(guī)則、分類規(guī)則、周期性規(guī)律等主要類型的知識,提取有用信息的過程。數(shù)據(jù)挖掘技術(shù)為客戶關(guān)系管理提供了強有力的技術(shù)保障。
(1) 最近鄰算法:K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。最近鄰算法主要用于分類。
(2) 關(guān)聯(lián)規(guī)則算法:關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一種主要形式,關(guān)聯(lián)規(guī)則主要以“如果……那么……”的形式描述,主要挖掘顧客同時購買兩種或者多種產(chǎn)品的可能性,比如一條規(guī)則可以描述為“如果顧客購買了啤酒,那么他購買尿布的概率為85%”。
(3) 神經(jīng)網(wǎng)絡(luò)算法:神經(jīng)網(wǎng)絡(luò)一詞來源于生物學(xué),神經(jīng)網(wǎng)絡(luò)算法是從人工智能領(lǐng)域發(fā)展起來的,神經(jīng)網(wǎng)絡(luò)通過在計算機上運行的模式識別和機器學(xué)習(xí)算法的程序,在對大量歷史數(shù)據(jù)庫進行計算的基礎(chǔ)上建立的預(yù)測模型。
(4) 決策樹算法:決策樹算法是在客戶關(guān)系管理中應(yīng)用最為廣泛的算法之一,它被廣泛應(yīng)用于市場細(xì)分、客戶細(xì)分、客戶流失預(yù)測中。決策樹是樹形結(jié)構(gòu)的預(yù)測模型,樹的每一個分支都是一個分類問題,樹葉是帶有分類的數(shù)據(jù)分割。
(5) 遺傳算法:遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學(xué)機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優(yōu)解的方法遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學(xué)機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優(yōu)解的方法。
CRM中的數(shù)據(jù)挖掘流程如圖1所示。
圖1 CRM中的數(shù)據(jù)挖掘流程
(1) 數(shù)據(jù)整理
由于企業(yè)所收集數(shù)據(jù)的來源和表示方法等的不同,使得數(shù)據(jù)雜亂無序,在進行數(shù)據(jù)挖掘之前必須先進行數(shù)據(jù)整理。數(shù)據(jù)整理主要包括四個子過程,即數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換。數(shù)據(jù)清理的目標(biāo)是消除原始數(shù)據(jù)中的噪聲和不一致的數(shù)據(jù),使多種數(shù)據(jù)源可以組合在一起,并從數(shù)據(jù)庫中檢索分析與任務(wù)相關(guān)的數(shù)據(jù),使數(shù)據(jù)變成統(tǒng)一或適合挖掘的形式。
(2) 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘階段是運用已經(jīng)選定的數(shù)據(jù)挖掘方法對應(yīng)經(jīng)準(zhǔn)備好的數(shù)據(jù)進行操作,從這些數(shù)據(jù)中提取有用的信息。
(3) 評估與表示
這一階段分為模式評估與知識表示兩個子過程。模式評估指根據(jù)某種興趣度度量,識別知識表示的真正有趣的模式。知識表示指使用可視化和知識表示技術(shù),向用戶提供挖掘的知識。
表1是客戶的基本信息以及他們對應(yīng)的對某企業(yè)產(chǎn)品每月的平均消費額度,下面我們將運用決策樹算法進行客戶盈利能力分析。
表1 初始客戶基本信息
(1) 數(shù)據(jù)整理
為了方便操作,對數(shù)據(jù)進行如下操作(表2)。進行整理后得到的數(shù)據(jù)表3所示。
表2 客戶信息分段
表3 整理后的客戶基本信息
(2) 運用決策樹算法進行數(shù)據(jù)挖掘
用決策樹算法的關(guān)鍵點就是計算信息增益,尋找分支節(jié)點,計算信息增益的公式為:
其中Gain(A)表示屬性A的信息增益,I(S1,S2,……Sm)表示描述結(jié)果的元素的期望信息,其中m表示屬性取值的個數(shù)。上表中描述結(jié)果的屬性試消費額度,即消費額度越高的表示客戶越有價值,共有兩個取值0、1,m取值2,S1=0,S2=1,E(A)表示屬性A的期望信息。又有:
Pi為屬性值i出現(xiàn)的頻率,P1=5/8(1出現(xiàn)的頻率),P2=3/8(0出現(xiàn)的頻率),所以題目中的I(S1,S2)=-5/8log2(5/8)-3/8log2(3/8)=0.9544,再有:
其中I(S1j……Smj)的算法以屬性性別為例,性別也有兩個取值1和0,消費額度=1,性別=1,S11=3,同理可知S21=1,S12=2,S22=2,所以I(S11,S21)=I(3,1)=-3/4log2(3/4)-1/4log2(1/4)= 0.8112,I(S12,S22)=I(2,2)=1,所以E(性別)=4/8I(S11,S21)+4/8I(S12,S22)=0.9056,Gain(性別)=I(S1,S2)-E(性別)=0.9544-0.9056=0.0488。同理算出:
Gain(年齡)=0.2657
Gain(婚姻狀況)=0.0157
Gain(收入)=0.5032
Gain(距離)=0.90565
根據(jù)信息增益值畫出的決策樹如圖2所示。
圖2 以距離為分支結(jié)點得到的決策樹
按照上述方法最左右兩表分別計算信息增益得到的決策樹如圖3、圖4所示。
圖3 決策樹2
圖4 最終生成的決策樹
(3) 知識的評估與表示
分析結(jié)果表明:客戶居住地與銷售點的距離是決策樹分支的最重要的因素,其次是年齡和收入。通過分析,得到6個細(xì)分群體的市場模型,它們分為兩類,盈利能力較高的客戶和盈利能力較低的客戶。
根據(jù)預(yù)測模型中具有較高盈利能力的客戶的特征,企業(yè)可以采取相應(yīng)的措施,進一步提高此類客戶的盈利能力;對于預(yù)測模型中盈利能力較低的客戶。企業(yè)應(yīng)該展開各種促銷活動,吸引此類顧客,盡可能的提高他們的盈利能力(表4)。
表4 盈利能力分析的細(xì)分群
基于數(shù)據(jù)挖掘技術(shù)的CRM系統(tǒng),能更好的利用客戶信息,快速有效的獲得有規(guī)律、有價值的知識,使企業(yè)實現(xiàn)高效的管理和經(jīng)營。數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用研究已經(jīng)取得了許多成果,企業(yè)越來越意識到CRM的重要地位,數(shù)據(jù)挖掘技術(shù)也取得了蓬勃發(fā)展。但是許多研究依然只停留在理論階段,缺乏實踐,許多理論需要在實踐中檢驗和完善。
[1] 陳安,陳寧.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].科學(xué)出版社.2006.
[2] 夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].科學(xué)出版社.2004.
[3] 湛悅斌.基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的客戶關(guān)系管理系統(tǒng)[J].2009.
[4] 李志玲.基于數(shù)據(jù)挖掘的客戶關(guān)系管理研究[J].2010.