陳昭君 閻瑞霞 彭連貴
(上海工程技術(shù)大學(xué)管理學(xué)院 上海 201620)
在當(dāng)今的大數(shù)據(jù)時(shí)代,人們的生活以數(shù)據(jù)的形式被多方記錄、收集、存儲(chǔ)著,企業(yè)比以往任何時(shí)候都更多地?fù)碛猩虡I(yè)數(shù)據(jù)。如何從海量的商業(yè)數(shù)據(jù)中挖掘出有價(jià)值的信息,發(fā)現(xiàn)數(shù)據(jù)中可能存在的某種潛在的關(guān)系或規(guī)則,并被有效利用以實(shí)現(xiàn)企業(yè)戰(zhàn)略目標(biāo),成為許多企業(yè)越來(lái)越迫切的需求,在這種情況下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生??蛻艏?xì)分是數(shù)據(jù)挖掘技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域,也成為許多管理者和學(xué)者在客戶關(guān)系管理中的研究熱點(diǎn)[1~3]。
客戶細(xì)分是20世紀(jì)50年代中期由美國(guó)學(xué)者溫德?tīng)柺访芩固岢龅模瞧髽I(yè)客戶關(guān)系管理的核心環(huán)節(jié),也是認(rèn)知客戶價(jià)值并進(jìn)行個(gè)性化精準(zhǔn)營(yíng)銷的關(guān)鍵,通過(guò)客戶細(xì)分,企業(yè)可以更好地識(shí)別不同客戶群體的需求以及其對(duì)企業(yè)的價(jià)值,并據(jù)此贏得、擴(kuò)大和保持高價(jià)值的客戶群,吸引和培養(yǎng)潛力較大的客戶群。由于不同企業(yè)的研究目的不同,用于客戶細(xì)分的指標(biāo)和模式也不盡相同。目前主要有以下四類客戶細(xì)分模式:基于客戶統(tǒng)計(jì)學(xué)特征的客戶細(xì)分、基于客戶價(jià)值相關(guān)指標(biāo)的客戶細(xì)分、基于客戶生命周期理論的客戶細(xì)分和基于客戶行為的客戶細(xì)分[4]。
該論文采用基于客戶消費(fèi)行為的RFM模型(Recency為最近購(gòu)買時(shí)間;Frequency為購(gòu)買頻率;Monetary為總購(gòu)買金額)進(jìn)行客戶細(xì)分的應(yīng)用研究。目前基于RFM模型的客戶分類方法主要有兩種:以各指標(biāo)的平均值為界線,將客戶分為8類;將各指標(biāo)的總體劃分成五個(gè)等級(jí),共產(chǎn)生125類。第一種分類方法對(duì)各指標(biāo)的劃分太過(guò)粗放,使得單個(gè)或多個(gè)指標(biāo)變量處于平均值界線附近的客戶的分類誤差較大,分類結(jié)果不夠細(xì)致。第二種分類方法對(duì)各指標(biāo)的劃分比較細(xì)致,但將客戶細(xì)分成125類,會(huì)給企業(yè)后續(xù)的精準(zhǔn)營(yíng)銷帶來(lái)很大的挑戰(zhàn),同時(shí)對(duì)于客戶個(gè)體平均消費(fèi)水平不高但客戶數(shù)據(jù)量比較大的企業(yè)來(lái)說(shuō),會(huì)大大增加營(yíng)銷成本。因此,該論文借鑒三支決策思想,將三個(gè)屬性指標(biāo)按等級(jí)高低分成三類,總共能產(chǎn)生27類由不同屬性等級(jí)組合成的客戶類型簇,這種屬性劃分方式既能夠?qū)Ω鲗傩灾笜?biāo)進(jìn)行較為細(xì)致的劃分,又使得最后的客戶類型數(shù)量適中,這種方法也對(duì)處于各屬性指標(biāo)平均值鄰域內(nèi)的客戶進(jìn)行了有效的劃分。
該論文的主要?jiǎng)?chuàng)新點(diǎn)如下:
1)基于粗糙集和三支決策理論的屬性權(quán)重確定方法,同時(shí)考慮了正域、負(fù)域中的元素貢獻(xiàn)程度,且該方法完全依據(jù)數(shù)據(jù)集本身,不需要任何先驗(yàn)知識(shí),結(jié)果比較客觀,明顯優(yōu)于傳統(tǒng)的層次分析權(quán)重確定方法[5]。
2)借鑒三支決策粗糙集思想,用經(jīng)典的RFM細(xì)分模型代替基于客戶價(jià)值評(píng)價(jià)的指標(biāo)體系,對(duì)消費(fèi)型企業(yè)來(lái)說(shuō),RFM模型的三個(gè)指標(biāo)能夠很好地反映客戶的購(gòu)買能力和客戶價(jià)值,并且數(shù)據(jù)指標(biāo)易于獲取,將各指標(biāo)劃分成3個(gè)等級(jí),共產(chǎn)生27類屬性組合,相比把各指標(biāo)變量分為兩類或五類,這種方法能夠兼顧細(xì)分粒度和分類精度,減小了大量的客戶類群給個(gè)性化精準(zhǔn)營(yíng)銷帶來(lái)的挑戰(zhàn)。
3)運(yùn)用決策樹(shù)技術(shù)挖掘客戶細(xì)分規(guī)則。由于客戶細(xì)分的最終目的是能對(duì)企業(yè)的客戶進(jìn)行快速準(zhǔn)確地劃分類別,以便及時(shí)地提供個(gè)性化精準(zhǔn)營(yíng)銷服務(wù),并且RFM客戶價(jià)值評(píng)價(jià)模型屬性指標(biāo)數(shù)量較少,因此適合用決策樹(shù)技術(shù)創(chuàng)建客戶細(xì)分決策規(guī)則,為企業(yè)提供了一種新的客戶細(xì)分方法。
粗糙集(Rough Set)理論是Pawlak教授于1982年提出的一種能夠定量分析處理不精確、不一致、不完整信息與知識(shí)的數(shù)學(xué)工具,它的基本思想是通過(guò)關(guān)系數(shù)據(jù)庫(kù)分類歸納形成概念和規(guī)則,通過(guò)等價(jià)關(guān)系的分類以及分類對(duì)目標(biāo)的近似實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)[6]。
定義1[7]:設(shè)U 是對(duì)象集,R是U 上的等價(jià)關(guān)系,對(duì)于任意的 X?U,X關(guān)于R的下近似-R(X)和上近似 Rˉ(X)分別為
定義2[8]:決策粗糙集通過(guò)引入一對(duì)閾值α和β來(lái)定義正域,負(fù)域和邊界域中的事件對(duì)象,設(shè)0≤β<α≤1,則(α,β)正域、邊界域和負(fù)域可定義為
當(dāng)α=1,β=0時(shí),上面3個(gè)式子就轉(zhuǎn)化為Paw?lak粗糙集模型;當(dāng)α=β=0.5時(shí),其轉(zhuǎn)化為0.5-概率粗糙集模型;當(dāng) β=1-α?xí)r,其轉(zhuǎn)化為對(duì)稱變精度概率粗糙集模型;當(dāng) β≠1-α?xí)r,其轉(zhuǎn)化為非對(duì)稱變精度概率粗糙集模型。
由于運(yùn)用決策樹(shù)技術(shù)做分類決策時(shí),決策過(guò)程簡(jiǎn)單直接,決策結(jié)果直觀且易于理解,考慮到RFM客戶細(xì)分模型的條件屬性較少,因此該論文采用決策樹(shù)技術(shù),運(yùn)用ID3算法創(chuàng)建一個(gè)基于消費(fèi)者行為數(shù)據(jù)的客戶細(xì)分決策規(guī)則。ID3算法建立決策樹(shù)的具體實(shí)施步驟如下[9]:
第一步:計(jì)算決策屬性信息熵。
設(shè)數(shù)據(jù)集S的樣本數(shù)量為n,而數(shù)據(jù)集S又被決策屬性劃分成m類,每一類含有的樣本數(shù)用ni表示,那么數(shù)據(jù)集S的信息熵,即建立決策樹(shù)需要的總的信息量為
其中,pi=ni/n,表示不同決策類的樣本數(shù)量在數(shù)據(jù)集總量中的占比,由于信息是以二進(jìn)制編碼的,所以公式中的對(duì)數(shù)的底數(shù)為2。
第二步:計(jì)算條件屬性信息熵。
條件屬性集A={a1,a2,…,am}中,任意一個(gè)條件屬性ai的值分別為ai1,ai2,…,aiv,任一條件屬性ai同時(shí)也把數(shù)據(jù)集劃分成v類,用Sv來(lái)表示,即,那么,每個(gè)屬性的期望信息熵為
其中 ||Sv||S為每個(gè)屬性取值在該屬性所有取值中的權(quán)重。
第三步:求不同屬性信息增益。
任意一個(gè)屬性的信息增益是指選取它作為決策樹(shù)根節(jié)點(diǎn)時(shí)需要獲取的信息量,也表示它對(duì)分類提供的信息量,其計(jì)算公式為Gain(a)=E(S)-E(S,a)。
第四步:決策樹(shù)的剪枝。
在建立決策樹(shù)的過(guò)程中,會(huì)不可避免地混入一些噪聲數(shù)據(jù),這就需要通過(guò)一定的手段限制決策樹(shù)的生長(zhǎng)或者在決策樹(shù)建立完畢之后,對(duì)決策樹(shù)進(jìn)行修剪。剪枝的方法主要有兩種:前向剪枝和后向剪枝。前向剪枝主要是在決策樹(shù)還沒(méi)有完全生成的時(shí)候進(jìn)行剪枝,容易丟失信息;而后向剪枝主要是系統(tǒng)的開(kāi)銷比較大,必然會(huì)生成很多被剪掉的子樹(shù),含有較多的無(wú)用功[10]。
第五步:建立決策樹(shù)。
比較第三步中不同屬性信息增益的大小,選擇Gain(a)值最大的屬性作為根節(jié)點(diǎn),由該屬性的不同取值建立分枝,對(duì)各分支的實(shí)例子集遞歸,用該方法建立樹(shù)的節(jié)點(diǎn)和分枝,直到某一子集中的數(shù)據(jù)都屬于同一類別,或者沒(méi)有屬性特征可以再用于對(duì)數(shù)據(jù)進(jìn)行分割,并根據(jù)第四步中的剪枝策略,適當(dāng)?shù)睾雎缘粼肼晹?shù)據(jù)。
對(duì)于RFM模型中的三個(gè)指標(biāo)數(shù)據(jù),首先要進(jìn)行標(biāo)準(zhǔn)化無(wú)量綱處理,以避免不同計(jì)量單位對(duì)聚類分析結(jié)果的影響[11]。具體來(lái)說(shuō),R為損益變量,損益變量是指變量的數(shù)值越小,對(duì)結(jié)果的正向影響越大,即客戶最近一次購(gòu)買時(shí)間距現(xiàn)在的時(shí)間間隔越短,表明客戶的價(jià)值越大;F和M為增益變量,增益變量是指變量的數(shù)值越大,對(duì)結(jié)果的正向影響越大,即客戶的購(gòu)買頻率和購(gòu)買金額越大,表明客戶的價(jià)值越大。針對(duì)這兩類變量,該論文采用以下方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
標(biāo)準(zhǔn)化后的R變量為
標(biāo)準(zhǔn)化后的F和M變量分別為
將各個(gè)指標(biāo)變量標(biāo)準(zhǔn)化處理后的數(shù)據(jù)離散化,按值的大小劃分成三段區(qū)域,用1,2,3表示程度等級(jí),其中R=1,最近一次購(gòu)買行為發(fā)生時(shí)間與現(xiàn)在時(shí)間節(jié)點(diǎn)的間隔較長(zhǎng),客戶價(jià)值較低;R=3,最近一次購(gòu)買時(shí)間間隔較短,客戶價(jià)值相對(duì)較高;R=2,處于這兩者之間的中等水平。同樣地,可對(duì)購(gòu)買頻率和購(gòu)買金額做出相應(yīng)的解釋。等級(jí)劃分不但能為下一步用三支決策方法確定屬性權(quán)重帶來(lái)計(jì)算上的便利,也使后續(xù)的聚類分析更直觀,易理解。具體程度與等級(jí)定義如表1所示。
表1 屬性等級(jí)劃分
目前,大多數(shù)客戶關(guān)系管理研究普遍采用層次分析法來(lái)確定指標(biāo)權(quán)重[12],但由于層次分析法需要獲取判斷矩陣的最大特征根以及相對(duì)應(yīng)的特征向量,計(jì)算比較復(fù)雜。另外,運(yùn)用層次分析法時(shí),定量數(shù)據(jù)較少,定性成分多,結(jié)果不易令人信服。因此,該論文采用文獻(xiàn)[13]提出的一種基于粗糙集與三支決策理論的權(quán)重確定方法來(lái)確定屬性權(quán)重,該方法同時(shí)考慮了正域、負(fù)域中的元素貢獻(xiàn)程度,定義了一種新的屬性確定度,與傳統(tǒng)Pawlak屬性重要度相比,該屬性確定度既考慮了正域中元素的貢獻(xiàn)程度,又考慮了負(fù)域中元素的貢獻(xiàn)程度,使得其決策更加客觀合理。
定義 3(屬性重要度)[13]:給定一個(gè)信息系統(tǒng)S=(U ,A,V,f ),其中 U={x1,x2,…,xn} 表示非空有限論域集,表 示 屬 性 集 ,?B?A且a∈A-B,那么,屬性a的屬性重要度為
該論文中,論域?yàn)榇诸惖目蛻羧海瑢傩约癁锳={R ,F(xiàn),M } ?;谌Q策思維,所有客戶的狀態(tài)集可假設(shè)為
Ω={高 價(jià)值客戶,重要發(fā)展客戶,一般價(jià)值客戶} ,并且R,F(xiàn),M都為必要屬性,故無(wú)需考慮屬性約簡(jiǎn),即ω(a)=ξ(a)。
由于K-均值聚類算法能使同一簇內(nèi)的對(duì)象具有較高的相似度,而不同簇之間的相似度較低,因此成為目前最常用的聚類分析算法。該論文借鑒三支決策思想,將三個(gè)屬性指標(biāo)按等級(jí)高低分成三類,總共能產(chǎn)生3×3×3=27類不同的客戶類型簇。
對(duì)聚類分析得到的27類客戶群,計(jì)算出每簇客戶的價(jià)值并進(jìn)行排序,從而能明顯地看出不同客戶類型的價(jià)值高低,并對(duì)價(jià)值排序靠前的9類客戶定義為高價(jià)值客戶,對(duì)價(jià)值排序后9位的客戶簇定義為一般價(jià)值客戶,而處于價(jià)值排序中間位置的9類客戶簇定義為重要發(fā)展型客戶。對(duì)客戶價(jià)值的計(jì)算,該論文用分別表示第 j類客戶的R,F(xiàn),M各個(gè)指標(biāo)標(biāo)準(zhǔn)化后的平均值是第j類客戶的RFM各項(xiàng)指標(biāo)加權(quán)后的總價(jià)值,計(jì)算公式為
其中 j=1,2,…,27.表示聚類后的類別[14]。
對(duì)屬于一般價(jià)值客戶的屬性組合進(jìn)行剪枝處理,使決策樹(shù)停止生長(zhǎng)。
本研究的最終目的是要根據(jù)R,F(xiàn),M三指標(biāo)的大小,準(zhǔn)確地對(duì)客戶進(jìn)行分類,為后續(xù)開(kāi)展相應(yīng)的營(yíng)銷活動(dòng)提供支持[15]。在上述前向剪枝的基礎(chǔ)上,依據(jù)計(jì)算所得的各屬性信息增益大小,建立決策樹(shù),并從中提取決策規(guī)則:對(duì)于高價(jià)值客戶,需要重點(diǎn)經(jīng)營(yíng)與維護(hù);對(duì)于一般價(jià)值或低價(jià)值客戶,需要刺激他們的消費(fèi)或減少對(duì)他們的營(yíng)銷投入;對(duì)于重要發(fā)展型客戶,需要根據(jù)客戶的后續(xù)購(gòu)買行為,選擇適當(dāng)?shù)臓I(yíng)銷策略,并持續(xù)關(guān)注這類客戶,努力把他們轉(zhuǎn)化為企業(yè)的高價(jià)值客戶。
由于電子商務(wù)企業(yè)有著數(shù)據(jù)量大,交易數(shù)據(jù)易于保存、易于查找和分析處理等特點(diǎn),所以,該論文實(shí)例數(shù)據(jù)來(lái)源于一家女裝網(wǎng)店近1年的銷售數(shù)據(jù),數(shù)據(jù)總量為30674條,共892名客戶,從中隨機(jī)選取了25名客戶的數(shù)據(jù)作為樣本。數(shù)據(jù)經(jīng)過(guò)標(biāo)準(zhǔn)化和離散化處理后,按值的大小劃分成三段區(qū)域,分別用1,2,3表示程度等級(jí),數(shù)據(jù)處理結(jié)果如表2所示。
A的上、下近似集為
表2 基于RFM模型的客戶價(jià)值評(píng)價(jià)表
B1的等價(jià)類為
B1的上、下近似集為
所以,計(jì)算各個(gè)客戶的價(jià)值且按大小進(jìn)行決策分類,并結(jié)合上述不同屬性權(quán)重的大小比較:全部數(shù)據(jù)集聚類分析得到的27類客戶的價(jià)值評(píng)價(jià)結(jié)果如表3所示,對(duì)于表3中決策類為低的客戶屬性組合,建立葉子結(jié)點(diǎn),在決策樹(shù)中不再進(jìn)行向下分枝。
表3中,基于RFM模型的客戶信息系統(tǒng),客戶按價(jià)值被分為三類,分別為高價(jià)值客戶、重要發(fā)展客戶和一般價(jià)值客戶,基于上述的客戶價(jià)值評(píng)價(jià)表,很容易看出,樣本個(gè)數(shù)n=25。客戶按價(jià)值被分為三類,故所以,決策屬性信息熵為
表3 客戶價(jià)值分類結(jié)果
各條件屬性信息熵分別為
各屬性的信息增益為
圖1 決策樹(shù)結(jié)構(gòu)
由決策樹(shù)能夠得到以下決策規(guī)則:
1)IF(購(gòu)買間隔=‘短’)AND(購(gòu)買金額=‘小’)THEN(屬于重要發(fā)展客戶);
2)IF(購(gòu)買間隔=‘短’)AND(購(gòu)買金額=‘中’)AND(購(gòu)買頻率=‘低’)THEN(屬于重要發(fā)展客戶);
3)IF(購(gòu)買間隔=‘短’)AND(購(gòu)買金額=‘中’)AND(購(gòu)買頻率=‘中’)OR(購(gòu)買頻率=‘高’)THEN(屬于高價(jià)值客戶);
4)IF(購(gòu)買間隔=‘短’)AND(購(gòu)買金額=‘大’)THEN(屬于高價(jià)值客戶);
5)IF(購(gòu)買間隔=‘中’)AND(購(gòu)買金額=‘小’)AND(購(gòu)買頻率=‘低’)THEN(屬于一般價(jià)值客戶);
6)IF(購(gòu)買間隔=‘中’)AND(購(gòu)買金額=‘小’)AND(購(gòu)買頻率=‘中’)OR(購(gòu)買頻率=‘高’)THEN(屬于重要發(fā)展客戶);
7)IF(購(gòu)買間隔=‘中’)AND(購(gòu)買金額=‘中’)OR(購(gòu)買金額=‘大’)THEN(屬于重要發(fā)展客戶);
8)IF(購(gòu)買間隔=‘長(zhǎng)’)AND(購(gòu)買金額=‘小’)OR(購(gòu)買金額=‘中’)THEN(屬于一般價(jià)值客戶);
9)IF(購(gòu)買間隔=‘長(zhǎng)’)AND(購(gòu)買金額=‘大’)THEN(屬于重要發(fā)展客戶)。
本文主要是運(yùn)用粗糙集理論和決策樹(shù)技術(shù),求得屬性權(quán)重并挖掘客戶細(xì)分規(guī)則,為企業(yè)提供了一種新的客戶細(xì)分方法。一方面,用經(jīng)典的RFM細(xì)分模型代替基于客戶價(jià)值評(píng)價(jià)的指標(biāo)體系,對(duì)消費(fèi)型企業(yè)來(lái)說(shuō),RFM模型的三個(gè)指標(biāo)能夠很好地反映客戶的購(gòu)買能力和客戶價(jià)值,并且指標(biāo)數(shù)據(jù)易于獲??;另一方面,用基于粗糙集理論的權(quán)重確定方法代替常用的層次分析法,該方法基于數(shù)據(jù)本身,不需要先驗(yàn)信息,從客觀的角度對(duì)屬性進(jìn)行判斷,計(jì)算相對(duì)簡(jiǎn)單。有效的客戶細(xì)分能夠減少對(duì)低價(jià)值客戶的營(yíng)銷投入,以節(jié)約資源用于對(duì)高層次客戶的精準(zhǔn)營(yíng)銷,他們是企業(yè)主要的利益來(lái)源,同時(shí)持續(xù)關(guān)注中檔客戶的后續(xù)消費(fèi)行為,創(chuàng)新?tīng)I(yíng)銷模式與方法,爭(zhēng)取將他們轉(zhuǎn)化為企業(yè)的高價(jià)值客戶,提升企業(yè)的利潤(rùn)率。