林 勤 薛 云 楊柏高
1(廣東醫(yī)學(xué)院信息工程學(xué)院 廣東 東莞 523808)
2(華南師范大學(xué)物理與電信工程學(xué)院 廣東 廣州 510006)
?
基于變異系數(shù)的雙聚類算法及其在電信客戶細(xì)分的應(yīng)用研究
林勤1薛云2楊柏高2
1(廣東醫(yī)學(xué)院信息工程學(xué)院廣東 東莞 523808)
2(華南師范大學(xué)物理與電信工程學(xué)院廣東 廣州 510006)
摘要針對(duì)傳統(tǒng)客戶價(jià)值細(xì)分方法不夠精細(xì)化的問題,提出一種基于變異系數(shù)的雙聚類算法。該算法選用了變異系數(shù)作為相似性度量,運(yùn)用啟發(fā)式貪心策略,通過(guò)迭代增刪行列的方式挖掘出客戶消費(fèi)記錄中局部消費(fèi)行為相似的客戶群體。以某電信公司的電信客戶細(xì)分為實(shí)例,將所提算法與K均值(K-means)算法進(jìn)行性能比較,實(shí)驗(yàn)結(jié)果表明,所提算法具有更優(yōu)的客戶細(xì)分能力和更強(qiáng)的客戶行為可解釋能力。因此,它更有助于指導(dǎo)企業(yè)制定差異化營(yíng)銷策略。
關(guān)鍵詞變異系數(shù)客戶細(xì)分差異化營(yíng)銷雙聚類K均值
ON VARIATION COEFFICIENT-BASED BICLUSTERING ALGORITHM AND ITS APPLICATION IN TELECOMMUNICATION CUSTOMER SEGMENTATION
Lin Qin1Xue Yun2Yang Baigao2
1(School of Information Engineering,Guangdong Medical College,Dongguan 523808,Guangdong,China)2(School of Physics and Telecommunication Engineering,South China Normal University,Guangzhou 510006,Guangdong,China)
AbstractTo improve the refinement degree of traditional customer value segmentation method, we proposed the variation coefficient-based biclustering algorithm. The algorithm selects the variation coefficient as the similarity measurement, applies the heuristic greedy strategy, and by the way of iterating the rows’ or columns’ insertion and deletion, the algorithm mines the customer groups with similar local consuming behaviours from their consumption records. Taking the telecommunication customers segmentation in a certain Telecom as the example, we compared the performances of the proposed algorithm with k-means clustering algorithm. Experimental result indicated that the proposed algorithm has better ability of customer segmentation and stronger interpretable ability on customer behaviours. Therefore, it is more conducive to guiding the enterprises to develop differentiated marketing strategies.
KeywordsVariation coefficientCustomer segmentationDifferentiated marketingBiclusteringK-means
0引言
近年來(lái),隨著電信運(yùn)營(yíng)商網(wǎng)絡(luò)基礎(chǔ)設(shè)施間差距日益縮小,所涵蓋業(yè)務(wù)日趨同質(zhì),電信企業(yè)的發(fā)展模式逐步從以產(chǎn)品為中心的模式向以客戶為中心的模式轉(zhuǎn)變。精確識(shí)別和細(xì)分客戶市場(chǎng),有助于電信企業(yè)合理配置企業(yè)資源,提高資源利用效率,降低運(yùn)營(yíng)成本;同時(shí)也有助于發(fā)現(xiàn)不同類別的客戶對(duì)服務(wù)的不同需求,為其提供個(gè)性化的服務(wù),從而使運(yùn)營(yíng)商和客戶價(jià)值發(fā)揮到最大,實(shí)現(xiàn)電信企業(yè)和客戶之間的雙贏。因此探究精細(xì)的數(shù)據(jù)挖掘方法對(duì)客戶進(jìn)行細(xì)分是目前數(shù)據(jù)挖掘應(yīng)用的一個(gè)非常熱門且具有重要應(yīng)用價(jià)值的研究課題[1]。
文獻(xiàn)[2-5]相繼提出并完善了客戶生命周期價(jià)值CLV(Customer Lifetime Value)和客戶生命周期利潤(rùn)C(jī)LP(Customer Lifetime Profit)的概念和計(jì)算模型,先篩選與客戶的當(dāng)前和潛在價(jià)值或者利潤(rùn)相關(guān)的屬性,然后計(jì)算每一個(gè)客戶整個(gè)生命周期的凈利潤(rùn),最后運(yùn)用閾值或者客戶價(jià)值矩陣對(duì)客戶進(jìn)行細(xì)分。文獻(xiàn)[6-9]先根據(jù)RFM(Recency,Frequency,Monetary)模型或者其它的業(yè)務(wù)目標(biāo)對(duì)消費(fèi)數(shù)據(jù)進(jìn)行屬性篩選,再分別運(yùn)用粒子群優(yōu)化的模糊C均值聚類算法PSO-FCM(Particle Swarm Optimization- Fuzzy C-Means)、自組織映射聚類算法SOM(Self-Organization Mapping)、K均值(K-Means)聚類算法對(duì)客戶進(jìn)行分群。文獻(xiàn)[10]指出了上述兩種方法的不足,并引入了一種專門從客戶的消費(fèi)記錄中挖掘出高端消費(fèi)客戶群體的大均值子矩陣LAS(Large Average Submatrices)雙聚類算法,該方法在很大程度解決了建模和傳統(tǒng)聚類方法存在的缺陷。然而,在現(xiàn)實(shí)應(yīng)用中客戶分群的目的并不僅僅限制于識(shí)別高價(jià)值客戶群體,很多時(shí)候還需要識(shí)別出具有一般性相似消費(fèi)行為的客戶群體。
針對(duì)上述問題,本文提出了一種基于變異系數(shù)的雙聚類算法,該算法選用了一個(gè)用于衡量不同單位、平均值數(shù)據(jù)組之間離散程度的統(tǒng)計(jì)量——變異系數(shù)作為聚類的相似性度量,同時(shí)采用啟發(fā)式貪心策略,通過(guò)迭代增刪行列的方式在客戶消費(fèi)記錄中挖掘出變異系數(shù)較小且規(guī)模較大的客戶群體。由于該算法所挖掘出來(lái)的客戶群體僅須在部分消費(fèi)屬性的行為相似就可以聚集在一起。因此,類內(nèi)客戶與消費(fèi)屬性間具有更高的關(guān)聯(lián)性,這也使得聚類結(jié)果的可解釋性大大提高。此外,本文還將該算法與成熟應(yīng)用于電信客戶細(xì)分的K-Means算法進(jìn)行性能比較,結(jié)果表明該算法具有更高的聚類有效性和可解釋性。
1基本概念及定義
假設(shè)客戶的消費(fèi)記錄可以看成一個(gè)m×n的實(shí)數(shù)矩陣A,矩陣的m行代表m個(gè)不同的客戶,n列代表n種不同的消費(fèi)屬性。同時(shí),定義實(shí)數(shù)陣A的行集X={x1,x2,…,xm},列集Y={y1,y2,…,yn}。雙聚類是實(shí)數(shù)陣A的一個(gè)k×l子矩陣U,表示為:U=(I,J),其中I={i1,i2,…,ik}是行集X的子集,J={j1,j2,…,jl}是列集Y的子集。
定義1變異系數(shù)假設(shè)實(shí)數(shù)矩陣U是實(shí)數(shù)陣A的一個(gè)k×l子矩陣,ui,j是矩陣U第i行第j列的元素。定義矩陣U的變異系數(shù)為矩陣U的方差除以均值,其數(shù)學(xué)表達(dá)式為:
(1)
變異系數(shù)是一個(gè)用來(lái)比較不同行子集、列子集以及尺寸的兩個(gè)或者多個(gè)子矩陣內(nèi)元素值分布變異程度的重要指標(biāo)。值越小代表該子矩陣的元素值比其他子矩陣的元素值的分布越集中,這也間接地說(shuō)明了該矩陣內(nèi)的客戶群體在各屬性上的消費(fèi)行為更加地相似。
定義2容量閾值假設(shè)實(shí)數(shù)矩陣U是實(shí)數(shù)陣A的一個(gè)規(guī)模為k×l子矩陣,定義容量閾值α為子矩陣U的尺寸與實(shí)數(shù)矩陣A的尺寸的比值,其數(shù)學(xué)表達(dá)式為:
(2)
容量閾值是衡量雙聚類質(zhì)量的另一個(gè)很重要的標(biāo)準(zhǔn)。由于容量閾值小會(huì)使得子矩陣的變異系數(shù)變得很小,但是這樣的雙聚類質(zhì)量不高。所以在尋找雙聚類的過(guò)程中,除了考慮子矩陣的變異系數(shù),還要考慮容量閾值的大小。
定義3Action(x,U)動(dòng)作采用FLOC算法[11]在迭代優(yōu)化雙聚類種子過(guò)程中把刪除或者增加一行或者一列操作都統(tǒng)一為動(dòng)作Action(x,U)的定義。具體定義如下:在給定實(shí)數(shù)矩陣A的行(列)x與子矩陣U的情況下,如果行(列)x在子矩陣U中,那么動(dòng)作Action(x,U)表示從子矩陣U中移除行(列) x;如果行(列)x不在子矩陣U中,那么動(dòng)作Action(x,U)表示將行(列)x添加到子矩陣U中。
定義4動(dòng)作序列operation在每次迭代優(yōu)化每個(gè)雙聚類種子過(guò)程中必須對(duì)所有行或者列都執(zhí)行Action(x,U)動(dòng)作。采用FLOC算法[11]將所有Action(x,U)動(dòng)作先后次序定義為動(dòng)作序列。具體定義如下:對(duì)于任一給定的子矩陣U,其動(dòng)作序列operation為一個(gè)大小為(m+n)的數(shù)組,數(shù)組里的每個(gè)元素代表著Action(x,U)動(dòng)作所操作的某一行或者一列,動(dòng)作序列operation主要用于存放動(dòng)作執(zhí)行的先后次序。
2基于變異系數(shù)的雙聚類算法描述
2.1雙聚類算法
雙聚類(Biclustering)術(shù)語(yǔ)最早于2000年見于Cheng等人[12]的基因表達(dá)數(shù)據(jù)分析之中。傳統(tǒng)聚類要求同類基因必須滿足在所有條件下的表達(dá)行為都要相似。但是,通常情況下,一些基因只在某些條件下有著非常相似的表達(dá)行為,而在另一些條件下它們的表達(dá)行為不相似甚至毫不相干。對(duì)比傳統(tǒng)聚類,雙聚類算法可以對(duì)數(shù)據(jù)矩陣的行和列同時(shí)進(jìn)行聚類,把一些只在部分屬性下有著相似性質(zhì)的對(duì)象聚在一起,在對(duì)對(duì)象進(jìn)行聚類的同時(shí)也完成了對(duì)屬性的篩選,這使得它更容易處理數(shù)據(jù)中存在噪聲或缺失,以及確定屬性權(quán)重等問題。正因?yàn)檫@些優(yōu)點(diǎn),除了生物信息領(lǐng)域,雙聚類算法的思想也很快被應(yīng)用于市場(chǎng)劃分[13]、文本挖掘[14]、協(xié)同過(guò)濾推薦系統(tǒng)[15]等領(lǐng)域。
2.2基于變異系數(shù)的雙聚類算法
算法的目的是在實(shí)數(shù)矩陣中挖掘出k個(gè)尺寸較大、變異系數(shù)較小的雙聚類?;舅枷胧鞘紫入S機(jī)生成k個(gè)平均尺寸大于容量閾值的雙聚類種子;然后固定這些種子的行數(shù)和列數(shù),以行列交替抽樣的方式粗略優(yōu)化各個(gè)雙聚類種子;接著,順序執(zhí)行動(dòng)作序列里對(duì)k個(gè)種子進(jìn)行每個(gè)增或刪一行或一列的動(dòng)作,每次動(dòng)作只賦予使得變異系數(shù)下降得最快的雙聚類種子,不斷循環(huán)迭代直至k個(gè)雙聚類種子的平均尺寸小于容量閾值為止。最后,為了避免雙聚類的尺寸小有利于變異系數(shù)下降而造成以上迭代偏向于刪動(dòng)作的情況,重復(fù)以上順序執(zhí)行動(dòng)作序列中的增操作,每次操作只賦予使得變異系數(shù)下降得最快的雙聚類種子,不斷循環(huán)迭代直至k個(gè)雙聚類種子的平均變異系數(shù)值不再變化為止。
定理1動(dòng)作序列operation里的某一動(dòng)作Action(x,U)對(duì)所有的種子執(zhí)行操作后,該動(dòng)作只賦予執(zhí)行后變異系數(shù)下降得最快的雙聚類種子,其他雙聚類種子不執(zhí)行該動(dòng)作。假如該動(dòng)作執(zhí)行后,所有雙聚類種子的變異系數(shù)都沒有下降,則所有雙聚類都不執(zhí)行該動(dòng)作。
算法1基于變異系數(shù)的雙聚類算法
輸入:矩陣A, 聚類個(gè)數(shù)k,平均容量閾值threshold1,threshold2
輸出:k個(gè)滿足條件的聚類
初始化:隨機(jī)產(chǎn)生k個(gè)種子的行數(shù)和列數(shù),且k個(gè)種子的平均容量閾值不小于threshold1
方法:LCVS_SearchForBCs()
1) Bcseed = RoughOptimize( ) ;
//初略優(yōu)化種子,使得k個(gè)種子的變異系數(shù)不會(huì)太大,加速收斂
2) while(avg(Bcseed.size)/(m*n))> threshold2)//重復(fù)順序執(zhí)
//行動(dòng)作序列里的動(dòng)作,直到k個(gè)種子的平均容量閾值小于threshold2
3) 隨機(jī)產(chǎn)生一個(gè)大小為(m+n)的動(dòng)作序列operation,用于存放行列操作順序;
4) for i = 1 to (m+n)
//順序執(zhí)行動(dòng)作序列
5) for num = 1 to k//找出該動(dòng)作執(zhí)行后變異系數(shù)下降最大的種
//子,將動(dòng)作賦予該種子,其他保持不變
6) decv(num) = Action(operation(i, Bcseed(num));
//對(duì)第num個(gè)種子執(zhí)行動(dòng)作,返回該種子執(zhí)行動(dòng)作后變異系數(shù)下降量
7) decv(max) = max(decv);
//找出下降量最大的種子
8) 把該動(dòng)作賦予序號(hào)為max的種子,修改其相應(yīng)的信息,其余種子保持不變
9) end for;
10) end for;
11) end while;
12) while(avg(currBcseed.cv) ~= avg(preBcseed.cv))
//重復(fù)順序執(zhí)行動(dòng)作序列里的增一行或一列的動(dòng)作,直到k個(gè)種子的平
//均變異系數(shù)不再變化為止
13) 重復(fù)3)到9)過(guò)程中增加一行或者一列過(guò)程,刪除的過(guò)程忽略。
總的來(lái)說(shuō),算法包括了三個(gè)階段。第一階段是步驟1),對(duì)k個(gè)種子進(jìn)行了粗略地優(yōu)化,加快后面迭代的收斂速度;第二個(gè)階段是步驟2)到11),運(yùn)用定理1對(duì)k個(gè)種子進(jìn)行了自適應(yīng)地增或刪行列操作,同時(shí)控制平均的尺寸,使得k個(gè)種子的變異系數(shù)比較小,尺寸也不會(huì)太??;第三個(gè)階段是12)到13),由于變異系數(shù)值下降往往會(huì)傾向于刪除操作,為了避免第二階段過(guò)于側(cè)重刪操作,這個(gè)階段只執(zhí)行動(dòng)作序列中的增操作。算法的全過(guò)程和第一階段的流程如圖1、圖2所示。
圖1 LCVS雙聚類算法總流程圖 圖2 粗略優(yōu)化種子的流程圖
3基于變異系數(shù)的雙聚類算法的應(yīng)用
3.1數(shù)據(jù)描述和預(yù)處理
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)源于第十屆亞太知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際會(huì)議提供的電信客戶數(shù)據(jù)。數(shù)據(jù)內(nèi)容包括月平均消費(fèi)額、月平均通話時(shí)長(zhǎng)、國(guó)際通話分鐘數(shù)等225個(gè)屬性。經(jīng)統(tǒng)計(jì),該數(shù)據(jù)缺失數(shù)據(jù)多,數(shù)據(jù)取值范圍廣,數(shù)據(jù)取值類型多樣,本文通過(guò)數(shù)據(jù)清洗,選用了其中2 000條記錄,74個(gè)與消費(fèi)相關(guān)的屬性。
由于算法是對(duì)子矩陣內(nèi)所有的消費(fèi)屬性進(jìn)行變異系數(shù)的計(jì)算,而各個(gè)消費(fèi)屬性可能在單位或者平均數(shù)上存在差異。為了避免這些差異對(duì)算法性能的影響,本文將原始的消費(fèi)記錄按照式(3)進(jìn)行標(biāo)準(zhǔn)化處理:
(3)
3.2實(shí)驗(yàn)結(jié)果分析
在實(shí)驗(yàn)中,設(shè)置雙聚類算法的參數(shù)為:聚類個(gè)數(shù)k=6,平均容量閾值threshold1=0.05,threshold2=0.05。編程和運(yùn)行的平臺(tái)是Matlab2010。算法運(yùn)行的結(jié)果如表1所示。
表1 6個(gè)聚類的分群結(jié)果
首先,從整體分析。據(jù)表1可發(fā)現(xiàn)算法所挖掘出來(lái)的這6個(gè)類的變異系數(shù)都比較小,這說(shuō)明各個(gè)客戶群體在各自類內(nèi)消費(fèi)業(yè)務(wù)上的消費(fèi)行為都很相似。同時(shí),從各類分群的列數(shù)可以看出,對(duì)比于傳統(tǒng)的聚類算法,算法挖掘出來(lái)的客戶群體的消費(fèi)屬性和客戶之間的關(guān)聯(lián)性、可解釋性更高。
其次,本文還細(xì)致地分析每個(gè)分群的典型特征,對(duì)各個(gè)分群進(jìn)行描述,并根據(jù)各個(gè)分群的特點(diǎn)給出了相應(yīng)的服務(wù)方式和營(yíng)銷策略的建議,具體如表2所示。由于篇幅關(guān)系,本文只對(duì)其中第5分群展開詳細(xì)地解析。
客戶分群5:客戶的人數(shù)是284,約占整體客戶的1/10,消費(fèi)屬性是16個(gè),類內(nèi)的客戶在各消費(fèi)屬性的平均消費(fèi)額與全體客戶在對(duì)應(yīng)屬性的平均消費(fèi)額相比較高,倍數(shù)的范圍是2.3968~3.0833,其中比較核心的消費(fèi)業(yè)務(wù)是近6個(gè)月平均移動(dòng)通話分鐘數(shù)、近6個(gè)月國(guó)外平均忙時(shí)通話分鐘數(shù)、近6個(gè)月平均外部網(wǎng)通話次數(shù)、近6個(gè)月平均移動(dòng)通話次數(shù)、近6個(gè)月平均主叫不同號(hào)碼數(shù)、近6個(gè)月平均國(guó)外通話次數(shù)。鑒于該類用戶的核心消費(fèi)業(yè)務(wù)比較集中于外網(wǎng)、國(guó)外通話等商旅業(yè)務(wù)、消費(fèi)額高、相對(duì)于其他5個(gè)客戶群體對(duì)企業(yè)整體的利潤(rùn)貢獻(xiàn)最大,故可以將其定義于商旅型高價(jià)值客戶群體??梢圆捎弥攸c(diǎn)維系的服務(wù)方式提高客戶的忠誠(chéng)度和信任度。同時(shí)可以采取積極為其定制一些與商旅相關(guān)的個(gè)性化優(yōu)惠套餐、創(chuàng)新服務(wù)產(chǎn)品的營(yíng)銷策略來(lái)達(dá)到提高服務(wù)質(zhì)量,提升企業(yè)的利潤(rùn)。例如漫游優(yōu)惠套餐,國(guó)際通話優(yōu)惠套餐,飛機(jī)、酒店預(yù)訂優(yōu)惠等商旅創(chuàng)新產(chǎn)品等。
表2 6個(gè)雙聚類結(jié)果的分析和營(yíng)銷方案
續(xù)表2
4聚類有效性驗(yàn)證
為了進(jìn)一步驗(yàn)證基于變異系數(shù)的雙聚類算法的統(tǒng)計(jì)意義,本文將該算法與已經(jīng)成熟應(yīng)用于電信客戶細(xì)分的K-Means算法進(jìn)行聚類有效性的比較。其中基于變異系數(shù)的雙聚類算法沿用以上的參數(shù)設(shè)置和實(shí)驗(yàn)結(jié)果,K-Means算法的參數(shù)設(shè)置是聚類個(gè)數(shù)k為6個(gè),迭代次數(shù)為100次,相似性度量選用歐氏距離,開始預(yù)分類選用隨機(jī)種子,編程和運(yùn)行的平臺(tái)也選用Matlab2010。
采用文獻(xiàn)[10]提出的分離度,緊密度,PA指標(biāo)來(lái)對(duì)兩個(gè)算法的有效性進(jìn)行分析,具體公式如下所示:
定義5分離度V[10]定義各類中心與數(shù)據(jù)集中心點(diǎn)的距離平方(只挑選該雙聚類所涉及到的屬性來(lái)計(jì)算距離),再除以屬性數(shù)目之后的加權(quán)和為類間分離度,其數(shù)學(xué)表達(dá)式為:
(4)
其中,Ci指各類中心,C為數(shù)據(jù)中心,pi表示第i個(gè)聚類中屬性的個(gè)數(shù),NC表示類的數(shù)目。
V的值越大,說(shuō)明聚類的結(jié)果類與類之間的差距越大,類與類之間的區(qū)分度越高。 反之,則說(shuō)明聚類的結(jié)果類與類之間的差距越小,類與類之間的區(qū)分度越低。
定義6緊密度D[10]定義類中各點(diǎn)與類中心的最大距離平方和為類內(nèi)緊密度,其數(shù)學(xué)表達(dá)式為:
(5)
其中,x指各類內(nèi)的每個(gè)對(duì)象,Ci指各類中心。
D的值越大,說(shuō)明聚類的結(jié)果各類類內(nèi)的對(duì)象越相似,反之則說(shuō)明聚類的結(jié)果各類類內(nèi)的對(duì)象越相異。
定義7PA指標(biāo)[10]定義分離度除以緊密度,再除以聚類數(shù)目為PA指標(biāo),其數(shù)學(xué)表達(dá)式為:
(6)
其中,Ci指各類中心,C為數(shù)據(jù)中心,pi表示第i個(gè)聚類中屬性的個(gè)數(shù),x指各類內(nèi)的每個(gè)對(duì)象,NC表示類的數(shù)目。
PA指標(biāo)的值越大,說(shuō)明聚類的結(jié)果類間的分離度越大,類內(nèi)的緊密度越小,聚類的綜合效果越好。反之則說(shuō)明聚類的結(jié)果類間的分離度越小,類內(nèi)的緊密度越大,聚類的綜合效果越差。
所得的結(jié)果如表3所示。從表3可以看出基于變異系數(shù)的雙聚類算法所得結(jié)果的分離度V的值比K-Means算法大,緊密度D的值僅為K-Means算法的四分之一,PA指標(biāo)接近K-Means算法的兩倍。這說(shuō)明對(duì)比K-Means算法,該算法所得的結(jié)果類與類之間的區(qū)分度比較高,類內(nèi)的對(duì)象更加相似,聚類的綜合效果更好。
表3 K-means算法和基于變異系數(shù)的雙聚類算法的聚類有效性對(duì)比
5結(jié)語(yǔ)
目前電信行業(yè)正以前所未有的速度,成為發(fā)展最快的行業(yè)之一。但是同時(shí),電信行業(yè)間的競(jìng)爭(zhēng)也越趨加劇。精確地識(shí)別、細(xì)分客戶市場(chǎng),有助于指導(dǎo)電信企業(yè)優(yōu)化資源配置,制定和設(shè)計(jì)個(gè)性化,差異化的創(chuàng)新產(chǎn)品,提升企業(yè)在行業(yè)中的競(jìng)爭(zhēng)力。這已成為電信行業(yè)內(nèi)的一個(gè)共識(shí)。本文分析了傳統(tǒng)客戶細(xì)分方法存在的缺陷,并在此基礎(chǔ)上提出了一種基于變異系數(shù)的雙聚類方法,該方法在客戶樣本和消費(fèi)屬性兩個(gè)維度上對(duì)消費(fèi)記錄進(jìn)行雙向聚類,可以挖掘出在部分消費(fèi)屬性上行為比較相似的客戶群體。另外,結(jié)合某電信公司的客戶消費(fèi)數(shù)據(jù),本文將該算法與K-Means算法進(jìn)行聚類有效性的比較,實(shí)驗(yàn)結(jié)果表明,該算法的聚類結(jié)果具有更好的客戶細(xì)分能力和更強(qiáng)的客戶行為可解釋能力,更有利于企業(yè)進(jìn)一步實(shí)施差異化營(yíng)銷。然而,由于現(xiàn)在電信客戶消費(fèi)記錄急劇增長(zhǎng),當(dāng)面臨海量數(shù)據(jù)處理的時(shí)候,該算法還是會(huì)遇到單機(jī)內(nèi)存和計(jì)算能力不足的瓶頸。因此如何對(duì)該算法進(jìn)行并行優(yōu)化設(shè)計(jì),這將是后續(xù)亟待解決的問題。
參考文獻(xiàn)
[1] Hung S Y,Yen D C,Wang H Y.Applying datamining to tele-com churn management[J].Expert Systems with Applications,2006,31(3):515-524.
[2] Jackson B B.Build Customer Relationships That Last[J].Harvard Business Review,1985,63(10):120-128.
[3] Berger P D,Nasr N I.Customer lifetime value:marketing models and applications[J].Journal of interactive marketing,1998,12(1):17-30.
[4] 陳明亮.客戶保持與生命周期研究[D].西安:西安交通大學(xué),2001.
[5] 齊佳音.企業(yè)客戶價(jià)值研究[D].西安:西安交通大學(xué),2002.
[6] 張煥國(guó),呂莎,李瑋.C均值算法的電信客戶細(xì)分研究[J].計(jì)算機(jī)仿真,2011,28(6):185-188.
[7] D Urso P,De Giovanni L.Temporal self-organizing maps for telecommunications market segmentation[J].Neurocomputing,2008,71(13):2880-2892.
[8] Ye L,Qiuru C,Haixu X,et al.Telecom customer segmentation with K-means clustering[C]//Computer Science & Education (ICCSE),2012 7th International Conference on IEEE.Melbourne.VIC:IEEE Computer Society,2012:648-651.
[9] 曾小青,徐秦,張丹,等.基于消費(fèi)數(shù)據(jù)挖掘的多指標(biāo)客戶細(xì)分新方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(10):2944-2947.
[10] 林勤,薛云.一種雙聚類算法在電信高價(jià)值客戶細(xì)分的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用,2014,34(6):1807-1811.
[11] Jiong Yang,Wei Wang,Haixun Wang,et al.Enhanced Biclustering on Expression Data[C]//Proceedings of the 3rd IEEE Conference on Bioinformatics and Bioengineering.Maryland:IEEE Computer Society,2003:321-327.
[12] Cheng Yizong,George M Church.Biclustering of expression data[C]//Proceeding of the 8th International Conference on Intelligent Systems for Molecular Biology.New York:ACM press,2000:93-103.
[13] Dhillon L S.Co-Clustering Documents and Words Using Bipartite Spectral Graph Partitioning[C]//Proceeding of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco:ACM press.2001:269-274.
[14] Banerjee A,Dhillon L,Ghosh J,et al.A Generalized Maximum Entropy Approach to Bregman Co-clustering and Matrix Approximation[J].Journal of Machine Learning Research,2007,8(12):509-514.
[15] Su X,Khoshgoftaar T M.A Survey of Collaborative Filtering Techniques[J].Advances in Artificial Intelligence,2009(4):1-19.
中圖分類號(hào)TP391
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.02.052
收稿日期:2014-06-23。國(guó)家自然科學(xué)基金項(xiàng)目(71102146);廣東醫(yī)學(xué)院面上基金項(xiàng)目(XK1330);廣東醫(yī)學(xué)院青年基金項(xiàng)目(XQ1224)。林勤,助理實(shí)驗(yàn)師,主研領(lǐng)域:數(shù)據(jù)挖掘,并行計(jì)算。薛云,副教授。楊柏高,本科。