王榮波,王亞杰,黃孝喜,諶志群
(杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)
隨著現(xiàn)代社會(huì)通信技術(shù)的飛速發(fā)展,手機(jī)等移動(dòng)通信設(shè)備幾乎成了人們生活中不可缺少的一部分,面對(duì)中國(guó)13億的巨量人口,一場(chǎng)對(duì)通信用戶的競(jìng)爭(zhēng)在各電信運(yùn)營(yíng)商之間愈演愈烈。隨著競(jìng)爭(zhēng)的白熱化,客戶的流失成了各大電信運(yùn)營(yíng)商面臨的主要困難,同時(shí)挖掘一個(gè)新客戶所投入的成本也越來(lái)越高。有數(shù)據(jù)顯示,成功贏得一個(gè)新客戶比維護(hù)一個(gè)老客戶所付出的代價(jià)要高出5倍左右[1]??蛻舻牧魇б馕吨际袌?chǎng)份額縮小,在競(jìng)爭(zhēng)中處于不利地位,甚至還存在著用戶故意欠費(fèi)后離網(wǎng)的異常行為等,這些都大大增加了運(yùn)營(yíng)商的運(yùn)營(yíng)成本。因此,在發(fā)展新用戶的同時(shí),維護(hù)老用戶不離網(wǎng)成了各大運(yùn)營(yíng)商在市場(chǎng)爭(zhēng)奪戰(zhàn)中的核心競(jìng)爭(zhēng)力,同時(shí),對(duì)本網(wǎng)用戶是否即將離網(wǎng)進(jìn)行準(zhǔn)確的預(yù)測(cè)有助于運(yùn)營(yíng)商及時(shí)有針對(duì)性地調(diào)整營(yíng)銷策略來(lái)挽留用戶。所以,用戶流失預(yù)測(cè)模型對(duì)電信運(yùn)營(yíng)商維護(hù)自身利益有著非凡的意義。
傳統(tǒng)的預(yù)測(cè)模型主要有決策樹[2-4]、Logistic回歸[5]、貝葉斯分類器[6-7]和聚類[8-9]。比較智能的方法有神經(jīng)網(wǎng)絡(luò)[10-11]、自組織映射[12]、進(jìn)化學(xué)習(xí)算法[13]、支持向量機(jī)[14]等。然而并沒有一種模型適用于所有情況,每種模型都有各自的優(yōu)點(diǎn)與不足,對(duì)于同一個(gè)數(shù)據(jù)集,不同的預(yù)測(cè)模型可能會(huì)得到不同的預(yù)測(cè)結(jié)果。目前國(guó)內(nèi)的移動(dòng)通信運(yùn)營(yíng)商擁有極其強(qiáng)大的數(shù)據(jù)存儲(chǔ)和查詢能力,但其使用的預(yù)測(cè)方法仍是基于單一算法預(yù)測(cè)的模型。為進(jìn)一步提高客戶流失預(yù)測(cè)的正確率,針對(duì)決策樹、Logistic回歸和人工神經(jīng)網(wǎng)絡(luò)這三種算法模型的特點(diǎn)和數(shù)據(jù)倉(cāng)庫(kù)[15]提供的大量信息,文中嘗試將這三種模型進(jìn)行合理的結(jié)合來(lái)構(gòu)造優(yōu)于它們單獨(dú)預(yù)測(cè)效果的模型,并利用構(gòu)造出的模型在該移動(dòng)通信企業(yè)提供的數(shù)據(jù)集中進(jìn)行預(yù)測(cè),驗(yàn)證其有效性。
決策樹是分類與回歸的基本方法之一,決策樹模型呈樹狀結(jié)構(gòu),在分類問(wèn)題中,基于實(shí)例各個(gè)特征的分類過(guò)程可以看作是一個(gè)if-then規(guī)則集,也可以看作是定義在類空間和特征空間上的條件概率分布。它的主要特點(diǎn)是模型具有可讀性并且分類的速度快。學(xué)習(xí)時(shí),該模型是根據(jù)訓(xùn)練數(shù)據(jù)集和最小損失函數(shù)來(lái)建立的,預(yù)測(cè)時(shí),訓(xùn)練好的模型將對(duì)新數(shù)據(jù)進(jìn)行分類。決策樹學(xué)習(xí)通常由三步組成:特征的選擇、決策樹的生成和決策樹的剪枝。這里,通過(guò)基尼指數(shù)[16-17]來(lái)進(jìn)行特征的選擇,通過(guò)CART生成算法[18]來(lái)進(jìn)行決策樹的生成。
1.1.1 基尼指數(shù)
基尼指數(shù)是用來(lái)描述一個(gè)數(shù)據(jù)集的不確定性,基尼指數(shù)越大,數(shù)據(jù)集的不確定性也就越大??蛻袅魇У念A(yù)測(cè)問(wèn)題屬于二分類問(wèn)題,對(duì)于二分類問(wèn)題,若整個(gè)數(shù)據(jù)集D中樣本屬于正類的概率為p,則該樣本集的基尼指數(shù)為:
Gini(D)=2p(1-p)
(1)
在該數(shù)據(jù)集中,根據(jù)特征A是否取某個(gè)值將其劃分為兩個(gè)獨(dú)立的數(shù)據(jù)集D1和D2,則該數(shù)據(jù)集D基于特征A的基尼指數(shù)為:
(2)
1.1.2 CART生成算法
CART生成算法的主要思想是通過(guò)訓(xùn)練集生成盡可能大的決策樹,之后利用驗(yàn)證數(shù)據(jù)集通過(guò)最小化損失函數(shù)的方法來(lái)修剪出最優(yōu)子樹,其算法步驟如下:
Step1:設(shè)節(jié)點(diǎn)的數(shù)據(jù)集為D,則對(duì)數(shù)據(jù)集D中的每個(gè)特征A的每個(gè)取值a,計(jì)算所有的基尼指數(shù)Gini(D,A)。
Step2:選擇基尼指數(shù)最小的特征及其對(duì)應(yīng)的值,根據(jù)該特征是否取這個(gè)值從數(shù)據(jù)集D生成兩個(gè)子節(jié)點(diǎn)。
Step3:對(duì)這兩個(gè)子節(jié)點(diǎn)遞歸地調(diào)用Step1和Step2,直到滿足停止條件。
Step4:生成CART決策樹。
1.1.3 CART剪枝算法
CART剪枝算法從“完全”的決策樹的底部剪去一些子樹,使原來(lái)的“完全”決策樹變得簡(jiǎn)單,修剪后的決策樹具有更好的泛化能力。該修剪過(guò)程主要分為兩步:從“完全”決策樹T0的底部不斷進(jìn)行修剪,直到T0根節(jié)點(diǎn),該過(guò)程形成若干棵子樹,組成序列{T0,T1,…,Tn};在獨(dú)立的驗(yàn)證數(shù)據(jù)集上通過(guò)交叉驗(yàn)證法選擇最優(yōu)子樹。
對(duì)于二分類問(wèn)題,Logistic回歸是非常典型且應(yīng)用極為廣泛的模型,其本質(zhì)上是利用線性回歸模型[19]來(lái)逼近真實(shí)結(jié)果標(biāo)記幾率的自然對(duì)數(shù)。這種分類方法具有很多優(yōu)點(diǎn),例如可以直接對(duì)分類問(wèn)題進(jìn)行建模,而不需要事先的分布假設(shè),從而避免了不準(zhǔn)確的分布假設(shè)帶來(lái)的問(wèn)題。這種方式不僅僅是預(yù)測(cè)“類別”,而是預(yù)測(cè)所得類別的概率,這對(duì)許多使用概率進(jìn)行決策的任務(wù)是非常有意義的。此外,Logistic回歸采用的Sigmoid函數(shù)是具有任意階導(dǎo)數(shù)的凸函數(shù),具有良好的數(shù)學(xué)性質(zhì),現(xiàn)有的許多優(yōu)化算法都可直接用于求解最優(yōu)解[20]。假設(shè)輸出的正類標(biāo)記為“1”,輸出的負(fù)類標(biāo)記為“0”,則
(3)
其中,w為輸入的權(quán)重向量;x為輸入的特征向量;b為偏置值。
人工神經(jīng)網(wǎng)絡(luò)是一種基于人的大腦進(jìn)行仿真的數(shù)據(jù)分析模型,可以對(duì)海量數(shù)據(jù)進(jìn)行并行處理和計(jì)算,用來(lái)表示認(rèn)知、決策等智能控制行。典型的神經(jīng)網(wǎng)絡(luò)主要分為輸入層、隱含層和輸出層,由若干神經(jīng)元相互連接,如圖1所示。BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)算法,其輸出為:
H=fi(∑wijxi+θj)
(4)
其中,wij為權(quán)重;fi為傳輸函數(shù);θj為偏置值;xi輸入。
BP神經(jīng)網(wǎng)絡(luò)通過(guò)有監(jiān)督的方式進(jìn)行學(xué)習(xí),能夠?qū)θ我鈴?fù)雜的非線性關(guān)系進(jìn)行擬合,通過(guò)最小化輸出誤差來(lái)逐層修正各個(gè)權(quán)值和偏置值,學(xué)習(xí)過(guò)程如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程
由于單一的算法模型可能對(duì)不同的數(shù)據(jù)集預(yù)測(cè)效果變化較大,有時(shí)還存在著不能容忍的劣勢(shì),現(xiàn)考慮將決策樹模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行線性組合,以對(duì)三種單一算法模型相互取長(zhǎng)補(bǔ)短。為確定最佳權(quán)值系數(shù),構(gòu)造拉格朗日函數(shù)[21]作為評(píng)價(jià)指標(biāo)。
(β1h1i+β2h2i+β3h3i-h3i)2+
λ(β1h1i+β2h2i+β3h3i-1)]
(5)
其中,N為訓(xùn)練樣本集中的樣本總數(shù);β1,β2,β3分別為組合模型中決策樹模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型的權(quán)值系數(shù);h1i,h2i,h3i分別為決策樹模型、Logistic回歸模型和神經(jīng)網(wǎng)絡(luò)模型對(duì)第i個(gè)樣本的預(yù)測(cè)結(jié)果;λ為拉格朗日算子。
由于L(β1,β2,β3)為二次凸函數(shù),故有唯一的極值,即最小值,令:
(6)
(7)
基于多算法組合的移動(dòng)通信客戶流失預(yù)測(cè)流程如圖3所示。
圖3 組合模型預(yù)測(cè)流程
具體的組合模型預(yù)測(cè)過(guò)程如下:
Step1:將預(yù)處理后的數(shù)據(jù)集進(jìn)行劃分,80%的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),剩余的20%作為測(cè)試集數(shù)據(jù)。
Step2:使用決策樹、Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)集上進(jìn)行建模,其中,決策樹的特征選擇使用基尼指數(shù),決策樹的生成使用CART生成算法,最后對(duì)生成的決策樹進(jìn)行剪枝。
Step3:使用訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)測(cè)結(jié)果分析。
Step4:將決策樹模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型得出的預(yù)測(cè)結(jié)果帶入構(gòu)造好的拉格朗日函數(shù),得出組合模型中各單一模型的權(quán)值系數(shù),并構(gòu)建組合模型。
Step5:根據(jù)構(gòu)建的組合模型得出預(yù)測(cè)結(jié)果。
實(shí)驗(yàn)中的數(shù)據(jù)來(lái)自浙江省杭州市某移動(dòng)通信公司數(shù)據(jù)倉(cāng)庫(kù),通過(guò)HQL查詢得出20 000條客戶個(gè)人信息和近兩個(gè)月歷史消費(fèi)情況的記錄,其中包含某個(gè)客戶是否離網(wǎng)的標(biāo)記。對(duì)原始數(shù)據(jù)進(jìn)行清洗,去除異常數(shù)據(jù),如寬帶號(hào)碼、手機(jī)號(hào)碼不是11位,手機(jī)號(hào)碼不是以“1”開頭,手機(jī)imei號(hào)碼為“-99”(異常標(biāo)記)等異常號(hào)碼,并進(jìn)行特征選擇,最后選取該數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集,余下的20%作為測(cè)試集,使用決策樹模型、Logistic回歸模型、BP網(wǎng)絡(luò)模型和組合模型分別在訓(xùn)練數(shù)據(jù)集上進(jìn)行學(xué)習(xí),利用訓(xùn)練好的模型在測(cè)試數(shù)據(jù)集上進(jìn)行預(yù)測(cè),結(jié)果如表1所示(由于數(shù)據(jù)量太大的緣故,這里僅列出了10條數(shù)據(jù))。
表1 三種單一模型與組合模型的客戶流失預(yù)測(cè)結(jié)果
為了進(jìn)一步比較3種單一模型和組合模型的預(yù)測(cè)效果,對(duì)表1的測(cè)試預(yù)測(cè)結(jié)果進(jìn)行了詳細(xì)的統(tǒng)計(jì),結(jié)果表明:決策樹模型的準(zhǔn)確度為88.13%,Logistic回歸模型的準(zhǔn)確度為85.69%,BP神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確度為87.90%,組合模型的準(zhǔn)確度為93.06%,如圖4所示。
圖4 各預(yù)測(cè)模型準(zhǔn)確度對(duì)比
可以看出,組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)勢(shì),預(yù)測(cè)效果要優(yōu)于任意一個(gè)單一預(yù)測(cè)模型,大大提高了預(yù)測(cè)客戶流失的準(zhǔn)確度,高達(dá)93.06%,與單一預(yù)測(cè)模型的效果相比,準(zhǔn)確度提高了近6%。
在移動(dòng)通信企業(yè)中,客戶流失對(duì)其經(jīng)濟(jì)收益有著非常重要的影響,并且在運(yùn)營(yíng)過(guò)程中是常常出現(xiàn)的問(wèn)題,只有有效地控制客戶流失才能立于不敗之地。由于企業(yè)對(duì)這部分客戶制定策略的盲目性,使移動(dòng)運(yùn)營(yíng)企業(yè)在營(yíng)銷過(guò)程中遭受了不可忽視的損失。根據(jù)決策樹模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型各自的特點(diǎn),文中提出的組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)點(diǎn),通過(guò)通信企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中用戶的信息和消費(fèi)特征等海量數(shù)據(jù)進(jìn)行學(xué)習(xí),使預(yù)測(cè)的準(zhǔn)確度得到了一定程度的提高。移動(dòng)通信企業(yè)可根據(jù)組合模型得出的預(yù)測(cè)結(jié)果采取相應(yīng)的營(yíng)銷手段來(lái)減少因客戶流失而造成的損失。組合模型更高的準(zhǔn)確度使運(yùn)營(yíng)企業(yè)在制定營(yíng)銷策略時(shí)更具有針對(duì)性。