陳 捷
(杭州師范大學(xué) 國際服務(wù)工程學(xué)院,浙江 杭州 310012)
基于決策樹的電信業(yè)客戶流失分析
陳 捷
(杭州師范大學(xué) 國際服務(wù)工程學(xué)院,浙江 杭州 310012)
隨著電信市場競爭加劇,如何降低客戶流失率正成為國內(nèi)各大運營商關(guān)注的問題.本文基于SPSS Clementine數(shù)據(jù)挖掘平臺,詳細描述了數(shù)據(jù)挖掘的各個過程,對商業(yè)理解、數(shù)據(jù)準備、建立模型等主要步驟進行了分析,采用C4.5決策樹算法建立了客戶流失預(yù)測模型.模型給出了客戶的流失規(guī)則,并可預(yù)測在網(wǎng)客戶在一定時間內(nèi)流失的可能性,為市場人員制定挽留措施提供了決策依據(jù).
客戶流失;數(shù)據(jù)挖掘;決策樹
隨著中國3 G牌照的發(fā)放,通信行業(yè)的競爭愈演愈烈,客戶流失現(xiàn)象也成為電信運營商重點關(guān)注的問題.國外統(tǒng)計表明:發(fā)展一個新用戶的費用是留住一個老客戶的成本的4~5倍[1].因此,企業(yè)需要盡可能地預(yù)測并成功挽留那些用戶價值和信用度較高的待流失客戶.當前最有效的方法是采用基于嚴格數(shù)學(xué)計算的數(shù)據(jù)挖掘技術(shù),其通過計算機對大量復(fù)雜的業(yè)務(wù)數(shù)據(jù)集進行自動探索性分析,可發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的業(yè)務(wù)規(guī)則.現(xiàn)今,數(shù)據(jù)挖掘已經(jīng)廣泛應(yīng)用于移動通信企業(yè)的市場銷售工作中[2].
本文基于某電信公司數(shù)據(jù)倉庫系統(tǒng),根據(jù)已流失用戶和在網(wǎng)用戶的基本資料、賬單、話務(wù)量等數(shù)據(jù),通過數(shù)據(jù)挖掘中的決策樹方法建立流失分析模型,并對有流失傾向的客戶進行分類預(yù)測,為市場經(jīng)營人員制定相應(yīng)的挽留策略提供決策依據(jù).本文以SPSS 公司的Clementine 12.0 為建模工具,嚴格按照CRISP-DM (cross-industry standard process for data mining,跨行業(yè)數(shù)據(jù)挖掘過程標準)逐步以商業(yè)理解、數(shù)據(jù)收集、數(shù)據(jù)準備、數(shù)據(jù)建模、模型評估、模型應(yīng)用等步驟來實施此挖掘工程.
電信行業(yè)中,客戶流失是C R M(客戶關(guān)系管理)中客戶生命周期的最后一個階段,一般可以分為兩類:一類為自愿流失,指用戶從本電信運營商轉(zhuǎn)至它網(wǎng)運營商;另一類為非自愿流失,指電信企業(yè)出于客戶欠費或不履行責(zé)任等原因而主動取消用戶的服務(wù)[5].大多數(shù)的客戶流失屬于第一類.流失往往受到一種或多種因素的影響,例如客戶心理偏好、住宅搬遷、競爭對手的優(yōu)惠政策、電信企業(yè)的服務(wù)質(zhì)量等.
本文主要關(guān)注自愿流失客戶,特別是其中用戶價值和信用度高的群體.結(jié)合業(yè)務(wù)現(xiàn)狀,將流失客戶定義為“欠費停機3個月以上的在網(wǎng)客戶,以及主動退網(wǎng)客戶”.實例來源于某電信公司C網(wǎng)客戶.
結(jié)合業(yè)務(wù)經(jīng)驗,本文使用的流失分析數(shù)據(jù)包括客戶的自然屬性、通信消費、出賬、歷史投訴等信息.這些數(shù)據(jù)從賬務(wù)系統(tǒng)、計費系統(tǒng)、客戶關(guān)系管理系統(tǒng)、營業(yè)系統(tǒng)、財務(wù)系統(tǒng)等多個生產(chǎn)系統(tǒng)中采集、清洗并加載到企業(yè)已建立的數(shù)據(jù)倉庫中.因此數(shù)據(jù)收集對本文并不是難點.從數(shù)據(jù)倉庫中隨機抽取了2010年6月份的1000 0名流失客戶以及2000 0名非流失客戶作為本次研究的樣本.接著的數(shù)據(jù)準備工作是本文進行過程中的一個技術(shù)關(guān)鍵.
數(shù)據(jù)準備包括對數(shù)據(jù)的選擇、缺失值處理、噪聲數(shù)據(jù)平滑、數(shù)據(jù)集成變換、衍生變量的生成、離散化、抽樣等,它需要對行業(yè)領(lǐng)域知識有較深的理解,是數(shù)據(jù)挖掘項目中花費時間最長的過程.本文采用Clementine直接對數(shù)據(jù)進行清洗與轉(zhuǎn)換處理,抽象出與用戶流失相關(guān)的屬性.例如使用數(shù)據(jù)審核節(jié)點采用C&RT算法來歸因或替換字段的缺失值.使用導(dǎo)出節(jié)點通過用戶身份證號生成年齡字段和性別字段.原始的用戶行為數(shù)據(jù)并不能直接反應(yīng)用戶流失前的異常變化,這需要通過導(dǎo)出節(jié)點歸約出一些衍生指標,比如流失前3個月的月均各語音、短消息的消費比例、網(wǎng)間通話比例等.
通過對分析數(shù)據(jù)的調(diào)整和歸約,將有助于提高其后的數(shù)據(jù)建模過程的精度和性能.經(jīng)過上述處理,形成的客戶流失屬性表包含以下信息:
客戶基本信息:年齡、性別、地區(qū)、職業(yè)、在網(wǎng)時長、產(chǎn)品結(jié)構(gòu)、優(yōu)惠套餐、付費方式等、流失狀態(tài);
流失前3個月的月均通話與消費數(shù)據(jù):通話次數(shù)、長話次數(shù)、出賬費用、市話費用比例、長話費用比例、短信費用比例、功能費用比例、通話次數(shù)、通話時長、網(wǎng)間通話比例、呼叫轉(zhuǎn)移次數(shù)、投訴次數(shù)等.
經(jīng)過數(shù)據(jù)預(yù)處理后得到一個高質(zhì)量的數(shù)據(jù)集合,為避免出現(xiàn)模型的過適應(yīng)問題,從中隨機選取2/3的數(shù)據(jù)作為訓(xùn)練集,2094 5條數(shù)據(jù)用于建立預(yù)測模型;剩余的9055條數(shù)據(jù)作為驗證數(shù)據(jù)集,用于對模型性能進行評估.
從訓(xùn)練集中選擇流失狀態(tài)字段chur_stat作為用戶流失預(yù)測模型中的目標字段,它由1和0兩個值組成,1代表用戶現(xiàn)在是流失狀態(tài),0代表用戶現(xiàn)在非流失.在Clementine上運行C 4.5分類技術(shù),通過歸納分析它們的特征來預(yù)測用戶是否離網(wǎng).
不斷對預(yù)測模型進行調(diào)優(yōu)(變換參數(shù)),選取最優(yōu)參數(shù)設(shè)置來訓(xùn)練模型.最終得到客戶流失決策樹節(jié)點flag_active.瀏覽該節(jié)點可查看用戶流失決策樹,其中每一條路徑代表一條分類規(guī)則,每條規(guī)則對應(yīng)了一個葉子節(jié)點,給出該規(guī)則客戶流失的數(shù)量和流失的概率.如標識為‘5’的葉子節(jié)點表示,在該客戶群中流失的概率為21%,主要包括以下特征:
AVg_call_dur>1:月通話時大于1小時,
NET_dur>=2:在網(wǎng)時長不小于2年,
AVg_call_dms_rate>=0.11:長途通話比例不小于0.11.
標識為‘12’的葉子節(jié)點表示該客戶群的流失概率為83%,它們的特征與表示為‘5’的群體的區(qū)別在于:
NET_dur<1:在網(wǎng)時長小于1年,
call_wj_rate>0.6:網(wǎng)間通話比例大于0.6,
call_divert_cnt>12:呼叫轉(zhuǎn)移次數(shù)大于12次.
從決策樹分析,每月的通話時長、在網(wǎng)時長、網(wǎng)間通話比例這三個因素是與用戶流失相關(guān)的主要因素.通話時長指標反映用戶主動使用手機通話意愿的強烈程度;在網(wǎng)越久的用戶的忠誠度也越高;網(wǎng)間通話比例反映了中國電信與中國聯(lián)通、中國移動用戶之間的聯(lián)系緊密程度,因為聯(lián)通與移動都對網(wǎng)內(nèi)通話給與一定的優(yōu)惠,如果某客戶群與中國移動用戶的通話比例較高,那么該客戶群的離網(wǎng)傾向也較高.
模型評估是運用Clementine的分析節(jié)點對已建立的客戶流失預(yù)測模型進行精確性分析,評價指標為對未經(jīng)分類處理的測試數(shù)據(jù)進行正確分類的準確率,即“預(yù)測正確率=正確預(yù)測個數(shù)/測試樣本數(shù)×100%”.將在數(shù)據(jù)抽樣過程中分離出的測試數(shù)據(jù)集輸入客戶流失預(yù)測模型,借助分析節(jié)點得到該模型的準確率為84.16%.
經(jīng)驗證評估后,使用Clementine的發(fā)布節(jié)點將流嵌入到運營商自己外部的應(yīng)用軟件中,如CRM、營銷支撐系統(tǒng)等,可進行客戶流失趨勢的預(yù)測,通過預(yù)測某個客戶流失的概率來評價發(fā)展用戶的質(zhì)量.
決策樹是一種重要的分類預(yù)測模型,本文以電信業(yè)的客戶流失作為主題,依托某地電信公司的客戶數(shù)據(jù),基于C 4.5決策樹算法構(gòu)建了一個數(shù)據(jù)挖掘的模型,在遵循CRISP-DM標準的構(gòu)建過程中所用到的理論、方法與策略同樣也可適用于其它主題.在某電信公司中的應(yīng)用結(jié)果表明,該模型可提供較準確的決策依據(jù),市場部門能對流失傾向較高的客戶群體采取針對性的挽留措施,并通過實際應(yīng)用,不斷地修正挖掘模型使其預(yù)測精度更高.
〔1〕周支立,劉斌.基于客戶信息的電信企業(yè)客戶流失問題分析[J].情報雜志,2003(12):98-99.
〔2〕湯小文,蔡慶生.數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用[J].計算機工程,2004,30(6):36-37.
〔3〕Salvatore Ruggieri.Efficient C4.5[J].IEEE Transaction on Knowledge and Data Engineering,2002,14(2):438-444.
〔4〕Quinlan,J.R..Induction of Decision Trees.Machine Learning.1986(11).
〔5〕薛薇,王益鋒,趙璋.基于客戶細分的電信客戶流失防范對策研究[J].經(jīng)理理論研究,2007(4):48-50.
TP 181
A
1673-260X(2010)12-0079-02