• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于決策樹的電信業(yè)客戶流失分析

    2010-08-15 00:43:59
    關(guān)鍵詞:通話決策樹數(shù)據(jù)挖掘

    陳 捷

    (杭州師范大學(xué) 國際服務(wù)工程學(xué)院,浙江 杭州 310012)

    基于決策樹的電信業(yè)客戶流失分析

    陳 捷

    (杭州師范大學(xué) 國際服務(wù)工程學(xué)院,浙江 杭州 310012)

    隨著電信市場競爭加劇,如何降低客戶流失率正成為國內(nèi)各大運營商關(guān)注的問題.本文基于SPSS Clementine數(shù)據(jù)挖掘平臺,詳細描述了數(shù)據(jù)挖掘的各個過程,對商業(yè)理解、數(shù)據(jù)準備、建立模型等主要步驟進行了分析,采用C4.5決策樹算法建立了客戶流失預(yù)測模型.模型給出了客戶的流失規(guī)則,并可預(yù)測在網(wǎng)客戶在一定時間內(nèi)流失的可能性,為市場人員制定挽留措施提供了決策依據(jù).

    客戶流失;數(shù)據(jù)挖掘;決策樹

    1 引言

    隨著中國3 G牌照的發(fā)放,通信行業(yè)的競爭愈演愈烈,客戶流失現(xiàn)象也成為電信運營商重點關(guān)注的問題.國外統(tǒng)計表明:發(fā)展一個新用戶的費用是留住一個老客戶的成本的4~5倍[1].因此,企業(yè)需要盡可能地預(yù)測并成功挽留那些用戶價值和信用度較高的待流失客戶.當前最有效的方法是采用基于嚴格數(shù)學(xué)計算的數(shù)據(jù)挖掘技術(shù),其通過計算機對大量復(fù)雜的業(yè)務(wù)數(shù)據(jù)集進行自動探索性分析,可發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的業(yè)務(wù)規(guī)則.現(xiàn)今,數(shù)據(jù)挖掘已經(jīng)廣泛應(yīng)用于移動通信企業(yè)的市場銷售工作中[2].

    本文基于某電信公司數(shù)據(jù)倉庫系統(tǒng),根據(jù)已流失用戶和在網(wǎng)用戶的基本資料、賬單、話務(wù)量等數(shù)據(jù),通過數(shù)據(jù)挖掘中的決策樹方法建立流失分析模型,并對有流失傾向的客戶進行分類預(yù)測,為市場經(jīng)營人員制定相應(yīng)的挽留策略提供決策依據(jù).本文以SPSS 公司的Clementine 12.0 為建模工具,嚴格按照CRISP-DM (cross-industry standard process for data mining,跨行業(yè)數(shù)據(jù)挖掘過程標準)逐步以商業(yè)理解、數(shù)據(jù)收集、數(shù)據(jù)準備、數(shù)據(jù)建模、模型評估、模型應(yīng)用等步驟來實施此挖掘工程.

    2 某電信公司客戶流失分析實例

    2.1 商業(yè)理解

    電信行業(yè)中,客戶流失是C R M(客戶關(guān)系管理)中客戶生命周期的最后一個階段,一般可以分為兩類:一類為自愿流失,指用戶從本電信運營商轉(zhuǎn)至它網(wǎng)運營商;另一類為非自愿流失,指電信企業(yè)出于客戶欠費或不履行責(zé)任等原因而主動取消用戶的服務(wù)[5].大多數(shù)的客戶流失屬于第一類.流失往往受到一種或多種因素的影響,例如客戶心理偏好、住宅搬遷、競爭對手的優(yōu)惠政策、電信企業(yè)的服務(wù)質(zhì)量等.

    本文主要關(guān)注自愿流失客戶,特別是其中用戶價值和信用度高的群體.結(jié)合業(yè)務(wù)現(xiàn)狀,將流失客戶定義為“欠費停機3個月以上的在網(wǎng)客戶,以及主動退網(wǎng)客戶”.實例來源于某電信公司C網(wǎng)客戶.

    2.2 數(shù)據(jù)收集與準備

    結(jié)合業(yè)務(wù)經(jīng)驗,本文使用的流失分析數(shù)據(jù)包括客戶的自然屬性、通信消費、出賬、歷史投訴等信息.這些數(shù)據(jù)從賬務(wù)系統(tǒng)、計費系統(tǒng)、客戶關(guān)系管理系統(tǒng)、營業(yè)系統(tǒng)、財務(wù)系統(tǒng)等多個生產(chǎn)系統(tǒng)中采集、清洗并加載到企業(yè)已建立的數(shù)據(jù)倉庫中.因此數(shù)據(jù)收集對本文并不是難點.從數(shù)據(jù)倉庫中隨機抽取了2010年6月份的1000 0名流失客戶以及2000 0名非流失客戶作為本次研究的樣本.接著的數(shù)據(jù)準備工作是本文進行過程中的一個技術(shù)關(guān)鍵.

    數(shù)據(jù)準備包括對數(shù)據(jù)的選擇、缺失值處理、噪聲數(shù)據(jù)平滑、數(shù)據(jù)集成變換、衍生變量的生成、離散化、抽樣等,它需要對行業(yè)領(lǐng)域知識有較深的理解,是數(shù)據(jù)挖掘項目中花費時間最長的過程.本文采用Clementine直接對數(shù)據(jù)進行清洗與轉(zhuǎn)換處理,抽象出與用戶流失相關(guān)的屬性.例如使用數(shù)據(jù)審核節(jié)點采用C&RT算法來歸因或替換字段的缺失值.使用導(dǎo)出節(jié)點通過用戶身份證號生成年齡字段和性別字段.原始的用戶行為數(shù)據(jù)并不能直接反應(yīng)用戶流失前的異常變化,這需要通過導(dǎo)出節(jié)點歸約出一些衍生指標,比如流失前3個月的月均各語音、短消息的消費比例、網(wǎng)間通話比例等.

    通過對分析數(shù)據(jù)的調(diào)整和歸約,將有助于提高其后的數(shù)據(jù)建模過程的精度和性能.經(jīng)過上述處理,形成的客戶流失屬性表包含以下信息:

    客戶基本信息:年齡、性別、地區(qū)、職業(yè)、在網(wǎng)時長、產(chǎn)品結(jié)構(gòu)、優(yōu)惠套餐、付費方式等、流失狀態(tài);

    流失前3個月的月均通話與消費數(shù)據(jù):通話次數(shù)、長話次數(shù)、出賬費用、市話費用比例、長話費用比例、短信費用比例、功能費用比例、通話次數(shù)、通話時長、網(wǎng)間通話比例、呼叫轉(zhuǎn)移次數(shù)、投訴次數(shù)等.

    2.3 數(shù)據(jù)建模

    經(jīng)過數(shù)據(jù)預(yù)處理后得到一個高質(zhì)量的數(shù)據(jù)集合,為避免出現(xiàn)模型的過適應(yīng)問題,從中隨機選取2/3的數(shù)據(jù)作為訓(xùn)練集,2094 5條數(shù)據(jù)用于建立預(yù)測模型;剩余的9055條數(shù)據(jù)作為驗證數(shù)據(jù)集,用于對模型性能進行評估.

    從訓(xùn)練集中選擇流失狀態(tài)字段chur_stat作為用戶流失預(yù)測模型中的目標字段,它由1和0兩個值組成,1代表用戶現(xiàn)在是流失狀態(tài),0代表用戶現(xiàn)在非流失.在Clementine上運行C 4.5分類技術(shù),通過歸納分析它們的特征來預(yù)測用戶是否離網(wǎng).

    不斷對預(yù)測模型進行調(diào)優(yōu)(變換參數(shù)),選取最優(yōu)參數(shù)設(shè)置來訓(xùn)練模型.最終得到客戶流失決策樹節(jié)點flag_active.瀏覽該節(jié)點可查看用戶流失決策樹,其中每一條路徑代表一條分類規(guī)則,每條規(guī)則對應(yīng)了一個葉子節(jié)點,給出該規(guī)則客戶流失的數(shù)量和流失的概率.如標識為‘5’的葉子節(jié)點表示,在該客戶群中流失的概率為21%,主要包括以下特征:

    AVg_call_dur>1:月通話時大于1小時,

    NET_dur>=2:在網(wǎng)時長不小于2年,

    AVg_call_dms_rate>=0.11:長途通話比例不小于0.11.

    標識為‘12’的葉子節(jié)點表示該客戶群的流失概率為83%,它們的特征與表示為‘5’的群體的區(qū)別在于:

    NET_dur<1:在網(wǎng)時長小于1年,

    call_wj_rate>0.6:網(wǎng)間通話比例大于0.6,

    call_divert_cnt>12:呼叫轉(zhuǎn)移次數(shù)大于12次.

    從決策樹分析,每月的通話時長、在網(wǎng)時長、網(wǎng)間通話比例這三個因素是與用戶流失相關(guān)的主要因素.通話時長指標反映用戶主動使用手機通話意愿的強烈程度;在網(wǎng)越久的用戶的忠誠度也越高;網(wǎng)間通話比例反映了中國電信與中國聯(lián)通、中國移動用戶之間的聯(lián)系緊密程度,因為聯(lián)通與移動都對網(wǎng)內(nèi)通話給與一定的優(yōu)惠,如果某客戶群與中國移動用戶的通話比例較高,那么該客戶群的離網(wǎng)傾向也較高.

    2.4 模型評估與應(yīng)用

    模型評估是運用Clementine的分析節(jié)點對已建立的客戶流失預(yù)測模型進行精確性分析,評價指標為對未經(jīng)分類處理的測試數(shù)據(jù)進行正確分類的準確率,即“預(yù)測正確率=正確預(yù)測個數(shù)/測試樣本數(shù)×100%”.將在數(shù)據(jù)抽樣過程中分離出的測試數(shù)據(jù)集輸入客戶流失預(yù)測模型,借助分析節(jié)點得到該模型的準確率為84.16%.

    經(jīng)驗證評估后,使用Clementine的發(fā)布節(jié)點將流嵌入到運營商自己外部的應(yīng)用軟件中,如CRM、營銷支撐系統(tǒng)等,可進行客戶流失趨勢的預(yù)測,通過預(yù)測某個客戶流失的概率來評價發(fā)展用戶的質(zhì)量.

    3 小結(jié)

    決策樹是一種重要的分類預(yù)測模型,本文以電信業(yè)的客戶流失作為主題,依托某地電信公司的客戶數(shù)據(jù),基于C 4.5決策樹算法構(gòu)建了一個數(shù)據(jù)挖掘的模型,在遵循CRISP-DM標準的構(gòu)建過程中所用到的理論、方法與策略同樣也可適用于其它主題.在某電信公司中的應(yīng)用結(jié)果表明,該模型可提供較準確的決策依據(jù),市場部門能對流失傾向較高的客戶群體采取針對性的挽留措施,并通過實際應(yīng)用,不斷地修正挖掘模型使其預(yù)測精度更高.

    〔1〕周支立,劉斌.基于客戶信息的電信企業(yè)客戶流失問題分析[J].情報雜志,2003(12):98-99.

    〔2〕湯小文,蔡慶生.數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用[J].計算機工程,2004,30(6):36-37.

    〔3〕Salvatore Ruggieri.Efficient C4.5[J].IEEE Transaction on Knowledge and Data Engineering,2002,14(2):438-444.

    〔4〕Quinlan,J.R..Induction of Decision Trees.Machine Learning.1986(11).

    〔5〕薛薇,王益鋒,趙璋.基于客戶細分的電信客戶流失防范對策研究[J].經(jīng)理理論研究,2007(4):48-50.

    TP 181

    A

    1673-260X(2010)12-0079-02

    猜你喜歡
    通話決策樹數(shù)據(jù)挖掘
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    《戊戌元日與友人通話》
    中華詩詞(2018年5期)2018-11-22 06:46:08
    決策樹和隨機森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    低成本視頻通話APP
    基于決策樹的出租車乘客出行目的識別
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
    2013年11月通信業(yè)主要指標完成情況(一)
    盐边县| 大埔县| 大宁县| 宝山区| 金门县| 四会市| 双城市| 甘谷县| 宜川县| 靖江市| 榆中县| 二手房| 江都市| 罗江县| 江城| 体育| 来安县| 武隆县| 宜都市| 绿春县| 乌什县| 育儿| 铅山县| 江门市| 昆明市| 赫章县| 仲巴县| 乐都县| 延长县| 伊金霍洛旗| 龙口市| 内黄县| 桓台县| 霍邱县| 五河县| 灌云县| 霍林郭勒市| 阆中市| 龙山县| 抚远县| 门头沟区|