曾國(guó)文 趙寶峰 王波
【摘 要】為了減少運(yùn)營(yíng)商核心資源的流失,降低4G用戶流失率,通過采用與大數(shù)據(jù)技術(shù)緊密結(jié)合的R語(yǔ)言技術(shù),從消費(fèi)異動(dòng)、競(jìng)爭(zhēng)對(duì)手影響、不正常沉默和長(zhǎng)期異地漫游等維度設(shè)計(jì)建模指標(biāo),基于邏輯回歸分析搭建了4G用戶流失預(yù)警模型,并通過卡方檢驗(yàn)和ROC分析等方法驗(yàn)證了模型的正確性。該模型預(yù)測(cè)效果明顯,可以很好地對(duì)4G用戶的狀態(tài)進(jìn)行精準(zhǔn)定位,以達(dá)到對(duì)4G用戶的保有。
【關(guān)鍵詞】4G用戶 流失預(yù)警模型 R語(yǔ)言 邏輯回歸
1 引言
隨著數(shù)據(jù)通信與多媒體業(yè)務(wù)的發(fā)展,第四代移動(dòng)通信(4G)快速興起,為移動(dòng)通信用戶提供了“高速對(duì)話”,通信運(yùn)營(yíng)商全業(yè)務(wù)經(jīng)營(yíng)已成趨勢(shì),這也加劇了市場(chǎng)競(jìng)爭(zhēng),為了獲得更多的市場(chǎng)占有率,運(yùn)營(yíng)商想方設(shè)法降低用戶流失率,以減少用戶離網(wǎng)現(xiàn)象的發(fā)生。研究表明,若一個(gè)公司的用戶流失率降低5%,則利潤(rùn)將會(huì)增加25%~85%[1]。企業(yè)往往獲得一位新用戶的費(fèi)用是比較高的,但是挽留一位用戶有時(shí)僅僅只需要一個(gè)電話或者策略[2]。因此,運(yùn)營(yíng)商需對(duì)用戶屬性進(jìn)行精準(zhǔn)定位,試圖挽留存在流失傾向的用戶資源[3]。4G用戶資源儼然已成為運(yùn)營(yíng)商核心資源,如何通過建立數(shù)據(jù)挖掘模型進(jìn)行4G用戶流失預(yù)警,對(duì)有流失傾向的用戶進(jìn)行精準(zhǔn)定位是當(dāng)前重要課題。本文通過對(duì)用戶流失歷史情況進(jìn)行統(tǒng)計(jì)分析,歸納出用戶流失的共有特性,設(shè)計(jì)建模指標(biāo),搭建4G用戶流失預(yù)警模型并提出相應(yīng)的挽留政策,最終目的是降低用戶流失率[4]。
2 建模技術(shù)及模型選擇
2.1 建模技術(shù)選擇
R語(yǔ)言一直是統(tǒng)計(jì)學(xué)家的經(jīng)典工具,它是一種開源軟件編程語(yǔ)言與操作環(huán)境,主要用于統(tǒng)計(jì)分析、繪圖、數(shù)據(jù)挖掘。R語(yǔ)言具有豐富的統(tǒng)計(jì)方法,擁有強(qiáng)大的統(tǒng)計(jì)功能,是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng),提供數(shù)學(xué)計(jì)算的環(huán)境,用戶能夠靈活地在其中進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。
此外,大數(shù)據(jù)處理是潮流和趨勢(shì)。當(dāng)前出現(xiàn)了以Hadoop家族為代表的用于開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái),重點(diǎn)是全量數(shù)據(jù)分析,而R語(yǔ)言的重點(diǎn)則是樣本數(shù)據(jù)分析,這兩種技術(shù)結(jié)合在一起剛好取長(zhǎng)補(bǔ)短。因此,本文采用R語(yǔ)言作為數(shù)據(jù)建模語(yǔ)言,后續(xù)的建模過程均基于R語(yǔ)言開展。
2.2 模型選擇
用戶流失即企業(yè)原有用戶不想或不再使用該企業(yè)的服務(wù)[5]。用戶流失的原因多種多樣,如:Kenveney通過對(duì)消費(fèi)品用戶流失原因進(jìn)行分析,將用戶流失類型分為價(jià)格流失型、產(chǎn)品流失型、服務(wù)流失型、技術(shù)流失型、便利流失型等;Madden、Savage和Coble以澳大利亞ISP市場(chǎng)不同的移動(dòng)用戶消費(fèi)行為為研究對(duì)象,提出定價(jià)、不方便性、核心服務(wù)失敗、服務(wù)接觸失敗、服務(wù)失敗的反應(yīng)、競(jìng)爭(zhēng)對(duì)手、道德問題等因素影響用戶流失意愿[6]。
邏輯回歸分析方法[7]是數(shù)據(jù)挖掘技術(shù)中的分類方法,也是基于統(tǒng)計(jì)理論的識(shí)別技術(shù)。其主要目的是進(jìn)行分類,同時(shí)預(yù)估事件發(fā)生的概率,優(yōu)點(diǎn)是能處理二值因變量,不需滿足其他多變量技術(shù)所要求的假設(shè),可進(jìn)行模型精確度和擬合優(yōu)度的檢驗(yàn)以便評(píng)估模型的預(yù)測(cè)力等。
本文采用了邏輯回歸技術(shù)來搭建4G用戶流失預(yù)警模型。從運(yùn)營(yíng)商的角度來看,用戶狀態(tài)可分為在網(wǎng)和離網(wǎng)。其中,在網(wǎng)為依然使用運(yùn)營(yíng)商為其提供的服務(wù);離網(wǎng)為不再使用,也即是流失。判斷用戶狀態(tài)屬于一個(gè)典型的二分類變量問題時(shí),可采用邏輯回歸分析來處理。邏輯回歸模型公式如下[8]:
(1)
由于邏輯回歸模型是非線性模型,所以就少了像線性模型那樣的約束,如自變量與因變量需具有線性關(guān)系等。其實(shí)邏輯回歸本質(zhì)上是線性回歸的一種,只是邏輯回歸中的因變量是未知的類別變量取某一個(gè)值的概率[9]。邏輯回歸是一個(gè)被邏輯方程歸一化后的線性回歸,事實(shí)上以上模型公式只需進(jìn)行l(wèi)og it變換即可變換成線性形式,公式如下:
log it (2)
4G用戶流失預(yù)警模型設(shè)計(jì)流程如圖1所示:
3 用戶流失預(yù)警模型構(gòu)建
3.1 分析思路
本文將搭建4G用戶流失預(yù)警模型,其研究過程主要實(shí)現(xiàn)以下目標(biāo):
(1)定義4G用戶的消費(fèi)異動(dòng)、不正常沉默、呼轉(zhuǎn)競(jìng)爭(zhēng)對(duì)手、異地漫游這4類流失類型的口徑,完成建模指標(biāo)的設(shè)計(jì);
(2)搭建4G用戶流失預(yù)警模型;
(3)對(duì)模型進(jìn)行評(píng)估驗(yàn)證。
建模過程:該業(yè)務(wù)問題是一個(gè)二元預(yù)測(cè)問題(是否流失),并且與之相關(guān)的數(shù)據(jù)大都是數(shù)值型的數(shù)據(jù),適合采用邏輯回歸的方法來建模。
3.2 建模指標(biāo)設(shè)計(jì)與分析
通過對(duì)已流失4G用戶進(jìn)行觀察、統(tǒng)計(jì)和分析,發(fā)現(xiàn)在用戶流失之前可能會(huì)出現(xiàn)以下方面的情況,可圍繞這些情況進(jìn)行建模指標(biāo)的選?。?/p>
(1)消費(fèi)異動(dòng):與歷史消費(fèi)水平相比,突然出現(xiàn)消費(fèi)異常波動(dòng),一般通信行業(yè)選取ARPU(Average Revenue Per User,每用戶平均收入)值作為衡量用戶消費(fèi)水平的指標(biāo),因此設(shè)計(jì)建模指標(biāo)包括近三個(gè)月ARPU標(biāo)準(zhǔn)差、(本月ARPU-前三均值)/前三均值;
(2)競(jìng)爭(zhēng)對(duì)手影響:用戶日常聯(lián)系的主要通信圈子外網(wǎng)占比增加,網(wǎng)外通話占比增加,受競(jìng)爭(zhēng)對(duì)手客服的影響或者有呼轉(zhuǎn)到競(jìng)爭(zhēng)對(duì)手的情況,因此設(shè)計(jì)建模指標(biāo)包括本月網(wǎng)內(nèi)通話次數(shù)占比、本月網(wǎng)外通話時(shí)長(zhǎng)占比、本月網(wǎng)外主叫次數(shù)占比、本月競(jìng)爭(zhēng)對(duì)手客服主被叫通話次數(shù)、本月呼轉(zhuǎn)競(jìng)爭(zhēng)對(duì)手次數(shù);
(3)不正常沉默:通信行為出現(xiàn)突然減少乃至不正常沉默,從通話時(shí)長(zhǎng)、通話次數(shù)和4G流量的使用情況綜合考量,因此設(shè)計(jì)建模指標(biāo)包括(本月通話時(shí)長(zhǎng)-前三均值)/前三均值、最近三個(gè)月MOU(Minutes Of Usage,平均每戶每月通話時(shí)間)值標(biāo)準(zhǔn)差、(本月通話次數(shù)-前三均值)/前三均值、前三月通話次數(shù)均值/本月通話次數(shù)、最近三個(gè)月聯(lián)系次數(shù)標(biāo)準(zhǔn)差、本月4G流量;
(4)長(zhǎng)期異地漫游:若用戶近期經(jīng)常在異地漫游,則有可能該用戶主要生活在異地,并有可能換號(hào),因此設(shè)計(jì)建模指標(biāo)包括(本月異地漫游通話次數(shù)/本月通話總次數(shù))-(異地漫游通話次數(shù)前三均值/通話總次數(shù)前三均值)、(本月異地漫游通話次數(shù)/本月通話總次數(shù))-(上月異地漫游通話次數(shù)/上月通話總次數(shù))、本月異地漫游通話次數(shù)、上月異地漫游通話次數(shù);
(5)其他:統(tǒng)計(jì)分析還發(fā)現(xiàn)流失用戶與入網(wǎng)時(shí)長(zhǎng)關(guān)系緊密,入網(wǎng)時(shí)長(zhǎng)越長(zhǎng),流失的可能性就越小,因此把入網(wǎng)時(shí)長(zhǎng)也作為建模指標(biāo)。
3.3 數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)探索
(1)數(shù)據(jù)準(zhǔn)備
從廣東移動(dòng)某分公司經(jīng)營(yíng)分析數(shù)據(jù)集市,通過ETL獲取上述建模指標(biāo)所需數(shù)據(jù)源,數(shù)據(jù)提取的口徑完全參照該運(yùn)營(yíng)商市場(chǎng)部門日常工作需求。如提取2015年涉及上述指標(biāo)所需的在網(wǎng)和離網(wǎng)4G用戶消費(fèi)及通信行為基礎(chǔ)數(shù)據(jù)集,總樣本數(shù)為559 185,其中選取訓(xùn)練集和測(cè)試集比例為6:4。
將所有基礎(chǔ)數(shù)據(jù)集從數(shù)據(jù)集市導(dǎo)出到R語(yǔ)言建模環(huán)境,在該建模環(huán)境對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,采用統(tǒng)計(jì)方法計(jì)算生成數(shù)據(jù)建模指標(biāo)。因變量為用戶是否流失,也即該字段判斷用戶是在網(wǎng)還是已經(jīng)離網(wǎng);自變量為用戶消費(fèi)通信行為各指標(biāo)字段。
(2)數(shù)據(jù)探索
在對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)探索的過程中,發(fā)現(xiàn)存在缺失值,因此利用R語(yǔ)言函數(shù)進(jìn)行缺失值分析。繪制缺失值統(tǒng)計(jì)圖如圖2所示:
考慮到缺失值或異常值對(duì)統(tǒng)計(jì)分析結(jié)果和建模結(jié)果會(huì)產(chǎn)生不利影響,因此直接剔除缺失的數(shù)據(jù)和消費(fèi)波動(dòng)很大的數(shù)據(jù)。
進(jìn)行建模指標(biāo)的相關(guān)性分析時(shí),部分指標(biāo)的相關(guān)性分析結(jié)果如圖3所示:
回歸分析一般假設(shè)建模變量之間都是獨(dú)立不相關(guān)的,如果有任何兩個(gè)變量存在強(qiáng)相關(guān)性,則只需保留其中一個(gè)而刪除其余變量[9]。將建模指標(biāo)中存在明顯相關(guān)的指標(biāo)進(jìn)行篩選剔除,使得所有自變量都不顯著相關(guān),避免自變量之間存在很強(qiáng)的共線性而導(dǎo)致模型效果不好。
采用箱線圖、直方圖、分析曲線等統(tǒng)計(jì)圖表技術(shù)對(duì)各建模指標(biāo)數(shù)據(jù)進(jìn)行分散分布情況分析,發(fā)現(xiàn)異常指標(biāo),尋找奇異值,并進(jìn)一步進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換,以確保建模數(shù)據(jù)的有效性。
3.4 數(shù)據(jù)建模與模型評(píng)估
(1)數(shù)據(jù)建模
本文研究過程中將樣本數(shù)據(jù)按0.6、0.4的比例分為訓(xùn)練集和測(cè)試集,進(jìn)行數(shù)據(jù)建模分析的時(shí)間窗口設(shè)置如圖4所示:
采用R語(yǔ)言邏輯回歸函數(shù)對(duì)已經(jīng)完成數(shù)據(jù)清洗和轉(zhuǎn)換的訓(xùn)練集數(shù)據(jù)建模指標(biāo)進(jìn)行邏輯回歸建模,經(jīng)過反復(fù)多次的建模指標(biāo)分析,剔除掉P-Value值小于0.05的指標(biāo),再用評(píng)估函數(shù)對(duì)模型結(jié)果進(jìn)行初步評(píng)估,具體如圖5所示:
從上述評(píng)估結(jié)果可以發(fā)現(xiàn),所有變量的P值均小于0.05,這說明通過了顯著性檢驗(yàn)。至此,已完成了基于R語(yǔ)言搭建的通信運(yùn)營(yíng)商4G用戶流失預(yù)警模型,下面需要對(duì)模型進(jìn)行深入評(píng)估。
(2)模型評(píng)估
先對(duì)模型進(jìn)行卡方檢驗(yàn),檢驗(yàn)結(jié)果如圖6所示:
隨著變量從第一個(gè)到最后一個(gè)逐個(gè)加入模型,模型最終通過顯著性檢驗(yàn),這說明由上述這些變量組成的模型是有意義且正確的。
采用ROC曲線(Receiver Operating Characteristic Curve,受試者工作特征曲線)分析方法這樣一種可視化的方法來衡量模型的優(yōu)劣。該曲線的橫坐標(biāo)、縱坐標(biāo)分別表示1-反例的覆蓋率和正例的覆蓋率。采用R語(yǔ)言專有函數(shù)包計(jì)算ROC曲線各項(xiàng)結(jié)果值,并用繪圖函數(shù)繪制圖形,具體如圖7所示。
ROC分析思想來源于統(tǒng)計(jì)學(xué)的決策理論,ROC曲線越凸則說明判斷模型價(jià)值越高,并可以通過計(jì)算ROC曲線下的面積做定量分析,面積越接近1,表明模型效果越好[10]。
圖7中,AUC即為ROC曲線和y=x直線之間的面積,模型的優(yōu)劣是通過該面積大小來判斷的,而對(duì)于一般情況而言,AUC大于0.7就能夠說明模型是比較合理的。上述結(jié)果中,AUC為0.86,這表明本文研究中建立的模型是合理的。
使用已建好的模型計(jì)算測(cè)試數(shù)據(jù)集流失概率,取流失概率大于0.5的用戶預(yù)測(cè)其潛在流失,再與實(shí)際情況比較得到命中率為pv=74%,而在隨機(jī)的方式下抽取出正類的比例為k=10%,從而可得pv/k=7.4,預(yù)測(cè)效果提升了7.4倍,同時(shí)計(jì)算模型的整體準(zhǔn)確率達(dá)到了91.4%,因此本文研究搭建的模型效果是明顯的,模型預(yù)測(cè)的準(zhǔn)確率也能達(dá)到較高水平,可從消費(fèi)異動(dòng)、競(jìng)爭(zhēng)對(duì)手影響、不正常沉默和長(zhǎng)期異地漫游等維度指標(biāo)建模準(zhǔn)確地預(yù)測(cè)用戶是否潛在流失。
4 結(jié)論
本文采用能夠很好地結(jié)合大數(shù)據(jù)技術(shù)的R語(yǔ)言來建模,并從消費(fèi)異動(dòng)、競(jìng)爭(zhēng)對(duì)手影響、不正常沉默和長(zhǎng)期異地漫游等維度創(chuàng)新性地設(shè)計(jì)建模指標(biāo),最終成功搭建了4G用戶流失預(yù)警模型。通過卡方檢驗(yàn)和ROC曲線驗(yàn)證了模型是正確的、合理的,計(jì)算提升值提升了7.4倍,且計(jì)算模型的整體準(zhǔn)確率達(dá)到了91.4%,這表明模型預(yù)測(cè)效果是明顯的,從而驗(yàn)證了本文研究的模型有助于對(duì)有流失傾向的用戶進(jìn)行精準(zhǔn)定位,以便及時(shí)地進(jìn)行預(yù)警挽留,達(dá)到對(duì)核心資源的保有。
參考文獻(xiàn):
[1] 方紅. 讀者流失預(yù)警模型及其在公共圖書情報(bào)機(jī)構(gòu)中的應(yīng)用[J]. 黑龍江科技信息, 2007(4): 103.
[2] 嚴(yán)偉. 如何防范客戶流失[J]. 企業(yè)管理, 2003(6): 52-54.
[3] 林明輝. 基于BP網(wǎng)絡(luò)的通訊行業(yè)客戶流失預(yù)警模型研究[J]. 陜西學(xué)前師范學(xué)院學(xué)報(bào), 2016,32(3): 146-149.
[4] 顧光同,王力賓,費(fèi)宇. 電信客戶流失預(yù)警規(guī)則及其信度測(cè)定實(shí)證研究——以云南電信為例[J]. 云南財(cái)經(jīng)大學(xué)學(xué)報(bào), 2010,26(6): 94-98.
[5] 肖水清. 基于CRM探討電信業(yè)的客戶流失問題[J]. 現(xiàn)代計(jì)算機(jī), 2006(1): 57-59.
[6] SY Hung, DC Yen, HY Wang. Applying data mining to telecom churn management[J]. Expert Systems with Applications, 2006,31(3): 515-524.
[7] 施朝健,張明銘. Logistic回歸模型分析[J]. 計(jì)算機(jī)輔助工程, 2005,14(3): 74-78.
[8] 付杰,方芳,嚴(yán)克文. 基于Logistic回歸的通信業(yè)客戶流失預(yù)測(cè)與挽留研究[J]. 鄂州大學(xué)學(xué)報(bào), 2015,22(6): 110-112.
[9] 任康,李剛. Logistic回歸模型在判別分析中的應(yīng)用[J]. 統(tǒng)計(jì)與信息論壇, 2007,22(6): 71-73.
[10] 萬(wàn)柏坤,薛召軍,李佳,等. 應(yīng)用ROC曲線優(yōu)選模式分類算法[J]. 自然科學(xué)進(jìn)展, 2006,16(11): 1511-1516.