馮亮
太原理工大學(xué),中國·山西 太原 030000
大數(shù)據(jù)系統(tǒng);客戶構(gòu)架;分析
當(dāng)今電信市場競爭激烈運(yùn)營商每月客戶流失率在1%~3%,挽留將要流失客戶、降低客戶流失率是近年來熱門的研究領(lǐng)域[1]。而數(shù)據(jù)挖掘技術(shù)是解決這一問題的有效途徑,論文對數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘與分析,深入了解電信客戶流失的關(guān)鍵,以對該類客戶的行為特性進(jìn)行預(yù)警分析,采取針對性的措施改善客戶關(guān)系,避免客戶流失或者挽留客戶。[2,3]文中數(shù)據(jù)是在CCF 大數(shù)據(jù)與計(jì)算智能大賽官網(wǎng)尋找,來源于Kaggle 平臺。數(shù)據(jù)集的大小為7043 行,22 列,并且存在缺失。
Hadoop 平臺對處理大數(shù)據(jù)本身具有很顯著的優(yōu)點(diǎn),首先它具有很高的可靠性,Hadoop 中HDFS 分布式文件系統(tǒng)采用了備份恢復(fù)機(jī)制,MapReduce 中的任務(wù)采用了監(jiān)控機(jī)制,這就保證了分布式處理的可靠性;其次它具有很好的高擴(kuò)展性,Hadoop 是在可用的計(jì)算機(jī)集群間進(jìn)行數(shù)據(jù)的分配的,也是在集群中分布完成計(jì)算任務(wù)的,這些集群族能擴(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中,Hadoop 能可靠的存儲和處理數(shù)據(jù)。不管在存儲上還是計(jì)算上,可擴(kuò)展性都是Hadoop 的設(shè)計(jì)根本所在;并且它具有高效性,Hadoop 的高效性表現(xiàn)在Hadoop 能夠在節(jié)點(diǎn)之間進(jìn)行動(dòng)態(tài)的移動(dòng)數(shù)據(jù),同時(shí)能保證各個(gè)節(jié)點(diǎn)的數(shù)據(jù)動(dòng)態(tài)平衡,這就使得Hadoop 在處理數(shù)據(jù)時(shí)速度非常快。這種方式為高效處理海量數(shù)據(jù)做好了基礎(chǔ)準(zhǔn)備。Hadoop 可以運(yùn)行在廉價(jià)PC 上,采用自動(dòng)保存數(shù)據(jù)的多個(gè)副本方式,并能自動(dòng)為失敗的任務(wù)進(jìn)行重新配置。隨著Hadoop 生態(tài)系統(tǒng)的成長,越來越多的新項(xiàng)目對Hadoop 是很好的補(bǔ)充或提供一些更高層的抽象。
Hadoop 的生態(tài)圖如下:
(1)HDFS:分布式文件系統(tǒng),可以對數(shù)據(jù)進(jìn)行存儲。
(2)MapReduce:分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,可以對數(shù)據(jù)進(jìn)行處理操作。
(3)ZooKeeper:在分布式系統(tǒng)中如何就某個(gè)值(決議)達(dá)成一致,是一個(gè)十分重要的基礎(chǔ)問題。ZooKeeper 作為一個(gè)分布式的服務(wù)框架,解決了分布式計(jì)算中的一致性問題。在此基礎(chǔ)上,ZooKeeper 可用于處理分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,如統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。ZooKeeper 常作為其他Hadoop相關(guān)項(xiàng)目的主要組件,發(fā)揮著越來越重要的作用。
(4)Hbase:Hbase 是一個(gè)在HDFS 上開發(fā)的面向列的分布式數(shù)據(jù)庫。如果需要實(shí)時(shí)地隨機(jī)訪問超大規(guī)模數(shù)據(jù)集,我們就可以使用Hbase 這一Hadoop 應(yīng)用。
(5)Pig:運(yùn)行在Hadoop 上,是對大型數(shù)據(jù)集進(jìn)行分析和評估的平臺。它簡化了使用Hadoop 進(jìn)行數(shù)據(jù)分析的要求,提供了一個(gè)高層次的、面向領(lǐng)域的抽象語言:PigLatin。通過Pig Latin,數(shù)據(jù)工程師可以將復(fù)雜且相互關(guān)聯(lián)的數(shù)據(jù)分析任務(wù)編碼為Pig 操作上的數(shù)據(jù)流腳本,通過將該腳本轉(zhuǎn)換為MapReduce 任務(wù)鏈,在Hadoop 上執(zhí)行。和Hive—樣,Pig 降低了對大型數(shù)據(jù)集進(jìn)行分析和評估的門檻。
(6)Hive:是Hadoop 中的一個(gè)重要子項(xiàng)目,最早由Facebook 設(shè)計(jì),是建立在Hadoop 基礎(chǔ)上的數(shù)據(jù)倉庫架構(gòu),它為數(shù)據(jù)倉庫的管理提供了許多功能,包括:數(shù)據(jù)ETL(抽取、轉(zhuǎn)換和加載)工具、數(shù)據(jù)存儲管理和大型數(shù)據(jù)集的查詢和分析能力。Hive 提供的是一種結(jié)構(gòu)化數(shù)據(jù)的機(jī)制,定義了類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫中的類SQL 語言。
(7)Mahout:起源于2008年,最初是Apache Lucent 的子項(xiàng)目,它在極短的時(shí)間內(nèi)取得了長足的發(fā)展,現(xiàn)在是Apache的頂級項(xiàng)目。Mahout 的主要目標(biāo)是創(chuàng)建一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout現(xiàn)在己經(jīng)包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法,Mahout 還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構(gòu)。
(8)Hume:Flume 是Cloudera 開發(fā)維護(hù)的分布式、可靠、高可用的日志收集系統(tǒng)。它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume 中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。同時(shí),F(xiàn)lume 數(shù)據(jù)流提供對日志數(shù)據(jù)進(jìn)行簡單處理的能力,如過濾、格式轉(zhuǎn)換等。此外,F(xiàn)lume 還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(biāo)(可定制)的能力??偟膩碚f,F(xiàn)lume 是一個(gè)可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。
(9)Sqoop:是SQL-to-Hadoop 的 縮 寫,是Hadoop的周邊工具,它的主要作用是在結(jié)構(gòu)化數(shù)據(jù)存儲與Hadoop之間進(jìn)行數(shù)據(jù)交換。Sqoop 可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如 MySQL、Oracle、PostgreSQL 等)中的數(shù)據(jù)導(dǎo)入 Hadoop 的 HDFS、Hive 中,也可以將HDFS、Hive 中的數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫中。Sqoop 充分利用了 Hadoop 的優(yōu)點(diǎn),整個(gè)數(shù)據(jù)導(dǎo)入導(dǎo)出過程都是用MapReduce 實(shí)現(xiàn)并行化,同時(shí),該過程中的大部分步驟自動(dòng)執(zhí)行,非常方便。
Hadoop3.2.0,Hive3.1.2,Sqoop1.4.7,Spark2.4.4。
(1)導(dǎo)入數(shù)據(jù)集,并查看數(shù)據(jù)及信息、大小。
(2)檢查各列、各字段數(shù)據(jù)類型、字段內(nèi)容和數(shù)量,發(fā)現(xiàn)“TotalCharges”(總消費(fèi)額)列有11 個(gè)用戶數(shù)據(jù)缺失,將其數(shù)據(jù)類型強(qiáng)制轉(zhuǎn)換為浮點(diǎn)型,并將缺失用戶數(shù)據(jù)填充為“NaN”。
(3)經(jīng)過觀察,發(fā)現(xiàn)這11 個(gè)用戶‘tenure’(入網(wǎng)時(shí)長)為0 個(gè)月,推測是當(dāng)月新入網(wǎng)用戶。根據(jù)一般經(jīng)驗(yàn),用戶即使在注冊的當(dāng)月流失,也需繳納當(dāng)月費(fèi)用。因此將這11 個(gè)用戶入網(wǎng)時(shí)長“tensure”改為1,將總消費(fèi)額填充為月消費(fèi)額,符合實(shí)際情況。
(4)將處理完的數(shù)據(jù)保存為新的數(shù)據(jù)集。
將數(shù)據(jù)加載到Hive 中
(1)將預(yù)處理后的新數(shù)據(jù)集上傳到HDFS 中。
(2)在Hive 中創(chuàng)建一個(gè)數(shù)據(jù)庫來加載HDFS 中的數(shù)據(jù)
2.4.1 分析流失用戶數(shù)量和占比(見圖1)
圖1 流失用戶數(shù)量和占比
結(jié)論:屬于不平衡數(shù)據(jù)集,流失用戶占比達(dá)26.54%。
2.4.2 用戶屬性分析
按照年齡分析用戶流失比例,如圖2所示。
圖2 分析用戶流失比例圖(按照年齡)
結(jié)論:年老用戶流失率占顯著高于年輕用戶。
按照性別分析用戶流失比例,如圖3所示。
圖3 分析用戶流失比例(按照性別)
結(jié)論:男性與女性用戶之間的流失情況基本沒有差異。
按照婚否分析用戶流失比例,如圖4所示。
圖4 分析用戶流失比例(按照婚否)
結(jié)論:在所有數(shù)據(jù)中未婚與已婚人數(shù)基本持平,但未婚中流失人數(shù)比已婚中的流失人數(shù)高出了快一倍。
按照是否有家屬分析用戶流失比例,如圖5所示。
圖5 分析用戶流失比例(按照是否有家屬)
結(jié)論:有家屬的用戶流失占比低于無家屬用戶。
2.4.3 服務(wù)屬性分析
按照有多條線路分析用戶流失比例,如圖6所示。
圖6 分析用戶流失比例(按照有多條線路)
結(jié)論:是否有多條線路整體對用戶流失影響不明顯。
按照多條線路互聯(lián)網(wǎng)服務(wù)提供商(DSL,F(xiàn)iber optic,No)分析用戶流失比例,如圖7所示。
圖7 分析用戶流失比例(按照多條線路互聯(lián)網(wǎng)服務(wù)提供商)
結(jié)論:光纖用戶的流失占比較高。
根據(jù)互聯(lián)網(wǎng)服務(wù)用戶綁定情況分析用戶流失比例,如圖8所示。
圖8 分析用戶流失比例(根據(jù)互聯(lián)網(wǎng)服務(wù)用戶綁定情況)
結(jié)論:由圖可以看出,在網(wǎng)絡(luò)安全服務(wù)、在線備份業(yè)務(wù)、設(shè)備保護(hù)業(yè)務(wù)、技術(shù)支持服務(wù)、網(wǎng)絡(luò)電視和網(wǎng)絡(luò)電影六個(gè)變量中,沒有互聯(lián)網(wǎng)服務(wù)的客戶流失率值是相同的,都是相對較低。這可能是因?yàn)橐陨狭鶄€(gè)因素只有在客戶使用互聯(lián)網(wǎng)服務(wù)時(shí)才會影響客戶的決策,這六個(gè)因素不會對不使用互聯(lián)網(wǎng)服務(wù)的客戶決定是否流失產(chǎn)生推論效應(yīng)。
綁定了安全、備份、保護(hù)、技術(shù)支持服務(wù)的流失率較低;附加流媒體電視、電影服務(wù)的流失率占比較高。
根據(jù)付款方式分析用戶流失比例,如圖9所示。
圖9 分析用戶流失比例(根據(jù)付款方式)
結(jié)論:在四種支付方式中,使用Electronic check 的用戶流流失率最高,其他三種支付方式基本持平,因此可以推斷電子賬單在設(shè)計(jì)上影響用戶體驗(yàn)。
根據(jù)消費(fèi)額情況分析用戶流失比例,如圖10所示。
圖10 分析用戶流失比例(根據(jù)消費(fèi)額情況)
結(jié)論:月消費(fèi)額大約在70-110 之間用戶流失率較高。
長期來看,用戶總消費(fèi)越高,流失率越低,符合一般經(jīng)驗(yàn)。
我們利用Html 和CSS 簡單制作了一個(gè)網(wǎng)頁,將上述所得結(jié)果呈現(xiàn)給用戶,網(wǎng)頁地址為http://47.93.163.14。
針對性給出增加用戶黏性、預(yù)防流失的建議。
推薦老年用戶采用數(shù)字網(wǎng)絡(luò),且簽訂2年期合同(可以各種輔助優(yōu)惠等營銷手段來提高2年期合同的簽訂率),若能開通相關(guān)網(wǎng)絡(luò)服務(wù)可增加用戶粘性,因此可增加這塊業(yè)務(wù)的推廣,同時(shí)考慮改善電子賬單支付的用戶體驗(yàn)。
電信業(yè)的競爭重點(diǎn)集中在對客戶市場的爭奪,這要求各大電信運(yùn)營商將更多的精力投入到客戶市場。做好客戶的培育、鞏固和回流工作,這三個(gè)方面的工作是相互促進(jìn)、相互補(bǔ)充的。針對客戶的回流工作,可采取以下措施以盡可能地降低客戶的流失率。
現(xiàn)階段企業(yè)服務(wù)水平的差異不是體現(xiàn)在大眾化服務(wù)上而是體現(xiàn)在個(gè)性化服務(wù)上。目前電信消費(fèi)群體對個(gè)性化消費(fèi)的要求越來越高、電信企業(yè)如何適應(yīng)消費(fèi)群體定制化服務(wù)的要求,將特色服務(wù)作為企業(yè)新的競爭力和業(yè)務(wù)增長點(diǎn),是電信企業(yè)迫切需要解決的問題。例如:針對年老、單身、無家屬的用戶推出特制服務(wù),如人文套餐等,一可以增強(qiáng)用戶之間的聯(lián)系度,二可以提供個(gè)性化設(shè)計(jì)服務(wù)。
良好的客戶關(guān)系對于項(xiàng)目的成功有著不可低估的作用。及時(shí)掌握客戶的通信需求,可以增進(jìn)人與人之間的情感交流與思想溝通等,企業(yè)間的合作最終是人與人之間的合作,例如贈送半年或一年打折券。對于使用光纖和附加流媒體電影、電視服務(wù)的用戶,重點(diǎn)在于提高網(wǎng)絡(luò)使用體驗(yàn)、增值服務(wù)體驗(yàn)。
電信運(yùn)營商對現(xiàn)有的業(yè)務(wù)做好進(jìn)一步的宣傳工作。對客戶需要而企業(yè)暫時(shí)不能開放提供的業(yè)務(wù)則要加大內(nèi)部研發(fā)工作,不能讓需求在等待中消失,更不能因能力不足而失去收入增長的機(jī)會。此外還要認(rèn)真研究市場,做好業(yè)務(wù)的預(yù)測工作。