張馭思
(上海理工大學,上海 200093)
我國網絡建設正處于快速發(fā)展階段,通信行業(yè)信息量和業(yè)務收入均迎來指數級別的增長,通信運營商的經營重點正逐漸從產品/服務向維持客戶資源轉變。研究表明,通信行業(yè)發(fā)展新客戶比維持現有客戶的平均成本高出5倍以上,而且現有客戶流失會降低企業(yè)的社會滿意度和信賴度等誠信指標,嚴重影響企業(yè)的進一步發(fā)展。因此,與客戶保持良好關系,預防客戶流失,維持現有客戶資源有助于進一步獲得市場競爭優(yōu)勢。準確、高效的客戶流失預測模型能夠對現有客戶潛在的離網行為進行合理預測,使運營商及時調整相應的營銷策略進行挽留,對加強企業(yè)用戶關系管理(Customer relationship management, CRM)具有十分重要的意義。
近年來,基于數據挖掘技術的CRM應用研究獲得了國內外中大型企業(yè)及金融機構的廣泛關注,在用戶關系管理、金融欺詐檢測方面獲得了顯著的成果。相比于傳統(tǒng)的計算方法,數據挖掘能夠從大量的實際數據中挖掘出對決策具有參考價值的隱含關系和趨勢,進而為決策過程提供相應的支持。通過數據挖掘技術對客戶某一時間段的行為特性進行分析,能夠獲取相應的行為習慣及興趣愛好,進而給予客戶針對性服務,提升企業(yè)用戶黏度。從統(tǒng)計學的角度出發(fā),客戶流失預測模型的輸出屬于典型的二分類問題,即結果只有流失(用“1”表示)與非流失(用“0”表示)兩種可能,目前主要存在三種預測模型:單一分類模型,如決策樹、邏輯回歸及關聯性分析等;聚類分析模型,如K-means聚類、Two-step聚類等;多分類模型融合,如采用Bagging、Stacking方法對多類單一分類模型進行集成。Kim團隊采用邏輯回歸模型對韓國移動通信用戶數據進行建模,通過流失客戶特性分析,對現有客戶忠誠度進行評分,實現對現有客戶的分類化管理。賀建軍對支持向量機(SVM)在預測客戶流失方面的適用性進行了分析,分別從實驗和理論角度驗證了該模型的預測精度。曹國團隊采用二元邏輯歸回對某商業(yè)銀行用戶流失情況進行分析,建立了客戶流失多維預測指標,通過模型分析和實證研究發(fā)現交易頻率、客戶年齡、近期交易記錄等因素對客戶流失有十分顯著的影響。武彩霞團隊基于數據挖掘提出多分類融合模型應用于通信企業(yè)用戶流失管理系統(tǒng),通過對客戶流失數據集的訓練分析,表明多模型預測準確度高于普通的單一模型。
上述研究構建的客戶流失預測模型對企業(yè)的精細化運營管理具有十分積極的推動作用,降低了客戶流失比例和企業(yè)運營成本,但對于用戶特征分析和數據挖掘技術缺少系統(tǒng)的融合。本文以通信運營商對現有客戶流失管理為主題,以高效預測客戶流失為目的,采用Python語言為編碼工具,通過對一元、多元邏輯回歸和神經網絡模型進行建模,并對模型預測效果進行系統(tǒng)對比分析,獲得更適宜移動通信運營客戶流失的預測模型;將統(tǒng)計學理論、數據挖掘技術融入金融管理理論,實現多學科交叉融合,給通信運營行業(yè)解決用戶流失問題和構建個性化用戶運營機制提供了一定的參考價值。
本文實驗的原始數據來源于某電信部門數據庫,構建模型之前,需要對原始數據進行初始選擇、數據清洗、數據整合與構建,最后按照既定標準進行格式化,本文從客戶信息到行為因素等多個分析維度來綜合衡量各類變量特征對客戶流失的影響,初步確定17項指標,如表1所示。
表1 通信客戶流失模型變量
自變量中共有6個分類變量,采用交叉表分析和卡方檢驗判定這類變量與目標變量的相關性。篇幅所限,本節(jié)僅展示通話時長是否呈現下降態(tài)勢(NegTrend)與客戶流失(churn)的相關性分析,結果如圖1所示,從交叉表可以看出,在流量使用有下降趨勢時,客戶流失的概率會上升,從對應的卡方檢驗p-value可以看出,NegTrend這一變量與的相關性非常顯著(<0.000 1),說明該變量具有分析價值,其他變量均按照上述檢驗流程進行。
圖1 交叉表/卡方檢驗分析
關于連續(xù)型自變量有多種相關性檢驗分析方法,例如分層抽樣、假設檢驗、方差分析等,鑒于本文涉及的自變量較少(<20),采用邏輯回歸的逐步向前分析較為合理。隨后采用方差膨脹因子檢測的方式對自變量間多元共線性問題進行檢測,將VIF值大于10的變量進行篩選,最終確定10個特征作為后續(xù)模型的自變量,如表2所示。
表2 篩選后的自變量
1.3.1 邏輯回歸
邏輯(Logistic)回歸是針對二分類問題構建的非線性歸回模型,本質上屬于廣義多元線性回歸。我們希望獲得用戶流失的概率,這一數值應介于0和1之間,顯然線性回歸難以描述與自變量間的關系,需要一個嚴格單調的函數(),滿足在接近0和1兩個端點時()會產生敏感且顯著的變化,即Logit變換:
可以看出,在0~1之間變化時,對應的()變化范圍為(-∞,+∞),解決了與之間的非線性問題。值得注意的是,區(qū)別于線性回歸,邏輯回歸并不是通過最小二乘法來進行模型的優(yōu)化,根據其變換的非線性特性選取極大似然估計方法確定回歸系數更為合理。
1.3.2 人工神經網絡
人工神經網絡(Artificial neural network, ANN)是通過數據樣本進行訓練從而實現對相關信息處理功能的一類預測模型,不需要任何先驗公式,具有極好的自適應、并行處理和非線性轉換能力,對于正態(tài)、隨機分布的數據都可以采用ANN進行分析,做出合適有效的預測。本文構造的人工神經網絡結構及計算流程如圖2所示。
圖2 ANN結構及流程圖
圖中每一個節(jié)點作為神經元接收并處理上層節(jié)點的信息,其中輸入層中的神經元即為自變量,神經元數量和自變量數量相同;而中間隱含層的神經元接收來自每個輸入層神經元信息的線性組合,并通過自身設置的激活函數對輸入信息進行轉換,類似于邏輯回歸中→()的處理,因此神經網絡在某種意義上可以看作邏輯回歸的擴展。在模型優(yōu)化方面,Loss函數可以選擇用最小二乘法表示,優(yōu)化方式采用梯度下降,不斷優(yōu)化權重和,直至誤差降至可接受的范圍內,模型訓練完成。
建模之前,需要將數據分為訓練集和測試集,前者用于訓練模型,后者用于評估模型的預測表現及準確性,本文將訓練集和測試集的比例定為8:2。從圖3可以看出因變量的數據分布并不平衡,但在可接受的范圍(44%~56%)內,考慮到實驗數據量不大,為保證預測模型的精確度,本文不進行數據平衡處理,從數據集中隨機抽取80%(樣本量:2 772)作為訓練集,剩余20%(樣本量:692)作為測試集。
圖3 數據集變量分布及訓練集/測試集分布
本文實驗在Windows10操作系統(tǒng)環(huán)境下,采用Spyder編輯器結合Python語言,并利用機器學習庫Sklearn、Pytorch、statsmodels構建邏輯回歸和神經網絡模型,硬件條件為8核8線程3.60 GHzCPU,RAM 64 GB。
我們將相關性檢驗后的10個自變量(表2所示)作為特征向量,進行邏輯回歸訓練,獲得各變量的權重估計,如表3所示。
表3 邏輯回歸模型權重估計
可以看出在10個因子中,用戶性質(gender)、受教育程度(Edu_class)、營銷頻次(Nrporm)、用戶通話時長變化(NegTrend)、單月最高通話時長(PeakMinAv)對客戶流失具有正向影響;而在網時長(Duration)、聯系客服頻次(Call10000)、通話時長增加量(PeakMinDiff)、年齡(AGE)、是否提升過套餐類型(PosPlanChange)對客戶流失具有反向影響,即這五項變量數值越大,用戶越不容易流失,其中聯系客服頻次對該模型影響最大,可以認為聯系客服越頻繁的客戶流失的概率越低。獲得各變量對應的估計值后,可以建立的流失模型(LossTrend)方程為:
本文采用常規(guī)三層神經網絡模型,即一個輸入層、一個隱含層和一個輸出層,輸入層神經元個數為10個,對應10個自變量。對于二分類問題,輸出層神經元個數為2個,只有隱含層神經元的數量需要進一步討論,數量范圍由以下公式得出:
其中、、分別為隱含層、輸入層和輸出層神經元個數,為調節(jié)因子,取值范圍[1-10],初步確定該神經網絡模型l的取值范圍為[4-14]。將訓練次數定為500次,獲得l取不同數值對應的模型預測準確率AUC結果,如圖4所示。
圖4 預測結果隨隱含層神經元數量變化情況
可以看出,隱含層神經元個數為12時,AUC值最大,此時模型預測效果更好,因此本文將隱含層單元數量確定為12個,同時將最大訓練次數擴大至1 000次,激活函數選用Sigmod函數,學習率為0.001。至此,本文神經網絡框架已構建完成,權重更新方式(即模型優(yōu)化方法)采用比經典隨機梯度下降法更為高效的Adam優(yōu)化算法。
2.4.1 混淆矩陣評估
混淆矩陣是評價二分類模型最常用的手段,將預測值和真實值作比較,可以輸出表4所示的矩陣。
表4 混淆矩陣
通過準確率(Accuracy)、精確率(Precision)、召回率(Recall)、提升系數(Lifting)和F1系數共5項指標對預測結果的準確和穩(wěn)定性進行評估。相關公式為:
通過對邏輯回歸和神經網絡模型的混淆矩陣進行分析,可以分別求出上述5項指標,結果如表5所示。
表5 兩種模型預測效果對比
可以看出,神經網絡具有更好的預測效果,在流失客戶樣本的預測正確率方面神經網絡比邏輯回歸高出2%,表明在判斷客戶是否為流失客戶方面,神經網絡的預測結果更為準確;從召回率來看,在實際流失客戶的樣本正,神經網絡也具有更高的預測比例,在提升系數和F1值上也有更好的表現。
2.4.2 ROC曲線評估
ROC曲線可以反映預測模型和分析方法敏感性與特異性間的關系,橫縱坐標分別代表正例的錯誤命中率(FPR=FP/(FP+TN))和正例的預測準確率(TPR=TP/(TP+FN)),曲線和橫軸間的面積為AUC值,該數值越接近1模型的預測效果越好。本文分別繪制邏輯回歸模型和神經網絡模型的訓練和測試ROC曲線,并列出對應的AUC值,如圖5所示。
圖5 邏輯回歸和神經網絡模型ROC曲線
可以看出無論是邏輯回歸還是神經網絡,測試集的結果均和訓練集結果相差不大,說明本文構建的兩種模型沒有明顯的過擬合現象,預測的結果合理且可靠。
從模型精度而言,神經網絡模型的測試和訓練集AUG值均在0.9以上,高于邏輯回歸模型,說明神經網絡精度更高。
綜上所述,結合混淆矩陣和ROC曲線評估結果,可以認為本文所構建的兩個模型在可靠性和精確度上均具有良好的表現,相比而言,神經網絡更具優(yōu)勢。
完成模型的構建和可靠性分析之后,將模型正式嵌入數據平臺,對未來流失用戶進行實時預測,定期生成流失預警名單,結合運營部門和策略部門制定有針對性的挽留方案,實現客戶流失前期運營,提高挽留成功的概率。具體嵌入模塊及流程如圖6所示。
圖6 模型嵌入模塊及應用流程圖
首先,利用問卷調研、平臺抓取等手段結合互聯網大數據系統(tǒng)獲取客戶實時的行為數據,存入數據倉庫并進行定期整理、清洗和格式化處理,提升數據的整潔性,進入基于神經網絡的客戶流失預測模型進行計算,將結果輸入運營管理系統(tǒng),根據客戶特征進行有效分類并制定有針對性的挽留策略,當客戶觸發(fā)流失條件時系統(tǒng)自動根據客戶類別進行針對性挽留。通過數據分析歸納,不斷優(yōu)化模型和實施流程。
本文以通信運營商對現有客戶流失管理方法為研究對象,結合金融管理、統(tǒng)計學理論和數據挖掘建模手段建立了針對通信客戶的流失預測模型,針對移動通信用戶流失問題進行了定量分析。通過不同模型運行結果對比分析,發(fā)現本文構建的人工神經網絡模型比傳統(tǒng)的邏輯回歸模型在各項評價指標上均有較強的優(yōu)勢,同時將模型嵌入管理模塊并提出對應的運營系統(tǒng)及流程,這對企業(yè)客戶服務平臺和運營管理優(yōu)化改進具有重要的指導意義。