陳光鎂 孫雪蓮
摘要:針對銀行行業(yè)的客戶流失問題,構(gòu)建基于地域、收入、信用卡、銀行存款等屬性的銀行客戶指標體系,研究中采用K-Means對數(shù)據(jù)進行聚類分析,細分客戶類型,將細分結(jié)果作為XGBoost、ANN預(yù)測模型的輸入,從而融合XGBoost與K-Means模型,經(jīng)過分析發(fā)現(xiàn)單一模型acc(準確率)在85%左右,融合模型的acc在87%以上,根據(jù)K-Means-XGBoost融合模型與K-Means-ANN融合模型的預(yù)測結(jié)果,利用流失概率公式構(gòu)建XGBoost-ANN組合模型,通過調(diào)節(jié)兩個模型占比來確定最優(yōu)模型,根據(jù)組合模型計算acc。實驗顯示,組合模型的acc、F1-Score等均高于單一算法模型與融合模型。
關(guān)鍵詞:客戶流失;XGBoost;ANN神經(jīng)網(wǎng)絡(luò);聚類算法;融合模型;組合模型
中圖分類號:TP301? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2023)13-0055-03
開放科學(xué)(資源服務(wù))標識碼(OSID)
0 引言
目前銀行在客戶競爭方面面臨著嚴峻挑戰(zhàn),面對激烈的市場競爭,如何盡可能留住老客戶,減少客戶流失是目前銀行應(yīng)重點關(guān)注的問題[1]。研究表明,對銀行業(yè)而言,客戶流失會給利潤帶來巨大的影響[2],當客戶流失率減少5%,企業(yè)的利潤增長是30%到85%,發(fā)展新客戶的成本是挽留老客戶成本的5~7倍[3]。所以銀行必須在深入發(fā)現(xiàn)客戶需求的基礎(chǔ)上,對客戶賦予優(yōu)質(zhì)的、非同質(zhì)化的服務(wù)[4],從而滿足不同客戶的要求,從而提升客戶對銀行項目和服務(wù)的滿意程度,提高客戶對銀行的忠誠度,這樣才能實現(xiàn)銀行盈利的持續(xù)增加。
客戶希望銀行可以根據(jù)他們的需求和資產(chǎn)情況推出需要的投資理財相關(guān)的產(chǎn)品或服務(wù),而這就要求銀行要積極建立完整的客戶需求體系、主動維護良好的客戶關(guān)系,并及時關(guān)注客戶意向的轉(zhuǎn)變,定制并提供具有個性化的產(chǎn)品及服務(wù)[5]。因此,有效預(yù)測客戶流失可能性,制定相應(yīng)的挽回措施,防止客戶的流失,是銀行提升核心競爭力的關(guān)鍵?;阢y行客戶數(shù)據(jù)建立RFM模型同時使用K-Means進行聚類分析,將客戶類型進行細分。對XGBoost模型和ANN神經(jīng)網(wǎng)絡(luò)模型實驗得到兩個的預(yù)測值和準確度,將兩者的流失概率組合成新模型,通過新模型不斷地調(diào)整兩個模型的比重,直到模型的準確度和擬合度最高[5]。
1 預(yù)測模型
1.1 K-Means融合模型
選擇預(yù)測效果、輪廓系數(shù)均最優(yōu)的類簇進行聚類[6],將K-Means聚類結(jié)果(3類)進行處理,生成三個新的數(shù)據(jù)集,將三個數(shù)據(jù)集作為XGBoost、ANN預(yù)測模型的輸入(每個數(shù)據(jù)集單獨預(yù)測),構(gòu)建K-Means與XGBoost、ANN的融合模型,進行融合模型的訓(xùn)練測試,得出結(jié)果,搭建步驟如下:
1) 使用K-Means進行兩次聚類,選擇預(yù)測效果和SH系數(shù)均佳簇個數(shù)([k1=2]、[k2=2]) ,將客戶類型細分為3類得到3組數(shù)據(jù),在手肘法的基礎(chǔ)之上進行輪廓系數(shù)的比較[6],最終使用SH系數(shù)進行評價。
2) 對K-Means細分客戶[6]的三個數(shù)據(jù)集進行處理,數(shù)據(jù)沒有缺失、異常等問題,將K-Means輸出分別存儲到不同的文件中,為模型融合做準備。
3) 將細分客戶類型分別代入ANN、XGBoost模型中進行訓(xùn)練,訓(xùn)練完畢后,兩個模型在測試集上進行測試,得出準確率。
4) K-Means[7]與ANN、XGBoost融合得出預(yù)測結(jié)果,最終得到準確率、精確率等。
1.2 組合模型
對于XGBoost模型和ANN神經(jīng)網(wǎng)絡(luò)模型[8],兩者都能在客戶流失管理中對潛在的流失客戶進行預(yù)測,通過實驗可以分別得到兩個模型的預(yù)測值和準確率[8]。本文將兩者組合起來建立組合建模,并進行分析。設(shè)XGBoost流失預(yù)測模型的預(yù)測結(jié)果為[X],預(yù)測準確率為[α];ANN神經(jīng)網(wǎng)絡(luò)流失預(yù)測模型的預(yù)測結(jié)果為[Y],預(yù)測準確率為[β]。其中,[X]和[Y]的取值為0或者1,0-未流失,1-流失。[α]和[β]的取值范圍為[0,1]。設(shè)[Tw]為組合模型的流失概率,則[Tw]的計算如公式(1) 所示。
[Tw=k1αX+k2βY]? ? ? (1)
初始時設(shè)置[k1],[k2]為0.1、0.9,然后不斷調(diào)整兩個模型的占比,直至找出最佳的[Tw]值。對于組合模型來說,若XGBoost模型和ANN神經(jīng)網(wǎng)絡(luò)模型都預(yù)測為未流失[9],即[X], [Y]都取值為0,則[Tw]也為0,組合模型預(yù)測結(jié)果為流失;若兩個模型都預(yù)測為未流失,即[X],[Y]都取值為1,若[Tw]大于等于70%,則組合模型預(yù)測結(jié)果為流失,反之組合模型預(yù)測結(jié)果為未流失;若兩個模型中,一個模型預(yù)測為流失,一個為未流失,則依據(jù)組合模型的流失概率來判斷,則[Tw]大于35%,表明組合模型預(yù)測結(jié)果為流失,反之組合模型預(yù)測結(jié)果為未流失。后續(xù)不斷地調(diào)整XGBoost模型和ANN神經(jīng)網(wǎng)絡(luò)模型的占比[9],調(diào)整時從兩個模型分別占比10%、90%,一直調(diào)整到兩個模型分別占比90%、10%。直至模型的準確度和擬合度最高[9]。
2 客戶類型分析結(jié)果
2.1 特征重要性排序
文中選用隨機森林進行特征重要性的排序,選取前十行為[x]的取值,最后一列為[y]的取值,算法實現(xiàn)后特征重要性排序如圖1所示。當[n_estimators=10000]時,Geography特征的重要性系數(shù)為0.166 258(最高),其次是IsActiveMember、Age分別為0.163 906、0.153 392,最低的是Tenure,重要性系數(shù)僅為0.039 8,估計收入情況、使用信用卡支付次數(shù)、性別、信用分數(shù)等重要程度在0.126 007到0.057 710之間。
2.2 K-Means客戶類型細分
第一次聚類k=2時輪廓系數(shù)為0.467 4,類型0數(shù)據(jù)占總數(shù)據(jù)的超60%,而類型1的數(shù)據(jù)大約占總數(shù)據(jù)的38%,類型0單獨進行預(yù)測準確率偏低,單獨將類型0再進行一次聚類分析。第二次聚類k=2時輪廓系數(shù)為0.495 8,且類型0(第二次)占據(jù)占比50%,類型1(第二次)占據(jù)了接近50%。
文中定義了3種客戶類型,利用RFM的分類原理,結(jié)合隨機森林特征重要性排序,選Salary、Balance、CreditScore三種屬性作為指標,兩次K-means得到的聚類特征分布情況如圖2所示。據(jù)分析,第一簇人群:3 799人,客戶Balance、EstimatedSalary、CreditScore三個指標數(shù)據(jù)均值高,將類型0定義為低流失風(fēng)險客戶;第二簇人群:3 135人,類型1客戶EstimatedSalary偏高,Balance、CreditScore都是偏低的,將其定義為高流失風(fēng)險客戶;第三簇人群:3 057人,類型2的三個指標均值較高,定義為中流失風(fēng)險客戶。
3 實證研究
3.1 融合模型預(yù)測
低流失風(fēng)險客戶實驗中test_size=0.1,XGBoost的max_depth=2,ANN中訓(xùn)練1 500次alpha=0.000 1結(jié)果對比圖如圖3所示,從圖中可知對于該類型客戶而言,XGBoost融合模型的準確率提高了0.017 2,ANN融合模型的準確率提高了0.032 0。高流失風(fēng)險客戶實驗中test_size=0.1,XGBoost的max_depth=2,ANN中訓(xùn)練1 000次alpha=0.000 1結(jié)果對比圖如圖3所示,XGBoost融合模型的預(yù)測準確率提高了0.060 7,ANN融合模型預(yù)測準確率提高了0.055 1。中流失風(fēng)險客戶實驗中test_size=0.1,XGBoost的max_depth=2,ANN中訓(xùn)練1 500次alpha=0.000 1結(jié)果對比圖如圖3所示,XGBoost融合模型的準確率提高了0.023 3,ANN融合模型的準確率提高了0.021 9。
3.2 ANN-XGBoost組合模型預(yù)測
低流失風(fēng)險客戶組合模型為[Tw2=0.5αX+0.5βY]時模型最優(yōu),組合模型準確率比融合模型提高了0.0424,比單一模型分別提高了0.069 6、0.064 6;高流失風(fēng)險客戶組合模型為[Tw2=0.6αX+0.4βY]時預(yù)測效果最好(最優(yōu)模型),組合模型準確率比融合模型準確率平均提高了0.05,比最初的單一模型分別提高了0.105 4、0.110 4;中流失風(fēng)險客戶組合模型為[Tw2=0.4αX+0.6βY]時模型最優(yōu),中流失風(fēng)險客戶K-Means-XGBoos融合模型的準確率提高了0.023 3,K-Means-ANN的準確率提高了0.021 9,XGBoost-ANN組合模型比融合模型準確率平均提高了0.0287,比單一模型平均提高了0.051 3,各評價指標對比圖如圖4所示。相較于前兩個階段而言,組合模型很大程度上提高了預(yù)測的準確率,在K-Means聚類的基礎(chǔ)上XGBoost與ANN組合對預(yù)測模型的改進是有效的。
4 結(jié)束語
通過對多種機器學(xué)習(xí)算法的應(yīng)用,進行特征的重要程度排序,進一步確定流失預(yù)測所需要的重要指標,避免了特征的浪費也避免的特征過度帶來的麻煩,結(jié)合特征工程、RFM模型理論等手段,建立K-Means聚類模型實現(xiàn)更為科學(xué)化的客戶細分體系,分析影響客戶類型的各項指標,更為準確地進行客戶的類型。將K-Means與XGBoost、ANN融合對客戶流失進行預(yù)測,再將融合后的XGBoost與ANN結(jié)合,更好的反映客戶所處在的狀態(tài)以及在當前狀態(tài)下結(jié)合該客戶的類型能夠提出更貼合實際的策略。但是對于銀行客戶的價值體系,需要不斷完善和更改,適當?shù)氖站o評估體系,同時在對客戶進行聚類分析的時候采用的是單一K-Means算法,應(yīng)考慮更新且改進后的算法,如KNN或者加權(quán)值的K-Means算法。
參考文獻:
[1] 張蕓.基于復(fù)合CatBoost的銀行客戶流失預(yù)測模型[D].蘭州:蘭州大學(xué),2021.
[2] 陳靜,余建波,李艷冰.基于隨機森林的用戶流失預(yù)警研究[J].精密制造與自動化,2021(2):21-24,51.
[3] Becker J U,Spann M,Schulze T.Implications of minimum contract durations on customer retention[J].Marketing Letters,2015,26(4):579-592.
[4] 李波,謝玖祚.生成對抗網(wǎng)絡(luò)的銀行不平衡客戶流失預(yù)測研究[J].重慶理工大學(xué)學(xué)報(自然科學(xué)版),2021,35(8):136-143.
[5] 程勇,梁吉祥.基于數(shù)據(jù)挖掘的掌銀客戶流失預(yù)測建模方法研究[J].中國金融電腦,2019(8):10.
[6] 閆春,張馨予.基于改進的K-means和BP-Adaboost的壽險客戶流失預(yù)測算法研究[J].山東科技大學(xué)學(xué)報(自然科學(xué)版),2022,41(1):54-65.
[7] 劉玥.基于改進的K-means算法的銀行客戶聚類研究[D].長春:吉林大學(xué),2016.
[8] 張安琳,張啟坤,黃道穎,等.基于CNN與BiGRU融合神經(jīng)網(wǎng)絡(luò)的入侵檢測模型[J].鄭州大學(xué)學(xué)報(工學(xué)版),2022,43(3):37-43.
[9] 劉海航.基于XGBoost和BP神經(jīng)網(wǎng)絡(luò)的會員流失預(yù)測及內(nèi)容推薦方法的研究[D].呼和浩特:內(nèi)蒙古大學(xué), 2019.
【通聯(lián)編輯:王力】