基于潛在客戶挖掘與提升的Logistic模型分析

2022-02-16 12:19:12趙寶利

無線互聯(lián)科技 2022年23期

趙寶利，趙博

(1.陜西郵電職業(yè)技術(shù)學(xué)院，陜西咸陽 712000；2.中國郵政集團(tuán)公司陜西省分公司，陜西西安 710000)

0 引言

當(dāng)前，在疫情防控的影響下，客戶交易行為發(fā)生了根本性的轉(zhuǎn)變，企業(yè)內(nèi)外部的競爭日趨激烈。金融機(jī)構(gòu)必須依托線上服務(wù)來維系客戶，使得銀行之間的競爭變得透明及扁平。如何掌握客戶行為偏好，提前預(yù)判客戶需求，快速準(zhǔn)確提供針對性的金融服務(wù)及產(chǎn)品，是銀行機(jī)構(gòu)維持自身競爭力的根本。

本文使用某國有大型企業(yè)歷年的客戶數(shù)據(jù)，通過對客戶的資產(chǎn)情況、資金分布、交易狀況、典型客戶屬性等緯度的分析，使用皮爾遜相關(guān)性分析、箱形圖法、Logistic計量經(jīng)濟(jì)模型[1]，構(gòu)建線性回歸模型；將客戶數(shù)據(jù)80%作為專家訓(xùn)練數(shù)據(jù)庫，用于模型訓(xùn)練；余下的20%作為測試數(shù)據(jù)庫，驗證模型的分析[2]效果。通過利用機(jī)器算法挖掘高潛力的價值客戶進(jìn)行針對性匹配適合度最高的推薦產(chǎn)品，從而實現(xiàn)千人千面的客戶精準(zhǔn)營銷，提高客戶轉(zhuǎn)化率，達(dá)到客戶增值的目的。

1 研究設(shè)計

本設(shè)計運用某國有大型銀行后臺數(shù)據(jù)，包括儲蓄邏輯集中系統(tǒng)、保險、理財、第三方支付系統(tǒng)、中間業(yè)務(wù)平臺系統(tǒng)數(shù)據(jù)。數(shù)據(jù)時間為2021年1—2季度、2022年1季度。

VIP潛在客戶：時點客戶持有資產(chǎn)為5萬～10萬，資產(chǎn)尚未達(dá)到或未連續(xù)3個月達(dá)到10萬以上的客戶。

1.1 數(shù)據(jù)規(guī)范化

為便于模型分析，將數(shù)據(jù)進(jìn)行一系列的規(guī)范化處理。如：將客戶性別、是否第三方支付客戶、是否代發(fā)客戶、是否手機(jī)銀行客戶等字符串型的客戶屬性進(jìn)行數(shù)值化處理，替換為該特征的浮點類型。利用箱型圖去掉年齡異常值(0

1.2 模型設(shè)定與相關(guān)性檢驗

1.2.1 基本模型—Logistic回歸模型

Logistic回歸模型是一種廣義線性回歸分析模型[3]，常用于數(shù)據(jù)挖掘、疾病診斷、經(jīng)濟(jì)預(yù)測等領(lǐng)域。針對研究目標(biāo)，建立二分類的Logistic回歸模型，來分析客戶持有資產(chǎn)種類及占比對客戶成為VIP客戶意愿的影響。

Logistic回歸屬于概率型非線性回歸，假設(shè)在多個自變量的作用下，客戶成為VIP客戶發(fā)生概率為P(0≤P≤1)，則Logistic回歸模型為：

logit(P)=In(P/1-P)=β0+β1X1+

β2X2+…+βnXn

其中，發(fā)生概率與不發(fā)生概率之比為p/(1-p)，β為回歸系數(shù)。

1.2.2 皮爾遜相關(guān)性分析

皮爾遜相關(guān)性系數(shù)是廣泛用于度量兩個變量X和Y之間的相關(guān)程度(線性相關(guān))[4]，其值介于-1與1之間。兩個變量之間的皮爾遜相關(guān)系數(shù)定義為兩個變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商：

2 構(gòu)建模型

按照已知數(shù)據(jù)，2021年一季度“非VIP客戶：VIP客戶≈13∶1”的實際比例，選取了2021年70萬條VIP臨界客戶數(shù)據(jù)，按照8∶2的比例分成了兩部分。其中，80%的數(shù)據(jù)作為專家訓(xùn)練數(shù)據(jù)庫，用于模型訓(xùn)練；余下的20%作為測試數(shù)據(jù)庫，驗證模型的分析效果。

用Logistic回歸模型構(gòu)建出以56.0萬條真實數(shù)據(jù)訓(xùn)練出的VIP專家模型樣本，模型數(shù)據(jù)如表1所示。

表1 模型數(shù)據(jù)摘要

2.1 關(guān)鍵因素相關(guān)性分析

采用皮爾遜相關(guān)性分析，對因變量和自變量之間的相關(guān)系數(shù)進(jìn)行運算，根據(jù)相關(guān)性系數(shù)高低界定因素，對變量進(jìn)行排列，結(jié)果如表2所示。

表2 Pearson相關(guān)性系數(shù)矩陣分析結(jié)果

2.2 相關(guān)性因素解讀

選取的相關(guān)分析樣本數(shù)據(jù)，為海量數(shù)據(jù)樣本，因此不能僅僅以統(tǒng)計學(xué)在小樣本上的相關(guān)系數(shù)區(qū)間作為相關(guān)程度的判斷依據(jù)，應(yīng)該結(jié)合模型分析結(jié)果的相關(guān)顯著性業(yè)務(wù)理解，綜合對相關(guān)系數(shù)結(jié)果進(jìn)行解讀。

(1)一季度資產(chǎn)的高低與是否成為VIP客戶有直接關(guān)系。

(2)在客戶持有資產(chǎn)種類中，定期持有較高的客戶更有可能成為VIP客戶，其他資產(chǎn)種類相關(guān)系數(shù)從高到低依次為：活期、理財、基金和保險。

(3)VIP客戶的保險資產(chǎn)在總資產(chǎn)中的占比最低，即客戶的保險資金在總資產(chǎn)中占比越高，越不容易成為VIP。

(4)VIP客戶標(biāo)簽中，第三方支付客戶的相關(guān)系數(shù)最高，是否開通第三方支付與是否意愿成為VIP高度相關(guān)，其次為手機(jī)銀行客戶、雙微客戶；代發(fā)客戶相關(guān)系數(shù)最低。

(5)VIP臨界客戶中，女性客戶期望成為VIP的意愿高于男性。

2.3 建立基本模型

通過Logistic回歸模型和關(guān)鍵因素相關(guān)性研究，筆者對2021年一季度金融VIP客戶數(shù)據(jù)結(jié)構(gòu)和關(guān)鍵因素依賴性有了清晰的了解，此時通過歸納VIP客戶關(guān)鍵特征，選取自變量構(gòu)建VIP客戶基本識別模型。

模型起始狀態(tài)如表3所示，即模型庫中，VIP客戶與非VIP客戶比例為13∶1，此時對一個客戶是否會成為VIP客戶的預(yù)測成功率是92.9%。

表3 初始預(yù)測百分比校正

3 模型的評價預(yù)測與檢驗

3.1 模型整體評價

Logistic模型系數(shù)的Hosmer-Lemeshow檢驗如表4所示，是判斷模型擬合優(yōu)劣程度的關(guān)鍵綜合檢驗。伴隨概率(Sig)小于0.05，則證明模型擬合度優(yōu)良。Sig值越小說明擬合程度越好，其檢驗結(jié)果如表5所示。

表4 模型系數(shù)的綜合檢驗

表5 模型系數(shù)的Hosmer檢驗結(jié)果

表4、表5中“模型系數(shù)”一行輸出了Logistic回歸模型中所有Sig參數(shù)是否為0的擬合檢驗結(jié)果。小于0.05則表示本次擬合模型納入的變量中，至少有1個變量的OR值有統(tǒng)計學(xué)意義，即模型總體有意義。

3.2 結(jié)果預(yù)測

擬合Logistic回歸后，對于每一個自變量組合，均可以得到一組事件發(fā)生的概率。如果事件發(fā)生的概率大于或等于0.5，Logistic回歸判斷為VIP；如果可能性小于0.5，則判斷為非VIP。因此，與真實情況相比，就可以評價Logistic回歸模型的預(yù)測效果。

在結(jié)果預(yù)測中，2022年一季度99.8%的金融客戶研究對象被模型預(yù)測成為二季度非VIP客戶，11.5%金融客戶研究對象被模型預(yù)測二季度可以轉(zhuǎn)化為VIP客戶；擬合Logistic回歸模型能夠?qū)?3.6%(“總體百分比”取值)的觀測值正確分類，即綜合判斷準(zhǔn)確率達(dá)到93.6%，是理想的預(yù)測模型結(jié)果，如表6所示。

表6 模型預(yù)測分類結(jié)果表

將2022年一季度建立好的VIP臨界客戶目標(biāo)數(shù)據(jù)(78.7萬)，導(dǎo)入已建立的VIP專家模型中，完成本次Logistic回歸模型預(yù)測。模型在已有的2022年一季度VIP臨界客戶中，自動挖掘并識別了約9.5萬名潛在的可轉(zhuǎn)化為VIP的目標(biāo)客戶。

3.3 預(yù)測結(jié)果正態(tài)性檢驗

將VIP客戶資產(chǎn)增長預(yù)測結(jié)果趨勢用標(biāo)準(zhǔn)分布Q-Q圖來描述，如圖1所示，變量數(shù)據(jù)分布的分位數(shù)與所指定分布的分位數(shù)之間的關(guān)系曲線均為正態(tài)分布，且Q-Q圖上的點近似地在一條直線附近，該直線的斜率為標(biāo)準(zhǔn)差，截距為均值，所以該預(yù)測數(shù)據(jù)完全滿足驗證標(biāo)準(zhǔn)。

圖1 VIP資產(chǎn)增長標(biāo)準(zhǔn)分布Q-Q

4 結(jié)語

(1)對于普通客戶能否成功晉升VIP模型的預(yù)測成功率是92.9%，且模型擬合度優(yōu)良，模型總體有意義。在擬合Logistic回歸模型預(yù)測2022年晉升VIP客戶時，該模型能夠?qū)?3.6%的觀測值正確分類，即綜合判斷準(zhǔn)確率達(dá)到93.6%，是理想的預(yù)測模型結(jié)果。(2)對于未成功晉升VIP客戶的潛在客戶模型，因為客戶人數(shù)較多，可按當(dāng)月存款區(qū)間從高至低分批次落實客戶二次挖掘工作。