陳瑩
(中國電信股份有限公司海南分公司,海南 海口 570100)
根據(jù)數(shù)據(jù)顯示,每月平均有多達半數(shù)的移動預(yù)付費用戶曾因賬戶余額不足但沒有及時充值而導(dǎo)致停機的情況。對運營商則意味著收入的損失。目前中國電信已經(jīng)為部分用戶提供星級服務(wù)。但中低端用戶沒有該信用服務(wù)。對這些用戶進行信用評分并授信,對提升用戶滿意度和客戶粘性很有意義。本文旨在探索一種針對非星級用戶的基于SVM的信用評分方法,建模過程如圖1所示[1-2]:(1)確定業(yè)務(wù)需求;(2)定義標簽;(3)選取合適的樣本,匹配出全部的特征信息;(4)特征工程+模型訓(xùn)練+模型評價+模型調(diào)優(yōu);(5)輸出模型報告;(6)上線與監(jiān)控。
圖1 信用評分建模流程圖
電信非星級客戶信用評分模型的設(shè)計目標是篩選出有信用需求的低風險客戶。信用評分結(jié)果是:高分數(shù)的被評分人意味著比低分數(shù)的被評分人具有更強的信用需求和更低的風險。
信用評分模型的主要目的是衡量用戶的信用風險[4-6]。我們從以下幾個角度給非星級用戶構(gòu)建指標體系:
基本信息:個人基本信息是每個場景下都一定會有的數(shù)據(jù),比較典型的信息有年齡、性別、城市、入網(wǎng)時間、是否實名制等。
消費信息:典型的消費信息是用戶每個月的ARPU、充值和套餐信息,從而計算出他的購買需求和購買力。
歷史表現(xiàn):用戶在使用過程中會有一些歷史表現(xiàn)。如歷史停機和還款表現(xiàn),這是可以直接體現(xiàn)用戶的還款意愿。
穩(wěn)定性:除了通過固定維度來看用戶的表現(xiàn)外,還可以將用戶上述的維度變化趨勢做成特征。
用戶特征中的連續(xù)型變量的數(shù)量級差異較大,這對模型的影響很大,我們將這些連續(xù)型變量做歸一化處理,典型的是單位區(qū)間[0,1]:
用戶特征中離散型變量,采用WOE(Weight of Evidence)編碼方式。定義格式為:
其中,pyi是這個分組中響應(yīng)客戶占樣本中所有響應(yīng)客戶的比例,pin是這個分組中為響應(yīng)客戶占樣本中所有未響應(yīng)客戶的比例。
支持向量機(Support vector machine, SVM)是一種基于結(jié)構(gòu)風險最小原則的機器學(xué)習(xí)分類方法[3]。SVM通過找到兩個類型之間的最大距離方式來劃分類型,即最大邊緣超平面,任意超平面可以用下面的方程來描述:
本文所涉及的實驗數(shù)據(jù)取自三亞、東方和儋州三個地市的85萬條非星級用戶的95個特征數(shù)據(jù),實驗?zāi)P徒⒃贚inux系統(tǒng)下,編程平臺采用R語言。所有特征數(shù)據(jù)均進行歸一化處理。核函數(shù)和相應(yīng)Cost、Gamma參數(shù)的選擇是SVM模型訓(xùn)練的關(guān)鍵環(huán)節(jié),本文選擇了應(yīng)用最廣的4種核函數(shù):線性核(Linear kernel,LK)、多項式核(Polynomial kernel,PK)、徑向基函數(shù)核(Radial basis function kernel,RBF)和Sigmoid核函數(shù)(Sigmoid kernel,SK)。
為了更好的訓(xùn)練模型,避免模型的過度擬合而影響模型的泛化能力,模型采用k折交叉驗證(k-fold cross validation)。詳細的SVM模型參數(shù)取值情況如表1所示:
表1 SVM 模型參數(shù)表
本文模型評估采用三個評價指標:查準率(Precision)、查全率(Recall)和F1分數(shù)(F1 score)。具體公式如下:
圖2 不同K 值RBF 核模型性能指標圖
表2 RBF 核時不同K 值的模型評估指標表
本文以SVM算法為基礎(chǔ),結(jié)合海南電信非星級用戶的多維度特征,并對Cost、Gamma、核函數(shù)類型和K值進行了對比實驗,綜合精度、查全率和F1值三項評價指標。本文提出的信用風險評測方法在運行6個月的情況下,信用需求預(yù)測準確度高,整體壞賬率表現(xiàn)穩(wěn)定,用戶退訂率低,用戶感知率較高。