鄭宇晨,呂王勇
(四川師范大學(xué) 數(shù)學(xué)與軟件科學(xué)學(xué)院, 四川 成都 610068)
?
基于logistic模型的證券公司客戶流失預(yù)警分析
鄭宇晨,呂王勇
(四川師范大學(xué) 數(shù)學(xué)與軟件科學(xué)學(xué)院, 四川 成都 610068)
伴隨著中國(guó)經(jīng)濟(jì)的高速發(fā)展和經(jīng)濟(jì)全球化的不斷加深,客戶流失問(wèn)題比爭(zhēng)奪客戶更需要證券公司的高度關(guān)注。文章從反映客戶交易情況的指標(biāo)出發(fā),采用K-均值聚類獲取客戶流失狀態(tài);接著通過(guò)6種逐步回歸方法進(jìn)行變量篩選,并建立logistic客戶流失預(yù)警模型;再對(duì)模型的泛化能力進(jìn)行檢驗(yàn)并基于證券公司的業(yè)務(wù)特點(diǎn)給出分析。研究結(jié)果表明:反映客戶交易活躍度的指標(biāo)是證券公司實(shí)施客戶流失預(yù)警的關(guān)鍵,進(jìn)而為證券公司有針對(duì)性地挽留客戶提供有效的方法和可行的建議。
客戶流失預(yù)警模型;logistic回歸;數(shù)據(jù)挖掘;證券公司
改革開(kāi)放以來(lái),中國(guó)證券行業(yè)空前發(fā)展,來(lái)自國(guó)內(nèi)外券商同行以及銀行的多重競(jìng)爭(zhēng)壓力也接踵而至。有研究表明,相比提高市場(chǎng)占有率、擴(kuò)大經(jīng)營(yíng)規(guī)模,減少客戶流失對(duì)企業(yè)來(lái)說(shuō)更具吸引力。券商每減少5%的客戶流失,就能使盈利水平提高25%到85%;大多數(shù)新客戶給公司創(chuàng)造的利潤(rùn)低于穩(wěn)定的老客戶。因此, 保留住客戶,對(duì)客戶流失前的征兆及時(shí)預(yù)警,對(duì)于提高公司的競(jìng)爭(zhēng)力有舉足輕重的戰(zhàn)略意義。
客戶流失可以被定義為因?yàn)槠髽I(yè)各種營(yíng)銷手段的實(shí)施導(dǎo)致客戶與企業(yè)終止業(yè)務(wù)關(guān)系的現(xiàn)象??蛻袅魇Х治?,旨在用數(shù)據(jù)挖掘?yàn)榇淼姆椒?,分析反映客戶歷史交易行為的數(shù)據(jù),提取有流失風(fēng)險(xiǎn)的客戶行為特征,將其應(yīng)用于客戶關(guān)系管理,改進(jìn)或調(diào)整營(yíng)銷手段來(lái)實(shí)現(xiàn)挽留客戶的目的。
客戶流失預(yù)警研究領(lǐng)域如今成果頗豐。仲繼(2014)[1]針對(duì)電信運(yùn)營(yíng)商的老客戶保留問(wèn)題,通過(guò)對(duì)客戶流失原因的分析,將客戶區(qū)分并給出不同的流失標(biāo)準(zhǔn),分別用C5.0 決策樹(shù)、支持向量機(jī)、C&T 決策樹(shù)、logistic 回歸和神經(jīng)網(wǎng)絡(luò)分別建模預(yù)測(cè),并最終通過(guò)增加一個(gè)置信區(qū)間的方法提出融合模型,降低了預(yù)測(cè)風(fēng)險(xiǎn)。姜曉娟、郭一娜(2014)[2]研究相同的問(wèn)題,考慮客戶流失數(shù)據(jù)正負(fù)樣本不對(duì)稱性且規(guī)模龐大的特點(diǎn),對(duì)各個(gè)數(shù)據(jù)庫(kù)增加權(quán)值參數(shù);通過(guò)加權(quán)聚類,取得了較好的預(yù)測(cè)效果。王建仁(2015)[3]針對(duì)電信行業(yè)客戶流失問(wèn)題,提出將信息融合和多種數(shù)據(jù)挖掘方法相結(jié)合的融合模型,使模型的預(yù)測(cè)精度有了質(zhì)的提高。楊孝成(2014)[4]對(duì)移動(dòng)通信用戶采用聚類算法,并以此為依據(jù)建立流失預(yù)警的決策樹(shù)模型并設(shè)計(jì)了用戶流失預(yù)警的基本結(jié)構(gòu),已經(jīng)形成了較完備的算法和一定的實(shí)用價(jià)值。
然而,客戶流失預(yù)警領(lǐng)域在證券行業(yè)的研究幾乎是空白;前人的研究幾乎都停留在宏觀的證券公司客戶關(guān)系管理上,且以方法論式的建議居多。僅王卉(2008)[5]針對(duì)證券公司的客戶流失問(wèn)題,建立服務(wù)質(zhì)量的六缺口模型,給出了服務(wù)失敗后的具體補(bǔ)救措施,并用實(shí)證數(shù)據(jù)對(duì)補(bǔ)救措施給出評(píng)價(jià)。杜修平(2009)[6]提出了影響證券公司客戶流失的特征因素,用決策樹(shù)方法構(gòu)建了證券行業(yè)客戶流失分析的RFM-ROl模型,并給出了剪枝的閥值,獲得了80.7%的預(yù)測(cè)準(zhǔn)確率和較強(qiáng)的實(shí)用性。吳斌(2013)[7]針對(duì)證券公司的客戶流失問(wèn)題,結(jié)合證券經(jīng)紀(jì)業(yè)務(wù)的特點(diǎn),從資產(chǎn)累計(jì)流出量的角度選擇變量建立logistic 回歸預(yù)測(cè)模型,獲得了較理想的K-S值、提升度和一定的捕獲率。
根據(jù)于彩嫻、趙治榮(2013)[8]對(duì)銀行業(yè)的研究,針對(duì)不同的行業(yè)、數(shù)據(jù)庫(kù),應(yīng)該在所處環(huán)境下探索最優(yōu)的模型,沒(méi)有一種模型的預(yù)測(cè)效果總是優(yōu)于其他模型。故于彩嫻、趙治榮等分別用logistic 回歸、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)和logistic 回歸的融合模型進(jìn)行對(duì)比建模;結(jié)果表明,logistic 回歸的提升性最高,決策樹(shù)最低,決策樹(shù)和logistic 回歸的融合模型次低。Verbek(2012)[9]通過(guò)對(duì)11個(gè)數(shù)據(jù)集的研究比較,也說(shuō)明模型的有效性因模型的檢驗(yàn)方法和數(shù)據(jù)集而異。本文對(duì)證券公司客戶交易數(shù)據(jù)進(jìn)行篩選和logistic回歸建模研究,并提出有行業(yè)針對(duì)性的建議,以期在相當(dāng)程度上為證券公司的決策者提供參考。
(一)模型的建立
logistic回歸(logistic regression)模型屬于非線性概率模型,是探究二分類觀察結(jié)果與影響因素的定量關(guān)系最常用的模型之一。因變量是目標(biāo)分類字段,偏回歸系數(shù)解釋為自變量的單位變化引起因變量變換后的平均變化。客戶流失是典型的二分類問(wèn)題:客戶流失(1),客戶正常投資(0)?,F(xiàn)實(shí)中,離散型模型對(duì)于捕捉數(shù)據(jù)的本質(zhì)、解釋和說(shuō)明投資者行為更為有效,且離散型模型以最大化概率作為主要估計(jì)方法,保證了參數(shù)估計(jì)的一致性和有效性[10]。
對(duì)于證券公司的每一位客戶,把其投資狀態(tài)定義為,其中Y=1代表客戶流失,Y=0代表客戶正常投資;根據(jù)客戶的各項(xiàng)交易數(shù)據(jù)構(gòu)造向量X(X1,X2,…,Xn),建立logistic回歸模型如下:
(1)
(2)
其中,P(Y=1|X)——客戶流失的概率,P(Y=0|X)——客戶正常投資的概率,Xi——自變量(解釋變量),本文是指客戶在證券公司營(yíng)業(yè)部的交易指標(biāo);βi——各自變量的偏回歸系數(shù),代表對(duì)相應(yīng)自變量的貢獻(xiàn),α——截距項(xiàng)。
(二)模型的理論基礎(chǔ)
為了與數(shù)學(xué)上習(xí)慣的表達(dá)相一致,將(1)式等價(jià)地改寫(xiě)為如下形式:
(3)
β2X2……+βnXn
(4)
這里因變量與自變量X1、X2……X3建立的回歸方程就是logistic模型。這里把
(5)
一般化的logistic函數(shù)形如:
(6)
K代表承載能力或最大容量,反映系統(tǒng)內(nèi)事物的飽和狀態(tài)。參數(shù)b表示最大可能相對(duì)增長(zhǎng)率,參數(shù)a的值由K與y的初始值y0的比值來(lái)確定[11]。
對(duì)(6)式兩邊求導(dǎo),得一般logistic函數(shù)的微分方程形式:
(7)
(6)式是(7)式的特解,也是解析解。該曲線的基本解析性質(zhì)如下:
(1)單調(diào)性:嚴(yán)格遞增;
(2)漸近線2條,分別是y=0和y=K;
logit(y)稱為logistic變換,作用如下:
(8)
通過(guò)求導(dǎo)可知logistic函數(shù)(5)在實(shí)數(shù)域R上單調(diào)遞增,故y∈(0,1)。
(9)
這樣,經(jīng)過(guò)logistic變換,因變量的取值范圍從(0,1)變換到(-∞,+∞)。
(三)參數(shù)估計(jì)與假設(shè)檢驗(yàn)
1.參數(shù)估計(jì)。經(jīng)典方法是最小二乘法。明顯的,(4)式與多元線性回歸形式相同,故可采用相同的方法估計(jì)參數(shù)α和βi。根據(jù)估計(jì)后的方程,代入解釋變量的觀測(cè)值,即可得兩類客戶的流失概率。
2.模型整體顯著性檢驗(yàn)。作用:檢驗(yàn)自變量(指標(biāo))全體對(duì)因變量的影響是否有統(tǒng)計(jì)意義。常用的檢驗(yàn)方法有似然比檢驗(yàn)、Wald檢驗(yàn)和計(jì)分檢驗(yàn),其中似然比檢驗(yàn)的結(jié)果最可靠,后兩者可靠性相當(dāng)。本文采用似然比檢驗(yàn)。
似然比檢驗(yàn):通過(guò)分析模型中變量的變化對(duì)似然比的影響,來(lái)檢驗(yàn)自變量的增加或減少是否對(duì)因變量產(chǎn)生統(tǒng)計(jì)意義上的顯著影響。零假設(shè)和備擇假設(shè)如下:
H0:β1=β2=…βm=0
(10)
H1:各βj(j=1,2…,m)不全為0
(11)
檢驗(yàn)統(tǒng)計(jì)量:
G=-2[In(Lk-1)-In(Lk)]
(12)
其中,In(Lk-1)是不包含檢驗(yàn)變量時(shí)模型的對(duì)數(shù)似然值,In(lk)是包含檢驗(yàn)變量時(shí)模型的對(duì)數(shù)似然值。當(dāng)H0成立時(shí),G~χ2(n)。
3.回歸系數(shù)的顯著性檢驗(yàn)。作用:檢驗(yàn)單個(gè)自變量(指標(biāo))的偏回歸系數(shù)與0是否有顯著差異。主要是Wald檢驗(yàn),目前主流統(tǒng)計(jì)軟件(SPSS、R、SAS等)均采用此方法。零假設(shè)和備擇假設(shè)如下:
H0:βj=0
(13)
H0:βj≠0
(14)
檢驗(yàn)統(tǒng)計(jì)量:
(15)
其中,bj是第j個(gè)自變量(指標(biāo))偏回歸系數(shù)的估計(jì)值, Sbj是bj的標(biāo)準(zhǔn)誤差。當(dāng)H0成立時(shí),假定系數(shù)統(tǒng)計(jì)量服從正態(tài)分布,則χ2~χ2(1)。
4.變量篩選的檢驗(yàn)統(tǒng)計(jì)量。變量篩選的目的是將偏回歸系數(shù)在統(tǒng)計(jì)意義上顯著的自變量選入模型,不顯著的自變量剔出模型。要特別說(shuō)明的是,在logistic模型中,變量篩選不采用F統(tǒng)計(jì)量,而采用似然比統(tǒng)計(jì)量、Wald統(tǒng)計(jì)量和計(jì)分統(tǒng)計(jì)量之中的一個(gè)。本文采用Wald統(tǒng)計(jì)量。
(一)指標(biāo)的初選及介紹
本章的實(shí)驗(yàn)數(shù)據(jù)基于某證券公司營(yíng)業(yè)部部分客戶的交易數(shù)據(jù),時(shí)間跨度為2013年1月1日至2013年12月31日。抽取4 155個(gè)樣本點(diǎn),并將訓(xùn)練樣本選為3 500個(gè),測(cè)試樣本選為655個(gè)。為了便于研究,本文將用戶狀態(tài)做二分劃:流失和正常投資(說(shuō)明:流失風(fēng)險(xiǎn)較高的客戶即視為流失,其他視為正常投資)。
選擇合適的解釋變量是客戶流失預(yù)測(cè)建模的重要環(huán)節(jié)。這里,原始變量選擇鮮有研究的證券公司客戶交易指標(biāo)。因?yàn)橐苿?dòng)通信、銀行等領(lǐng)域的客戶流失預(yù)警建模成果已經(jīng)非常豐富,但缺乏在證券領(lǐng)域的相關(guān)研究可以借鑒,所以針對(duì)本文的數(shù)據(jù)特點(diǎn)選擇原始變量見(jiàn)表1:
表1 原始變量介紹
注:以上指標(biāo)的時(shí)間跨度均為近一年(2013年1月1日至2013年12月31日).
(二)變量篩選
在變量篩選之前,首先進(jìn)行數(shù)據(jù)預(yù)處理。第172個(gè)樣本點(diǎn)的日均倉(cāng)位數(shù)據(jù)缺失,用剩余有效樣本的均值0.8174替換。因?yàn)?個(gè)原始變量觀察值的量綱、數(shù)量級(jí)有很大差異, 以下采用Z-score 標(biāo)準(zhǔn)化(zero-mean normalization)方法對(duì)數(shù)
據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,轉(zhuǎn)換公式如:
(16)
1.初步判斷:簡(jiǎn)單相關(guān)系數(shù)檢驗(yàn)。針對(duì)全部4155個(gè)樣本點(diǎn),原始變量的相關(guān)系數(shù)計(jì)算結(jié)果如表2:
表2 相關(guān)系數(shù)檢驗(yàn)
注:以上指標(biāo)的時(shí)間跨度均為近一年(2013年1月1日至2013年12月31日),為了使表達(dá)更加精煉,表2及對(duì)其的分析均省去“近一年”的表述.
由表2知,原始變量間相關(guān)系數(shù)高于0.3(即線性相關(guān)顯著)的結(jié)果有5個(gè),分別是:平均持股時(shí)間和周轉(zhuǎn)率、最長(zhǎng)連續(xù)無(wú)交易時(shí)間和周轉(zhuǎn)率、最長(zhǎng)連續(xù)無(wú)交易時(shí)間和平均持股時(shí)間、普通賬戶交易量和周轉(zhuǎn)率、最大下跌率和最大上漲率。最大的相關(guān)系數(shù)絕對(duì)值接近0.55。而且,因?yàn)闃颖玖枯^大,即使是因?yàn)殡S機(jī)因素的影響也會(huì)增大變量間的差異,從而導(dǎo)致相關(guān)系數(shù)較低。
所以,有必要進(jìn)行變量篩選。本文采用logistic逐步回歸的方法,因此,需要先獲得因變量:客戶流失狀態(tài)。
2.因變量的假設(shè)及獲得。模型假設(shè):因?yàn)榭蛻袅魇顟B(tài)數(shù)據(jù)是證券公司的商業(yè)機(jī)密,無(wú)法獲得。因此,本文在實(shí)證部分假設(shè)各項(xiàng)指標(biāo)表現(xiàn)“較激進(jìn)”的客戶為流失客戶,交易活躍度低,投資能力差,流失風(fēng)險(xiǎn)高,即對(duì)證券公司的貢獻(xiàn)小,Y值取為1;各項(xiàng)指標(biāo)表現(xiàn)“較穩(wěn)健”的客戶為正常投資客戶,交易活躍度高,投資能力好,流失風(fēng)險(xiǎn)低,即對(duì)證券公司的貢獻(xiàn)大,Y值取為0。
本文采用K-均值聚類(K-means cluster)判斷客戶所屬的流失狀態(tài),對(duì)客戶分類,并將分類數(shù)K定為2。為了模型評(píng)價(jià)的需要,全部4 155個(gè)樣本點(diǎn)均參與聚類。限于篇幅,這里不完整展示聚類結(jié)果(因變量的取值結(jié)果)。最終兩種分類的聚類中心結(jié)果見(jiàn)表3:
表3 最終聚類中心
由表3得,第1類的聚類中心為(0.305,-0.618,-0.237,-0.124,-0.471,0.158,-0.206,-0.250,-0.004),第2類的聚類中心為(-0.477,0.966,0.371,0.194,0.736,-0.246,0.322,0.391,0.007)。
由聚類結(jié)果可知,第2類客戶具有以下特點(diǎn):
近一年普通賬戶交易量(單位萬(wàn))為負(fù)值,其他指標(biāo)均為正值。并且,除了近一年投資收益(元)接近于0外,其他指標(biāo)均顯著不為0。 近一年周轉(zhuǎn)率、平均持股時(shí)間、日均倉(cāng)位指標(biāo)說(shuō)明第2類客戶的交易活躍度較低,即參與度較低;近一年普通賬戶交易量較小說(shuō)明第2類客戶的盈利狀況較差、對(duì)證券公司的貢獻(xiàn)也較??;近一年最長(zhǎng)連續(xù)無(wú)交易時(shí)間、持股分散度、最大上漲率、最大下跌率、投資收益(元)指標(biāo)說(shuō)明第2類客戶資產(chǎn)較雄厚,愿意參與“高風(fēng)險(xiǎn),高收益”的投資。綜上,第2類客戶的流失風(fēng)險(xiǎn)較高,被定義為本文中的流失客戶,Y值取為1。與此相對(duì)應(yīng),第1類客戶為正常投資客戶,Y值取為0。
為了檢驗(yàn)分類的合理性,用方差分析來(lái)檢驗(yàn)兩個(gè)類別之間是否有顯著差異,結(jié)果如表4:
表4 ANOVA
從表4的分析結(jié)果可見(jiàn),除了第9個(gè)變量近一年投資收益(單位元)的P值高達(dá)0.718,說(shuō)明兩個(gè)類別在該指標(biāo)上沒(méi)有顯著差異;其他變量的P值均接近于0,說(shuō)明前8個(gè)指標(biāo)對(duì)分類結(jié)果的產(chǎn)生均有高度顯著的影響。因此,把4 155個(gè)客戶樣本點(diǎn)按流失狀態(tài)分成2類是合理的。
3.解釋變量的篩選: logistic逐步回歸。因?yàn)镾PSS21.0將客戶分類標(biāo)記為“1”、“2”,而被解釋變量(因變量)Y的取值為0、1,為了避免表述上混淆,將SPSS的分類結(jié)果做如下處理:第1類客戶分類編號(hào)取為0,即Y=0;第2類客戶分類編號(hào)取為1,即Y=1。
首先,嘗試全變量法擬合logistic回歸模型,SPSS21.0返回結(jié)果見(jiàn)表5:
表5 模型系數(shù)的綜合檢驗(yàn)
這張表是對(duì)模型整體顯著性的三種似然比檢驗(yàn)結(jié)果,本文選取顯著性水平為0.05,三種檢驗(yàn)的Sig.值都接近于0,說(shuō)明logistic回歸模型的系數(shù)整體高度顯著。
表6 方程中的變量(引入9個(gè)指標(biāo)時(shí))
這張表是logistic回歸的建模結(jié)果,也是回歸系數(shù)的顯著性檢驗(yàn)結(jié)果和變量篩選依據(jù)。B表示方程的回歸系數(shù),S.E.是其標(biāo)準(zhǔn)誤差,Wald是回歸系數(shù)檢驗(yàn)統(tǒng)計(jì)量的觀察值,Wald統(tǒng)計(jì)量形如:
(17)
df表示W(wǎng)ald統(tǒng)計(jì)量抽樣分布的自由度,Sig.值表示回歸系數(shù)的檢驗(yàn)P值。由此可見(jiàn),所有偏回歸系數(shù)P值都大于0.5,高度不顯著;但模型整體高度顯著,有充分的理由相信,模型存在嚴(yán)重的多重共線性。
下面通過(guò)SPSS的6種逐步回歸方法:前進(jìn)法(條件)、前進(jìn)法(似然比)、前進(jìn)法 (Wald)、后退法(條件)、后退法(似然比)、后退法 (Wald),進(jìn)行變量篩選和建模嘗試。對(duì)于模型整體顯著性的檢驗(yàn),考察表“模型系數(shù)的綜合檢驗(yàn)”;對(duì)于參數(shù)顯著性的檢驗(yàn),考察“方程中的變量”、“不在方程中的變量”等多張表格,logistic建模結(jié)果也在這里得到。限于篇幅,這里直接展示逐步回歸的探究結(jié)果。
6種logistic逐步回歸的嘗試性建模得到了一致的結(jié)論,說(shuō)明本文對(duì)某證券公司客戶交易數(shù)據(jù)建立的logistic回歸模型是穩(wěn)健的,即選擇7個(gè)解釋變量,分別是:近一年周轉(zhuǎn)率、近一年平均持股時(shí)間、近一年日均倉(cāng)位、近一年持股分散度、近一年最長(zhǎng)連續(xù)無(wú)交易時(shí)間、近一年最大上漲率、近一年最大下跌率建立模型。
(三)logistic模型的建立和分析
按照全變量法就7個(gè)解釋變量進(jìn)行二元logistic建模,主要返回結(jié)果如下:
表7 分類表a
注:a表示模型中包括常量,模型切割值為0.5.
表7說(shuō)明在沒(méi)有任何解釋變量以前,預(yù)測(cè)所有的樣本點(diǎn)都是正常投資的正確率為59.9%。
表8 模型系數(shù)的綜合檢驗(yàn)
表8顯示模型整體顯著性的似然比檢驗(yàn)結(jié)果均是:Sig.值接近于0,在0.05的顯著性水平下,有充分的把握拒絕系數(shù)全部為0的零假設(shè),說(shuō)明建立的logistic模型整體高度顯著。
表9 模型匯總
表9是對(duì)模型整體的擬合優(yōu)度檢驗(yàn)。-2對(duì)數(shù)似然函數(shù)值為71.952,較小,說(shuō)明模型的擬合優(yōu)度不錯(cuò)[12]。Cox & Snell R方、Nagelkerke R方是兩個(gè)偽決定系數(shù),反映因變量的變化有多大比例可以由自變量解釋。因?yàn)楣烙?jì)的方法不同,兩個(gè)偽決定系數(shù)的大小通常也不同。Cox & Snell R方的擬合優(yōu)度結(jié)果為73.5%,處于70%~80%之間,這是logistic回歸模型的正常擬合優(yōu)度范圍;Nagelkerke R方的擬合優(yōu)度高達(dá)99.3%,相當(dāng)程度上說(shuō)明7個(gè)解釋變量對(duì)因變量的聯(lián)合影響幾乎完全決定了因變量的變化。
表10 分類表a
注:a表示模型中包括常量,模型切割值為0.5.
表10表明使用該logistic回歸方程對(duì)樣本點(diǎn)進(jìn)行分類,其預(yù)測(cè)精確度為99.8%;相比建模前的59.9%,獲得了質(zhì)的提高,3 500個(gè)樣本點(diǎn)中僅出現(xiàn)6個(gè)誤判。實(shí)際正常投資的2 096位客戶中有2 092位被預(yù)測(cè)出來(lái),有4位錯(cuò)判,正確率達(dá)到99.81%;實(shí)際流失的1 404位客戶中有1402位被預(yù)測(cè)出來(lái),有2位錯(cuò)判,正確率達(dá)到99.86%,說(shuō)明模型有很理想的預(yù)測(cè)結(jié)果,可以為證券公司判斷客戶流失提供充足的依據(jù),為實(shí)踐提供較好的參考。
表11 方程中的變量(引入7個(gè)指標(biāo)時(shí))
由表11可知,所有解釋變量的P值均接近于0,說(shuō)明所有偏回歸系數(shù)均高度顯著,結(jié)合模型的整體顯著性,綜上,用7個(gè)解釋變量建立的二元logistic回歸模型是顯著有效的。
模型的函數(shù)解析形式如下:
16.478X3+7.717X4+33.411X5+14.774X7+17.346X8
(18)
其中,X1——近一年周轉(zhuǎn)率,X2——近一年平均持股時(shí)間,X3——近一年日均倉(cāng)位,X4——近一年持股分散度,X5——近一年最長(zhǎng)連續(xù)無(wú)交易時(shí)間,X7——近一年最大上漲率,X8——近一年最大下跌率。
模型的概率形式如下: P(Y=1|X)=
(19)
P(Y=0|X)=
(20)
這里同時(shí)給出兩種logistic回歸的建模結(jié)果,因?yàn)楹瘮?shù)解析形式有利于模型的解釋并分析實(shí)際結(jié)論,概率形式有利于樣本數(shù)據(jù)的代入和對(duì)模型的理解。由于P的取值在(0,1)上,而因變量是0-1 “開(kāi)關(guān)變量”,與SPSS軟件相一致,當(dāng)P<0.5時(shí),將概率四舍五入為0,即返回因變量值0;當(dāng)P>0.5時(shí),將概率四舍五入為1,即返回因變量值1。鑒于此,證券公司在決定是否要對(duì)客戶采取挽留措施時(shí),可以先將客戶交易數(shù)據(jù)的各項(xiàng)指標(biāo)代入式(19),計(jì)算客戶的流失概率。
進(jìn)一步,為檢驗(yàn)?zāi)P偷姆夯芰?,采用事先?zhǔn)備的樣本容量為655的測(cè)試樣本對(duì)模型進(jìn)行驗(yàn)證。泛化能力是指模型對(duì)于非樣本集的輸入,也能給出較精確的輸出結(jié)果,這是模型有效性和實(shí)用價(jià)值的重要考量。測(cè)試樣本的分類結(jié)果見(jiàn)表12。
表12 模型對(duì)測(cè)試樣本的分類
由表12可知,用本文建立的模型預(yù)測(cè)樣本外的客戶流失狀態(tài),預(yù)測(cè)精度高達(dá)99.2%,655個(gè)樣本點(diǎn)中僅有5個(gè)出現(xiàn)誤判。實(shí)際正常投資的438位客戶中有434位被預(yù)測(cè)出來(lái),有4位錯(cuò)判,正確率達(dá)到99.1%;實(shí)際流失217位客戶中有216位被預(yù)測(cè)出來(lái),有1位錯(cuò)判,正確率達(dá)到99.5%,說(shuō)明模型有很高的預(yù)測(cè)精度和強(qiáng)大的泛化能力,進(jìn)一步說(shuō)明了模型具有實(shí)際指導(dǎo)意義。下面是對(duì)模型基于證券公司業(yè)務(wù)特點(diǎn)的分析。
近一年周轉(zhuǎn)率高,說(shuō)明該客戶擁有很強(qiáng)的參與度,對(duì)證券公司的業(yè)務(wù)也傾注了大量的時(shí)間、精力,這樣的客戶自然是忠實(shí)的,該指標(biāo)的偏回歸系數(shù)為-27.985,絕對(duì)值較大,說(shuō)明其與客戶流失概率的負(fù)相關(guān)性很強(qiáng),是衡量客戶流失風(fēng)險(xiǎn)的重要指標(biāo)。近一年平均持股時(shí)間、近一年最長(zhǎng)連續(xù)無(wú)交易時(shí)間越長(zhǎng)說(shuō)明該客戶的交易活躍度越低,流失風(fēng)險(xiǎn)越大。兩指標(biāo)的偏回歸系數(shù)分別為42.45和33.411,是最大的兩個(gè)偏回歸系數(shù),表示這兩個(gè)指標(biāo)的增加會(huì)使客戶流失概率上升得非???,是證券公司需要特別關(guān)注的。
觀察可見(jiàn),近一年周轉(zhuǎn)率、近一年平均持股時(shí)間、近一年最長(zhǎng)連續(xù)無(wú)交易時(shí)間三個(gè)解釋變量的偏回歸系數(shù)絕對(duì)值都在27以上,其他4個(gè)偏回歸系數(shù)絕對(duì)值都在18以下;結(jié)合表1可知,反映客戶交易活躍度的指標(biāo)對(duì)客戶流失概率產(chǎn)生較主要的影響。
近一年最大上漲率和近一年最大下跌率是相對(duì)應(yīng)的兩個(gè)指標(biāo),可放在一起討論。兩個(gè)指標(biāo)的偏回歸系數(shù)分別為14.774、17.346,都大于0,說(shuō)明這兩個(gè)指標(biāo)與客戶流失概率正相關(guān)。對(duì)這兩項(xiàng)指標(biāo)中至少一項(xiàng)較高的客戶進(jìn)行分類討論,如下:
類別1(風(fēng)險(xiǎn)投資者):兩指標(biāo)均較高,從一個(gè)側(cè)面說(shuō)明了該客戶愿意進(jìn)行“高風(fēng)險(xiǎn),高收益”的投資。該類客戶會(huì)根據(jù)市場(chǎng)行情隨機(jī)而動(dòng),見(jiàn)風(fēng)使舵,自然不是證券公司穩(wěn)定的客戶群體。
類別2(投資行家):近一年最大上漲率較高且近一年最大下跌率較低,說(shuō)明該類客戶擁有準(zhǔn)確的知覺(jué),對(duì)政府政策和市場(chǎng)行情的脈搏有清楚地把握,是證券投資的獲利者。同時(shí),因?yàn)槠漕^腦的冷靜和理性,在一個(gè)階段的投資獲益后,明白“股市如賭場(chǎng)”,便傾向于及時(shí)撤出資金。該類投資者對(duì)行業(yè)的認(rèn)識(shí)和經(jīng)驗(yàn)平均不低于證券公司的普通管理者,所以是公司較難控制的 。
類別3(投資失利者):近一年最大下跌率較高且近一年最大上漲率較低,從一個(gè)側(cè)面說(shuō)明該客戶的擇股能力欠缺,可能是證券投資的失利者。該類客戶因?yàn)榍耙荒甑耐顿Y遭受損失,可能心灰意冷,從此逐漸退出證券投資領(lǐng)域;也可能會(huì)心生換一家公司“卷土重來(lái)”的想法。兩種情況都會(huì)導(dǎo)致該類客戶傾向于流失。
因此,對(duì)于近一年最大上漲率或近一年最大下跌率較高的客戶,證券公司應(yīng)該多加關(guān)注。至于是否采取挽留措施,對(duì)于類別1和類別2的客戶只能酌情,因?yàn)橥度氲拇鷥r(jià)和風(fēng)險(xiǎn)也是證券公司應(yīng)當(dāng)考慮的,這需要公司進(jìn)行商討和權(quán)衡;對(duì)于類別3,證券公司應(yīng)當(dāng)努力挽留,采取一定的個(gè)性化服務(wù),給予客戶投資一些幫助和指導(dǎo),對(duì)政策的頒布和市場(chǎng)行情的變化及時(shí)提醒客戶,通過(guò)人性化的服務(wù)與客戶建立“人情紐帶”,從而避免客戶流失。
近一年日均倉(cāng)位較高,說(shuō)明客戶將較大比例的投資資金用于本證券公司的投資業(yè)務(wù),按照直觀的理解,這樣的客戶應(yīng)該是比較穩(wěn)定和忠實(shí)的;然而,16.478的偏回歸系數(shù)說(shuō)明,近一年日均倉(cāng)位的提高會(huì)顯著地增加客戶的流失概率,越高的日均倉(cāng)位預(yù)示著越高的流失風(fēng)險(xiǎn),這說(shuō)明僅憑經(jīng)驗(yàn)進(jìn)行客戶流失的判斷也是容易導(dǎo)致錯(cuò)誤的。
近一年持股分散度越高,在總投資資金一定的情況下,每支股票的投入資金就越少;一位客戶越遵循“不要把雞蛋放在一個(gè)籃子里”的原則,該客戶就越可能是散戶投資者或入門(mén)投資者,這樣的投資者就越可能缺乏投資主見(jiàn),出現(xiàn)“跟風(fēng)”投資的現(xiàn)象,其流失可能性也就越高。該指標(biāo)的偏回歸系數(shù)為7.717,在7個(gè)指標(biāo)中絕對(duì)值最小,遠(yuǎn)低于反映客戶交易活躍度的3個(gè)指標(biāo),說(shuō)明它對(duì)衡量客戶流失風(fēng)險(xiǎn)較次要,證券公司只需有所關(guān)注即可。
(一)主要研究結(jié)論
結(jié)論一:針對(duì)不同的行業(yè)、數(shù)據(jù)、指標(biāo)應(yīng)該選擇相應(yīng)最好的模型去預(yù)測(cè),經(jīng)典的數(shù)據(jù)挖掘模型同樣可以取得很好的預(yù)測(cè)效果。本文采用logistic回歸預(yù)警模型研究證券公司的客戶流失問(wèn)題,取得了很高的預(yù)測(cè)精度和很強(qiáng)的算法延展性;同時(shí),經(jīng)典模型保證了結(jié)果良好的可解釋性和嚴(yán)格的理論基礎(chǔ),避免了過(guò)于繁雜的建模和計(jì)算。
結(jié)論二:對(duì)客戶流失概率影響顯著的7項(xiàng)指標(biāo)中, 僅近一年周轉(zhuǎn)率與流失概率負(fù)相關(guān),其他6項(xiàng)指標(biāo)均與流失概率正相關(guān),不同的指標(biāo)對(duì)客戶流失概率的影響程度有較大差別。反映客戶交易活躍度的指標(biāo)是證券公司實(shí)施客戶流失預(yù)警的關(guān)鍵,包括:近一年周轉(zhuǎn)率、近一年平均持股時(shí)間、近一年最長(zhǎng)連續(xù)無(wú)交易時(shí)間。
對(duì)于近一年最大上漲率、近一年最大下跌率有至少一項(xiàng)數(shù)據(jù)較高的,證券公司應(yīng)主要挽留客戶類別3(投資失利者);對(duì)于類別1(風(fēng)險(xiǎn)投資者)和類別2(投資行家)的客戶,應(yīng)該在采取挽留措施前有所權(quán)衡,避免無(wú)謂地爭(zhēng)取。近一年日均倉(cāng)位的提高會(huì)顯著地增加客戶的流失概率,與經(jīng)驗(yàn)判斷不符,需要特別注意。而近一年持股分散度對(duì)客戶流失的影響較小。
(二)對(duì)策與建議
1.由結(jié)論一可知,本文采用logistic回歸模型取得了非常理想的預(yù)測(cè)結(jié)果。近幾年來(lái),客戶流失預(yù)警領(lǐng)域的建模研究幾乎都集中在三個(gè)方向:一是組合分類器,二是對(duì)經(jīng)典模型建立改進(jìn)模型,三是獨(dú)辟蹊徑,采用以隨機(jī)森林為代表的新興方法。本文證實(shí)了單一的基于傳統(tǒng)統(tǒng)計(jì)學(xué)方法的模型在今天仍然有理論和實(shí)際的巨大價(jià)值,理想的預(yù)測(cè)精度和算法的延展性并非總需要建立盡可能復(fù)雜的模型。不僅如此,因?yàn)閭鹘y(tǒng)模型在經(jīng)濟(jì)性和可解釋性上是后續(xù)模型,如:神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、組合分類器等,不可比擬的,所以,后者沒(méi)有顯著優(yōu)勢(shì)就應(yīng)該采用前者。這一點(diǎn)是企業(yè)和研究人員特別應(yīng)該了解的。
2.在本文研究的9個(gè)客戶交易指標(biāo)中,近一年投資收益被證明對(duì)客戶流失狀態(tài)幾乎沒(méi)有影響,近一年最大上漲率、近一年日均倉(cāng)位越高,客戶越傾向于流失,否定了我們的常識(shí)。所以,建議證券公司的相關(guān)人員在判斷流失客戶時(shí)要基于客戶數(shù)據(jù)建立客觀的評(píng)價(jià)標(biāo)準(zhǔn),不能僅憑部分從業(yè)人員的經(jīng)驗(yàn)妄下斷言,否則很容易對(duì)管理人員的政策制定和調(diào)整造成誤導(dǎo),以致錯(cuò)失挽留客戶的機(jī)會(huì)。
3.針對(duì)流失風(fēng)險(xiǎn)較高的客戶,證券公司應(yīng)該根據(jù)客戶價(jià)值的高低采取不同的措施。如果是大投資者,像機(jī)構(gòu)投資者、能夠?yàn)楣編?lái)較多利潤(rùn)的職業(yè)股民、資金雄厚的散戶投資者,證券公司應(yīng)當(dāng)謀求從戰(zhàn)略上樹(shù)立公司和客戶雙贏的新型客戶關(guān)系,從戰(zhàn)術(shù)上給予足夠關(guān)懷、為他們制定個(gè)性化服務(wù),比如:大勢(shì)行情的及時(shí)傳達(dá)和分析,政策法規(guī)動(dòng)向的傳達(dá)和解讀,主動(dòng)為其推薦合適的理財(cái)產(chǎn)品,對(duì)于極端重要的客戶為其量身設(shè)計(jì)理財(cái)產(chǎn)品;如果是普通客戶,公司應(yīng)當(dāng)考慮挽留成本,見(jiàn)機(jī)行事,重在培養(yǎng)客戶對(duì)公司的情感,如:保證每一位客戶享受到較高質(zhì)量的基本服務(wù),定期采用隨機(jī)抽樣方式對(duì)客戶進(jìn)行電話回訪,適時(shí)的舉行活動(dòng)贈(zèng)送禮品回饋老客戶等。
(三)未來(lái)研究方向
1.在本文研究的基礎(chǔ)上加入反映客戶基本屬性、客戶服務(wù)情況及交易系統(tǒng)運(yùn)行質(zhì)量情況[6]的指標(biāo)參與分析和建模,這樣得到的客戶流失預(yù)警模型將使證券公司對(duì)客戶流失狀態(tài)獲得全面的把握。當(dāng)指標(biāo)的數(shù)量足夠多后,如果仍將客戶流失狀態(tài)二分劃,提倡采用支持向量機(jī)參與建模;如果將客戶流失狀態(tài)做多分劃,提倡建立組合分類器,并保證多分類logistic回歸模型作為子分類器參與建模。
2.客戶流失預(yù)警建模的前期工作可以與客戶細(xì)分、客戶價(jià)值的綜合評(píng)價(jià)相結(jié)合,這樣能為證券公司建立客戶流失預(yù)警系統(tǒng)提供更科學(xué)的建議。因?yàn)楫吘共煌蛻魧?duì)于公司的價(jià)值差異極大,并非只有將要流失的客戶才值得公司挽留,當(dāng)前穩(wěn)定投資的客戶,公司就可疏于關(guān)注和關(guān)心。
[1]仲 繼.電信企業(yè)客戶流失預(yù)測(cè)模型研究[D].西安科技大學(xué)碩士學(xué)位論文,2014.
[2]姜曉娟,郭一娜.基于改進(jìn)聚類的電信客戶流失預(yù)測(cè)分析[J].太原理工大學(xué)學(xué)報(bào),2014,44(4):532-536.
[3]王建仁,李 妮, 段剛龍.基于信息融合的電信客戶流失預(yù)測(cè)研究[J].計(jì)算機(jī)工程與應(yīng)用,2015,52(1):71-76.
[4]楊孝成.基于決策樹(shù)的移動(dòng)通信用戶流失預(yù)警模型研究與實(shí)現(xiàn)[D].中國(guó)海洋大學(xué)碩士學(xué)位論文,2014.
[5]王 卉.基于服務(wù)修復(fù)理論的證券公司客戶流失問(wèn)題[D].江西財(cái)經(jīng)大學(xué)碩士學(xué)位論文,2009.
[6]杜修平,王 中.基于決策樹(shù)的證券客戶流失模型[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(9):230-233.
[7]吳 斌.基于Logistics回歸算法的證券客戶流失預(yù)測(cè)模型及應(yīng)用[J].金融電子化,2013,11(7):65-67.[8]于彩嫻,趙治榮.銀行客戶流失預(yù)測(cè)的數(shù)學(xué)建模分析[J].長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,34(1):5-8.
[9]Verbeke W,Dejaeger K,Martens D,et al.New insights into churn prediction in the telecommunication sector:A profit driven data mining approach[J].European Journal of Operational Research,2012,218(1):211-229.
[10]柳 婷.基于數(shù)據(jù)挖掘的銀行客戶流失模型分析研究[D].重慶大學(xué)碩士學(xué)位論文,2008.
[11]陳彥光.人口與資源預(yù)測(cè)中Logistic模型承載量參數(shù)的自回歸估計(jì)[J].自然資源學(xué)報(bào),2009,24(6):1105-1114.
[12]梁 鋒.數(shù)據(jù)挖掘技術(shù)在壽險(xiǎn)客戶流失中的應(yīng)用[J].電子科學(xué)技術(shù),2015,4(1):104-107.
責(zé)任編校:陳 強(qiáng),王彩紅
Customer Churn Warning Analysis on Securities Companies Based on Logistic Model
ZHENG Yu-chen, LV Wang-yong
(School of Mathematics and Software Sciences,Sichuan Normal University,Chengdu 610011 China)
With the rapid development of China’s economy and the deepening of economic globalization, customer churn has become more important than grabbing customers for securities companies. Starting from the index reflecting the customer transactions, K-means cluster is used for obtaining customer churn state. Through 6 kinds of stepwise regression method to variable selection, a logistic customer churn warning model is set up in this paper. Moreover, the generalization ability of the model is tested and analysis based on business characteristics of securities companies' are given. The results show that:the customers' trading activity index is the key to the implementation of customer churn warning of the securities companies. Furthermore, an effective model and feasible suggestion are put forward to targeted customer retention for the securities companies.
customer churn warning model; logistic regression; data mining ; securities companies
2016-06-17
教育部人文社科規(guī)劃項(xiàng)目(12YJA630197)
鄭宇晨,男,安徽蚌埠人,碩士,研究方向?yàn)閼?yīng)用統(tǒng)計(jì)、互聯(lián)網(wǎng)金融。
10.19327/j.cnki.zuaxb.1007-9734.2016.05.014
F830.9
A
1007-9734(2016)05-0080-09
呂王勇,女, 副教授,博士,研究方向?yàn)閼?yīng)用統(tǒng)計(jì)。
鄭州航空工業(yè)管理學(xué)院學(xué)報(bào)2016年5期