何黎松
(西安歐亞學(xué)院金融學(xué)院,陜西 西安 710065)
銀行客戶(hù)信用卡逾期客戶(hù)識(shí)別指的是根據(jù)銀行信用卡業(yè)務(wù)客戶(hù)的基本屬性、信用記錄,將逾期客戶(hù)和非逾期客戶(hù)識(shí)別出來(lái)。銀行信用卡逾期識(shí)別的研究文獻(xiàn)較少。周穎(2015)[1]討論了信用卡違約的責(zé)任問(wèn)題,慧梅(2015)[2]對(duì)比信用卡使用狀況和逾期行為,葛緋(2015)[3]給出了控制信用卡風(fēng)險(xiǎn)的方法,這些研究都基本處于定性分析層面。后來(lái)逐漸有學(xué)者將數(shù)據(jù)挖掘算法迅速應(yīng)用到這一商業(yè)問(wèn)題的應(yīng)用中,徐超(2016)[4]用神經(jīng)網(wǎng)絡(luò)模型對(duì)信用卡逾期風(fēng)險(xiǎn)做出了研究識(shí)別;張秋菊(2018)[5]使用BP神經(jīng)優(yōu)化算法對(duì)信用卡還款風(fēng)險(xiǎn)做了評(píng)估研究,但是單個(gè)的分類(lèi)模型往往準(zhǔn)確度不高。
本文從集成學(xué)習(xí)方法入手,集成邏輯回歸、判別分析、決策樹(shù)和神經(jīng)網(wǎng)絡(luò)模型,對(duì)某商業(yè)銀行的信用卡客戶(hù)逾期行為進(jìn)行識(shí)別,以提高總體的預(yù)測(cè)精度。
本文數(shù)據(jù),來(lái)自某商業(yè)銀行脫敏后的2016年客戶(hù)信用信息作為數(shù)據(jù)。
分析變量共15個(gè),其中將性別、年齡、婚姻狀況、學(xué)歷、職業(yè)、職務(wù)、司齡、個(gè)人住房貸款筆數(shù)、貸款筆數(shù)、貸記卡賬戶(hù)數(shù)、貸記卡授信總額、貸記卡單家最高授信額度、貸記卡單家最低授信額度、貸記卡已用額度共14個(gè)變量作為輸入變量進(jìn)行分析,是否逾期作為目標(biāo)變量進(jìn)行分析。
1、邏輯回歸
邏輯回歸原理與多元回歸類(lèi)似,只不過(guò)其因變量Y取值為二元的“0”和“1”,或者多元的取值;二分類(lèi)得更為常用,也更容易解釋。通過(guò)對(duì)自變量和因變量建立回歸方程,借助方程預(yù)測(cè),從而實(shí)現(xiàn)分類(lèi)功能。實(shí)際中最為常用的就是二分類(lèi)的logistic回歸。邏輯回歸在處理自變量為數(shù)值型時(shí)效果較好,自變量為分類(lèi)變量時(shí),效果有時(shí)不佳。
2、判別分析
判別分析是分類(lèi)模型的一種,算法較為簡(jiǎn)單:距離算法,函數(shù)轉(zhuǎn)化;距離算法近似于聚類(lèi),通過(guò)計(jì)算每類(lèi)中心點(diǎn)和新元素的距離,以距離遠(yuǎn)近判斷其歸屬類(lèi)別;矩陣轉(zhuǎn)換和函數(shù)擬合近似于回歸,根據(jù)自變量和因變量建立判別函數(shù),從而實(shí)現(xiàn)對(duì)新的變量的預(yù)測(cè)分類(lèi)。
3、決策樹(shù)
決策樹(shù)是數(shù)據(jù)挖掘算法興起之后的分類(lèi)模型,分類(lèi)結(jié)果近似計(jì)算機(jī)的 if else 形式,通過(guò)算法,生成樹(shù)狀的分類(lèi)節(jié)點(diǎn)。算法擬合是,每個(gè)分類(lèi)對(duì)應(yīng)著一個(gè)預(yù)測(cè)準(zhǔn)確度,通過(guò)對(duì)準(zhǔn)確度優(yōu)化,找到最近的分類(lèi)規(guī)則。決策樹(shù)算法不斷發(fā)展,常見(jiàn)的有決策樹(shù),CHAID,QUESTION,C5.0等等。決策樹(shù)的結(jié)果解讀性高,在現(xiàn)代商業(yè)應(yīng)用較多;但是在數(shù)據(jù)中存在干擾信息時(shí),分類(lèi)效果往往不好。
4、神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是近年來(lái)比較熱門(mén)的分類(lèi)模型,其思路是:在輸入變量X和輸出變量Y之間設(shè)定函數(shù)框架,框架中放有激活函數(shù),這些激活函數(shù)包括:Sigmoid,tanh,ReLU等等。變量輸入進(jìn)來(lái),函數(shù)激活,獲得輸出,與實(shí)際輸出對(duì)比,根據(jù)差距(損失),機(jī)器自動(dòng)返回去調(diào)節(jié)函數(shù)權(quán)重,如此反復(fù)迭代,最終獲得擬合度很好的、可用的函數(shù)框架。神經(jīng)網(wǎng)絡(luò)因其層數(shù)不同、激活函數(shù)組培不同、試錯(cuò)修正方式不同,有很多分類(lèi),且隨層數(shù)加深,函數(shù)豐富,而在逐漸發(fā)展,目前已有的模型包括簡(jiǎn)單的徑向基函數(shù)、多層感知器,深層的DNN、LSTM、HMM等等,且在不斷復(fù)雜化。神經(jīng)網(wǎng)絡(luò)具有非線(xiàn)性,局部自洽等特點(diǎn),整體復(fù)雜而難以描述,在現(xiàn)代語(yǔ)音、圖像識(shí)別中使用廣泛。
集成學(xué)習(xí)的思想是:當(dāng)一個(gè)分類(lèi)模型效果不好時(shí),可以使用多個(gè)分類(lèi)模型分別用于分類(lèi),最后將多個(gè)結(jié)果結(jié)合在一起,以投票,少數(shù)服從多數(shù)的機(jī)制,集成獲得結(jié)果。有時(shí)候往往會(huì)取得比單個(gè)分類(lèi)模型更好的效果。
分別用邏輯回歸、判別分析、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行模型訓(xùn)練,預(yù)測(cè)結(jié)果如表1。
表1 單個(gè)分類(lèi)模型分類(lèi)效果表
結(jié)果表明,對(duì)本文的銀行客戶(hù)風(fēng)險(xiǎn)識(shí)別問(wèn)題,分類(lèi)效果最好的是邏輯回歸,其次是神經(jīng)網(wǎng)絡(luò),決策樹(shù),盤(pán)被分析結(jié)果最差。
將四個(gè)分類(lèi)模型,三三組合,共四種,利用其預(yù)測(cè)結(jié)果,表決獲得最終預(yù)測(cè)結(jié)果,規(guī)則是:少數(shù)服從多數(shù),當(dāng)超過(guò)兩個(gè)預(yù)測(cè)為1時(shí),結(jié)果為1;超過(guò)兩個(gè)預(yù)測(cè)為0時(shí),結(jié)果為0。將綜合的預(yù)測(cè)結(jié)果和實(shí)際值比較,計(jì)算預(yù)測(cè)準(zhǔn)確度,得到表2。
表2 集成學(xué)習(xí)準(zhǔn)確度表
結(jié)果表明,集成學(xué)習(xí)的準(zhǔn)確度,基本上都達(dá)到86%以上,最高的超過(guò)了90%,總的來(lái)看,預(yù)測(cè)效果明顯地獲得了提升。如果選擇神經(jīng)網(wǎng)絡(luò)、判別分析、邏輯回歸集成三個(gè)模型作為最后的集成模型,模型效果為90.7%,比每個(gè)單個(gè)分類(lèi)模型的準(zhǔn)確度都高。
本文以集成學(xué)習(xí)思想,集成邏輯回歸、判別分析、決策樹(shù)、神經(jīng)網(wǎng)絡(luò),對(duì)商業(yè)銀行信用卡逾期行為進(jìn)行分類(lèi)識(shí)別。結(jié)果表明,集成的分類(lèi)模型,基本上都達(dá)到86%以上,最高的超過(guò)了90%,比單個(gè)的分類(lèi)模型具有更好的分類(lèi)識(shí)別效果。集成多個(gè)分類(lèi)模型預(yù)測(cè)分類(lèi)的思路,可用于商業(yè)應(yīng)用中。