郭龍飛,嚴(yán)廣樂
(上海理工大學(xué) 管理學(xué)院,上海 200093)
銀行通常運(yùn)用信用評(píng)分模型來決定是否接受一個(gè)客戶的信貸。一般采用基于客戶的經(jīng)濟(jì)狀況、能力和條件的傳統(tǒng)的判斷方法,銀行會(huì)對(duì)信用卡申請(qǐng)客戶使用信用評(píng)分模型做分類。但是,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘的新技術(shù)不斷出現(xiàn)。Python的第三方庫有更好的方法,同時(shí)支持一些新興的預(yù)測(cè)模型和分類技術(shù),如隨機(jī)森林、邏輯斯特回歸等。此外,如果是一個(gè)好的信用評(píng)分模型,它就可以幫助管理者做出更合理的選擇。本文主要是提出一種用來解決現(xiàn)有模型不適應(yīng)大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)、缺失數(shù)據(jù)等問題的信用卡申請(qǐng)人分類的模型,然后比較兩種評(píng)分模型在信用卡申請(qǐng)人分類預(yù)測(cè)中的性能表現(xiàn)。
信用評(píng)分模型是一種有監(jiān)督職能的學(xué)習(xí)模型(Supervised Learning),數(shù)據(jù)由一群自變量x和對(duì)應(yīng)的因變量y構(gòu)成。傳統(tǒng)零售信用模型中,x大致分為客戶的基本信息(年齡、性別、職業(yè)、學(xué)位等)、財(cái)務(wù)信息(收入、每月生活消費(fèi)、每月信貸還款額等)、產(chǎn)品信息(LTV、信用卡類別、個(gè)人貸款用途等)、征信信息(前6個(gè)月被查詢次數(shù)、前6個(gè)信用卡最大利用率、未結(jié)清貸款數(shù)等),而一般取值0—1因變量y可以定義為在未來12個(gè)月是否出現(xiàn)欠款90天等。信用評(píng)分模型可以將信用卡申請(qǐng)人未來的行為進(jìn)行一定程度的預(yù)測(cè),使用數(shù)值形式表示出來,可以判斷申請(qǐng)人在接下來的某時(shí)間段內(nèi)違約的幾率。
建立合適的信用評(píng)分模型。首先獲取申請(qǐng)人的個(gè)人信息和銀行提供的相關(guān)資料,接著對(duì)信息進(jìn)行數(shù)據(jù)處理,選用合適的算法,建立信用評(píng)分模型,進(jìn)行價(jià)差驗(yàn)證,得出客戶的綜合信用評(píng)分,算出一個(gè)合格的標(biāo)準(zhǔn),判定客戶是否通過申請(qǐng)。不同的指標(biāo)數(shù)據(jù)類型不一致,有的用是、否,有的用離散的數(shù)值,有的用區(qū)間段。這里我們統(tǒng)一用1,2,3等離散的數(shù)值來預(yù)處理一下。
1.隨機(jī)森林模型
隨機(jī)森林是基于統(tǒng)計(jì)理論的數(shù)據(jù)挖掘技術(shù),可以理解為是用隨機(jī)的方式建立森林,這個(gè)森林有著許多決策樹。得到森林后,輸入數(shù)據(jù),用每一棵決策樹來判斷,看看這個(gè)樣本劃分到哪一類,接下來看看哪一類被選擇得最多,就預(yù)測(cè)樣本屬于哪一類。在建立模型的過程中,需要注意的是樹的分支。假定輸入了N個(gè)樣本,那么采樣也采N個(gè)樣本。這樣的話,訓(xùn)練時(shí)每一棵決策樹的輸入樣本都不是全部的樣本,最終就不容易出現(xiàn)過擬合。最后來進(jìn)行列采樣,我們從M個(gè)特征中選擇m個(gè)(m必定要遠(yuǎn)小于M)。雖然每一棵決策樹都很弱,但是如果組合起來就很強(qiáng)大了。
2.邏輯回歸模型
邏輯回歸其實(shí)就是套用了一個(gè)邏輯函數(shù)的回歸。回歸就相當(dāng)于一個(gè)函數(shù)y=f(x),表示的是自變量x和y的關(guān)系。可以通過歷史數(shù)據(jù)對(duì)未來世界將要發(fā)生的結(jié)果進(jìn)行預(yù)測(cè)。
本文的主要研究目標(biāo)在于探討信用卡申請(qǐng)者信用評(píng)分機(jī)制,使銀行能夠建立信用風(fēng)險(xiǎn)監(jiān)控的防線。首先,從已有的很多的有關(guān)客戶背景、行為和信用的數(shù)據(jù)中,銀行能挖掘出“好客戶”和“壞客戶”的一些特征。其次,根據(jù)數(shù)據(jù)建立相應(yīng)的信用評(píng)分模型。再次,分別用不同的分類方法對(duì)數(shù)據(jù)進(jìn)行處理,得到結(jié)果,并進(jìn)行分析對(duì)比,得出最佳的信用評(píng)分模型。
具體步驟是:(1)輸入數(shù)據(jù)。把缺失值清理掉,留下的數(shù)據(jù)作為輸入數(shù)據(jù)。(2)數(shù)據(jù)標(biāo)識(shí)。原來的數(shù)據(jù)按照指標(biāo)依次分成1,2,3,4等級(jí)。目標(biāo)變量是客戶的狀態(tài),把它設(shè)置成1,2來分別表示壞客戶和好客戶。(3)劃分原數(shù)據(jù)。把數(shù)據(jù)集劃分成兩部分,即訓(xùn)練集和驗(yàn)證集,訓(xùn)練集用來訓(xùn)練模型,后者用來驗(yàn)證所建模型。(4)選擇數(shù)據(jù)挖掘方法。本文用隨機(jī)森林和邏輯回歸方法來預(yù)測(cè)。
在借鑒傳統(tǒng)評(píng)分指標(biāo)選擇的基礎(chǔ)上,選擇的個(gè)人信用評(píng)分的指標(biāo)要考慮我國(guó)的具體國(guó)情。具體指標(biāo)如下:
第一,客戶信息??蛻粜畔⒅笜?biāo)記錄了申請(qǐng)客戶個(gè)人包括年齡、受教育情況、房產(chǎn)狀況的基本信息,為銀行了解客戶的還款能力和意愿提供了一定的依據(jù)。
第二,執(zhí)業(yè)情況??蛻舻氖杖胨娇梢杂伤墓ぷ髑闆r間接顯示,可以作為考察客戶信用水平的重要指標(biāo)。
第三,經(jīng)濟(jì)能力??蛻艏彝コ蓡T收入狀況、住房位置情況、貸款與否和債務(wù)情況等,個(gè)人經(jīng)濟(jì)狀況指標(biāo)是反映貸款客戶還款能力最直接的指標(biāo)。
第四,信用狀況。包括客戶之前其他信用貸款記錄情況,這個(gè)反映了客戶的信用道德水平。
這里選擇了一些傳統(tǒng)的指標(biāo)作為特征變量,將各個(gè)特征變量按信用表現(xiàn)進(jìn)行分組,且用1,2,3等數(shù)字表示。
現(xiàn)在評(píng)分模型中共有11個(gè)變量可以作為解釋變量。另外,模型的應(yīng)變量可以表示為:Lebel=1好客戶/2壞客戶該模型用python語言實(shí)現(xiàn),從銀行內(nèi)部數(shù)據(jù)的資料中,選取了4522個(gè)數(shù)據(jù)進(jìn)行模型訓(xùn)練和檢驗(yàn),其中88.4%是“壞客戶”。選取期中3149個(gè)數(shù)據(jù)用于訓(xùn)練模型,1373個(gè)數(shù)據(jù)用于檢驗(yàn)?zāi)P汀?/p>
表1
結(jié)果如表1。
根據(jù)以上數(shù)據(jù)做出混淆矩陣如表2。
表1
表2
其中,1代表好客戶,2代表壞客戶。1311是測(cè)試集里的好客戶的個(gè)數(shù),61是壞客戶的個(gè)數(shù)。實(shí)際上是好客戶預(yù)測(cè)的也是好客戶是1188人;實(shí)際上是好客戶預(yù)測(cè)的是壞客戶是123人;實(shí)際上是壞客戶預(yù)測(cè)的是好客戶是28人;實(shí)際上是壞客戶預(yù)測(cè)的也是壞客戶是33人。
預(yù)測(cè)的準(zhǔn)確率=(1188+33)/1373*100%=88.93%
將好客戶預(yù)測(cè)為壞客戶的概率=123/1373*100%=8.96%
將壞客戶預(yù)測(cè)為好客戶的概率=28/1373*100%=2.04%
同樣的用邏輯回歸來預(yù)測(cè),用python程序建立logistic模型后得到的結(jié)果整理成混淆矩陣如表3。
預(yù)測(cè)的準(zhǔn)確率=(1050+91)/1373*100%=83.10%
表3
好客戶預(yù)測(cè)為壞客戶概率=152/1373*100%=11.07%
壞客戶預(yù)測(cè)為好客戶概率=18/1373*100%=1.31%
由結(jié)果不難發(fā)現(xiàn)隨機(jī)森林預(yù)測(cè)結(jié)果相比后者的準(zhǔn)確率是要高一點(diǎn)的。
從以上實(shí)驗(yàn)可以看出,我們的模型在將好客戶判斷為壞的客戶來說,無論是訓(xùn)練樣本還是測(cè)試樣本,隨機(jī)森林的預(yù)測(cè)精度都大于邏輯斯特回歸模型;在第二類誤判,即將壞客戶判斷為好客戶這一類,對(duì)于訓(xùn)練樣本和測(cè)試樣本來說,邏輯斯特的預(yù)測(cè)精度要大于隨機(jī)森林回歸模型??紤]實(shí)際情況,第二類誤判就是將壞客戶判定為好客戶從而接受其貸款申請(qǐng)會(huì)給銀行造成的損失更大,這是極其不好的。然而縱觀全局,從整體來說,隨機(jī)森林的整體預(yù)測(cè)精度能達(dá)到88.93%,而邏輯回歸的整體預(yù)測(cè)精度僅能達(dá)到83.10%。
綜上所述,兩種方法都可用來作為判定的模型,其中邏輯斯特回歸目前在信用評(píng)價(jià)領(lǐng)域運(yùn)用較為廣泛,而隨機(jī)森林算法是近幾年來隨著大數(shù)據(jù)技術(shù)的發(fā)展才有的比較成功的算法。從實(shí)驗(yàn)結(jié)果中還可以看出,模型的穩(wěn)健性是邏輯斯特回歸的優(yōu)點(diǎn),而缺點(diǎn)在于其預(yù)測(cè)精度不如隨機(jī)森林算法;對(duì)于后者,其模型的訓(xùn)練效果和預(yù)測(cè)精度都很好。綜上所述,本文認(rèn)為利用隨機(jī)森林算法建立信用評(píng)分模型是比較合適的方法。
在當(dāng)今社會(huì)信息爆炸的環(huán)境下,合理利用科學(xué)的大數(shù)據(jù)技術(shù)構(gòu)建合理的信用評(píng)價(jià)模型成為制約信貸行業(yè)發(fā)展的關(guān)鍵。信用評(píng)估是通過機(jī)器學(xué)習(xí)等技術(shù)建立信用評(píng)分模型,然后對(duì)信貸申請(qǐng)客戶的未來的行為進(jìn)行預(yù)測(cè),并根據(jù)客戶的各種特征變量將其劃分為“好客戶”和“壞客戶”。用這種方法做出的分類對(duì)于現(xiàn)如今的信貸的風(fēng)險(xiǎn)控制有著至關(guān)重要的作用,只要利用得當(dāng),對(duì)企業(yè)的發(fā)展會(huì)大有益處的。
[1]李卯.個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析[J].時(shí)代金融,2017,(2):295-298.
[2]任瀟,姜明輝,車凱,王尚.個(gè)人信用評(píng)估組合模型選擇方案研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2016,(5):67-71.
[3]劉武成,談超洪.基于數(shù)據(jù)挖掘的信用卡信用評(píng)分模型[J].微型機(jī)與應(yīng)用,2014,(9):73-76.
[4]蕭超武,蔡文學(xué),黃曉宇,陳康.基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J].管理科學(xué),2014,(6):111-113.
[5]張麗娜,趙敏.我國(guó)商業(yè)銀行個(gè)人信用評(píng)分指標(biāo)體系分析[J].市場(chǎng)周刊(理論研究),2007,(8):115-117.
[6]馬海英.基于神經(jīng)網(wǎng)絡(luò)及Logistic回歸的混合信用卡評(píng)分模型[J].華東理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2008,(2).
[7]Left Not Easy.機(jī)器學(xué)習(xí)中的算法——決策樹模型組合之隨機(jī)森林與GBDT[J/OL].知識(shí)天地,2016-10-10.