(廣東電網(wǎng)有限責(zé)任公司, 廣州 510160)
由于近年來國內(nèi)金融行業(yè)的迅猛發(fā)展,伴隨著我國經(jīng)濟(jì)的急速飛騰,銀行業(yè)務(wù)蓬勃發(fā)展。信貸業(yè)務(wù)是銀行的主流業(yè)務(wù)之一,但是如何評價借款人的信用風(fēng)險已經(jīng)成為當(dāng)今互聯(lián)網(wǎng)金融行業(yè)的熱門課題之一,日益受到當(dāng)代人的注意。
銀行客戶信用風(fēng)險評估問題其本質(zhì)為一個分類為題,也就是將現(xiàn)有的銀行用戶劃分為信譽(yù)用戶與非信譽(yù)用戶的過程。從其發(fā)展歷程來看,大致可以分為3個階段,樸素分析階段、概率分析階段、人工智能階段[1]。樸素分析階段主要為概率學(xué)應(yīng)用于經(jīng)濟(jì)領(lǐng)域之前的所有銀行借貸階段;
概率階段是指概率學(xué)運(yùn)用到銀行金融領(lǐng)域開始直到人工智能在金融領(lǐng)域應(yīng)用而結(jié)束[2],此階段在我國主要是指上個世紀(jì)五十年代本世紀(jì)初。
第三階段也就是現(xiàn)階段,主要是指人工智能在信用評估中的應(yīng)用,此階段從本世紀(jì)初開始直到現(xiàn)在[3]。
從國際角度講,消費(fèi)者的信用評分美國的理論以及實(shí)際最為具有參考價值,其中例如Equifax公司[4],該公司每天可以提供數(shù)百萬份的消費(fèi)者信用分析報告。
同時從信貸領(lǐng)域?qū)ⅲ绹刨J業(yè)務(wù)發(fā)展較為成熟,以上個世紀(jì)七十年代為例,美國信用卡發(fā)展達(dá)到了極致,甚至有的銀行為了搶占市場,直接將信用卡寄到相應(yīng)的用戶家中。
另一方面,從風(fēng)險控制角度講,風(fēng)險控制可以分為主動風(fēng)險控制以及被動風(fēng)險控制兩種,被動風(fēng)險控制一般是指,信貸客戶違約后進(jìn)行的催收行為;主動風(fēng)險控制則是通過事先的機(jī)制確立客戶是否有償還能力以及償還意愿[5]。
在我國,由于征信體系與2013年才開始正式推動以及建立,因此,在此領(lǐng)域?qū)儆谄鸩捷^晚的國家之一,對于現(xiàn)代交易環(huán)境而言,信用體系是一種建立在客戶穩(wěn)定償還能力上的不用立即支付即可享有相應(yīng)服務(wù)的行為。故風(fēng)險預(yù)測是銀行發(fā)放貸款的重要參考之一[6]。
文獻(xiàn)法:本文利用圖書館、網(wǎng)絡(luò)以及數(shù)字圖書館等資源,搜集關(guān)于金融以及機(jī)器學(xué)習(xí)的相關(guān)資料相關(guān)資料,調(diào)查機(jī)器學(xué)習(xí)在金融領(lǐng)域應(yīng)用的的相關(guān)理論,為本文寫作提供理論基礎(chǔ)。
實(shí)例分析法:根據(jù)模型,對于實(shí)際情況進(jìn)行模擬以及分析,通過對于實(shí)際情況的模擬,說明論文的合理性。為該機(jī)器學(xué)習(xí)算法提供現(xiàn)實(shí)基礎(chǔ)。
論證法:對于本文用到的相關(guān)算法以及部分公式給出推到過程,為本文研究提供數(shù)據(jù)支撐。
將判斷客戶是否有潛在違約風(fēng)險的數(shù)據(jù)分為兩個類型,一個為靜態(tài)數(shù)據(jù)類型,其主要包含用戶基本情況以及用戶檢測量表;另一類為動態(tài)數(shù)據(jù),其主要包含客戶的銀行信息記錄(如流水信息,基本信用信息),第三方支付記錄等。其中動態(tài)信息隨著客戶的時時狀態(tài)而發(fā)生改變,其具體情況如表1所示。
表1 相關(guān)數(shù)據(jù)資料表
用戶向相關(guān)金融機(jī)構(gòu)申請貸款時,需提交自己相關(guān)信息,相關(guān)平臺利用用戶提供的信息進(jìn)行建模。如果相關(guān)信息缺失,則通過清洗或者變換的形式將所有信息補(bǔ)充完整。此過程預(yù)計占用整個工作流程的80%以上的時間,因?yàn)檎麄€數(shù)學(xué)模型的基礎(chǔ)建立在正確的數(shù)據(jù)處理上,如果相關(guān)數(shù)據(jù)失真,那么整個機(jī)器學(xué)習(xí)進(jìn)行的最終判定也將會失真。
1)回歸算法
自從高斯提出最小二乘法以來,回歸分析的應(yīng)用也越來越為廣泛,在我們?nèi)粘5纳铑I(lǐng)域,基本上很難找不用它的領(lǐng)域。自從1969年設(shè)立諾貝爾經(jīng)濟(jì)學(xué)獎以來,大部分的獲獎?wù)叨际墙y(tǒng)計學(xué)家、數(shù)學(xué)家或者計量學(xué)家,獲獎成果也大多與回歸分析相關(guān)。
從理論角度看,回歸分析大致可以分為三個階段即理論模型構(gòu)建、數(shù)據(jù)采集階段、參數(shù)估計與模型校驗(yàn)階段以及模型應(yīng)用階段。
本次研究,根據(jù)數(shù)據(jù)特點(diǎn),可以選用比較成熟的的回歸算法:帶虛擬變量的回歸模型最為本次模型構(gòu)建。為式(1)。
Y=α1+α2D2i+α3D3i+…+αnDni+βXi+εi
(1)
其中D為虛擬變量,可以表示性別學(xué)歷等相關(guān)信息,例如D2可以表示性別,當(dāng)D2=1時,定義為女性;當(dāng)D2=0時定義為男性。
2)GBDT算法
本次設(shè)計采用機(jī)器學(xué)習(xí)算法中比較常見的GBDT算法,其基礎(chǔ)原理為迭代法。具體實(shí)施為在迭代過程中,通過改變樣本的權(quán)重,學(xué)習(xí)多個分類其,并且將其進(jìn)行線性組合,從而提升算法的準(zhǔn)確率。
GBDT算法是集成學(xué)習(xí)算法Boosting下的一個分支學(xué)習(xí)算法,與傳統(tǒng)學(xué)習(xí)算法(如Adaboost算法)不同的是,GBDT算法使用向前分布算法,并且使用CATR回歸樹模型進(jìn)行相關(guān)的學(xué)習(xí)[7]。
其基礎(chǔ)原理為,假設(shè)f(x)表示學(xué)習(xí)器的相關(guān)函數(shù),則ft-1(x)表示前一輪得到的強(qiáng)學(xué)習(xí)器,則損失函數(shù)以L(y,ft-1(x))表示,那么最終該算法的目標(biāo)為,找到弱學(xué)習(xí)器ht(x)使得損失函數(shù)L(y,ft-1(x))=L(y,ft-1(x)+ht(x))最小。
舉例來說,假設(shè)銀行有100個實(shí)際違約客戶,首先用80個去擬合,發(fā)現(xiàn)漏掉20個,這時用12個去擬合剩下的人員,發(fā)現(xiàn)還差8個,隨后繼續(xù)用8個擬合,知道差距越來越小,每次擬合過程中,都會逐步逼近真實(shí)數(shù)據(jù),誤差逐漸減小[9]。
3)算法比較
比較帶虛擬變量的回歸算法與GBDT兩種算法,可以看出回歸算法的優(yōu)勢在于模型建立簡單方便,同時根據(jù)銀行所搜集到的數(shù)據(jù)可以更為方便的增加或者減少相關(guān)參數(shù)(即D值),另一方面,從理論角度講,只要參數(shù)選擇合理,數(shù)據(jù)充足回歸算法可以精確的預(yù)測出客戶的信用等級,對原始數(shù)據(jù)要求較高。
相比于回歸算法,GBDT算法相對復(fù)雜,但是對于原始數(shù)據(jù)的要求較低。在科學(xué)研究時,一般能夠用簡單方法解決問題時,盡量不用復(fù)雜方法但是在實(shí)際應(yīng)用中,銀行因?yàn)楝F(xiàn)實(shí)因素,搜集到的客戶信息往往并非十分確切,所以最終根據(jù)銀行提供的數(shù)據(jù)情況來看,選擇后者GBDT算法建立本次模型。
本文采用的基本機(jī)器學(xué)習(xí)的具體算法為:設(shè)集體樣本為最大迭代次數(shù)N,損失函數(shù)L。最終輸出的學(xué)習(xí)器為,f(x)。
則初始學(xué)習(xí)器表示為式(2)。
迭代后(N=1,2,3,4,…,N)有:
1)對于樣本i=1,2,3,…,m的負(fù)梯度計算為式(3)。
(3)
2)利用CART回歸樹,得到第N顆回歸樹且對應(yīng)的子節(jié)點(diǎn)區(qū)域?yàn)椋琂表示對應(yīng)回歸樹的葉子節(jié)點(diǎn)個數(shù)。
3)對于葉子區(qū)域計算最佳擬合值。
4)升級版學(xué)習(xí)器為式(4)。
(4)
故可以得到最終的學(xué)習(xí)器f(x)表達(dá)式為式(5)。
(5)
用戶分類,根據(jù)客戶信息以及相關(guān)算法信息,可以將客戶劃分為4個類別:
1)本身是信譽(yù)客戶,模型判斷也為信譽(yù)客戶,記作TN
2)本身是信譽(yù)客戶,模型判斷為非信譽(yù)客戶,記作FP;
3)本文為非信譽(yù)客戶,但是模型判斷為信譽(yù)客戶記作作FN
4)本身是非信譽(yù)客戶,模型判斷也為非信譽(yù)客戶記作TP。
其具體劃分如下表2所示。
表2 用戶類型分類表
故據(jù)此可以計算該模型的準(zhǔn)確率TPR:
模型錯誤率FPR:
故現(xiàn)有基本特征如下的銀行客戶樣本:
1)如果用戶信用記錄有超過60天逾期行為,則記作Y=1;否則記作Y=0;如某銀行內(nèi)有50 000名客戶,而逾期的用戶為3 000名,且3 000名非信譽(yù)用戶符合隨機(jī)分布原則。
2) 用戶信息:特征時間主要包含用戶所有的動態(tài)信息,其中包含前文提及的銀行流水記錄以及金融信息記錄。同時也包含用戶檢測3個量表的相關(guān)結(jié)果均已經(jīng)處理齊全。
方案A,將所有貸款申請用戶平均分為10組,每組5 000人,且每組包含300個非信譽(yù)客戶;
方案B,根據(jù)模型可以計算的用戶違約概率,將每個用戶違約的概率記作P,則根據(jù)P值,將客戶從大到小順序,然后分成十個組,每組5 000人。顯然十組中,靠后的分組里,信譽(yù)用戶明顯占優(yōu)更多比例,而非信譽(yù)客戶則在第一種最多。故此時只要尋找到,P值的分界點(diǎn),即可確立最終的放款條件。其具體數(shù)據(jù)如表3所示。
表3 隨機(jī)風(fēng)控模型對比表
將A、B兩組每一組的非信譽(yù)客戶的所占比重繪制成提升圖,如圖1所示。
圖1 提升圖
從圖中可以看出,方案B中,每組的非信譽(yù)客戶人數(shù)在逐步遞減,則該模型具有一定的現(xiàn)實(shí)意義,模型有效。
此時再根據(jù)前文提到的模型準(zhǔn)確率(FPR)以及模型錯誤率(TPR)相關(guān)概念,由于模型計算結(jié)果以及真實(shí)結(jié)果均為已知,故可以輕松算得FPR,TPR兩個參數(shù)。故以FPR為橫軸,TPR為縱軸繪制ROC曲線。如圖2、圖3所示。
根據(jù)洛倫茲曲線的判定公式,此時選用ROC曲線常用衡量性能指標(biāo)AUC來表示,AUC曲線通過計算ROC曲線下面積而求得,一般來說,AUC的值在0~1之間,本文中顯然方案A的AUC值為,0.5;而方案B的AUC通過計算可以得知,其值為0.74.一般來說,一個模型AUC值要大于0.5才會具有實(shí)際效果,AUC值在0.7~0.9之間則被認(rèn)為是一個優(yōu)秀模型;AUC高于0.9,則認(rèn)為該模型有異常變量進(jìn)入,導(dǎo)致AUC過高。
圖2 方案A ROC曲線
圖3 方案B ROC曲線
而本次模型的最終AUC值為0.74,故符合相關(guān)要求,屬于優(yōu)秀模型范疇。
本文針對互聯(lián)網(wǎng)金融行業(yè)的信用風(fēng)險問題,利用機(jī)器學(xué)習(xí)算法構(gòu)建了一個信用風(fēng)險預(yù)測模型,該模型的創(chuàng)新點(diǎn)在于首先數(shù)據(jù)處理方面,除了應(yīng)用傳統(tǒng)的用戶基本信息、銀行流水記錄、金融信息記錄外,還引入了用戶用戶檢測量表的相關(guān)數(shù)據(jù),次量表評定標(biāo)準(zhǔn)以及在模型中所占比重只有系統(tǒng)以及銀行系統(tǒng)以及高層管理人員掌握,從一定程度上避免了人為因素對于放款的影響。由于此部分不是本文重點(diǎn),故不做詳細(xì)說明。
機(jī)器學(xué)習(xí)方面,本文選用傳統(tǒng)的GBDT算法,對于用戶的違約概率進(jìn)行預(yù)測,最后通過相關(guān)實(shí)例進(jìn)行說明。
但是由于筆者能力有限,文章亦有一定的局限性,例如論文實(shí)例部分假設(shè)過于理想化,所有數(shù)據(jù)均已處理完善,但是實(shí)際情況可能會出現(xiàn)相應(yīng)的數(shù)據(jù)不足,需要進(jìn)行缺失數(shù)據(jù)的處理,由于篇幅有限并未給出相關(guān)算法。