【摘" 要】當(dāng)前互聯(lián)網(wǎng)經(jīng)濟(jì)迅速發(fā)展,網(wǎng)絡(luò)信貸規(guī)模不斷擴(kuò)大,貸前識(shí)別作為網(wǎng)貸平臺(tái)風(fēng)控的重要一環(huán),也成為大家研究的熱點(diǎn)問(wèn)題。論文將集成學(xué)習(xí)算法XGBoost應(yīng)用于識(shí)別客戶貸前逾期風(fēng)險(xiǎn)的問(wèn)題,選取P2P平臺(tái)LendingClub數(shù)據(jù)庫(kù)中2019年的貸款記錄為研究樣本,選取12個(gè)變量構(gòu)建貸前預(yù)測(cè)模型,并引入了SHAP解釋框架對(duì)模型進(jìn)行可視化表達(dá),并將最終的結(jié)果與XGBoost模型輸出的特征重要性作比較,進(jìn)一步對(duì)模型結(jié)果進(jìn)行解釋,可以幫助貸款平臺(tái)更好地進(jìn)行客戶貸款風(fēng)險(xiǎn)判斷,從而降低逾期風(fēng)險(xiǎn)。
【關(guān)鍵詞】貸前逾期預(yù)測(cè);機(jī)器學(xué)習(xí);XGBoost;SHAP解釋框架
【中圖分類號(hào)】F830.5;F713.36" " " " " " " " " " " " " " " " " " " " " " "【文獻(xiàn)標(biāo)志碼】A" " " " " " " " " " " " " " " " " " " " " " " " "【文章編號(hào)】1673-1069(2024)02-0050-03
1 引言
隨著經(jīng)濟(jì)社會(huì)的發(fā)展,我國(guó)信用貸款市場(chǎng)規(guī)模不斷擴(kuò)大,P2P網(wǎng)貸模式日益興起。對(duì)于網(wǎng)貸平臺(tái),風(fēng)控非常重要,而貸前逾期識(shí)別又是風(fēng)控中的關(guān)鍵環(huán)節(jié),因此對(duì)于網(wǎng)貸平臺(tái)而言,信貸逾期預(yù)測(cè)模型的重要性不言而喻。
構(gòu)建預(yù)測(cè)模型的方法主要有兩類:一類是運(yùn)用統(tǒng)計(jì)分析的方法,如線性回歸[1]、Logistics回歸[2];另一類是基于機(jī)器學(xué)習(xí)構(gòu)建模型,如決策樹[3]、支持向量機(jī)[4]等。與這些單一分類器相比,Chen et al.[5]推出了集成式機(jī)器學(xué)習(xí)算法XGBoost,該算法是在GBDT的基礎(chǔ)上將梯度提升樹模型進(jìn)一步優(yōu)化,在回歸與分類問(wèn)題上都有很好的表現(xiàn)[6]。在此之后,XGBoost被廣泛運(yùn)用于各個(gè)領(lǐng)域。
當(dāng)前流行的集成式機(jī)器學(xué)習(xí)算法,雖然大大提高了預(yù)測(cè)能力,但模型的可解釋性也越來(lái)越差,被稱為“黑盒”。為了更好地解釋機(jī)器學(xué)習(xí)模型的輸出,Lundberg et al.[7]介紹了SHAP解釋框架的原理,SHAP主要將博弈論和局部解釋結(jié)合起來(lái)。Ribeiro et al.[8]提出了解釋技術(shù)LIME,主要通過(guò)局部學(xué)習(xí)來(lái)解釋模型,它可以為任意的模型提供解釋。
綜上所述,本文以LendingClub數(shù)據(jù)庫(kù)中2019年的貸款記錄為樣本,選擇XGBoost算法,構(gòu)建貸前逾期預(yù)測(cè)模型,同時(shí)引入SHAP解釋框架,更好地分析影響用戶逾期的主要因素。
2 XGBoost模型介紹
XGBoost的全稱是極度提升樹(eXtreme Gradient Boosting),是一種基于決策樹的分布式高效梯度提升算法,其基本思想是將幾個(gè)弱分類器進(jìn)行組合形成一個(gè)強(qiáng)的學(xué)習(xí)器,用迭代的方法降低犯錯(cuò)的概率。
2.1 模型函數(shù)表達(dá)
假設(shè)所給的數(shù)據(jù)集共有n個(gè)樣本,m個(gè)特征,每個(gè)樣本有唯一對(duì)應(yīng)的標(biāo)簽y,則定義數(shù)據(jù)集D={(xi,yi)},D=n。其中xi=[xi1,xi2,…,xim]是m維數(shù)組,表示第i個(gè)樣本的m個(gè)特征,yi為第i個(gè)樣本對(duì)應(yīng)的標(biāo)簽。假設(shè)該模型共需迭代K次,則目標(biāo)函數(shù)如下:
2.2 目標(biāo)函數(shù)優(yōu)化
在梯度提升算法的迭代中,每一次迭代會(huì)生成一個(gè)弱分類器(即一棵決策樹),假設(shè)當(dāng)前為第t次迭代,此時(shí)目標(biāo)函數(shù)是L■,則L■是由前t-1次迭代的結(jié)果與第t次迭代引入的決策樹ft(x)計(jì)算所得。迭代過(guò)程如下:
我們的目標(biāo)是要使得預(yù)測(cè)值盡量接近真實(shí)值y,那么本次迭代的目標(biāo)是找到一個(gè)決策樹模型ft(x)使本輪的目標(biāo)函數(shù)L[y,ft(xi)]最小。目標(biāo)函數(shù)可記為:
其中,目標(biāo)函數(shù)的值越小,就代表這個(gè)樹的結(jié)構(gòu)越好,只要能夠確定樹結(jié)構(gòu),就可以求得該結(jié)構(gòu)下的最優(yōu)值。
為了確定當(dāng)前根節(jié)點(diǎn),首先要找到具有最大損失增益的特征節(jié)點(diǎn)作為當(dāng)前的根節(jié)點(diǎn),在當(dāng)前根節(jié)點(diǎn),把樣本集一分為二,得到兩個(gè)子節(jié)點(diǎn)樣本集;再分別對(duì)兩個(gè)子節(jié)點(diǎn)集合,重復(fù)上述過(guò)程,直到達(dá)到分裂的停止條件,即可完成第棵樹的生成。在每棵樹生成后,將其加入原有模型中,并根據(jù)上述規(guī)則不斷迭代,最終完成整個(gè)模型的構(gòu)建。
3 SHAP解釋框架介紹
SHAP是解決模型可解釋性的一種方法。假設(shè)第i個(gè)樣本的第j個(gè)特征取值為xi,j,機(jī)器學(xué)習(xí)模型對(duì)第i個(gè)樣本的預(yù)測(cè)值是■i,模型的基礎(chǔ)值是?準(zhǔn)0,xi,j的Shapley值是?準(zhǔn)i,j,那么有下述等式成立:
其中,f(xi)是機(jī)器學(xué)習(xí)模型對(duì)樣本xi的預(yù)測(cè)值,F(xiàn)是解釋函數(shù),?準(zhǔn)i,j ∈R是第i個(gè)樣本,第j個(gè)特征取值xi,j的Shapley值,z'i,j∈{0,1}m是特征組合向量,輸入1表示相應(yīng)的特征值存在,輸入0表示相應(yīng)的特征值不存在。對(duì)于樣本xi,第j個(gè)特征值xi,j的Shapley值?準(zhǔn)i,j的計(jì)算,滿足下面的公式:
4 實(shí)證分析
4.1 數(shù)據(jù)來(lái)源
本文使用LendingClub庫(kù)中2019年的貸款記錄,利用XGBoost構(gòu)建貸款違約預(yù)測(cè)模型。原始數(shù)據(jù)共518 125個(gè)樣本,將loan_status作為標(biāo)簽,其余列作為變量。
數(shù)據(jù)庫(kù)中的原始特征冗余繁雜,經(jīng)過(guò)特征工程之后選取12個(gè)特征來(lái)作為入模特征,如表1所示。
4.2 構(gòu)建模型
數(shù)據(jù)集中共有518 125個(gè)樣本,將loan_status作為標(biāo)簽,將“Fully Paid”標(biāo)記為好樣本,“Charged Off、Late(31~120 days)、In Grace Period、Late(16~30 days)、Default”標(biāo)記為壞樣本,總樣本有134 548個(gè),其中好樣本97 048個(gè),壞樣本37 500個(gè),好壞樣本比例約為3∶1。
將總樣本的80%劃分為訓(xùn)練集,20%劃分為測(cè)試集。通過(guò)訓(xùn)練得到最優(yōu)的XGBoost模型,模型指標(biāo)如表2所示。
將K-S值作為模型區(qū)分能力的指標(biāo),其值越大代表模型的區(qū)分性越好。AUC值越大說(shuō)明模型的效果越好。
5 模型解釋
5.1 特征重要性分析
通過(guò)對(duì)上面SHAP和XGBoost指標(biāo)重要性順序?qū)Ρ?,可以明顯看出SHAP的前12項(xiàng)和XGBoost的前12項(xiàng)共同指標(biāo)有很多。
5.2 SHAP值的解釋框架
SHAP框架下各變量的影響分析如圖3所示。圖3中顯示了前12個(gè)變量對(duì)模型影響效果,此圖客觀地展現(xiàn)了各變量由大到小變化對(duì)SHAP的影響。例如,變量last _fico_ range_low線條有黑色變?yōu)榛疑琒HAP Value由正到負(fù),表示隨著數(shù)值增大,變量對(duì)模型預(yù)測(cè)的負(fù)向效果越明顯,即該樣本貸前預(yù)期風(fēng)險(xiǎn)越低。
5.2.1 單變量影響下的SHAP值
為了更直觀得到各變量到SHAP值的影響關(guān)系,繪制各變量對(duì)SHAP值影響圖(見圖4、圖5)。圖4表明隨著installment數(shù)值增大,SHAP值也越來(lái)越大,違約風(fēng)險(xiǎn)相應(yīng)增加,并且當(dāng)installment數(shù)值大于600時(shí),SHAP值為正,對(duì)模型預(yù)測(cè)為正向效果并趨于穩(wěn)定。如圖5所示,last _fico_ range_low數(shù)值大多分布在500~900,且隨著last _fico_ range_low值的增加SHAP整體上呈現(xiàn)下降趨勢(shì),且當(dāng)
last _fico_ range_low值小于600時(shí),SHAP值為正,對(duì)模型起正向影響,貸前預(yù)期風(fēng)險(xiǎn)越高;當(dāng)last _fico_ range_low值大于600時(shí),SHAP值為負(fù),對(duì)模型起負(fù)向影響,貸前預(yù)期風(fēng)險(xiǎn)越低。
圖6展示此樣本中每個(gè)特征的各自貢獻(xiàn),將模型基礎(chǔ)SHAP值-1.0推到最終的-3.19lt;0,因此該樣本是一個(gè)好樣本。樣本中將預(yù)測(cè)值推高特征用灰色表示,推低的用黑色表示。灰黑交界處從右到左灰色特征為term=1.0,int_rate=22.0,installment=781.0,這3個(gè)特征對(duì)模型起較大的正向影響效果,灰黑交界處從左到右黑色特征為last_fico_range_low=715.0,last_fico_range_high=679.0,這兩個(gè)特征對(duì)模型起較大負(fù)向影響效果,所有特征的SHAP值之和為,利用公式(11)得到樣本的模型概率為0.040。
6 結(jié)論
本文使用LendingClub庫(kù)中的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)篩選,最終選用12個(gè)特征入模,通過(guò)XGBoost模型得到了變量特征重要性排序,但是并不清楚各個(gè)特征是如何影響模型。SHAP能夠清楚反映單個(gè)變量變化對(duì)SHAP值的影響,最重要的SHAP能對(duì)樣本進(jìn)行量化分析,能夠直觀得到樣本中每個(gè)特征的SHAP值,從而對(duì)樣本進(jìn)行好壞評(píng)判,可以對(duì)黑盒模型進(jìn)行解釋。
【參考文獻(xiàn)】
【1】BERGER S C,GLEISNER F.Emergence of financial interme-diariesin electronic markets: the case of online P2P lending[J].Business Research,2010,2(1):39-65.
【2】Hand D J,KeHy M G.Superscorecards[J].Ima Journal ofManagement Mathematics,2018,13(4):273-281.
【3】沈玉溪,徐浩.P2P網(wǎng)貸借款人違約風(fēng)險(xiǎn)評(píng)估——基于決策樹的研究[J].經(jīng)營(yíng)與管理,2018(9):13-15.
【4】曾玲玲,潘霄,葉曼.基于BP-KMV模型的非上市公司信用風(fēng)險(xiǎn)度量[J].財(cái)會(huì)月刊,2017(6):47-55.
【5】Chen T , Guestrin C . XGBoost: A Scalable Tree Boosting System[J]. Knowledge Discovery and Data Mining,2016:785-794.
【6】Friedman J H.Greedy Function Approximation:A Gradient Boosting Machine[J].AnnalS of Statistics,2001,29(5):1189-1232.
【7】Lundberg S M,Lee S I.Consistent feature attribution for tree ensembles[J].Human Interpretability in Machine Learning,2017:31-38.
【8】Ribeiro M T , Singh S , Guestrin C .\"Why Should I Trust You?\": Explaining the Predictions of Any Classifier[J].ACM,2016.