◆張麗娟
(安徽大學(xué)經(jīng)濟(jì)學(xué)院 安徽 230601)
隨著經(jīng)濟(jì)的發(fā)展和個(gè)人消費(fèi)觀念的改變,信貸業(yè)務(wù)逐漸進(jìn)入人們的日常生活,在商業(yè)銀行以及很多金融機(jī)構(gòu)中都是一項(xiàng)重點(diǎn)發(fā)展的業(yè)務(wù),信用風(fēng)險(xiǎn)分析在信貸行業(yè)至關(guān)重要,信貸機(jī)構(gòu)對借款人的還款能力和還款意愿進(jìn)行評(píng)估,判斷是否對借款人進(jìn)行貸款發(fā)放以及借貸金額和貸款期限,這有利于信貸平臺(tái)有效地減少潛在的風(fēng)險(xiǎn)。機(jī)器學(xué)習(xí)中的一些算法例如邏輯回歸,決策樹,隨機(jī)森林等都被應(yīng)用于個(gè)人信用評(píng)估中,但是在數(shù)據(jù)集的維度較復(fù)雜時(shí),這些算法如果不能進(jìn)行很好的特征選擇和特征組合,且不能很好的處理一些敏感信息,那么模型的預(yù)測準(zhǔn)確率會(huì)大大下降。
本文所提出的一種基于GBDT與LR算法構(gòu)建的一種用于個(gè)人信用評(píng)估的風(fēng)險(xiǎn)控制模型,首先利用GBDT 分類器構(gòu)造新特征,再用邏輯回歸模型進(jìn)行預(yù)測分析,有效地解決了特征選擇和異常值問題,在一定程度上避免了模型過擬合問題。通過全球最大的P2P 平臺(tái)LendingClub 的信貸數(shù)據(jù)進(jìn)行實(shí)證分析驗(yàn)證了該模型在個(gè)人信用評(píng)估上具有更好的適用性和穩(wěn)定性。
個(gè)人信用風(fēng)險(xiǎn)評(píng)估是一個(gè)二分類問題,即對借款人進(jìn)行分類判斷是否發(fā)放貸款。傳統(tǒng)的信用風(fēng)險(xiǎn)評(píng)估主要是依靠有豐富經(jīng)驗(yàn)的專業(yè)人員的人工審核借款人的基本信息。隨著數(shù)據(jù)時(shí)代和業(yè)務(wù)數(shù)量的增長,傳統(tǒng)人工審核方法不再適用。秦宛順[1]等構(gòu)建了基于Logistic 回歸的個(gè)人信用評(píng)分模型,對客戶進(jìn)行‘好壞’的分類。宋麗平[2]等重要考慮借款人的個(gè)人基本信息等指標(biāo),建立基于BP 神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估模型,研究發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)在個(gè)人風(fēng)險(xiǎn)評(píng)估問題上具有可優(yōu)化性。Zhang,Lian Z 等[3]認(rèn)為對于個(gè)人貸款信用評(píng)估是復(fù)雜的非線性問題,通過構(gòu)造個(gè)人貸款信用指數(shù),然后利用SVM 模型進(jìn)行識(shí)別分類,進(jìn)而認(rèn)為SVM 在個(gè)人貸款風(fēng)險(xiǎn)評(píng)估上具有重要作用。
單一的模型在計(jì)算速度、預(yù)測效果等方面各有優(yōu)缺點(diǎn),將不同的模型結(jié)合起來,可以充分發(fā)揮模型之間的優(yōu)點(diǎn),取長補(bǔ)短提高模型的泛化能力。王黎[4]利用GBDT 處理混合數(shù)據(jù)類型的優(yōu)點(diǎn),提出基于GBDT 的個(gè)人信用評(píng)估方法,通過UCI 公開數(shù)據(jù)的驗(yàn)證認(rèn)為GBDT的信用評(píng)估具有更好的穩(wěn)定性和適用性。王小俐等[5]從P2P 網(wǎng)貸平臺(tái)運(yùn)營風(fēng)險(xiǎn)預(yù)警指標(biāo)角度進(jìn)行模型研究。陳啟偉等[6]利用bagging 方法將基本分類器集成構(gòu)建基于Ext-GBDT 集成的類別不平衡信用評(píng)分模型。Maoguang Wang 等[7]利用XGBoost 在特征變化上的強(qiáng)大功能,構(gòu)建了XGBoost-LR 混合模型,有效提高了模型的預(yù)測精度。
本文在此基礎(chǔ)上,提出了一種集成GBDT 與LR 算法的個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型,利用GBDT 對數(shù)據(jù)進(jìn)行特征變換,再輸入到LR 進(jìn)行分類訓(xùn)練,充分利用了兩種算法的優(yōu)點(diǎn),并有效提高了模型的預(yù)測精度和穩(wěn)定性。
梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是Friedman 在1999 年提出的一種Boosting 類集成學(xué)習(xí)算算法[8]。它的主要思想是每一次建立模型是在之前建立模型損失函數(shù)的梯度下降方向。在GBDT 模型中常選用GART 回歸樹作為基學(xué)習(xí)器,每一棵樹的生成都是基于上一個(gè)回歸樹分類結(jié)果的殘差,以串行的方式向殘差減小的方向梯度迭代,最后累加所有樹的結(jié)果加權(quán)求和作為最終結(jié)果。GBDT 算法的流程如下:
第一步:取訓(xùn)練集T={(x1,y1),(x2,y2),...,(xn,yn)},迭代次數(shù)M和損失函數(shù),初始化弱分類器:
第二步:對m=1,2,...,M,執(zhí)行以下步驟:
1)對i=1,2,...,n,計(jì)算近似殘差:
2)對近似殘差rmj擬合一棵回歸數(shù),得到第m棵樹的葉節(jié)點(diǎn)域Rjm,j=1,2,...,Jm,即一顆由J個(gè)葉節(jié)點(diǎn)組成的樹。
3)對j=1,2,...,Jm計(jì)算最佳擬合值:
4)更新分類器:
第三步:得到最終強(qiáng)學(xué)習(xí)器:
邏輯回歸算法(Logistics Regression,LR)是一種基于回歸分析的分類算法[9]。線性回歸模型能夠很好處理數(shù)值問題,其公式如下:
LR 是在線性回歸的基礎(chǔ)上加上了Sigmoid 函數(shù)映射到(0,1)上,并劃分一個(gè)閾值,大于閾值的分為一類,小于等于閾值的分為另一類,使得邏輯回歸成為非常好的二分類算法。Sigmoid 函數(shù)表達(dá)式如下:
邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法,運(yùn)用梯度下降來求解參數(shù)以達(dá)到數(shù)據(jù)分類的目的。
LR 算法作為廣義線性模型,模型簡單可解釋性好,計(jì)算時(shí)間小,能用于海量數(shù)據(jù),但是LR 算法學(xué)習(xí)能力有限,對數(shù)據(jù)特征的要求比較高,容易導(dǎo)致欠擬合。因此在進(jìn)行分類訓(xùn)練之前,需要有效的特征工程對原數(shù)據(jù)進(jìn)行特征提取,進(jìn)而得到較好的分類結(jié)果。Facebook在2014年提出GBDT+LR的組合模型來進(jìn)行CTR預(yù)估,利用Boosting Tree 模型本身的特征組合能力進(jìn)行特征工程[10]。Boosting Tree 模型本身具備特征篩選的能力以及高階特征組合能力,通過GBDT 來進(jìn)行特征篩選和組合,進(jìn)而生成新的離散特征向量用于LR 模型的輸入,能夠得到更好的預(yù)測效果。
首先將訓(xùn)練集通過GBDT 構(gòu)造一系列的決策樹,組成一個(gè)強(qiáng)學(xué)習(xí)器,每棵樹根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑可以看成是不同特征進(jìn)行特征組合,某個(gè)葉子節(jié)點(diǎn)對應(yīng)一個(gè)離散特征,然后通過one-hot 編碼對特征處理傳入到LR 分類器進(jìn)行二次訓(xùn)練。GBDT+LR 融合模型的訓(xùn)練過程如下[11]:
圖1 GBDT+LR 模型訓(xùn)練示意圖
由GBDT 構(gòu)建新離散特征如圖2 所示,假設(shè)fm-1和fm為GBDT算法訓(xùn)練過程中生成的2 棵決策樹,分別有5 個(gè)葉結(jié)點(diǎn),其中數(shù)字1表示訓(xùn)練樣本x通過該決策樹預(yù)測的結(jié)果落在該葉結(jié)點(diǎn)上,那么對于樹fm-1,其預(yù)測的結(jié)果可以用One-Hot 編碼表示為 [ 0,1,0,0,0]。假設(shè)GBDT 算法迭代次數(shù)為x,且所有弱分類器共具有y個(gè)葉結(jié)點(diǎn),對于m條原始數(shù)據(jù),每一條都會(huì)被轉(zhuǎn)化為y維的稀疏向量,其中x個(gè)元素為1,y-x個(gè)元素為0,那么最終會(huì)形成維度為m×x×y的新訓(xùn)練集。
圖2 GBDT 算法構(gòu)造新特征示意圖
本文中選取了全球最大的P2P借貸平臺(tái)美國LendingClub 提高的公開數(shù)據(jù)作為實(shí)證數(shù)據(jù)集,選用了2019 年第一季度的數(shù)據(jù)115779條有效個(gè)人貸款數(shù)據(jù),每個(gè)數(shù)據(jù)包含有148 個(gè)特征變量和1 個(gè)標(biāo)簽變量(違約和不違約)。建立了基于GBDT+LR 融合模型的風(fēng)險(xiǎn)評(píng)估模型,該模型的主要工作流程如下圖所示。
圖3 GBDT+LR 分類器工作流程圖
首先對原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,了解數(shù)據(jù)的目標(biāo)變量、分類變量以及連續(xù)性變量信息特征分布;數(shù)據(jù)集中存在嚴(yán)重的缺失值問題,對于缺失值比例大于60%的特征變量進(jìn)行刪除處理,對于其余含有缺失值的特征變量進(jìn)行眾數(shù)填充;數(shù)據(jù)集中特征變量的觀測值90%以上為相同特征的變量,結(jié)合變量實(shí)際意義進(jìn)行篩選刪除;最后特征由148 個(gè)減少到89 個(gè)。
通過對于文本變量進(jìn)行特征編碼,將有序變量通過映射為數(shù)值型,對無序變量進(jìn)行one-hot 編碼;由于模型中使用到梯度下降法,為了加快迭代速度,所以對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
由于數(shù)據(jù)中的很多變量存在較強(qiáng)的相關(guān)性,通過Wrapper 方法逐步剔除不相關(guān)特征降低模型學(xué)習(xí)難度,將自變量從94 個(gè)降到30 個(gè)。在此基礎(chǔ)上通過皮爾森相關(guān)性圖譜找到冗余特征并將其剔除,通過相關(guān)性的圖譜進(jìn)一步確定特征選擇的方向。最終篩選出18 個(gè)特征變量用于模型訓(xùn)練。
圖4 入模訓(xùn)練的18 個(gè)變量相關(guān)圖
本次數(shù)據(jù)中目標(biāo)變量‘loans_status’正常和違約兩種類別存在較大的數(shù)量差別,采用了SMOTE 方法對樣本進(jìn)行不均衡處理,將數(shù)據(jù)集中正負(fù)樣本分布比例通過采樣調(diào)整為1:1;采用交叉驗(yàn)證方法劃分?jǐn)?shù)據(jù)集,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集;在模型優(yōu)化中采用網(wǎng)格搜索調(diào)優(yōu)參數(shù),進(jìn)行構(gòu)造參數(shù)候選集合,選出最好的一組參數(shù)用于構(gòu)建最優(yōu)分類器模型。
本文中貸款評(píng)估為二分類問題,目標(biāo)變量用0 或1 表示,將正常定義為正,違約定義為負(fù),其混淆矩陣見表1 所示。
表1 分類結(jié)果混淆矩陣
本次實(shí)驗(yàn)中,為了評(píng)估GBDT+LR 模型在貸款評(píng)估中的性能,選取了LR(邏輯回歸)、DT(決策樹)、RF(隨機(jī)森林)、GBDT(梯度提升決策樹)等四種機(jī)器學(xué)習(xí)模型進(jìn)行對比分析,選用的分類器性能評(píng)估指標(biāo)為Accuracy(準(zhǔn)確率)、Recall(召回率)、F1 值、AUC值。實(shí)驗(yàn)結(jié)果如表2 所示。
表2 不同機(jī)器學(xué)習(xí)模型的結(jié)果對比
從上表中可以看出GBDT+LR 模型的分類效果總體上要優(yōu)于其他4 類模型。通過準(zhǔn)確率看GBDT+LR 分類器的預(yù)測準(zhǔn)確率最高為98.22%,其中單獨(dú)的GBDT 分類器的預(yù)測準(zhǔn)確率為95.49%,而單獨(dú)的LR 分類器的預(yù)測準(zhǔn)確率為89.51%,均低于GBDT+LR 分類器的預(yù)測準(zhǔn)確率。AUC 值代表模型的分類效果,五種模型中明顯可以看出GBDT+LR 分類器的預(yù)測效果AUC 值遠(yuǎn)遠(yuǎn)大于其他四種分類器,說明GBDT+LR 的分類效果最優(yōu)。在召回率和F1 值的得分中GBDT+LR 的分值也是最高的,說明該模型具有很好的預(yù)測性能。
為了金融借貸機(jī)構(gòu)更好更精準(zhǔn)地對借款人的狀態(tài)進(jìn)行評(píng)估,本文基于GBDT+LR 算法建立個(gè)人信用風(fēng)險(xiǎn)控制評(píng)估模型,并利用全球最大P2P 平臺(tái)LendingClub 公司2019 年第一季度真實(shí)數(shù)據(jù)進(jìn)行實(shí)證分析,與常見的LR、DT、RF、GBDT 等模型進(jìn)行比較,在AUC 值、準(zhǔn)確率等各項(xiàng)性能指標(biāo)數(shù)據(jù)可以看出基于GBDT+LR 的融合模型在個(gè)人信用風(fēng)險(xiǎn)評(píng)估上,具有更好的預(yù)測性能和穩(wěn)定性。此項(xiàng)研究更有利于金融借貸機(jī)構(gòu)有效避免潛在風(fēng)險(xiǎn),進(jìn)而更好地進(jìn)行管理運(yùn)營。