[摘 要]機(jī)器學(xué)習(xí)的集成算法具有重要的應(yīng)用價(jià)值,其實(shí)際數(shù)據(jù)分析效果較好。本文在對(duì)信貸違約數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗后,分別使用AdaBoost、XGBoost、LightGBM三種集成提升方法對(duì)貸款違約情況進(jìn)行預(yù)測(cè)分析,構(gòu)建了相應(yīng)的違約預(yù)測(cè)模型。預(yù)測(cè)結(jié)果顯示XGBoost與LightGBM的預(yù)測(cè)效果略優(yōu)于AdaBoost方法,LightGBM的計(jì)算效率最高。
[關(guān)鍵詞]貸款違約;AdaBoost;XGBoost;LightGBM;預(yù)測(cè)模型;機(jī)器學(xué)習(xí);集成學(xué)習(xí)算法;提升方法
0" " "引 言
隨著“互聯(lián)網(wǎng)+”戰(zhàn)略的實(shí)施,我國(guó)互聯(lián)網(wǎng)金融得到了有序和快速發(fā)展,各類金融機(jī)構(gòu)相繼開(kāi)展了信貸業(yè)務(wù)?;ヂ?lián)網(wǎng)金融機(jī)構(gòu)根據(jù)借款人的信用水平直接發(fā)放貸款,小額信貸的審批、放款較快,可以及時(shí)滿足很多企業(yè)與個(gè)人的資金需求。但目前信息貸款違約現(xiàn)象比較嚴(yán)重。貸款審批是控制違約風(fēng)險(xiǎn)的重要方式,但主要依賴人工審批,隨著貸款規(guī)模的擴(kuò)大,難以及時(shí)處理所有貸款申請(qǐng)。隨著大數(shù)據(jù)時(shí)代的到來(lái),可以根據(jù)歷史信貸數(shù)據(jù),利用機(jī)器學(xué)習(xí)方法,構(gòu)建一個(gè)比較精準(zhǔn)的貸款違約預(yù)測(cè)模型。這可以有效提高貸款審批效率與準(zhǔn)確率,控制違約風(fēng)險(xiǎn)。
信貸違約預(yù)測(cè)是金融風(fēng)險(xiǎn)控制的一個(gè)重要方法。近年來(lái),關(guān)于信貸違約預(yù)測(cè)的問(wèn)題取得了一定的研究成果。談超等[1](2015)構(gòu)建邏輯回歸模型,將各個(gè)特征對(duì)貸款違約的影響進(jìn)行解釋。章寧和陳欽[2](2019)提出了一種集成學(xué)習(xí)的訓(xùn)練方法。李天陽(yáng)和牛長(zhǎng)流[3](2020)利用帶懲罰的邏輯回歸對(duì)用戶特征進(jìn)行建模與預(yù)測(cè)。張春杰[4](2020)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行貸款違約預(yù)測(cè)。陶艷麗[5](2020)運(yùn)用改進(jìn)的隨機(jī)森林模型對(duì)個(gè)人信貸違約進(jìn)行預(yù)測(cè)。蔡青松等[6](2021)將三種模型融合,提升了預(yù)測(cè)結(jié)果的準(zhǔn)確性。
根據(jù)上述研究結(jié)果可以看出,機(jī)器學(xué)習(xí)方法正被廣泛應(yīng)用于貸款違約預(yù)測(cè)問(wèn)題研究,并取得了較好的效果。但對(duì)于不同提升方法的預(yù)測(cè)效果與計(jì)算成本缺少對(duì)比。本文采用AdaBoost(自適應(yīng)提升)、XGBoost(極端梯度提升)與LightGBM(輕量級(jí)梯度提升機(jī))三種提升方法對(duì)貸款違約問(wèn)題進(jìn)行建模預(yù)測(cè),并對(duì)比三種提升方法應(yīng)用實(shí)際數(shù)據(jù)的預(yù)測(cè)效果與計(jì)算效率。
1" " "三種提升方法簡(jiǎn)介
1.1" "AdaBoost
對(duì)于一個(gè)因變量為二分類變量的數(shù)據(jù)集,在AdaBoost算法中,首先根據(jù)該數(shù)據(jù)集學(xué)習(xí)得到一個(gè)弱分類器G1(x),計(jì)算其分類誤差率,并更新樣本權(quán)重分布,增加誤分類樣本權(quán)重。然后,計(jì)算該弱分類器在最終強(qiáng)分類器中的權(quán)重α1,分類誤差率越小的分類器權(quán)重越大。之后,進(jìn)行下一輪的弱分類器學(xué)習(xí)。經(jīng)過(guò)若干次迭代,當(dāng)誤差分類率滿足一定要求后,得到最終的強(qiáng)分類器:
其中,M為最終獲得的弱分類器數(shù)量,sign()是一個(gè)取符號(hào)函數(shù),將輸出結(jié)果分為兩類。
1.2" "XGBoost
XGBoost算法的基本思想是通過(guò)不斷對(duì)殘差進(jìn)行擬合,建立新的樹(shù)模型以提高預(yù)測(cè)的準(zhǔn)確度。目標(biāo)函數(shù)為:
其中yi,分別表示真實(shí)值與預(yù)測(cè)值,l()為損失函數(shù),K表示決策樹(shù)的數(shù)量,Ω( fk)為正則化項(xiàng),fk為第k個(gè)決策樹(shù)模型。對(duì)于分類問(wèn)題常用的損失函數(shù)為對(duì)數(shù)損失函數(shù):
由于XGBoost方法不斷對(duì)殘差進(jìn)行擬合,所以給定樣本xi時(shí),其預(yù)測(cè)值為每棵樹(shù)對(duì)應(yīng)的分?jǐn)?shù)相加:
目標(biāo)函數(shù)正則化項(xiàng)Ω( f )的形式如下:
其中,T表示葉子節(jié)點(diǎn)的數(shù)量,γ是一個(gè)超參數(shù),用于控制葉子節(jié)點(diǎn)個(gè)數(shù);w表示葉子節(jié)點(diǎn)的分?jǐn)?shù),λ是一個(gè)超參數(shù),用于控制葉子節(jié)點(diǎn)的分?jǐn)?shù)。γ和λ越大,決策樹(shù)的結(jié)構(gòu)越趨向于簡(jiǎn)單。
1.3" "LightGBM
XGBoost算法在實(shí)際數(shù)據(jù)分析中取得了非常好的效果,但由于需要遍歷每一個(gè)特征并計(jì)算所有可能的分割點(diǎn),計(jì)算量較大。為降低計(jì)算成本,提高計(jì)算效率,LightGMB提出了單邊梯度采樣算法(GOSS)和互斥特征捆綁算法(EFB)。
GOSS是一種樣本采樣優(yōu)化算法。通過(guò)梯度對(duì)樣本進(jìn)行排序并賦予不同的權(quán)重,剔除小梯度樣本,保留大梯度樣本,有效地減少了數(shù)據(jù)集的大小,從而提高模型的訓(xùn)練速度與準(zhǔn)確性。
EFB算法通過(guò)構(gòu)造加權(quán)無(wú)向圖,設(shè)定最大沖突比率γ作為閾值來(lái)解決將哪些特征進(jìn)行捆綁的問(wèn)題。通過(guò)增加一個(gè)偏置常量將不同特征的值分在不同的區(qū)間以實(shí)現(xiàn)特征融合,減少特征數(shù)量。
2" " "實(shí)證分析
2.1" "數(shù)據(jù)說(shuō)明與清洗
本文數(shù)據(jù)來(lái)源于天池大賽——貸款違約預(yù)測(cè)。共80萬(wàn)條貸款數(shù)據(jù),47個(gè)特征,因變量isDefault表示用戶的違約情況。
2.1.1" "缺失值處理
在數(shù)據(jù)集中,有113 805個(gè)實(shí)例和22個(gè)特征值包含缺失數(shù)據(jù)。由于缺失特征占比過(guò)大,所以按實(shí)例剔除缺失值。
2.1.2" "類別特征處理
剔除不包含違約信息的id特征后,對(duì)于5個(gè)非數(shù)值型特征進(jìn)行處理:grade特征的取值為A~G,將其映射為1~7;subGrade特征的取值為X1~X5,X的信息包含于grade特征中,所以僅保留其數(shù)值變量;剔除employment Length特征中的years;issueDate和earliesCreditLine兩個(gè)特征分別提取年和月作為數(shù)值變量。
經(jīng)過(guò)特征處理后,得到具有48個(gè)特征的68萬(wàn)多個(gè)實(shí)例。從中隨機(jī)抽取68萬(wàn)個(gè)實(shí)例,將其中80%的實(shí)例作為訓(xùn)練集,用于參數(shù)估計(jì);剩余20%的實(shí)例作為測(cè)試集,用于模型評(píng)價(jià)。
2.2" "模型評(píng)價(jià)
2.2.1" "混淆矩陣與各評(píng)價(jià)指標(biāo)
在混淆矩陣中,使用TP、TN分別表示真實(shí)類別為1,0且正確分類的實(shí)例數(shù)量;FP、FN分別表示真實(shí)類別為0,1但錯(cuò)誤分類的實(shí)例數(shù)量?;诨煜仃?,可以計(jì)算各個(gè)評(píng)價(jià)指標(biāo)。預(yù)測(cè)準(zhǔn)確率為:
準(zhǔn)確率是衡量正確預(yù)測(cè)的實(shí)例在所有實(shí)例中的占比,可以非常直觀地體現(xiàn)預(yù)測(cè)準(zhǔn)確度。但該指標(biāo)不適合非平衡數(shù)據(jù)。
查準(zhǔn)率和召回率是衡量分類器預(yù)測(cè)正類效果的重要指標(biāo),取值范圍為[0,1],越接近1則預(yù)測(cè)效果越好。當(dāng)需要更多地關(guān)注某一類的預(yù)測(cè)情況時(shí),查準(zhǔn)率與召回率是很有效的指標(biāo)。
F1得分綜合了查準(zhǔn)率與召回率,可以更為全面地反映某一類別的預(yù)測(cè)情況:
2.2.2" nbsp;ROC曲線與AUC值
ROC曲線表示給定所有實(shí)例的預(yù)測(cè)概率時(shí),在不同閾值下計(jì)算得到FPR與TPR的值所構(gòu)成的曲線。FPR的計(jì)算公式為FP/(FP+TN),TPR與召回率相同。FPR越小,TPR越大,則預(yù)測(cè)效果越好。AUC值為ROC曲線下面積,取值范圍為[0.5,1],越接近1則預(yù)測(cè)越準(zhǔn)確,對(duì)于不平衡數(shù)據(jù)來(lái)說(shuō),AUC值比準(zhǔn)確率更有意義。
2.3" "實(shí)證結(jié)果
根據(jù)訓(xùn)練集中的數(shù)據(jù)分別擬合三種模型,然后在測(cè)試集上進(jìn)行預(yù)測(cè),并計(jì)算各個(gè)評(píng)價(jià)指標(biāo)。表1中給出了預(yù)測(cè)結(jié)果的混淆矩陣(AdaBoost更傾向于將實(shí)例分為1類,且此類預(yù)測(cè)錯(cuò)誤率較高),表2中給出了各個(gè)評(píng)價(jià)指標(biāo)的結(jié)果,根據(jù)AUC值可以看出,XGBoost與LightGBM兩者的預(yù)測(cè)效果十分接近,都優(yōu)于AdaBoost,圖1中的ROC曲線也反映了這一點(diǎn)。但是,LightGBM算法程序運(yùn)行時(shí)間僅為4秒,遠(yuǎn)快于其他兩種方法。
3" " "結(jié)束語(yǔ)
本文首先對(duì)信貸實(shí)例數(shù)據(jù)進(jìn)行了清洗,得到68萬(wàn)個(gè)實(shí)例,每個(gè)實(shí)例有48個(gè)特征,從中隨機(jī)抽取80%的數(shù)據(jù)作為訓(xùn)練集,將剩余20%的數(shù)據(jù)作為測(cè)試集,使用AdaBoost、XGBoost、LightGBM三種提升方法分別對(duì)貸款違約情況進(jìn)行預(yù)測(cè)。實(shí)證結(jié)果顯示,三種提升方法的預(yù)測(cè)精度總體上差距不大,XGBoost與LighGBM的預(yù)測(cè)效果非常接近,且略優(yōu)于AdaBoost方法。但是,在計(jì)算成本上,LightGBM方法的效率遠(yuǎn)高于其他兩種方法,更適合樣本量非常多的數(shù)據(jù)。
信用貸款可以有效幫助小微企業(yè)與個(gè)人解決突發(fā)問(wèn)題,對(duì)企業(yè)發(fā)展與個(gè)人成長(zhǎng)都有幫助。但由于其缺乏抵押物,一旦發(fā)生違約情況會(huì)導(dǎo)致融資平臺(tái)損失較大。建立一個(gè)準(zhǔn)確、高效的預(yù)測(cè)模型是至關(guān)重要的。
主要參考文獻(xiàn)
[1]談超,孫本芝,王冀寧. P2P 網(wǎng)絡(luò)借貸平臺(tái)中的逾期行為研究[J]. 財(cái)會(huì)通訊,2015(5):49-51.
[2]章寧,陳欽. 基于AUC及Q統(tǒng)計(jì)值的集成學(xué)習(xí)訓(xùn)練方法[J]. 計(jì)算機(jī)應(yīng)用,2019,39(4):935-939.
[3]李天陽(yáng),牛長(zhǎng)流. 基于加權(quán)懲罰邏輯回歸的貸款違約預(yù)測(cè)[J]. 信息技術(shù)與信息化,2020(7):11-14.
[4]張春杰. 基于卷積神經(jīng)網(wǎng)絡(luò)和生存分析的網(wǎng)絡(luò)貸款違約風(fēng)險(xiǎn)評(píng)估方案策劃[D]. 上海:上海師范大學(xué),2020.
[5]陶艷麗. 隨機(jī)森林改進(jìn)模型對(duì)個(gè)人信貸違約預(yù)測(cè)的研究[D].石家莊:河北經(jīng)貿(mào)大學(xué),2020.
[6]蔡青松,吳金迪,白宸宇. 基于可解釋集成學(xué)習(xí)的信貸違約預(yù)測(cè)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(12):194-201.
[收稿日期]2023-09-11
[基金項(xiàng)目]國(guó)家社會(huì)科學(xué)基金一般項(xiàng)目“基于深度學(xué)習(xí)
的金融高頻數(shù)據(jù)波動(dòng)率預(yù)測(cè)及其應(yīng)用研究”(19BTJ035);江蘇省自然科學(xué)基金面上項(xiàng)目“波動(dòng)率矩陣值模型的統(tǒng)計(jì)推斷及其在金融高頻數(shù)據(jù)應(yīng)用”(BK20221348);江蘇省高等學(xué)校自然科學(xué)研究重大項(xiàng)目“波動(dòng)率矩陣自回歸模型統(tǒng)計(jì)推斷及其在金融高頻數(shù)據(jù)應(yīng)用”(21KJA110003)。