裴曉偉,張馨予
(南京郵電大學(xué)經(jīng)濟(jì)學(xué)院,江蘇南京 210023)
近年來(lái),P2P網(wǎng)絡(luò)借貸市場(chǎng)中由信息不對(duì)稱所引發(fā)的借款人違約問(wèn)題日益嚴(yán)重。自2017年起,眾多平臺(tái)相繼因?yàn)榻杩钊诉`約引發(fā)平臺(tái)資金鏈斷裂而爆雷,使P2P平臺(tái)和投資者慘遭損失。2018年,隨著監(jiān)管措施進(jìn)一步加強(qiáng),問(wèn)題平臺(tái)全面爆發(fā),此后P2P存量平臺(tái)持續(xù)減少。至2019末,P2P網(wǎng)絡(luò)借貸平臺(tái)正常運(yùn)營(yíng)數(shù)量?jī)H剩343家,網(wǎng)貸行業(yè)總體貸款余額同比2018年下降了37.69%[1]??傮w來(lái)看,P2P網(wǎng)絡(luò)借貸生態(tài)已經(jīng)轉(zhuǎn)向無(wú)擔(dān)?;蛧?yán)監(jiān)管方向發(fā)展,相應(yīng)地,對(duì)平臺(tái)的風(fēng)險(xiǎn)控制和風(fēng)險(xiǎn)定價(jià)能力的要求逐漸走高。P2P網(wǎng)絡(luò)借貸依托于互聯(lián)網(wǎng),已經(jīng)積聚了量級(jí)巨大的借貸交易數(shù)據(jù),因此,如何通過(guò)對(duì)這些大數(shù)據(jù)進(jìn)行深度挖掘,從而識(shí)別借款人的違約風(fēng)險(xiǎn),成為網(wǎng)貸平臺(tái)和學(xué)者們近年來(lái)研究的重點(diǎn)。其中,機(jī)器學(xué)習(xí)在大數(shù)據(jù)分類問(wèn)題中的優(yōu)異表現(xiàn)為P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)識(shí)別提供了新的思路。
本文將以“人人貸”平臺(tái)的借貸數(shù)據(jù)進(jìn)行實(shí)證分析,分析4種主流的機(jī)器學(xué)習(xí)算法——CART決策樹(shù)、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林在P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)識(shí)別中的適用性,并對(duì)4種算法的預(yù)測(cè)效果進(jìn)行比較。
國(guó)內(nèi)外許多學(xué)者已經(jīng)將機(jī)器學(xué)習(xí)算法運(yùn)用到P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)的識(shí)別中,并取得了實(shí)質(zhì)性的成果。
國(guó)外方面,Harris[2]發(fā)現(xiàn)在進(jìn)行違約風(fēng)險(xiǎn)識(shí)別時(shí),集群支持向量機(jī)比傳統(tǒng)支持向量機(jī)在分類效果上展現(xiàn)出更好的優(yōu)勢(shì)。Jing[3]對(duì)來(lái)自Lending Club的借貸數(shù)據(jù)進(jìn)行SMOTE采樣,并運(yùn)用深度神經(jīng)網(wǎng)絡(luò)(DNN)對(duì)其進(jìn)行違約風(fēng)險(xiǎn)評(píng)估,發(fā)現(xiàn)DDN的預(yù)測(cè)精度顯著高于多層感知機(jī)(MLP)。國(guó)內(nèi)方面,安英博等[4]發(fā)現(xiàn)基于Stacking集成學(xué)習(xí)方法構(gòu)建的違約風(fēng)險(xiǎn)識(shí)別模型可以綜合單一機(jī)器學(xué)習(xí)模型的長(zhǎng)處,預(yù)測(cè)效果更好,且可以減少對(duì)非違約用戶的誤判。張晨[5]基于Lending Club的個(gè)人信貸數(shù)據(jù),使用隨機(jī)森林和Easy Ensemble方法進(jìn)行模型構(gòu)建,發(fā)現(xiàn)隨機(jī)森林模型在違約風(fēng)險(xiǎn)識(shí)別中的預(yù)測(cè)效果好于Logistic回歸,且Easy Ensemble方法可以提升隨機(jī)森林模型在不平衡數(shù)據(jù)上的分類表現(xiàn)。
從上述文獻(xiàn)研究中,發(fā)現(xiàn)許多學(xué)者多基于某個(gè)或某類模型來(lái)進(jìn)行違約風(fēng)險(xiǎn)評(píng)估,或者注重對(duì)某一類機(jī)器學(xué)習(xí)算法的優(yōu)化,關(guān)于多種機(jī)器學(xué)習(xí)算法在評(píng)估P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)時(shí)的性能對(duì)比方面研究較少。
(1)數(shù)據(jù)來(lái)源。本文選取“人人貸”作為數(shù)據(jù)源平臺(tái),考慮到P2P網(wǎng)絡(luò)借貸期限短則3個(gè)月,長(zhǎng)則36個(gè)月,因此,本文運(yùn)用Python爬蟲(chóng)程序爬取了“人人貸”平臺(tái)2016年1月至12月的散標(biāo)數(shù)據(jù),共32 081個(gè)樣本。本文只保留“還款完成”和“標(biāo)的違約”的樣本,分別對(duì)應(yīng)因變量——“違約情況”中的“違約”與“不違約”,其中違約樣本為210個(gè),非違約樣本為26 342個(gè)。
(2)特征變量確定。對(duì)于自變量,本文結(jié)合變量間的相關(guān)系數(shù)矩陣,剔除了原始數(shù)據(jù)集中無(wú)意義、意義表達(dá)一致以及有唯一性的特征變量。此外,考慮到信用變量“成功借款次數(shù)”“申請(qǐng)借款次數(shù)”和“還清筆數(shù)”單獨(dú)存在時(shí)可解釋性較差,本文重新構(gòu)造了“成功借款比率”與“清償比率”并取代了之前的3個(gè)特征,其中:
經(jīng)過(guò)上述篩選和處理,本文所選用的自變量共有30個(gè),其中,描述借款信息的有:標(biāo)的總額、投資人次、年利率、期限、標(biāo)的類型和借款性質(zhì);衡量借款人基本信息的有:性別、年齡、學(xué)歷、婚姻狀況、收入、房產(chǎn)、房貸、車(chē)產(chǎn)、車(chē)貸、工作時(shí)間、公司性質(zhì)、公司規(guī)模、公司行業(yè)、居住地區(qū)、工作認(rèn)證和收入認(rèn)證;衡量借款人信用信息的有:信用額度、借款總額、信用評(píng)級(jí)、成功借款比率、清償比率、待還本息、逾期次數(shù)、累計(jì)逾期金額。
(3)獨(dú)熱編碼(one-hot coding)與歸一化。對(duì)于數(shù)據(jù)集中的無(wú)序分類變量,其標(biāo)簽數(shù)值大小無(wú)實(shí)際意義,本文對(duì)其進(jìn)行了獨(dú)熱編碼,用一組比特位表示一個(gè)無(wú)序分類變量的不同類別。此外,為了縮短BP神經(jīng)網(wǎng)絡(luò)模型和SVM模型的訓(xùn)練時(shí)間,提高求解的收斂速度和精度,本文對(duì)具有較強(qiáng)稀疏性的數(shù)據(jù)集采用絕對(duì)值最大標(biāo)準(zhǔn)化方法將數(shù)據(jù)壓縮至[0,1]范圍內(nèi)。
考慮到本文數(shù)據(jù)的非平衡性,在模型性能評(píng)估指標(biāo)的選取上,本文將重點(diǎn)參考適用于評(píng)價(jià)非平衡數(shù)據(jù)集上分類器性能的AUC和Fβ指標(biāo),其中由于在違約風(fēng)險(xiǎn)識(shí)別中將潛在違約借款人貸前評(píng)估為正常借款人往往比將正常借款人評(píng)估為潛在違約借款人具有更大的風(fēng)險(xiǎn),即召回率要比查準(zhǔn)率更加重要,因此Fβ具體將選用F2,同時(shí)將查準(zhǔn)率(Precision)和召回率(Recall)作為輔助參考指標(biāo)。
由2.1可知,本文數(shù)據(jù)為非平衡數(shù)據(jù),考慮到重采樣會(huì)破壞數(shù)據(jù)的比例信息,對(duì)數(shù)據(jù)集的分布改變較大,因此本文采用代價(jià)敏感學(xué)習(xí)方式來(lái)處理非平衡數(shù)據(jù),即用不同權(quán)重的代價(jià)來(lái)區(qū)分各分類錯(cuò)誤,以達(dá)到類別加權(quán)損失值近似的效果,從而達(dá)到整體代價(jià)最小。對(duì)于以下4種分類模型,本文通過(guò)設(shè)置各分類模型中的類別權(quán)重參數(shù)進(jìn)行代價(jià)敏感學(xué)習(xí),類別權(quán)重ωi計(jì)算方式如式(3)所示:
其中:ni表示第i類樣本的個(gè)數(shù),Nclass表示類別個(gè)數(shù),n為樣本總數(shù)。
2.3.1 CART決策樹(shù)模型
決策樹(shù)(Decision Tree)是一種由節(jié)點(diǎn)和有向邊組成的以樹(shù)形結(jié)構(gòu)來(lái)展示決策規(guī)則和分類結(jié)果的機(jī)器學(xué)習(xí)模型[6],具有可解釋性強(qiáng)、分類速度快的優(yōu)點(diǎn)。因其在節(jié)點(diǎn)處選擇特征時(shí)所依據(jù)的標(biāo)準(zhǔn)不同,決策樹(shù)可分為ID3、C4.5和CART。鑒于CART決策樹(shù)可以處理連續(xù)和分類兩種自變量類型,同時(shí)適用于大樣本,因此本文選擇CART決策樹(shù)。
CART決策樹(shù)使用基尼系數(shù)(Gini coefficient)作為選擇節(jié)點(diǎn)處分類特征的標(biāo)準(zhǔn),對(duì)于給定的樣本集合D,基尼系數(shù)的計(jì)算如公式(4)所示:
其中:Ck是D中屬于k類的子集數(shù)量。給定特征條件下樣本D的基尼系數(shù)為依據(jù)該特征值所劃分的兩子集基尼系數(shù)的加權(quán)平均值。
本文將數(shù)據(jù)集按照7∶3的比例劃分為訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集使用CART決策樹(shù)算法進(jìn)行訓(xùn)練,為了避免模型過(guò)擬合,本文利用網(wǎng)格搜索來(lái)尋找樹(shù)模型最大深度的最優(yōu)取值,以便對(duì)決策樹(shù)進(jìn)行“剪枝”,最終確定當(dāng)樹(shù)的最大深度為6時(shí),測(cè)試集的F2最大,尋優(yōu)過(guò)程如圖1所示。CART決策樹(shù)模型中AUC為0.980 8、F2為0.931 9,召回率為 0.963 0、查準(zhǔn)率為0.825 4。
此外,本文根據(jù)剪枝后的決策樹(shù)得出了各個(gè)特征的重要性程度,重要性由高到低依次為信用評(píng)級(jí)、清償比率、累計(jì)逾期金額、借款期限、逾期次數(shù)、公司性質(zhì)和成功借款比率,其余特征變量在決策樹(shù)模型中重要性均接近于0。其中,信用評(píng)級(jí)的特征重要性高達(dá)0.91,是判斷借款人是否會(huì)違約的重要依據(jù)。結(jié)合決策樹(shù)的決策規(guī)則可以得出,信用評(píng)級(jí)在B及B以上的借款人違約風(fēng)險(xiǎn)較小,信用評(píng)級(jí)在B以下的借款人中,具有以下一個(gè)或幾個(gè)特征的,如在非國(guó)家機(jī)關(guān)和非事業(yè)單位工作、借款期限大于15個(gè)月、無(wú)車(chē)產(chǎn)或清償比率小于0.4等的借款人違約風(fēng)險(xiǎn)較大。
圖1 CART決策樹(shù)最大深度尋優(yōu)過(guò)程
2.3.2 BP神經(jīng)網(wǎng)絡(luò)模型
BP神經(jīng)網(wǎng)絡(luò)是一種按誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)。其基本過(guò)程為,輸入層信號(hào)經(jīng)由隱含層正向傳播,在輸出層計(jì)算得到誤差,再將誤差按照梯度下降的方式反向傳遞,修正各層的權(quán)值和偏置。其中,訓(xùn)練集被整個(gè)網(wǎng)絡(luò)訓(xùn)練的次數(shù)稱為epoch,網(wǎng)絡(luò)中各層權(quán)重的更新次數(shù)隨epoch的增加而增加,epoch過(guò)高可能導(dǎo)致模型過(guò)擬合。
本文運(yùn)用Python的Keras高層神經(jīng)網(wǎng)絡(luò)API來(lái)構(gòu)建3層BP神經(jīng)網(wǎng)絡(luò),對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,因?yàn)橐延欣碚撟C明,3層BP神經(jīng)網(wǎng)絡(luò)可逼近任意復(fù)雜度的函數(shù)。對(duì)于隱含層節(jié)點(diǎn)數(shù),先用經(jīng)驗(yàn)公式確定初始值,根據(jù)下述經(jīng)驗(yàn)公式,可求得本文中隱含層初始節(jié)點(diǎn)數(shù)為8。
其中:l代表隱藏層的節(jié)點(diǎn)數(shù),n代表輸入層的節(jié)點(diǎn)數(shù),k代表輸出層的節(jié)點(diǎn)數(shù),i代表0~9之間的任意常數(shù)。
本文進(jìn)一步運(yùn)用網(wǎng)格搜索確定隱含層節(jié)點(diǎn)數(shù)和epoch的最優(yōu)值,其中節(jié)點(diǎn)數(shù)的取值范圍為8~15,epoch的取值范圍為0~20。最終確定epoch的最優(yōu)取值為16,隱含層節(jié)點(diǎn)數(shù)的最優(yōu)取值為9,具體的參數(shù)尋優(yōu)過(guò)程如圖2—3所示。最終確定的BP神經(jīng)網(wǎng)絡(luò)模型中,AUC為0.940 5、F2為0.894 5、Recall為0.881 6、Precision為0.950 4。
2.3.3 支持向量機(jī)模型
圖2 BP神經(jīng)網(wǎng)絡(luò)epoch尋優(yōu)過(guò)程
圖3 BP神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)尋優(yōu)過(guò)程
支持向量機(jī)(SVM)是一種應(yīng)用廣泛的二分類機(jī)器學(xué)習(xí)算法,其基本思路是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且實(shí)現(xiàn)幾何間隔最大化的分離超平面。針對(duì)非線性及高維數(shù)據(jù),SVM可利用核函數(shù)將原始空間的數(shù)據(jù)映射到高維空間,在新的特征空間完成分類,基本的SVM模型如下:
其中:w為法向量,ξ(i)為松弛因子,C為懲罰系數(shù),C越高,對(duì)誤差容忍度越小,模型越容易過(guò)擬合。
本文使用在非線性分類中效果較好的高斯徑向基(rbf)核作為核函數(shù),該核函數(shù)的表達(dá)式為:
其中:γ定義了單個(gè)樣本對(duì)整個(gè)分類超平面的影響,γ越大,越容易被選擇為支持向量。
本文對(duì)訓(xùn)練集使用SVM算法進(jìn)行訓(xùn)練,利用網(wǎng)格搜索對(duì)初步模型中的懲罰系數(shù)C和γ進(jìn)行調(diào)優(yōu),最終確定懲罰系數(shù)C的最優(yōu)取值為1.2,γ為0.062,參數(shù)尋優(yōu)過(guò)程如圖4、5所示優(yōu)化后的模型中AUC為0.999 2、F2為0.911 6、Recall為0.942 9、Precision為0.804 9。
2.3.4 隨機(jī)森林模型
圖4 SVM中參數(shù)C尋優(yōu)過(guò)程
圖5 SVM中參數(shù)γ尋優(yōu)過(guò)程
隨機(jī)森林(Random Forest)是一種以CART決策樹(shù)作為基礎(chǔ)分類器、運(yùn)用Bagging方法組合成多顆決策樹(shù)進(jìn)行預(yù)測(cè)的集成學(xué)習(xí)算法。隨機(jī)森林模型集成了每棵決策樹(shù)的分類結(jié)果,并通過(guò)“投票”的方式輸出票數(shù)最多的分類結(jié)果作為最終預(yù)測(cè)結(jié)果。相較于決策樹(shù)而言,隨機(jī)森林通過(guò)引入隨機(jī)選擇屬性的方式有效地提高了模型的泛化能力。
本文對(duì)訓(xùn)練集使用隨機(jī)森林算法進(jìn)行訓(xùn)練,并使用網(wǎng)格搜索對(duì)每棵樹(shù)的最大深度進(jìn)行尋優(yōu),確定隨機(jī)森林中單顆樹(shù)的最大深度的最優(yōu)取值為7,最終模型在測(cè)試集上的分類表現(xiàn)良好,AUC為0.999 8、F2為0.981 6、Recall為0.999 7、Precision為0.915 3。同時(shí),本文得出了隨機(jī)森林模型中各個(gè)特征的重要性程度,由高到低依次為逾期次數(shù)、信用評(píng)級(jí)、累計(jì)逾期金額、標(biāo)的類型、年利率、標(biāo)的總額、投資人次、借款總額、信用額度、借款期限、待還本息、清償比率和公司規(guī)模,其余特征變量重要性均為接近于0。
由表1可知,綜合來(lái)看,隨機(jī)森林模型的性能最好,CART決策樹(shù)次之,支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)分別位列三、四名。單獨(dú)來(lái)看,4種機(jī)器學(xué)習(xí)方法的AUC均在0.9以上,F(xiàn)2均在0.85以上,表明4種機(jī)器學(xué)習(xí)模型都可以對(duì)借款人是否會(huì)違約做出很好的判斷。此外,BP神經(jīng)網(wǎng)絡(luò)模型的查準(zhǔn)率最高,達(dá)95.04%,顯著高于其他3類模型,但召回率較低,僅為88.16%。隨機(jī)森林模型和CART決策樹(shù)模型的召回率較高,分別為99.97%和96.30%。
表1 4種模型性能比較
本文以“人人貸”平臺(tái)借貸數(shù)據(jù)為例,對(duì)包含借款人基本信息、借款人信用信息和借款標(biāo)的信息3個(gè)方面共30個(gè)特征變量的借貸數(shù)據(jù),利用4種主流機(jī)器學(xué)習(xí)算法建立P2P網(wǎng)絡(luò)借貸借款人違約風(fēng)險(xiǎn)識(shí)別模型,并對(duì)各模型的性能進(jìn)行對(duì)比,得出以下結(jié)論:
第一,機(jī)器學(xué)習(xí)算法在多維度借貸數(shù)據(jù)下的違約風(fēng)險(xiǎn)識(shí)別中適用性較強(qiáng),各評(píng)價(jià)指標(biāo)如AUC、F2等均較高,可以有效地利用借款人貸前數(shù)據(jù)預(yù)測(cè)借款人的違約情況。第二,相比于SVM和BP神經(jīng)網(wǎng)絡(luò)模型,CART決策樹(shù)模型和以隨機(jī)森林為代表的集成學(xué)習(xí)方法在P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)識(shí)別中性能較優(yōu),可解釋性強(qiáng),兩類樹(shù)模型的召回率均達(dá)到96%以上,F(xiàn)2達(dá)到93%以上,其中隨機(jī)森林模型綜合性能在4類模型中表現(xiàn)最優(yōu)。第三,結(jié)合兩類樹(shù)模型,發(fā)現(xiàn)借款人信用評(píng)級(jí)、清償比率、累計(jì)逾期金額、借款期限、逾期次數(shù)這5個(gè)變量對(duì)違約的影響較大,年利率、標(biāo)的類型、借款期限和標(biāo)的總額等變量也會(huì)對(duì)違約產(chǎn)生影響。