王鉻
摘? 要:互聯(lián)網(wǎng)金融在國內(nèi)的興起,使得個人信貸風(fēng)險成為許多企業(yè)關(guān)注的熱點。本文通過對LendingClub網(wǎng)站中個人信用貸款數(shù)據(jù)集的探索,構(gòu)建基于xgboost和logistic regression組合算法xgboost-LR模型、隨機森林和支持向量機算法三種機器學(xué)習(xí)方法,對個人信用風(fēng)險進(jìn)行全面的評估。通過實證數(shù)據(jù)分析,其中新構(gòu)建的xgboost-LR算法評價效果最好,能夠更加準(zhǔn)確地預(yù)測個人信用風(fēng)險。
關(guān)鍵詞:信用風(fēng)險評估? xgboost-LR算法? 隨機森林? 支持向量機
中圖分類號:F224.9? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)10(c)-0157-03
Abstract: With the rise of Internet finance in China, personal credit risk has become the focus of many enterprises. Based on the exploration of personal credit loan data set in LendingClub website, this paper constructed three machine learning methods based on XGBoost and Logistics regression combination algorithm xGboost-LR model, random forest and support vector machine algorithm to comprehensively evaluate personal credit risk. Through empirical data analysis, the newly constructed XGBoost-LR algorithm has the best evaluation effect and can predict personal credit risk more accurately.
Key Words: Credit risk assessment; Xgboost - LR algorithm; Random forest; Support vector machine
隨著我國金融業(yè)的日漸興盛,各種各樣的金融產(chǎn)品層出不窮。對于投資者尤其是放貸方來講,就需要綜合考慮風(fēng)險控制,這也是企業(yè)運營的基礎(chǔ)性工作。面對海量數(shù)據(jù),從中迅速可靠地判斷貸款者的個人信用風(fēng)險是非常困難的事情(見表1),單靠人工是無法完成的。目前機器學(xué)習(xí)方法已經(jīng)非常成熟,然而比較合理地運用到金融領(lǐng)域的個人風(fēng)險評估還不是很多。本文試圖探索利用機器學(xué)習(xí)算法來對個人信用風(fēng)險進(jìn)行評價。在個人信用風(fēng)險評估領(lǐng)域,logistic regression是非常成熟的模型,它將違約概率作為標(biāo)準(zhǔn)。然而這個算法有許多的缺陷,主要對于特征變量要求很高。為了克服這一個缺點,本文采用了xgboost算法來提取組合特征。為了訓(xùn)練機器學(xué)習(xí)模型并進(jìn)行驗證,本文借助了LendingClub提供的歷史借貸數(shù)據(jù),首先用xgboost以CART為基學(xué)習(xí)器挖掘出反映個人信用風(fēng)險組合特征,然后將xgboost通過最小化損失函數(shù)方法分割出來的組合特征加入原始數(shù)據(jù)集,構(gòu)建logistic regression個人信用風(fēng)險評估模型。通過與其余算法實際對比驗證,發(fā)現(xiàn)新構(gòu)建的xgboost-LR算法評價效果最好,能夠在最短的時間內(nèi)完成運算,得出預(yù)測結(jié)果,準(zhǔn)確率也令人滿意。
1? 基于機器學(xué)習(xí)方法的個人信用風(fēng)險評估
1.1 xgboost-LR算法
在基于logistic regression個人信用風(fēng)險評估領(lǐng)域中,以特征變量預(yù)測能力篩選構(gòu)造的特征集往往不能充分度量信用風(fēng)險。xgboost算法對于個人信用風(fēng)險組合特征的挖掘能力,幾乎決定了xgboost-LR模型效果的好壞。xgboost-LR是 logistic regression和xgboost的組合模型,首先通過Xgboost模型構(gòu)造對個人信用風(fēng)險具有區(qū)分性新的組合特征,然后結(jié)合原始特征訓(xùn)練logistic regression個人風(fēng)險評估模型。xgboost模型十分地好用,其應(yīng)用于個人信用風(fēng)險評估的時候,xgboost的參數(shù)設(shè)置需要十分的科學(xué)和合理。xgboost模型參數(shù)主要包含通用參數(shù)、任務(wù)參數(shù)和輔助參數(shù)。xgboost構(gòu)建對個人信用風(fēng)險具有區(qū)分性的組合特征時,采取合適的參數(shù)使模型效果大大提高效率和準(zhǔn)確性。其基本步驟如下:
Step1:xgboost模型采取合適的參數(shù),對歷史借貸數(shù)據(jù)集進(jìn)行訓(xùn)練,構(gòu)建棵決策樹。
Step2:列舉所有迭代生成的回歸樹:
其中,qi表示每棵樹的葉子節(jié)點數(shù),表示葉子的score。
Step3:對于任意借貸客戶,其必然會落在每棵樹的某個葉子節(jié)點上。假設(shè)該借貸客戶在第n棵樹落在第in個葉子節(jié)點中,則由第n棵樹構(gòu)造的組合特征為[01,02....,1in,...,0qn],0表示該借貸客戶沒有落在此葉子節(jié)點,1正好相反。
Step4:將Tn個組合特征加入原始數(shù)據(jù)特征集組成新的數(shù)據(jù)集,輸入到logistic regression算法中。
1.2 使用隨機森林算法的風(fēng)險評估原理
Breiman(2001)首次結(jié)合了 Bagging 集成思想和決策樹算法,在隨機子空間的理論基礎(chǔ)上,提出了隨機森林(Random Forest,簡稱RF)算法。Bagging是并行式集成學(xué)習(xí)中最具有代表性的方法之一,它直接基于自助采樣法(bootstrap sampling)。RF算法在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,在決策樹的訓(xùn)練過程中進(jìn)一步引入隨機屬性選擇。傳統(tǒng)決策樹在劃分屬性時是在當(dāng)前結(jié)點的屬性集合(假定有d個屬性)中選擇一個最優(yōu)屬性;而在RF中,對基決策樹的每個結(jié)點,先從該結(jié)點的屬性集合中隨機選擇一個包含k個屬性的子集,然后再從這個子集中選擇一個最優(yōu)屬性用于劃分,對風(fēng)險過大的主體進(jìn)行預(yù)警。
1.3 使用支持向量機方法的風(fēng)險評估原理
為了解決分類和回歸問題,Vapnik于1995年提出支持向量機(Support Vector Machine,簡稱SVM)。由于在文本分類任務(wù)中表現(xiàn)出卓越的性能,很快成為機器學(xué)習(xí)的主流技術(shù)。SVM的基礎(chǔ)思想是推導(dǎo)出一個可以最大化兩類間邊距的最優(yōu)超平面,SVM的一個優(yōu)點是通過非線性函數(shù)?將數(shù)據(jù)投影到一個高維空間,可以找到一個非線性的決策邊界。
2? 個人信用風(fēng)險評估的建模分析及應(yīng)用
從LendingClub網(wǎng)站上下載2019年第1季度個人信用貸款數(shù)據(jù)集,一共包含了115675人的貸款信息,144個特征。特征包括借款人申請貸款金額、借款人年收入、借款人分期還款金額等;目標(biāo)變量為loan_status(貸款狀態(tài)),包括違約和不違約兩大類。針對數(shù)據(jù)集的不平衡問題,我們采取合成少數(shù)過采樣技術(shù)(Synthetic Minority Oversampling Technique, 簡稱SMOTE)進(jìn)行處理平衡數(shù)據(jù)。SMOTE算法克服了簡單隨機過采樣算法容易導(dǎo)致的過擬合問題,SMOTE算法的基本思想是對少數(shù)類樣本進(jìn)行分析,并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。這樣一來,我們數(shù)據(jù)集足夠訓(xùn)練成熟我們的算法模型。通過SMOTE方法平衡正負(fù)樣本后樣本總個數(shù):227812;正樣本占50.00%;負(fù)樣本占50.00%。而后對模型評價指標(biāo)進(jìn)行選取。
采用傳統(tǒng)的與accruacy類似的評價指標(biāo)時效果并不突出。為了更好地評價模型效果,指標(biāo)必須能夠做到給那些將所有樣本都判定為正樣本的模型以低分,因此,我們采用接收者操作曲線下面積(Area Under Receiver Operating Curve,簡稱AUROC)作為模型的評價指標(biāo)。AUROC的值被定義為ROC曲線下的面積,取值范圍一般在0.5和1之間。由于很多時候ROC曲線并不能清晰地說明分類器的效果,而作為一個數(shù)值,使用AUROC值作為評價標(biāo)準(zhǔn)分類效果更好,并且對應(yīng)AUROC值更大的分類器效果越好。
使用python實現(xiàn)所構(gòu)建的三種機器學(xué)習(xí)算法,運行個人信用風(fēng)險評估預(yù)警模型,可以鑒別信用風(fēng)險較高的個人。所得到的三種模型的AUROC值如表2所示,可以看出xgboost-LR模型對企業(yè)風(fēng)險的評估和預(yù)警效果最好,AUROC值高達(dá)0.992。RF模型與xgboost模型結(jié)果相差不大,AUROC值也達(dá)到了0.990。相比較而言,SVM的AUROC的得分值最低,但是也達(dá)到了0.917以上。
根據(jù)三種模型實驗結(jié)果繪制的AUROC曲線,如下圖1所示。
觀察3種個人信用風(fēng)險評估模型在數(shù)據(jù)集上的實驗結(jié)果AUROC曲線可以發(fā)現(xiàn),所選模型在此數(shù)據(jù)集上的評估表現(xiàn)都比較好,可以較快地達(dá)到評估的良好狀態(tài)。并且程序的運行時間較短(3種方法都可以在10min內(nèi)完成),可以隨著數(shù)據(jù)更新實時多次運行,做快速的風(fēng)險評估和預(yù)警。因此基于機器學(xué)習(xí)模型對個人信用風(fēng)險進(jìn)行評估和預(yù)警是有效可行的。
3? 結(jié)語
本文將logistic regression與xgboost組合算法xgboost-LR應(yīng)用到個人信用風(fēng)險評估領(lǐng)域,單一logistic regression模型對個人信用風(fēng)險評估,由于其很難擬合特征之間交互作用對信用風(fēng)險的影響,導(dǎo)致其預(yù)測精度偏低,可以通過xgboost提取對信用風(fēng)險具有區(qū)分性的組合特征,避免重要信息的遺漏,提高預(yù)測精度。并且同時使用隨機森林模型和支持向量機模型評估個人信用風(fēng)險,AUROC值也都可達(dá)到0.9左右,具有較穩(wěn)定地判別信用風(fēng)險較高的個人。在實際工作中,可以將幾種方法綜合應(yīng)用,達(dá)到更好的預(yù)測結(jié)果。
參考文獻(xiàn)
[1] Li H,Cao Y,Li S,et al. XGBoost Model and itsApplication to Personal Credit valuation.IEEEIntelligentSystems,2020.DOI:10.1109/MIS.2020.2972533.
[2] Munkhdalai L,Munkhdalai T, et al. An Empirical Comparison of Machine-Learning Methods on Bank Client Credit Assessments[J]. Sustainability, 2019,11(3):699-722.
[3] Wang S,F(xiàn)u B,Liu H, et al. Feature Engineering for Credit Risk Evaluation in Online P2P Lending[J]. 2017, 9(2):1-13.
[4] Sang H V,Nam N H,Nhan N D.A Novel Credit Scoring Prediction Model based on FeatureSelection Approach and Parallel Random Forest[J]. Indian Journal of Science & Technology,2016 :9-20.
[5] Yulian Mo,Yu Fei.The Application of Credit Approval Based on Machine Learning Classification Method [J].Hans Journal of Data Mining Vol.06 No.03 2016 :10.
[6] Chen T, He T, BenestyM. xgboost:Extreme Gradient Boosting[J].2016, 5 (9) :222-208.
[7] 徐婷婷.隨機森林在P2P網(wǎng)貸借款信用風(fēng)險評估中的應(yīng)用[D].濟南:山東大學(xué),2017.
[8] Li G, ShiY,Zhang Z. P2PDefault Risk Prediction based on XGBoost, SVM and RF Fusion Model[C]// 1st International Conference on Business, Economics, ManagementScience(BEMS2019),AtlantisPress.2019.
[9] Li H,Cao Y,Li S,et al. XGBoost Model and itsApplication to Personal Credit valuation.IEEEIntelligentSystems,2020.DOI:10.1109/MIS.2020.2972533.
[10] Munkhdalai L, Munkhdalai T, et al. An Empirical Comparison of Machine-Learning Methods on Bank Client Credit Assessments[J]. Sustainability. 2019,11(3):699-722.