摘 要:為實(shí)現(xiàn)全面準(zhǔn)確地評(píng)估個(gè)人信貸風(fēng)險(xiǎn),首先,研究了借貸人的各項(xiàng)個(gè)人信息指標(biāo)在信用風(fēng)險(xiǎn)評(píng)估中的重要性;接著,基于Python編程語(yǔ)言采用XGBoost集成學(xué)習(xí)方法搭建了一套個(gè)人貸款信用評(píng)估模型;隨后,結(jié)合SHAP方法篩選出合理的信用評(píng)估指標(biāo),完善了評(píng)估模型;最后,基于LabVIEW平臺(tái)開發(fā)個(gè)人貸款信用評(píng)估系統(tǒng)。研究結(jié)果表明:最終篩選的指標(biāo)能更有效地評(píng)估個(gè)人信貸風(fēng)險(xiǎn),可以為金融行業(yè)提供一個(gè)更有效的個(gè)人信貸風(fēng)險(xiǎn)評(píng)估系統(tǒng)。
關(guān)鍵詞:信貸風(fēng)險(xiǎn);XGBoost算法;SHAP;信用評(píng)估;Python
中圖分類號(hào):TP39;TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)08-0146-06
DOI:10.19850/j.cnki.2096-4706.2024.08.032
0 引 言
隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展和國(guó)民超前消費(fèi)理念的產(chǎn)生,個(gè)人貸款成為人民日常生活中的一個(gè)重要組成部分,涵蓋了個(gè)人購(gòu)房貸款、個(gè)人汽車貸款、個(gè)人助學(xué)貸款、個(gè)人留學(xué)貸款、個(gè)人消費(fèi)貸款、個(gè)人經(jīng)營(yíng)貸款等。銀行或金融服務(wù)公司在決策客戶個(gè)人貸款時(shí),涉及兩類風(fēng)險(xiǎn):一是客戶有償還貸款的能力,不批準(zhǔn)貸款將導(dǎo)致業(yè)務(wù)丟失;二是客戶無(wú)償還貸款的能力,批準(zhǔn)貸款則有可能客戶違約導(dǎo)致經(jīng)濟(jì)損失。截至2020年第三季度末,全國(guó)銀行卡授信總額達(dá)18.59萬(wàn)億,授信使用率達(dá)41.78%,信用卡逾期半年未償信貸總額達(dá)906.63億元,占信用卡應(yīng)償信貸余額的1.17% [1]。原有的個(gè)人信貸風(fēng)險(xiǎn)評(píng)估系統(tǒng)已經(jīng)無(wú)法滿足現(xiàn)階段金融行業(yè)的需求,金融機(jī)構(gòu)為了增加收益,在開發(fā)金融產(chǎn)品的同時(shí),也需要使用科學(xué)、嚴(yán)謹(jǐn)?shù)姆治龇椒ㄟM(jìn)行個(gè)人信用評(píng)估,避免帶來(lái)不可估量的經(jīng)濟(jì)損失。因此,構(gòu)建一個(gè)更加全面的風(fēng)險(xiǎn)評(píng)估系統(tǒng)對(duì)信用貸款市場(chǎng)的發(fā)展具有重要的意義。
隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和XGBoost模型等是目前個(gè)人信用貸款風(fēng)險(xiǎn)評(píng)估中最常用的統(tǒng)計(jì)學(xué)習(xí)模型[2,3]。李奕蒙[4]對(duì)銀行個(gè)人貸款信用風(fēng)險(xiǎn)的相關(guān)問題進(jìn)行了分析研究,為了提高個(gè)人信貸風(fēng)險(xiǎn)的預(yù)測(cè)率,構(gòu)建了BP神經(jīng)網(wǎng)絡(luò)模型,采用遺傳算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了優(yōu)化。嚴(yán)亦寬等[5]采用決策樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)這三類非線性算法對(duì)企業(yè)信用評(píng)級(jí)調(diào)整情況進(jìn)行數(shù)據(jù)挖掘,構(gòu)建的模型具有很高的預(yù)測(cè)準(zhǔn)確率。張麗穎等[6]采用機(jī)器學(xué)習(xí)的方法構(gòu)建個(gè)人貸款違約預(yù)測(cè)模型,采用Stacking方式綜合利用隨機(jī)森林、XGBoost和K近鄰模型的優(yōu)點(diǎn),提高模型預(yù)測(cè)的效果。周永圣等[7]采用改進(jìn)的隨機(jī)森林模型評(píng)估個(gè)人信用風(fēng)險(xiǎn),通過優(yōu)化特征選擇從而降低指標(biāo)維數(shù),最終提高了分類準(zhǔn)確率。
綜上分析可知,關(guān)于個(gè)人信貸風(fēng)險(xiǎn)預(yù)測(cè)的模型研究日益豐富,但現(xiàn)有的評(píng)估模型已經(jīng)不能滿足目前信貸市場(chǎng)的需求。盡管收集更多的個(gè)人信息有利于提高個(gè)人信用評(píng)估的準(zhǔn)確性,但給客戶帶來(lái)了很多不便,加重了授信審批人員信息核實(shí)的工作量,因此,設(shè)計(jì)基于XGBoost和SHAP方法的個(gè)人貸款信用評(píng)估模型是極其必要和重要的。
1 基礎(chǔ)理論
1.1 XGBoost集成學(xué)習(xí)方法
XGBoost全稱是極度提升樹(eXtreme Gradient Boosting)是一種高效的Boosting集成學(xué)習(xí)模型框架,它通過集成多個(gè)基學(xué)習(xí)器形成一個(gè)強(qiáng)學(xué)習(xí)器,得到強(qiáng)大的預(yù)測(cè)結(jié)果和十分高效的運(yùn)算效率。近年來(lái),XGBoost因其學(xué)習(xí)效果好,訓(xùn)練速度快而受到了廣泛的關(guān)注。本文僅對(duì)基于分類決策樹的XGBoost集成算法展開討論。
XGBoost的基本思想是:
1)許多弱分類器的組合就是一個(gè)強(qiáng)分類器,最終預(yù)測(cè)值為所有決策樹預(yù)測(cè)值的加權(quán)和。
2)不斷在錯(cuò)誤中學(xué)習(xí),用迭代來(lái)降低犯錯(cuò)的概率。
XGBoost模型由目標(biāo)函數(shù)、分類回歸樹、梯度提升和預(yù)測(cè)函數(shù)組成[8]。
目標(biāo)函數(shù)的公式是:
(1)
式中: 為所有基分類器中的損失函數(shù)之和; 為預(yù)測(cè)值" 和真實(shí)值nbsp; 之間的誤差。
(2)
式中:Ω( f )為模型的正則化項(xiàng),用來(lái)降低模型的過擬合問題和復(fù)雜度;T為葉子子節(jié)點(diǎn)的個(gè)數(shù);λ為懲罰的力度;w為葉子節(jié)點(diǎn)的輸出分?jǐn)?shù);1/2 為w的L2模平方。
若模型的目標(biāo)函數(shù)越小,則模型的預(yù)測(cè)效果就越好。
XGBoost的基分類器是分類回歸樹,即CART。XGBoost算法是利用一種加法模型將CART組合起來(lái),每一棵CART的建立都會(huì)擬合上一棵CART預(yù)測(cè)的誤差。所以,隨著CART的添加,基本分類器的損失函數(shù)也會(huì)逐漸地降低。
提升過程方面,迭代表達(dá)式如式(3):
(3)
將式(3)近似地用二階泰勒展開為式(4):
(4)
式中:gi為一階導(dǎo);hi為二階導(dǎo)。
通過消除常數(shù)項(xiàng) ,得到t迭代的簡(jiǎn)化目標(biāo)方程為:
(5)
定義" 為葉子節(jié)點(diǎn)j的樣本集合,將正則項(xiàng)擴(kuò)展為:
(6)
定義 ,,式(6)可以化簡(jiǎn)為:
(7)
在上述式子中,每一個(gè)wj是相互獨(dú)立的,那么針對(duì)一元二次方程 1/2 而言,當(dāng)新增的這棵樹的結(jié)構(gòu)q(x)已知的情況下,目標(biāo)函數(shù)最小值下的wj:
(8)
將" 代入式(7)可得:
(9)
式(9)是t次循環(huán)迭代后的最優(yōu)目標(biāo)函數(shù)值。所以樹結(jié)構(gòu)q的評(píng)分函數(shù)是:
(10)
XGBoost的預(yù)測(cè)函數(shù)是:
(11)
式中:fk(xi)為樣本xi來(lái)自第k個(gè)基本分類器的輸出值; 為K個(gè)基本分類器給出的樣本xi的輸出值之和。
1.2 SHAP解釋XGBoost模型
為了進(jìn)一步明確各指標(biāo)相對(duì)于目標(biāo)變量的正/負(fù)關(guān)系,需使用一種方法對(duì)XGBoost模型進(jìn)行解釋分析。SHAP(Shapley Additive Explanations)解釋法是Lundberg等人[9]提出的一種機(jī)器學(xué)習(xí)模型解釋方法。SHAP具備輸出結(jié)果的可加一致性,對(duì)于每個(gè)預(yù)測(cè)樣本,模型都出現(xiàn)一個(gè)預(yù)測(cè)值,SHAP值是該樣本中每個(gè)特征所分配到的數(shù)值,其中SHAP值是Shapley [10]基于合作博弈理論首次提出的。
假設(shè)第i個(gè)樣本為xi,第i個(gè)樣本的第j個(gè)特征為xij,模型對(duì)第i個(gè)樣本的預(yù)測(cè)值為yi,所有樣本預(yù)測(cè)均值為ybase,那么xij的SHAP值服從以下等式:
(12)
式中:f (xi, j)為xij的SHAP值。這一特質(zhì)確保了貢獻(xiàn)值的加和等于最終輸出,使得這種解釋方法消除了各個(gè)模型間結(jié)構(gòu)差異帶來(lái)的解釋性差異。
不同于以往的線性模型使用參數(shù)的大小或正負(fù)衡量某一指標(biāo)對(duì)于模型的貢獻(xiàn),SHAP方法將每個(gè)樣本的指標(biāo)組合貢獻(xiàn)通過SHAP值計(jì)算出來(lái),可以反映出每個(gè)樣本中的特征的影響力,同時(shí)還能表現(xiàn)出該特征影響的正負(fù)性。當(dāng)SHAP值小于零時(shí),表示該特征使得預(yù)測(cè)值降低,有負(fù)向作用;當(dāng)SHAP值大于零時(shí),表示該特征使得預(yù)測(cè)值升高,有正向作用。若SHAP值的絕對(duì)值越大,說(shuō)明其對(duì)結(jié)果的影響越大。
通過SHAP方法最終將會(huì)得到在每個(gè)樣本中各個(gè)指標(biāo)的貢獻(xiàn)度SHAP值,從而反映出該指標(biāo)在模型中的重要性,如果某指標(biāo)在大多數(shù)樣本上表現(xiàn)出了一致的趨勢(shì),那么說(shuō)明模型認(rèn)定這一指標(biāo)具有重要的正向或者負(fù)向作用,因此,可以利用SHAP方法來(lái)解釋XGBoost模型中各指標(biāo)對(duì)結(jié)果作用的正負(fù)性及大小。
2 個(gè)人信貸風(fēng)險(xiǎn)評(píng)估系統(tǒng)的構(gòu)建
2.1 系統(tǒng)構(gòu)成
該個(gè)人貸款信用風(fēng)險(xiǎn)評(píng)估系統(tǒng)是基于LabVIEW平臺(tái)開發(fā)的,分為服務(wù)器端和客戶端系統(tǒng)。其中服務(wù)器端系統(tǒng)主要通過基于XGBoost集成學(xué)習(xí)方法結(jié)合SHAP的Python編程語(yǔ)言來(lái)實(shí)現(xiàn)個(gè)人貸款信用風(fēng)險(xiǎn)評(píng)估模型的訓(xùn)練、更新和評(píng)估;客戶端系統(tǒng)主要分為四大模塊:用戶管理模塊、信用風(fēng)險(xiǎn)評(píng)估模塊、風(fēng)險(xiǎn)預(yù)警管理模塊、客戶風(fēng)險(xiǎn)跟蹤模塊,具體內(nèi)容如下:
1)用戶管理模塊。該模塊主要包括對(duì)用戶信息的查詢、修改和權(quán)限設(shè)置。用戶的角色分為三種:管理員、客戶經(jīng)理和部門主管。管理員具有查詢、編輯、刪除用戶的權(quán)限;客戶經(jīng)理具有發(fā)起信用風(fēng)險(xiǎn)評(píng)估、維護(hù)和查看自己名下客戶信息、跟蹤已發(fā)放貸款客戶信用情況的權(quán)限;部門主管具有查看所有客戶經(jīng)理信息和查看所有客戶信用評(píng)估的權(quán)限,用戶管理模塊的某一界面(用戶信息由管理員導(dǎo)入)如圖1所示。
2)信用風(fēng)險(xiǎn)評(píng)估模塊。信用風(fēng)險(xiǎn)評(píng)估模塊主要包含發(fā)起風(fēng)險(xiǎn)評(píng)估和歷史評(píng)估數(shù)據(jù)查詢功能。發(fā)起風(fēng)險(xiǎn)評(píng)估功能會(huì)根據(jù)錄入的客戶基本信息,結(jié)合訓(xùn)練好的基于XGBoost和SHAP的個(gè)人貸款風(fēng)險(xiǎn)評(píng)估模型,對(duì)客戶風(fēng)險(xiǎn)進(jìn)行評(píng)估,最終優(yōu)化后的客戶基本信息重要性分布如圖2所示。
客戶信息按照重要性分成三級(jí),其中最重要的第一級(jí)有工作經(jīng)歷和負(fù)債收入比率信息;第二級(jí)有年齡和信用卡負(fù)債率信息;第三級(jí)有家庭信息和受教育程度等信息。綜合這些客戶信息的重要程度,客戶經(jīng)理在人工核實(shí)信息時(shí),可以知道哪些信息是起決定性作用的,避免重要信息的遺漏。
進(jìn)入風(fēng)險(xiǎn)評(píng)估模塊,點(diǎn)擊發(fā)起評(píng)估功能,按照相應(yīng)操作準(zhǔn)確填寫相關(guān)客戶基本信息,系統(tǒng)便會(huì)對(duì)客戶風(fēng)險(xiǎn)進(jìn)行評(píng)估,客戶風(fēng)險(xiǎn)評(píng)估模塊的某一界面如圖3所示。
3)風(fēng)險(xiǎn)預(yù)警管理模塊。風(fēng)險(xiǎn)預(yù)警管理模塊主要針對(duì)已放貸客戶,客戶經(jīng)理在客戶信息有變化后,重新對(duì)其進(jìn)行風(fēng)險(xiǎn)評(píng)估,篩選出可能有風(fēng)險(xiǎn)的客戶,客戶經(jīng)理可以重點(diǎn)跟蹤并給出貸款還款提醒,模塊界面如圖4所示。
4)客戶風(fēng)險(xiǎn)跟蹤模塊。該模塊主要針對(duì)已放款客戶,在有逾期記錄時(shí),及時(shí)維護(hù)和更新該客戶的數(shù)據(jù),并將該數(shù)據(jù)作為新的已打標(biāo)簽的測(cè)試樣本。這樣定期更新風(fēng)險(xiǎn)評(píng)估系統(tǒng),有助于提高評(píng)估系統(tǒng)的準(zhǔn)確度,流程如圖5所示。
打開風(fēng)險(xiǎn)跟蹤模塊,即可快速查看客戶的最新數(shù)據(jù),該模塊含有放貸客戶名單和客戶逾期名單兩個(gè)功能,客戶風(fēng)險(xiǎn)跟蹤模塊某一界面圖如圖6所示。
綜上所述:個(gè)人貸款信用評(píng)估風(fēng)險(xiǎn)系統(tǒng)能通過借貸人的主要信息指標(biāo)來(lái)預(yù)測(cè)客戶的借貸風(fēng)險(xiǎn),能隨時(shí)跟蹤更新客戶的個(gè)人信息,提高系統(tǒng)的評(píng)估準(zhǔn)確度,大大減少了銀行授信審批人員的信息核實(shí)工作量,降低了銀行借貸風(fēng)險(xiǎn),同時(shí)也可以避免客戶出現(xiàn)違約的情況。
2.2 基于XGBoost和SHAP的風(fēng)險(xiǎn)評(píng)估模型
為了測(cè)試模型預(yù)測(cè)結(jié)果的準(zhǔn)確性,對(duì)評(píng)估模型進(jìn)行了訓(xùn)練測(cè)試,實(shí)驗(yàn)訓(xùn)練模型的數(shù)據(jù)來(lái)源于Kaggle機(jī)器學(xué)習(xí)競(jìng)賽中的發(fā)放銀行貸款的信用風(fēng)險(xiǎn)分析數(shù)據(jù)集。該數(shù)據(jù)集共有1 150條客戶數(shù)據(jù)。包含客戶年齡、教育水平、工作經(jīng)歷、客戶住址、客戶年收入、負(fù)債收入比率、信用卡負(fù)債率、其他債務(wù)和歷史違約記錄。
根據(jù)訓(xùn)練樣本中的數(shù)據(jù)整理出各指標(biāo)中客戶是否違約的分布情況,其中0表示未違約,1表示違約,各項(xiàng)指標(biāo)的違約分布情況如圖7所示。
從圖7中可以看出,未違約與違約兩種情況下,每一項(xiàng)指標(biāo)都存在比較多的交叉區(qū)域,難以從單一指標(biāo)去判斷是否違約。但是可以從中找到一些分布規(guī)律,例如,年齡小的客戶違約的可能性更大,銀行在貸款授信審批時(shí)應(yīng)該更加警惕;債務(wù)收入比率高的客戶違約的可能性明顯偏大,銀行應(yīng)對(duì)這類客戶重點(diǎn)關(guān)注;工作年限長(zhǎng)的客戶違約的可能性更小,銀行可以對(duì)這類客戶給予充足的信任。
分析了客戶違約分布情況,現(xiàn)將利用該數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練測(cè)試,從數(shù)據(jù)集中隨機(jī)選擇920條數(shù)據(jù)作為訓(xùn)練樣本,230條數(shù)據(jù)作為測(cè)試樣本,XGBoost模型的混淆矩陣如圖8所示,基于SHAP方法下的指標(biāo)重要性排序如圖9所示。
由圖8的混淆矩陣可知,檢測(cè)樣本為230個(gè)時(shí),預(yù)測(cè)正確的個(gè)數(shù)為204個(gè),預(yù)測(cè)準(zhǔn)確度為88.7%,預(yù)測(cè)精度較好。但由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)需要較多樣本,而測(cè)試時(shí)訓(xùn)練數(shù)據(jù)存在限制,所以精度不是很高,若數(shù)據(jù)量增加會(huì)使預(yù)測(cè)正確率有一定的上升。
圖9的指標(biāo)重要性排序可以發(fā)現(xiàn),工作經(jīng)歷對(duì)違約情況預(yù)測(cè)的重要性最大,可以大致將客戶信息按照重要性分成三級(jí),其中最重要的第一級(jí)有工作經(jīng)歷和負(fù)債收入比率信息;第二級(jí)有年齡和信用卡負(fù)債率信息;第三級(jí)有家庭信息和受教育程度等信息。根據(jù)這些指標(biāo)的分級(jí)情況??蛻艚?jīng)理在采集客戶信息時(shí)可以從以下兩個(gè)方面優(yōu)化工作:
1)重點(diǎn)關(guān)注第一級(jí)和第二級(jí)信息的真實(shí)性。
2)由于債務(wù)收入比、年齡、信用卡負(fù)債率、家庭信息和受教育程度比較容易量化,而工作經(jīng)歷的量化可以從個(gè)人和單位多維度進(jìn)行評(píng)價(jià),從而確保強(qiáng)相關(guān)指標(biāo)評(píng)價(jià)的合理性。
3 結(jié) 論
針對(duì)銀行和金融服務(wù)行業(yè)在發(fā)放客戶個(gè)人貸款時(shí)會(huì)遇到的各種風(fēng)險(xiǎn),深入研究客戶個(gè)人貸款信用風(fēng)險(xiǎn)評(píng)估的影響因素指標(biāo),構(gòu)建了較為全面的個(gè)人貸款信用風(fēng)險(xiǎn)評(píng)估系統(tǒng)。該系統(tǒng)運(yùn)用XGBoost和SHAP方法,利用銀行貸款的信用風(fēng)險(xiǎn)分析數(shù)據(jù)集來(lái)實(shí)現(xiàn)個(gè)人貸款信用風(fēng)險(xiǎn)評(píng)估模型的訓(xùn)練、更新和評(píng)估。該評(píng)估系統(tǒng)主要分為四大模塊:用戶管理模塊、信用風(fēng)險(xiǎn)評(píng)估模塊、風(fēng)險(xiǎn)預(yù)警管理模塊、客戶風(fēng)險(xiǎn)跟蹤模塊。該系統(tǒng)是一個(gè)動(dòng)態(tài)的跟蹤系統(tǒng),可以記錄客戶的基本個(gè)人信息,同時(shí)還能及時(shí)更新客戶貸款信息,從而快速準(zhǔn)確地跟蹤出具有信貸風(fēng)險(xiǎn)的客戶名單,更為嚴(yán)謹(jǐn)?shù)卦u(píng)估了客戶的個(gè)人信貸風(fēng)險(xiǎn),讓銀行管理者及時(shí)了解到自己客戶的最新信息,避免客戶出現(xiàn)違約的情況,降低信貸風(fēng)險(xiǎn)。
根據(jù)以上分析,得到啟示:
1)針對(duì)所選樣本數(shù)據(jù)集對(duì)模型進(jìn)行測(cè)試,得到了較為準(zhǔn)確的預(yù)測(cè)結(jié)果,有力地驗(yàn)證了評(píng)估系統(tǒng)的有效性與合理性。
2)構(gòu)建的個(gè)人貸款信用風(fēng)險(xiǎn)評(píng)估模型可以幫助銀行管理者根據(jù)自己客戶所處的不同信用風(fēng)險(xiǎn)級(jí)別是否存在違約風(fēng)險(xiǎn),及時(shí)、有效地制定解決方案,有利于降低個(gè)人貸款風(fēng)險(xiǎn)。
3)進(jìn)一步豐富了征信建設(shè),提高了銀行的業(yè)務(wù)效率,保持了風(fēng)險(xiǎn)和效益的平衡發(fā)展,提高貸款的經(jīng)濟(jì)效益,對(duì)整個(gè)信貸行業(yè)的發(fā)展具有重要意義。
參考文獻(xiàn):
[1] MARQUéS A I,GARCíA V,SáNCHEZ J S,et al. A Literature Review on the Application of Evolutionary Computing to Credit Scoring [J].Journal of the Operational Research Society,2013,64(9):1384-1399.
[2] NISHA A,DEEP KAUR P. A Bolasso Based Consistent Feature Selection Enabled Random Forest Classification Algorithm: An Application to Credit Risk Assessment [J].Applied Soft Computing,2020,86:1-15.
[3] 逯瑤瑤.基于機(jī)器學(xué)習(xí)分類算法的貸款違約預(yù)測(cè)研究 [D].蘭州:蘭州大學(xué),2021.
[4] 李奕蒙.基于神經(jīng)網(wǎng)絡(luò)的中小商業(yè)銀行個(gè)人貸款違約風(fēng)險(xiǎn)研究 [D].成都:西南財(cái)經(jīng)大學(xué),2019.
[5] 嚴(yán)亦寬,薛巍立.基于機(jī)器學(xué)習(xí)的信用評(píng)級(jí)調(diào)整研究 [J].南大商學(xué)評(píng)論,2018(3):88-100.
[6] 張麗穎,楊若瑾.基于機(jī)器學(xué)習(xí)的個(gè)人貸款違約預(yù)測(cè)模型的應(yīng)用研究 [J].金融監(jiān)管研究,2022(6):46-59.
[7] 周永圣,崔佳麗,周琳云,等.基于改進(jìn)的隨機(jī)森林模型的個(gè)人信用風(fēng)險(xiǎn)評(píng)估研究 [J].征信,2020,38(1):28-32.
[8] 牛彩芳.基于XGBoost算法的信用評(píng)級(jí)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].武漢:中南財(cái)經(jīng)政法大學(xué),2020.
[9] LUNDBERG S,LEE S-I. A Unified Approach to Interpreting Model Predictions [J/OL].arXiv:1705.07874 [cs.AI].(2017-05-22).https://arxiv.org/abs/1705.07874.
[10] SHAPLEY L S. A Value for N-person Games [J].Technical Report, Santa Monica: Rand Corporation,1952,295:1-13.
作者簡(jiǎn)介:伍潔(2003—),女,漢族,湖北黃岡人,本科在讀,研究方向:金融數(shù)學(xué);通訊作者:陳迪芳(1986—),女,漢族,湖北十堰人,副教授,博士,研究方向:金融統(tǒng)計(jì)、數(shù)字經(jīng)濟(jì)與綠色金融;李瑞彤(2003—),女,漢族,湖北荊州人,本科在讀,研究方向:金融數(shù)學(xué);石景陽(yáng)(2003—),男,漢族,湖北隨州人,本科在讀,研究方向:金融數(shù)學(xué)。
收稿日期:2023-08-19
基金項(xiàng)目:湖北省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(S202210525055);教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目(202101087049);湖北省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(S202210525056)
Research on the Personal Credit Risk Assessment Based on XGBoost and SHAP Methods
WU Jie, CHEN Difang, LI Ruitong, SHI Jingyang
(School of Mathematics, Physics and Optoelectronic Engineering, Hubei University of Automotive Technology, Shiyan 442002, China)
Abstract: To achieve a comprehensive and accurate assessment of personal credit risk, firstly, the importance of various personal information indicators of borrowers in credit risk assessment is studied. Next, based on Python programming language and XGBoost integrated learning method, a personal loan credit assessment model is constructed. Subsequently, reasonable credit assessment indicators are selected by using the SHAP method to improve the assessment model. Finally, it develops a personal loan credit evaluation system based on the LabVIEW platform. The research results indicate that the final selected indicators can more effectively evaluate personal credit risk, and can provide a more effective personal credit risk assessment system for the financial industry.
Keywords: credit risk; XGBoost algorithm; SHAP; credit evaluation; Python