• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于XGBoost算法和LightGBM 算法的貸款違約預(yù)測(cè)模型研究

      2022-01-11 09:42:28唐一峰
      現(xiàn)代計(jì)算機(jī) 2021年32期
      關(guān)鍵詞:貝葉斯貸款變量

      唐一峰

      (廣西師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,桂林 541006)

      0 引言

      近年來(lái),隨著社會(huì)生活水平的提高,人們的消費(fèi)需求、消費(fèi)能力日益增長(zhǎng),但是絕大多數(shù)的年輕人并沒(méi)有一定的經(jīng)濟(jì)儲(chǔ)蓄,這就意味著大多數(shù)人的消費(fèi)都離不開貸款的支持,例如:房貸、車貸以及各種分期消費(fèi)貸款等等。隨著互聯(lián)網(wǎng)企業(yè)的興起,貸款不再是銀行獨(dú)有的業(yè)務(wù),支付寶的“借唄”“花唄”,微信的“微粒貸”,京東的“白條”等等,還有各種互聯(lián)網(wǎng)P2P平臺(tái)都能提供一定額度的貸款,貸款與人們的生活日益緊密。根據(jù)中國(guó)人民銀行最新公布的金融機(jī)構(gòu)人民幣信貸收支數(shù)據(jù)顯示,2021 年1 月各項(xiàng)存款為2161418.83 億元,貸款總額為1763234.93 億元,其中住戶貸款為644532.95億元;2021年2月各項(xiàng)存款為2172935.17 億元,貸款總額為1776828.68億元,其中住戶貸款為645994.37 億元;2021 年3月各項(xiàng)存款為2209233.14 億元,貸款總額為1804131.37 億元,其中住戶貸款為657466.81 億元。各項(xiàng)數(shù)據(jù)均顯示貸款是我國(guó)的社會(huì)經(jīng)濟(jì)發(fā)展的重要一環(huán),因此各金融機(jī)構(gòu)要嚴(yán)格控制貸款發(fā)放,針對(duì)用戶的貸款違約風(fēng)險(xiǎn)預(yù)測(cè)就顯得尤為重要。

      針對(duì)貸款違約風(fēng)險(xiǎn)預(yù)測(cè),由于機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù)逐漸興起,越來(lái)越多的學(xué)者將這些技術(shù)應(yīng)用到了貸款違約風(fēng)險(xiǎn)預(yù)測(cè)。趙曉翠(2006)[1]針對(duì)商業(yè)銀行信貸風(fēng)險(xiǎn)評(píng)估應(yīng)用主成分分析和支持向量機(jī)的方法,首先利用主成分分析提取關(guān)鍵特征,降低維數(shù),然后利用支持向量機(jī)的方法構(gòu)造廣義最優(yōu)超平面,結(jié)果表明這一方法有很好的分類正確率;張晟(2020)[2]針對(duì)互聯(lián)網(wǎng)P2P 借貸平臺(tái)的數(shù)據(jù)應(yīng)用XGBoost 算法、隨機(jī)森林算法、投票分類算法對(duì)違規(guī)用戶進(jìn)行畫像分析,根據(jù)評(píng)價(jià)指標(biāo)AUC 值,得分最高的是隨機(jī)森林算法,第二是XGBoost 算法,第三是投票分類算法,但是在數(shù)據(jù)樣本較大的情況下集成學(xué)習(xí)整體運(yùn)算時(shí)間較長(zhǎng),調(diào)參也有一定難度,容易出現(xiàn)過(guò)擬合現(xiàn)象;宋點(diǎn)白(2019)[3]針對(duì)消費(fèi)為主的個(gè)人短期貸款利用Logistic 和RUSBoost 隨機(jī)森林模型對(duì)違約風(fēng)險(xiǎn)因素進(jìn)行分析,得出商業(yè)銀行可根據(jù)掌握的人口特征和貸款特征判斷個(gè)人短期貸款違約風(fēng)險(xiǎn),并提前進(jìn)行風(fēng)險(xiǎn)應(yīng)對(duì)。

      基于其他學(xué)者的研究,發(fā)現(xiàn)LightGBM 算法應(yīng)用的較少,本文選擇XGBoost 算法和LightGBM 算法建立模型,利用大數(shù)據(jù)挖掘技術(shù),對(duì)貸款違約因素進(jìn)行分析,并選擇合適的評(píng)價(jià)指標(biāo)對(duì)兩個(gè)模型進(jìn)行比較,最后給出本文的結(jié)論和建議。

      1 算法理論簡(jiǎn)介

      1.1 XGBoost算法簡(jiǎn)介

      利用泰勒二階展開式得到損失函數(shù)的極小值,然后,采用精確或近似方法貪心搜索出得分最高的切分點(diǎn),進(jìn)行下一步切分并擴(kuò)展葉節(jié)點(diǎn)[5]。

      1.2 LightGBM算法簡(jiǎn)介

      LightGBM 是微軟亞洲院提出的一種基于梯度提升決策樹的算法,對(duì)標(biāo)XGBoost,它最大的特點(diǎn)就是運(yùn)算速度快、效率高。LightGBM 在尋找損失函數(shù)的最優(yōu)分割點(diǎn)時(shí)基于梯度的單邊采樣,對(duì)于樣本xi,其梯度gi越小說(shuō)明yi與yi已經(jīng)非常接近了,在尋找分割點(diǎn)時(shí)可以把它的權(quán)重放低一點(diǎn)。另外在特征方面LightGBM 運(yùn)用互斥特征捆綁,試圖把盡可能多互斥的特征捆綁在一起,降低數(shù)據(jù)維度的同時(shí),最大程度的保留數(shù)據(jù)的信息,加快了運(yùn)算速度。在樹的節(jié)點(diǎn)生長(zhǎng)方面,LightGBM 按Leaf-Wise 策略生長(zhǎng),選擇能夠使損失函數(shù)減少的最多的節(jié)點(diǎn)分裂,可以通過(guò)設(shè)置max_leaf 參數(shù)讓樹停止生長(zhǎng)。最后,在樹模型中,位置越靠前的分類器在模型中重要程度越高,而位置越靠后的模型,則對(duì)整體的影響很小。Light-GBM 使用DART技術(shù)使得后面的分類器也發(fā)揮較大的作用[5]。

      1.3 評(píng)價(jià)指標(biāo)AUC值簡(jiǎn)介

      本文引入混淆矩陣的概念,如表1所示。

      表1 混淆矩陣

      在邏輯回歸里面,對(duì)于正負(fù)例的界定,通常會(huì)設(shè)一個(gè)閾值,大于閾值的為正例,小于閾值為反例。如果我們減小這個(gè)閥值,更多的樣本會(huì)被識(shí)別為正例,提高正類的識(shí)別率,但同時(shí)也會(huì)使得更多的反例被錯(cuò)誤識(shí)別為正例。為了直觀表示這一現(xiàn)象,引入ROC。

      根據(jù)分類結(jié)果計(jì)算得到ROC 空間中相應(yīng)的點(diǎn),連接這些點(diǎn)就形成ROC curve,橫坐標(biāo)為False Positive Rate(FPR:假正率),縱坐標(biāo)為True Positive Rate(TPR:真正率)。ROC 曲線與x軸所圍成的面積就是AUC(area under ROC curve)值。一般情況下,這個(gè)曲線都應(yīng)該處于(0,0)和(1,1)連線的上方,也就是AUC值大于0.5。

      2 實(shí)證分析

      2.1 數(shù)據(jù)分析及預(yù)處理

      數(shù)據(jù)來(lái)源于天池平臺(tái)上金融風(fēng)控比賽的數(shù)據(jù)集,數(shù)據(jù)集有15 萬(wàn)條,數(shù)據(jù)集數(shù)據(jù)包含47 列變量信息,其中idDefault是是否違約,是目標(biāo)變量,另外有15 列為匿名變量,并且對(duì)employment-Title、purpose、postCode 和title 等變量信息已經(jīng)脫敏過(guò)了。大致可以把變量分為四類:貸款信息、借款人信息、借款人信用信息以及n系列匿名變量,部分變量介紹如表2所示。

      表2 部分變量介紹

      本文先對(duì)數(shù)據(jù)的變量特征進(jìn)行一個(gè)大概的了解,對(duì)于日期變量:earliesCreditLine、employmentLength、issueDate,日期變量都需要經(jīng)過(guò)處理才能代入模型.issueDate 的格式是“2014/7/1”這樣的,本文將這個(gè)變量另外命名為issueDateDT,表示該issueDate 的日期與數(shù)據(jù)集里最早的日期的間隔天數(shù),操作之后把issueDate 刪除;employmentLength 的格式是“<1 year、2 years、8 years、10+years”這樣的,操作以后employment-Length 變成范圍在0~10 之間的數(shù)值變量;earliesCreditLine 的格式是“May-1992、Sep-1994 、Nov-2010”,操作之后只保留后面的年份,也變成了數(shù)值變量。

      下面本文對(duì)數(shù)值型變量的值進(jìn)行分析,發(fā)現(xiàn)policyCode 全都是值1,所以把該變量刪除;然后來(lái)查看變量中的缺失值情況,如圖1所示。

      圖1 缺失值分布情況

      變量中缺失值最多的是n11,有13033條缺失值,n10、n4、n5、n9、n8、n7、n14、n3、n2、n1、n0、n6 以及employmentLength 的缺失值在6000~8000 之間,這里本文選擇用平均數(shù)對(duì)數(shù)值型變量進(jìn)行填補(bǔ),對(duì)類別型變量本文使用眾數(shù)進(jìn)行填補(bǔ)。將數(shù)值型變量分為離散和連續(xù)型兩種,觀察連續(xù)型數(shù)值型變量的分布情況,對(duì)于分布不符合正態(tài)分布進(jìn)行對(duì)數(shù)化變換,使得該變量更加接近正態(tài)分布,因?yàn)橐恍┣闆r下正態(tài)型變量可以讓模型更快的收斂,并且貝葉斯算法對(duì)數(shù)據(jù)正態(tài)有喜好,部分連續(xù)變量分布如圖2所示。

      圖2 部分連續(xù)型變量的分布情況

      接下來(lái),對(duì)于類別變量grade 有“A、B…F、G”七個(gè)等級(jí),本文用1~7 的值來(lái)對(duì)應(yīng);對(duì)類型數(shù)在2 之上,又不是高維稀疏且純分類的變量homeOwnership、verificationStatus、purpose、region-Code、subGrade,本文使用pandas 的get_deummies函數(shù)得到它們的虛擬變量。

      2.2 特征工程

      圖3 剩余變量相關(guān)系數(shù)

      到這里,本文對(duì)數(shù)據(jù)集的特征工程部分就可以結(jié)束了,下面開始建立模型。

      2.3 建模調(diào)參

      本文使用的算法是LightGBM 算法和XGBoost算法,調(diào)參用的方法是貝葉斯優(yōu)化方法。貝葉斯優(yōu)化的原理[4]是:①根據(jù)最大化采集函數(shù)來(lái)選擇下一個(gè)最有“潛力”的評(píng)估點(diǎn)xi。②根據(jù)選擇的點(diǎn)xi評(píng)估目標(biāo)函數(shù)yi=f(xi) +εi。③把新得到的輸入觀測(cè)值對(duì)(xi,yi)添加到歷史觀測(cè)集中,并更新概率代理模型,為下一次迭代做準(zhǔn)備。本文先分別建立兩個(gè)模型要估計(jì)參數(shù)的CV 函數(shù),給出各個(gè)參數(shù)的估計(jì)范圍,經(jīng)過(guò)貝葉斯優(yōu)化之后,得到最優(yōu)的參數(shù)。LightGBM 算法和XGBoost 算法的參數(shù)如表3所示。

      表3 部分重要參數(shù)的值

      2.4 模型預(yù)測(cè)結(jié)果

      本文利用模型交叉五折驗(yàn)證,LightGBM 模型的最優(yōu)迭代次數(shù)大約是1420次,得到的AUC值為0.7221。XGBboost 模型的最優(yōu)迭代次數(shù)大約是4004 次,得到的AUC 值為0.7285。ROC 曲線如圖4所示。

      圖4 兩個(gè)模型的ROC曲線對(duì)比

      3 結(jié)語(yǔ)

      經(jīng)過(guò)本文對(duì)兩個(gè)模型的特征重要性分析,貸款發(fā)放時(shí)間、信貸周轉(zhuǎn)余額合計(jì)、債務(wù)收入比、年收入、分期付款金額、信用等級(jí)、貸款金額等變量對(duì)模型的貢獻(xiàn)度較高。顯而易見,貸款發(fā)放時(shí)間越長(zhǎng)違約率越高,信貸周轉(zhuǎn)余額越少違約率越高,債務(wù)收入比越高違約率越高,年收入越高違約率越低,分期付款金額越高違約率越高,信用等級(jí)越高違約率越高,貸款金額越高違約率越高,進(jìn)一步說(shuō)明了本文的兩個(gè)模型是合理的。

      本文的兩個(gè)模型得到的AUC 值還算理想,也比較接近,說(shuō)明兩個(gè)模型都有不錯(cuò)的學(xué)習(xí)能力和預(yù)測(cè)能力,但是在實(shí)際操作過(guò)程中XGBoost 算法的運(yùn)算速度實(shí)在是太慢了,在貝葉斯調(diào)參過(guò)程和模型訓(xùn)練的過(guò)程中都很慢,雖然XGBoost 得到的結(jié)果稍微比LightGBM 好一點(diǎn),但是電腦配置不行的話,本文還是主推LightGBM模型。

      建議金融機(jī)構(gòu)在發(fā)放貸款的時(shí)候,一定要完善貸款人的信息,嚴(yán)格審核貸款人的貸款資格,健全自身的風(fēng)險(xiǎn)評(píng)估體系,有科學(xué)明確的發(fā)展方向。

      猜你喜歡
      貝葉斯貸款變量
      抓住不變量解題
      也談分離變量
      Wang Yuan: the Brilliant Boy
      My Huckleberry Friends:Even if the Whole World Stand against me,I Will always Stand by You
      貝葉斯公式及其應(yīng)用
      貸款為何背上黑鍋?
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      還貸款
      讀寫算(上)(2016年11期)2016-02-27 08:45:29
      一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      乐亭县| 黄山市| 乌兰县| 阆中市| 霞浦县| 阳高县| 龙陵县| 凤阳县| 和平县| 从化市| 和顺县| 紫金县| 台北县| 肇东市| 巫山县| 湖南省| 会同县| 德安县| 黎城县| 揭东县| 梅河口市| 安仁县| 微山县| 丰顺县| 朝阳区| 灯塔市| 喀喇沁旗| 壶关县| 江门市| 伊春市| 石渠县| 东丰县| 丹寨县| 兰溪市| 桂平市| 金寨县| 黔东| 通许县| 永川市| 都江堰市| 天祝|