• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于XGBoost的個人信貸違約預測研究

      2019-01-08 03:16:09李學鋒
      電腦知識與技術 2019年33期
      關鍵詞:集成學習風險管控

      李學鋒

      摘要:隨著互聯(lián)網(wǎng)經濟的迅猛發(fā)展,個人信貸規(guī)模在近年來呈現(xiàn)了爆炸式增長。信用風險管控一直是金融機構研究的熱點問題。該文對集成學習算法XGBoost應用個人信貸違約預測進行了研究。通過對已有的數(shù)據(jù)進行分析,并使用XGBoost算法建立個人信貸違約預測模型。實驗結果表明,與邏輯回歸算法與隨機森林算法相比,XGBoost在性能上有更好的表現(xiàn)。通過使用XGBoost算法對特征的重要性進行度量,有助于快速有效地進行個人信貸風險判斷。

      關鍵詞:XGBoost;集成學習;個人信貸;風險管控;違約預測

      中圖分類號:TP391 文獻標識碼:A

      文章編號:1009-3044(2019)33-0192-03

      1概述

      近年來我國經濟迅猛發(fā)展,金融消費服務規(guī)模不斷攀升。金融公司推出了各種普惠金融服務,并通過互聯(lián)網(wǎng)、手機APP等渠道,讓更廣泛的人可以參與進來,極大地拓展了金融服務的廣度和深度;移動互聯(lián)網(wǎng)廣泛發(fā)展與應用,手機移動服務操作的簡單與便捷,讓人們的消費習慣與消費觀念與傳統(tǒng)相比都發(fā)生了改變,信貸比原來更容易被接受。因此,我國近幾年的信貸規(guī)模呈現(xiàn)了爆炸式的增長。中國人民銀行數(shù)據(jù)顯示,消費金融市場規(guī)模已由2010年1月的6798億元攀升至2018年10月84537億元。

      隨著信貸規(guī)模增長,信貸風險也隨之增加。為保障信貸市場健康有序地發(fā)展,對信貸風險進行評估預測,一直是研究的熱點問題。信貸違約預測在技術上可分為兩大類,第一類主要使用統(tǒng)計分析的方法,如,使用線性回歸的違約預測,如文獻[1];使用Logistics回歸的違約預測,如文獻[2-3]等。另一類主要是基于機器學習進行違約預測,比如決策樹、人工神經網(wǎng)絡、支持向量機等。從現(xiàn)有的預測結果上看,相對于統(tǒng)計分析方法,機器學習方法的違約預測在準確度上表現(xiàn)更加優(yōu)越。

      XGBoost是一種集成式的機器學習方法,實踐證明,在回歸與分類上都有很好的表現(xiàn)。本文基于XGBoost算法對個人信貸違約預測模型進行分析與研究。

      2xGBoost算法

      XGBoost(eXtreme Gradient Boosting,極限梯度提升)是由陳天奇博士于2014年提出的一種Boosting型集成學習算法,它是一個基于CAR了回歸樹的集成學習算法。

      3.3 XGBoost參數(shù)調優(yōu)

      XGBoost模型的參數(shù)都是實際進行調優(yōu)的,其中主要參數(shù)learning_rate、n_estimators、max_depth、min_child_weight、Sub-sample、olsample_bytree、gamma、reg_alpha、reg_lambda等。

      learning_rate是學習速率,控制每次迭代更新權重時的步長。n_estimators是總迭代的次數(shù),也即決策樹的個數(shù)。

      max_depth是指樹的深度,值越大,越容易過擬合;值越小,越容易欠擬合。min_child_weight是指葉子結點是最小權重和,即當葉子結點中的權值和等于或小于此值時,將不再劃分。這個參數(shù)用于避免過擬合。當它的值較大時,可以避免模型學習到局部的特殊樣本;但是如果這個值過高,會導致欠擬合。Subsample是指對于每棵樹隨機采樣的比例。減小這個參數(shù)的值,算法會更加保守,避免過擬合。但是,如果這個值設置得過小,可能會導致欠擬合。colsample_bytree是指訓練每棵樹時,使用的特征占全部特征的比例。

      Gamma是懲罰項系數(shù),用于指定節(jié)點分裂所需的最小損失函數(shù)下降值,值越大,算法越保守。reg_alpha是u正則化系數(shù),reg_lambda是L2正則化系數(shù),主要用于防過擬合。

      3.4模型建立及其性能評估與對比

      XGBoost為python環(huán)境提供了兩個接口:XGBoost原生接口和通過sklearn的XGBoost接口。兩種接口的操作基本一樣,效果也是相同的。我們采用通過sldearn的xgboost接口建立XG-Boost模型。

      我們利用數(shù)據(jù)集中的數(shù)據(jù),對模型進行訓練,然后進行測試,模型的score分值為0.98954。我們使用同樣的數(shù)據(jù)集,采用邏輯回歸分類模型進行訓練與測試,模型的score分值為0.93453。使用隨機森林模型時,模型的score分值為0.93549。通過比較,可以看出,XGBoost算法的預測效果是優(yōu)于邏輯回歸分類模型與隨機森林模型的。

      3.5特征重要性的度量

      通過sklearn的xgboost的plot_importance方法,得到每個特征變量的重要性程度,如圖1所示。

      通過上表可以看出,對于違約預測的重要性程度排在前面四位的分別是借貸人的貸款總額占授信總額的比率、過去兩年逾期30-59天的次數(shù)、過去兩年逾期超過90天的次數(shù)、借貸人的年齡等。這四個特征對最終是否違約影響較大,因此在處理貸款申請時,可以重點對借貸人的這些特征進行關注。

      4結束語

      本文基于機器學習的集成算法XGBoost對金融領域的個人信貸違約預測進行了研究。XGBoost算法采用集成學習方式,在其成本函數(shù)中采用了泰勒公式的兩階展開,引入正則化項,通過參數(shù)調整優(yōu)化,可以有效地避免欠擬合與過擬合。XG-Boost基于回歸分類樹,在模型的解釋性與調參方面更具特點。通過實驗表明,基于XGBoost算法的個人信貸違約預測有很好的分類性,并且通過特征重要性度量,給出對違約影響較大的特征變量,本研究成果對金融領域的個人信貸違約預測有重要的參考意義。

      猜你喜歡
      集成學習風險管控
      基于局部有效性的選擇性決策樹集成
      基于集成學習的高送轉股票研究
      時代金融(2016年36期)2017-03-31 05:44:10
      基于稀疏編碼器與集成學習的文本分類
      基于屬性權重的Bagging回歸算法研究
      政策性種植業(yè)保險審計淺議
      “絲綢之路經濟帶”建設中的風險考量與管控
      理論導刊(2016年12期)2016-12-27 13:59:23
      淺談集中監(jiān)控開關實傳試驗的“三步控制法”
      房地產開發(fā)企業(yè)內部控制的認識
      商(2016年27期)2016-10-17 03:56:37
      政府融資平臺風險管控及應對策略
      基于改進的LogitBoost算法的垃圾網(wǎng)頁檢測研究
      科技視界(2015年27期)2015-10-08 11:01:28
      宁强县| 密山市| 深水埗区| 德钦县| 石棉县| 崇州市| 涟源市| 凌海市| 西平县| 策勒县| 康保县| 准格尔旗| 宜宾县| 屏南县| 晋宁县| 齐齐哈尔市| 舒城县| 颍上县| 扎鲁特旗| 浮山县| 荆州市| 游戏| 台南市| 松潘县| 华容县| 新绛县| 常山县| 谢通门县| 龙江县| 鹤山市| 浠水县| 瓮安县| 新安县| 和龙市| 铅山县| 天全县| 册亨县| 山东| 凤城市| 珠海市| 金坛市|