• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    集成學(xué)習(xí)框架下的個(gè)人信用評(píng)分模型研究

    2020-08-16 14:02:29陳磊范宏
    中國(guó)市場(chǎng) 2020年20期
    關(guān)鍵詞:隨機(jī)森林

    陳磊 范宏

    [摘 要]在大數(shù)據(jù)時(shí)代背景下,建立適當(dāng)?shù)膫€(gè)人信用評(píng)分模型對(duì)用戶違約風(fēng)險(xiǎn)進(jìn)行有效預(yù)測(cè),對(duì)于預(yù)防互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)極其重要。文章基于人工智能前沿技術(shù),引入Bagging、Boosting以及Stacking集成學(xué)習(xí)框架來構(gòu)建個(gè)人信用評(píng)分模型,并在融360平臺(tái)近3.5萬的用戶貸款數(shù)據(jù)集上進(jìn)行實(shí)證研究。首先,選用隨機(jī)森林、GBDT以及XGBoost算法分別建立了單一信用評(píng)分模型;其次,將以上三種同質(zhì)集成樹算法作為Stacking異質(zhì)集成框架第一層的基分類器,以Logistic regression為第二層的元分類器,進(jìn)行模型融合。結(jié)果表明,Stacking異質(zhì)集成模型在三種評(píng)估角度下均表現(xiàn)優(yōu)異。

    [關(guān)鍵詞]信用評(píng)分模型;同質(zhì)集成算法;異質(zhì)集成算法;隨機(jī)森林;GBDT;XGBoost

    [DOI] 10.13939/j.cnki.zgsc.2020.20.164

    1 引言

    近年來,互聯(lián)網(wǎng)金融在我國(guó)發(fā)展勢(shì)頭猛烈,但繁榮與風(fēng)險(xiǎn)往往相伴而生,那些隱藏的風(fēng)險(xiǎn)也不容小覷。特別地,針對(duì)信貸領(lǐng)域的個(gè)人違約風(fēng)險(xiǎn),需要建立大數(shù)據(jù)時(shí)代下的高精度個(gè)人信用評(píng)分模型對(duì)用戶個(gè)人信貸風(fēng)險(xiǎn)進(jìn)行有效預(yù)測(cè)。針對(duì)單一算法的預(yù)測(cè)效果有限且泛化能力不佳,Stephen(2010)指出集成學(xué)習(xí)算法能有效降低偏差、方差,提升信用風(fēng)險(xiǎn)評(píng)估模型的準(zhǔn)確度與穩(wěn)定性[1]。當(dāng)下比較流行的集成方法是基于不同訓(xùn)練集將若干個(gè)同一類型的弱分類器融合成一個(gè)強(qiáng)分類器的同質(zhì)集成學(xué)習(xí)算法,主要分為Bagging和梯度提升Boosting這兩大族。后來,周志華研究發(fā)現(xiàn),Stacking異質(zhì)集成學(xué)習(xí)框架更為強(qiáng)大,可通過某種策略將多個(gè)不同的分類器融合在一起[2]。

    2 集成學(xué)習(xí)框架下的個(gè)人信用評(píng)分模型

    2.1 算法機(jī)理

    本文選用的基分類器是Bagging并行訓(xùn)練決策樹得到的隨機(jī)森林,Boosting串行訓(xùn)練決策樹得到的GBDT以及改進(jìn)GDBT后得到的XGBoost。Boosting集成技術(shù)主要以降低偏差為主,其集成的模型在擬合能力上更有優(yōu)勢(shì);Bagging集成技術(shù)主要是降低方差,其集成的模型有更優(yōu)秀的泛化能力。不同于Boosting和Bagging這兩種采用相同的分類算法訓(xùn)練單個(gè)分類器的同質(zhì)集成方式,Stacking屬于一種異質(zhì)集成方法,通過融合不同的基分類器,以修正其偏差的方式提高模型的泛化能力。從結(jié)構(gòu)上看,Stacking集成框架是一種分層結(jié)構(gòu),將第1層的分類器稱為基分類器,而第2層用于結(jié)合的分類器則稱為元分類器。

    2.2 數(shù)據(jù)及特征處理

    本文的實(shí)驗(yàn)數(shù)據(jù)來源于融360網(wǎng)絡(luò)金融服務(wù)公司,全部樣本量有33465萬,其中,30465條數(shù)據(jù)是有類別標(biāo)簽的被接受客戶樣本,這30465個(gè)接受樣本中違約樣本有1837個(gè),履約樣本有28628個(gè),違約率為6.03%;有類別標(biāo)簽的被拒絕客戶樣本數(shù)據(jù)有3000條,這3000條拒絕樣本中違約樣本有361個(gè),履約樣本有2639個(gè),違約率達(dá)到12.03%。本文的數(shù)據(jù)集中測(cè)試集的構(gòu)成是1300個(gè)有類別標(biāo)簽的接受樣本與3000個(gè)有類別標(biāo)簽的拒絕樣本,即本文實(shí)證劃分出的訓(xùn)練集是29165個(gè)有類別標(biāo)簽的接受樣本,測(cè)試集是4300條有類別標(biāo)簽的接受/拒絕樣本數(shù)據(jù)。

    在特征工程階段,首先,將每個(gè)樣本包含的6745維特征用變量f1.f6745來進(jìn)行特征轉(zhuǎn)換。其次,選擇皮爾森相關(guān)系數(shù)分析法結(jié)合未訓(xùn)練的XGBoost重要特征篩選法來做特征篩選,本文篩選出2000個(gè)特征作為建模輸入。

    2.3 超參數(shù)優(yōu)化

    分類模型訓(xùn)練的重點(diǎn)之一就是確定并優(yōu)化超參數(shù)集。由于本文選用的基分類器都是樹模型,因此確定需要優(yōu)化的超參數(shù)有:?jiǎn)慰脴涞淖畲笊疃龋╩ax_depth)、樹的學(xué)習(xí)率(learning rate)、樹的數(shù)目(n_estimators)以及隨機(jī)采樣率(Subsample)。

    實(shí)驗(yàn)采用grid search法來調(diào)節(jié)超參數(shù),得到如下的最優(yōu)超參數(shù)集為:Random forest 、GBDT、XGBoost的max_depth分別為5、6、10;learning rate分別為無、0.061、0.1;n_estimators分別為100、180、400;Subsample分別為無、0.998、0.904。

    2.4 評(píng)價(jià)結(jié)果分析

    本文的評(píng)價(jià)標(biāo)準(zhǔn)主要是三個(gè)方面:一是誤判經(jīng)濟(jì)成本的角度來評(píng)價(jià)模型的分類效果,選用的指標(biāo)是第Ⅰ類錯(cuò)誤率;二是模型在正類預(yù)測(cè)上的性能的角度,選用的指標(biāo)是F2值;三是從模型整體預(yù)測(cè)能力和泛化能力的角度,選用的指標(biāo)是AUC值。

    由表1可以看出,Stacking異質(zhì)集成模型的第I類錯(cuò)誤率是0.1209,四個(gè)模型中最低,說明它的誤判經(jīng)濟(jì)成本最低;F2值為0.4860,四個(gè)模型中是最高的,說明它在正類上的預(yù)測(cè)性能最優(yōu);AUC值達(dá)到了0.8077,也是最高的,說明經(jīng)過異質(zhì)集成后的模型的預(yù)測(cè)能力更高,泛化能力更強(qiáng)。

    3 結(jié)論

    本文建立了集成學(xué)習(xí)框架下的個(gè)人信用評(píng)分模型,并從誤判經(jīng)濟(jì)成本、兼顧誤判經(jīng)濟(jì)成本和模型在正類預(yù)測(cè)上的性能以及模型整體的預(yù)測(cè)能力和泛化能力三個(gè)角度對(duì)隨機(jī)森林、GBDT、XGBoost這三種同質(zhì)集成樹模型以及Stacking異質(zhì)集成學(xué)習(xí)模型的優(yōu)劣進(jìn)行了評(píng)估。實(shí)證表明,融合了三種同質(zhì)集成樹算法的Stacking異質(zhì)集成學(xué)習(xí)模型表現(xiàn)出了強(qiáng)大的性能,在三種評(píng)估角度下均表現(xiàn)優(yōu)異。不但經(jīng)濟(jì)誤判成本最低,同時(shí)能較好地兼顧在正類上的預(yù)測(cè)性能(即能較好的識(shí)別出違約客戶),還具備最優(yōu)異的總體分類效果和泛化能力。

    參考文獻(xiàn):

    [1]DEFU ZHANG,XIYUE ZHOU,STEPHEN C H LEUNG,et al.Vertical bagging decision trees model for credit scoring[J]. Expert Systems with Applications, 2010(37): 7838.7843

    [2]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.

    [作者簡(jiǎn)介] 陳磊(1995—),女,漢族,江蘇南通人,東華大學(xué)旭日工商管理學(xué)院,碩士研究生,統(tǒng)計(jì)學(xué)專業(yè),研究方向:金融信用風(fēng)險(xiǎn)研究;范宏(1971—),女,漢族,上海人,東華大學(xué)旭日工商管理學(xué)院,教授,日本東京大學(xué)博士,研究方向:金融網(wǎng)絡(luò)風(fēng)險(xiǎn)分析。

    猜你喜歡
    隨機(jī)森林
    隨機(jī)森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
    基于隨機(jī)森林的登革熱時(shí)空擴(kuò)散影響因子等級(jí)體系挖掘
    基于隨機(jī)森林的HTTP異常檢測(cè)
    個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析
    隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
    基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
    軟件(2016年7期)2017-02-07 15:54:01
    拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
    基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
    基于奇異熵和隨機(jī)森林的人臉識(shí)別
    軟件(2016年2期)2016-04-08 02:06:21
    基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
    宜章县| 龙井市| 大宁县| 钟祥市| 略阳县| 商洛市| 怀仁县| 广昌县| 武冈市| 元谋县| 汽车| 左权县| 绩溪县| 邵阳县| 凤城市| 饶河县| 白城市| 克东县| 沈阳市| 铁岭县| 潍坊市| 沂南县| 黄山市| 临海市| 乌兰察布市| 绥棱县| 昌吉市| 砀山县| 天镇县| 延长县| 偏关县| 班玛县| 兴业县| 温州市| 呼图壁县| 赫章县| 开化县| 利津县| 祥云县| 铁力市| 闽侯县|