• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多階段混合集成的中小企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)

    2022-06-24 12:47:46郭懿統(tǒng)劉浩南王辰楷潘治廷
    吉林金融研究 2022年3期
    關(guān)鍵詞:特征選擇降維混合

    郭懿統(tǒng) 劉浩南 梅 杰 王辰楷 潘治廷

    (東北大學(xué),遼寧 沈陽 110004)

    一、引言

    中小企業(yè)是我國經(jīng)濟(jì)產(chǎn)業(yè)的重要支柱,但中小企業(yè)融資難、融資貴等問題卻愈發(fā)突出。構(gòu)建預(yù)測準(zhǔn)確率高、適用范圍廣的中小企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)模型愈發(fā)重要。早期基于機(jī)器學(xué)習(xí)的信用風(fēng)險(xiǎn)評(píng)價(jià)模型多采用單一分類算法,自集成學(xué)習(xí)被引入該領(lǐng)域,研究發(fā)現(xiàn)集成學(xué)習(xí)模型多用于單一機(jī)器學(xué)習(xí)算法??偨Y(jié)已有文獻(xiàn)發(fā)現(xiàn)目前研究主要集中于以下兩個(gè)方面。

    (一)集成學(xué)習(xí)分類算法的改進(jìn)優(yōu)化

    該類研究的代表性成果有:Tomczak等(2016)采用boosting方法,構(gòu)建極端梯度提升樹集成模型;He和Zhang(2018)使用隨機(jī)森林和極端梯度提升樹作為集成學(xué)習(xí)基礎(chǔ)分類器;王重仁等(2019)提出了基于貝葉斯參數(shù)優(yōu)化和XGBoost算法的個(gè)人違約風(fēng)險(xiǎn)評(píng)價(jià)方法;Gang等(2012)人基于Bagging和隨機(jī)空間兩種集成策略,提出雙策略集成樹,能改善噪聲數(shù)據(jù)和數(shù)據(jù)冗余屬性的影響;Alaraj等(2016)提出基于Gabriel鄰域圖編輯和多元自適應(yīng)回歸樣條的混合集成信用評(píng)分模型。

    (二)研究分類前特征選擇或參數(shù)優(yōu)化的組合

    部分學(xué)者認(rèn)為分類算法改進(jìn)成本高,提高效果不顯著,因此將研究重點(diǎn)轉(zhuǎn)向不平衡樣本處理、分類特征選擇等階段。

    不平衡樣本處理階段多利用采樣技術(shù),通過調(diào)整不同類別樣本個(gè)數(shù)得到平衡數(shù)據(jù)集。He等(2018)改進(jìn)了balance cascade欠采樣方法。劉洋在不減少原數(shù)據(jù)集中采用重復(fù)采樣進(jìn)行數(shù)據(jù)處理,彌補(bǔ)欠采樣的信息損失。Jie等(2018)采用了SMOTE-DSR過采樣與Bagging-DSR欠采樣結(jié)合的混合采樣方法。KunNiu(2020),程硯秋等(2016)也對(duì)樣本類不平衡有所研究。

    分類特征選擇階段通過影響數(shù)據(jù)質(zhì)量從而影響模型效果。ADL(2015)對(duì)比不同的特征選擇方法,認(rèn)為GA算法和LR算法較優(yōu)。Jadhav等(2018)提出了基于wrapper信息增益為導(dǎo)向的降維方法。Nali等(2020)提出了集成特征選擇方法,并與傳統(tǒng)特征選擇方法進(jìn)行對(duì)比。

    雖然學(xué)者們?cè)谏鲜龈麟A段均有研究,但研究多局限于模型的特定環(huán)節(jié),缺少對(duì)混合集成全局最優(yōu)化及集成策略的討論,致使模型泛化能力欠佳,模型穩(wěn)健性及適應(yīng)性尚待提升。

    本文針對(duì)以上問題,關(guān)注多個(gè)階段組成的混合集成框架:不平衡樣本處理、評(píng)價(jià)特征降維、集成算法選擇。在類不平衡處理階段依據(jù)三種采樣思路選取代表性技術(shù);在評(píng)價(jià)指標(biāo)選取環(huán)節(jié)依據(jù)特征選擇和特征提取兩類策略選取技術(shù);在算法環(huán)節(jié)選用代表性的串行、并行集成范式,利用樹模型作為基分類器構(gòu)建集成學(xué)習(xí)算法模型。通過召回率、Accuracy、AUC等指標(biāo),討論多階段混合集成中策略選擇對(duì)于模型評(píng)價(jià)的影響,并得到兼顧可靠性與優(yōu)越性的多階段集成組合策略。

    二、多階段模型影響因素

    本文選用的三種采樣方法、兩種降維方法以及兩類集成分類算法具有代表性,由此組成了十二個(gè)混合集成系統(tǒng),通過實(shí)證分析不同采樣與降維思路對(duì)中小企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)結(jié)果的影響,并從中選取最佳的集成策略。

    (一) 采樣算法

    對(duì)于建模數(shù)據(jù)不充分與不平衡問題,本文使用采樣方法構(gòu)造有效平衡樣本。多有隨機(jī)欠采樣,過采樣與混合采樣三種類型。

    1.隨機(jī)欠采樣

    隨機(jī)欠采樣以少數(shù)類樣本為基準(zhǔn),從多數(shù)類樣本中隨機(jī)抽取與少數(shù)類樣本同等數(shù)量的樣本,兩者組合形成平衡數(shù)據(jù)集。此方法全部使用真實(shí)樣本解決類不平衡問題,但樣本信息損失過多,使得樣本不充分問題更加嚴(yán)重。

    2.過采樣

    SMOTE采樣法是一種過采樣法,其原理是對(duì)所有少數(shù)類樣本的K個(gè)近鄰?fù)悩颖緲?gòu)建新的少數(shù)類樣本。構(gòu)建原理為:

    3.混合采樣法

    SMOTEENN算法首先通過SMOTE算法擴(kuò)充數(shù)據(jù)集,得到新數(shù)據(jù)集,過采樣之后基于ENN數(shù)據(jù)清理技術(shù)對(duì)樣本重疊數(shù)據(jù)進(jìn)行清洗,相較于SMOTE過采樣方法,可以將部分不合理的人工樣本剔除。

    (二) 特征降維算法

    使用特征降維方法可緩解數(shù)據(jù)特征相關(guān)性大問題,同時(shí)避免由于特征矩陣過大、模型復(fù)雜度過高導(dǎo)致的“維度災(zāi)難”。本文采用特征提取與特征降維方法進(jìn)行實(shí)證對(duì)比。

    1.特征提取

    特征提取即凝練原始特征得到新的特征,進(jìn)而改變?cè)继卣骺臻g?;诳山忉屝栽瓌t,這里采用因子分析法研究特征提取的效果。其原理是將相關(guān)性高的特征轉(zhuǎn)化為不相關(guān)的少數(shù)幾個(gè)因子,然后根據(jù)方差貢獻(xiàn)率確定所需要的因子個(gè)數(shù)。在此基礎(chǔ)上,根據(jù)因子旋轉(zhuǎn)載荷矩陣解釋新變量以及重要程度,為決策者決策提供幫助。

    2.特征選擇

    特征選擇是從原始特征中篩選特征子集,且未改變?cè)继卣骺臻g。本文選取基于隨機(jī)森林的Gini下降量法測量指標(biāo)重要性進(jìn)行排序,并選擇靠前的指標(biāo)。

    Gini系數(shù)的本質(zhì)是度量一個(gè)集合的“不純度”。例如在二分類問題下,某節(jié)點(diǎn)的數(shù)據(jù)集D。若D根據(jù)特征A的某一取值a,被分割為D1和D2兩個(gè)部分,則在a的條件下,切分后的Gini指數(shù)度量:

    隨機(jī)森林模型會(huì)產(chǎn)生OOB數(shù)據(jù)未被用于模型建立。用其測試隨機(jī)森林性能,得到模型Gini指數(shù)。之后向某個(gè)特征A的值中人為添加噪聲擾動(dòng),數(shù)據(jù)集變?yōu)镈'。再計(jì)算得模型Gini指數(shù),與原始Gini指數(shù)之間的差異被稱為Gini下降量,若添加噪聲后的模型Gini指數(shù)顯著降低,則表明該特征具有較高的重要性。以此進(jìn)行排序。

    (三) 集成學(xué)習(xí)分類算法

    1.XG boost

    XG boost算法可以看作t棵樹的加法模型:

    每次加入決策樹會(huì)在原模型不做更改的前提下進(jìn)行梯度提升,目標(biāo)是最小化目標(biāo)函數(shù),其目標(biāo)函數(shù)定義為:

    其中第一項(xiàng)是傳統(tǒng)的損失函數(shù),表示預(yù)測值與真實(shí)值的差異程度。第二項(xiàng)是模型的懲罰項(xiàng),反應(yīng)模型的復(fù)雜度。

    目標(biāo)函數(shù)中的懲罰項(xiàng)表示如下:

    最小化目標(biāo)函數(shù)的目的是在模型的預(yù)測準(zhǔn)確率與泛化能力二者之間尋找一個(gè)平衡點(diǎn)。

    2.隨機(jī)森林

    隨機(jī)森林利用bootstrap重抽樣方法從原始樣本集中抽取K個(gè)訓(xùn)練樣本集,后對(duì)每個(gè)Bootstrap樣本生成K個(gè)CART決策樹建模。若每個(gè)樣本有M個(gè)變量,則在每個(gè)決策樹的構(gòu)造過程中,特征子集M個(gè)變量中隨機(jī)抽取m個(gè)變量(m

    三、實(shí)驗(yàn)設(shè)置

    (一)數(shù)據(jù)選取,評(píng)價(jià)指標(biāo)初選

    本研究以中國中小企業(yè)財(cái)務(wù)指標(biāo)數(shù)據(jù)作為實(shí)證分析的數(shù)據(jù)集。為確保數(shù)據(jù)可靠性以及可獲得性,原始數(shù)據(jù)來源于中小板上市公司。受新冠疫情影響,2020年與2021年財(cái)務(wù)指標(biāo)數(shù)據(jù)不具有一般性,因此選取2019年年末財(cái)務(wù)數(shù)據(jù)作為實(shí)驗(yàn)樣本。以被特殊處理的上市中小企業(yè)(即ST與*ST)作為高風(fēng)險(xiǎn)企業(yè)樣本,以未作處理的正常運(yùn)營公司數(shù)據(jù)作為低風(fēng)險(xiǎn)樣本。數(shù)據(jù)集中高風(fēng)險(xiǎn)與低風(fēng)險(xiǎn)樣本的比例為71:928,高風(fēng)險(xiǎn)企業(yè)占比約7.1%。

    本文綜合考慮前人的研究,從盈利能力,償債能力,營運(yùn)能力和成長能力四個(gè)方面構(gòu)建評(píng)價(jià)指標(biāo)體系。盈利能力表示企業(yè)利用當(dāng)下資源創(chuàng)造利潤的能力,具體的二級(jí)指標(biāo)包括凈資產(chǎn)收益率、銷售凈利率、成本費(fèi)用利潤率、成本費(fèi)用利潤率、總資產(chǎn)凈利率、營業(yè)凈利率等。償債能力則反映了該企業(yè)往期償債情況,進(jìn)而體現(xiàn)其信用狀況,二級(jí)指標(biāo)包括流動(dòng)比率、速動(dòng)比率、現(xiàn)金比率、凈資產(chǎn)負(fù)債率、產(chǎn)權(quán)比率、利息保障倍數(shù)等。營運(yùn)能力表示企業(yè)經(jīng)營效率的高低,主要指企業(yè)營運(yùn)資產(chǎn)的效率與效益,二級(jí)指標(biāo)包括存貨周轉(zhuǎn)率、總資產(chǎn)周轉(zhuǎn)率與應(yīng)收賬款周轉(zhuǎn)率。成長能力體現(xiàn)了企業(yè)發(fā)展的快慢與對(duì)未來的預(yù)期等,二級(jí)指標(biāo)包括凈資產(chǎn)周轉(zhuǎn)率、營業(yè)收入增長率與總資產(chǎn)增長率。

    (二) 數(shù)據(jù)預(yù)處理

    為了獲得適合該模型的數(shù)據(jù)集,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。在本節(jié)中,將通過如下步驟,實(shí)現(xiàn)對(duì)實(shí)驗(yàn)數(shù)據(jù)的預(yù)處理。

    首先進(jìn)行缺失值處理。以上指標(biāo)數(shù)據(jù)并非完整,主要原因是中小企業(yè)數(shù)據(jù)信息不透明。除利息保障倍數(shù)缺失303個(gè)值之外,其余特征的缺少值數(shù)量均在20以下。因此對(duì)于缺失較少的指標(biāo)數(shù)據(jù)采用均值填補(bǔ)法進(jìn)行填補(bǔ)。由于利息保障倍數(shù)是衡量企業(yè)長期償債能力大小的重要標(biāo)志,因此對(duì)該缺失值使用缺失森林法進(jìn)行填補(bǔ)。

    其次進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。原始數(shù)據(jù)xi通過以下公式轉(zhuǎn)換為新的數(shù)據(jù)yi。

    (三)模型表現(xiàn)評(píng)價(jià)指標(biāo)

    通過性能度量對(duì)本研究中提出的模型進(jìn)行評(píng)價(jià)。這些度量的描述可以用表1中的混淆矩陣來解釋。

    表1 混淆矩陣

    根據(jù)上述解釋,可以得到一些評(píng)價(jià)指標(biāo),如下所示:

    Accuracy被認(rèn)為是模型的正確預(yù)測在實(shí)例總數(shù)中所占的比例。召回率被認(rèn)為是模型正確預(yù)測的高風(fēng)險(xiǎn)中小企業(yè)的比率。TN rate代表模型正確預(yù)測的低風(fēng)險(xiǎn)中小企業(yè)的比率。此外,AUC值也是評(píng)價(jià)模型性能的常用指標(biāo)。

    (四)模型建立

    本節(jié)介紹了信用風(fēng)險(xiǎn)評(píng)價(jià)的多階段混合集成模型。Python語言具有豐富的開源庫,能夠滿足本研究實(shí)證過程的所有要求。為了保證模型最終測試的可靠性,本研究的最終驗(yàn)證集均為真實(shí)企業(yè)樣本。將欠采樣后的實(shí)驗(yàn)數(shù)據(jù)按8:2的比例分為訓(xùn)練集和驗(yàn)證集。這29個(gè)驗(yàn)證樣本是本研究中唯一的驗(yàn)證集,不參與過采樣、建模、參數(shù)調(diào)整等過程。

    圖1給出了實(shí)驗(yàn)?zāi)P偷牧鞒虉D。它包括模型建立的流程和階段:(1)數(shù)據(jù)預(yù)處理;(2)抽樣;(3)特征降維;(4)集成分類算法;(5)績效評(píng)價(jià)。本文將重點(diǎn)討論第二、第三和第四階段。如圖1所示,本文選擇三種采樣方法、兩種降維方法和兩種集成分類算法,由此形成了12種集成策略來構(gòu)建12個(gè)混合集成模型。通過實(shí)證分析并從中選擇最佳集成策略。

    圖1 實(shí)驗(yàn)流程

    在特征降維階段,對(duì)采樣后的樣本進(jìn)行KMO檢驗(yàn)和Bartlett球形檢驗(yàn),三種采樣方法下的檢驗(yàn)結(jié)果見表2,表明本研究初選的20個(gè)指標(biāo)適合使用因子分析進(jìn)行降維。第二、四、六、八、十、十二混合集成選用Gini下降量法對(duì)20個(gè)指標(biāo)重要性進(jìn)行排序,綜合模型性能與降維原則,確定最終保留的指標(biāo)個(gè)數(shù)。

    表2 不同的采樣方法的檢驗(yàn)結(jié)果

    在集成分類算法階段,選擇XGBoost作為串行集成范式的代表方法,隨機(jī)森林作為并行集成范式的代表方法。在訓(xùn)練集上使用五重交叉驗(yàn)證來確定模型參數(shù)的取值。

    四、實(shí)證結(jié)果

    (一)混合集成整體結(jié)果

    對(duì)于中小企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)而言,對(duì)高風(fēng)險(xiǎn)企業(yè)的誤判代價(jià)遠(yuǎn)高于對(duì)低風(fēng)險(xiǎn)企業(yè)的誤判。通過在訓(xùn)練集上進(jìn)行五折交叉驗(yàn)證調(diào)整十二種多階段策略集成構(gòu)建的混合集成系統(tǒng)的參數(shù)。使用預(yù)先保存的驗(yàn)證集驗(yàn)證模型在實(shí)際環(huán)境中的泛化能力。十二個(gè)混合集成系統(tǒng)的評(píng)價(jià)效果見表3。

    表3 十二種混合集成系統(tǒng)評(píng)價(jià)效果

    可以看出, SMOTE-FA-RF模型的準(zhǔn)確率最高,為93.10%,但召回率較低,約為85.71%,對(duì)低風(fēng)險(xiǎn)企業(yè)風(fēng)險(xiǎn)泛化能力較好。在表3中,SMOTEENN-FA-XGBoost模型的Accuracy和召回率最高,分別為93.10%和92.85%,適用于整體的信用風(fēng)險(xiǎn)評(píng)價(jià)以及高風(fēng)險(xiǎn)企業(yè)風(fēng)險(xiǎn)預(yù)測。同時(shí)該策略AUC值排名第二,略低于第一位的策略。鑒于其擁有最高的準(zhǔn)確率和第二高的AUC,本文認(rèn)為組成此混合集成框架的集成組合策略為最優(yōu)策略。

    (二) 混合集成分階段分析

    三類采樣方法對(duì)于混合集成模型的真正率召回率影響結(jié)果見表4??梢钥闯稣倩芈首罡叩氖荢MOTEENN-FA-XGBoost,達(dá)到了92.9%。SMOTE過采樣下的混合集成召回率普遍偏低,過采樣生成的大量人工樣本使得模型產(chǎn)生偏差。對(duì)高風(fēng)險(xiǎn)企業(yè)的誤判是十分致命的。而混合采樣法與樸素欠采樣平均召回率相同,表明過采樣后利用ENN進(jìn)行人工樣本數(shù)據(jù)清洗可以有效調(diào)整這種劣勢(shì)。部分混合集成模型的真正率都達(dá)到了100%。采用SMOTEENN混合采樣的混合集成模型平均真正率高于采用欠采樣的混合集成平均真正率。

    表4 三類采樣方法模型召回率與真正率

    兩類特征降維方法對(duì)于混合集成模型的真正率召回率影響結(jié)果見表5。顯而易見,相比于基于Gini下降量特征選擇法的混合集成模型來說,基于因子分析特征提取的混合集成模型的召回率均較大。而就真正率而言,采用Gini下降量法的混合集成模型平均提升并不明顯,大多數(shù)情況下兩者持平。特征提取方法利用原始特征進(jìn)行融合凝練成新特征,不僅能夠保持對(duì)原始指標(biāo)數(shù)據(jù)有效信息的利用率,還能夠過濾對(duì)模型評(píng)價(jià)提升沒有幫助的無關(guān)信息,對(duì)原始數(shù)據(jù)有降噪的功能。特征選擇方法則直接舍棄貢獻(xiàn)排名靠后的指標(biāo),不僅損失部分有價(jià)值的信息,而且對(duì)貢獻(xiàn)靠前的指標(biāo)數(shù)據(jù)中的冗余信息未做到有效剔除。

    表5 兩類特征降維方法模型召回率和真正率

    進(jìn)一步,比較兩類集成分類算法的混合集成模型的效果,如表6所示??梢园l(fā)現(xiàn),基于XGBoost集成分類器的混合集成模型的平均召回率約為78.57%,與基于隨機(jī)森林分類器的模型相當(dāng)。XGBoost的平均真正率略高于隨機(jī)森林分類器,前者約為96.67%,后者約為95.56%。同時(shí),效果最佳的策略所采用的分類算法為XGBoost算法。

    表6 兩類集成分類算法的召回率和真正率

    五、結(jié)語

    本文研究了混合集成各個(gè)階段的方法選取對(duì)于信用風(fēng)險(xiǎn)評(píng)價(jià)效果的影響。具體研究中,選取了欠采樣,過采樣,混合采樣三種代表性采樣的方法,特征提取和特征選擇兩類特征降維思想的代表方法,以及bagging與boosting兩類基本集成算法的代表分類算法。通過實(shí)證檢驗(yàn),首先定性討論了多階段混合集成中各階段策略選擇對(duì)于模型評(píng)價(jià)效果的影響,其次給出了一條兼顧可靠性與優(yōu)越性的評(píng)價(jià)流程多階段集成策略。研究發(fā)現(xiàn)SMOTEENN-FA-XGBoost模型具有相比于其他策略最高的可靠性與優(yōu)越性。從理論層面,未來研究可以嘗試擴(kuò)大和更新混合集成模型中的算法選擇以豐富并優(yōu)化集成策略,亦可以本文中的三階段為基礎(chǔ)擴(kuò)展為更多階段的全局最優(yōu)化研究。從應(yīng)用層面,未來研究可納入更加廣泛的信用風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行建模。

    猜你喜歡
    特征選擇降維混合
    Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
    混合宅
    一起來學(xué)習(xí)“混合運(yùn)算”
    降維打擊
    海峽姐妹(2019年12期)2020-01-14 03:24:40
    油水混合
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    混合所有制
    拋物化Navier-Stokes方程的降維仿真模型
    基于特征聯(lián)合和偏最小二乘降維的手勢(shì)識(shí)別
    佛教| 滁州市| 土默特左旗| 无为县| 治多县| 万荣县| 东平县| 阜康市| 永嘉县| 河南省| 巴塘县| 阜宁县| 临夏市| 绥芬河市| 两当县| 长沙市| 卢湾区| 宁武县| 鲁山县| 五寨县| 万年县| 洛南县| 依兰县| 洛隆县| 大化| 甘肃省| 泗洪县| 闽清县| 永和县| 治县。| 巨鹿县| 西盟| 北安市| 光泽县| 汤原县| 高雄县| 布拖县| 化德县| 偃师市| 呈贡县| 荔波县|