基于隨機子空間集成學習的中小企業(yè)信用評估方法研究

2018-06-11 05:47:40王慶姚康

上海管理科學 2018年3期

王　慶　姚　康

(蘇州企業(yè)征信服務(wù)有限公司，江蘇蘇州　215003)

0　引言

中小企業(yè)在我國經(jīng)濟社會發(fā)展中發(fā)揮著日益重要的作用。截至2016年第三季度末，我國注冊的中小企業(yè)已達到2000多萬戶，占全國企業(yè)總數(shù)的99%以上，工業(yè)產(chǎn)值占我國GDP的58.5%。然而，融資難一直是制約中小企業(yè)發(fā)展的瓶頸。中小企業(yè)融資難，從根本上來說是由中小企業(yè)與金融機構(gòu)之間的信息不對稱引起的，如何合理有效地評估中小企業(yè)的信用風險狀況對于解決中小企業(yè)融資難問題起著決定性的作用。

評估中小企業(yè)信用風險傳統(tǒng)上主要用專家法和評分法。專家評分法主觀性過強，在評估過程中評估專家可能會因其自身的知識結(jié)構(gòu)偏差而導致選擇偏差；傳統(tǒng)的線性信用評分模型由于對于數(shù)據(jù)要求苛刻，而中小企業(yè)數(shù)據(jù)缺失，財務(wù)狀況不透明，故不具有廣泛的適用性；以Merton為基礎(chǔ)的KMV等模型需要建立在大量的有效市場信息之上，而中小企業(yè)上市時間過短，違約距離難以測算，中小企業(yè)關(guān)聯(lián)方過多的現(xiàn)象也使credit risk+表現(xiàn)不佳。而新興的機器學習類方法由于其對樣本數(shù)據(jù)的要求不高，自學習能力強，能夠有效地適用于中小企業(yè)的信用評估。

近年來人工智能、機器學習算法發(fā)展和興起，相關(guān)數(shù)據(jù)分析算法也逐漸被應用到信用風險評估當中，主要包括人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)、支持向量機(Support Vector Machine，SVM)及集成學習算法等。這些算法對較少的企業(yè)數(shù)據(jù)樣本具有良好的預測性能，并且比傳統(tǒng)統(tǒng)計方法更能區(qū)分企業(yè)信用狀況的好壞。此外，基于數(shù)據(jù)預處理的集成學習算法也已被越來越多的研究人員應用到信用評估中，研究成果表明集成學習算法比單純的分類算法模型擁有更好的性能。

因此，本文采用基于隨機子空間的特征選擇算法和SVM 集成學習算法來評估中小企業(yè)的信用。本算法首先利用隨機子空間對數(shù)據(jù)集進行特征選擇，然后采用集成學習框架，提出了基于SVM模型的集成算法，該算法有效提升了信用評估分類的學習能力，在預測中小企業(yè)信用方面具有良好的性能。

1　基于隨機子空間的集成學習方法

1.1　集成學習

集成學習問題可描述如下：

假設(shè)從訓練樣本集S構(gòu)造N個學習機器，記為：

∏={C1,C2,…,CN}

集成學習就是綜合來自集合∏的N個個體學習機器的預測得到最終決策結(jié)果。

按對訓練數(shù)據(jù)進行處理得到個體學習器方式的不同，可將集成學習大致分為AdaBoost和Bagging兩類。AdaBoost用上一級個體學習設(shè)置樣本權(quán)值，為下一級個體學習器提供分類信息并指導下一級個體學習器的訓練；Bagging獨立設(shè)計各個體學習機器，其主要思路是尋找一種合適的組合準則來將各個體學習的輸出綜合起來并形成最終的結(jié)果。

在集成學習算法構(gòu)造過程的各個階段，可以通過加入不同的擾動得到具有多樣性的個體學習機器?？蓺w結(jié)為兩種方式：一是通過輸入擾動，另一種則是通過學習算法擾動。對于前者，可使用不同的特征子集作為個體分類器的輸入，實現(xiàn)策略如特征選擇、隨機子空間法等。對于后者，集成不同的學習算法及相同算法的不同學習參數(shù)或初始化都有利于個體多樣性的產(chǎn)生。集成學習算法的主要步驟包括子空間的選擇(包括樣本子空間和特征子空間)、特征降維(子空間降維)、個體學習集成，具體步驟如下：

(1)從原始的特征空間中，通過子空間的選擇得到m個不同的子空間；(2)若得到的子空間的維數(shù)較大，則可通過特征降維策略生成m個維數(shù)更低的子空間，以此來節(jié)省存儲和時間開銷；(3)通過選擇不同的機器學習算法，分別對m個子空間訓練得到m個不同的個體學習機器；4)用這m個個體學習機器對測試樣本進行分類，可得m個不同的分類結(jié)果，選擇某種集成方法(如簡單投票法)，將這m個結(jié)果進行整合得到最后的分類結(jié)果。

1.2　隨機子空間

隨機子空間方法(Random Subspace Method,RSM)是一種集成學習技術(shù)，隨機子空間通過使用隨機的部分特征而不是所有的特征來訓練每個分類器，以降低每個分類器之間的相關(guān)性。類似bagging集成學習，bagging隨機使用部分訓練數(shù)據(jù)，而隨機子空間是隨機使用部分特征，算法如圖1所示。

圖1　隨機子空間算法

1.3　基于隨機子空間的集成學習方法

基于隨機子空間的集成學習方法，本文采取了融合特征選擇和集成算法的RSM-SVM 集成學習算法來評估中小企業(yè)的信用。本算法首先利用RSM對數(shù)據(jù)集進行特征選擇，然后采用集成學習框架，提出基于SVM 分類器的集成算法，算法如圖2所示。該算法有效提升了分類模型的學習能力，在預測中小企業(yè)信用狀況方面具有良好的性能。

圖2　基于隨機子空間的集成學習算法

2　實證分析

2.1　數(shù)據(jù)樣本

數(shù)據(jù)來源于銀行貸款數(shù)據(jù)，選取120家中小企業(yè)作為建模對象，其中60家出現(xiàn)違約，60家正常，這些企業(yè)規(guī)模相當，行業(yè)覆蓋面較全，具有一定的代表性。本文篩選整理出了包含120 個中小企業(yè)客戶的數(shù)據(jù)，按照貸款風險分類標準進行好客戶和壞客戶的劃分,將“關(guān)注”和“正?！眱深惪蛻糇鳛槲催`約樣本,標注為“0”，將“次級”“可疑”和“損失”三類客戶作為違約樣本,標注為“1”。

表1　中小企業(yè)信用評估指標

2.2　指標體系的選取

指標的合理選取對于模型的有效性有著重要的的影響，為了指標的全面性及準確性，根據(jù)樣本數(shù)據(jù)信息，分別從公司的盈利能力、資產(chǎn)管理能力、負債比率、償債能力及發(fā)展能力五個方面計算15個財務(wù)指標作為預測系統(tǒng)的解釋變量。在構(gòu)建企業(yè)信用風險評價指標體系的過程中，所選擇的評估指標主要基于國際上通用的財務(wù)報表分析指標，而且充分借鑒參考了國內(nèi)外這一領(lǐng)域的前期研究成果。其具體指標如表1所示。

2.3　實驗設(shè)計

在傳統(tǒng)的分類方法中，常用準確度(Accuracy)作為評價指標。然而，很多情況下，僅僅依靠準確度不足以區(qū)分分類模型的優(yōu)劣。所以，為了讓所提出的模型的預測結(jié)論可靠，本文在模型準確度的基礎(chǔ)上，新增兩類錯誤率作為評估分類模型性能的指標。假陽性錯誤,即第一類錯誤( Type I errors) 和假陰性錯誤, 即第二類錯誤(Type II errors)。假陽性錯誤是指將好客戶誤分類為了壞客戶,而假陰性錯誤是指將壞客戶錯誤地分類為了好客戶。這兩類錯誤率是基于混淆矩陣得來的，表2就是一個分類問題的混淆矩陣。

表2　混淆矩陣

根據(jù)以上混淆矩陣，分別定義準確度、第一類錯誤和第二類錯誤的概念：

為了同時驗證本文提出的隨機子空間集成算法在信用評估上的性能和有效性，實驗分別測試了邏輯回歸Logistic算法、決策樹DT算法、人工神經(jīng)網(wǎng)絡(luò)ANN算法、支持向量機SVM算法、隨機森林RS算法，以及在預測性能好的SVM算法上用集成學習的算法所得出的Accuracy。在實驗中，我們采用十字交叉驗證了(10-fold crossvalidation)的測試方法。這種方法的基本思想是把原始數(shù)據(jù)分成10份，輪流將其中9份作為訓練集，1份作為測試集。首先，用訓練集對分類器進行訓練，然后利用測試集來測試訓練得到的模型，最后評價模型的分類性能。在使用十字交叉驗證方法時，會得到10次模型評價結(jié)果，將這10次結(jié)果的平均值作為模型最終的評價指標。另外，試驗中集成學習算法的迭代次數(shù)取值100。表3為以上實驗算法的對比結(jié)果情況。

表3　模型比較結(jié)果　%

從上述實證結(jié)果分析，在現(xiàn)有的模型算法上，SVM能夠普遍獲得較好的預測性能。為了進一步提高預測性能，在集成學習的基礎(chǔ)上創(chuàng)新地使用隨機子空間、AVM組合集成學習方法，使得預測準確率達到82.71%。

從綜合實證結(jié)果中可以發(fā)現(xiàn)，基于集成學習的SVM 模型能夠較理想地對中小企業(yè)客戶的違約與未違約情況進行分類，結(jié)果穩(wěn)定。從RSM-SVM 模型的預測結(jié)果看，集成學習方法在從中小企業(yè)違約預測上確實具有一定優(yōu)勢。

從表3可以看出，使用SVM集成學習方法，比如bagging或者boosting算法，在Accuracy上比單純使用邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、決策樹、SVM等分類模型要低，這說明單純的集成學習算法的預測精度和穩(wěn)定性都有很大的改善空間。在使用集成學習方法的前提下，加入隨機子空間算法使得模型的分類精度和穩(wěn)定性有了顯著的提升，也就是對數(shù)據(jù)集進行特征選擇后，SVM集成算法預測的精度也有了極大的提升，同時也更加穩(wěn)定。這說明數(shù)據(jù)集的質(zhì)量對分類模型的影響十分大，從某種程度上決定了分類模型的性能。而且，可以很容易地看出，RSM-SVM算法較前三種算法的性能更加優(yōu)越，這種模型的預測精度和穩(wěn)定性都表現(xiàn)得很出色。因此，基于數(shù)據(jù)處理的集成學習算法較單純的分類算法具有更好的性能。

3　結(jié)論

本文提出了基于隨機子空間的集成學習算法，該算法首先利用隨機子空間方法對數(shù)據(jù)進行特征選擇，選取最優(yōu)特征子集后采用SVM 分類算法進行分類。在使用相同數(shù)據(jù)集的前提下，使用邏輯回歸、決策樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量機和基于隨機子空間的集成算法分別對中小企業(yè)進行信用評估，實驗結(jié)果證實基于隨機子空間的集成算法較其他算法的性能更優(yōu)越。

我們可以完善擴展評估指標體系，獲取中小企業(yè)水電煤、稅務(wù)繳納、進出口、負面評價及企業(yè)主信息等研究建立更完備、預測性能更好的企業(yè)信用評估模型。

基于隨機子空間集成學習的中小企業(yè)信用評估方法研究

0 引言

1 基于隨機子空間的集成學習方法

1.1 集成學習

1.2 隨機子空間

1.3 基于隨機子空間的集成學習方法

2 實證分析

2.1 數(shù)據(jù)樣本

2.2 指標體系的選取

2.3 實驗設(shè)計

3 結(jié)論