尹濤YIN Tao;李秋敏LI Qiu-min
(成都信息工程大學(xué),成都 610100)
債券違約指發(fā)行債券的企業(yè)在約定期限內(nèi)不能向債券的持有者還本付息的情況。2014年第一起債券違約事件發(fā)生以來(lái),我國(guó)債券違約事件日漸增多。2018年債券市場(chǎng)發(fā)生違約的債券有160只,涉及違約的企業(yè)有44家,違約金額更是高達(dá)1505.25億元。截止到2021年2月,發(fā)生違約的債券總數(shù)達(dá)737只,違約債券的發(fā)行總額高達(dá)6826.37億元。債券違約的直接后果就是投資人的利益將會(huì)受損。因此,在債券違約事件逐漸常態(tài)化的情況下,如何對(duì)發(fā)債企業(yè)的違約風(fēng)險(xiǎn)進(jìn)行評(píng)估與預(yù)測(cè),成為當(dāng)下面臨的重要問(wèn)題。
目前,國(guó)內(nèi)學(xué)者對(duì)債券違約的研究分為理論方面和模型方面。理論方面,李陽(yáng)藍(lán)(2017)以東北特鋼為例,認(rèn)為影響債券違約的因素有以下幾個(gè)方面:融資渠道與短貸長(zhǎng)投、償債能力以及營(yíng)運(yùn)能力。劉軼軍(2018)從行業(yè)發(fā)展、公司經(jīng)營(yíng)、財(cái)務(wù)等方面歸納影響債券違約的因素。苗霞(2018)從文獻(xiàn)的視角歸納影響債券違約的因素,分別是宏觀經(jīng)濟(jì)特征、行業(yè)特征、企業(yè)特征以及制度環(huán)境。
模型方面,楊世偉和李錦成(2015)基于KMV、PMF以及probit模型研究了公司債、企業(yè)債、私募債的違約概率。姚紅宇與施展(2018)利用時(shí)間風(fēng)險(xiǎn)模型來(lái)研究公司特征、地方環(huán)境指標(biāo)和財(cái)務(wù)指標(biāo)三個(gè)因素對(duì)債券違約的影響。程昊等(2020)分析了債券違約的內(nèi)外部因素,然后基于分析結(jié)果,使用Logistic模型建立了違約預(yù)測(cè)模型。
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,將機(jī)器學(xué)習(xí)算法應(yīng)用到債券違約預(yù)測(cè)方面也成為了許多學(xué)者研究的方向。胡蝶(2018)運(yùn)用債券違約歸因后的一系列特征,構(gòu)建了基于隨機(jī)森林算法的債券違約預(yù)測(cè)模型。周榮喜等(2019)通過(guò)隨機(jī)森林算法進(jìn)行特征選擇,然后運(yùn)用選擇的特征以及XGBoost算法構(gòu)建了債券違約預(yù)測(cè)模型。張辰雨等(2021)運(yùn)用財(cái)務(wù)指標(biāo)數(shù)據(jù),構(gòu)建了基于支持向量機(jī)的債券違約模型。Zhang and Chen(2021)基于SMOTE算法和XGBoost算法構(gòu)建了債券違約預(yù)測(cè)模型。
通過(guò)梳理文獻(xiàn),發(fā)現(xiàn)財(cái)務(wù)特征是影響債券違約的一個(gè)重要特征,并且機(jī)器學(xué)習(xí)算法在債券違約方面也取得了一定的研究成果。因此,本文將基于以往研究,以AIWIN平臺(tái)的發(fā)債企業(yè)的財(cái)務(wù)數(shù)據(jù)為以及債券違約數(shù)據(jù)為研究對(duì)象,研究機(jī)器學(xué)習(xí)算法在債券違約預(yù)測(cè)方面的應(yīng)用。首先,基于財(cái)務(wù)數(shù)據(jù)和違約數(shù)據(jù)進(jìn)行標(biāo)簽構(gòu)造以及缺失值處理,然后使用方差選擇法和互信息法篩選出有效的特征,接著劃分訓(xùn)練集和測(cè)試集,并采用SMOTE算法和Tomek Links算法結(jié)合的方法對(duì)訓(xùn)練集進(jìn)行平衡處理,最后構(gòu)建基于隨機(jī)森林的債券違約預(yù)測(cè)模型,并將其與邏輯回歸、決策樹(shù)構(gòu)建的債券違約預(yù)測(cè)模型進(jìn)行性能上的對(duì)比。
隨機(jī)森林算法屬于Bagging算法的擴(kuò)展之一,它是以決策樹(shù)模型為基學(xué)習(xí)器,通過(guò)構(gòu)建多棵決策樹(shù)的組合模型。為了構(gòu)建多樣化的決策樹(shù),隨機(jī)森林算法在模型訓(xùn)練過(guò)程中,引入隨機(jī)屬性。隨機(jī)分為兩重隨機(jī):第一重隨機(jī)是數(shù)據(jù)采樣的隨機(jī),第二重隨機(jī)是特征的隨機(jī)抽取,即每棵決策樹(shù)隨機(jī)抽取部分特征來(lái)進(jìn)行訓(xùn)練。對(duì)于回歸問(wèn)題采用平均法來(lái)決定最終結(jié)果,對(duì)于分類(lèi)問(wèn)題則采用投票法來(lái)決定最終結(jié)果。
SMOTE算法的基本思路是通過(guò)合成少數(shù)類(lèi)的樣本,從而使兩類(lèi)樣本在數(shù)量上達(dá)到平衡。算法的具體流程如下:
①以歐式距離為標(biāo)準(zhǔn),計(jì)算少數(shù)類(lèi)中的每一個(gè)樣本x到所有的少數(shù)類(lèi)樣本的距離,得到其k個(gè)近鄰樣本。
②對(duì)于每一個(gè)少數(shù)樣本x,從其k近鄰中選擇若干個(gè)樣本,假設(shè)近鄰為xm。
③對(duì)于每一個(gè)xm,與原樣本按照如下公式構(gòu)造新的樣本。
式中,rand(0,1)表示?。?,1)之間的一個(gè)隨機(jī)數(shù)。合成樣本的示意圖如圖1所示。
圖1 SMOTE算法的原理圖
Tomek Links算法的基本思路如下:兩個(gè)樣本假設(shè)為x和y,分別來(lái)自不同的類(lèi)別,如果不存在一個(gè)樣本z,使得樣本x和樣本z的歐氏距離或者樣本y和樣本z的歐氏距離小于樣本x和樣本y的歐氏距離,則兩個(gè)樣本x和y被稱為T(mén)omek Links。如圖2所示。這種情況下,兩個(gè)樣本被認(rèn)為是噪聲數(shù)據(jù)或者在邊界附近。該算法通過(guò)剔除Tomek Links從而實(shí)現(xiàn)欠采樣的目的。
圖2 Tomek Links
本文以AIWIN平臺(tái)的數(shù)據(jù)作為研究對(duì)象,選取了部分企業(yè)的2018-2019年的財(cái)務(wù)數(shù)據(jù)集以及2019-2020年的違約記錄數(shù)據(jù)集。財(cái)務(wù)數(shù)據(jù)集的指標(biāo)主要有企業(yè)id,企業(yè)發(fā)布財(cái)務(wù)報(bào)表的日期以及企業(yè)的財(cái)務(wù)指標(biāo),違約記錄數(shù)據(jù)集的指標(biāo)是企業(yè)id以及發(fā)生債券違約的日期。
通過(guò)觀察數(shù)據(jù)發(fā)現(xiàn)某些企業(yè)在一年里發(fā)生多次違約,這部分企業(yè)只保留一次違約記錄,然后將處理后的違約數(shù)據(jù)集的企業(yè)全部標(biāo)記為1,表示發(fā)生了債券違約行為。在企業(yè)違約前,財(cái)務(wù)信息往往會(huì)提前表現(xiàn)出一些狀況,因此將2018、2019年的財(cái)務(wù)指標(biāo)數(shù)據(jù)集分別和2019、2020年的違約記錄數(shù)據(jù)集作拼接處理,處理后未標(biāo)記的企業(yè)則標(biāo)記為0,表示沒(méi)有發(fā)生違約行為。
將數(shù)據(jù)集進(jìn)行拼接處理后,發(fā)現(xiàn)大量特征存在缺失值,缺失率高達(dá)百分之二十多。常見(jiàn)的處理缺失值的方法有以下幾種:一是直接刪除含有缺失值的樣本,二是用均值、中值,或者其他最常用的數(shù)值來(lái)填補(bǔ)缺失值。由于缺失率過(guò)高,采用填補(bǔ)缺失值的方法會(huì)引入大量噪聲,因此本文直接刪除所有具有缺失值的行。
經(jīng)過(guò)以上處理后,樣本的分布情況大致如下。其中發(fā)生違約的記錄大約有115條,沒(méi)有違約的記錄大概有13000條。很明顯這是一個(gè)極度不平衡的樣本,需要做平衡處理。
由于原始特征個(gè)數(shù)明顯較多,有162個(gè),因此需要進(jìn)行特征選擇,目的是篩選出與債券違約狀況最相關(guān)的變量,便于后續(xù)的模型輸入。
本文先使用方差選擇法來(lái)篩選方差比較小的特征,然后使用互信息法來(lái)選擇22個(gè)與債券違約狀況最相關(guān)的變量。
方差選擇法是通過(guò)特征本身的方差來(lái)進(jìn)行特征篩選。比如,某個(gè)特征的方差很小,說(shuō)明各個(gè)樣本再去該特征上的值幾乎沒(méi)有差異,可能大多數(shù)樣本的取值都一樣甚至完全相同,那么該特征對(duì)于樣本區(qū)分來(lái)說(shuō),幾乎沒(méi)有任何作用。
互信息是用來(lái)度量?jī)蓚€(gè)隨機(jī)變量共享的信息,即在隨機(jī)變量X已知的情況下,對(duì)于未知的隨機(jī)變量Y的不確定性減少的程度,不確定性是用熵來(lái)衡量的?;バ畔⒌墓饺缦拢?/p>
在特征選擇中,互信息衡量了特征與標(biāo)簽之間相互依賴的程度,互信息值越大,依賴程度越高,特征與標(biāo)簽之間的相關(guān)性也就越強(qiáng)。篩選后的特征如表1所示。
表1 變量名稱及描述
由于原始數(shù)據(jù)只有一份,因此有必要將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。如果將數(shù)據(jù)全部用于訓(xùn)練模型,得到的模型將沒(méi)有任何實(shí)際意義。訓(xùn)練模型的最終目的是用于預(yù)測(cè)新的樣本,只有當(dāng)訓(xùn)練的模型在新樣本上也有極高的精確度,即預(yù)測(cè)效果很好時(shí),訓(xùn)練的模型才能應(yīng)用于實(shí)際業(yè)務(wù)。本 文 采 用sklearn庫(kù) 中model_selection下 的train_test_split方法,將70%的樣本用于訓(xùn)練模型,30%的樣本用于測(cè)試模型的預(yù)測(cè)效果。
不平衡的樣本會(huì)嚴(yán)重影響模型的精確度。比如說(shuō),在研究債券違約的問(wèn)題時(shí),假設(shè)不違約的企業(yè)數(shù)量與違約的企業(yè)數(shù)量比例達(dá)到了99:1,在這種情況下,即使把所有企業(yè)都當(dāng)成不違約的企業(yè),正確率也有99%,這樣就會(huì)使得模型評(píng)價(jià)變得毫無(wú)意義,無(wú)法達(dá)到建模目的——識(shí)別出違約的企業(yè)。
因此,做樣本平衡是有必要的。樣本平衡處理的常用方法有過(guò)采樣和欠采樣。過(guò)采樣方法是通過(guò)增加少數(shù)類(lèi)樣本,從而使兩類(lèi)樣本在數(shù)量上達(dá)到平衡,但是簡(jiǎn)單的復(fù)制少數(shù)類(lèi)樣本,容易使模型過(guò)擬合,模型泛化能力減弱。欠采樣方法是通過(guò)減少多數(shù)類(lèi)樣本,從而使兩類(lèi)樣本在數(shù)量上達(dá)到平衡,但是下采樣方法會(huì)使大部分樣本流失,在此條件下建立的模型很容易欠擬合,同樣會(huì)使模型的泛化能力減弱。
基于此,本文采用SMOTE算法結(jié)合Tomek Links算法的方法來(lái)對(duì)訓(xùn)練集進(jìn)行平衡處理。首先通過(guò)SMOTE算法合成新的少數(shù)類(lèi)訓(xùn)練樣本,由于在合成新的少數(shù)類(lèi)訓(xùn)練樣本時(shí),容易出現(xiàn)少數(shù)類(lèi)訓(xùn)練樣本“入侵”多數(shù)類(lèi)訓(xùn)練樣本的情況,造成模型的過(guò)擬合,因此還要采用Tomek Links算法剔除噪聲數(shù)據(jù),解決少數(shù)類(lèi)訓(xùn)練樣本“入侵”多數(shù)類(lèi)訓(xùn)練樣本的問(wèn)題。
評(píng)價(jià)指標(biāo)選取AUC、準(zhǔn)確率這兩個(gè)指標(biāo)。AUC的值等于ROC曲線下的面積,ROC曲線是以FPR為橫軸,TPR為縱軸的曲線。其中,F(xiàn)PR指假正例率,即真實(shí)樣本為負(fù)例,預(yù)測(cè)結(jié)果為正例的樣本所占的比例;TPR指真正例率,即真實(shí)樣本為正例,預(yù)測(cè)結(jié)果為正例的樣本所占的比例。準(zhǔn)確率表示當(dāng)樣本預(yù)測(cè)為正類(lèi)時(shí),真實(shí)結(jié)果為正類(lèi)的樣本所占的比例。
本文使用隨機(jī)森林算法預(yù)測(cè)違約狀態(tài),然后使用AUC和準(zhǔn)確率兩個(gè)值來(lái)評(píng)價(jià)其預(yù)測(cè)性能,并對(duì)比了邏輯回歸、決策樹(shù)算法在該數(shù)據(jù)集上的預(yù)測(cè)性能,結(jié)果如表2所示。從準(zhǔn)確率來(lái)看模型的預(yù)測(cè)效果,隨機(jī)森林的預(yù)測(cè)效果最好,準(zhǔn)確率為98.32%,決策樹(shù)的預(yù)測(cè)效果稍次,準(zhǔn)確率為96.95%,邏輯回歸的預(yù)測(cè)效果最差,準(zhǔn)確率僅有73.28%;從AUC來(lái)看模型的預(yù)測(cè)效果,隨機(jī)森林的預(yù)測(cè)效果最好,AUC為89.96%,邏輯回歸和決策樹(shù)的預(yù)測(cè)效果相差不大,AUC分別為71.72%和70.41%。綜合對(duì)比兩個(gè)指標(biāo),可以得出結(jié)論隨機(jī)森林的預(yù)測(cè)效果優(yōu)于邏輯回歸和決策樹(shù)的預(yù)測(cè)效果。
表2 評(píng)價(jià)結(jié)果對(duì)比
本文基于財(cái)務(wù)數(shù)據(jù)構(gòu)建了隨機(jī)森林分類(lèi)模型,對(duì)發(fā)債企業(yè)是否會(huì)發(fā)生債券違約進(jìn)行了預(yù)測(cè),并將其與邏輯回歸、決策樹(shù)構(gòu)建的模型做了一個(gè)預(yù)測(cè)性能上的對(duì)比??紤]到樣本極度不平衡以及初始特征比較多的情況,使用了方差選擇法與互信息法篩選出了與債券違約最相關(guān)的部分特征,并且通過(guò)SMOTE和Tomek Links結(jié)合的方法對(duì)樣本做了平衡處理。結(jié)果顯示,在模型評(píng)價(jià)方面,基于隨機(jī)森林構(gòu)建的模型相比于邏輯回歸、決策樹(shù)構(gòu)建的模型,AUC、準(zhǔn)確率這兩個(gè)指標(biāo)的值都更高,表明隨機(jī)森林算法在債券違約預(yù)測(cè)上的效果是比較良好的,對(duì)于債券違約預(yù)測(cè)的相關(guān)研究具有一定的參考價(jià)值。
本文構(gòu)建的模型仍存在一些不足。正如前面文獻(xiàn)梳理中提到的,宏觀經(jīng)濟(jì)特征、行業(yè)特征、企業(yè)特征以及制度環(huán)境這幾類(lèi)特征都能作為影響債券違約影響的因素,而本文僅僅依靠財(cái)務(wù)特征來(lái)構(gòu)建債券違約預(yù)測(cè)模型,存在一定的不足。如何將這幾類(lèi)特征納入模型指標(biāo),可以成為未來(lái)研究的一個(gè)重點(diǎn)。