摘要:大數(shù)據(jù)、人工智能技術(shù)的運(yùn)用為企業(yè)信用風(fēng)險(xiǎn)預(yù)測(cè)提供了新的視角。本文通過爬蟲程序抓取全市場約9000家企業(yè)的司法訴訟信息、招聘信息、法人和核心團(tuán)隊(duì)工商變更記錄等無法粉飾的剛性數(shù)據(jù),并采用機(jī)器學(xué)習(xí)等人工智能方法,開發(fā)出違約概率預(yù)測(cè)模型,可對(duì)企業(yè)違約概率做出前瞻性預(yù)測(cè),從而實(shí)現(xiàn)對(duì)企業(yè)信用風(fēng)險(xiǎn)更早的預(yù)警。
關(guān)鍵字:信用風(fēng)險(xiǎn)??剛性數(shù)據(jù)??機(jī)器學(xué)習(xí)方法??神經(jīng)網(wǎng)絡(luò)
在當(dāng)今大數(shù)據(jù)、人工智能的時(shí)代,很多企業(yè)的日常經(jīng)營行為在互聯(lián)網(wǎng)上都有跡可循,這為企業(yè)信用風(fēng)險(xiǎn)預(yù)測(cè)提供了新的視角。我們通過互聯(lián)網(wǎng)爬蟲技術(shù)抓取與企業(yè)經(jīng)營相關(guān)且無法粉飾的剛性數(shù)據(jù),并從這些非結(jié)構(gòu)化的數(shù)據(jù)中提取結(jié)構(gòu)化的入模指標(biāo),采用由監(jiān)督機(jī)器學(xué)習(xí)技術(shù)開發(fā)的企業(yè)違約概率預(yù)測(cè)模型,對(duì)企業(yè)違約情況進(jìn)行預(yù)測(cè)。經(jīng)過檢驗(yàn),該預(yù)測(cè)模型達(dá)到了很好的效果。本文將對(duì)基于剛性數(shù)據(jù)的違約概率預(yù)測(cè)模型的基本原理進(jìn)行闡述,從一個(gè)全新的視角力求對(duì)債券市場信用風(fēng)險(xiǎn)進(jìn)行分析。
違約預(yù)測(cè)的剛性數(shù)據(jù)和彈性數(shù)據(jù)
傳統(tǒng)的企業(yè)信用風(fēng)險(xiǎn)評(píng)估方法主要基于企業(yè)財(cái)務(wù)報(bào)表數(shù)據(jù)。同時(shí),企業(yè)的會(huì)計(jì)核算以權(quán)責(zé)發(fā)生制為基本原則,企業(yè)收入和利潤的核算、確認(rèn)有一定的調(diào)節(jié)空間。因此,我們通常把企業(yè)的財(cái)務(wù)數(shù)據(jù)稱為彈性數(shù)據(jù)。通過研究已經(jīng)違約主體在違約前三年的財(cái)務(wù)數(shù)據(jù),我們發(fā)現(xiàn)很難從這些彈性數(shù)據(jù)中獲取企業(yè)的財(cái)務(wù)異常信號(hào)。因此,很多企業(yè)在其違約前的利潤和現(xiàn)金流狀況都體現(xiàn)為“良好”。那么在實(shí)務(wù)中如何對(duì)企業(yè)信用風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)?
我們通過研究發(fā)現(xiàn),根據(jù)企業(yè)的剛性數(shù)據(jù)往往能夠發(fā)現(xiàn)其違約前的信號(hào)。這些剛性數(shù)據(jù)包括司法被訴信息,每季度發(fā)布招聘職位數(shù)量的變化趨勢(shì),法人變更情況,董事、監(jiān)事、高級(jí)管理人員(以下簡稱“董監(jiān)高”)及財(cái)務(wù)人員變更情況,股權(quán)出質(zhì)和動(dòng)產(chǎn)抵押融資等數(shù)據(jù)。由于企業(yè)對(duì)這些數(shù)據(jù)很難粉飾,因此我們把它們統(tǒng)稱為剛性數(shù)據(jù)。
這樣,我們?cè)u(píng)估企業(yè)信用風(fēng)險(xiǎn)的思路就非常清晰了。那就是首先從獲取的大量信息中剔除“噪聲”、保留“信號(hào)”,然后再用保留的有價(jià)值信號(hào)對(duì)企業(yè)信用風(fēng)險(xiǎn)作出判斷。所謂噪聲,是指假象,是無價(jià)值的信息;所謂信號(hào),是指真相,是有價(jià)值的信息。
使用剛性數(shù)據(jù)評(píng)估企業(yè)信用風(fēng)險(xiǎn)及檢驗(yàn)
使用剛性數(shù)據(jù)評(píng)估企業(yè)信用風(fēng)險(xiǎn),主要包括剛性數(shù)據(jù)的獲取、剛性指標(biāo)的提取、機(jī)器學(xué)習(xí)方法計(jì)算企業(yè)違約概率等三個(gè)步驟。
(一)剛性數(shù)據(jù)的獲取
我們獲取企業(yè)剛性數(shù)據(jù)的數(shù)據(jù)源主要有三個(gè),分別是獲取司法訴訟信息的中國裁判文書網(wǎng),獲取企業(yè)發(fā)布招聘職位信息的各大招聘網(wǎng)站、地方人才網(wǎng)和行業(yè)招聘網(wǎng)站,獲取法人變更、董監(jiān)高變更和企業(yè)場外融資信息的地方工商局網(wǎng)站。
在數(shù)據(jù)源確定后,我們使用Python編程語言開發(fā)許多爬蟲程序,可以做到每天批量抓取全市場約9000家主體的上述剛性數(shù)據(jù)。
(二)剛性指標(biāo)的提取
從抓取的司法裁判文書中,我們可根據(jù)司法涉訴性質(zhì)和嚴(yán)重程度分別提取定量型指標(biāo),如每家公司因合同糾紛被訴次數(shù)、勞動(dòng)爭議被訴次數(shù)、拖欠貨款被訴次數(shù)、企業(yè)與股東間的訴訟次數(shù)、被銀行起訴的次數(shù)、被小貸公司起訴的次數(shù)、被法院執(zhí)行的次數(shù)、是否被法院納入失信名單等司法涉訴性質(zhì)指標(biāo)。而且,這些指標(biāo)所反映企業(yè)經(jīng)營異常的嚴(yán)重程度在逐漸增加。比如:拖欠貨款被訴在一定程度上說明企業(yè)的現(xiàn)金流緊張,與股東間的訴訟表明企業(yè)跟股東之間有矛盾,被銀行起訴說明拖欠了銀行的貸款(屬于比較嚴(yán)重的信號(hào)),被小貸公司起訴說明企業(yè)現(xiàn)金流非常緊張、已經(jīng)借高利貸且逾期了(屬于極其嚴(yán)重的信號(hào)),等等。
除此之外,我們還可提取比率型的指標(biāo)和被訴且需要賠款的金額等量化型指標(biāo),這些指標(biāo)在更大程度上反映了企業(yè)經(jīng)營困難的嚴(yán)重程度,如被訴次數(shù)最近兩年占比、被訴且需要賠款的金額最近兩年占比等指標(biāo)。
通過研究已經(jīng)違約的公司在違約前的征兆,我們發(fā)現(xiàn)一些公司在違約前一年內(nèi)存在頻繁變更公司法人、董監(jiān)高和財(cái)務(wù)人員的情況,也存在一些股權(quán)出質(zhì)、動(dòng)產(chǎn)抵押等場外融資行為。因此,通過工商注冊(cè)變更記錄,我們可提取公司法人名下有多少家公司、最近兩年工商變更次數(shù)、場外融資情況等量化指標(biāo),如圖1所示。
(三)用機(jī)器學(xué)習(xí)方法計(jì)算企業(yè)違約概率
從上述非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu)化指標(biāo)的長清單,只是采用非財(cái)務(wù)數(shù)據(jù)進(jìn)行違約概率預(yù)測(cè)的第一步。接下來,還需要從這些長清單中篩選對(duì)違約狀態(tài)影響比較顯著的擬入模指標(biāo),并在擬入模指標(biāo)中剔除相關(guān)性較強(qiáng)的指標(biāo),避免出現(xiàn)模型的過擬合現(xiàn)象,最終生成入模指標(biāo)清單。之后,將這些入模指標(biāo)送入神經(jīng)網(wǎng)絡(luò)(機(jī)器學(xué)習(xí)方法之一)作為輸入,并不斷訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)每個(gè)節(jié)點(diǎn)的激活函數(shù),最終就可計(jì)算得到每家公司的違約概率,如圖2所示。
(四)全市場檢驗(yàn)結(jié)果
通過上述方法計(jì)算得到每家公司的違約概率,并根據(jù)全市場樣本違約與正常的標(biāo)記,可繪制如圖3所示用于檢驗(yàn)分類模型的ROC曲線,并得到AUC的值為0.939。這條曲線表明,將正常樣本和違約樣本區(qū)分開來的違約概率臨界點(diǎn)是0.028,正常樣本中90.7%的預(yù)測(cè)準(zhǔn)確,違約樣本中85.0%的預(yù)測(cè)準(zhǔn)確。
典型違約事件淺析
(一)A公司
A公司債券上市日期為2010年10月20日,違約日期為2015年10月19日。在違約前約兩年時(shí)間里,A公司未公布任何財(cái)務(wù)報(bào)表信息。但在2014—2015年間,A公司存在如表1所示的嚴(yán)重負(fù)面事件。
工商銀行起訴還本付息
我們運(yùn)用前文介紹的方法,計(jì)算A公司每月的違約概率,繪制了如圖4所示的違約概率曲線。曲線顯示,從2014年10月開始,A公司違約概率大幅上升,在實(shí)際發(fā)生違約的2015年10月,其違約概率達(dá)到61.95%。
(二)B公司
B公司債券違約發(fā)生時(shí)間為2018年9月25日,在其違約前的一年多時(shí)間里,我們先后抓取到B公司被銀行起訴3次、民間借貸被訴1次、與股東之間的訴訟1次,并繪制了如圖5所示的違約概率曲線。曲線顯示,從2017年5月開始,B公司違約概率顯著上升,2018年后違約概率穩(wěn)定在16.74%,明顯高于歷史均值。
目前,中國資本市場評(píng)估企業(yè)信用風(fēng)險(xiǎn)主要依靠財(cái)務(wù)數(shù)據(jù),而從違約前的財(cái)務(wù)數(shù)據(jù)中難以獲取企業(yè)異常信號(hào),要識(shí)別企業(yè)信用風(fēng)險(xiǎn)是一個(gè)龐大的系統(tǒng)工程。為此,我們率先做了一些嘗試,使用以非財(cái)務(wù)數(shù)據(jù)為主、財(cái)務(wù)數(shù)據(jù)為輔的大數(shù)據(jù)評(píng)級(jí)方法,并回測(cè)計(jì)算每家企業(yè)違約發(fā)生前兩年多的違約概率并繪制違約概率曲線,力求通過概率統(tǒng)計(jì)的創(chuàng)新方法,對(duì)信用風(fēng)險(xiǎn)進(jìn)行更早的預(yù)警。
作者單位:深圳市云信譽(yù)科技有限公司
責(zé)任編輯:劉鐵峰??羅邦敏
參考文獻(xiàn)
[1]云信譽(yù)官網(wǎng):www.yun-rating.com.
[2]崔玉征.?基于R語言的證券公司信用風(fēng)險(xiǎn)計(jì)量和管理[M].?北京:清華大學(xué)出版社,2017.
[3]崔玉征.?人工智能在信用債投資領(lǐng)域的應(yīng)用:Python語言實(shí)踐[M].?北京:清華大學(xué)出版社,2018.