岳愛東
我國信用體系的建設開始較晚,國內(nèi)學者對微觀客戶信用風險的研究也相對較少。關于違約概率
模型的構建方法及具體技術方面的研究包括:梁世棟等對信用風險模型的相關數(shù)學描述做了總結,并對比分析了各種模型的優(yōu)缺點[注]梁世棟:《信用風險模型比較分析》,《中國管理科學》2002年第10期。。姜天和韓立巖[注]姜天、韓立巖:《基于Logit模型的中國預虧上市公司財務困境預測》,《北京航空航天大學學報(社會科學版)》2004年第1期。、管七海和馮宗憲[注]管七海、馮宗憲:《我國制造業(yè)企業(yè)短期貸款信用違約判別研究》,《經(jīng)濟科學》2004年第5期。使用Logistic回歸模型,使用是否違約客戶數(shù)的多種配比,實際測算了具體財務指標系數(shù)。武劍就銀行內(nèi)部評級模型的構建方法、關鍵步驟及相關應用進行了介紹[注]武劍:《內(nèi)部評級法中的違約損失率 (LGD) 模型——新資本協(xié)議核心技術研究》,《國際金融研究》2005年第2期。。鄭大川等對銀行內(nèi)部評級體系中的指標選取的合理性做了相關的實證研究,提出了相應的改善建議,但無具體理論及操作方法[注]鄭大川、王恒、黃震:《商業(yè)銀行內(nèi)部評級法的違約概率預測新方法——基于二值響應面板數(shù)據(jù)模型的研究》,《南方金融》2011年第2期。。隨著《巴塞爾新資本協(xié)議》出臺和大量不良客戶的涌出,銀行對客戶的違約概率關注度不斷加強,國內(nèi)的一些研究開始轉向使用銀行貸款客戶的微觀數(shù)據(jù)建立模型。但是大部分研究使用的數(shù)據(jù)量較小,未對所用數(shù)據(jù)合理處理。如賈海濤通過對商業(yè)銀行貸款企業(yè)構建Logit模型,結合貸款五級分類法實證分析后,計算出企業(yè)的違約概率[注]賈海濤:《我國商業(yè)銀行信用違約概率的測度》,《統(tǒng)計與決策》2008第10期。,不足的是未對企業(yè)違約概率的準確性提出可行的測量方法。王穎等實證分析后得出我國商業(yè)銀行應該結合自身特點,采用專家判斷和信用評級模型相結合的方法計量企業(yè)信用風險的結論[注]王穎:《基于信用評分模型的我國商業(yè)銀行客戶違約概率研究》,《管理評論》2012年第2期。。綜合現(xiàn)有信用風險評級的文獻,眾多學者對商業(yè)銀行所建內(nèi)部風險評級模型的研究,本文認為銀行建立的企業(yè)風險控制模型,在數(shù)據(jù)理論基礎、開發(fā)技術流程、測試管理方法上還有一定的改進空間。特別是關于信用風險模型中有關定量指標的選取問題,大部分研究并未交代如何縮小大量財務指標的選擇范圍,也未給出企業(yè)財務報表中的大量數(shù)據(jù)如何做出定量分析。
本文從非零售客戶評級角度,基于商業(yè)銀行行業(yè)實際數(shù)據(jù),系統(tǒng)地研究了客戶評級定量指標的篩選問題。對基于財務因素的定量指標,從償債能力、現(xiàn)金流能力、營運能力、盈利能力、發(fā)展能力、資產(chǎn)及規(guī)模六個大類,構建出結構分析、增長變動分析、增長變動速度分析的200多個財務指標。通過對這些指標數(shù)據(jù)的統(tǒng)計分析,計算指標數(shù)據(jù)WOE值,使用基于證據(jù)權重的方法,篩選具有高風險識別能力、高穩(wěn)定性的模型指標。全文如下闡述:定量指標數(shù)據(jù)處理理論、定量指標的Logistic回歸模型,在第二部分中進行詳細闡述。第三部分從分析企業(yè)違約因素到對定量指標的選取、樣本的構成、WOE及IV值的計算過程做出詳細說明。第四部分利用Logistic模型做出實證分析,并對模型效果進行檢驗,最終確定所選指標范圍。最后是本文的結論及啟示。
隨著信息熵的概念不斷深化,其應用也越來越廣泛。信息熵是源于香農(nóng)建立的,對不確定性信息的定量度量理論。對于離散信息源而言,其可以表示為隨機變量X的取值xi(i= 1,2,…,n)的概率。其中:
而在現(xiàn)實中,由于概率值pi事前不可預知,即具有不確定性。香農(nóng)提出了使用定量度量函數(shù)對這種不確定性進行假設的方法。這種方法的前提是:首先,度量函數(shù)具有單調性,概率值pi相同時,該函數(shù)應當為最終結果n的單調增函數(shù)。其次,函數(shù)具有連續(xù)性且該函數(shù)應為離散概率pi的連續(xù)函數(shù)。最后,函數(shù)具有可加性,對獨立事件的不確定性,為其獨立值pi之和。滿足上述要求的函數(shù)為:
其中k值通常為1,只受度量單位的影響。則離散信息源的熵定義為:
相對而言,如果隨機變量是連續(xù)的X,密度函數(shù)為p(x),則信息熵可定義為:
即分布函數(shù)p(x)對數(shù)的數(shù)學期望:
H(X)=-E[lnp(x)]
綜上所述,對于發(fā)生概率為p的某事件而言,其信息熵H(p)可表示為:
H(p)=-[plnp+(1-p)ln(1-p)]
由上式可以看出p=1/2時,該式取得最大值,表明信息量最大。反之,若p=1或p=0,則表明所討論事件必然發(fā)生,或者是對立事件必然發(fā)生。這種情況下信息量為零。
上式求取期望后,借貸客戶評分S下發(fā)生違約事件的熵值,可用下式表示:
從上式可以看出信息IV值恒為正,且沒有上限。IV值衡量的是兩類客戶間分布的差異。
應用以上理論選擇指標,通過提取客戶資料信息先計算出IV值,再根據(jù)IV值選取指標。將以上理論應用到客戶評級的建模過程中,首先需要找出每個財務指標的劃分區(qū)間。每個區(qū)間對應于評級體系中的某個級別。假設一個財務指標為:Z=(z1,…,zn)T代表n個客戶的指標值。而Yi=0∪1,i=1,…,n代表第i個客戶的違約情況。將Z按照升序排列,記為Z′=(z1,…,zn)T。假設要將Z劃分為N個區(qū)間,那么就需要N-1個分界點z(j),j=1,…,N-1并且按照以下公式:
(1)
計算WOE值的單調序列。設G(i),B(i)分別表示第i個區(qū)間非違約和違約客戶個數(shù),G,B表示總體的非違約和違約客戶個數(shù)。統(tǒng)計上看WOE的本質為正??蛻舴植寂c不良客戶分布的對數(shù)似然比。WOE值增加則意味著客戶違約風險降低,當WOE(i)>0(WOE(i)<0)表示在這個區(qū)間內(nèi)的非違約客戶比例大于(小于)違約客戶比例,則根據(jù)WOE的值可以得到IV值。如果計算出的WOE值無法形成單調序列,則棄用此指標。
(2)
每個WOE值的分隔區(qū)間都對應著一個客戶風險等級,WOE序列如果具有嚴格單調性,也就是隨著等級的增加,對應的風險相應地減少?;蛘呦喾磩t風險增加。則可以將WOE值的線性間隔區(qū)間擬合為線性回歸方程。
WOEi=α0+α×i+ε,i=1,2,…,N
上式的回歸方程可以通過擬合優(yōu)度R2衡量其擬合度,如下式
Logistic回歸模型常用于被解釋變量是“0,1”二分變量的情況。實際中我們可以觀測到的是客戶的違約情況yi,它表示客戶違約或未違約兩種情況。但客戶的違約概率PD是不可觀測的。OLS模型無法解決yi這類數(shù)據(jù)的回歸問題。Logistic回歸更適用于這類問題,并可估算出違約概率PD值。統(tǒng)計研究表明,對于非正態(tài)分布的數(shù)據(jù),Logistic回歸具有更高的模型精度。對于銀行來說,因為企業(yè)報送的財務數(shù)據(jù)無法服從正態(tài)分布。所以選擇Logistic模型測算客戶違約概率更為合適。假設被解釋變量Y=1表示客戶違約,Y=0表示客戶未違約。解釋變量為X=(x1,x2,…,xm)′。對于p=P(Y=1|X),Logistic回歸模型:
(3)
財務因素是商業(yè)銀行對企業(yè)信用評級重點考量依據(jù),是確定定量分析模型的基礎。因企業(yè)財務報表中所含財務指標較多。一般來說,銀行根據(jù)借款企業(yè)提供的財務報表將財務因素分為:償債能力、現(xiàn)金流能力、發(fā)展能力、營運能力、盈利能力、資產(chǎn)及規(guī)模六個大類?;阢y行風險控制的視角,對這六類指標注釋如下。
1.企業(yè)償債能力是銀行最為關注的指標,企業(yè)財務健康狀況和生產(chǎn)經(jīng)營能力是企業(yè)償債能力的重要保障。一般認為,指標主要包括資產(chǎn)負債率、產(chǎn)權比率、已獲利息倍數(shù)、有形資產(chǎn)凈值債務率、長期債務等。
2.現(xiàn)金流能力是指企業(yè)償還短期借債的能力,反映企業(yè)現(xiàn)金流狀況的主要指標是流動比率和速動比率等。
3.營運能力是指企業(yè)調配自身生產(chǎn)要素獲取利潤的能力,反映企業(yè)營運能力的指標有營業(yè)周期、總資產(chǎn)周轉率、流動資產(chǎn)周轉率和應收賬款周轉率等。
4.盈利能力是指企業(yè)賺取利潤的能力,對此指標的衡量會限定于一個周期內(nèi)。代表性的指標有銷售利率、資產(chǎn)利率和資產(chǎn)收益率等。
5.企業(yè)發(fā)展能力是指其發(fā)展?jié)摿?。這種能力不僅與企業(yè)自身建設有關,還與經(jīng)濟周期和宏觀經(jīng)濟環(huán)境密切相關。主要指標包括營業(yè)收入增長率、資本增值率、資本累積率等。
6.資產(chǎn)規(guī)模是指企業(yè)擁有或控制的現(xiàn)有總資產(chǎn)額或固定資產(chǎn)額。企業(yè)規(guī)模與企業(yè)發(fā)展能力密切相關,企業(yè)發(fā)展過程中適當控制企業(yè)規(guī)模有利于企業(yè)更好控制風險。代表性指標有職工資產(chǎn)比等。
梳理現(xiàn)有數(shù)據(jù)后共建立了144個財務指標[注]因文章篇幅所限,未列出全部指標,如有需要可向作者索取。。這些篩選出來的指標信息全面涵蓋了企業(yè)的財務因素,依據(jù)這些指標建立了樣本模型。其中,正常樣本是指從客戶與銀行發(fā)生業(yè)務往來開始,從未發(fā)生違約[注]違約界定:1998年5月,中國人民銀行參照國際慣例,結合中國國情,制定了《貸款分類指導原則》,要求商業(yè)銀行依據(jù)借款人的實際還款能力進行貸款質量的五級分類,即按風險程度將貸款劃分為五類:正常、關注、次級、可疑、損失,后三種為不良貸款。符合后三種情況即視為違約客戶。的客戶所形成的樣本,將其定義為正常樣本。相對而言,違約樣本[注]根據(jù)新資本管理辦法的要求,用于估計非零售風險暴露債務人違約概率的數(shù)據(jù)觀察周期不得低于5年;用于估計非零售風險暴露違約損失率的數(shù)據(jù)觀察期不得低于7年。,是指客戶自與銀行發(fā)生業(yè)務往來開始,發(fā)生過違約的情況就視為違約客戶。違約客戶形成的樣本定義為違約樣本。
表1正??蛻魳颖靖髌诖畏植?/p>
表2違約客戶樣本各期次分布
違約樣本根據(jù)前面正常樣本數(shù)據(jù)的處理流程,有20個指標被刪除,剩余124個指標。當前違約樣本存在少部分指標數(shù)據(jù)缺失的問題。從樣本和指標兩個維度統(tǒng)計,針對缺失數(shù)據(jù),采用指標年平均值填補,計算平均值時剔除空值;對于仍存在缺失值的,采用所有樣本的均值補充。
樣本抽樣問題,按好壞客戶數(shù)比率20∶1進行分層抽樣。違約樣本則從51個樣本中隨機抽取40個。剩余的11個加2014年的違約客戶作為驗證樣本。正??蛻羰菑?613個樣本中隨機抽取800個作為建模樣本,剩余的樣本中抽取280個作為驗證樣本。
對指標WOE值的計算,首先根據(jù)指標值分段,找到最優(yōu)的分段方式。為保證指標計算的準確性,將每個指標按值域區(qū)間劃分。其中,指標劃分小區(qū)間分段數(shù)一般在[60,110]之間,大區(qū)間分段數(shù)則一般在[5,10]之間。并且每個區(qū)間內(nèi)樣本量最大占比不能超過35%,以防止產(chǎn)生過度擬合問題。選擇區(qū)間劃分點時,若WOE區(qū)間值為單調增,則所選指標越大越好。若WOE區(qū)間值單調減,則所選指標越小越好。最后根據(jù)公式(1)及公式(2)計算每個指標在不同分段方式下的WOE值和IV值,并選出每個指標在不同分段方式下IV值中最大的一個以及對應的分段方式。對于分段區(qū)間的個數(shù),慣用原則是根據(jù)信用評級的實際情況,控制分段區(qū)間個數(shù)在[5,14]之間。在以上條件下,經(jīng)過IV值計算后最終在124個指標中篩選出了72個指標。根據(jù)指標分段方式將這72個指標數(shù)據(jù)替換為相應的WOE值,將在接下來的Logistic回歸中使用。
表3覆蓋大類指標模型對比
續(xù)表3
解釋變量被解釋變量:是否違約(1)(2)(3)(4)(5)凈資產(chǎn)對固定資產(chǎn)比率增長率1.250(1.73)資產(chǎn)累計收益比率1.678(3.22)應收賬款周轉月數(shù)1.082(3.63)營業(yè)利潤增長率2.795(1.67)利息保障倍數(shù)0.910(2.65)固定支出償付倍數(shù)0.853(2.17)常數(shù)項3.058(13.52)3.023(13.92)3.058(13.66)3.050(13.26)3.015(13.78)控制變量是是是是是觀測值840840840 840840
注:(1)系數(shù)為均值處的邊際效應;(2)所有數(shù)值均為原始數(shù)據(jù)經(jīng)過IV處理后的WOE值;(3)括號內(nèi)為異方差穩(wěn)健標準誤;(4)顯著性: *表示10%,**表示5%,***表示1%。
由表3可以看出5個模型所選出的指標總體來說均比較顯著,基本符合《巴塞爾新資本協(xié)議》關于內(nèi)部評級法所規(guī)定的顯著水平。這5個模型均覆蓋了六個大類指標,其中,流動比率、凈資產(chǎn)對固定資產(chǎn)比率增長率以及營業(yè)利潤增長率在部分模型中并不顯著。流動比率高,一般表明企業(yè)償債能力較強。然而有的企業(yè)雖然流動比率較高,但賬面上卻沒有多少真正能夠迅速用來償債的現(xiàn)金和存款,其流動資產(chǎn)中大部分是變現(xiàn)速度較慢的存貨、應收賬款、待攤費用等,這可能是造成此指標并不顯著的主要原因之一。凈資產(chǎn)對固定資產(chǎn)比率增長率較高,代表了企業(yè)具有較強的生存能力。在凈資產(chǎn)收益率和增長率均有較高預期時,表示企業(yè)未來發(fā)展后勁較大。所以僅靠分析凈資產(chǎn)對固定資產(chǎn)比率增長率,可能并不能完全反映出企業(yè)未來的發(fā)展能力。營業(yè)利潤的變動可反映出影響企業(yè)營業(yè)利潤增長率的因素,一般情況下包含兩個層面:一是產(chǎn)品銷量、產(chǎn)品售價、產(chǎn)品成本等;二是費用控制、營銷費用的管理能力。直觀來看,營業(yè)利潤增長率反映的是企業(yè)的盈利能力,但這種能力除去上面的兩大因素外,也有可能由于企業(yè)擴張或連鎖發(fā)展,導致營業(yè)利潤的降低,造成營業(yè)增長率的浮動對企業(yè)是否可能違約的貢獻并不顯著。
表3中5個模型所選指標原則上都覆蓋了六個大類指標,所以存在某一個指標不顯著的問題。此外,也可以忽略指標所屬大類,只選擇顯著的財務指標構成解釋變量。由此也可以構建另外5個模型,模型同樣使用Logistic回歸、WOE和IV方法篩選,最終確定指標模型。結果如表4所示。
表4覆蓋大類指標模型對比
續(xù)表4
注:(1)系數(shù)為均值處的邊際效應;(2)所有數(shù)值均為原始數(shù)據(jù)經(jīng)過IV處理后的WOE值;(3)括號內(nèi)為異方差穩(wěn)健標準誤;(4)顯著性: *表示10%,**表示5%,***表示1%。
表4中看出,5個模型的解釋變量幾乎上全部顯著。此外,可以看到在表3中不顯著的指標,由于在這些模型中改變了指標的組合方式,從而變得顯著。流動資產(chǎn)比率、營運資本周轉率、資產(chǎn)回報率、營運資本、流動負債比率是相比表3中5個模型新出現(xiàn)的指標。其中,流動資產(chǎn)比率、營運資本周轉率、流動負債比率3個指標,取自企業(yè)償債能力大類指標,主要體現(xiàn)企業(yè)償還短期債務的能力。那些資產(chǎn)流動性強、債務周期短、流動比越大的企業(yè),短期債償還能力越強。營運資本是由企業(yè)一定時期內(nèi)持有的現(xiàn)金、應收和應付賬款及各類存貨資產(chǎn)構成。資本回報率是企業(yè)資產(chǎn)營運所獲收益,指標越高越好。增加這三類指標后,可以看到表4中5個模型的解釋變量均比較顯著。但是兩種方式所選出的指標組合在測試樣本中的表現(xiàn)卻有差異,需要對模型驗證后才能做出選擇。
通過對表3和表4的十個備選模型通過模型內(nèi)樣本數(shù)據(jù)和模型外樣本數(shù)據(jù),分別測試分析模型功效,最終確定相對最優(yōu)的模型。模型篩選通過ROC曲線[注]ROC曲線是對分類器表現(xiàn)的一個二維描述,通常的計算方法是計算ROC曲線下方的區(qū)域面積,這個下方區(qū)域表示為AUC值,通過對AUC的計算可以區(qū)分分類器的效果。通常情況下AUC的值應該大于0.5。、CAP曲線[注]CAP是通過計算CAP曲線描述在不同的風險評分范圍百分比下的累計違約事件概率分布,是衡量模型優(yōu)劣的直觀量化評級方法。通常情況下POWER值越大,模型效果越好。以及KS曲線[注]KS檢驗是檢驗總體分布是否屬于某一分布族的問題,可稱為分布族檢驗,屬于非參數(shù)檢驗的一種。分析AUC值、POWER值和KS值來檢驗所有模型,并且每一個模型都統(tǒng)計出了其相關的三種曲線[注]由于文章篇幅所限,讀者如有興趣可向作者索取。。
表5模型內(nèi)數(shù)據(jù)模型功效驗證
表5所示為建模內(nèi)數(shù)據(jù)模型驗證值,可以看出所有模型在使用建模內(nèi)數(shù)據(jù)驗證時,三種判斷值都比較高。其中,AUC值最低為0.879,大于0.5的閾值。而且模型功效都達到75%以上。由于這些數(shù)據(jù)是建模時使用的數(shù)據(jù),所以用這些數(shù)據(jù)只能作為模型結果的反向驗證。可以檢驗模型的對錯,但是不能作為檢驗模型精度的依據(jù)。使用建模外樣本以及預留的2014年的數(shù)據(jù)作為驗證樣本時,求取模型的AUC值、POWER值和KS值后,所得分析結果如表6所示。
表6模型外數(shù)據(jù)模型功效驗證
由表6中可以看出所有模型的AUC值都在0.5之上,所以可以判斷所有模型的設定基本正確。但是模型三和模型八的AUC值均約等于0.5,所以可以首先排除這兩個模型。第二列中代表模型功效的POWER值可以看出模型一、模型二、模型七的值較高,且這三個模型的ROC曲線的覆蓋區(qū)間值也都達到70%以上。最后一列中可以看到模型二的KS曲線代表的模型判別密度值大于50%。所以,綜合分析以上三個指標值后,將模型二中的財務指標作為篩選出的最終指標。
結合本文的實證分析及驗證,我們得到的主要結論如下:首先,使用Logistic回歸法構建模型,并確定了模型中六個財務指標:(1)資產(chǎn)類指標包括流動比率和營運資金與資產(chǎn)比率。(2)現(xiàn)金類指標選取了平均經(jīng)營活動凈流量與負債比率。(3)營運類指標是營業(yè)周期。(4)盈利類指標是凈利潤與FFO比率。(5)發(fā)展類指標是總資產(chǎn)報酬增長率。(6)資產(chǎn)及規(guī)模類選取了借款總額為最終指標。其次,以上財務指標在實際運用中取得了比較好的效果,模型穩(wěn)定性得到驗證。這說明我們的信息熵理論、WOE及IV值的數(shù)據(jù)處理方法是合理的。它們可以篩選出那些有財務問題的企業(yè),從而為銀行降低不良貸款率,提供了判斷依據(jù)。再次,隨著宏觀經(jīng)濟周期的不確定性越來越大,基于以上歷史數(shù)據(jù)建立的定量模型也需不斷調整。另外,不同地區(qū)的經(jīng)濟環(huán)境差異性較大,對行業(yè)造成的影響也有不同;所以關注定量指標的同時,也應該對宏觀形勢加以分析,這樣才能更好地發(fā)揮定量模型的效果。
基于內(nèi)部評級法的研究并結合我國的實際,我們提出以下幾方面的政策建議:(1)我國商業(yè)銀行應從自身特點出發(fā),根據(jù)定量模型篩選出符合自身實際情況的定量指標,以提高信貸風險控制能力和規(guī)范化水平。(2)實施內(nèi)部評級的商業(yè)銀行更應該注意積累數(shù)據(jù),為建立高級信用風險模型做好過渡準備。(3)應該鼓勵和發(fā)展外部評級機構,為我國的信用風險體系建設貢獻力量。(4)發(fā)展及完善我國資本市場,提高銀行資本調節(jié)能力。(5)加強監(jiān)管,督促商業(yè)銀行制定合理的信用風險評級體系。