何勝美 方茂揚(yáng) 王響
摘 要 1:1樣本配比的財(cái)務(wù)預(yù)警模型的系數(shù)和概率估計(jì)是有偏的,全市場(chǎng)公司的樣本數(shù)據(jù)又高度不平衡.為克服兩類樣本不平衡給預(yù)警模型帶來(lái)的影響,引入公司誤判代價(jià)分析,以ST公司誤判代價(jià)為權(quán)重,通過(guò)最小化加權(quán)的對(duì)數(shù)似然損失函數(shù),建立誤判代價(jià)加權(quán)的Logistic回歸財(cái)務(wù)預(yù)警模型.實(shí)證結(jié)果表明,誤判代價(jià)加權(quán)的Logistic回歸模型具有較好的預(yù)警效果,2007年的訓(xùn)練樣本上正常公司和ST公司的識(shí)別率為89.43%和93.33%,2008年測(cè)試樣本上兩類公司的識(shí)別率分別為:92.1%和95.83%.
關(guān)鍵詞 數(shù)理經(jīng)濟(jì)學(xué);財(cái)務(wù)預(yù)警模型;加權(quán)Logistic回歸;不平衡數(shù)據(jù)
中圖分類號(hào) F061.5文獻(xiàn)標(biāo)識(shí)碼 A
Abstract The estimated coefficients and probability are biased in Prediction of Financial Distress with traditional 1:1 sample ratio,and the sample data based on the whole market is highly imbalanced.So in order to overcome the influence of imbalance,the misclassification cost of two kinds of companies was analyzed.Taking misclassification cost of ST Company as the weight,minimizing the weighted log likelihood loss function,a weighted Logistic regression model was used in Prediction of Financial Distress.The empirical results show that the weighted Logistic regression model has perfect effect.The recognition rate between normal financial company and ST company on training data in 2007 year was 89.43% and 93.33%,respectively;while the recognition rate of the two types of company is 92.1% and 95.83%,respectively,in the independent test sample in 2008 year.
Key words mathematical economics;financial distress prediction;weighted logistics regression;imbalanced data
1 引 言
企業(yè)財(cái)務(wù)預(yù)警實(shí)證研究方法一般有如下幾種:?jiǎn)巫兞磕P停ㄈ缫辉袆e模型),多變量模型(如多元線性判別模型、多元邏輯回歸模型、多元概率比回歸模型、基于現(xiàn)代機(jī)器學(xué)習(xí)的判別模型),逐步深入的研究,取得了許多典型的成果.
早在上世紀(jì)三十年代,國(guó)外就開(kāi)始了企業(yè)財(cái)務(wù)預(yù)警研究.Fitzpatrick P J(1932)[1]首次以財(cái)務(wù)比率預(yù)測(cè)財(cái)務(wù)困境.Beaver W(1966)[2]也利用單變量分析法建立財(cái)務(wù)預(yù)警模型,發(fā)現(xiàn)可以提前至少5年對(duì)公司財(cái)務(wù)困境進(jìn)行預(yù)測(cè).針對(duì)單變量分析的局限性,Altman E(1968)[3]提出了著名的多元Z值判定模型(稱為Z-score模型),為客觀地評(píng)價(jià)企業(yè)財(cái)務(wù)狀況開(kāi)創(chuàng)了一種新思路.為了克服線性判別模型對(duì)預(yù)測(cè)指標(biāo)有著嚴(yán)格的聯(lián)合正態(tài)分布要求這一局限性,Martin D(1977)[4]引入Logistic回歸分析法建立企業(yè)財(cái)務(wù)預(yù)警模型,Ohlson J A(1980)[5]嘗試試用Probit模型來(lái)建立財(cái)務(wù)危機(jī)預(yù)警模型.上世紀(jì)九十年代以后,由于人工智能技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)開(kāi)始被引入財(cái)務(wù)預(yù)警研究當(dāng)中,被證實(shí)有一定的預(yù)測(cè)能力,比如Odour M D(2012)[6]等.吳世農(nóng)(1986)[7]在我國(guó)首次撰文介紹企業(yè)破產(chǎn)的財(cái)務(wù)分析指標(biāo)與預(yù)測(cè)模型之后相關(guān)的研究報(bào)告.陳靜(1999)[8]借鑒了Altman E的財(cái)務(wù)困境模型,利用單變量分析和判別分析的fishin準(zhǔn)則得出判斷函數(shù),標(biāo)志著國(guó)內(nèi)研究財(cái)務(wù)困境問(wèn)題的開(kāi)始.張玲(2000)[9]選取了滬深兩市14個(gè)行業(yè)120家上市公司為樣本,從15個(gè)財(cái)務(wù)比率指標(biāo)中選擇了4個(gè)指標(biāo)構(gòu)建預(yù)警模型,研究發(fā)現(xiàn)模型具有超前4年的預(yù)測(cè)結(jié)果.吳世農(nóng)(2001)[10]分別利用多元判別分析、線性概率分析和Logistic回歸分析進(jìn)行建模預(yù)測(cè),研究結(jié)果表明Logistic預(yù)測(cè)模型效果最好.楊寶安(2001)[11]針對(duì)判別分析存在的問(wèn)題,引入人工神經(jīng)網(wǎng)絡(luò)構(gòu)建模型.各種人工智能包括機(jī)器學(xué)習(xí)的方法陸續(xù)引入到相關(guān)研究當(dāng)中,如李秉祥提出的組合預(yù)警模型;郭德仁(2009)[12]構(gòu)建了基于模糊聚類和模糊模式識(shí)別的模型;蔣盛益(2010)[13]基于機(jī)器學(xué)習(xí)理論,探討了貝葉斯網(wǎng)絡(luò)、決策樹(shù)、基于規(guī)則分類、最近鄰分類、多層感應(yīng)機(jī)、BP神經(jīng)網(wǎng)絡(luò)和Logistic回歸在企業(yè)財(cái)務(wù)預(yù)警研究中的實(shí)證效果.盡管財(cái)務(wù)預(yù)警研究取得了長(zhǎng)足發(fā)展,吳星澤(2011)[14]總結(jié)分析研究現(xiàn)狀,提出以往研究在研究框架上也存在一定的問(wèn)題.
第2期何勝美等:基于誤判代價(jià)加權(quán)的Logistic財(cái)務(wù)預(yù)警模型研究
首先,在樣本的選擇上存在一定問(wèn)題.市場(chǎng)上正常公司樣本和財(cái)務(wù)不正常公司樣本比例往往是很高的,以2017年5月滬深上市公司為例,共有3241家非ST公司(財(cái)務(wù)正常),而ST和*ST公司只有74家,正常公司和陷入財(cái)務(wù)困境公司比例約為43:1.但過(guò)往大部分研究樣本采用1:1樣本配對(duì),選擇樣本時(shí),先選定好財(cái)務(wù)失敗的公司做為負(fù)類樣本,然后根據(jù)一定規(guī)則,從財(cái)務(wù)正常的公司中按照1:1比例選擇正常公司配對(duì),形成總的研究樣本.這種樣本的選擇(尤其是正常公司樣本的選擇)是非隨機(jī)的,它會(huì)導(dǎo)致模型系數(shù)和概率的估計(jì)有偏(Zmijewski M E,1984)[15],吳星澤[14]從Bayes定理證明了這一點(diǎn),彭大慶(2006)[16]的實(shí)證研究也說(shuō)明這個(gè)問(wèn)題.但如果對(duì)于正常公司的選擇采用隨機(jī)抽樣,那么建立起來(lái)的預(yù)警模型效果將受到隨機(jī)抽樣的影響,這樣得到的預(yù)警模型不穩(wěn)定,結(jié)果也不可靠(何勝美等,2014)[17].所以單純1:1樣本配對(duì)建立財(cái)務(wù)預(yù)警模型不太可行.如果采用全樣本建模,那么樣本比例不均衡(當(dāng)前滬深上市公司約為43:1).對(duì)于高度不平衡的數(shù)據(jù)集的分類,訓(xùn)練的識(shí)別模型將嚴(yán)重偏向樣本數(shù)量多的類,從而導(dǎo)致數(shù)量少的類的識(shí)別效果偏低(Hai-bo H,2009)[18].何勝美等(2014)[17]研究表明,不加處理采用全樣本建立的財(cái)務(wù)預(yù)警模型幾乎將所有的ST公司誤判成了正常公司,同時(shí)能保持很高的總體識(shí)別率.無(wú)論對(duì)于企業(yè)管理者還是投資者,都是不可接受的.針對(duì)這問(wèn)題,SMOTO和Bagging算法引入到財(cái)務(wù)預(yù)警研究當(dāng)中,一定程度上改進(jìn)了上述問(wèn)題.