周學(xué)忠,彭朝暉,曾楊
(1.長沙理工大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,湖南 長沙,410114;2.長沙理工大學(xué) 經(jīng)濟管理學(xué)院,湖南 長沙,410114)
基于隨機森林模型的上市公司財務(wù)失敗預(yù)警研究
周學(xué)忠1,彭朝暉2,曾楊1
(1.長沙理工大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,湖南 長沙,410114;2.長沙理工大學(xué) 經(jīng)濟管理學(xué)院,湖南 長沙,410114)
基于2003年1月—2016年5月我國A股連續(xù)2年財務(wù)虧損的上市公司樣本,實證研究了隨機森林模型對上市公司財務(wù)失敗預(yù)警的應(yīng)用。通過與邏輯斯蒂回歸模型所得結(jié)果比較,證明了隨機森林模型的預(yù)測精度高于邏輯斯蒂回歸模型。
財務(wù)失敗;預(yù)警;隨機森林
改革開放以來,我國的資本市場快速發(fā)展,資本市場已經(jīng)成為我國企業(yè)的籌集資金的重要途徑。上市公司作為資本市場的主體,其財務(wù)狀況對資本市場有重要影響。因此,上市公司的財務(wù)失敗預(yù)警研究有重要的意義。財務(wù)失敗預(yù)警是分析企業(yè)財務(wù)數(shù)據(jù),建立預(yù)測模型來預(yù)測財務(wù)失敗的發(fā)生。國內(nèi)外學(xué)者對財務(wù)失敗預(yù)警做過許多研究,如:單變量預(yù)警模型[1-2]、多變變量預(yù)警模型[3-4]、多元邏輯回歸模型[5-6]、神經(jīng)網(wǎng)絡(luò)模型[7-9]、支持向量機模型[10]。然而國內(nèi)外學(xué)者應(yīng)用數(shù)據(jù)挖掘中組合分類技術(shù)研究財務(wù)預(yù)警的相關(guān)文獻較少。組合分類技術(shù)是把多個模型組合在一起,旨在創(chuàng)建一個復(fù)合分類模型。對于給定新數(shù)據(jù),每個模型獨立給出預(yù)測,組合分類基于多個模型預(yù)測結(jié)果給出最終預(yù)測,不僅可以有效地提高單個分類模型的準(zhǔn)確率,而且具有更好的魯棒性。本文主要目的是建立基于隨機森林的上市公司財務(wù)失敗預(yù)警模型,并與邏輯斯蒂回歸模型比較。
1.1 數(shù)據(jù)來源
本文選取2003年1月—2016年5月連續(xù)2年財務(wù)虧損的上市公司為財務(wù)失敗的樣本。本文所有數(shù)據(jù)均來源于萬德數(shù)據(jù)庫。剔除樣本期間信息缺失的公司,最終得到512家上市公司為財務(wù)失敗樣本。其中金融業(yè)7家,公用事業(yè)56家,房地產(chǎn)業(yè)63家,綜合業(yè)27家,工業(yè)327家,商業(yè)32家。配對樣本來源于樣本期內(nèi)從未被 ST的公司??紤]到采用單維特征變量進行配對容易導(dǎo)致錯配問題,本文引入 PSM方法,根據(jù)總資產(chǎn)規(guī)模、股東權(quán)益、總資產(chǎn)利潤率、市盈率、資產(chǎn)負債比5維特征,在(t?3)年的同一行業(yè)內(nèi)對512家ST公司按1︰1的比例進行配對,經(jīng)配對后共獲得1 024個樣本。
1.2 指標(biāo)體系選取
本文在前人財務(wù)失敗預(yù)警模型[11-15]研究基礎(chǔ)上,從上市公司的盈利能力、償債能力、資本結(jié)構(gòu)水平、現(xiàn)金流量水平、營運能力、成長能力等 6個方面選取了23個財務(wù)指標(biāo)。盈利能力包括凈資產(chǎn)收益率(roe)、總資產(chǎn)利潤率(rota)、每股收益(eps)、每股凈資產(chǎn)(vps)、流動負債比(rmd)。償債能力包括資產(chǎn)負債率(rd)、流動比率(rwc)、速動比率(rq)、利息支付倍數(shù)(mip)。成長能力包括凈利潤增長率(rnpg)、總資產(chǎn)增長率(rtag)、營業(yè)總收入增長率(rorg)、市盈率(rpe)。營運能力包括存貨周轉(zhuǎn)率(rit)、固定資產(chǎn)周轉(zhuǎn)率(rfat)、總資產(chǎn)周轉(zhuǎn)率(rtat)、營運資本資產(chǎn)比(roca)。現(xiàn)金流能力包括現(xiàn)金比率(rc)、現(xiàn)金流動負債比(rctcd)。其他包括股東權(quán)益(esh)、機構(gòu)投資者持股比率(rish)、資產(chǎn)規(guī)模(az)、應(yīng)收賬款周轉(zhuǎn)率(rrt)。為了克服異常值影響,本文對所有指標(biāo)按照5%標(biāo)準(zhǔn)進行了縮尾處理。
1.3 樣本基本統(tǒng)計分析
為了了解每個指標(biāo)對財務(wù)失敗影響,本文對PSM配對樣本中財務(wù)正常上市公司、財務(wù)失敗上市公司的各個指標(biāo)做了基本統(tǒng)計分析。表1給出了PSM配對樣本上市公司的各個財務(wù)指標(biāo)均值和中位數(shù)。由表1可知:rota、roe、rpe等指標(biāo)財務(wù)正常和財務(wù)失敗的均值、中位數(shù)存在較大差異;vps,rit,rnpg等指標(biāo)差異較小。
本文對財務(wù)正常、財務(wù)失敗上市公司各指標(biāo)做了t檢驗。表2給出了各指標(biāo)的t檢驗結(jié)果。在5%水平下,rota,roe,rc,esh,rtat等20個指標(biāo)有顯著差異,對財務(wù)失敗具有很好的預(yù)警能力。
表1 PSM配對樣本企業(yè)財務(wù)指標(biāo)均值和中位數(shù)
表2t檢驗結(jié)果
2.1 隨機森林模型簡介
隨機森林是一種組合分類技術(shù)。2001年被Leo Breiman[16]首次提出,隨機森林是由很多CART決策樹分類模型組成的模型,它的構(gòu)建步驟:第1步,利用Bootstrap重抽樣方法從原始樣本中抽取n個Bootstrap樣本,對于每個Bootstrap樣本,再從原始m個自變量選擇k個輸入變量(k<<m);第2步,對n個Bootstrap樣本分別建立CART決策樹模型,得到n個分類結(jié)果;第3步,根據(jù)這n個分類結(jié)果決定最終分類結(jié)果。一般采用給出最終結(jié)果。H(x)表示隨機森林分類模型,hi(x)表示單個CART決策樹分類模型,Y表示輸出變量,I(·)表示示性函數(shù)。隨機森林模型訓(xùn)練每棵CART決策樹時,從原始樣本進行有放回隨機抽樣得到Bootstrap樣本,每個數(shù)據(jù)未被抽中的概率為(1? 1/N)N。當(dāng)N很大時,(1 ? 1/N)N極限為1/e ≈ 37%,也就是說有37%的數(shù)據(jù)未被抽中,這些數(shù)據(jù)被稱為袋外數(shù)據(jù)。隨機森林模型用袋外數(shù)據(jù)不僅可以檢驗?zāi)P偷念A(yù)測效果,還可以給出變量重要性度量。
2.2 隨機森林模型的建立
由于az、esh、rd、rota、rpe已用于PSM配對,不參與隨機森林模型的構(gòu)建。圖1為采用隨機森林基尼系數(shù)法,剩余18個變量的重要性圖,縱坐標(biāo)為變量名稱,橫坐標(biāo)為基尼指數(shù)值(值越大代表變量越重要)。根據(jù)圖1選取前8個指標(biāo)作為隨機森林模型原始輸入變量,即用rish、roe、rc、rtat、rfat、eps、mip、rwc建立基于隨機森林的財務(wù)預(yù)警模型。
由隨機森林模型的簡介可知,隨機森林模型有 2個參數(shù)需要設(shè)置,即決策樹數(shù)量和每棵決策樹隨機輸入變量個數(shù)。決策樹數(shù)量通常設(shè)置為500棵,每棵決策樹隨機變量個數(shù)一般為原始輸入變量個數(shù)開方的近似值。由于隨機森林原始輸入變量為8,所以每棵決策樹隨機輸入變量數(shù)為3。按3︰1比例隨機抽取768家公司作為訓(xùn)練數(shù)據(jù)集,用于構(gòu)建模型;其余256家公司作測試數(shù)據(jù)集,用于檢驗?zāi)P?。根?jù)隨機森林分類結(jié)果,得到隨機森林模型的訓(xùn)練數(shù)據(jù)集準(zhǔn)確率為76.17%,測試數(shù)據(jù)集準(zhǔn)確率(預(yù)測正確數(shù)/樣本數(shù))為77.34%,正常公司錯分率(正常公司錯分數(shù)/正常公司數(shù))為21.29%,ST公司錯分率(ST公司錯分數(shù)/ST公司數(shù))為26.37%。
圖1 變量重要性
2.3 模型比較
為了評估隨機森林模型結(jié)果,本文在訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集不變,仍然選取前文8個原始輸入變量,建立了邏輯斯蒂回歸模型,并計算了邏輯斯蒂回歸模型的訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集的準(zhǔn)確率。表3為隨機森林模型與邏輯斯蒂回歸模型的準(zhǔn)確率對比??梢钥闯?隨機森林模型訓(xùn)練集準(zhǔn)確率為76.17%,邏輯斯蒂回歸模型訓(xùn)練集準(zhǔn)確率為70.44%,前者高于后者。同樣,前者測試集準(zhǔn)確率亦高于后者。因此,隨機森林模型預(yù)測效果優(yōu)于邏輯斯蒂回歸模型。
表3 模型的比較 /%
本文在PSM配對方法基礎(chǔ)上,探討了隨機森林模型在上市公司財務(wù)失敗預(yù)警中的應(yīng)用。通過上述研究,可以看出隨機森林模型具有較高的預(yù)測精度,其訓(xùn)練集和測試集準(zhǔn)確率都高于75%。因此,隨機森林模型對財務(wù)失敗預(yù)警有較好識別能力。通過與邏輯斯蒂回歸模型比較,隨機森林模型預(yù)測精度高于邏輯斯蒂回歸模型,這說明隨機森林模型在財務(wù)失敗預(yù)警中有應(yīng)用前景和實踐價值。
[1]Fitzpatrick P.A comparison of ratios of successful industrial enterprises with those of failed firms [J].Certified Public Accountant,1932(2):598-605.
[2]William Beaver.Financail ratio as predictors of failure [J].Empirical Research in Accounting,1966(4):71-111.
[3]Altman E.Financial rations.Discrinimant analysis and the prediction of corporate bankruptcy [J].Journal of Finance,1968,9:589-609.
[4]Haldeman A E,Narayanan P.ZETA Analysis:A new model to identify bankruptcy risk of corporations [J].Journal of Banking and Finance,1977(1):32-39.
[5]McGurr P.Predicting business failure of retail firms:an analysis using mixed industry models [J].Journal of Business Research,1977,43:169-176.
[6]Ohlson J A.Financial ratios and the probabilistic prediction of bankruptcy [J].Journal of Accounting Research,1980,19:109-131.
[7]Dutta S,Shekhar S.Bond rating:a non-conservative application of neural networks [C]//Proceeding of the IEEE International Conference on Neural Networks.Los Alamitos:IEEE Press,1988:443-450.
[8]楊淑娥,王樂平.基于BP神經(jīng)網(wǎng)絡(luò)和面板數(shù)據(jù)的上市公司財務(wù)預(yù)警[J].系統(tǒng)工程理論與實踐,2007(2):66-67.
[9]姚宏善.基于支持向量機的財務(wù)困境預(yù)測研究[D].武漢:華中科技大學(xué),2006.
[10]吳冬梅,朱俊,莊新田,等.基于支持向量機的財務(wù)危機預(yù)警模型[J].東北大學(xué)學(xué)報(自然科學(xué)版),2010,31(4):601-604.
[11]Breiman L.Random forests [J].Machine Learing,2001,45(1):5-32.
[12]李應(yīng)求,李依帆.我國創(chuàng)業(yè)板企業(yè)內(nèi)部人交易擇時行為研究[J].經(jīng)濟數(shù)學(xué),2015,32(1):10-18.
[13]李應(yīng)求,劉薇,陳文鋒.聚類分析視角下地區(qū)保險業(yè)發(fā)展差異研究——基于湖南省各地市的截面數(shù)據(jù)分析[J].時代金融,2009(1):117-119.
[14]李應(yīng)求,劉朝才,彭朝暉.不確定條件下企業(yè)的投資規(guī)模決策[J].運籌學(xué)學(xué)報,2008,12(2):121-128.
[15]李應(yīng)求,甘柳,魏民.一類多險種復(fù)合Poisson-Geometric過程風(fēng)險模型研究[J].統(tǒng)計與決策,2010,7:53-55.
[16]李應(yīng)求,楊揚,歐陽迪飛,等.基于MGPD模型的地質(zhì)災(zāi)害風(fēng)險的統(tǒng)計度量[J].數(shù)理統(tǒng)計與管理,2016,35(3):381-390.
(責(zé)任編校:劉剛毅)
Financial crisis warning model based on the random forest
Zhou Xuezhong1,Peng Zhaohui2,Zeng Yang1
(1.College of Mathematics and Statistics,Changsha University of Science and Technology,Changsha 410114,China;2.School of Economics and Management,Changsha University of Science and Technology,Changsha 410114,China)
Using the sample that losses for two consecutive years of listed companies in China'sA shares from January 2003 to May 2016,the application of Random Forest on the prediction of listed companies financial failure is studied.Compare with Logistic model,it is confirmed that the accurace rate of the Random Forest is better than Logistic model.
financial crisis;crisis warning;random forest
F 222.3
A
1672-6146(2017)02-0017-04
周學(xué)忠,zhoisha@qq.com。
2017-01-20
國家自然科學(xué)基金(11571052);湖南省研究生科研創(chuàng)新項目(CX2016B417)。
10.3969/j.issn.1672-6146.2017.02.005