李晨堯
據(jù)國(guó)家統(tǒng)計(jì)局發(fā)布,2022 年全國(guó)房地產(chǎn)開(kāi)發(fā)投資下降10.0%,房地產(chǎn)開(kāi)發(fā)景氣指數(shù)處于較低景氣水平。商品房銷(xiāo)售面積、銷(xiāo)售額和均價(jià)下跌,居民買(mǎi)房意愿不足,而房地產(chǎn)開(kāi)發(fā)企業(yè)投資回收期長(zhǎng)的特點(diǎn),使得眾多開(kāi)發(fā)商面臨資金鏈緊張的困境。一些龍頭房企接連出現(xiàn)債務(wù)違約“暴雷”現(xiàn)象,也帶來(lái)不良的社會(huì)影響。房地產(chǎn)企業(yè)財(cái)務(wù)危機(jī)的出現(xiàn)是由于戰(zhàn)略定位錯(cuò)誤、盲目投資多元化、內(nèi)部管理水平低、產(chǎn)品核心競(jìng)爭(zhēng)力不足、庫(kù)存管理不佳等多種原因造成。企業(yè)出現(xiàn)財(cái)務(wù)危機(jī)不是一蹴而就的,往往會(huì)在前期隱藏一定的財(cái)務(wù)風(fēng)險(xiǎn)。因此,針對(duì)房地產(chǎn)企業(yè)行業(yè)特點(diǎn),選取相應(yīng)財(cái)務(wù)指標(biāo)并構(gòu)建財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,具有較強(qiáng)的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。本文將從財(cái)務(wù)指標(biāo)和非財(cái)務(wù)指標(biāo)兩方面構(gòu)建一個(gè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警的指標(biāo)體系,并利用WEKA 平臺(tái)的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)功能,評(píng)價(jià)不同算法對(duì)房地產(chǎn)企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)的預(yù)警水平。
1.樣本選擇
本文使用的財(cái)務(wù)數(shù)據(jù)來(lái)自國(guó)泰安(CSMAR)數(shù)據(jù)庫(kù),選取樣本參照國(guó)內(nèi)研究的一般方法,將2017—2021年被首次特別處理(ST)的房地產(chǎn)公司作為財(cái)務(wù)危機(jī)企業(yè)樣本,非ST 房地產(chǎn)公司作為財(cái)務(wù)正常的企業(yè)樣本。根據(jù)房地產(chǎn)行業(yè)的實(shí)際情況,采用非配對(duì)抽樣,選取較多的財(cái)務(wù)正常企業(yè)樣本和較少的財(cái)務(wù)危機(jī)企業(yè)樣本。
基于以上原則,依據(jù)國(guó)泰安數(shù)據(jù)庫(kù)中行業(yè)分類(lèi)標(biāo)準(zhǔn),參考證監(jiān)會(huì)2012 版行業(yè)分類(lèi)和申銀萬(wàn)國(guó)行業(yè)分類(lèi)2012修訂版,選取2017 年至2021 年共876 個(gè)房地產(chǎn)企業(yè)樣本,其中財(cái)務(wù)正常企業(yè)樣本共846 個(gè),財(cái)務(wù)危機(jī)企業(yè)樣本共30 個(gè)。
2.指標(biāo)選取
指標(biāo)的選取是構(gòu)建財(cái)務(wù)預(yù)警模型的核心環(huán)節(jié)。財(cái)務(wù)指標(biāo)能夠從多維度全方面地展現(xiàn)公司的財(cái)務(wù)狀況和經(jīng)營(yíng)水平,本文選取了能夠在一定程度上檢測(cè)企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)的財(cái)務(wù)指標(biāo)。由于企業(yè)內(nèi)部治理狀況和管理情況不盡相同,指標(biāo)的選取不應(yīng)拘泥于財(cái)務(wù)指標(biāo),也應(yīng)選取一定的非財(cái)務(wù)指標(biāo)作為補(bǔ)充。因此本文遵循系統(tǒng)性、不相關(guān)性、靈敏性和切實(shí)可操性原則,參照國(guó)內(nèi)相關(guān)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警指標(biāo)的研究建立一套財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警的指標(biāo)體系,包括償債能力、經(jīng)營(yíng)能力、盈利能力、股東獲利能力、發(fā)展能力、現(xiàn)金流量指標(biāo)、風(fēng)險(xiǎn)水平等財(cái)務(wù)指標(biāo),同時(shí)也選取了兩權(quán)分離度、年度內(nèi)董事會(huì)的會(huì)議次數(shù)和審計(jì)意見(jiàn)等非財(cái)務(wù)指標(biāo)。具體情況見(jiàn)表1。
表1 財(cái)務(wù)預(yù)警指標(biāo)選擇
1.數(shù)據(jù)處理
對(duì)全部原始數(shù)據(jù)進(jìn)行預(yù)處理。為保證WEKA 平臺(tái)能夠正常讀取數(shù)據(jù),將所有數(shù)據(jù)保留三位小數(shù);對(duì)于無(wú)法從財(cái)務(wù)報(bào)表及公開(kāi)信息中獲取的財(cái)務(wù)數(shù)據(jù)選擇用眾數(shù)進(jìn)行填充;對(duì)于非財(cái)務(wù)指標(biāo)的缺省采用悲觀準(zhǔn)則進(jìn)行填充,如董事會(huì)的會(huì)議次數(shù)如果無(wú)法獲取,則認(rèn)為年度內(nèi)的會(huì)議次數(shù)為0。
2.模型構(gòu)建
本研究采用流行的數(shù)據(jù)挖掘方法來(lái)構(gòu)建財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,主要包括貝葉斯網(wǎng)絡(luò)(GBN)、樸素貝葉斯網(wǎng)絡(luò)(NBN)、邏輯回歸(LR)、決策樹(shù)(DT)、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、裝袋(BA)、k 最近鄰(KNN)和隨機(jī)森林(RF),共計(jì)9 種算法。
3.評(píng)價(jià)指標(biāo)
評(píng)價(jià)分類(lèi)器的性能指標(biāo)主要為機(jī)器學(xué)習(xí)類(lèi)指標(biāo)。機(jī)器學(xué)習(xí)類(lèi)指標(biāo)主要包括預(yù)測(cè)模型的構(gòu)建速度、混淆矩陣相關(guān)的度量指標(biāo)(真陽(yáng)性率,真陰性率,假陽(yáng)性率,假陰性率,綜合準(zhǔn)確率,F(xiàn)-Measure)以及接受者操作特征曲線下面積。F-Measure 度量值高可以保證查全率和查準(zhǔn)率都比較高,表明機(jī)器學(xué)習(xí)算法準(zhǔn)確率較高。接受者操作特征曲線下面積(AUC)的范圍在0.5(隨機(jī)模型)和1(完美模型)之間,越接近1 表明模型精度越高。
1.結(jié)果
本文采用WEKA 3.8.6 軟件對(duì)處理后的876 條數(shù)據(jù)采用十折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn)。十折交叉驗(yàn)證是將數(shù)據(jù)集分成十份,輪流將其中9 份作為訓(xùn)練數(shù)據(jù),1 份作為測(cè)試數(shù)據(jù)進(jìn)行試驗(yàn)的方式。實(shí)驗(yàn)結(jié)果機(jī)器學(xué)習(xí)類(lèi)指標(biāo)見(jiàn)表2。
表2 機(jī)器學(xué)習(xí)類(lèi)評(píng)價(jià)指標(biāo)
2.討論
根據(jù)機(jī)器學(xué)習(xí)評(píng)價(jià)指標(biāo),首先從算法訓(xùn)練的時(shí)間上看,ANN 算法學(xué)習(xí)時(shí)長(zhǎng)最久,是因?yàn)樯窠?jīng)網(wǎng)絡(luò)所需參數(shù)較多,學(xué)習(xí)過(guò)程比較長(zhǎng)。其余算法產(chǎn)生模型的時(shí)間均較短,速度較快。剩余度量標(biāo)準(zhǔn)TPR、F-Measure、AUC 和Accuracy 的評(píng)價(jià)值越高說(shuō)明算法的分類(lèi)效果越好,預(yù)測(cè)精度越高。本文針對(duì)剩余度量指標(biāo)做出具體分析如下。
從整體上來(lái)看,基于集成學(xué)習(xí)思想的模型——比如BA、AB、RF,比其他模型的綜合準(zhǔn)確率、F-Measure 和AUC 值高,這可能是因?yàn)榧煞椒ㄍㄟ^(guò)聚集多個(gè)分類(lèi)器的預(yù)測(cè)結(jié)果來(lái)提高分類(lèi)準(zhǔn)確率,平均了單個(gè)模型的偏差,使得集體決策在全面可靠性和準(zhǔn)確度上優(yōu)于個(gè)體決策。除此之外,SVM 和ANN 算法也提供了同樣最高的綜合準(zhǔn)確率和第二高的F-Measure,但根據(jù)AUC 指標(biāo),ANN 算法的ROC 曲線下面積更大,意味著ANN 算法的平均性能要優(yōu)于SVM 算法。
從單個(gè)算法角度看,基于函數(shù)的LR、基于決策樹(shù)的DT 和基于實(shí)例的kNN 的綜合正確率均超過(guò)了95%,這些算法的F-Measure 也均大于0.95,LR 的ROC 曲線下面積達(dá)到了0.79 以上,說(shuō)明它們?cè)谠摲康禺a(chǎn)預(yù)警數(shù)據(jù)上的分類(lèi)性能較好,能夠在財(cái)務(wù)危機(jī)早期預(yù)測(cè)中發(fā)揮重要作用。這些算法中表現(xiàn)相對(duì)較弱的是GBN 和NBN。然而,我們更換貝葉斯網(wǎng)絡(luò)中的全局評(píng)分度量,將K2算法更改為T(mén)AN(Tree-Augmented Naive Bayes,樹(shù)增強(qiáng)樸素貝葉斯)后,貝葉斯算法的綜合準(zhǔn)確率則增加到了95.4338%,F(xiàn)-Measure 和AUC 則達(dá)到了0.954 和0.922,說(shuō)明更改合適的度量后該算法也可以在房地產(chǎn)企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)中達(dá)到良好的效果。
為了更好地預(yù)測(cè)房地產(chǎn)企業(yè)財(cái)務(wù)危機(jī),我們需要針對(duì)房地產(chǎn)企業(yè)數(shù)據(jù)特征做出比較和評(píng)價(jià)。需要注意的是,在房地產(chǎn)財(cái)務(wù)風(fēng)險(xiǎn)模型數(shù)據(jù)的這種不平衡數(shù)據(jù)集中,識(shí)別為財(cái)務(wù)風(fēng)險(xiǎn)的企業(yè)數(shù)量遠(yuǎn)遠(yuǎn)小于未識(shí)別為財(cái)務(wù)風(fēng)險(xiǎn)的企業(yè)數(shù)量,但識(shí)別出有財(cái)務(wù)風(fēng)險(xiǎn)的企業(yè)卻更有意義,因?yàn)槿缛粑醋R(shí)別出財(cái)務(wù)風(fēng)險(xiǎn),會(huì)對(duì)社會(huì)產(chǎn)生更大的不良影響,銀行、社會(huì)投資者和購(gòu)房百姓會(huì)付出更大的代價(jià)。因此在關(guān)注上述指標(biāo)之外,我們更需要關(guān)注假陽(yáng)性率指標(biāo),假陽(yáng)性率指標(biāo)越低,意味著真陰性率指標(biāo)越高,也就意味著該分類(lèi)器在針對(duì)房地產(chǎn)企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)發(fā)出預(yù)警的意義就更大。本研究結(jié)果表明,NBN、GBN、GBN-TAN、kNN、ANN 的假陽(yáng)性率指標(biāo)相對(duì)其他算法更低,能夠更準(zhǔn)確地識(shí)別出財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)。
綜上所述,在該房地產(chǎn)企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警數(shù)據(jù)集上的分類(lèi)預(yù)測(cè)效果較好的算法有三種,分別是GBN-TAN、ANN 和kNN。這三種算法在真陽(yáng)性率、假陽(yáng)性率、F-Measure、AUC 和綜合準(zhǔn)確率等多種指標(biāo)的綜合測(cè)評(píng)下都有比較出色的表現(xiàn)。未來(lái),計(jì)劃繼續(xù)擴(kuò)大原始數(shù)據(jù)集,繼續(xù)對(duì)原始數(shù)據(jù)中財(cái)務(wù)指標(biāo)的選擇和各種算法進(jìn)行優(yōu)化,進(jìn)一步降低假陽(yáng)性率,結(jié)合各個(gè)模型的優(yōu)勢(shì)特點(diǎn)來(lái)提高對(duì)房地產(chǎn)企業(yè)財(cái)務(wù)危機(jī)的預(yù)測(cè)精度。