[摘 要]文章基于非均衡房地產(chǎn)上市公司樣本視角,結(jié)合邏輯回歸(Logistic Regression)算法對中國房地產(chǎn)上市公司的財務(wù)風(fēng)險進行預(yù)測分析。研究結(jié)果表明,ADASYN-Logistic Regression模型能夠有效解決房地產(chǎn)上市公司的非均衡樣本問題,具備較好的預(yù)測性能?;诖?,文章運用非均衡樣本處理方法構(gòu)建財務(wù)風(fēng)險預(yù)測模型,旨在識別存在財務(wù)風(fēng)險的公司,采取預(yù)防措施,提升公司競爭力。
[關(guān)鍵詞]非均衡樣本;房地產(chǎn)公司;財務(wù)風(fēng)險;邏輯回歸
doi:10.3969/j.issn.1673 - 0194.2024.14.003
[中圖分類號]F832.51;F299.233.42 [文獻標(biāo)識碼]A [文章編號]1673-0194(2024)14-00-03
0" " "引 言
隨著經(jīng)濟全球化進程加快,我國經(jīng)濟規(guī)模不斷擴大。根據(jù)國家統(tǒng)計局公開的數(shù)據(jù),房地產(chǎn)及其相關(guān)行業(yè)占我國經(jīng)濟總量的比重達13%~14%,其產(chǎn)業(yè)鏈條長、涉及面廣,維系著社會經(jīng)濟的穩(wěn)定運轉(zhuǎn)。然而,房地產(chǎn)行業(yè)屬于資金密集行業(yè),上市公司的資金主要來自銀行貸款,其融資途徑相對單一,因此公司通常會面臨負債高、成本高和資金流動緩慢的問題[1]。有效的財務(wù)風(fēng)險預(yù)測可以幫助上市公司預(yù)知財務(wù)風(fēng)險,防范經(jīng)營危機,提升運營能力。
國內(nèi)外學(xué)者一直關(guān)注房地產(chǎn)公司財務(wù)風(fēng)險的預(yù)測研究,并運用不同模型進行預(yù)測分析[2]。一是單變量模型。威廉·比弗(Willam Beaver)于1966年率先提出單變量預(yù)測模型,并進行財務(wù)風(fēng)險預(yù)測[3]。二是多變量模型。金奈(Kinay)通過構(gòu)建Logistic Regression模型預(yù)測公司財務(wù)風(fēng)險[4];王楠子等基于Logistic Regression模型,通過6個綜合因子構(gòu)建預(yù)警決策模型[5]。三是Z-Score模型。嚴(yán)碧紅等運用Z-Score模型預(yù)測我國房地產(chǎn)企業(yè)發(fā)生財務(wù)危機的可能性[6]。然而,在客觀情況下,具有財務(wù)風(fēng)險的公司樣本較少,正常經(jīng)營的公司樣本比較多,構(gòu)成非均衡樣本分布,該樣本的不均衡性容易導(dǎo)致模型無法充分捕捉少數(shù)樣本的類別特征,財務(wù)風(fēng)險預(yù)測模型會產(chǎn)生偏差,使性能下降。因此,解決樣本數(shù)據(jù)集非均衡問題對于提升房地產(chǎn)上市公司財務(wù)風(fēng)險預(yù)測模型的性能具有重要意義。目前,處理非均衡樣本的方法主要圍繞算法層面和數(shù)據(jù)層面展開,其中關(guān)于數(shù)據(jù)層面的研究較為豐富,即通過改變樣本的分布情況降低數(shù)據(jù)非均衡性,常用方法有欠采樣、過采樣。但是,基于非均衡樣本數(shù)據(jù)集的研究鮮有基于房地產(chǎn)財務(wù)風(fēng)險預(yù)測角度的,多集中于金融欺詐賬戶檢測、信用卡違約預(yù)測分析等方面。
因此,本文將從非均衡樣本視域出發(fā),以房地產(chǎn)行業(yè)為研究對象,應(yīng)用隨機下采樣(Random Under Sampler,RUS)、近似接近采樣(Near Miss,NM)、合成少數(shù)類過采樣(Synthetic Minority Oversampling Technique,SMOTE)、自適應(yīng)合成抽樣(Adaptive Synthetic Sampling,ADASYN)
4種主要的非均衡樣本處理方法,結(jié)合Logistic Regression算法構(gòu)建財務(wù)風(fēng)險預(yù)測模型,以期消除非均衡樣本影響,提高風(fēng)險預(yù)測模型的性能和準(zhǔn)確性,助力房地產(chǎn)上市公司持續(xù)健康發(fā)展。
1" " "非均衡樣本財務(wù)風(fēng)險預(yù)測方法
1.1" "非均衡樣本處理方法
RUS方法為欠采樣基礎(chǔ)方法,即從多樣本Smax中隨機選擇少樣本,再合并原有少樣本Smin作為新訓(xùn)練數(shù)據(jù)集;NM方法屬于欠采樣常見方法,即從多樣本中選取最具代表性的樣本用于訓(xùn)練,解決隨機欠采樣中的信息丟失問題;SMOTE方法屬于過采樣方法,主要基于現(xiàn)存的少樣本,計算樣本特征空間之間的相似度,然后創(chuàng)建人工合成樣本;ADASYN方法在過采樣中應(yīng)用廣泛,其關(guān)鍵思想為用密度分布決定少樣本產(chǎn)生多少數(shù)量的合成數(shù)據(jù),即依據(jù)樣本的貢獻度來確定產(chǎn)生的合成數(shù)據(jù)數(shù)量。
1.2" "Logistic Regression算法模型
Logistic Regression算法模型屬于二分類模型,在數(shù)據(jù)挖掘、經(jīng)濟預(yù)測領(lǐng)域使用廣泛。其表達式如下:
(1)
式(1)中,P代表Logistic Regression模型概率值,Y為因變量,K0為截距系數(shù),K1~Kn為斜率系數(shù),X1~Xn為自變量。
本研究采用上述4類非均衡采樣處理方法和Logistic Regression算法模型相結(jié)合的方式,進一步提升Logistic Regression模型預(yù)測性能。假設(shè)獲取的房地產(chǎn)上市公司樣本數(shù)據(jù)集為S,其中包含m個樣本,即。其中,xit為特征變量,xi∈X,xi={f1,f2,f3,…,fn},代表每家房地產(chǎn)上市公司在第t年有n個特征指標(biāo);yit+1為財務(wù)風(fēng)險狀態(tài)變量,且yit+1∈{0,1},表示每家房地產(chǎn)上市公司在第t+1年是否具有財務(wù)風(fēng)險,1代表有財務(wù)風(fēng)險,0代表無財務(wù)風(fēng)險。通過非均衡數(shù)據(jù)處理,將平衡后的數(shù)據(jù)樣本帶入式(1),得出預(yù)測概率P和Y值。
1.3" "預(yù)測模型性能評估方法
為有效評估Logistic Regression模型的分類效果,本文基于混淆矩陣(見表1)構(gòu)建主要評估指標(biāo)。
表1中,TN表示真實值和預(yù)測值均無風(fēng)險;FP表示真實值無風(fēng)險,但預(yù)測值有風(fēng)險;FN表示真實值有風(fēng)險而預(yù)測值無風(fēng)險;TP表示真實值和預(yù)測值均為有風(fēng)險。本文采用以下6類主要評估指標(biāo),即準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1-Score)、ROC曲線(Receiver Operating Characteristic Curve)和AUC值(Area Under Curve)。準(zhǔn)確率表示模型預(yù)測的結(jié)果中正確結(jié)果的占比;精確率用來度量預(yù)測值為有風(fēng)險的樣本中真實值也為有風(fēng)險的概率;召回率關(guān)注全部有風(fēng)險樣本中準(zhǔn)確識別出來的比例;F1值為召回率和精確率的綜合指標(biāo),輔助評估結(jié)果;ROC曲線下方面積為AUC值,模型的ROC曲線越靠近左上方、ROC曲線下方面積越大,模型分類性能越好。
2" " "研究實施與結(jié)果分析
2.1" "財務(wù)風(fēng)險預(yù)測指標(biāo)體系構(gòu)建
基于劉俐君[7]的研究,本文綜合財務(wù)指標(biāo)和宏觀經(jīng)濟指標(biāo),從盈利能力、成長能力、營運能力、償債能力、資本結(jié)構(gòu)、現(xiàn)金流量能力、宏觀指標(biāo)7個維度選取35個指標(biāo)構(gòu)建指標(biāo)體系,以此預(yù)測并分析財務(wù)風(fēng)險。
2.2" "數(shù)據(jù)集
本研究通過公開網(wǎng)站CSMAR(https://data.csmar.com/)獲取2011—2023年房地產(chǎn)上市公司財務(wù)數(shù)據(jù)。數(shù)據(jù)集共包括215家房地產(chǎn)上市公司的2 420條財務(wù)數(shù)據(jù),其中屬于少數(shù)類的數(shù)據(jù)76條,屬于多數(shù)類的數(shù)據(jù)2 344條,為典型的非均衡樣本情況。
2.3" "數(shù)據(jù)預(yù)處理
首先,對數(shù)據(jù)進行重復(fù)值、異常值、缺失值處理,刪除重復(fù)值、異常值及缺失率高于85%的指標(biāo),使用特征平均數(shù)對缺失率低于85%的指標(biāo)進行填充。其次,構(gòu)建相關(guān)系數(shù)矩陣分析自變量間的多重共線性,刪除具有嚴(yán)重多重共線性的指標(biāo)。經(jīng)過預(yù)處理,最終用于非均衡樣本處理和建模分析的數(shù)據(jù)集為2 207條數(shù)據(jù),29個數(shù)據(jù)指標(biāo)。
2.4" "實驗結(jié)果與對比分析
本研究將2011—2022年公司樣本數(shù)據(jù)劃分為訓(xùn)練集,將2023年公司樣本數(shù)據(jù)劃分為測試集,針對訓(xùn)練集進行非均衡樣本處理和模型訓(xùn)練,選取最優(yōu)模型預(yù)測2023年具有財務(wù)風(fēng)險的公司。為了驗證不同非均衡樣本處理方法對數(shù)據(jù)集的平衡優(yōu)化效果和模型預(yù)測性能的影響,對不同算法處理后的數(shù)據(jù)集統(tǒng)一采用Logistic Regression算法模型進行財務(wù)風(fēng)險預(yù)測性能評價,結(jié)果如表2和圖1所示。
由表2可知,雖然數(shù)據(jù)集未平衡處理-Logistic Regression模型在準(zhǔn)確率上表現(xiàn)很好,達到0.97,但其召回率相對較低,僅為0.27,這會導(dǎo)致在實際應(yīng)用中,模型對有風(fēng)險類的預(yù)測能力不強,從而忽略存在財務(wù)風(fēng)險的上市公司。與其他算法相比,ADASYN-Logistic Regression在召回率、F1值、AUC值上均處于較高水平,且其AUC值接近1,在同等數(shù)據(jù)集下更能提升Logistic Regression的風(fēng)險預(yù)測性能。由圖1可知,ADASYN方法的ROC曲線最靠近左上角,擁有更好的性能提升表現(xiàn)。
通過上述分析,ADASYN-Logistic Regression為最優(yōu)預(yù)測模型,模型公式如下:
(2)
筆者將該模型應(yīng)用于測試集預(yù)測分析財務(wù)風(fēng)險,得出2023年的197家公司均無風(fēng)險,可正常經(jīng)營。
3" " "結(jié)束語
本研究聚焦非均衡樣本視域下房地產(chǎn)上市公司的財務(wù)風(fēng)險預(yù)測分析,研究結(jié)果表明,ADASYN-Logistic Regression模型在處理非均衡樣本問題上具有較高的預(yù)測性能。希望本研究可以豐富非均衡樣本處理方法在財務(wù)風(fēng)險預(yù)測領(lǐng)域的應(yīng)用,為后續(xù)相關(guān)研究提供新的視角和方法論,為房地產(chǎn)上市公司提供有效的風(fēng)險管理工具,積極推動房地產(chǎn)行業(yè)健康運行。
主要參考文獻
[1]PARK M.Alternatives to traditional mortgage financing in residential Real estate: Rent to own and contract for deed sales[J].Quarterly Journal of Finance,2021(2):1-31.
[2]DOMIAN D,WOLF R,YANG H F.An assessment of the risk and return of residential real estate[J].Managerial Finance,2015(6):591-599.
[3]BEAVER W H.Financial ratios as predictors of failure[J].Journal of Accounting Research,1966(1):71-111.
[4]KINAY B.Ordered LOGIT Model approach for the determination of financial distress[J].Bulletin de la Societe des sciences medicales du Grand-Duche de Luxembourg,2010(1):119-133.
[5]王楠子,吳霽峰,何云,等.房地產(chǎn)企業(yè)財務(wù)危機預(yù)警實證研究[J].工程管理學(xué)報,2019(3):154-158.
[6]嚴(yán)碧紅,馬廣奇.基于Z-Score模型的我國房地產(chǎn)業(yè)上市公司財務(wù)風(fēng)險的實證分析[J].財務(wù)與金融,2011(5):37-41.
[7]劉俐君.房地產(chǎn)行業(yè)上市公司財務(wù)風(fēng)險預(yù)警研究[D].武漢:中南財經(jīng)政法大學(xué),2022.