陳藝云, 賀建風(fēng), 覃福東
(華南理工大學(xué) 經(jīng)濟(jì)與貿(mào)易學(xué)院,廣東 廣州 510006)
自2014年“11超日債”違約以來,我國(guó)公司債券市場(chǎng)違約事件頻發(fā),信用風(fēng)險(xiǎn)問題引起了監(jiān)管層、投資者和學(xué)術(shù)界的普遍關(guān)注。在經(jīng)濟(jì)呈現(xiàn)新常態(tài)、增長(zhǎng)速度趨緩、公司企業(yè)經(jīng)營(yíng)業(yè)績(jī)下滑的情況下,準(zhǔn)確評(píng)價(jià)公司企業(yè)的信用風(fēng)險(xiǎn)從而準(zhǔn)確預(yù)測(cè)其財(cái)務(wù)困境對(duì)于強(qiáng)化信用風(fēng)險(xiǎn)管理,防范信用危機(jī)和債務(wù)危機(jī)有著重要的理論與現(xiàn)實(shí)意義。
以往對(duì)公司企業(yè)財(cái)務(wù)困境預(yù)測(cè)的研究都是以財(cái)務(wù)數(shù)據(jù)、市場(chǎng)交易數(shù)據(jù)等定量數(shù)據(jù)為基礎(chǔ)的,很少考慮公司公告、新聞報(bào)道、在線評(píng)論等公開的定性信息,實(shí)際上標(biāo)準(zhǔn)普爾早在2003年就指出,“定性信息中包含著區(qū)分信用風(fēng)險(xiǎn)的重要信息”[1]。大數(shù)據(jù)時(shí)代的到來使得以定性文本信息為主的非結(jié)構(gòu)化數(shù)據(jù)在金融市場(chǎng)預(yù)測(cè)中將發(fā)揮更為重要的作用,也為有效分析文本信息提供了新的技術(shù)和方法。本文通過對(duì)中文年報(bào)管理層討論與分析部分特征詞的抽取與文本內(nèi)容的量化分析,為公司企業(yè)的財(cái)務(wù)困境預(yù)測(cè)和信用風(fēng)險(xiǎn)管理提供新的思路和方法,拓展了對(duì)公司信息披露文本內(nèi)容的挖掘分析,對(duì)于更有效地分析新聞報(bào)道、在線評(píng)論等其他文本內(nèi)容,從而準(zhǔn)確預(yù)測(cè)財(cái)務(wù)困境和管理信用風(fēng)險(xiǎn)都有重要的借鑒和參考價(jià)值。
公司企業(yè)財(cái)務(wù)困境的預(yù)測(cè)是理論和實(shí)務(wù)界關(guān)注的熱點(diǎn)問題之一,但以往的研究大多是以財(cái)務(wù)數(shù)據(jù)、市場(chǎng)交易數(shù)據(jù)等定量數(shù)據(jù)為基礎(chǔ)的,如Altman[2]基于財(cái)務(wù)比率的 Z 評(píng)分模型,Merton[3]基于股票市場(chǎng)交易數(shù)據(jù)的結(jié)構(gòu)模型,Shumway[4]結(jié)合財(cái)務(wù)比率和市場(chǎng)交易數(shù)據(jù)提出的風(fēng)險(xiǎn)模型等,這些研究存在著低估違約概率、難以實(shí)時(shí)預(yù)測(cè)違約的問題。一些學(xué)者將此歸因于公開信息的不完全,認(rèn)為應(yīng)以不完全信息假設(shè)為基礎(chǔ)來進(jìn)行最優(yōu)估計(jì)[5],這種方法更接近現(xiàn)實(shí),但忽略了傳統(tǒng)理論和方法的最大缺陷,即只注重對(duì)財(cái)務(wù)數(shù)據(jù)、市場(chǎng)交易數(shù)據(jù)等定量數(shù)據(jù)的分析,而沒有考慮公司公告、新聞報(bào)道、在線評(píng)論等公開的定性信息。
從上市公司信息披露的內(nèi)容來看,財(cái)務(wù)數(shù)據(jù)只是其中的一個(gè)組成部分,可以很直觀地反映公司的經(jīng)營(yíng)和財(cái)務(wù)狀況,但信息披露報(bào)告更多還是以描述性文本內(nèi)容為主,這是公司和經(jīng)理人具體說明并分析公司現(xiàn)狀、發(fā)展前景,從而與潛在的投資者進(jìn)行溝通的重要機(jī)會(huì)。通過這些描述性的文本內(nèi)容,經(jīng)理人可以達(dá)到吸引投資者,促使其購買更多股票或?qū)⒏噘Y金放貸給公司,并抑制其出售公司證券沖動(dòng)的目的[6]。當(dāng)公司經(jīng)營(yíng)和財(cái)務(wù)狀況開始惡化時(shí),經(jīng)理人的這種激勵(lì)會(huì)更為強(qiáng)烈,信息披露的文本內(nèi)容就會(huì)隨之出現(xiàn)變化,這樣以來,公司信息披露的文本內(nèi)容就有可能為判斷經(jīng)理人與公司的違約傾向提供重要線索。
然而,由于投資者對(duì)信息的分析和處理存在著收益與成本的均衡[7],公司可以通過提高負(fù)面信息的分析成本來弱化市場(chǎng)的反應(yīng)[8]。對(duì)于正面信息,經(jīng)理人傾向于以更直接更清晰的方式進(jìn)行陳述,使好消息等到更充分更及時(shí)的反映;對(duì)于負(fù)面信息,經(jīng)理人則傾向于以復(fù)雜模糊的方式來表達(dá),如使用更多的生僻詞、更冗長(zhǎng)的句子來進(jìn)行描述,可能會(huì)以更多中性或含義模糊、而不是悲觀和負(fù)面的詞語來表達(dá)對(duì)未來前景的負(fù)面信息[9],這樣以來,公司信息披露文本的措辭和風(fēng)格就可能會(huì)反映出其真實(shí)的經(jīng)營(yíng)狀況以及經(jīng)理人對(duì)未來的預(yù)期,從而為評(píng)價(jià)其信用風(fēng)險(xiǎn)、預(yù)測(cè)財(cái)務(wù)困境提供新的信息。
盡管Tennyson等[6]在1990年就通過對(duì)公司年報(bào)管理層討論與分析和董事長(zhǎng)致辭部分描述性內(nèi)容的主題分析指出了文本信息對(duì)于公司破產(chǎn)預(yù)測(cè)的重要作用,但在信用風(fēng)險(xiǎn)評(píng)價(jià)和財(cái)務(wù)困境預(yù)測(cè)中考慮定性文本信息的研究還很少見,而且大多局限于對(duì)新聞報(bào)道和網(wǎng)絡(luò)輿情的分析[10~13]。從信息獲取渠道來看,公司的信息披露比外部的新聞報(bào)道、社交媒體信息更為可靠,許多對(duì)股票市場(chǎng)的研究都表明公司年報(bào)的文本內(nèi)容,如管理層討論與分析(Management Discussion& Analysis,MD&A)部分的文本內(nèi)容確實(shí)可以為預(yù)測(cè)公司未來經(jīng)營(yíng)業(yè)績(jī)提供增量信息[14~16],而 Cecchini等[17]基于本體分析的研究也證實(shí)英文年報(bào)MD&A的措辭特征確實(shí)可以提高破產(chǎn)預(yù)測(cè)的準(zhǔn)確性。
國(guó)內(nèi)對(duì)中文年報(bào)管理層討論與分析的研究大多以人工閱讀或打分方法為主[15,16],難以適用于對(duì)大樣本的分析,一些學(xué)者的自動(dòng)文本分析側(cè)重于對(duì)其言語的有效性或文本內(nèi)容相似性的分析[18,19],很少從用詞的角度來進(jìn)行分析。謝德仁和林樂[20]在對(duì)上市公司業(yè)績(jī)說明會(huì)文本內(nèi)容的分析中引入了國(guó)外學(xué)者基于英文年報(bào)用詞構(gòu)建的詞典來分析管理層語調(diào),但這種方法對(duì)于中文用詞的特殊性考慮不足。由于對(duì)財(cái)務(wù)困境公司和正常公司的區(qū)分是一個(gè)典型的分類問題,兩類公司年報(bào)的用詞可能會(huì)存在著一些顯著的差異,那么通過對(duì)文本特征詞的提取和分析就可以實(shí)現(xiàn)對(duì)文本內(nèi)容的量化并用以預(yù)測(cè)財(cái)務(wù)困境,為此,本文引入文本分類中文本特征的提取方法對(duì)兩類公司管理層討論與分析部分的文本內(nèi)容進(jìn)行對(duì)比,從中抽取能區(qū)分兩類公司的特征詞,由此構(gòu)建文本內(nèi)容的量化指標(biāo),將其加入到財(cái)務(wù)困境預(yù)測(cè)的建模中,并采用不同預(yù)測(cè)方法來檢驗(yàn)該文本量化指標(biāo)能否提高預(yù)測(cè)的準(zhǔn)確性。
在財(cái)務(wù)困境預(yù)測(cè)的研究中,國(guó)內(nèi)外學(xué)者采用了多種方法和技術(shù),主要分為兩大類:一是基于統(tǒng)計(jì)模型的判別分類方法,如線性判別分析、Logistic回歸、Probit回歸等;二是人工智能方法,如決策樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、進(jìn)化計(jì)算等。為檢驗(yàn)本文構(gòu)建的文本量化指標(biāo)在財(cái)務(wù)困境預(yù)測(cè)中的作用,確保研究結(jié)論的穩(wěn)健性,本文選擇了上述兩類方法中應(yīng)用最廣泛、代表性最強(qiáng)的Logistic回歸和支持向量機(jī)來進(jìn)行實(shí)證分析。
3.1.1 Logistic 回歸模型
在信用風(fēng)險(xiǎn)預(yù)警的傳統(tǒng)統(tǒng)計(jì)方法中,Logistic回歸是對(duì)二分類因變量進(jìn)行建模時(shí)最常用的多元統(tǒng)計(jì)方法,可以解決非線性分類的問題,對(duì)變量的分布沒有具體要求,判斷的準(zhǔn)確率較高,其一般形式如下
其中pi表示事件發(fā)生的概率,Xi表示解釋變量。
3.1.2 支持向量機(jī)
支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的分類方法,在解決小樣本、非線性及高維模式識(shí)別中有許多優(yōu)勢(shì),其目的在于構(gòu)建一個(gè)超平面,使得高維特征空間內(nèi)兩個(gè)類的邊緣間隔最大化,其優(yōu)勢(shì)在于利用核函數(shù)來提供準(zhǔn)確率高的分類模型,并借助正則項(xiàng)避免模型的過度適應(yīng),同時(shí)避免局部最優(yōu)和多種共線性的影響。支持向量機(jī)求解的最優(yōu)化問題如下所示
其中 i=1,2,…,M,ξi≥0 表示懲罰因子 C 決定的誤差界限,yi表示訓(xùn)練集中的類別,Φ(x)表示從輸入層到特征層的非線性轉(zhuǎn)換,w和b分別代表權(quán)重和閾值。支持向量機(jī)通過二次規(guī)劃,以核函數(shù)K(x)=K(xi,xj)代替最優(yōu)分類平面的點(diǎn)積Φ(xi)T·Φ(xj)來求解上述最優(yōu)化問題,而核函數(shù)的形式有多種,如線性核函數(shù)、多項(xiàng)核函數(shù)、高斯核函數(shù)等,本文在這里選取了高斯核函數(shù)來進(jìn)行建模。
財(cái)務(wù)比率是上市公司財(cái)務(wù)困境預(yù)測(cè)的基礎(chǔ)變量,在結(jié)合已有文獻(xiàn)的基礎(chǔ)上[21~23],考慮數(shù)據(jù)的可得性,本文從償債能力、營(yíng)運(yùn)能力、盈利能力、發(fā)展能力、每股指標(biāo)、風(fēng)險(xiǎn)水平等角度選取了32個(gè)財(cái)務(wù)比率,包括固定資產(chǎn)比率(FIX)、流動(dòng)比率(CURRENT)、速動(dòng)比率(ACID)、營(yíng)運(yùn)資金(WC)、利息保障倍數(shù)(INTEREST)、經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流凈額/流動(dòng)負(fù)債(CASH)、現(xiàn)金流利息保障倍數(shù)(CINTEREST)、資產(chǎn)負(fù)債率(LEV)、有形資產(chǎn)負(fù)債率(TLEV)、權(quán)益乘數(shù)(EM)、產(chǎn)權(quán)比率(EQUITY)、權(quán)益/負(fù)債(ED)、總資產(chǎn)增長(zhǎng)率(AGROWTH)、權(quán)益增長(zhǎng)率(EGROWTH)、財(cái)務(wù)杠桿(FL)、經(jīng)營(yíng)杠桿(OL)、綜合杠桿(CL)、營(yíng)業(yè)周期(OC)、總資產(chǎn)周轉(zhuǎn)率(TAT)、每股收益(EPS)、每股營(yíng)業(yè)收入(OIPS)、每股營(yíng)業(yè)利潤(rùn)(OPPS)、每股凈資產(chǎn)(BPS)、每股留存收益(REPS)、每股經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流凈額(CPS)、每股現(xiàn)金凈流量(NCPS)、投入資本回報(bào)率(RIA)、資產(chǎn)報(bào)酬率(ROA)、資產(chǎn)凈利率(JROA)、凈資產(chǎn)收益率(ROE)、營(yíng)業(yè)利潤(rùn)率(OPM)和總營(yíng)業(yè)成本率(OCR)。
3.3.1 特征詞的提取方法
由于公司經(jīng)營(yíng)和財(cái)務(wù)狀況會(huì)對(duì)其信息披露文本內(nèi)容的措辭和風(fēng)格產(chǎn)生影響,本文采用R語言開源中文分詞工具JiebaR來進(jìn)行中文分詞,然后利用卡方檢驗(yàn)的方法來選取可以區(qū)分財(cái)務(wù)困境公司和正常公司的特征詞。按照Yang和Pedersen[24]的研究,以N表示訓(xùn)練語料中文檔的總數(shù),以A表示屬于Cj類且包含特征詞ti的文檔頻數(shù),以B表示不屬于Cj類但包含特征詞ti的文檔頻數(shù),以C表示屬于Cj類但不包含特征詞ti的文檔頻數(shù),以D表示不屬于Cj類且不包含特征詞ti的文檔頻數(shù),則特征詞ti的卡方值為
根據(jù)卡方分布一個(gè)自由度的臨界值就可以確定特征詞ti是否能顯著區(qū)分財(cái)務(wù)困境公司和正常公司,由此可以構(gòu)建財(cái)務(wù)困境公司和正常公司的特征詞表。
3.3.2 特征詞的權(quán)重設(shè)置
本文采用與 Cecchini等[17]相似的方法,考慮特征詞在分類中的相對(duì)重要性,通過對(duì)詞頻-逆向文檔頻率 (TF-IDF,Term Frequency-Inverse Document Frequency)的擴(kuò)展來設(shè)置權(quán)重。特征詞ti的權(quán)重wi可以表示為
其中j表示文檔,k和l表示類別,tfijk表示特征詞i在k類j文檔的詞頻,N表示文檔總數(shù),n表示包含特征詞i的k類文檔總數(shù)。
3.3.3 基于文本分析的違約傾向指標(biāo)的構(gòu)建
通過選取特征詞并設(shè)置其權(quán)重,就可以對(duì)每個(gè)信息披露文本中包含的特征詞進(jìn)行統(tǒng)計(jì),由此可以構(gòu)建基于文本分析的公司違約傾向指標(biāo)(TTD,Tendency toward Default):
其中TTDj表示公司j的違約傾向指標(biāo)表示財(cái)務(wù)困境公司特征詞ti在公司j信息披露文本中的詞頻表示特征詞ti對(duì)財(cái)務(wù)困境公司的權(quán)重,表示正常公司特征詞ti在公司j信息披露文本中的詞頻表示特征詞ti對(duì)正常公司的權(quán)重。TTD值越大,文本內(nèi)容中就使用了相對(duì)更多負(fù)面意義的詞語。
3.4.1 樣本
參照國(guó)內(nèi)在預(yù)測(cè)上市公司財(cái)務(wù)困境時(shí)的通常做法,本文以因財(cái)務(wù)狀況異常而被特別處理(ST)作為上市公司出現(xiàn)財(cái)務(wù)困境的標(biāo)志,在選取樣本的時(shí)候采用配比原則來選擇非ST公司作為配對(duì)樣本。為了確保實(shí)證結(jié)果的穩(wěn)健性,本文按照行業(yè)相同,資產(chǎn)規(guī)模相近的原則來選擇非ST公司作為配對(duì)樣本,在配比的比例上分別按1∶1和1∶2來選擇。由于上市公司的年報(bào)是在年度終了4個(gè)月內(nèi)編制發(fā)布的,因而t-1年年報(bào)的發(fā)布與其在t年是否被特別處理這兩個(gè)時(shí)間是同時(shí)發(fā)生的,為此本文參照石曉軍等[25]的做法,采用了上市公司t-2年的數(shù)據(jù)建立模型來預(yù)測(cè)其是否會(huì)在t年出現(xiàn)信用風(fēng)險(xiǎn)。基于上述條件,本文選取了2011年~2017年期間199家被ST的上市公司作為財(cái)務(wù)困境公司樣本,按行業(yè)相近、規(guī)模相近的原則選擇了398家非ST公司作為配對(duì)的正常公司樣本,對(duì)應(yīng)的數(shù)據(jù)期間為2009年~2015年。
考慮到特征詞的選取應(yīng)考慮足夠多的樣本,因而不管實(shí)證分析時(shí)財(cái)務(wù)困境公司和正常公司的比例是1∶1還是1∶2,本文以全部樣本為基礎(chǔ)來選取特征詞。通過預(yù)處理和中文分詞后,在選取特征詞時(shí),由于卡方檢驗(yàn)難以排除一些并不能區(qū)分財(cái)務(wù)困境公司與正常公司的詞語,如“現(xiàn)金流量”、“經(jīng)營(yíng)活動(dòng)”、“投資者”、“管理辦法”、“供應(yīng)商”、“子公司”等會(huì)計(jì)或行業(yè)常用詞,因而本文對(duì)通過卡方檢驗(yàn)的詞語進(jìn)行了篩選,最后選定了93個(gè)財(cái)務(wù)困境公司的特征詞以及98個(gè)正常公司的特征詞,然后計(jì)算各個(gè)特征詞的權(quán)重。
3.4.2 數(shù)據(jù)
本文的財(cái)務(wù)數(shù)據(jù)都來自于國(guó)泰安數(shù)據(jù)庫,中文年報(bào)來自于巨潮資訊網(wǎng),從中截取了管理層討論與分析的文本內(nèi)容。對(duì)于違約傾向指標(biāo)(TTD)和財(cái)務(wù)比率能否反映財(cái)務(wù)困境公司和正常公司之間的顯著差異,對(duì)所有變量進(jìn)行了非參數(shù) Mann-Whitney檢驗(yàn),結(jié)果顯示除了財(cái)務(wù)比率變量中營(yíng)業(yè)周期(OC)和每股現(xiàn)金凈流量(NCPS)不顯著以外,包括違約傾向指標(biāo)(TTD)在內(nèi)的其他全部變量都存在顯著性差異,可以用來區(qū)分財(cái)務(wù)困境公司和正常公司。對(duì)于違約傾向指標(biāo)(TTD),正常公司的平均值為 0.08898,財(cái)務(wù)困境公司的平均值為0.23461,非參數(shù)檢驗(yàn)的 Z 值為 -10.621,顯著性水平為1%,表明財(cái)務(wù)困境公司在其年報(bào)的文本內(nèi)容中確實(shí)使用了更多與財(cái)務(wù)困境相關(guān)的、有負(fù)面意義的特征詞。
對(duì)于違約傾向指標(biāo)在財(cái)務(wù)困境預(yù)測(cè)中的作用,本文采用Logistic回歸和支持向量機(jī)兩種方法來進(jìn)行實(shí)證檢驗(yàn),同時(shí)進(jìn)行樣本內(nèi)檢驗(yàn)和樣本外預(yù)測(cè)。首先不區(qū)分訓(xùn)練集和測(cè)試集,以全部樣本(分1∶1和1∶2兩種比例)進(jìn)行樣本內(nèi)檢驗(yàn),分別按加入違約傾向指標(biāo)(TTD)前后兩種情況建模;然后再選取2011年~2015年的139家ST公司和配對(duì)樣本作為訓(xùn)練集,分別采用兩種方法進(jìn)行建模,以2016年~2017年的60家ST公司和配對(duì)正常公司樣本作為測(cè)試集對(duì)模型預(yù)測(cè)財(cái)務(wù)困境的準(zhǔn)確性進(jìn)行比較分析。判斷標(biāo)準(zhǔn)主要有三個(gè):一是TTD的加入能否提高分類的整體準(zhǔn)確率(Accuracy);二是TTD的加入能否降低第一類錯(cuò)誤(TypeⅠ error,將ST公司識(shí)別為正常公司)和第二類錯(cuò)誤(TypeⅡerror,將正常公司識(shí)別為 ST公司)的概率;三是TTD的加入能否提高受試者工作特征曲線(ROC,Receiver Operating Characteristic Curve)的曲線下面積AUC(Area Under Curve),AUC是根據(jù)建模結(jié)果預(yù)測(cè)樣本被ST的概率來計(jì)算的,取值范圍為0.5~1,值越大表明樣本內(nèi)模型的擬合效果或樣本外預(yù)測(cè)的準(zhǔn)確性越好。
本文在采用Logistic回歸分析時(shí)應(yīng)用逐步回歸的方法來剔除不顯著的變量,首先不考慮違約傾向指標(biāo)(TTD),然后再加入該指標(biāo),對(duì)模型的擬合程度和預(yù)測(cè)能力進(jìn)行比較分析,同時(shí)根據(jù)違約傾向指標(biāo)(TTD)是否會(huì)在逐步回歸的過程中被剔除來判斷其對(duì)財(cái)務(wù)困境模型構(gòu)建的作用。
4.1.1 樣本內(nèi)檢驗(yàn)
表1給出了1∶1和1∶2兩種樣本比例下Logistic逐步回歸樣本內(nèi)檢驗(yàn)的結(jié)果。由表1可見,樣本比例不同,逐步回歸選取的財(cái)務(wù)變量有所區(qū)別,是否加入違約傾向指標(biāo)(TTD)也會(huì)導(dǎo)致財(cái)務(wù)變量選取的不同,但不管配比比例如何,加入違約傾向指標(biāo)(TTD)后逐步回歸都無法剔除且違約傾向指標(biāo)(TTD)顯著為正,即文本內(nèi)容反映的違約傾向越強(qiáng),公司出現(xiàn)財(cái)務(wù)困境的可能性越大。
表1 Logistic回歸的樣本內(nèi)檢驗(yàn)結(jié)果
然后從加入違約傾向指標(biāo)(TTD)后模型的擬合情況來看,對(duì)數(shù)似然比(Log Likelihood)明顯降低,而Cox&Snell R2和Nagelkerke R2都顯著提高,AUC也有一定幅度的提高,可見違約傾向指標(biāo)(TTD)確實(shí)提高了財(cái)務(wù)困境預(yù)測(cè)模型的擬合度;再從樣本內(nèi)預(yù)測(cè)能力來看,不管比例如何,違約傾向指標(biāo)(TTD)的加入減少了第一類錯(cuò)誤,在1∶2比例下也減少了第二類錯(cuò)誤,整體準(zhǔn)確率都有一定幅度的提高,可見違約傾向指標(biāo)(TTD)確實(shí)提高了財(cái)務(wù)困境預(yù)測(cè)模型的預(yù)測(cè)能力,且主要體現(xiàn)在第一類錯(cuò)誤的降低上,即減少了將財(cái)務(wù)困境公司誤判為正常公司的概率,這對(duì)于信用風(fēng)險(xiǎn)管理有著非常重要的價(jià)值。
4.1.2 樣本外預(yù)測(cè)
表2給出了Logistic逐步回歸樣本外預(yù)測(cè)的結(jié)果。由表2可見,在ST公司與正常公司的比例為1∶1時(shí),違約傾向指標(biāo)(TTD)的加入使得AUC和整體準(zhǔn)確率都有一定幅度的提高,第一類錯(cuò)誤和第二類錯(cuò)誤都有所降低,其中第一類錯(cuò)誤的降低更為明顯;在提高配對(duì)比例,增加正常公司數(shù)量后,違約傾向指標(biāo)(TTD)加入對(duì)預(yù)測(cè)效果的改進(jìn)幅度有所下降,但同樣可以提高整體準(zhǔn)確率和AUC,降低第一類錯(cuò)誤和第二類錯(cuò)誤,同樣對(duì)第一類錯(cuò)誤的降低更為明顯。由此可見,在采用Logistic回歸方法時(shí),文本內(nèi)容反映的違約傾向指標(biāo)(TTD)確實(shí)可以提高財(cái)務(wù)困境預(yù)測(cè)模型樣本外預(yù)測(cè)準(zhǔn)確性,而且與樣本內(nèi)檢驗(yàn)一致,這主要還是體現(xiàn)在降低第一類錯(cuò)誤,即將財(cái)務(wù)困境公司誤判為正常公司的概率上。
表2 Logistic回歸的樣本外預(yù)測(cè)結(jié)果
在采用支持向量機(jī)建模分析時(shí),為了判斷違約傾向指標(biāo)(TTD)以及財(cái)務(wù)比率變量對(duì)財(cái)務(wù)困境預(yù)測(cè)建模的相對(duì)重要性,本文引入Cortez和Embrechts[26]提出的敏感性分析方法來計(jì)算違約傾向指標(biāo)(TTD)加入前后各變量的相對(duì)重要性并進(jìn)行樣本內(nèi)檢驗(yàn),然后再對(duì)加入違約傾向指標(biāo)(TTD)前后支持向量機(jī)的樣本外預(yù)測(cè)能力進(jìn)行比較分析。
4.2.1 樣本內(nèi)檢驗(yàn)
表3給出了支持向量機(jī)樣本內(nèi)檢驗(yàn)的結(jié)果。由表3可見,樣本比例較小時(shí)支持向量機(jī)的總體準(zhǔn)確率更高一些,主要是因?yàn)榈谝活愬e(cuò)誤的概率相對(duì)要低很多,而樣本比例擴(kuò)大后,第一類錯(cuò)誤的概率有顯著提升;加入違約傾向指標(biāo)(TTD)后,不管比例如何,第一類錯(cuò)誤和第二類錯(cuò)誤的概率都有所降低,同樣對(duì)第一類錯(cuò)誤的減少相對(duì)會(huì)更顯著一些,同時(shí)整體準(zhǔn)確率和AUC也都有一定幅度的提高。從敏感性分析的結(jié)果來看,配比比例的變化對(duì)財(cái)務(wù)比率變量在采用支持向量機(jī)建模時(shí)的相對(duì)重要性影響不大,而違約傾向指標(biāo)(TTD)在兩種比例下都進(jìn)入了前十大重要變量,而且在比例為1∶2時(shí)在所有指標(biāo)中排在第四位,重要性顯著提高。由此可見,在采用支持向量機(jī)構(gòu)建財(cái)務(wù)困境預(yù)測(cè)模型時(shí),違約傾向指標(biāo)(TTD)都發(fā)揮了重要的作用。
表3 支持向量機(jī)的樣本內(nèi)檢驗(yàn)結(jié)果
4.2.2 樣本外預(yù)測(cè)
表4給出了支持向量機(jī)樣本外預(yù)測(cè)的結(jié)果。由表4可見,同樣是在樣本比例較小時(shí)支持向量機(jī)的總體準(zhǔn)確率更高,而樣本比例擴(kuò)大后,兩類錯(cuò)誤的概率都有顯著提升;從違約傾向指標(biāo)(TTD)加入的影響來看,在比例為1∶1時(shí),顯著降低了第二類錯(cuò)誤的概率,AUC也有顯著的提高,整體準(zhǔn)確率都有大幅度的提高,但在比例擴(kuò)大以后,其影響有所降低,對(duì)于第二類錯(cuò)誤的影響較小,只是降低了第一類錯(cuò)誤的概率。從總體來看,在采用支持向量機(jī)方法的情況下,加入文本信息反映的違約傾向指標(biāo)(TTD)同樣可以提高財(cái)務(wù)困境預(yù)測(cè)模型的準(zhǔn)確度。
表4 支持向量機(jī)的樣本外預(yù)測(cè)結(jié)果
管理層討論與分析部分的描述性文本內(nèi)容是上市公司信息披露的重要組成部分,對(duì)這些文本信息的分析有助于了解公司的真實(shí)狀況以及經(jīng)理人對(duì)未來的預(yù)期,從而更準(zhǔn)確地預(yù)測(cè)財(cái)務(wù)困境。本文以財(cái)務(wù)困境公司和正常公司年報(bào)管理層討論與分析部分的文本內(nèi)容為研究對(duì)象,采用卡方檢驗(yàn)方法來提取反映財(cái)務(wù)困境和正常公司的特征詞,通過對(duì)TF-IDF的擴(kuò)展來設(shè)置特征詞的權(quán)重,從而構(gòu)建公司經(jīng)理人違約傾向指標(biāo),并將該指標(biāo)與財(cái)務(wù)比率變量相結(jié)合,采用Logistic回歸和支持向量機(jī)的方法對(duì)違約傾向指標(biāo)能否提供財(cái)務(wù)困境預(yù)測(cè)的增量信息進(jìn)行了分析,結(jié)果表明不管財(cái)務(wù)困境公司與正常公司的配比比例是1∶1還是1∶2,在這兩種財(cái)務(wù)困境預(yù)測(cè)模型的建模方法下,違約傾向指標(biāo)的加入都可以提高財(cái)務(wù)困境預(yù)測(cè)模型的擬合度以及預(yù)測(cè)的準(zhǔn)確性,降低出現(xiàn)誤判的第一類錯(cuò)誤率和第二類錯(cuò)誤率。由此可見,上市公司年報(bào)文本內(nèi)容的特征在一定程度上反映了公司的真實(shí)現(xiàn)狀以及經(jīng)理人對(duì)未來前景的預(yù)期,可以為財(cái)務(wù)困境預(yù)測(cè)和信用風(fēng)險(xiǎn)評(píng)價(jià)提供新的信息,而且這些信息可以通過自動(dòng)文本分析的方法進(jìn)行挖掘和獲取,這對(duì)于信用風(fēng)險(xiǎn)管理機(jī)構(gòu),乃至于市場(chǎng)投資者分析上市公司的風(fēng)險(xiǎn)信息都有重要的借鑒價(jià)值。不過本文的研究局限于上市公司,難以適用于非上市的公司企業(yè),但對(duì)于這些公司企業(yè),可以通過對(duì)新聞報(bào)道、社交媒體等其他渠道文本內(nèi)容的挖掘分析來實(shí)現(xiàn),當(dāng)然由于這些渠道的文本信息來自于企業(yè)外部,在具體方法和技術(shù)的選擇上還需要進(jìn)一步的研究。