侯世君 馮長煥 文雯
摘 要:上市公司財務(wù)分析指標(biāo)數(shù)據(jù)中有很多缺失數(shù)據(jù),其會影響投資者、債權(quán)人、管理者及政府部門對上市公司的評價??紤]到傳統(tǒng)的缺失值插補(bǔ)方法對財務(wù)數(shù)據(jù)填補(bǔ)效果不理想,提出了基于格蘭杰因果關(guān)系的VAR法對上市公司財務(wù)數(shù)據(jù)填補(bǔ),對比分析均值插補(bǔ)、EM插補(bǔ)、回歸插補(bǔ)、多重插補(bǔ),發(fā)現(xiàn)VAR法優(yōu)于前述幾種方法。
關(guān)鍵詞:格蘭杰因果關(guān)系? VAR插補(bǔ)法? EM插補(bǔ)? 回歸插補(bǔ)? 多重插補(bǔ)
中圖分類號:F275 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-0298(2020)08(b)--04
對于缺失值填補(bǔ)方法的研究,已有學(xué)者提出加權(quán)法、均值插補(bǔ)、熱平臺插補(bǔ)、冷平臺插補(bǔ)、回歸插補(bǔ)和模型插補(bǔ)等[1]。Kalton和Kish(1984)提出K近鄰插補(bǔ)法,克服了熱平臺插補(bǔ)法的不足。20世紀(jì)70年代EM(Expectation Maximization)算法被Rubin等人提出。
20世紀(jì)80年代,Rubin總結(jié)并克服了EM算法的缺點,提出了多重插補(bǔ)法[2]。1998年Maren K. Olsen[3]在《Multiple? Imputation? for Multivariate? Missing-data problem》中提出了處理多個變量含有缺失值的多重插補(bǔ)法,并在實際運(yùn)用中取得了良好的效果。金勇進(jìn)[4]在《缺失值的插補(bǔ)調(diào)整》一文中介紹了演繹估計、均值插補(bǔ)、隨機(jī)插補(bǔ)、回歸插補(bǔ)和多重插補(bǔ)等一系列對缺失值的插補(bǔ)方法。袁中萸[5]選取某科學(xué)基金會研究學(xué)者年薪及評價各指標(biāo)的數(shù)據(jù),結(jié)合 SAS軟件,通過估計多元線性回歸模型參數(shù)的相對誤差大小,比較了均值插補(bǔ)、EM算法、回歸插補(bǔ)、多重插補(bǔ)4種缺失數(shù)據(jù)處理方法,在7種不同缺失率下的填補(bǔ)效果。程萬偉[6]用稀疏表示的相關(guān)理論研究了時間序列缺失值的插補(bǔ)。潘傳快、祁春節(jié)、李思璇[7]借助Bootstrap法,讓模型的參數(shù)和殘差來自完全觀測的Bootstrap樣本的最小平法估計提出Bootstrap多重插補(bǔ)法。張曉琴、王敏[8] 提出了主成分回歸方法進(jìn)行插補(bǔ)。
國內(nèi)外對缺失值填補(bǔ)方法的研究很多,但鮮有對上市公司缺失財務(wù)數(shù)據(jù)填補(bǔ)進(jìn)行研究。上市公司的財務(wù)數(shù)據(jù)反映了企業(yè)的盈利能力、償債能力、成長能力和營運(yùn)能力等財務(wù)狀況。從歷年上市公司各項財務(wù)比率指標(biāo)來看,發(fā)現(xiàn)有很多缺失值。這些缺失的財務(wù)指標(biāo)會影響對上市公司財務(wù)狀況的分析。以往對公司財務(wù)指標(biāo)評價的研究大都是通過直接刪除缺失數(shù)據(jù)對應(yīng)的公司或刪除相應(yīng)指標(biāo)的方法,把刪失后的數(shù)據(jù)進(jìn)行綜合財務(wù)指標(biāo)分析。但這種方法往往會導(dǎo)致很多上市公司或指標(biāo)未納入分析。并且上市公司財務(wù)數(shù)據(jù)各項指標(biāo)之間都有一定的關(guān)聯(lián),屬于面板數(shù)據(jù),用以往傳統(tǒng)的插補(bǔ)方法效果不理想。本文針對這種情況,提出一種基于格蘭杰因果關(guān)系的向量自回歸法,填補(bǔ)上市公司財務(wù)指標(biāo)缺失數(shù)據(jù),以避免分析過程中出現(xiàn)上市公司或指標(biāo)遺漏的情況。
1 相關(guān)理論
1.1 多重插補(bǔ)
利用多重插值的思想來對缺失值進(jìn)行處理的方法起源于貝葉斯推斷[9],多重插補(bǔ)作為一種基于重復(fù)模擬缺失值的方法,面對復(fù)雜的缺失值問題時,是最常用的方法。它的插補(bǔ)思想是, 給每個缺失值都構(gòu)造m個插補(bǔ)值(m>1),從而產(chǎn)生了m個完全數(shù)據(jù)集,對每個完全數(shù)據(jù)集采用相同的數(shù)據(jù)分析方法進(jìn)行處理,得到m個處理結(jié)果,然后綜合這些處理結(jié)果,得到最終的目標(biāo)變量的估計。
多重插補(bǔ)可分為三個階段:(1)對目標(biāo)變量的估計。(2)創(chuàng)建完全數(shù)據(jù)集。(3)目標(biāo)變量的確定。其中最關(guān)鍵的階段為目標(biāo)變量的估計,該階段需要確定估計缺失值的方法,即缺失值是以何種方法或者模型被估計出來,該階段直接影響統(tǒng)計推斷的有效性[10]。
研究多重插補(bǔ)的方法有很多種,如插補(bǔ)值是由回歸模型的預(yù)測值加上一個隨機(jī)誤差項結(jié)合而成的隨機(jī)回歸插補(bǔ)法[11]等。
1.2 格蘭杰因果關(guān)系
格蘭杰因果關(guān)系原理:當(dāng)兩個變量在時間上有先導(dǎo)—滯后關(guān)系時,可以從統(tǒng)計上考察這種關(guān)系是單向還是雙向。如果主要是一個變量過去的行為在影響另一個變量的當(dāng)前行為,存在單向關(guān)系;如果雙方的過去行為在相互影響著對方的當(dāng)前行為,存在雙向關(guān)系。格蘭杰因果關(guān)系檢驗假設(shè)了有兩個變量Y和X的預(yù)測的信息全部包含在這些變量的時間序列中,檢驗要求估計以下回歸:
2 財務(wù)數(shù)據(jù)的VAR分析
由于上市公司財務(wù)比率數(shù)據(jù)中各項指標(biāo)性質(zhì)不相同,通常具有不同的量綱和數(shù)量級,如每股收益(單位:元/股)、每股凈資產(chǎn)(單位:元/股)、存貨周轉(zhuǎn)天數(shù)(單位:天)等存在不同單位;如主營業(yè)務(wù)利潤率、息稅前利潤率(%)、流動比率、速動比率等不存在量綱影響。如果直接用數(shù)據(jù)進(jìn)行分析,會突出數(shù)值較高的指標(biāo)在綜合分析中的作用,相對削弱數(shù)值水平較低指標(biāo)的作用。因此,為了保證結(jié)果的可靠性,需要對原始指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
將上述標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行格蘭杰因果關(guān)系檢驗。對于面板數(shù)據(jù),若指標(biāo)序列與指標(biāo)序列間存在格蘭杰因果關(guān)系,標(biāo)記這些序列為。選取具有格蘭杰因果關(guān)系的指標(biāo)利用軟件進(jìn)行向量自回歸(常用EVIEWS,默認(rèn)滯后兩階),可得到序列預(yù)測公式:
3 實證分析
3.1 數(shù)據(jù)來源
實驗數(shù)據(jù)來自網(wǎng)易財經(jīng)官網(wǎng),選擇1992—2018歷年萬科上市公司的年度財務(wù)報告數(shù)據(jù)表1、表2所示,選取的指標(biāo)包括每股收益(攤?。?、每股凈資產(chǎn)、每股資本公積金、每股銷售收入、每股現(xiàn)金流量、主營業(yè)務(wù)利潤率、息稅前利潤率(%)、流動比率、速動比率、利息保障數(shù)、資產(chǎn)負(fù)債率、主營業(yè)務(wù)增長率、主營利潤增長率、凈利潤增長率、每股收益增長率、應(yīng)收賬款周轉(zhuǎn)率、應(yīng)收賬款周轉(zhuǎn)天數(shù)(天)、存貨周轉(zhuǎn)率、存貨周轉(zhuǎn)天數(shù)(天)、固定資產(chǎn)周轉(zhuǎn)率、總資產(chǎn)周轉(zhuǎn)率、凈資產(chǎn)周轉(zhuǎn)率等22個指標(biāo)27年共594個觀測值。
3.2 實驗流程
3.3 數(shù)據(jù)預(yù)處理
3.3.1 標(biāo)準(zhǔn)化處理
為消除不同量綱對實驗的影響,首先對有量綱的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使所有數(shù)據(jù)處于同一數(shù)量級。對于原始數(shù)據(jù),若有無量綱,則作為測試數(shù)據(jù),若存在量綱(每股收益等),用式(3)對數(shù)據(jù)標(biāo)準(zhǔn)化處理,最終將所有數(shù)據(jù)都表示為比率這一數(shù)量級。將變換后的數(shù)據(jù)和無量綱的數(shù)據(jù)收集到同一個EXCEL表格中作為測試數(shù)據(jù)。
3.3.2 人為隨機(jī)缺失
人為隨機(jī)缺失幾個數(shù)據(jù)作為對照數(shù)據(jù),用于對比實驗結(jié)果與真實值的相對誤差(帶有*的數(shù)據(jù)表示本文隨機(jī)刪失的數(shù)據(jù))。
3.3.3 格蘭杰因果檢驗
對財務(wù)數(shù)據(jù)各項指標(biāo)進(jìn)行格蘭杰因果檢驗(為了方便在EVIEWS中操作,我們把各項指標(biāo)標(biāo)記為,分別代表每股收益(攤薄)、每股凈資產(chǎn)、每股資本公積金等)。進(jìn)行格蘭杰因果檢驗之前,首先應(yīng)對數(shù)據(jù)平穩(wěn)性進(jìn)行檢驗。在EVIEWS中,常用的單位根檢驗是Unit Root Test。若數(shù)據(jù)平穩(wěn),繼續(xù)進(jìn)行格蘭杰因果檢驗。若不平穩(wěn),則對數(shù)據(jù)進(jìn)行平穩(wěn)化處理。常見的平穩(wěn)化處理方法包括對數(shù)變換、差分、平滑法等。格蘭杰因果檢驗?zāi)J(rèn)滯后兩階進(jìn)行檢驗。選取含有缺失數(shù)據(jù)的指標(biāo)對格蘭杰因果檢驗結(jié)果進(jìn)行分析,選出含有格蘭杰因果關(guān)系的指標(biāo)。部分結(jié)果如表3、表4、表5所示。
3.3.4 VAR模型處理
根據(jù)軟件處理結(jié)果,對含有缺失數(shù)據(jù)的指標(biāo)序列進(jìn)行向量回歸,直接利用軟件得出數(shù)學(xué)表達(dá)式。
3.3.5 還原數(shù)據(jù),比較各種方法效果
將利用模型得出的預(yù)測結(jié)果帶入式(6),將標(biāo)準(zhǔn)化后數(shù)據(jù)還原為財務(wù)數(shù)據(jù),利用式(7)計算出相對誤差,并與隨機(jī)刪失的真實值進(jìn)行對比。
另通過SPSS軟件對各缺失值進(jìn)行均值插補(bǔ)、EM插補(bǔ)以及回歸插補(bǔ),作為對照組驗證本文方法的效果,通過表6對各結(jié)果進(jìn)行直觀比較。
4 結(jié)語
由以上實驗可以看出,本文所提出的缺失值插補(bǔ)算法在處理面板數(shù)據(jù)缺失插補(bǔ)時,效果相較于均值插補(bǔ)、EM插補(bǔ)、回歸插補(bǔ)、多重插補(bǔ)等插補(bǔ)方法精度更高。但如果財務(wù)指標(biāo)數(shù)據(jù)初始年份存在缺失的情況下,用此方法預(yù)測的效果不佳,因此本文方法適用于缺失數(shù)據(jù)未出現(xiàn)在初始位置的情況,適合順向插補(bǔ)。此法不適用于逆向插補(bǔ),即利用后面的數(shù)據(jù)對前面缺失數(shù)據(jù)進(jìn)行推測(因為時間序列數(shù)據(jù)前期數(shù)據(jù)可能會影響后期,但是后期的數(shù)據(jù)不會影響之前的數(shù)據(jù))。因而對于初始位置缺失的面板數(shù)據(jù)的填補(bǔ)方法仍有待研究。
參考文獻(xiàn)
馮麗紅.調(diào)查數(shù)據(jù)缺失值常用插補(bǔ)方法比較的實證分析[D].石家莊:河北經(jīng)貿(mào)大學(xué),2014.
Gibson, M. G.(1989), Statistical Analysis with Missing Data. Journal of the Royal Statistical Society: Series D (The Statistician), 38. doi:10.2307/2349029
Maren K. Olsen. Multiple Imputation for Multivariate Missing-data problem[OL], http:www.stat.psu.edu/~jls/misoftwa.html,1998-03-09.
金勇進(jìn).缺失數(shù)據(jù)的插補(bǔ)調(diào)整[J].數(shù)理統(tǒng)計與管理,2001(06).
袁中萸.多元線性回歸模型中缺失數(shù)據(jù)填補(bǔ)方法的效果比較[D].長沙:中南大學(xué),2008
程萬偉.時間序列缺失值插補(bǔ)方法研究[D].長沙:湖南大學(xué),2018.
潘傳快,祁春節(jié),李思璇.正態(tài)線形模型下缺失值的Bootstrap多重插補(bǔ)與比較[J].統(tǒng)計與決策,2017(10).
張曉琴,王敏.基于主成分分析的成分?jǐn)?shù)據(jù)缺失值插補(bǔ)法[J].應(yīng)用概率統(tǒng)計,2016,32(01).
張成萍.殘缺數(shù)據(jù)的填補(bǔ)[D].長沙:中南大學(xué),2006.
喬麗華,傅德印.缺失數(shù)據(jù)的多重插補(bǔ)方法[J].統(tǒng)計教育,2006(12).
劉艷玲.調(diào)查數(shù)據(jù)無回答的插補(bǔ)方法及模擬比較[D].天津:天津財經(jīng)大學(xué),2012.