吳貞如
(南京審計大學(xué)信息工程學(xué)院,江蘇 南京 211815)
財務(wù)報表是反映公司財務(wù)狀況、經(jīng)營業(yè)績以及可持續(xù)發(fā)展情況的結(jié)構(gòu)性描述,是投資者、股東、債權(quán)人、公司員工以及其他利益相關(guān)者決策的主要的參考文件。目前,財務(wù)報表的真實性主要依賴于管理者的道德標(biāo)準(zhǔn)、財務(wù)報表的穩(wěn)健審計以及審計師出具的審計報告和意見。但是,大多數(shù)財務(wù)報表舞弊是在管理層意識到或同意的情況下實施的。近年來,國際資本市場的一體化和經(jīng)濟(jì)模式的復(fù)雜化給新興市場投資帶來巨大的商業(yè)挑戰(zhàn),操縱財務(wù)報表以逃避本國稅收或?qū)①Y本轉(zhuǎn)移到海外的動機(jī)和機(jī)會持續(xù)增加。相關(guān)文獻(xiàn)研究表明,當(dāng)前財務(wù)報表舞弊現(xiàn)象十分嚴(yán)重:犯罪分子越來越擅于規(guī)避監(jiān)管機(jī)制,舞弊行為越來越復(fù)雜。此外,根據(jù)美國注冊舞弊審查員協(xié)會發(fā)布的《2020 年全球職務(wù)舞弊與濫用職權(quán)調(diào)查報告》數(shù)據(jù),雖然財務(wù)報表舞弊的發(fā)生頻率低于資產(chǎn)挪用和腐敗等因素,但是造成的經(jīng)濟(jì)損失卻遠(yuǎn)高于其他舞弊,嚴(yán)重?fù)p害了資本市場的可持續(xù)發(fā)展。因此,識別財務(wù)報表舞弊行為,對維護(hù)投資者的利益和保障資本市場的可持續(xù)發(fā)展具有重要意義。
隨著計算機(jī)技術(shù)的高速發(fā)展,各領(lǐng)域進(jìn)入大數(shù)據(jù)和人工智能時代,機(jī)器學(xué)習(xí)因為能夠快速有效地處理大量數(shù)據(jù)被廣泛應(yīng)用?;跈C(jī)器學(xué)習(xí)算法構(gòu)建財務(wù)報表舞弊行為識別模型能夠改善傳統(tǒng)財務(wù)報表舞弊識別方法過度依賴人力的不足。因此,本研究基于機(jī)器學(xué)習(xí)中的XGBoost 算法構(gòu)建財務(wù)報表舞弊識別模型,提高財務(wù)報表使用者對潛在舞弊的意識,識別財務(wù)報表舞弊行為,減少因財務(wù)報表舞弊行為造成的損失,維護(hù)資本市場的可持續(xù)發(fā)展。
Hamal和Senvar認(rèn)為財務(wù)報表舞弊識別需要復(fù)雜的分析工具和技術(shù),而不是審計師所采用的傳統(tǒng)方法。財務(wù)報表舞弊識別是一個典型二分類問題。作為人工智能的重要分支,機(jī)器學(xué)習(xí)是解決分類問題最前沿的方法和技術(shù)。Gupta 和Mehta通過實驗證明使用機(jī)器學(xué)習(xí)算法構(gòu)建的財務(wù)報表舞弊識別模型比傳統(tǒng)的方法具有更高的準(zhǔn)確性。相比于傳統(tǒng)的統(tǒng)計方法,基于機(jī)器學(xué)習(xí)算法不但可以處理大量數(shù)據(jù)進(jìn)行更準(zhǔn)確的分類和預(yù)測,而且不需要像傳統(tǒng)的統(tǒng)計方法進(jìn)行假設(shè),可以更有效地處理非線性問題。
近年來,諸多學(xué)者基于機(jī)器學(xué)習(xí)方法構(gòu)建財務(wù)報表舞弊識別模型,并從不同的角度,使用不同的方法進(jìn)行研究。Chyan-Long分別使用人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)篩選出重要的財務(wù)變量和非財務(wù)變量,然后使用分類回歸樹、卡方自動交互檢測器、C5.0 和快速無偏高效統(tǒng)計樹等四種決策樹進(jìn)行分類,通過實驗證明用人工神經(jīng)網(wǎng)絡(luò)篩選并用分類回歸樹處理變量構(gòu)建的財務(wù)報表舞弊識別模型準(zhǔn)確率最高。Yao等人分別采用逐步回歸和主成分分析降低變量維度,使用支持向量機(jī)、分類與回歸樹、反向傳播神經(jīng)網(wǎng)絡(luò)、邏輯回歸、貝葉斯分類器六種機(jī)器學(xué)習(xí)方法識別財務(wù)報表舞弊行為,通過實驗表明基于逐步回歸和支持向量機(jī)融合方法構(gòu)建財務(wù)報表舞弊識別模型的準(zhǔn)確率最高。黃志剛等人使用邏輯回歸前向步進(jìn)的方法篩選出敏感指標(biāo)并構(gòu)建整體舞弊敏感指標(biāo)集輸入到樸素貝葉斯、隨機(jī)森林、K 鄰近算法、支持向量機(jī)等機(jī)器學(xué)習(xí)算法中,并發(fā)現(xiàn)隨機(jī)森林、支持向量機(jī)在識別上市公司財務(wù)報表舞弊行為的準(zhǔn)確率都超過了80%。
本研究使用的數(shù)據(jù)來源于中國股票市場與會計研究(CSMAR)數(shù)據(jù)庫中的2011-2020年深滬A股上市公司年度財務(wù)報表,其中選取了283個舞弊財務(wù)報表,共涉及126 家上市公司。為控制外部環(huán)境和行業(yè)因素,本研究在選取非舞弊樣本時參照兩個準(zhǔn)則:一是舞弊樣本數(shù)據(jù)和非舞弊樣本數(shù)據(jù)涉及的上市公司屬于同一個行業(yè),二是舞弊樣本數(shù)據(jù)和非舞弊樣本數(shù)據(jù)來自同一個年度。按照這兩個準(zhǔn)則,并以1:2 的匹配比例選取252 家上市公司共566 個非舞弊財務(wù)報表。最終,本研究選取849 個財務(wù)報表作為財務(wù)報表舞弊識別模型的檢測樣本,共涉及378 家上市公司。樣本行業(yè)類型匯總和樣本年份分布情況如表1和圖1所示。
表1 樣本行業(yè)類型匯總
圖1 樣本年份分布情況
從表1 可以看出,制造業(yè)上市公司涉及財務(wù)報表舞弊最多,占比超過50%。從圖1 可以看出,2015~2017年期間,財務(wù)報表舞弊發(fā)生的頻率偏高。
2.2.1 變量初選
為提高模型預(yù)測的準(zhǔn)確率,選擇合適的財務(wù)舞弊識別指標(biāo)十分關(guān)鍵。因此,在現(xiàn)有的研究基礎(chǔ)上,基于五個維度,即償債能力、經(jīng)營能力、盈利能力、發(fā)展能力和治理結(jié)構(gòu),本研究初步選取26個用于衡量財務(wù)報表舞弊的指標(biāo),分別由22 個財務(wù)變量和4 個非財務(wù)變量組成,如表2所示。
表2 初選變量
2.2.2 變量篩選模型
信息值(IV)可以評價變量對目標(biāo)影響程度的指標(biāo),即衡量變量的預(yù)測能力。信息值的計算是基于證據(jù)權(quán)重(WOE),一種通過分組處理原始變量的編碼形式。對于第i組,證據(jù)權(quán)重的計算如下。
其中(x|X)是分組后本組財報舞弊樣本數(shù)占總財報舞弊樣本數(shù)的比例;(y|Y)是分組后本組財報非舞弊樣本數(shù)占總財報非舞弊樣本數(shù)的比例。因此,證據(jù)權(quán)重越大,財報舞弊樣本數(shù)量越多。信息值是通過證據(jù)權(quán)重的加權(quán)求和計算得來的,其計算如下。
由公式⑵可知,信息值為非負(fù)數(shù)。變量的信息值越大,表明該變量對目標(biāo)分類的預(yù)測能力越強(qiáng)。因此,本研究引入信息值構(gòu)建財務(wù)舞弊指標(biāo)篩選模型,各個初選指標(biāo)的信息值如圖2所示。
圖2 財務(wù)舞弊識別初選指標(biāo)信息值
信息值大于0.03 為具有預(yù)測能力的指標(biāo)。因此,本研究最終選取了21個指標(biāo):流動比率(X01)、速動比率(X02)、存貨周轉(zhuǎn)率(X05)、應(yīng)付賬款周轉(zhuǎn)率(X06)、應(yīng)收賬款周轉(zhuǎn)率(X07)、應(yīng)收賬款與收入比(X08)、總資產(chǎn)周轉(zhuǎn)率(X09)、存貨與收入比(X10)、股東權(quán)益周轉(zhuǎn)率(X11)、資產(chǎn)報酬率(X12)、投入資本回報率(X13)、總資產(chǎn)凈利潤率(X15)、長期資本收益率(X17)、總資產(chǎn)增長率(X18)、營業(yè)總收入增長率(X20)、營業(yè)總成本增長率(X21)、每股凈資產(chǎn)增長率(X22)、獨(dú)立董事所占比例(X23)、董事會持股比例(X24)、監(jiān)事會持股比例(X25)、十大股東持股比例(X26)。
XGBoost 算法基于梯度提升樹算法,在目標(biāo)函數(shù)中增添了正則化項,可以降低模型的復(fù)雜度,避免過擬合,其目標(biāo)函數(shù)如公式⑶和公式⑷所示:
XGBoost算法在目標(biāo)函數(shù)的求解過程中進(jìn)行迭代操作以及二階泰勒展開,如公式⑸所示,提高了求解速度和模型的訓(xùn)練速度。
XGBoost 算法提前對特征值進(jìn)行排序,然后保存為塊結(jié)構(gòu),所以能夠最大化地確定分割點(diǎn)的標(biāo)準(zhǔn)。此外,為滿足數(shù)據(jù)處理后的特征值是稀疏的情形,XGBoost 算法對缺失值設(shè)置一個確定的引流,進(jìn)而大幅度地提高算法的效率。
本次研究共抽樣849 個數(shù)據(jù)樣本,涉及378 家上市公司,并通過指標(biāo)篩選模型確定了21 個指標(biāo),其中包括17 個財務(wù)變量和4 個非財務(wù)變量。經(jīng)過數(shù)據(jù)歸一化,使用五折交叉驗證方法將樣本數(shù)據(jù)分為訓(xùn)練集和測試集,并采用XGBoost 算法作為分類器構(gòu)建財務(wù)報表舞弊識別模型。研究設(shè)計流程如圖3所示。
圖3 研究設(shè)計流程
利用網(wǎng)格搜索對XGBoost設(shè)置參數(shù)如表3所示。
表3 XGBoost參數(shù)設(shè)置
模型在訓(xùn)練過程中會產(chǎn)生樣本記憶,如果訓(xùn)練集用于測試會導(dǎo)致測試結(jié)果偏高,影響模型的性能。因此,本研究采用五折交叉驗證的模型驗證方法,以提高模型的泛化能力。
本研究使用邏輯回歸、支持向量機(jī)、隨機(jī)森林三種機(jī)器學(xué)習(xí)算法與XGBoost 算法作為財務(wù)報表舞弊識別分類器進(jìn)行了對比,各機(jī)器學(xué)習(xí)算法分類結(jié)果如表4所示。
表4 各機(jī)器學(xué)習(xí)算法分類結(jié)果評價指標(biāo)對比
綜合考慮各個評價指標(biāo)可知,基于XGBoost 算法構(gòu)建的財務(wù)報表舞弊識別模型的預(yù)測效果是最好的。
集成學(xué)習(xí)將多個個體學(xué)習(xí)器的方差和偏差結(jié)合起來,是一個更全面的強(qiáng)監(jiān)督學(xué)習(xí)算法,能夠獲得更好的性能。所以基于集成學(xué)習(xí)算法中的隨機(jī)森林、XGBoost算法構(gòu)建的財務(wù)報表識別模型的性能顯著高于基于邏輯回歸、支持向量機(jī)等個體學(xué)習(xí)器構(gòu)建的模型。隨機(jī)森林的每個決策樹隨機(jī)選擇特征子集,而XGBoost 算法使用貪心算法確定最優(yōu)特征子集,并串行地生成一系列個體學(xué)習(xí)器,然后使用預(yù)測值與真實值之差作為目標(biāo)函數(shù)來優(yōu)化參數(shù),最終預(yù)測值是個體學(xué)習(xí)器預(yù)測值之和。所以,對于不平衡數(shù)據(jù)集,基于XGBoost算法構(gòu)建的預(yù)測模型分類效果更好。
本文得出以下結(jié)論:①比較多個機(jī)器學(xué)習(xí)算法構(gòu)建的預(yù)測模型,通過實驗證明基于集成學(xué)習(xí)算法構(gòu)建的財報舞弊識別模型優(yōu)于個體學(xué)習(xí)器。②比較同屬于集成學(xué)習(xí)算法的隨機(jī)森林算法和XGBoost算法,通過實驗證明基于XGBoost 算法構(gòu)建的財報舞弊識別模型的預(yù)測能力更佳。