基于XGBoost算法的上市公司財務(wù)報表舞弊識別研究

2022-08-09 06:16:10吳貞如

計算機(jī)時代 2022年8期

吳貞如

(南京審計大學(xué)信息工程學(xué)院，江蘇南京 211815)

0 引言

財務(wù)報表是反映公司財務(wù)狀況、經(jīng)營業(yè)績以及可持續(xù)發(fā)展情況的結(jié)構(gòu)性描述，是投資者、股東、債權(quán)人、公司員工以及其他利益相關(guān)者決策的主要的參考文件。目前，財務(wù)報表的真實性主要依賴于管理者的道德標(biāo)準(zhǔn)、財務(wù)報表的穩(wěn)健審計以及審計師出具的審計報告和意見。但是，大多數(shù)財務(wù)報表舞弊是在管理層意識到或同意的情況下實施的。近年來，國際資本市場的一體化和經(jīng)濟(jì)模式的復(fù)雜化給新興市場投資帶來巨大的商業(yè)挑戰(zhàn)，操縱財務(wù)報表以逃避本國稅收或?qū)①Y本轉(zhuǎn)移到海外的動機(jī)和機(jī)會持續(xù)增加。相關(guān)文獻(xiàn)研究表明，當(dāng)前財務(wù)報表舞弊現(xiàn)象十分嚴(yán)重：犯罪分子越來越擅于規(guī)避監(jiān)管機(jī)制，舞弊行為越來越復(fù)雜。此外，根據(jù)美國注冊舞弊審查員協(xié)會發(fā)布的《2020 年全球職務(wù)舞弊與濫用職權(quán)調(diào)查報告》數(shù)據(jù)，雖然財務(wù)報表舞弊的發(fā)生頻率低于資產(chǎn)挪用和腐敗等因素，但是造成的經(jīng)濟(jì)損失卻遠(yuǎn)高于其他舞弊，嚴(yán)重?fù)p害了資本市場的可持續(xù)發(fā)展。因此，識別財務(wù)報表舞弊行為，對維護(hù)投資者的利益和保障資本市場的可持續(xù)發(fā)展具有重要意義。

隨著計算機(jī)技術(shù)的高速發(fā)展，各領(lǐng)域進(jìn)入大數(shù)據(jù)和人工智能時代，機(jī)器學(xué)習(xí)因為能夠快速有效地處理大量數(shù)據(jù)被廣泛應(yīng)用?；跈C(jī)器學(xué)習(xí)算法構(gòu)建財務(wù)報表舞弊行為識別模型能夠改善傳統(tǒng)財務(wù)報表舞弊識別方法過度依賴人力的不足。因此，本研究基于機(jī)器學(xué)習(xí)中的XGBoost 算法構(gòu)建財務(wù)報表舞弊識別模型，提高財務(wù)報表使用者對潛在舞弊的意識，識別財務(wù)報表舞弊行為，減少因財務(wù)報表舞弊行為造成的損失，維護(hù)資本市場的可持續(xù)發(fā)展。

1 研究現(xiàn)狀

Hamal和Senvar認(rèn)為財務(wù)報表舞弊識別需要復(fù)雜的分析工具和技術(shù)，而不是審計師所采用的傳統(tǒng)方法。財務(wù)報表舞弊識別是一個典型二分類問題。作為人工智能的重要分支，機(jī)器學(xué)習(xí)是解決分類問題最前沿的方法和技術(shù)。Gupta 和Mehta通過實驗證明使用機(jī)器學(xué)習(xí)算法構(gòu)建的財務(wù)報表舞弊識別模型比傳統(tǒng)的方法具有更高的準(zhǔn)確性。相比于傳統(tǒng)的統(tǒng)計方法，基于機(jī)器學(xué)習(xí)算法不但可以處理大量數(shù)據(jù)進(jìn)行更準(zhǔn)確的分類和預(yù)測，而且不需要像傳統(tǒng)的統(tǒng)計方法進(jìn)行假設(shè)，可以更有效地處理非線性問題。

近年來，諸多學(xué)者基于機(jī)器學(xué)習(xí)方法構(gòu)建財務(wù)報表舞弊識別模型，并從不同的角度，使用不同的方法進(jìn)行研究。Chyan-Long分別使用人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)篩選出重要的財務(wù)變量和非財務(wù)變量，然后使用分類回歸樹、卡方自動交互檢測器、C5.0 和快速無偏高效統(tǒng)計樹等四種決策樹進(jìn)行分類，通過實驗證明用人工神經(jīng)網(wǎng)絡(luò)篩選并用分類回歸樹處理變量構(gòu)建的財務(wù)報表舞弊識別模型準(zhǔn)確率最高。Yao等人分別采用逐步回歸和主成分分析降低變量維度，使用支持向量機(jī)、分類與回歸樹、反向傳播神經(jīng)網(wǎng)絡(luò)、邏輯回歸、貝葉斯分類器六種機(jī)器學(xué)習(xí)方法識別財務(wù)報表舞弊行為，通過實驗表明基于逐步回歸和支持向量機(jī)融合方法構(gòu)建財務(wù)報表舞弊識別模型的準(zhǔn)確率最高。黃志剛等人使用邏輯回歸前向步進(jìn)的方法篩選出敏感指標(biāo)并構(gòu)建整體舞弊敏感指標(biāo)集輸入到樸素貝葉斯、隨機(jī)森林、K 鄰近算法、支持向量機(jī)等機(jī)器學(xué)習(xí)算法中，并發(fā)現(xiàn)隨機(jī)森林、支持向量機(jī)在識別上市公司財務(wù)報表舞弊行為的準(zhǔn)確率都超過了80%。

2 研究方法

2.1 數(shù)據(jù)采集

本研究使用的數(shù)據(jù)來源于中國股票市場與會計研究（CSMAR）數(shù)據(jù)庫中的2011-2020年深滬A股上市公司年度財務(wù)報表，其中選取了283個舞弊財務(wù)報表，共涉及126 家上市公司。為控制外部環(huán)境和行業(yè)因素，本研究在選取非舞弊樣本時參照兩個準(zhǔn)則：一是舞弊樣本數(shù)據(jù)和非舞弊樣本數(shù)據(jù)涉及的上市公司屬于同一個行業(yè)，二是舞弊樣本數(shù)據(jù)和非舞弊樣本數(shù)據(jù)來自同一個年度。按照這兩個準(zhǔn)則，并以1:2 的匹配比例選取252 家上市公司共566 個非舞弊財務(wù)報表。最終，本研究選取849 個財務(wù)報表作為財務(wù)報表舞弊識別模型的檢測樣本，共涉及378 家上市公司。樣本行業(yè)類型匯總和樣本年份分布情況如表1和圖1所示。

表1 樣本行業(yè)類型匯總

圖1 樣本年份分布情況

從表1 可以看出，制造業(yè)上市公司涉及財務(wù)報表舞弊最多，占比超過50%。從圖1 可以看出，2015～2017年期間，財務(wù)報表舞弊發(fā)生的頻率偏高。

2.2 變量選取

2.2.1 變量初選

為提高模型預(yù)測的準(zhǔn)確率，選擇合適的財務(wù)舞弊識別指標(biāo)十分關(guān)鍵。因此，在現(xiàn)有的研究基礎(chǔ)上，基于五個維度，即償債能力、經(jīng)營能力、盈利能力、發(fā)展能力和治理結(jié)構(gòu)，本研究初步選取26個用于衡量財務(wù)報表舞弊的指標(biāo)，分別由22 個財務(wù)變量和4 個非財務(wù)變量組成，如表2所示。

表2 初選變量

2.2.2 變量篩選模型

信息值（IV）可以評價變量對目標(biāo)影響程度的指標(biāo)，即衡量變量的預(yù)測能力。信息值的計算是基于證據(jù)權(quán)重（WOE），一種通過分組處理原始變量的編碼形式。對于第i組，證據(jù)權(quán)重的計算如下。

其中(x|X)是分組后本組財報舞弊樣本數(shù)占總財報舞弊樣本數(shù)的比例；(y|Y)是分組后本組財報非舞弊樣本數(shù)占總財報非舞弊樣本數(shù)的比例。因此，證據(jù)權(quán)重越大，財報舞弊樣本數(shù)量越多。信息值是通過證據(jù)權(quán)重的加權(quán)求和計算得來的，其計算如下。

由公式⑵可知，信息值為非負(fù)數(shù)。變量的信息值越大，表明該變量對目標(biāo)分類的預(yù)測能力越強(qiáng)。因此，本研究引入信息值構(gòu)建財務(wù)舞弊指標(biāo)篩選模型，各個初選指標(biāo)的信息值如圖2所示。

圖2 財務(wù)舞弊識別初選指標(biāo)信息值

信息值大于0.03 為具有預(yù)測能力的指標(biāo)。因此，本研究最終選取了21個指標(biāo)：流動比率（X01）、速動比率（X02）、存貨周轉(zhuǎn)率（X05）、應(yīng)付賬款周轉(zhuǎn)率（X06）、應(yīng)收賬款周轉(zhuǎn)率（X07）、應(yīng)收賬款與收入比（X08）、總資產(chǎn)周轉(zhuǎn)率（X09）、存貨與收入比（X10）、股東權(quán)益周轉(zhuǎn)率（X11）、資產(chǎn)報酬率（X12）、投入資本回報率（X13）、總資產(chǎn)凈利潤率（X15）、長期資本收益率（X17）、總資產(chǎn)增長率（X18）、營業(yè)總收入增長率（X20）、營業(yè)總成本增長率（X21）、每股凈資產(chǎn)增長率（X22）、獨(dú)立董事所占比例（X23）、董事會持股比例（X24）、監(jiān)事會持股比例（X25）、十大股東持股比例（X26）。

2.3 XGBoost算法

XGBoost 算法基于梯度提升樹算法，在目標(biāo)函數(shù)中增添了正則化項，可以降低模型的復(fù)雜度，避免過擬合，其目標(biāo)函數(shù)如公式⑶和公式⑷所示：

XGBoost算法在目標(biāo)函數(shù)的求解過程中進(jìn)行迭代操作以及二階泰勒展開，如公式⑸所示，提高了求解速度和模型的訓(xùn)練速度。

XGBoost 算法提前對特征值進(jìn)行排序，然后保存為塊結(jié)構(gòu)，所以能夠最大化地確定分割點(diǎn)的標(biāo)準(zhǔn)。此外，為滿足數(shù)據(jù)處理后的特征值是稀疏的情形，XGBoost 算法對缺失值設(shè)置一個確定的引流，進(jìn)而大幅度地提高算法的效率。

2.4 模型構(gòu)建

本次研究共抽樣849 個數(shù)據(jù)樣本，涉及378 家上市公司，并通過指標(biāo)篩選模型確定了21 個指標(biāo)，其中包括17 個財務(wù)變量和4 個非財務(wù)變量。經(jīng)過數(shù)據(jù)歸一化，使用五折交叉驗證方法將樣本數(shù)據(jù)分為訓(xùn)練集和測試集，并采用XGBoost 算法作為分類器構(gòu)建財務(wù)報表舞弊識別模型。研究設(shè)計流程如圖3所示。

圖3 研究設(shè)計流程

3 實驗與分析

3.1 模型參數(shù)設(shè)置

利用網(wǎng)格搜索對XGBoost設(shè)置參數(shù)如表3所示。

表3 XGBoost參數(shù)設(shè)置

3.2 實驗結(jié)果

模型在訓(xùn)練過程中會產(chǎn)生樣本記憶，如果訓(xùn)練集用于測試會導(dǎo)致測試結(jié)果偏高，影響模型的性能。因此，本研究采用五折交叉驗證的模型驗證方法，以提高模型的泛化能力。

本研究使用邏輯回歸、支持向量機(jī)、隨機(jī)森林三種機(jī)器學(xué)習(xí)算法與XGBoost 算法作為財務(wù)報表舞弊識別分類器進(jìn)行了對比，各機(jī)器學(xué)習(xí)算法分類結(jié)果如表4所示。

表4 各機(jī)器學(xué)習(xí)算法分類結(jié)果評價指標(biāo)對比

綜合考慮各個評價指標(biāo)可知，基于XGBoost 算法構(gòu)建的財務(wù)報表舞弊識別模型的預(yù)測效果是最好的。

3.3 實驗結(jié)果分析

集成學(xué)習(xí)將多個個體學(xué)習(xí)器的方差和偏差結(jié)合起來，是一個更全面的強(qiáng)監(jiān)督學(xué)習(xí)算法，能夠獲得更好的性能。所以基于集成學(xué)習(xí)算法中的隨機(jī)森林、XGBoost算法構(gòu)建的財務(wù)報表識別模型的性能顯著高于基于邏輯回歸、支持向量機(jī)等個體學(xué)習(xí)器構(gòu)建的模型。隨機(jī)森林的每個決策樹隨機(jī)選擇特征子集，而XGBoost 算法使用貪心算法確定最優(yōu)特征子集，并串行地生成一系列個體學(xué)習(xí)器，然后使用預(yù)測值與真實值之差作為目標(biāo)函數(shù)來優(yōu)化參數(shù)，最終預(yù)測值是個體學(xué)習(xí)器預(yù)測值之和。所以，對于不平衡數(shù)據(jù)集，基于XGBoost算法構(gòu)建的預(yù)測模型分類效果更好。

4 結(jié)論

本文得出以下結(jié)論：①比較多個機(jī)器學(xué)習(xí)算法構(gòu)建的預(yù)測模型，通過實驗證明基于集成學(xué)習(xí)算法構(gòu)建的財報舞弊識別模型優(yōu)于個體學(xué)習(xí)器。②比較同屬于集成學(xué)習(xí)算法的隨機(jī)森林算法和XGBoost算法，通過實驗證明基于XGBoost 算法構(gòu)建的財報舞弊識別模型的預(yù)測能力更佳。