毛金鳳 石紅霞 崔新晨 蔡毓暢 宋美
摘要:該文提出了一種集成學(xué)習Stacking算法用于評估涉嫌欺詐公司的審計風險。采用Spearman相關(guān)系數(shù)和遞歸特征消除兩種特征選擇方法的加權(quán),從原始的9個特征中篩選出6個最佳分類特征。利用Stacking方法集成5種異質(zhì)分類器(決策樹、K近鄰、梯度提升樹、支持向量機、神經(jīng)網(wǎng)絡(luò)),用于克服識別準確度不高且易出現(xiàn)過擬合的問題。結(jié)果表明,本文提出的算法比單一分類器在準確率上具有較大提升,在分類是否涉嫌欺詐公司方面準確率可以達到99.4%、精確率98.8%、召回率98.8%、F1分數(shù)99.1%、AUC值99.6%。
關(guān)鍵詞: 欺詐;審計風險;Stacking;機器學(xué)習
中圖分類號:TP181? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)04-0015-04
傳統(tǒng)審計工作一般由人工完成,在事前、事中和事后都需要分別進行審計分析,如圖1。但越來越多公司涉嫌欺詐情況出現(xiàn),這就要求審計結(jié)果必須是高度準確有效的,大數(shù)據(jù)的興起將有助于計算機審計工作的發(fā)展。
1 國內(nèi)外研究現(xiàn)狀
依托大數(shù)據(jù)、云計算、人工智能等現(xiàn)代技術(shù),審計模式開始革新。2014年秦榮生[1]提到大數(shù)據(jù)、云計算為現(xiàn)代審計提供了新的技術(shù)方法。劉杰[2]等人運用人工神經(jīng)網(wǎng)絡(luò)開展輔助分析性審核和風險評估等審計工作。曹杰[3]為機器學(xué)習特征選擇提供了技術(shù)支持。胡俊俊[4]在適當?shù)沫h(huán)節(jié)引進其他先進技術(shù),指導(dǎo)計算機輔助審計高效實施。
基于機器學(xué)習、數(shù)據(jù)挖掘等技術(shù)的計算機輔助審計有多種方法,具有較大的成效。王忠[5]提出了一種應(yīng)用模糊神經(jīng)網(wǎng)絡(luò)與遺傳算法相結(jié)合的方法,解決在海量數(shù)據(jù)條件下的審計數(shù)據(jù)的總體。張軼[6]利用神經(jīng)網(wǎng)絡(luò)和RSVM模型對上市公司財務(wù)報表的真實性判別進行實例驗證。王向陽[7]等人利用樸素貝葉斯和邏輯斯蒂研究非現(xiàn)場審計模型分別達到83.18%和93.14%,為機器學(xué)習算法應(yīng)用審計提供了思路。王秋菲[8]等人分析了影響審計風險評估的關(guān)鍵因素,并采用Logistic回歸法進行實證檢驗,正確率總體達到93.6%,建議建立以審計大數(shù)據(jù)為中心的數(shù)據(jù)云平臺。Hooda[9]等人采用粒子群優(yōu)化(PSO)算法選取特征,比較10種分類模型得出Bayes網(wǎng)和J48對可疑企業(yè)的分類準確率達93%,采用多準則決策方法更好地評估了模型性能,隨后改進的Ensemble模型[10]在性能上有了更大的提高。構(gòu)建大數(shù)據(jù)審計系統(tǒng)成為當前審計行業(yè)的熱點,基于大數(shù)據(jù)的審計模型研究是系統(tǒng)能否準確判斷的關(guān)鍵。
2 數(shù)據(jù)采集與預(yù)處理
2.1數(shù)據(jù)的采集
數(shù)據(jù)來自加州大學(xué)歐文分校UCI機器學(xué)習資源庫( http://archive.ics.uci.edu/ml/index.php,如表1)。本文主要任務(wù)是以審計師已標記標簽的公司欺詐風險數(shù)據(jù)作為研究的源數(shù)據(jù),探索新的分類算法及提升風險識別的準確率。
通過對審計的深度認識,對文獻進一步分析,筆者采用Hooda等人[9]公開的審計數(shù)據(jù)集,對District、PARA_A、Money_value等9個特征進行研究。具體有關(guān)數(shù)據(jù)信息詳見數(shù)據(jù)表trial.csv,其中各參數(shù)解釋如表1:
其中,固有風險是指由于交易中存在的差異而產(chǎn)生的風險??刂骑L險則是主要偏重設(shè)計和執(zhí)行相關(guān)的內(nèi)部控制之后,控制未能防止或糾正錯報帶來的風險。還有一類檢測風險,是指公司中存在的差異風險,這些差異甚至沒有被審計程序發(fā)現(xiàn)。在人工審計中,審計風險是固有風險、控制風險和檢測風險的乘積。
接下來,筆者對數(shù)據(jù)集中的審計結(jié)果進行分析。Risk為已經(jīng)整理好的對于是否涉嫌欺詐的776家公司的審計結(jié)果。不涉嫌欺詐公司與涉嫌欺詐公司的比例接近4:6。
2.2審計因素的特征提取
特征工程在機器學(xué)習分類問題中起著至關(guān)重要的作用,高靈敏度的特征可以幫助算法顯著提高分類性能。通過檢查各個領(lǐng)域的許多風險因素,例如環(huán)境狀況報告、審計部門、信譽摘要等,評估其對預(yù)測欺詐公司的重要性,筆者試圖尋找提取特征的方法,以提高預(yù)測準確率。最終運用封裝式、過濾式兩類特征選擇方法,確定通過Spearman相關(guān)系數(shù)和遞歸特征消除相結(jié)合的兩種特征選擇方式對特征重要性排序,具體過程如圖2。
2.2.1 兩種特征選擇
Spearman相關(guān)系數(shù)計算
它利用單調(diào)方程評價兩個統(tǒng)計變量的相關(guān)性,對于樣本容量為[n]的樣本,[n]個原始數(shù)據(jù)被轉(zhuǎn)換成等級數(shù)據(jù)。通過Spearman相關(guān)系數(shù),得到的重要程度排序為TOTAL> PARA_A>Numbers> District> Money_value> Loss> PARA_B > History>Sector_score。
遞歸特征消除
遞歸特征消除[11]是一種尋找最優(yōu)特征的貪心算法,在本文中,利用遞歸特征消除得出各相關(guān)因素的重要程度為:PARA_A>Money_value>TOTAL>District>PARA_B>Numbers>Loss>History>Sector_score。
其中,PARA_A>Money_value表示PARA_A比Money_value更重要。自變量重要程度說明影響審計最重要的三個因素分別是PARA_A,Money_value及TOTAL,在審計過程中要注意檢查計劃支出和匯總報告,減少錯誤金額及差異數(shù)。
RFE自身的特性,使筆者可以比較好地進行手動特征選擇,但也存在原模型在去除特征后的數(shù)據(jù)集上的性能表現(xiàn)差于原數(shù)據(jù)集,因此特征的取舍要謹慎,可以綜合其他的選取結(jié)果。
2.2.2 特征重要性排序結(jié)果
為了公平兼顧兩種模型結(jié)果,筆者設(shè)每種模型的權(quán)重為[12],最終選取前六個重要特征PARA_A(X1)、TOTAL(X3)、Money_value(X4)、District(X9)、Numbers(X5)、PARA_B(X2)。
3 基于Stacking集成模型訓(xùn)練
3.1 Stacking集成分類模型
Stacking[12]是一種分層模型集成框架,第一層由多個基學(xué)習器組成,其輸入為原始訓(xùn)練集,第二層則是以第一層基學(xué)習器的輸出作為訓(xùn)練集進行再訓(xùn)練,從而得到完整的Stacking模型[13]。輸入的數(shù)據(jù)要劃分為訓(xùn)練集和測試集,輸入初級分類器(model1,model2等),然后將經(jīng)交叉驗證,輸出用于高層分類器訓(xùn)練的訓(xùn)練集1,用于高層分類器測試的測試集1,以此類推,其他初級分類器,會產(chǎn)生訓(xùn)練集2,測試集2,直到訓(xùn)練集n,測試集n,將所有初級分類器經(jīng)過交叉驗證的結(jié)果進行矩陣堆疊,輸入次級分類器進行訓(xùn)練,得到分類結(jié)果(圖3)。
3.2模型訓(xùn)練
模型應(yīng)用Stacking算法(見圖3),用篩選出來的6個重要特征的審計數(shù)據(jù)訓(xùn)練模型。初級分類器為DT、KNN等5種參數(shù)[14-16]見表2,次級分類器為Logistic Regression[17-18]。為評估模型泛化能力,考慮到泛化誤差,從宏觀上給出模型的優(yōu)劣評分,但不具有實際參考價值,同時為充分利用數(shù)據(jù),采用五折交叉驗證用于模型調(diào)優(yōu)。
4 結(jié)果
4.1 Stacking模型與基分類器模型
檢驗5個基分類器和Stacking分類器的性能,經(jīng)過五折交叉驗證,各分類器在欺詐公司檢測上,性能指標評估結(jié)果如表3所示。
5 討論
5.1選擇重要特征提升模型性能
使用Spearman相關(guān)系數(shù)、遞歸特征消除篩選得到的6個特征(District、 PARA_A、Money_value、TOTAL、PARA_B、numbers),與審計中影響固有風險和控制風險中的主要因素(被審計單位的外部環(huán)境、被審計經(jīng)歷、容易產(chǎn)生錯誤和舞弊的賬戶或交易)相近,可見方法是合理的,這使更重要的特征可以被利用,精簡模型。與9個特征下模型性能對比,通過圖4,筆者發(fā)現(xiàn)在AREStacking在Accuracy、Precision、Recall、F1分數(shù)這幾個指標上明顯高于Stacking_9,兩者在AUC值上相近,因此綜合考量經(jīng)過特征選擇后,AREStacking模型更可靠。
在特征選擇對模型性能的問題上,筆者做了進一步研究,對比應(yīng)用6個特征和9個特征的基分類器性能。結(jié)果表明,KNN、SVM模型性能提高,而DT變化不大,GBDT、NN反而下降,可見特征選擇對于模型性能[19],分類算法不同,提升效果不同。同時,還與數(shù)據(jù)集有關(guān),特征冗雜時,刪除部分無關(guān)特征后,減少了計算復(fù)雜度,提高泛化能力,但可能會使準確率下降,故在選取特征時應(yīng)結(jié)合多種合適的方法。
5.2 Stacking模型優(yōu)越性
Stacking是將個體學(xué)習器組合在一起形成的集成學(xué)習,提高泛化性,提供更好的預(yù)測效果。在審計中,AREStacking比王向陽[6]等人的樸素貝葉斯和邏輯斯蒂研究非現(xiàn)場審計模型分別高出15.62%和5.66%,與王秋菲[8]等人的Logistic回歸法相比,正確率總體高出5.2%,可見其在性能上高于目前的已有的單一分類器,是建立審計大數(shù)據(jù)平臺中的風險評估程序的有效方法。通過表3,AREStacking模型準確率98.8%,召回率98.8%,精準率99.4%,F(xiàn)1分數(shù)99.1%,AUC值99.6%,盡管KNN、SVM在部分指標上與其持平,但其整體性能高于其基分類器。
5.3 AREStacking模型與Hooda模型
基于Hooda等人建立的審計欺詐風險模型[9],我們將其數(shù)據(jù)集進行特征選取和算法改進后,得到了AREStacking模型,將它與Hooda的BayesianNetwork[9]、Ensemble[10]做比較(Ensemble是BayesianNetwork的改進方法)。圖5表明Stacking模型在準確率、精準率、召回率、F1分數(shù)、AUC值更高,在評估審計公司詐騙風險問題上結(jié)果更可靠,而且計算速度,魯棒性,可擴展性更強。
此外,本文提出的AREStacking集成學(xué)習模型具有良好的自適應(yīng)性,讀者可以使用本模型及代碼訓(xùn)練自己的數(shù)據(jù),建立專屬于自己數(shù)據(jù)的審計風險評估模型,從而為審計工作提供精準服務(wù)。另外,由于真實樣本數(shù)據(jù)采集困難,在基于僅有的樣本數(shù)據(jù)訓(xùn)練的AREStacking模型的穩(wěn)健性還存在一定缺陷,這需要后續(xù)研究繼續(xù)增加樣本量訓(xùn)練使Stacking模型更加穩(wěn)健。
6 結(jié)束語
本文以印度審計長(一家印度審計公司)為例,探索了機器學(xué)習方法在審計規(guī)劃中評估被審計部門欺詐風險的適用性。采用了來自14個不同部門的776家公司的數(shù)據(jù),對Hooda等人建立的涉嫌欺詐模型進行改進。在特征選擇上,提出了Spearman相關(guān)系數(shù)、遞歸特征消除相結(jié)合的兩種特征選擇方式,提取了6個重要特征。在分類器上,實現(xiàn)了SVM、NN、GBDT、DT、KNN,5個基分類器,通過調(diào)參,獲得了5個最優(yōu)基模型后,再利用Stacking集成5個最優(yōu)基分類器,得到了Stacking欺詐風險評估模型。實驗發(fā)現(xiàn),對Stacking分類器而言,相較9個特征,6個重要特征提高了模型的綜合判別能力;通過對AREStacking分類器、單一分類器、Hooda模型的性能進行評估,得知AREStacking分類器綜合評價更高。最后選擇使用6個特征的AREStacking分類器在審計涉嫌欺詐公司方面表現(xiàn)更可靠。
在未來工作中,目標是通過集成機器學(xué)習方法(使用性能最好的分類器的混合)提高分類器性能。通過在審計過程中采集、挖掘、分析和處理的大量的資料和數(shù)據(jù),改進被審計單位經(jīng)營管理,促進審計成果的綜合應(yīng)用,提高審計成果的綜合應(yīng)用效果,幫助加強大數(shù)據(jù)審計分析模型和審計軟件的研發(fā)等。
參考文獻:
[1] 秦榮生.大數(shù)據(jù)、云計算技術(shù)對審計的影響研究[J].審計研究,2014(6):23-28.
[2] 劉杰,廖捷,董海云.人工智能與審計變革[J].財會通訊,2019(13):19-25.
[3] 曹杰.大數(shù)據(jù)審計中的特征工程[J].江蘇商論,2019(9):31-34.
[4] 胡俊俊,孫靜.一種新型的計算機審計模型[J].計算機應(yīng)用研究,2008,25(3):782-785.
[5] 王忠,武哲.數(shù)據(jù)挖掘在審計信息分析中的應(yīng)用[J].計算機應(yīng)用研究,2005,22(2):167-169,193.
[6] 張軼.計算機輔助審計技術(shù)的應(yīng)用研究——基于數(shù)據(jù)挖掘技術(shù)的實例驗證[D].重慶:重慶大學(xué),2006.
[7] 王向陽,席斌,胡璟懿,等.基于機器學(xué)習的非現(xiàn)場審計模型研究[J].財政監(jiān)督,2018(20):104-107.
[8] 王秋菲,秦爽,石丹.基于大數(shù)據(jù)的審計風險識別與控制問題研究[J].會計之友,2018(24):93-100.
[9] Hooda N,Bawa S,Rana P S.Fraudulent firm classification:acase study of an external audit[J].Applied Artificial Intelligence,2018,32(1):48-64.
[10] Hooda N,Bawa S,Rana P S.Optimizing fraudulent firm prediction using ensemble machine learning:acase study of an external audit[J].Applied Artificial Intelligence,2020,34(1):20-30.
[11] 黃衛(wèi)衛(wèi).基于隨機森林——遞歸特征消除的道路交通事故成因分析[J].電腦知識與技術(shù),2018,14(14):240-243.
[12] Jiang M Q,Liu J P,Zhang L,et al.An improved Stacking framework for stock index prediction by leveraging tree-based ensemble models and deep learning algorithms[J].Physica A:Statistical Mechanics and Its Applications,2020,541:122272.
[13] 鄭紅,葉成,金永紅,等.基于Stacking集成學(xué)習的流失用戶預(yù)測方法[J].應(yīng)用科學(xué)學(xué)報,2020,38(6):944-954.
[14] 周志華.機器學(xué)習[M].北京:清華大學(xué)出版社,2016.
[15] 魯曉藝.基于ES-SVM的上市公司審計意見預(yù)測模型研究[D].上海:上海工程技術(shù)大學(xué),2020.
[16] 焦莉萍,郭晶晶,楊云云,等.決策樹模型與logistic回歸模型在生活飲用水水質(zhì)影響因素分析中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2020,37(6):874-877,882.
[17] 李佳欣.基于逐步Logistic回歸下分類算法的個人信用評估分析[J].湖南文理學(xué)院學(xué)報(自然科學(xué)版),2021,33(1):5-8,57.
[18] 林瑜,吳靜依,藺軻,等.基于集成學(xué)習模型預(yù)測重癥患者再入重癥監(jiān)護病房的風險[J].北京大學(xué)學(xué)報(醫(yī)學(xué)版),2021,53(3):566-572.
[19] 王海雷.面向高維數(shù)據(jù)的特征學(xué)習算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2019.
收稿日期:2021-10-15
基金項目:國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(S202010451007);教育部產(chǎn)學(xué)合作協(xié)同育人項目(201901137017;201801034031; 201802257026);山東省高等學(xué)校教學(xué)研究與改革一般項目(M2018X066);2021年魯東大學(xué)“專創(chuàng)融合”課程建設(shè)項目(202114)
作者簡介:毛金鳳(1998—),女,山東濰坊人,學(xué)生,學(xué)士,數(shù)學(xué)方向;石紅霞(1998—),女,山東濰坊人,學(xué)生,學(xué)士,物理方向;崔新晨(1999—),男,山東淄博人,學(xué)生,學(xué)士,電氣傳動方向;蔡毓暢(2001—),女,山東濟寧人,學(xué)生,數(shù)學(xué)方向;宋美(1979—),女,山東濟南人,講師,碩士,研究方向為大數(shù)據(jù)建模與分析。