趙曉永,趙熙岑
(北京信息科技大學(xué) 信息管理學(xué)院,北京 100192)
企業(yè)關(guān)聯(lián)交易是企業(yè)經(jīng)營(yíng)中經(jīng)常發(fā)生但又容易發(fā)生不公平與舞弊行為,從而造成企業(yè)損失的交易,是審計(jì)工作重點(diǎn)審核的內(nèi)容之一[1]。企業(yè)關(guān)聯(lián)交易的數(shù)據(jù)相互之間構(gòu)成了復(fù)雜的圖結(jié)構(gòu)形式,每個(gè)節(jié)點(diǎn)之間有相互依賴關(guān)系,依賴關(guān)系也有強(qiáng)有弱,傳統(tǒng)審計(jì)方法在如此繁雜的數(shù)據(jù)中發(fā)現(xiàn)異常的難度越來(lái)越大[2-3]。
離群點(diǎn)[4](outlier)是指與數(shù)據(jù)集中的其它數(shù)據(jù)有明顯偏離,使人懷疑這些數(shù)據(jù)點(diǎn)是由不同機(jī)制產(chǎn)生的。離群點(diǎn)檢測(cè)(outlier detection),也稱為離群點(diǎn)挖掘(outlier mining),著力于從數(shù)據(jù)集中發(fā)現(xiàn)顯著不同于主要部分的數(shù)據(jù)點(diǎn),其目的是消除噪聲或者是發(fā)現(xiàn)潛在的有用的信息,因其廣闊的應(yīng)用前景,受到了廣泛的關(guān)注和研究。
目前針對(duì)關(guān)系型數(shù)據(jù)的離群點(diǎn)挖掘方法研究較多,其研究方法有基于統(tǒng)計(jì)的方法[5-6]、基于密度[7-8]的方法、基于距離的方法[9]、基于信息論的方法[10-11]以及基于子空間劃分的方法[12]等。由于圖結(jié)構(gòu)數(shù)據(jù)更為復(fù)雜,對(duì)于圖類(lèi)數(shù)據(jù)的離群點(diǎn)挖掘研究尚處于初期階段[13-14]。文獻(xiàn)[15]提出了一種使用最小描述長(zhǎng)度(MDL)原理來(lái)尋找邊和子圖離群值的方法;文獻(xiàn)[16]使用節(jié)點(diǎn)及其鄰居特征之間的相似性來(lái)確定邊異常值;文獻(xiàn)[17]使用異構(gòu)馬爾可夫隨機(jī)場(chǎng)(HMRF)方法與底層社區(qū)同時(shí)確定離群邊;文獻(xiàn)[18]中提出了使用特征向量分析來(lái)比較子圖與完整圖的背景行為并相應(yīng)地將它們聲明為異常。圖結(jié)構(gòu)固有的復(fù)雜性,使得用戶監(jiān)督在圖離群挖掘中尤為重要。文獻(xiàn)[19]提出一種FocusCO算法,在用戶監(jiān)督的幫助下,在歸因圖中同時(shí)發(fā)現(xiàn)聚類(lèi)和異常值;文獻(xiàn)[20-21]則使用查詢模板方法,由用戶確定具有特定屬性的異常子圖。
本文對(duì)企業(yè)關(guān)聯(lián)交易圖的離群點(diǎn)挖掘問(wèn)題進(jìn)行了研究,總結(jié)分析了關(guān)聯(lián)交易圖數(shù)據(jù)的特點(diǎn),根據(jù)這些特點(diǎn)對(duì)rPCA、CMGOS和One-class SVM三種圖離群點(diǎn)挖掘算法進(jìn)行了對(duì)比分析,并提出了采用密度峰值聚類(lèi)來(lái)改進(jìn)的CMGOS算法。實(shí)驗(yàn)表明,One-class SVM算法因其本質(zhì)是一種數(shù)據(jù)新穎性檢測(cè)的方法,不適于異常企業(yè)關(guān)聯(lián)交易挖掘場(chǎng)景;而由于企業(yè)關(guān)聯(lián)交易數(shù)據(jù)的節(jié)點(diǎn)屬性對(duì)依賴性的影響,rPCA算法與CMGOS算法較適合于企業(yè)關(guān)聯(lián)交易圖離群挖掘;改進(jìn)后的CMGOS算法檢測(cè)離群點(diǎn)的效果得到了較好地提升。
本研究的整體流程如圖1所示。
rPCA(robust principal component analysis)是在PCA算法的基礎(chǔ)上發(fā)展起來(lái)的,本質(zhì)與PCA算法相同,是研究數(shù)據(jù)如何降維到低維空間的最佳投影問(wèn)題,核心是通過(guò)矩陣分解將原始數(shù)據(jù)矩陣分解成2個(gè)矩陣相加。其中一個(gè)是特征間線性相關(guān)的低秩矩陣,包含了結(jié)構(gòu)信息;另一個(gè)是包含噪聲的稀疏矩陣。rPCA算法通常先基于馬氏距離(Mahalanobis distance)對(duì)原始數(shù)據(jù)進(jìn)行修剪處理,再利用PCA算法計(jì)算相應(yīng)的離群分?jǐn)?shù)。
One-class SVM(support vector machine)算法是傳統(tǒng)支持向量機(jī)的半監(jiān)督形式,用最優(yōu)的超平面將數(shù)據(jù)集從原點(diǎn)分離出來(lái)。目標(biāo)決策函數(shù)輸出代表數(shù)據(jù)被分在了超平面的某一邊,并使用目標(biāo)決策函數(shù)的最大值按照一定比例縮放分?jǐn)?shù),輸出連續(xù)的離群分?jǐn)?shù)。離群分?jǐn)?shù)大于1.0的數(shù)據(jù)點(diǎn)即為離群點(diǎn)。
CMGOS(clustering-based multivariate gaussian outlier score)[22]算法通過(guò)估計(jì)多變量高斯模型來(lái)執(zhí)行局部密度估計(jì),從而對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi)分析。離群分?jǐn)?shù)通過(guò)聚類(lèi)的結(jié)果與聚類(lèi)中心之間的距離大小計(jì)算。其聚類(lèi)算法選擇了k-Medoids算法以減小k-Means算法劃分結(jié)果的誤差,對(duì)噪聲魯棒性比較好。但是k-Medoids算法需要手工設(shè)置類(lèi)別數(shù)量,而且運(yùn)行速度較慢,計(jì)算質(zhì)心的步驟時(shí)間復(fù)雜度是O(n^2),不適于大規(guī)模數(shù)據(jù)的分析。
2014年Rodriguez和Laio在《Science》上提出了DPC(density peaks clustering)密度峰值聚類(lèi)[23-24]方法,為聚類(lèi)算法的設(shè)計(jì)提供了新的思路。文中提出聚類(lèi)中心同時(shí)具有2個(gè)特點(diǎn):1) 自身密度大, 即被比它密度小的鄰居點(diǎn)包圍; 2) 與比它密度大的數(shù)據(jù)點(diǎn)的距離相對(duì)較遠(yuǎn)?;谶@2個(gè)假設(shè)的DPC算法思想簡(jiǎn)潔新穎,所需參數(shù)少,無(wú)需事先設(shè)定類(lèi)別數(shù)量,也不需要迭代求解,能夠快速有效地發(fā)現(xiàn)任意形狀的簇,可以很好地描述數(shù)據(jù)分布。同時(shí)DPC算法只考慮點(diǎn)與點(diǎn)之間的距離,不需要將點(diǎn)映射到一個(gè)向量空間中,算法復(fù)雜度也較低,一經(jīng)提出就引起學(xué)術(shù)界廣泛關(guān)注。本文使用DPC代替CMGOS算法中的k-Medoids來(lái)完成聚類(lèi),對(duì)原CMGOS算法進(jìn)行改進(jìn)。
數(shù)據(jù)集來(lái)源于國(guó)泰安數(shù)據(jù)中心與各上市公司公開(kāi)的財(cái)務(wù)年報(bào)、中報(bào)、季報(bào)等,經(jīng)整理后作為本文實(shí)驗(yàn)用數(shù)據(jù)集合。數(shù)據(jù)集包含證券代碼、公告日期、公告類(lèi)型、交易性質(zhì)、交易事項(xiàng)、交易涉及金額、關(guān)聯(lián)關(guān)系等多個(gè)屬性,如圖2所示。
數(shù)據(jù)集字典是對(duì)數(shù)據(jù)集進(jìn)行說(shuō)明的文本文件,包括各項(xiàng)屬性的中文說(shuō)明以及每個(gè)屬性中經(jīng)過(guò)整理變換的數(shù)據(jù)信息的說(shuō)明,如圖3所示。
圖3 數(shù)據(jù)字典部分展示截圖
經(jīng)過(guò)分層抽樣以及過(guò)濾缺失值后數(shù)據(jù)集中總共有1000條數(shù)據(jù),其中有24個(gè)離群數(shù)據(jù),離群數(shù)據(jù)占比為2.4%。將數(shù)據(jù)預(yù)處理之后,得到相應(yīng)的數(shù)據(jù)可視化結(jié)果如圖4所示,可以看出該數(shù)據(jù)呈現(xiàn)典型的圖狀結(jié)構(gòu)。
圖4 部分交易數(shù)據(jù)
公司關(guān)聯(lián)交易數(shù)據(jù)集中關(guān)聯(lián)交易事項(xiàng)分類(lèi)主要集中于商品交易類(lèi)、提供或接受勞務(wù)類(lèi)、資金交易類(lèi)、擔(dān)保與抵押類(lèi)、租賃類(lèi)、股權(quán)交易類(lèi),如圖5所示。
圖5 關(guān)聯(lián)交易事項(xiàng)分類(lèi)數(shù)據(jù)分布
圖6中可看出關(guān)聯(lián)交易事項(xiàng)涉及的金額分布較集中,但個(gè)別值偏高。
圖6 關(guān)聯(lián)交易涉及金額分布
根據(jù)3.2所述,將rPCA算法的正常數(shù)據(jù)占比參數(shù)設(shè)置成0.976;One-class SVM算法的核函數(shù)參數(shù)設(shè)置為rbf,以處理線性不可分?jǐn)?shù)據(jù);CMGOS算法中的k-Mediods聚類(lèi)個(gè)數(shù)設(shè)置為2,正常數(shù)據(jù)占比設(shè)置為0.976,其他參數(shù)使用默認(rèn)值;改進(jìn)的CMGOS算法中的DPC聚類(lèi)算法參數(shù)均使用默認(rèn)值。
利用改進(jìn)的CMGOS算法進(jìn)行離群點(diǎn)檢測(cè),使用精確率、召回率和AUC值來(lái)評(píng)價(jià)模型效果,分別與rPCA、OneClassSVM和CMGOS模型進(jìn)行對(duì)比,結(jié)果如表1所示。
表1 算法對(duì)比結(jié)果
4種算法的離群點(diǎn)檢測(cè)結(jié)果如圖7所示。
圖7 離群點(diǎn)檢測(cè)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,上述4種算法在進(jìn)行離群點(diǎn)挖掘時(shí),精確率普遍較高,原因在于數(shù)據(jù)集中離群點(diǎn)是極少數(shù)的異常數(shù)據(jù),大部分?jǐn)?shù)據(jù)都是符合正常的事實(shí)背景的,算法對(duì)正常數(shù)據(jù)的判斷大部分都是正確的,所以精確率較高,但精確率指標(biāo)并不能直接反應(yīng)離群檢測(cè)效果。AUC值是離群挖掘算法評(píng)價(jià)指標(biāo)的金標(biāo)準(zhǔn)[4],本文提出的改進(jìn)的CMGOS模型AUC值有了明顯提升,離群檢測(cè)效果更好。
本文對(duì)企業(yè)關(guān)聯(lián)交易圖的離群點(diǎn)挖掘問(wèn)題進(jìn)行了研究,在總結(jié)分析關(guān)聯(lián)交易圖數(shù)據(jù)特點(diǎn)基礎(chǔ)上,對(duì)rPCA、CMGOS和One-class SVM三種離群點(diǎn)挖掘算法進(jìn)行了對(duì)比分析,并提出了采用密度峰值聚類(lèi)來(lái)改進(jìn)的CMGOS算法。實(shí)驗(yàn)表明,rPCA算法與CMGOS算法較適合于企業(yè)關(guān)聯(lián)交易圖離群挖掘,改進(jìn)后的CMGOS算法檢測(cè)離群點(diǎn)的效果得到了較好提升。公司關(guān)聯(lián)交易方面只是審計(jì)工作的一部分內(nèi)容,如何更深入地將離群點(diǎn)挖掘算法應(yīng)用到審計(jì)工作的其他場(chǎng)景,是需要進(jìn)一步研究的問(wèn)題。
北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年2期