基于深度神經(jīng)網(wǎng)絡(luò)的異常財(cái)務(wù)數(shù)據(jù)識(shí)別方法

2022-05-24 11:43:52馮華偉

電子設(shè)計(jì)工程 2022年10期

馮華偉

（河南省太康縣人民醫(yī)院，河南周口 461400）

作為醫(yī)院財(cái)務(wù)系統(tǒng)的重要組成部分，醫(yī)療賬務(wù)支付系統(tǒng)承擔(dān)著醫(yī)院財(cái)務(wù)結(jié)算的重要任務(wù)，也是維持醫(yī)院正常運(yùn)轉(zhuǎn)的關(guān)鍵。同時(shí)，支付系統(tǒng)也存在著較高的安全風(fēng)險(xiǎn)，例如信用卡套現(xiàn)、醫(yī)療保險(xiǎn)詐騙以及賬目作假等。這些財(cái)務(wù)數(shù)據(jù)的造假行為嚴(yán)重影響了醫(yī)院財(cái)務(wù)系統(tǒng)的正常運(yùn)轉(zhuǎn)，同時(shí)也影響了醫(yī)院以及社會(huì)的公共利益。而根據(jù)國外機(jī)構(gòu)的調(diào)查，近年來通過金融詐騙而構(gòu)成的財(cái)務(wù)系統(tǒng)損失可能超過機(jī)構(gòu)年收入的5%[1-2]。因此，對(duì)財(cái)務(wù)異常數(shù)據(jù)的準(zhǔn)確識(shí)別是保障財(cái)務(wù)系統(tǒng)正常運(yùn)轉(zhuǎn)的重要途徑。

近年來，隨著醫(yī)院財(cái)務(wù)數(shù)據(jù)數(shù)字化進(jìn)程的逐步加快，財(cái)務(wù)數(shù)據(jù)的整體特點(diǎn)也轉(zhuǎn)變?yōu)閿?shù)據(jù)量巨大、數(shù)據(jù)增長速度快、數(shù)據(jù)類型復(fù)雜化等。傳統(tǒng)檢測(cè)方法使用數(shù)學(xué)的統(tǒng)計(jì)方法進(jìn)行驗(yàn)證，其優(yōu)點(diǎn)是可以直觀快速地篩選出異常數(shù)據(jù)，但缺點(diǎn)是無法處理海量數(shù)據(jù)[3]。同時(shí)，傳統(tǒng)檢測(cè)方法也無法滿足當(dāng)前的復(fù)雜檢測(cè)需求。而深度學(xué)習(xí)的出現(xiàn)引起了學(xué)者的廣泛關(guān)注[4]，文中融合了隨機(jī)森林算法與神經(jīng)網(wǎng)絡(luò)技術(shù)，提出了一種改進(jìn)的異常數(shù)據(jù)檢測(cè)方法，并改善了當(dāng)前算法中存在的復(fù)雜度較高、檢測(cè)誤差大以及檢測(cè)效率低等問題。

1 異常數(shù)據(jù)檢測(cè)模型

1.1 財(cái)務(wù)數(shù)據(jù)特征說明

對(duì)財(cái)務(wù)數(shù)據(jù)的兩個(gè)特征[5-6]作如下說明：

1）信息熵

信息熵是數(shù)據(jù)處理領(lǐng)域常見的衡量標(biāo)準(zhǔn)，該指標(biāo)可用來判定數(shù)據(jù)樣本的不確定性。信息熵越大，代表樣本的確定性越小；信息熵越小，代表樣本的確定性越大。

信息熵計(jì)算公式如下：

式（1）中，D為樣本數(shù)據(jù)集，Ck為k屬性樣本。在這些樣本中，C0為異常類型的樣本，C1是正常類型的樣本。

2）信息增益率

信息增益率通常用來表示金融樣本數(shù)據(jù)的一種分類標(biāo)準(zhǔn)，即對(duì)于數(shù)據(jù)集合的屬性特征部分，可定義為：

金融數(shù)據(jù)還有時(shí)間特征，因此在對(duì)金融數(shù)據(jù)進(jìn)行分析時(shí)還需考慮其時(shí)間特征。故此，結(jié)合時(shí)間特征的異常數(shù)據(jù)增益可定義為：

式（5）中，Ai為異常數(shù)據(jù)的特征信息，αm為時(shí)間影響因子，該參數(shù)用來表征過去數(shù)據(jù)對(duì)當(dāng)前數(shù)據(jù)的影響。αm可以表示為：

式（6）中，ωm為第m個(gè)時(shí)刻的權(quán)重因子，Hm表示異常數(shù)據(jù)類別劃分因子。該因子越小，即對(duì)數(shù)據(jù)類別的劃分越有利。

1.2 隨機(jī)森林算法

隨機(jī)森林算法[7-9]的本質(zhì)是多項(xiàng)目決策算法，該算法最初是在二值樹算法基礎(chǔ)上進(jìn)行改進(jìn)的。其特征為算法樣本集合中的異常數(shù)據(jù)集合即稀疏矩陣集合，同時(shí)也是一種無監(jiān)督的單一數(shù)據(jù)監(jiān)測(cè)方法。隨機(jī)森林算法使用二值樹算法結(jié)構(gòu)，將數(shù)據(jù)子集的每一個(gè)數(shù)據(jù)均作為二值樹中的節(jié)點(diǎn)。

該算法所需的數(shù)據(jù)不需要過多異常點(diǎn)，但同時(shí)異常點(diǎn)需要滿足數(shù)據(jù)特征與其他正常數(shù)據(jù)點(diǎn)以及數(shù)據(jù)特征隔離量較大的條件，算法才能建立多個(gè)森林樹。并通過隨機(jī)特征選取不同的分割點(diǎn)特征，進(jìn)而構(gòu)建完整的森林樹結(jié)構(gòu)。隨機(jī)森林算法流程如圖1所示。

圖1 隨機(jī)森林算法流程

需要指出的是，文中森林樹的構(gòu)建所需采集樣本無需過多，數(shù)據(jù)的異常構(gòu)建公式如下：

式（7）中，c(Ψ)是在數(shù)據(jù)采集量為Ψ的情況下，構(gòu)建的二值樹無法進(jìn)行搜索的總路徑長度。當(dāng)路徑長度較長時(shí)，該參數(shù)值趨近于0；當(dāng)路徑長度和c(Ψ)值大體相當(dāng)時(shí)，該參數(shù)值趨近于0.5；當(dāng)路徑長度為零時(shí)，該參數(shù)值趨近于1。但這種傳統(tǒng)森林算法，無法解決大量異常數(shù)據(jù)同時(shí)聚類的情況。

文中對(duì)隨機(jī)森林進(jìn)行了改進(jìn)，構(gòu)建了方差隨機(jī)森林算法，并向隨機(jī)森林算法中加入方差特征值。這樣隨機(jī)森林算法可進(jìn)行更優(yōu)的聚類分析，算法構(gòu)造函數(shù)如式（8）所示：

式中，樣本特征集合為Q，cj為隨機(jī)系數(shù)，p為截距。截距表達(dá)方程如式（9）所示：

該改進(jìn)算法在計(jì)算樹的路徑長度時(shí)，使用cj系數(shù)進(jìn)行判斷，這樣可以使得p截距取最大值。

1.3 深度神經(jīng)網(wǎng)絡(luò)異常數(shù)據(jù)監(jiān)測(cè)模型

構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型對(duì)隨機(jī)森林算法數(shù)據(jù)進(jìn)行訓(xùn)練。文中使用RNN 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練[10-12]，RNN 為循環(huán)卷積神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)的模型示意圖如圖2 所示。

圖2 RNN模型示意圖

RNN 網(wǎng)絡(luò)單元的主要用途為序列數(shù)據(jù)的訓(xùn)練與處理。該神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是每個(gè)單元的輸出層均可返回至輸入層作循環(huán)卷積。這種結(jié)構(gòu)適合于時(shí)間結(jié)構(gòu)，對(duì)隨機(jī)森林算法尤為適用，可有效地減少數(shù)據(jù)的訓(xùn)練次數(shù)。文中神經(jīng)網(wǎng)絡(luò)的損失函數(shù)L和梯度參數(shù)U的關(guān)系為：

文中算法的流程如圖3 所示。首先對(duì)樣本數(shù)據(jù)集合進(jìn)行隨機(jī)森林算法驗(yàn)證，這樣即可以對(duì)每一個(gè)異常值進(jìn)行聚類和分析。然后根據(jù)預(yù)處理的數(shù)據(jù)對(duì)異常數(shù)據(jù)樣本進(jìn)行篩選，將篩選完成的結(jié)果輸入至RNN 網(wǎng)絡(luò)中進(jìn)行特征訓(xùn)練。

圖3 文中算法流程

具體的實(shí)現(xiàn)過程如下：

1）通過方差隨機(jī)森林算法對(duì)樣本數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)檢測(cè)，同時(shí)對(duì)異常數(shù)據(jù)進(jìn)行標(biāo)記，得到標(biāo)記子集為：

2）將異常數(shù)據(jù)子集Ai加入到異常樣本數(shù)據(jù)集合中，剩下的數(shù)據(jù)子集加入到正常樣本數(shù)據(jù)集合中，然后進(jìn)行篩選，并將其加載至RNN 的入口。

模型實(shí)現(xiàn)過程的偽代碼如下：

Input：Forestree(D,h,emax)，F(xiàn)orestree 為文中森林算法，h為森林樹的高度，hmax為森林樹的最大高度。

Output：子樹的數(shù)據(jù)集合。

1）Start；

2）設(shè)置hmax的值，大小為子采樣的對(duì)數(shù)；

3）ifh≥emax&D≤1 then；

4）return 前個(gè)樹節(jié)點(diǎn)；

5）else 對(duì)于任何的屬性樣本，計(jì)算當(dāng)前時(shí)間序列的時(shí)間影響因子αm，然后計(jì)算信息增益比值，該值求得的最大值即為當(dāng)前森林樹的分裂值；

6）D→filter（D），將篩選后的子集合傳遞至結(jié)果處；

7）返回節(jié)點(diǎn)；

8）end if。

1.4 數(shù)據(jù)檢測(cè)指標(biāo)

隨機(jī)森林檢測(cè)系統(tǒng)是分類系統(tǒng)，因此文中使用分類效果參數(shù)對(duì)分類系統(tǒng)的效果進(jìn)行評(píng)估。典型的參數(shù)值有準(zhǔn)確率、召回率、F1 值[13-16]。

準(zhǔn)確率一般是針對(duì)異常數(shù)據(jù)的評(píng)價(jià)標(biāo)準(zhǔn)，文中指算法可以成功識(shí)別異常數(shù)據(jù)的概率值，其計(jì)算公式為：

召回率的計(jì)算公式為：

F1 值綜合了準(zhǔn)確率以及召回率，計(jì)算公式如下所示：

與此同時(shí)，為了直觀地觀測(cè)到分類特征，還運(yùn)用了ROC 曲線進(jìn)行驗(yàn)證。該曲線的X軸坐標(biāo)為假正率FPR，Y軸坐標(biāo)為假負(fù)率TPR，該曲線值通常用來判斷二分類器性能的重要指標(biāo)。與ROC 曲線關(guān)聯(lián)的還有AUC 值，該值用來表征ROC 曲線下方和坐標(biāo)軸形成的面積大小。該面積可定量對(duì)模型的性能進(jìn)行評(píng)估說明，AUC 值越大說明算法性能越優(yōu)。

2 實(shí)證分析

2.1 實(shí)驗(yàn)數(shù)據(jù)以及實(shí)驗(yàn)環(huán)境

文中數(shù)據(jù)使用兩個(gè)訓(xùn)練樣本集和一個(gè)測(cè)試樣本集進(jìn)行實(shí)驗(yàn)。訓(xùn)練樣本集的來源為某調(diào)查機(jī)構(gòu)提供的資金交易數(shù)據(jù)，交易數(shù)據(jù)集合屬性為交易賬戶信息、交易金額以及交易方向等金融屬性。最終訓(xùn)練結(jié)果指向交易賬戶，將訓(xùn)練測(cè)得的交易賬戶異常數(shù)據(jù)和真實(shí)的交易賬戶異常數(shù)據(jù)進(jìn)行比較，進(jìn)而對(duì)模型的算法準(zhǔn)確性進(jìn)行驗(yàn)證。

訓(xùn)練數(shù)據(jù)集共有數(shù)據(jù)樣本15 000 個(gè)，測(cè)試樣本集合為5 000 個(gè)，實(shí)驗(yàn)數(shù)據(jù)環(huán)境配置如表1 所示。

表1 數(shù)據(jù)環(huán)境配置

2.2 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

由于樣本數(shù)據(jù)集存在著屬性缺失或?qū)傩栽旒俚那闆r，因此需要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理。其預(yù)處理步驟為：

1）數(shù)據(jù)篩選

首先對(duì)原始數(shù)據(jù)的屬性不完整數(shù)據(jù)進(jìn)行清除，然后對(duì)造假的數(shù)據(jù)進(jìn)行清除。例如，該數(shù)據(jù)中存在金融開戶戶主和銀行卡卡主姓名不一致的情況，刪除此類數(shù)據(jù)。

2）數(shù)據(jù)特征分類

數(shù)據(jù)的屬性有交易賬戶信息、交易金額以及交易方向等，按照數(shù)據(jù)特征進(jìn)行數(shù)據(jù)分類。

3）數(shù)據(jù)歸一化

將數(shù)據(jù)的分類值轉(zhuǎn)換成特征值，將數(shù)據(jù)均做成長度相同的歸一化數(shù)據(jù)，便于算法的訓(xùn)練。

2.3 實(shí)驗(yàn)設(shè)計(jì)以及結(jié)果分析

為了驗(yàn)證文中算法檢測(cè)異常數(shù)據(jù)的性能進(jìn)行對(duì)比實(shí)驗(yàn)。文中使用多個(gè)對(duì)比算法對(duì)測(cè)試數(shù)據(jù)集合進(jìn)行處理，對(duì)比算法處理后的準(zhǔn)確率、召回率以及F1值指標(biāo)。文中使用隨機(jī)特征選擇算法（Ram）、基本隨機(jī)森林（Forest）算法、ADA 同步算法（ADAsync）3種對(duì)比算法，表2 為對(duì)比實(shí)驗(yàn)指標(biāo)結(jié)果。

由表2 可看出，文中算法的綜合F1 值是最高的。雖然隨機(jī)特征選擇算法的召回率較高，但準(zhǔn)確率較低。這是因?yàn)樵撍惴ㄔ谶M(jìn)行樣本處理時(shí)，會(huì)有跨文本處理的風(fēng)險(xiǎn)，因此并不適用于金融數(shù)據(jù)處理。而文中算法具有更優(yōu)的特征選擇能力，可有效地提升分類器的分類性能，算法的F1 值相較其他算法均有2%以上的提升。

表2 實(shí)驗(yàn)結(jié)果

ROC 曲線可以對(duì)分類特征進(jìn)行直觀地檢測(cè)，使用統(tǒng)計(jì)軟件對(duì)文中算法處理結(jié)果進(jìn)行ROC 曲線的繪制，曲線如圖4 所示。

圖4 算法的ROC曲線

由圖4 可以定性的看出，各個(gè)算法的分類性能大體相當(dāng)，文中算法相較其他算法有所提升。而為了定量的判斷算法的分類性能，對(duì)AUC 值進(jìn)行了估算，AUC 值計(jì)算結(jié)果如表3 所示。

表3 AUC值計(jì)算結(jié)果

從AUC 計(jì)算結(jié)果可知，文中算法的AUC 值最高。表明文中算法對(duì)金融異常數(shù)據(jù)的檢測(cè)有良好的效果。

3 結(jié)束語

傳統(tǒng)檢測(cè)方法無法用來檢測(cè)當(dāng)前海量的財(cái)務(wù)數(shù)據(jù)。文中提出了基于深度神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)檢測(cè)方法，有效改善了當(dāng)前算法中存在的復(fù)雜度較高、檢測(cè)誤差大以及檢測(cè)效率低等問題。實(shí)驗(yàn)結(jié)果表明，文中算法F1 值以及AUC 值相較其他算法均有不同程度的提升，表明該算法對(duì)財(cái)務(wù)異常數(shù)據(jù)的檢測(cè)有較為理想的效果。