• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度神經(jīng)網(wǎng)絡(luò)的異常財(cái)務(wù)數(shù)據(jù)識(shí)別方法

      2022-05-24 11:43:52馮華偉
      電子設(shè)計(jì)工程 2022年10期
      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)森林分類

      馮華偉

      (河南省太康縣人民醫(yī)院,河南 周口 461400)

      作為醫(yī)院財(cái)務(wù)系統(tǒng)的重要組成部分,醫(yī)療賬務(wù)支付系統(tǒng)承擔(dān)著醫(yī)院財(cái)務(wù)結(jié)算的重要任務(wù),也是維持醫(yī)院正常運(yùn)轉(zhuǎn)的關(guān)鍵。同時(shí),支付系統(tǒng)也存在著較高的安全風(fēng)險(xiǎn),例如信用卡套現(xiàn)、醫(yī)療保險(xiǎn)詐騙以及賬目作假等。這些財(cái)務(wù)數(shù)據(jù)的造假行為嚴(yán)重影響了醫(yī)院財(cái)務(wù)系統(tǒng)的正常運(yùn)轉(zhuǎn),同時(shí)也影響了醫(yī)院以及社會(huì)的公共利益。而根據(jù)國外機(jī)構(gòu)的調(diào)查,近年來通過金融詐騙而構(gòu)成的財(cái)務(wù)系統(tǒng)損失可能超過機(jī)構(gòu)年收入的5%[1-2]。因此,對(duì)財(cái)務(wù)異常數(shù)據(jù)的準(zhǔn)確識(shí)別是保障財(cái)務(wù)系統(tǒng)正常運(yùn)轉(zhuǎn)的重要途徑。

      近年來,隨著醫(yī)院財(cái)務(wù)數(shù)據(jù)數(shù)字化進(jìn)程的逐步加快,財(cái)務(wù)數(shù)據(jù)的整體特點(diǎn)也轉(zhuǎn)變?yōu)閿?shù)據(jù)量巨大、數(shù)據(jù)增長速度快、數(shù)據(jù)類型復(fù)雜化等。傳統(tǒng)檢測(cè)方法使用數(shù)學(xué)的統(tǒng)計(jì)方法進(jìn)行驗(yàn)證,其優(yōu)點(diǎn)是可以直觀快速地篩選出異常數(shù)據(jù),但缺點(diǎn)是無法處理海量數(shù)據(jù)[3]。同時(shí),傳統(tǒng)檢測(cè)方法也無法滿足當(dāng)前的復(fù)雜檢測(cè)需求。而深度學(xué)習(xí)的出現(xiàn)引起了學(xué)者的廣泛關(guān)注[4],文中融合了隨機(jī)森林算法與神經(jīng)網(wǎng)絡(luò)技術(shù),提出了一種改進(jìn)的異常數(shù)據(jù)檢測(cè)方法,并改善了當(dāng)前算法中存在的復(fù)雜度較高、檢測(cè)誤差大以及檢測(cè)效率低等問題。

      1 異常數(shù)據(jù)檢測(cè)模型

      1.1 財(cái)務(wù)數(shù)據(jù)特征說明

      對(duì)財(cái)務(wù)數(shù)據(jù)的兩個(gè)特征[5-6]作如下說明:

      1)信息熵

      信息熵是數(shù)據(jù)處理領(lǐng)域常見的衡量標(biāo)準(zhǔn),該指標(biāo)可用來判定數(shù)據(jù)樣本的不確定性。信息熵越大,代表樣本的確定性越小;信息熵越小,代表樣本的確定性越大。

      信息熵計(jì)算公式如下:

      式(1)中,D為樣本數(shù)據(jù)集,Ck為k屬性樣本。在這些樣本中,C0為異常類型的樣本,C1是正常類型的樣本。

      2)信息增益率

      信息增益率通常用來表示金融樣本數(shù)據(jù)的一種分類標(biāo)準(zhǔn),即對(duì)于數(shù)據(jù)集合的屬性特征部分,可定義為:

      金融數(shù)據(jù)還有時(shí)間特征,因此在對(duì)金融數(shù)據(jù)進(jìn)行分析時(shí)還需考慮其時(shí)間特征。故此,結(jié)合時(shí)間特征的異常數(shù)據(jù)增益可定義為:

      式(5)中,Ai為異常數(shù)據(jù)的特征信息,αm為時(shí)間影響因子,該參數(shù)用來表征過去數(shù)據(jù)對(duì)當(dāng)前數(shù)據(jù)的影響。αm可以表示為:

      式(6)中,ωm為第m個(gè)時(shí)刻的權(quán)重因子,Hm表示異常數(shù)據(jù)類別劃分因子。該因子越小,即對(duì)數(shù)據(jù)類別的劃分越有利。

      1.2 隨機(jī)森林算法

      隨機(jī)森林算法[7-9]的本質(zhì)是多項(xiàng)目決策算法,該算法最初是在二值樹算法基礎(chǔ)上進(jìn)行改進(jìn)的。其特征為算法樣本集合中的異常數(shù)據(jù)集合即稀疏矩陣集合,同時(shí)也是一種無監(jiān)督的單一數(shù)據(jù)監(jiān)測(cè)方法。隨機(jī)森林算法使用二值樹算法結(jié)構(gòu),將數(shù)據(jù)子集的每一個(gè)數(shù)據(jù)均作為二值樹中的節(jié)點(diǎn)。

      該算法所需的數(shù)據(jù)不需要過多異常點(diǎn),但同時(shí)異常點(diǎn)需要滿足數(shù)據(jù)特征與其他正常數(shù)據(jù)點(diǎn)以及數(shù)據(jù)特征隔離量較大的條件,算法才能建立多個(gè)森林樹。并通過隨機(jī)特征選取不同的分割點(diǎn)特征,進(jìn)而構(gòu)建完整的森林樹結(jié)構(gòu)。隨機(jī)森林算法流程如圖1所示。

      圖1 隨機(jī)森林算法流程

      需要指出的是,文中森林樹的構(gòu)建所需采集樣本無需過多,數(shù)據(jù)的異常構(gòu)建公式如下:

      式(7)中,c(Ψ)是在數(shù)據(jù)采集量為Ψ的情況下,構(gòu)建的二值樹無法進(jìn)行搜索的總路徑長度。當(dāng)路徑長度較長時(shí),該參數(shù)值趨近于0;當(dāng)路徑長度和c(Ψ)值大體相當(dāng)時(shí),該參數(shù)值趨近于0.5;當(dāng)路徑長度為零時(shí),該參數(shù)值趨近于1。但這種傳統(tǒng)森林算法,無法解決大量異常數(shù)據(jù)同時(shí)聚類的情況。

      文中對(duì)隨機(jī)森林進(jìn)行了改進(jìn),構(gòu)建了方差隨機(jī)森林算法,并向隨機(jī)森林算法中加入方差特征值。這樣隨機(jī)森林算法可進(jìn)行更優(yōu)的聚類分析,算法構(gòu)造函數(shù)如式(8)所示:

      式中,樣本特征集合為Q,cj為隨機(jī)系數(shù),p為截距。截距表達(dá)方程如式(9)所示:

      該改進(jìn)算法在計(jì)算樹的路徑長度時(shí),使用cj系數(shù)進(jìn)行判斷,這樣可以使得p截距取最大值。

      1.3 深度神經(jīng)網(wǎng)絡(luò)異常數(shù)據(jù)監(jiān)測(cè)模型

      構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型對(duì)隨機(jī)森林算法數(shù)據(jù)進(jìn)行訓(xùn)練。文中使用RNN 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練[10-12],RNN 為循環(huán)卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的模型示意圖如圖2 所示。

      圖2 RNN模型示意圖

      RNN 網(wǎng)絡(luò)單元的主要用途為序列數(shù)據(jù)的訓(xùn)練與處理。該神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是每個(gè)單元的輸出層均可返回至輸入層作循環(huán)卷積。這種結(jié)構(gòu)適合于時(shí)間結(jié)構(gòu),對(duì)隨機(jī)森林算法尤為適用,可有效地減少數(shù)據(jù)的訓(xùn)練次數(shù)。文中神經(jīng)網(wǎng)絡(luò)的損失函數(shù)L和梯度參數(shù)U的關(guān)系為:

      文中算法的流程如圖3 所示。首先對(duì)樣本數(shù)據(jù)集合進(jìn)行隨機(jī)森林算法驗(yàn)證,這樣即可以對(duì)每一個(gè)異常值進(jìn)行聚類和分析。然后根據(jù)預(yù)處理的數(shù)據(jù)對(duì)異常數(shù)據(jù)樣本進(jìn)行篩選,將篩選完成的結(jié)果輸入至RNN 網(wǎng)絡(luò)中進(jìn)行特征訓(xùn)練。

      圖3 文中算法流程

      具體的實(shí)現(xiàn)過程如下:

      1)通過方差隨機(jī)森林算法對(duì)樣本數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)檢測(cè),同時(shí)對(duì)異常數(shù)據(jù)進(jìn)行標(biāo)記,得到標(biāo)記子集為:

      2)將異常數(shù)據(jù)子集Ai加入到異常樣本數(shù)據(jù)集合中,剩下的數(shù)據(jù)子集加入到正常樣本數(shù)據(jù)集合中,然后進(jìn)行篩選,并將其加載至RNN 的入口。

      模型實(shí)現(xiàn)過程的偽代碼如下:

      Input:Forestree(D,h,emax),F(xiàn)orestree 為文中森林算法,h為森林樹的高度,hmax為森林樹的最大高度。

      Output:子樹的數(shù)據(jù)集合。

      1)Start;

      2)設(shè)置hmax的值,大小為子采樣的對(duì)數(shù);

      3)ifh≥emax&D≤1 then;

      4)return 前個(gè)樹節(jié)點(diǎn);

      5)else 對(duì)于任何的屬性樣本,計(jì)算當(dāng)前時(shí)間序列的時(shí)間影響因子αm,然后計(jì)算信息增益比值,該值求得的最大值即為當(dāng)前森林樹的分裂值;

      6)D→filter(D),將篩選后的子集合傳遞至結(jié)果處;

      7)返回節(jié)點(diǎn);

      8)end if。

      1.4 數(shù)據(jù)檢測(cè)指標(biāo)

      隨機(jī)森林檢測(cè)系統(tǒng)是分類系統(tǒng),因此文中使用分類效果參數(shù)對(duì)分類系統(tǒng)的效果進(jìn)行評(píng)估。典型的參數(shù)值有準(zhǔn)確率、召回率、F1 值[13-16]。

      準(zhǔn)確率一般是針對(duì)異常數(shù)據(jù)的評(píng)價(jià)標(biāo)準(zhǔn),文中指算法可以成功識(shí)別異常數(shù)據(jù)的概率值,其計(jì)算公式為:

      召回率的計(jì)算公式為:

      F1 值綜合了準(zhǔn)確率以及召回率,計(jì)算公式如下所示:

      與此同時(shí),為了直觀地觀測(cè)到分類特征,還運(yùn)用了ROC 曲線進(jìn)行驗(yàn)證。該曲線的X軸坐標(biāo)為假正率FPR,Y軸坐標(biāo)為假負(fù)率TPR,該曲線值通常用來判斷二分類器性能的重要指標(biāo)。與ROC 曲線關(guān)聯(lián)的還有AUC 值,該值用來表征ROC 曲線下方和坐標(biāo)軸形成的面積大小。該面積可定量對(duì)模型的性能進(jìn)行評(píng)估說明,AUC 值越大說明算法性能越優(yōu)。

      2 實(shí)證分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)以及實(shí)驗(yàn)環(huán)境

      文中數(shù)據(jù)使用兩個(gè)訓(xùn)練樣本集和一個(gè)測(cè)試樣本集進(jìn)行實(shí)驗(yàn)。訓(xùn)練樣本集的來源為某調(diào)查機(jī)構(gòu)提供的資金交易數(shù)據(jù),交易數(shù)據(jù)集合屬性為交易賬戶信息、交易金額以及交易方向等金融屬性。最終訓(xùn)練結(jié)果指向交易賬戶,將訓(xùn)練測(cè)得的交易賬戶異常數(shù)據(jù)和真實(shí)的交易賬戶異常數(shù)據(jù)進(jìn)行比較,進(jìn)而對(duì)模型的算法準(zhǔn)確性進(jìn)行驗(yàn)證。

      訓(xùn)練數(shù)據(jù)集共有數(shù)據(jù)樣本15 000 個(gè),測(cè)試樣本集合為5 000 個(gè),實(shí)驗(yàn)數(shù)據(jù)環(huán)境配置如表1 所示。

      表1 數(shù)據(jù)環(huán)境配置

      2.2 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

      由于樣本數(shù)據(jù)集存在著屬性缺失或?qū)傩栽旒俚那闆r,因此需要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理。其預(yù)處理步驟為:

      1)數(shù)據(jù)篩選

      首先對(duì)原始數(shù)據(jù)的屬性不完整數(shù)據(jù)進(jìn)行清除,然后對(duì)造假的數(shù)據(jù)進(jìn)行清除。例如,該數(shù)據(jù)中存在金融開戶戶主和銀行卡卡主姓名不一致的情況,刪除此類數(shù)據(jù)。

      2)數(shù)據(jù)特征分類

      數(shù)據(jù)的屬性有交易賬戶信息、交易金額以及交易方向等,按照數(shù)據(jù)特征進(jìn)行數(shù)據(jù)分類。

      3)數(shù)據(jù)歸一化

      將數(shù)據(jù)的分類值轉(zhuǎn)換成特征值,將數(shù)據(jù)均做成長度相同的歸一化數(shù)據(jù),便于算法的訓(xùn)練。

      2.3 實(shí)驗(yàn)設(shè)計(jì)以及結(jié)果分析

      為了驗(yàn)證文中算法檢測(cè)異常數(shù)據(jù)的性能進(jìn)行對(duì)比實(shí)驗(yàn)。文中使用多個(gè)對(duì)比算法對(duì)測(cè)試數(shù)據(jù)集合進(jìn)行處理,對(duì)比算法處理后的準(zhǔn)確率、召回率以及F1值指標(biāo)。文中使用隨機(jī)特征選擇算法(Ram)、基本隨機(jī)森林(Forest)算法、ADA 同步算法(ADAsync)3種對(duì)比算法,表2 為對(duì)比實(shí)驗(yàn)指標(biāo)結(jié)果。

      由表2 可看出,文中算法的綜合F1 值是最高的。雖然隨機(jī)特征選擇算法的召回率較高,但準(zhǔn)確率較低。這是因?yàn)樵撍惴ㄔ谶M(jìn)行樣本處理時(shí),會(huì)有跨文本處理的風(fēng)險(xiǎn),因此并不適用于金融數(shù)據(jù)處理。而文中算法具有更優(yōu)的特征選擇能力,可有效地提升分類器的分類性能,算法的F1 值相較其他算法均有2%以上的提升。

      表2 實(shí)驗(yàn)結(jié)果

      ROC 曲線可以對(duì)分類特征進(jìn)行直觀地檢測(cè),使用統(tǒng)計(jì)軟件對(duì)文中算法處理結(jié)果進(jìn)行ROC 曲線的繪制,曲線如圖4 所示。

      圖4 算法的ROC曲線

      由圖4 可以定性的看出,各個(gè)算法的分類性能大體相當(dāng),文中算法相較其他算法有所提升。而為了定量的判斷算法的分類性能,對(duì)AUC 值進(jìn)行了估算,AUC 值計(jì)算結(jié)果如表3 所示。

      表3 AUC值計(jì)算結(jié)果

      從AUC 計(jì)算結(jié)果可知,文中算法的AUC 值最高。表明文中算法對(duì)金融異常數(shù)據(jù)的檢測(cè)有良好的效果。

      3 結(jié)束語

      傳統(tǒng)檢測(cè)方法無法用來檢測(cè)當(dāng)前海量的財(cái)務(wù)數(shù)據(jù)。文中提出了基于深度神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)檢測(cè)方法,有效改善了當(dāng)前算法中存在的復(fù)雜度較高、檢測(cè)誤差大以及檢測(cè)效率低等問題。實(shí)驗(yàn)結(jié)果表明,文中算法F1 值以及AUC 值相較其他算法均有不同程度的提升,表明該算法對(duì)財(cái)務(wù)異常數(shù)據(jù)的檢測(cè)有較為理想的效果。

      猜你喜歡
      神經(jīng)網(wǎng)絡(luò)森林分類
      分類算一算
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      哈Q森林
      哈Q森林
      哈Q森林
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      哈Q森林
      永善县| 孟连| 盈江县| 徐州市| 双桥区| 汝州市| 大冶市| 凤庆县| 尼勒克县| 乌拉特中旗| 新密市| 华蓥市| 班玛县| 通化市| 遂昌县| 龙海市| 青阳县| 晋江市| 大丰市| 宁波市| 政和县| 张家港市| 绍兴市| 福建省| 祁门县| 牡丹江市| 汽车| 林芝县| 桐柏县| 图们市| 普兰店市| 沧源| 桐城市| 海城市| 富川| 平南县| 平顺县| 陆川县| 边坝县| 安图县| 栖霞市|