• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于無監(jiān)督學(xué)習(xí)的可解釋性財(cái)務(wù)異常檢測研究

      2022-07-11 01:17:58張健王子豪于敬
      電子技術(shù)與軟件工程 2022年4期
      關(guān)鍵詞:枚舉解釋性離群

      張健 王子豪 于敬

      (達(dá)而觀信息科技(上海)有限公司 上海市 201203)

      1 概述

      隨著市場經(jīng)濟(jì)的加劇,粗放型的財(cái)務(wù)管理方式逐漸被淘汰,如何降低財(cái)務(wù)管理成本以及提升企業(yè)運(yùn)營效率,成為企業(yè)管理健康發(fā)展的關(guān)鍵。分析財(cái)務(wù)報(bào)銷是否合理是財(cái)務(wù)管理中的重點(diǎn),財(cái)務(wù)部門人員需要確保會(huì)計(jì)票據(jù)與實(shí)際業(yè)務(wù)相吻合且符合相關(guān)規(guī)定。但是實(shí)際的財(cái)務(wù)審核業(yè)務(wù)面臨著量大耗時(shí)、規(guī)則多變、成本高等多種難點(diǎn)。本文提出了一種基于無監(jiān)督學(xué)習(xí)的可解釋性財(cái)務(wù)異常分析方法,并設(shè)計(jì)了一套財(cái)務(wù)異常分析系統(tǒng),解決了在缺少先驗(yàn)經(jīng)驗(yàn)的情況下如何自動(dòng)挖掘財(cái)務(wù)異常和多源異構(gòu)數(shù)據(jù)難以適應(yīng)傳統(tǒng)分析模型的問題。

      2 背景

      在財(cái)務(wù)日常工作中,財(cái)務(wù)人員通過對(duì)企業(yè)運(yùn)營過程中產(chǎn)生的各類發(fā)票和會(huì)計(jì)資料進(jìn)行審核。財(cái)務(wù)審核需要確保原始資料真實(shí)性,保證各種票據(jù)、憑證、資料的完整性與合規(guī)性,例如確保報(bào)銷票據(jù)合乎規(guī)定、發(fā)票類別要符合稅法要求等。財(cái)務(wù)審核的工作量會(huì)隨著公司規(guī)模的擴(kuò)大與日俱增,傳統(tǒng)的以純?nèi)斯橹鞯膶徍四J诫y以適應(yīng)公司財(cái)務(wù)管理發(fā)展的需求,主要體現(xiàn)在多個(gè)方面:工作量大、細(xì)分程度高導(dǎo)致人力成本居高不下;面對(duì)海量數(shù)據(jù),人工操作出錯(cuò)率高;審核規(guī)則極為復(fù)雜,變化頻率高;判斷標(biāo)注對(duì)業(yè)務(wù)經(jīng)驗(yàn)的依賴性大,標(biāo)準(zhǔn)參差不統(tǒng)一;過程無痕跡,數(shù)據(jù)無積累等。

      針對(duì)這些挑戰(zhàn),學(xué)術(shù)界針對(duì)其中的場景不斷提出了不同的智能化技術(shù)手段輔助人來提升財(cái)務(wù)審核的處理效率。隨著數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)基礎(chǔ)的發(fā)展,人工智能與財(cái)務(wù)審核的融合成為了研究熱點(diǎn)。鄧森林等利用基于統(tǒng)計(jì)學(xué)習(xí)理論的一類支持向量機(jī)(one-class SVMs)實(shí)現(xiàn)金融交易數(shù)據(jù)的分類,從而識(shí)別出可疑異常財(cái)務(wù)數(shù)據(jù)。韓東明等從異常類型(屬性、拓?fù)浜突旌希┖彤惓z測方法(直接投影法、聚類方法和機(jī)器學(xué)習(xí)方法)兩個(gè)角度對(duì)面向時(shí)序異常檢測的可視分析工作進(jìn)行分類和總結(jié)。姜齊艷等提出了一套數(shù)據(jù)處理、數(shù)據(jù)挖掘和神經(jīng)網(wǎng)絡(luò)組合的財(cái)務(wù)異常檢測流程。徐軍通過差額的方式,將非時(shí)序性指標(biāo)轉(zhuǎn)化為時(shí)序性指標(biāo),并使用時(shí)序數(shù)據(jù)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)分類識(shí)別模型來對(duì)企業(yè)指標(biāo)變化情況進(jìn)行異常檢測。王亞林等結(jié)合差異分析、全局分析和強(qiáng)化學(xué)習(xí)方法來檢測用戶的行為是否存在異常。劉春雨等針對(duì)財(cái)務(wù)報(bào)銷審批進(jìn)行業(yè)務(wù)建模,形成可機(jī)器理解的報(bào)銷審批脫敏數(shù)據(jù),并根據(jù)實(shí)際業(yè)務(wù)特點(diǎn)構(gòu)造變量特征與標(biāo)簽,采用隨機(jī)森林對(duì)重構(gòu)后的變量進(jìn)行重要度分析。

      已有的研究主要從有監(jiān)督學(xué)習(xí)的方式來完成財(cái)務(wù)異常檢測,由于機(jī)器學(xué)習(xí)方法解釋性弱的問題,在識(shí)別準(zhǔn)確率達(dá)不到100%的情況下,對(duì)于識(shí)別為異常的行為比較依賴人工經(jīng)驗(yàn)的核對(duì),缺乏解釋性的數(shù)據(jù)支撐。而且由于業(yè)務(wù)變動(dòng),異常行為模式發(fā)生較大變化,模型的識(shí)別能力存在一定的滯后性。為了解決上述問題,本文結(jié)合無監(jiān)督學(xué)習(xí)和自然語言處理的方法,實(shí)現(xiàn)了異常行為模式自動(dòng)挖掘流程,構(gòu)建了財(cái)務(wù)數(shù)據(jù)異常在線檢測服務(wù)框架。

      3 財(cái)務(wù)異常分析系統(tǒng)

      3.1 系統(tǒng)框架結(jié)構(gòu)

      本文提出的財(cái)務(wù)異常分析系統(tǒng)的整體框架如圖1 所示。整體流程是財(cái)務(wù)各個(gè)子系統(tǒng)的歷史數(shù)據(jù),導(dǎo)入到系統(tǒng)進(jìn)行預(yù)處理,基于語義分析能力對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步結(jié)構(gòu)化解析,使用異常規(guī)則挖掘算法進(jìn)行離線計(jì)算,生成異常識(shí)別規(guī)則推送到管控平臺(tái),業(yè)務(wù)人員對(duì)識(shí)別規(guī)則進(jìn)行查詢、管理、編輯和應(yīng)用上線,上線后對(duì)接外部接口用以實(shí)時(shí)判斷和預(yù)警。

      圖1:財(cái)務(wù)異常分析系統(tǒng)框架結(jié)構(gòu)

      系統(tǒng)主要包括預(yù)處理模塊、基礎(chǔ)語義分析模塊、異常規(guī)則挖掘模塊和管控后臺(tái)。其中,預(yù)處理模塊主要負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行清洗、過濾無效數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)類型識(shí)別等功能;基礎(chǔ)語義分析模塊負(fù)責(zé)文本數(shù)據(jù)的基礎(chǔ)分析處理,包含中文分詞、詞性標(biāo)注、關(guān)鍵詞提取、句法分析、文本分類和實(shí)體識(shí)別等;異常規(guī)則挖掘模塊負(fù)責(zé)對(duì)不同類型的數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí)模型訓(xùn)練,完成異常規(guī)則挖掘并輸出具備解釋性的異常識(shí)別規(guī)則。管控后臺(tái)主要負(fù)責(zé)提供界面化后臺(tái)給到使用者對(duì)生成的關(guān)聯(lián)規(guī)則進(jìn)行規(guī)則過濾、二次編輯、可用性審核等操作。

      3.2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理模塊從財(cái)務(wù)系統(tǒng)進(jìn)行歷史存量數(shù)據(jù)導(dǎo)入,數(shù)據(jù)的形式主要分為四種類型,包括日期型字段、數(shù)值型字段、枚舉型字段、文本型字段。以出差發(fā)票報(bào)銷信息為例,發(fā)票報(bào)銷包含“出發(fā)日期”、“返回日期”、“部門”、“交通費(fèi)”、“住宿費(fèi)”、“事由”等字段,其中,“出發(fā)日期”和“返回日期”屬于日期型字段,“交通費(fèi)”和“住宿費(fèi)”屬于數(shù)值型字段,“部門”屬于枚舉型字段,“事由”屬于文本型字段。由于具體的日期數(shù)值通常不具備業(yè)務(wù)解釋意義,需要將日期型字段轉(zhuǎn)化為具備分析意義的信息,系統(tǒng)采用了差值的方式來表示日期型字段的內(nèi)涵,即對(duì)數(shù)據(jù)中的所有日期型字段進(jìn)行兩兩組合,計(jì)算每種組合的差值形成一個(gè)新的字段,類型為數(shù)值型。例如,組合“出發(fā)日期”和“返回日期”,生成一個(gè)新的字段“出發(fā)日期與返回日期的時(shí)間間隔”。最終模塊輸出的字段類型包含數(shù)值型字段、枚舉型字段、文本型字段三種類型。

      對(duì)原始數(shù)據(jù)進(jìn)行類型劃分和統(tǒng)一化表示處理,一方面是在數(shù)據(jù)接受時(shí)進(jìn)行對(duì)應(yīng)的類型檢查、校驗(yàn)數(shù)據(jù)的準(zhǔn)確性和完備性,如果識(shí)別導(dǎo)入的數(shù)據(jù)不符合格式要求、數(shù)值是不符合客觀要求、或者存在缺失值則作為無效數(shù)據(jù)進(jìn)行清洗。另一方面是在后續(xù)的挖掘環(huán)節(jié)針對(duì)不同的字段會(huì)采用不同的處理邏輯。

      3.3 語義解析

      在經(jīng)過數(shù)據(jù)預(yù)處理之后,文本型字段作為非結(jié)構(gòu)化形式難以直接使用。需要通過自然語言處理技術(shù)對(duì)其進(jìn)行結(jié)構(gòu)化處理,處理流程如圖2 所示。

      圖2:語義解析流程

      整體流程是:針對(duì)文本型字段,首先對(duì)文本進(jìn)行分詞處理;通過詞性標(biāo)注功能識(shí)別分詞詞性,提出無意義的虛詞;對(duì)文本進(jìn)行命名實(shí)體識(shí)別,剔除對(duì)業(yè)務(wù)意義影響比較小的人名、地名、公司名稱等實(shí)體名詞;使用關(guān)鍵詞提取算法,提取核心關(guān)鍵詞;將關(guān)鍵詞進(jìn)行入庫處理。在完成入庫處理之后,根據(jù)統(tǒng)計(jì)頻率設(shè)置人工閾值對(duì)于低頻長尾的標(biāo)簽進(jìn)行過濾,保留詞頻高于閾值的標(biāo)簽。

      在經(jīng)過語義解析之后,原本表達(dá)方式因人而異、形式不一的文本片段轉(zhuǎn)化為了可枚舉的標(biāo)簽集合。原來文本型的字段可以解析為多個(gè)標(biāo)簽的列表,可以直接轉(zhuǎn)為One-Hot 編碼使用到后續(xù)的異常規(guī)則算法流程中。

      3.4 基于無監(jiān)督學(xué)習(xí)的異常規(guī)則挖掘

      3.4.1 異常規(guī)則定義

      異常規(guī)則挖掘的主要目標(biāo)是從大量的歷史數(shù)據(jù)中學(xué)習(xí)到一般行為的普遍規(guī)律,如果具體的行為與識(shí)別到的規(guī)律相悖,則認(rèn)為是異常行為。異常識(shí)別規(guī)則采用產(chǎn)生式規(guī)則的表示方法,即R=X →Y,其中X 是規(guī)則的前件(前提),Y 是規(guī)則的規(guī)則的后件(結(jié)論)。

      采用該方法比較接近人的思維方式,可以理解為因?yàn)閄(滿足某些條件)所以Y(符合某個(gè)結(jié)論),適合于表達(dá)因果關(guān)系,規(guī)則可以直接轉(zhuǎn)化為具備解釋性的文字描述。

      異常規(guī)則挖掘主要采用了關(guān)聯(lián)規(guī)則學(xué)習(xí)和離群點(diǎn)檢測的算法實(shí)現(xiàn)。

      3.4.2 關(guān)聯(lián)規(guī)則學(xué)習(xí)

      關(guān)聯(lián)規(guī)則學(xué)習(xí)是一種常用的機(jī)器學(xué)習(xí)算法,其原理是利用一些度量指標(biāo)來生成強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則學(xué)習(xí)使用規(guī)則的支持度、置信度和提升度作三個(gè)基礎(chǔ)度量指標(biāo),他們分別反映規(guī)則的有用性、確定性和相關(guān)性。

      支持度(Support)表示某個(gè)項(xiàng)集在整體集合∩中發(fā)生的頻率。假定全部數(shù)據(jù)樣本里有N 條數(shù)據(jù),規(guī)則R=X →Y 的支持度Sup(R)計(jì)算公式可以表示為:

      置信度(Confidence)表示當(dāng)項(xiàng)集A 發(fā)生時(shí)項(xiàng)集B 同時(shí)發(fā)生的頻率。針對(duì)規(guī)則R=X →Y 的置信度,可以理解為在包含了 X 的條件下,含有 Y 的事務(wù)占總事務(wù)的比例。在實(shí)際使用中會(huì)設(shè)置一個(gè)最低置信度,那些大于或等于最小置信度的規(guī)則稱之為是有意義的規(guī)則。規(guī)則R=X →Y 的支持度Conf(R)計(jì)算公式可以表示為:

      提升度(Lift)表示表示含有X 的條件下,同時(shí)含有Y的概率,并且與Y 總體發(fā)生的概率做比值。提升度用來判斷規(guī)則X →Y 中的X 和Y 是否獨(dú)立,如果獨(dú)立,那么這個(gè)規(guī)則是無效的。規(guī)則R=X →Y 的支持度Conf(R)計(jì)算公式可以表示為:

      如果提升度等于1,說明兩個(gè)條件沒有任何關(guān)聯(lián)。如果提升度小于1,說明X 與Y 是負(fù)相關(guān)的關(guān)系,意味著一個(gè)出現(xiàn)可能導(dǎo)致另外一個(gè)不出現(xiàn)。大于1 才表示具有正相關(guān)的關(guān)系。一般在數(shù)據(jù)挖掘中當(dāng)提升度大于3 時(shí),才承認(rèn)挖掘出的關(guān)聯(lián)規(guī)則是有價(jià)值的。

      3.4.3 離群點(diǎn)檢測

      離群點(diǎn)(outlier)是指和其他觀測點(diǎn)偏離非常大的數(shù)據(jù)點(diǎn)。離群點(diǎn)檢測就是通過通過統(tǒng)計(jì)或者模型的方法檢測提取出與眾不同的數(shù)據(jù)對(duì)象。離群點(diǎn)不一定都是異常的數(shù)據(jù)點(diǎn),也有可能是誤差或者數(shù)據(jù)可變性導(dǎo)致。離群點(diǎn)檢測可以基于模型、基于聚類和基于統(tǒng)計(jì)的方法實(shí)現(xiàn)。檢測規(guī)則可解釋性原因的考慮,選用了基于統(tǒng)計(jì)的方法,并且采用Z 分?jǐn)?shù)作為離群點(diǎn)檢測的度量指標(biāo)。

      Z 分?jǐn)?shù)是一維或低維特征空間中的參數(shù)異常檢測方法。該技術(shù)假定數(shù)據(jù)是高斯分布,異常值是分布尾部的數(shù)據(jù)點(diǎn),因此遠(yuǎn)離數(shù)據(jù)的平均值。距離的遠(yuǎn)近取決于使用公式計(jì)算的歸一化數(shù)據(jù)點(diǎn)Z的設(shè)定閾值Z,Z 分?jǐn)?shù)的計(jì)算公式表示為:

      其中x是待檢測數(shù)據(jù)點(diǎn),μ 是所有點(diǎn)x的平均值,δ 是所有點(diǎn)x的標(biāo)準(zhǔn)偏差。

      離群點(diǎn)檢測時(shí),對(duì)待檢測的數(shù)據(jù)點(diǎn)x經(jīng)過標(biāo)準(zhǔn)化處理,計(jì)算Z 分?jǐn)?shù)Z,如果起絕對(duì)值大于Z則認(rèn)為異常點(diǎn):

      Z值一般設(shè)置為2.5、3.0 和3.5,高于閾值的檢測為異常點(diǎn)作后續(xù)處理。

      3.4.4 異常規(guī)則挖掘流程

      基于上述介紹的兩種規(guī)則挖掘策略,構(gòu)建了一個(gè)規(guī)則生成的流程框架如圖3 所示。

      圖3:異常規(guī)則挖掘流程

      原始數(shù)據(jù)經(jīng)過針對(duì)日期型字段進(jìn)行差值處理和針對(duì)文本型字段進(jìn)行語義解析獲取標(biāo)簽,最終所有原始數(shù)據(jù)信息都轉(zhuǎn)化為了數(shù)值型和枚舉型字段,得到已處理的數(shù)據(jù)點(diǎn)集D={x,x, ..., x},其中x={fn, fn, ..., fn, fe, fe, ..., fe},fn 和fe 分別表示數(shù)值型字段值和枚舉型字段值。

      為了提升算法計(jì)算效率,規(guī)則的前件采用頻繁項(xiàng)集計(jì)算得到的所有枚舉型標(biāo)簽集合,頻繁項(xiàng)集使用Apriori 算法來進(jìn)行挖掘。規(guī)則的后件針對(duì)不同的字段類型規(guī)則的后件針對(duì)不同的字段類型:枚舉型字段使用關(guān)聯(lián)規(guī)則學(xué)習(xí)來進(jìn)行規(guī)則生成,數(shù)值型采用離散點(diǎn)檢測來進(jìn)行規(guī)則生成。

      算法的思路是,迭代每個(gè)頻繁項(xiàng)集,生成不同的非空子集作為規(guī)則前件。一方面把差集作為規(guī)則后件,計(jì)算支持度、置信度和提升度指標(biāo);一方面針對(duì)各個(gè)數(shù)值型字段計(jì)算z 分?jǐn)?shù)閾值對(duì)應(yīng)數(shù)值,生成規(guī)則后件。最終針對(duì)每個(gè)規(guī)則生成解釋性描述,并且合并同種類型相同前件的規(guī)則。計(jì)算過程如算法1 所示。

      算法1 異常規(guī)則挖掘算法輸入:已處理的數(shù)據(jù)點(diǎn)集D;最小支持度MinSup,最小置信度MinConf;Z 分?jǐn)?shù)閾值Zthr輸出:1.掃描數(shù)據(jù)樣本集合,針對(duì)枚舉型字段值采用逐層搜索的迭代方式產(chǎn)生頻繁項(xiàng)集集合L 2.初始化候選規(guī)則列表3. for 頻繁項(xiàng)集集合L 中的每一個(gè)頻繁項(xiàng)集li do 4. for 頻繁項(xiàng)集li 中的每個(gè)枚舉型字段fej do 5. 若li 和fej 滿足如下條件 則輸出li-fej →fej 加入到候選規(guī)則列表:Sup(li)≥MinSupimages/BZ_265_477_1108_516_1145.pngimages/BZ_265_856_1135_895_1171.pngLift(li →fej)>=1 6. 生成數(shù)據(jù)點(diǎn)集D 中符合li 的樣本子集DSij 7. for 每個(gè)數(shù)值型字段fnk do 8.9. 計(jì)算DSij 中數(shù)值型字段fnj 對(duì)應(yīng)z 分?jǐn)?shù)閾值的數(shù)值xthr,滿足10. 輸出 li-fej →(x>xthr) 加入到候選規(guī)則列表11. end for 12. end for 13. end for 14. 初始化輸出規(guī)則列表15. for 候選規(guī)則列表中的每一條規(guī)則ri do 16. if ri 由關(guān)聯(lián)學(xué)習(xí)生成 then 17. 生成ri 的解釋性描述模板,增加規(guī)則的置信度到解釋性描述18. 若輸出規(guī)則列表已存在同樣規(guī)則前件的規(guī)則rj,則對(duì)兩規(guī)則進(jìn)行合并,否則加入輸出規(guī)則列表19. else 20. 生成ri 的解釋性描述模板,增加閾值說明到解釋性描述21. 加入輸出規(guī)則列表22. end if 23. end for

      因?yàn)槟P万?qū)動(dòng)的規(guī)則生成準(zhǔn)確率會(huì)受限于原始數(shù)據(jù)本身的數(shù)量和質(zhì)量,所以需要解釋性的內(nèi)容輔助業(yè)務(wù)人員是否有效。生成解釋性描述的目標(biāo)是幫助業(yè)務(wù)人員確認(rèn)規(guī)則是否有效,這點(diǎn)是以往財(cái)務(wù)異常檢測研究工作中忽視的一點(diǎn)。規(guī)則的解釋性描述面向關(guān)聯(lián)規(guī)則學(xué)習(xí)策略和離群點(diǎn)檢測策略,構(gòu)造的方式不同,關(guān)聯(lián)規(guī)則學(xué)習(xí)策略構(gòu)建的規(guī)則會(huì)采用規(guī)則的置信度等內(nèi)容,離群點(diǎn)檢測策略構(gòu)建的規(guī)則會(huì)采用Z 分?jǐn)?shù)閾值作為描述說明。針對(duì)具體數(shù)據(jù)生成的解釋性示例如表1所示。

      表1:異常規(guī)則解釋性說明示例

      3.4.5 管控后臺(tái)

      按照財(cái)務(wù)共享中心需求設(shè)計(jì)的一套異常規(guī)則挖掘管控系統(tǒng),用于對(duì)挖掘模塊產(chǎn)生的所有規(guī)則進(jìn)行集中管控,具體功能包含如下:

      (1)管控大廳功能:實(shí)現(xiàn)對(duì)整套關(guān)聯(lián)關(guān)系挖掘系統(tǒng)的運(yùn)行管控,包括系統(tǒng)運(yùn)行任務(wù)管理,數(shù)據(jù)導(dǎo)入導(dǎo)出管理等;

      (2)規(guī)則審核功能:對(duì)生成的規(guī)則進(jìn)行人工審核,支持設(shè)定閾值值,權(quán)重等處理;

      (3)規(guī)則訓(xùn)練界面:編輯后對(duì)規(guī)則進(jìn)行重新訓(xùn)練,創(chuàng)建訓(xùn)練任務(wù),設(shè)定數(shù)據(jù)范圍等操作;

      (4)規(guī)則運(yùn)維界面:對(duì)所有規(guī)則進(jìn)行集中管控,包括規(guī)則的分組,命名,上下線,調(diào)用,刪除等操作。

      4 實(shí)驗(yàn)與評(píng)估

      本節(jié)通過實(shí)驗(yàn)來驗(yàn)證基于財(cái)務(wù)異常規(guī)則挖掘的性能,采用了規(guī)則識(shí)別異常數(shù)據(jù)的準(zhǔn)確率和召回率(檢出率)作為實(shí)驗(yàn)對(duì)比指標(biāo)。實(shí)驗(yàn)數(shù)據(jù)集使用了發(fā)票報(bào)銷數(shù)據(jù)集,數(shù)據(jù)集大小為972418。隨機(jī)選擇4000 條樣本作為效果驗(yàn)證樣本,并且在其中10%進(jìn)行人工錯(cuò)誤設(shè)置,其余作為模型訓(xùn)練樣本。而且在人工設(shè)錯(cuò)樣本中,枚舉型標(biāo)簽錯(cuò)誤和數(shù)值型標(biāo)簽錯(cuò)誤各占5%,分別檢測關(guān)聯(lián)規(guī)則學(xué)習(xí)和離群點(diǎn)檢測的策略效果。

      實(shí)驗(yàn)針對(duì)關(guān)聯(lián)規(guī)則學(xué)習(xí)、離群點(diǎn)檢測和整體的情況進(jìn)行了評(píng)估分析,最小支持度MinConf 設(shè)置固定為0.1%,對(duì)最小置信度MinConf 和Z 分?jǐn)?shù)閾值Z兩個(gè)指標(biāo)設(shè)置分組實(shí)驗(yàn),MinConf 和Z參數(shù)值設(shè)置為(87.5%,90%,92.5%,95%,97.5%)和(87.5%,90%,92.5%,95%,97.5%)。

      最小置信度對(duì)照組的實(shí)驗(yàn)結(jié)果如表2 所示,實(shí)驗(yàn)表明隨著最小置信度提升,異常數(shù)據(jù)識(shí)別的準(zhǔn)確率會(huì)響應(yīng)提升,召回率會(huì)下降。最小置信度對(duì)照組的實(shí)驗(yàn)結(jié)果如表3 所示,實(shí)驗(yàn)表明隨著Z 分?jǐn)?shù)閾值提升,異常數(shù)據(jù)識(shí)別的準(zhǔn)確率會(huì)響應(yīng)提升,召回率會(huì)下降。

      表2:最小置信度對(duì)照組實(shí)驗(yàn)結(jié)果

      表3:Z 分?jǐn)?shù)對(duì)照組實(shí)驗(yàn)結(jié)果

      最小置信度MinConf 和Z 分?jǐn)?shù)閾值Z兩個(gè)指標(biāo)分別使用90%和90%時(shí),兩種策略和整體的實(shí)驗(yàn)結(jié)果如表4 所示。實(shí)驗(yàn)結(jié)果表明,通過無監(jiān)督學(xué)習(xí)的異常檢測方法在正常的業(yè)務(wù)數(shù)據(jù)中誤報(bào)率低于0.3,而且異常識(shí)別規(guī)則能夠進(jìn)入后臺(tái)進(jìn)行維護(hù)、編輯和管理,在實(shí)際的操作中能夠有效協(xié)助業(yè)務(wù)人員完成財(cái)務(wù)審核工作。

      表4:算法策略實(shí)驗(yàn)結(jié)果

      5 結(jié)語

      文中提出并開發(fā)了一種無監(jiān)督學(xué)習(xí)的財(cái)務(wù)異常分析檢測系統(tǒng),使用了關(guān)聯(lián)規(guī)則學(xué)習(xí)和離群點(diǎn)檢測的策略構(gòu)建了異常數(shù)據(jù)識(shí)別模型,評(píng)估了所提出框架的性能。實(shí)驗(yàn)表明經(jīng)過大批量數(shù)據(jù)的離線訓(xùn)練,可以在構(gòu)造的數(shù)據(jù)集中取得誤報(bào)率低于0.3 的效果,表明了系統(tǒng)能夠有效支撐業(yè)務(wù)人員的審核工作。而且通過對(duì)接系統(tǒng)數(shù)據(jù)進(jìn)行模型的持續(xù)更新,結(jié)合管控平臺(tái)通過人機(jī)協(xié)同的方式,可以實(shí)現(xiàn)業(yè)務(wù)審核點(diǎn)地不斷自我完善及升級(jí),最大程度的挖掘數(shù)據(jù)潛在的價(jià)值和效用。

      但是本文仍存在一些不足之處,雖然模型具備解釋性能力,但是也約束了模型的輸入形態(tài)和異常檢測方式。未來研究將會(huì)在數(shù)據(jù)的嵌入表示、使用對(duì)高維數(shù)據(jù)友好的模型以及基于NLP 的自動(dòng)化解釋生成等方面進(jìn)行工作擴(kuò)展,進(jìn)一步提升財(cái)務(wù)審核系統(tǒng)的異常數(shù)據(jù)監(jiān)測能力。

      猜你喜歡
      枚舉解釋性離群
      著力構(gòu)建可解釋性模型
      基于理解性教學(xué)的信息技術(shù)教學(xué)案例研究
      速讀·上旬(2022年2期)2022-04-10 16:42:14
      一種高效的概率圖上Top-K極大團(tuán)枚舉算法
      論行政自由裁量的“解釋性控權(quán)”
      法律方法(2021年4期)2021-03-16 05:35:16
      融媒體時(shí)代解釋性報(bào)道的發(fā)展之路
      傳播力研究(2017年5期)2017-03-28 09:08:30
      非解釋性憲法適用論
      基于太陽影子定位枚舉法模型的研究
      離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
      離群的小雞
      應(yīng)用相似度測量的圖離群點(diǎn)檢測方法
      明水县| 鹤壁市| 清徐县| 阳原县| 连城县| 南江县| 重庆市| 冀州市| 宁化县| 龙岩市| 宁津县| 临泽县| 措勤县| 太白县| 惠水县| 高陵县| 三穗县| 宜州市| 锦屏县| 河源市| 康定县| 上蔡县| 珠海市| 庆阳市| 米易县| 灌云县| 阳东县| 华容县| 逊克县| 读书| 黔江区| 嘉定区| 阿瓦提县| 高陵县| 麦盖提县| 瓦房店市| 大姚县| 高淳县| 九寨沟县| 高阳县| 泗水县|