• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于并行隨機(jī)森林的審計(jì)大數(shù)據(jù)疑點(diǎn)預(yù)測(cè)?

    2019-03-01 02:52:12盧利娟余從容梁東貴張偉政
    關(guān)鍵詞:疑點(diǎn)決策樹(shù)電力企業(yè)

    盧利娟 余從容 梁東貴 張偉政

    (廣州供電局有限公司 廣州 510000)

    1 引言

    隨著電網(wǎng)企業(yè)信息化部署的完善以及業(yè)務(wù)系統(tǒng)和信息系統(tǒng)的逐步上線(xiàn),電力企業(yè)產(chǎn)生的電子數(shù)據(jù)比以往更多,審計(jì)數(shù)據(jù)呈海量化的增長(zhǎng),存儲(chǔ)規(guī)模從GB級(jí)增長(zhǎng)到TB甚至PB級(jí),形成審計(jì)大數(shù)據(jù)庫(kù)[1]。面對(duì)海量以及快速增長(zhǎng)以及包含結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化等結(jié)構(gòu)類(lèi)型繁多復(fù)雜的審計(jì)大數(shù)據(jù),如何對(duì)其進(jìn)行可靠存儲(chǔ)、高效管理和快速分析,充分發(fā)揮大數(shù)據(jù)在發(fā)現(xiàn)數(shù)據(jù)證據(jù)方面的全覆蓋優(yōu)勢(shì),是當(dāng)前重要的研究課題。

    國(guó)家層面已愈發(fā)重視電力企業(yè)審計(jì)[2],對(duì)于審計(jì)業(yè)務(wù)部門(mén),如何制定科學(xué)、有效的審計(jì)項(xiàng)目和審計(jì)計(jì)劃成為審計(jì)部門(mén)工作的重點(diǎn)。以往審計(jì)計(jì)劃的制定主要依據(jù)過(guò)往審計(jì)經(jīng)驗(yàn)、國(guó)家政策關(guān)注重點(diǎn)、審計(jì)單位關(guān)注重點(diǎn)等[3],缺乏客觀(guān)有效的、科學(xué)的數(shù)據(jù)支撐。而基于被審計(jì)單位各類(lèi)已經(jīng)發(fā)生的審計(jì)問(wèn)題的歷史積累數(shù)據(jù),探索未來(lái)某類(lèi)審計(jì)問(wèn)題可能性以及該類(lèi)審計(jì)問(wèn)題出現(xiàn)頻次的預(yù)測(cè)方法,以指導(dǎo)業(yè)務(wù)人員展開(kāi)審計(jì)工作,既能發(fā)揮審計(jì)大數(shù)據(jù)全覆蓋優(yōu)勢(shì),又使得根據(jù)預(yù)測(cè)制定的審計(jì)計(jì)劃更具有客觀(guān)科學(xué)的數(shù)據(jù)支持,因而對(duì)于電力企業(yè)數(shù)據(jù)審計(jì)具有重要意義。

    為此,在研究已有大數(shù)據(jù)相關(guān)技術(shù)的基礎(chǔ)上,建立一種基于Hadoop集群的電力企業(yè)審計(jì)大數(shù)據(jù)管理方案,利用Hadoop集群搭建數(shù)據(jù)存儲(chǔ)平臺(tái),將各電力企業(yè)散的子系統(tǒng)中產(chǎn)生和存儲(chǔ)數(shù)據(jù)進(jìn)行整合并存儲(chǔ),在此基礎(chǔ)上,以審計(jì)疑點(diǎn)概率作為目標(biāo)變量,提出基于并行改進(jìn)隨機(jī)森林的審計(jì)大數(shù)據(jù)審計(jì)疑點(diǎn)發(fā)生概率預(yù)測(cè)方法,為審計(jì)計(jì)劃的制定提供數(shù)據(jù)支撐,采用不同規(guī)模的大數(shù)據(jù)集對(duì)算法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的有效性。

    2 基于Hadoop的分析平臺(tái)構(gòu)建

    2.1 大數(shù)據(jù)分析平臺(tái)

    針對(duì)電力企業(yè)各不同的子系統(tǒng)產(chǎn)生的海量且結(jié)構(gòu)異構(gòu)的審計(jì)大數(shù)據(jù),如何構(gòu)建同一規(guī)范表達(dá)的模型以實(shí)現(xiàn)數(shù)據(jù)整合是亟需解決的問(wèn)題。為此,在進(jìn)行大數(shù)據(jù)審計(jì)疑點(diǎn)預(yù)測(cè)前,在云計(jì)算[4]基礎(chǔ)上,結(jié)合審計(jì)大數(shù)據(jù)管理與分析的實(shí)際需求,利用Hadoop構(gòu)建如圖1所示審計(jì)大數(shù)據(jù)管理平臺(tái),平臺(tái)由應(yīng)用層、云計(jì)算數(shù)據(jù)處理層和管理層三部分組成,存儲(chǔ)系統(tǒng)由HDFS、HBase與Hive建立,大數(shù)據(jù)的分析處理則由MapReduce和Spark并行計(jì)算框架完成。

    2.2 數(shù)據(jù)管理層

    數(shù)據(jù)管理層主要將電網(wǎng)異構(gòu)數(shù)據(jù)整合至平臺(tái)以高效管理,文中使用第三方Sqoop和Datanucleus工具進(jìn)行操作,sqoop工具將電力子系統(tǒng)的結(jié)構(gòu)類(lèi)型各異的數(shù)據(jù)整合到Hive與Hbase中[5],Datanucleus工具的按列存儲(chǔ)操作能力,將在線(xiàn)產(chǎn)生的數(shù)據(jù)寫(xiě)入到HBase中,抽取整合流程如圖2所示。

    2.3 云計(jì)算數(shù)據(jù)處理層與應(yīng)用層

    云計(jì)算處理層主要完成對(duì)審計(jì)大數(shù)據(jù)的存儲(chǔ)及挖掘、預(yù)測(cè)等計(jì)算功能,其由Hadoop搭建。

    根據(jù)已有大數(shù)據(jù)存儲(chǔ)方面的研究[6~9],文中數(shù)據(jù)存儲(chǔ)在HDFS分布式文件系統(tǒng)中,考慮到審計(jì)數(shù)據(jù)的保密性和安全性,利用Hbase數(shù)據(jù)庫(kù)的高性能和現(xiàn)代密碼技術(shù)優(yōu)勢(shì),將存儲(chǔ)系統(tǒng)的密鑰與密文管理相分離。采用MapReduce[10]并行計(jì)算模型完成大數(shù)據(jù)的并行批量計(jì)算,而Spark內(nèi)存并行計(jì)算模型則完成密集型數(shù)據(jù)的迭代。Spark彌補(bǔ)了Hadoop在快速迭代上的速率不足。Spark內(nèi)存并行計(jì)算框架將所需數(shù)據(jù)讀入內(nèi)存,在內(nèi)存中完成所需數(shù)據(jù)的查詢(xún),從而比MapReduce的基于磁盤(pán)數(shù)據(jù)訪(fǎng)問(wèn)速度快的多,提高運(yùn)行效率并減少不必要的IO操作。

    應(yīng)用層主要在去計(jì)算數(shù)據(jù)處理層功能基礎(chǔ)上為電力企業(yè)各部門(mén)提供功能接口。

    3 并行隨機(jī)森林審計(jì)疑點(diǎn)預(yù)測(cè)

    3.1 審計(jì)疑點(diǎn)發(fā)生概率預(yù)測(cè)

    審計(jì)疑點(diǎn)預(yù)測(cè)為審計(jì)計(jì)劃的制定提供科學(xué)有效的數(shù)據(jù)支撐。目前,決策樹(shù)在傳統(tǒng)預(yù)測(cè)中應(yīng)用廣泛[11~12],且取得較好的研究成果,但其在大數(shù)據(jù)審計(jì)疑點(diǎn)預(yù)測(cè)中還存在內(nèi)存需求大、影響隨機(jī)因素多等不足,無(wú)法滿(mǎn)足大數(shù)據(jù)下審計(jì)疑點(diǎn)預(yù)測(cè)要求。隨機(jī)森林算法[13]是多決策樹(shù)集成方法,決策樹(shù)由Bagging理論和Ho隨機(jī)子空間理論[14]得到,最終結(jié)果為各樹(shù)結(jié)果綜合,具有良好的并行擴(kuò)展,適于文中快速疑點(diǎn)預(yù)測(cè)。

    3.2 隨機(jī)森林算法原理

    算法是由一系列分配有獨(dú)立的樣本訓(xùn)練集TS的分類(lèi)回歸樹(shù)組成的,其中獨(dú)立訓(xùn)練樣本集根據(jù)Bagging算法抽取,且與總樣本集等規(guī)模,而內(nèi)部節(jié)點(diǎn)則是由Ho理論選取的隨機(jī)屬性子集構(gòu)成,從而形成樹(shù)群,最終結(jié)果為各樹(shù)結(jié)果投票或平均得到,圖3所示為單樹(shù)訓(xùn)練流程。

    圖3可以看出,單樹(shù)構(gòu)造主要根據(jù)屬性子集進(jìn)行分支,然后在子樹(shù)上重復(fù)執(zhí)行劃分過(guò)程,直到滿(mǎn)足停止生長(zhǎng)條件。

    圖3 隨機(jī)森林算法單樹(shù)訓(xùn)練

    Gini指數(shù)度量節(jié)點(diǎn)的不純性,適于算法中分類(lèi)樹(shù)的構(gòu)建,其計(jì)算式為[13]

    式中:t為節(jié)點(diǎn)屬性,p(j/t)表示 j類(lèi)目標(biāo)在當(dāng)前節(jié)點(diǎn)比例。最小二乘偏差適于算法中回歸樹(shù)構(gòu)建,節(jié)點(diǎn)t擬合后,其誤差表示為

    式中nt為節(jié)點(diǎn)數(shù)據(jù)實(shí)例數(shù),kt為實(shí)例數(shù)據(jù)目標(biāo)值均值kt=(∑yi)/nt,節(jié)點(diǎn)t最小二乘偏差標(biāo)準(zhǔn)為使式(3)最大

    式中SL=∑DiLyi,SR=∑DiRyi,s為屬性值。

    3.3 并行隨機(jī)森林審計(jì)疑點(diǎn)預(yù)測(cè)

    集成學(xué)習(xí)思想為隨機(jī)森林算法實(shí)現(xiàn)并行化處理的基礎(chǔ),但其并不僅僅是K個(gè)樹(shù)模型的簡(jiǎn)單組合,Bagging有放回的抽樣,使得訓(xùn)練樣本集中約有37%的數(shù)據(jù)差異[15],且構(gòu)建過(guò)程獨(dú)立,確保了訓(xùn)練過(guò)程數(shù)據(jù)的并行化,從而提高模型生成的速率,而隨機(jī)子空間方法在進(jìn)行節(jié)點(diǎn)屬性測(cè)試時(shí),隨機(jī)抽取避免了所有屬性的讀入和過(guò)度擬合?;诖宋闹刑岢隽嘶贛apReduce的并行改進(jìn)隨機(jī)森林算法對(duì)審計(jì)計(jì)大數(shù)據(jù)進(jìn)行審計(jì)疑點(diǎn)預(yù)測(cè)。改進(jìn)算法在訓(xùn)練階段由3個(gè)MapReduce作業(yè)類(lèi)前后依次完成數(shù)據(jù)字典生成、決策樹(shù)生成、隨機(jī)森林形成,訓(xùn)練后的模型保存在Hadoop分布式集群中。

    數(shù)據(jù)字典生成即為對(duì)訓(xùn)練樣本描述其條件和決策屬性,并形成一個(gè)記錄條件屬性類(lèi)型和決策屬性位置以及最終模型屬性的描述文件。數(shù)據(jù)字典生成過(guò)程由第一個(gè)MapReduce完成,其一個(gè)Map過(guò)程完成一部分?jǐn)?shù)據(jù)的讀取,并完成描述文件的生成,描述文件在Hadoop中以以key/value的的數(shù)據(jù)模式保存到HDFS中,用于后續(xù)的MapReduce調(diào)用。

    決策樹(shù)生成是算法并行改進(jìn)的核心部分,其并行實(shí)現(xiàn)過(guò)程由以下幾個(gè)方面組成。

    1)Bagging并行抽取Dataset集中原數(shù)據(jù)集的k樣本子集,TS1,TS2,…,TSK,由于采用有放回,所以并行抽樣不會(huì)對(duì)訓(xùn)練子集TSi產(chǎn)生影響,且子集與原數(shù)據(jù)集同規(guī)模,這樣保證訓(xùn)練子集的差異又不會(huì)改變?cè)瓟?shù)據(jù)集的知識(shí)規(guī)模。

    2)每個(gè)訓(xùn)練子集中,根據(jù)其屬性數(shù)M 計(jì)算隨機(jī)子空間屬性子集大小m?(m?M),即節(jié)點(diǎn)的隨機(jī)屬性個(gè)數(shù),根據(jù)已有研究,對(duì)于隨機(jī)森林模型為分類(lèi)模型,則取中m為M的方根,而為回歸模型時(shí),取其為M的1/3。然后計(jì)算屬性的信息量,并根據(jù)最佳屬性進(jìn)行分支。

    3)遞歸運(yùn)算完成節(jié)點(diǎn)的建立,進(jìn)而生成所需的決策樹(shù),遞歸過(guò)程如表1所示。

    表1 決策樹(shù)生成的map偽代碼

    Map程序可實(shí)現(xiàn)一個(gè)決策樹(shù)生成,K個(gè)樹(shù)并行生成。并行決策樹(shù)生成在第二個(gè)MapRaduce中實(shí)現(xiàn),該過(guò)程僅進(jìn)行Map過(guò)程而無(wú)Raduce過(guò)程。

    圖4 并行隨機(jī)森林審計(jì)疑點(diǎn)預(yù)測(cè)流程圖

    第三個(gè)MapRaduce過(guò)程主要根據(jù)生成的K個(gè)決策樹(shù)形成最終的隨機(jī)森林決策。使用并行隨機(jī)森林算法進(jìn)行審計(jì)疑點(diǎn)發(fā)生概率預(yù)測(cè)的過(guò)程如圖4所示。模型依托Hadoop分布式集群實(shí)現(xiàn)審計(jì)大數(shù)據(jù)的分布式存儲(chǔ),依托MapReduce進(jìn)行并行化優(yōu)化,從而充分發(fā)揮Hadoop集群在審計(jì)大數(shù)據(jù)上的存儲(chǔ)與高效計(jì)算能力完成審計(jì)數(shù)據(jù)的挖掘和預(yù)測(cè),有效提高審計(jì)疑點(diǎn)發(fā)生概率預(yù)測(cè)的精度和大數(shù)據(jù)處理能力。

    4 實(shí)驗(yàn)及分析

    為驗(yàn)證算法的有效性,構(gòu)建了由40臺(tái)PC機(jī)組成的實(shí)驗(yàn)平臺(tái),每臺(tái)計(jì)算機(jī)配置為Inter(R)Core?i5-3470 CPU@3.2 GHz,8.00 GB內(nèi)存。平臺(tái)中一臺(tái)作為主節(jié)點(diǎn),對(duì)所有資源進(jìn)行分配與調(diào)度以及管理文件系統(tǒng),其他為數(shù)據(jù)節(jié)點(diǎn),完成存儲(chǔ)和預(yù)測(cè)運(yùn)算。分布在各獨(dú)立電力企業(yè)子系統(tǒng)中的審計(jì)數(shù)據(jù)通過(guò)開(kāi)源Sqoop工具遷移到Hadoop集群。

    采用某電力企業(yè)2013-2017年度審計(jì)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),審計(jì)問(wèn)題劃分為15類(lèi),如圖5所示。總共192020條風(fēng)險(xiǎn)統(tǒng)計(jì)數(shù)據(jù),去重復(fù)和異常處理后,最終整理成6000條記錄,抽樣其中1300條記錄作為測(cè)試集合。

    實(shí)驗(yàn)分兩部分,首先將實(shí)驗(yàn)數(shù)據(jù)人為擴(kuò)充到大數(shù)據(jù)規(guī)模,取50次運(yùn)行結(jié)果的平均值;其次根據(jù)未來(lái)審計(jì)問(wèn)題的存在與否與往年是否發(fā)現(xiàn)類(lèi)似問(wèn)題以及其發(fā)現(xiàn)的頻數(shù)有關(guān),將各類(lèi)別的審計(jì)問(wèn)題歷史數(shù)據(jù)按照時(shí)間(年)維度進(jìn)行排序,將最近一年的審計(jì)問(wèn)題發(fā)生的頻數(shù)作為目標(biāo)變量,也就是2017年的審計(jì)問(wèn)題發(fā)生的頻數(shù)作為目標(biāo)變量,其余年份的作為分析字段進(jìn)行預(yù)測(cè)比較,從而檢測(cè)算法預(yù)測(cè)精確性。

    圖5 審計(jì)數(shù)據(jù)類(lèi)別分布圖

    4.1 算法運(yùn)行速率比較實(shí)驗(yàn)

    從圖6所示的結(jié)果為本文算法與傳統(tǒng)隨機(jī)森林算法在不同規(guī)模審計(jì)大數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果,可以看出,在數(shù)據(jù)規(guī)模較少時(shí)時(shí),兩種算法的預(yù)測(cè)時(shí)間相近,且傳統(tǒng)方法略有時(shí)間優(yōu)勢(shì),這主要是因?yàn)椴⑿袛?shù)據(jù)分塊及節(jié)點(diǎn)間通訊代價(jià)影響到預(yù)測(cè)速度;但隨著樣本規(guī)模增大,文中算法的時(shí)間優(yōu)勢(shì)越來(lái)越顯示,迭代預(yù)測(cè)所需的時(shí)間遠(yuǎn)少于傳統(tǒng)方法。

    圖6 兩種算法不同數(shù)據(jù)集規(guī)模預(yù)測(cè)所需時(shí)間

    4.2 算法預(yù)測(cè)精度比較實(shí)驗(yàn)

    如圖7所示為文中并行算法與傳統(tǒng)決策樹(shù)算法在往年審計(jì)問(wèn)題數(shù)據(jù)統(tǒng)計(jì)基礎(chǔ)上,以2017年審計(jì)問(wèn)題發(fā)生頻數(shù)作為疑點(diǎn)進(jìn)行預(yù)測(cè)結(jié)果,預(yù)測(cè)結(jié)果仍是多次實(shí)驗(yàn)后的平均值。可以看出,文中算法審計(jì)疑點(diǎn)預(yù)測(cè)要比傳統(tǒng)方法更精確,這主要是因?yàn)槲闹胁⑿懈倪M(jìn)算法通過(guò)通過(guò)若干有放回的隨機(jī)抽樣生成的決策樹(shù)進(jìn)行預(yù)測(cè),既保留了決策樹(shù)的優(yōu)點(diǎn)又克服其一些缺陷,表現(xiàn)出更好的預(yù)測(cè)性能。

    圖7 兩種算法審計(jì)疑點(diǎn)預(yù)測(cè)結(jié)果

    以式(4)平均相對(duì)誤差來(lái)評(píng)價(jià)15類(lèi)審計(jì)問(wèn)題發(fā)生概率預(yù)測(cè)的結(jié)果,多次實(shí)驗(yàn)結(jié)果的平均值得到,文中并行隨機(jī)森林算法的平均相對(duì)誤差1.43%,而決策樹(shù)平均相對(duì)識(shí)別為2.12%,說(shuō)明文中算法的預(yù)測(cè)精度略?xún)?yōu)于決策樹(shù)。

    式中Yi與yi分別為審計(jì)問(wèn)題概率真值與預(yù)測(cè)值。綜合以上兩個(gè)實(shí)驗(yàn)結(jié)果可以看出,文中并行隨機(jī)森林算法在運(yùn)行速度和預(yù)測(cè)精度上都取得了較好的實(shí)驗(yàn)結(jié)果,說(shuō)明文中算法適于審計(jì)大數(shù)據(jù)下審計(jì)疑點(diǎn)發(fā)生概率預(yù)測(cè),可為審計(jì)計(jì)劃的制定提供數(shù)據(jù)支撐。

    5 結(jié)語(yǔ)

    為使審計(jì)計(jì)劃的制定具有科學(xué)的數(shù)據(jù)支撐,在審計(jì)大數(shù)據(jù)背景下,提出基于并行改進(jìn)隨機(jī)森林算法的審計(jì)疑點(diǎn)發(fā)生概率預(yù)測(cè)算法。首先建立基于Hadoop的電力企業(yè)審計(jì)大數(shù)據(jù)管理方案,將各電網(wǎng)子系統(tǒng)采集到的異構(gòu)審計(jì)數(shù)據(jù)整合并存儲(chǔ),在此基礎(chǔ)上,實(shí)現(xiàn)基于三層MapRaduce的并行化改進(jìn)隨機(jī)森林算法預(yù)測(cè)審計(jì)疑點(diǎn)發(fā)生概率,以滿(mǎn)足大數(shù)據(jù)對(duì)算法運(yùn)行效率的要求。實(shí)測(cè)數(shù)據(jù)對(duì)比實(shí)驗(yàn)驗(yàn)證了算法的有效性。

    猜你喜歡
    疑點(diǎn)決策樹(shù)電力企業(yè)
    一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
    決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    電力企業(yè)物資管理模式探討
    始于深度詮釋疑點(diǎn)
    中國(guó)電力企業(yè)的海外投資熱潮
    能源(2017年9期)2017-10-18 00:48:25
    物聯(lián)網(wǎng)技術(shù)在智慧城市建設(shè)應(yīng)用中的難點(diǎn)與疑點(diǎn)
    巧用方法 突破疑點(diǎn)
    基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
    關(guān)于電力企業(yè)生產(chǎn)管理信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)應(yīng)用
    解析西藏古建筑具備防雷措施說(shuō)法疑點(diǎn)
    西藏科技(2015年10期)2015-09-26 12:10:25
    巧家县| 庆阳市| 略阳县| 门头沟区| 辛集市| 桦南县| 兴文县| 平定县| 石门县| 铜梁县| 新兴县| 开平市| 玛多县| 右玉县| 望谟县| 闽清县| 百色市| 六枝特区| 彩票| 黔东| 南华县| 嘉禾县| 浦北县| 宜丰县| 武平县| 翁牛特旗| 图们市| 上饶县| 连云港市| 凭祥市| 霍城县| 洛阳市| 建湖县| 旬阳县| 盐边县| 徐州市| 得荣县| 达拉特旗| 云南省| 石景山区| 绵竹市|