• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于孤立森林模型的企業(yè)用水異常檢測研究

      2019-06-30 00:26:46巫朝星
      企業(yè)科技與發(fā)展 2019年11期
      關(guān)鍵詞:異常檢測公共安全

      巫朝星

      【摘 要】文章基于企業(yè)用水量,提出一種結(jié)合業(yè)務(wù)規(guī)則和無監(jiān)督算法的企業(yè)用水異常檢測方法。首先基于業(yè)務(wù)經(jīng)驗的凝練規(guī)則,將數(shù)據(jù)集分為含有顯著異常的部分和含有潛在異常的部分。然后針對含有顯著異常的部分,通過分類規(guī)則判定異常類型;針對含有潛在異常的部分,則利用孤立森林算法進(jìn)行異常檢測,并對異常進(jìn)行聚類,判定異常類型。在企業(yè)用水量數(shù)據(jù)集上的實驗結(jié)果表明,該方法能夠找出存在異常的企業(yè)并把握異常的模式。

      【關(guān)鍵詞】公共安全;異常檢測;孤立森林

      【中圖分類號】TP311.13 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-0688(2019)11-0061-03

      0 引言

      異常檢測是一種數(shù)據(jù)挖掘技術(shù),是指在從數(shù)據(jù)集中找出其行為不同于預(yù)期的過程[1],已經(jīng)被應(yīng)用于眾多領(lǐng)域,如金融、醫(yī)療和圖像處理等[2]。如今,這項技術(shù)也被一些電力公司和自來水公司所采用,主要目的是降低公司運營成本。如自來水公司會對城市水管網(wǎng)區(qū)用水進(jìn)行監(jiān)測,尋找其中的異常模式,這為公司實施科學(xué)化運行管理提供重要依據(jù)[3-5];電力公司檢測異常用電模式降低非技術(shù)性損失,如監(jiān)測用戶竊電和欺詐行為,降低公司運營成本[6-9]。在公共安全部門,異常檢測尚未得到廣泛應(yīng)用。企業(yè)用水量作為企業(yè)日常資源消耗的數(shù)據(jù)之一,一定程度上反映了企業(yè)運營的基本狀況,如企業(yè)生產(chǎn)的規(guī)模和狀態(tài)。對企業(yè)用水量的監(jiān)測可以了解企業(yè)的生產(chǎn)運作狀態(tài),若能及時發(fā)現(xiàn)生產(chǎn)運作狀態(tài)異常企業(yè),對于保護(hù)公共財產(chǎn)和維護(hù)社會安全有十分重要的意義。然而,各種規(guī)模的企業(yè)和海量的用水?dāng)?shù)據(jù)為監(jiān)測帶來了挑戰(zhàn),且人工監(jiān)測和頻繁的現(xiàn)場探測消耗大量人力、物力,成本較高。因此,公共安全部門亟需一套行之有效、基于海量數(shù)據(jù)的異常企業(yè)檢測方案,為部門管理決策提供支持。

      目前,常見的異常檢測方法主要有基于統(tǒng)計分布的方法[10]、基于距離的方法[11]、基于密度的方法[12]、基于聚類的方法[13]和基于樹的方法[14]5種。本文從公共安全部門視角出發(fā),針對企業(yè)每月的用水量,提出了一套結(jié)合業(yè)務(wù)規(guī)則和無監(jiān)督算法的異常檢測方案,并對檢測出來的異常進(jìn)行分類和聚類分析,為公共安全部門的管理決策提供建議。考慮到每種異常檢測的算法都有難以解決的異常模式,本文在異常檢測開始階段結(jié)合了基于業(yè)務(wù)經(jīng)驗的規(guī)則,將數(shù)據(jù)集分為含有顯著異常的部分和含有潛在異常的部分。綜合考量算法的假設(shè)與數(shù)據(jù)集的匹配度和算法的復(fù)雜度,從上文提到的5種經(jīng)典的異常檢測方法中,選擇iForest作為異常檢測算法。針對含有顯著異常的部分,通過規(guī)則判定異常的類型。針對含有潛在異常的部分,則利用iForest進(jìn)行異常檢測,并對異常進(jìn)行聚類分析,找出異常的模式。最后針對不同類型的異常,給出對應(yīng)的管理建議。

      本文提出的方案作用體現(xiàn)在以下3個方面:一是有助于自動排查存在隱患的企業(yè),縮小需現(xiàn)場檢查企業(yè)的范圍,降低人力、物力成本;二是通過挖掘企業(yè)異常背后的原因,為加強和優(yōu)化管理提供依據(jù);三是有助于加強對嫌疑企業(yè)的威懾力,降低企業(yè)異常行為的發(fā)生率。

      1 企業(yè)異常檢測的流程

      1.1 數(shù)據(jù)預(yù)處理

      本文的原始數(shù)據(jù)共計13 838家企業(yè)的每月用水總量。通過業(yè)務(wù)規(guī)則,發(fā)現(xiàn)不含用水值為0的企業(yè)分為一類,共6 128個企業(yè),該類企業(yè)中仍存在潛在的異常。表1描述的是含有潛在異常的6 128家企業(yè)平均用水量的分類情況。然后對數(shù)據(jù)進(jìn)行對數(shù)處理,取對數(shù)主要是為了消除不同規(guī)模企業(yè)之間用水量大小的差異。最后對數(shù)據(jù)做一階差分,消除隨機趨勢,將每月之間用水量的波動作為企業(yè)是否異常的特征。至此,原始數(shù)據(jù)的預(yù)處理工作全部完成。

      1.2 孤立森林算法

      孤立森林算法[13]是一種無監(jiān)督的異常檢測方法,該算法主要通過從訓(xùn)練數(shù)據(jù)集中隨機選取一個特征,在該特征的最大值與最小值之間隨機選取一個分裂點,小于分裂點的進(jìn)入左側(cè)分支,大于或等于分裂點的進(jìn)入右側(cè)分支;不斷重復(fù)上述過程直到只剩一個樣本或相同樣本(無法繼續(xù)分裂)或達(dá)到樹的深度限制。路徑長度h(x)指樣本點x從根節(jié)點到外部節(jié)點所經(jīng)過的二叉樹的邊數(shù),異常樣本通常路徑長度較小,而正常樣本路徑長度較大。以同樣的方式構(gòu)建包含多棵孤立樹的孤立森林,異常事件即可基于路徑長度被檢測出來。數(shù)據(jù)異常的程度可以通過異常分值判斷S(x,n)。定義如下:

      式(1)中,n為樣本個數(shù),H(i)為諧波次數(shù),c(n)為二叉搜索樹的平均路徑長度。

      式(2)中,E(h(x))是樣本點x在孤立森林中所有孤立樹的路徑長度的平均值。當(dāng)異常分值s(x,n)越小,則其異常程度越高,是異常點的可能性越大。

      1.3 異常值聚類分析

      為了更好地探究異常及其背后的原因,本文利用K-means算法對檢測出來的異常值進(jìn)行聚類,并利用手肘法對合適的K值進(jìn)行確定。K-means聚類算法[15]是一種迭代重定位方法,主要有兩個步驟:第一步是依據(jù)最近鄰原則將數(shù)據(jù)點分配到距離最近的簇中心點;第二步重新計算簇中心點。如此反復(fù),直到指定的收斂條件,聚類結(jié)束。K-means算法流程如圖1所示。

      2 實驗結(jié)果與分析

      對于含有顯著異常的數(shù)據(jù)集,可以根據(jù)0值出現(xiàn)的情況進(jìn)行分類,本實驗分類規(guī)則如下:①用水量數(shù)據(jù)全為0值的企業(yè)分為一類,記為I;②用水量數(shù)據(jù)和0值依次交替出現(xiàn)分為一類,記為II;③其他出現(xiàn)0值的情況分為一類,記為III。

      通過表1可知,第I、II和III類異常分別包含298、4 456和2 956家企業(yè)。其中,第II類異常企業(yè)數(shù)量最多,也就是用水量數(shù)據(jù)和0值依次交替出現(xiàn)的情況,導(dǎo)致該異常出現(xiàn)的情況可能是抄表員2個月才進(jìn)行一次抄表造成,公共安全部門應(yīng)該及時提醒有關(guān)的自來水公司加強對相關(guān)人員的監(jiān)督和管理,使企業(yè)用水量數(shù)據(jù)能夠準(zhǔn)確及時地記錄;除此之外,還存在相當(dāng)一部分第III類異常企業(yè),即企業(yè)用水量序列中前部、中部或尾部出現(xiàn)幾個0值的情況。類似這樣從有用水量到無用水量或者從無用水量到有用水量的情況,有可能是企業(yè)從生產(chǎn)到停產(chǎn)或者從停產(chǎn)到生產(chǎn)的過程,這對一個正常運營的企業(yè)來說是比較罕見的。政府需要及時了解企業(yè)運營狀況,查清停產(chǎn)和生產(chǎn)狀態(tài)頻繁切換的原因,將該類企業(yè)列入觀察名單;最后一種數(shù)量最少的異常就是第I類異常,該類異常中的企業(yè)用水量全部為0值,該情況可能是企業(yè)已經(jīng)停止運營或者已經(jīng)倒閉,公共安全部門需做好核實。

      圖2給出了某種類別的企業(yè)用水模式,從中可以發(fā)現(xiàn)用水量沒有一致的模式,但至少在某個月的用水量波動較大。

      綜上所述,通過算法分析,可以觀察到用水量存在大幅度連續(xù)波動的規(guī)律。在第VI類異常中,存在某些月份用水量發(fā)生較大波動。因此,公共安全部門要特別關(guān)注此類用水量具有大幅度波動的企業(yè),可以進(jìn)行現(xiàn)場實地排查,調(diào)查造成用水量波動巨大的具體原因。

      3 結(jié)論

      本文基于企業(yè)每月的用水量數(shù)據(jù),提出了一套結(jié)合業(yè)務(wù)規(guī)則和無監(jiān)督算法的異常檢測方法。針對含有顯著異常的部分,通過算法規(guī)則發(fā)現(xiàn)了3種異常模式。針對含有潛在異常的部分,利用孤立森林方法進(jìn)行異常檢測,并對異常進(jìn)行聚類找到3種異常模式。在檢測出的6種異常模式中,第I類異??赡苁瞧髽I(yè)已經(jīng)停止運營或者已經(jīng)倒閉,公共安全部門需及時對企業(yè)狀況進(jìn)行核實;第II類異常出現(xiàn)的原因可能是抄表員2個月才進(jìn)行一次抄表,公共安全部門應(yīng)及時提醒相關(guān)的自來水公司加強對相關(guān)人員的監(jiān)督和管理,使企業(yè)用水量數(shù)據(jù)能夠準(zhǔn)確及時地記錄;第III類異常可能是企業(yè)從生產(chǎn)到停產(chǎn)或者從停產(chǎn)到生產(chǎn)的過程;第IV和第V類異常中企業(yè)用水量存在顯著的連續(xù)大幅度波動,而第VI類異常中企業(yè)至少存在某一個特定月份用水量波動。

      參 考 文 獻(xiàn)

      [1]Han J,KamberM,Pei J.Data Mining:Concepts and Techniques Third Edition[M].Elsevier Pte Led,2012.

      [2]Chandola V,Banerjee A,Kumar V.Anomaly dete-ction:A survey[J].ACM Computing Surveys,2009,41(3):51-58.

      [3]黃琛,李文婷,張旭,等,城市供水管網(wǎng)片區(qū)用水異常模式識別[J].云南大學(xué)學(xué)報(自然科學(xué)版),2018(5):879-885.

      [4]Mounce R,Khan A,Wood AS,et al.Sensor-fusion of hydraulic data for burst detection and location in a treated water distribution system[J].Information Fusion,2003,4(3):217-229.

      [5]Mounce R,Boxall J B,Mexhell J.Development and verification of an online artificial intelligence system for detection of bursts and other abnormal flows[J].Journal of Water Resources Planning and Management,2010,136(3):309-318.

      [6]莊池杰,張斌,胡軍,等.基于無監(jiān)督學(xué)習(xí)的電力用戶異常用電模式檢測[J].中國電機工程學(xué)報,2016,36(2):379-387.

      [7]León C,Biscarri F,Monedero I,et al.Variability and trend-based generalized rule induction model to NTL detection in power companies[J].IEEE Transactions on Power Systems,2011,26(4):1798-1807.

      [8]Fontugne R,Tremblay N,Borgnat P,et al.Mining anomalous electricity consumption using ensemble empirical mode decomposition[C].//2013 IEEE International Conference on Acoustics,Speech and Si-gnal Processing(ICASSP).Vancouver,BC:IEEE,2013.

      [9]NagiJ,Yap K S,Tiong S K,et al.Improving SVM-based nontechnical loss detection in power utility using the fuzzy inference system[J].IEEE Transac-tions on Power Delivery,2011,26(2):1284-1285.

      [10]GoldsteinM.,DengelA.Histogram-based Outlier Score(HBOS):A fast Unsupervised Anomaly Detection Algorithm[C].In:Wolfl S,editor. KI-2012:Poster and Demo Track,2012.

      [11]E M Knorr,R T Ng.A unified notion of outliers:properties and computation[C].In:Proceedings of the 3rd ACM international conference on knowledge discovery and data mining(KDD),Newport Beach,1997.

      [12]BreunigM M.LOF:identifying density-based local outliers[J].2000,29(2):93-104.

      [13]Ester M,Kriegel HP,Sander J,et al.Adensity-based algorithm for discovering clusters in large spatial databases[C].In:Proceedings of KDD' 96,Portland OR,USA,1996:226-231.

      [14]Liu F T,Kai M T,Zhou Z H.Isolation-Based an-omaly detection[M].ACM,2012.

      [15]王建仁,馬鑫,段剛龍.改進(jìn)的K-means聚類k值選擇算法[J].計算機工程與應(yīng)用,2019(8):27-33.

      猜你喜歡
      異常檢測公共安全
      靖江市啟動水上公共安全共建區(qū)
      在公共安全面前別任性
      基于知識圖譜的知識推理與公共安全結(jié)合的理論研究
      電子測試(2018年18期)2018-11-14 02:31:20
      人臉識別技術(shù)在公共安全領(lǐng)域中的應(yīng)用
      探討上海城市公共安全的智慧化管理
      基于LMD模糊熵的遙測振動信號異常檢測方法
      基于度分布的流量異常在線檢測方法研究
      無線Mesh網(wǎng)絡(luò)安全性研究
      無線Mesh網(wǎng)絡(luò)基礎(chǔ)知識
      淺談燃?xì)廨啓C排氣溫度異常檢測及診斷
      巴林左旗| 石阡县| 留坝县| 滁州市| 尉犁县| 海丰县| 榕江县| 灵寿县| 烟台市| 永寿县| 淳安县| 韶山市| 富阳市| 鄂托克前旗| 康乐县| 抚州市| 怀仁县| 大荔县| 集贤县| 包头市| 宁国市| 玉环县| 湖北省| 巴楚县| 南乐县| 清苑县| 宁明县| 屯门区| 都昌县| 共和县| 桓台县| 泰宁县| 普安县| 鄄城县| 大田县| 台北市| 额尔古纳市| 香格里拉县| 永顺县| 三江| 满城县|