毛鶯池,齊 海,接 青,王龍寶
(河海大學 計算機與信息學院,南京 211100)
(*通信作者電子郵箱maoyingchi@gmail.com)
M-TAEDA:多變量水質(zhì)參數(shù)時序數(shù)據(jù)異常事件檢測算法
毛鶯池*,齊 海,接 青,王龍寶
(河海大學 計算機與信息學院,南京 211100)
(*通信作者電子郵箱maoyingchi@gmail.com)
在供水管網(wǎng)中部署傳感器網(wǎng)絡實時獲取多個水質(zhì)參數(shù)時間序列數(shù)據(jù),當供水管網(wǎng)發(fā)生污染時,高效準確地檢測水質(zhì)異常是一個重要問題。提出多變量水質(zhì)參數(shù)時間異常事件檢測算法(M-TAEDA),利用BP模型分析多變量水質(zhì)參數(shù)的時序數(shù)據(jù),確定可能離群點;結合貝葉斯序貫分析獨立更新每個參數(shù)的事件概率,預測單個傳感器節(jié)點檢測的異常概率;將單變量的事件概率融合為統(tǒng)一多變量事件概率,融合判斷異常事件。實驗結果表明:BP模型模擬多變量水質(zhì)參數(shù)進行預測可以達到90%精確度;與單變量參數(shù)時間異常事件檢測算法(S-TAEDA)相比,M-TAEDA可以提高異常檢出率約40%,降低誤報率約45%。
無線傳感器網(wǎng)絡;異常事件檢測;BP模型;多變量水質(zhì)參數(shù);時間序列數(shù)據(jù)
在供水管網(wǎng)中部署傳感器網(wǎng)絡實時獲取水質(zhì)指標數(shù)據(jù),當供水管網(wǎng)發(fā)生污染時,傳感器感知的水質(zhì)參數(shù)數(shù)據(jù)也有異常變化,實時預警污染事件。研究[1]表明,能夠明顯反映水質(zhì)的參數(shù)主要有游離氯、總有機碳(Total Organic Carbon, TOC)、電導率(Electrical Conductivity, EC)、pH值、溫度、濁度。面對網(wǎng)絡中多個水質(zhì)參數(shù)時間序列數(shù)據(jù),高效準確地檢測水質(zhì)異常是一個重要問題。然而,現(xiàn)有的水質(zhì)異常檢測算法大都基于單個檢測指標是否超標來判斷供水管網(wǎng)水質(zhì)污染異常事件[2-3]。由于單個參數(shù)考慮的因素單一,易造成漏報誤報。本文提出多變量水質(zhì)參數(shù)時間異常事件檢測算法(Temporal Abnormal Event Detection Algorithm of Multivariate time-series, M-TAEDA),基于多個水質(zhì)參數(shù)作出融合決策,判斷供水管網(wǎng)污染異常事件。M-TAEDA采用人工神經(jīng)網(wǎng)絡進行水質(zhì)模擬,通過BP(Back Propagation)模型分析多變量水質(zhì)參數(shù)的時序數(shù)據(jù),確定可能的離群點;結合貝葉斯序貫分析獨立更新每個參數(shù)的事件概率,預測單個傳感器節(jié)點在一段時間內(nèi)是否有異常事件發(fā)生;最后對單變量的事件概率融合為一個統(tǒng)一的多變量事件概率作出融合判斷,檢測供水管網(wǎng)的異常事件發(fā)生。實驗結果表明:BP模型模擬多變量水質(zhì)參數(shù)進行預測可以達到90%精確性;與單變量參數(shù)時間異常事件檢測算法(Temporal Abnormal Event Detection Algorithm of Single-variate time-series, S-TAEDA)相比,M-TAEDA方法可以提高異常檢出率40%,降低誤報率45%。
基于水質(zhì)參數(shù)的異常事件檢測方法通常包含兩個階段:一是建模階段,以歷史監(jiān)測數(shù)據(jù)作為訓練數(shù)據(jù),建立水質(zhì)預測模型;二是測試階段,將新觀測數(shù)據(jù)與預測數(shù)據(jù)比較,判定水質(zhì)是否正常。文獻[4]采用基于雙閾值的異常事件檢測方法,通過設置兩個閾值,提高算法的檢測精度。但是,僅僅根據(jù)閾值判定異常事件,精確度不高,無法捕捉監(jiān)測數(shù)據(jù)的時空特征,導致較高誤報率。文獻[5]采用基于模式的異常事件檢測方法,根據(jù)用戶歷史行為模式建模,推測當前行為中有無異常,當模式匹配時,則認為當前模式有異常事件發(fā)生。Byrt等[6]提出基于統(tǒng)計模型的檢測方法,假設水質(zhì)參數(shù)服從高斯分布,計算測試樣本數(shù)據(jù)的均值和方差,通過較比測量值與計算值的差值,判斷水質(zhì)異常?;诮y(tǒng)計的異常檢測方法的缺點是要求假設水質(zhì)數(shù)據(jù)集必須符合特定分布,無法滿足實際場景應用需求?;跈C器學習的異常檢測常用BP神經(jīng)網(wǎng)絡、支持向量機、動態(tài)貝葉斯網(wǎng)絡和馬爾可夫隨機場等方法檢測異常[7-9]。文獻[10]以在線監(jiān)測氨氮值為對象,利用RBF(Radial Basis Function)神經(jīng)網(wǎng)絡和小波分析的判別在線水質(zhì)數(shù)據(jù)是否異常。Perelman等[11]提出了一種基于貝葉斯網(wǎng)絡(Bayesian Network, BN)的異常檢測算法,基于BN的統(tǒng)計數(shù)據(jù)估算供水網(wǎng)中污染物的可能位置及其傳播路徑,檢測污染事件。上述方法都單獨局限于基于單個水質(zhì)指標是否超標,判斷供水網(wǎng)中水質(zhì)污染事件。但是,單個檢測指標不符合真實的供水管網(wǎng)環(huán)境,當污染事件發(fā)生時,多個水質(zhì)參數(shù)都明顯異常。單個參數(shù)考慮的因素單一,易造成漏報和誤報,導致精度不高。因此,本文根據(jù)多個水質(zhì)參數(shù)數(shù)據(jù)變化,基于多個水質(zhì)參數(shù)作出融合決策,判斷供水管網(wǎng)污染事件。
傳感器部署在供水管網(wǎng)中實時監(jiān)測水質(zhì)參數(shù)數(shù)值變化,判斷水質(zhì)污染情況。供水管網(wǎng)拓撲結構如圖1所示,水質(zhì)傳感器部署在管道連接處檢測水質(zhì)參數(shù),用連通圖G=〈V,E〉表示,V表示水質(zhì)傳感器節(jié)點集合,E表示邊集合。每個節(jié)點有一個唯一的編號,從1到n。供水管網(wǎng)中每個節(jié)點處部署了多個傳感器節(jié)點檢測多種水質(zhì)參數(shù),如游離氯、電導率(Electrical Conductivity, EC)、pH值、溫度、總有機碳(Total Organic Carbon, TOC)和濁度[1]。僅僅檢測一個水質(zhì)參數(shù)判定污染異??赡茉斐奢^大檢測偏差,需要綜合考慮6個監(jiān)測分量為多變量水質(zhì)監(jiān)測因子,觀測6個監(jiān)測分量在一段時間的序列數(shù)據(jù),經(jīng)過融合判斷,確定該節(jié)點處是否有水質(zhì)異常事件發(fā)生。如圖1所示,節(jié)點1處部署傳感器監(jiān)測6個水質(zhì)參數(shù)數(shù)據(jù),結合6個水質(zhì)因子的監(jiān)測數(shù)據(jù)綜合判斷水質(zhì)。
圖1 供水管網(wǎng)拓撲結構實例
水質(zhì)異常指水質(zhì)數(shù)據(jù)偏離正常,水質(zhì)異??煞譃殡x群點和異常事件兩類。離群點是指某一時刻,水質(zhì)數(shù)據(jù)的預測值與其實際測量值的殘差超過了誤差可以接受的范圍。異常事件是指監(jiān)測點的水質(zhì)參數(shù)在一段時間內(nèi)監(jiān)測數(shù)據(jù)持續(xù)偏離正常模式,認為該水質(zhì)參數(shù)有異常。通常,離群點較常見,可能是噪聲數(shù)據(jù),不應將其作為水質(zhì)預警指標。異常事件是離群點在一段連續(xù)時間內(nèi),數(shù)據(jù)持續(xù)偏離正常預期值,則可能是污染所導致,這是本文所關注的異常事件。
多變量水質(zhì)參數(shù)時序數(shù)據(jù)異常事件檢測方法分為兩個階段:1)離線階段——訓練和構造數(shù)據(jù)驅(qū)動的預測模型(BP模型),分析多變量水質(zhì)時序數(shù)據(jù),進行模型評估;2)在線階段——即M-TAEDA的執(zhí)行步驟,首先利用訓練得到的BP模型計算預測值,比較實測值與預測值,進行誤差估計和分類,結合序貫貝葉斯分析確定水質(zhì)異常事件概率。兩個階段的工作流程如圖2~3所示。
圖2 離線階段流程
圖3 M-TAEDA(在線階段)流程
離線階段 選擇BP網(wǎng)絡模擬6個水質(zhì)參數(shù),根據(jù)殘差確定可能的離群點。BP網(wǎng)絡不需要理解輸入端與輸出端之間的相互關系,適合非線性、復雜多變的水質(zhì)系統(tǒng),比較符合多變量水質(zhì)參數(shù)處理應用場景。BP模型前向計算及其誤差反向傳播的特性,通過多次訓練可以得到比較理想的預測模型,提高水質(zhì)參數(shù)的預測精度。
在線階段 多變量水質(zhì)數(shù)據(jù)異常事件檢測包括4個步驟。
1)數(shù)據(jù)分析。通過BP模型模擬水質(zhì)參數(shù)之間的相互作用。
2)識別異常值。計算殘差,每個水質(zhì)參數(shù)在訓練階段得到固定的閾值,將觀察值歸類為正?;虍惓V?。
3)確定單變量參數(shù)異常事件?;谡`差結果的分類,通過序貫更新貝葉斯更新確定單變量水質(zhì)參數(shù)的事件概率。
4)融合決策。來自多個水質(zhì)監(jiān)測指標的信息融合,提供統(tǒng)一的決策結果,確定供水管網(wǎng)在具體節(jié)點處是否有異常事件發(fā)生。
其中,本文在步驟1)和2)中采用真實的供水管網(wǎng)數(shù)據(jù)集訓練模型。在每個時刻,當?shù)玫叫碌膶崪y值后,重復執(zhí)行步驟1)~4)。
應用BP神經(jīng)網(wǎng)絡分析多個水質(zhì)參數(shù)間的相互作用,并根據(jù)殘差確定可能的離群點;通過遞歸應用貝葉斯規(guī)則更新事件的概率,將監(jiān)測異常點轉(zhuǎn)換為單變量的異常事件概率;通過相關系數(shù)(R2),均方誤差(Mean Square Error, MSE),融合矩陣,ROC(Receiver Operating Characteristic)曲線,檢出率(Rate of Detection, RD)和誤報率(False Alarm Rate, FAR)來評估算法性能;最后,綜合考慮6個水質(zhì)參數(shù)事件概率,確定閾值,對污染異常事件作出預警。
4.1 BP模型模擬水質(zhì)參數(shù)
在供水管網(wǎng)中,各個傳感器節(jié)點監(jiān)測的實測值不僅由該水質(zhì)參數(shù)決定,而且與其他參數(shù)的實測值密切相關。以游離氯為例,若僅根據(jù)游離氯單一水質(zhì)參數(shù)的歷史數(shù)據(jù)進行建模,得到預測模型并計算預測值,預測值與實測值并未有很大偏離,但是,此時其他水質(zhì)參數(shù)的實測值與正常狀態(tài)有明顯偏離。其原因是水質(zhì)參數(shù)間相互作用,游離氯的實測值也產(chǎn)生了較大偏差,僅根據(jù)單一水質(zhì)參數(shù)變量建立預測模型,準確性較低。本文采用BP模型,通過輸入多個水質(zhì)參數(shù),訓練BP模型能夠較真實地反映水質(zhì)變量間的相互關系,提高預測模型的預測精確度。本文構建的BP網(wǎng)絡如式(1)所示:
(1)
其中:wjk、wij表示權重,w0、w0j表示偏差,φ和φ0分別為激活函數(shù)與輸出函數(shù),xi表示水質(zhì)參數(shù),fk(x,w)表示估計的目標值。
供水管網(wǎng)中的各個監(jiān)測指標相互影響,針對多變量水質(zhì)參數(shù)異常事件檢測,需要為每個目標水質(zhì)參數(shù),構造與訓練相應的BP模型,估計目標水質(zhì)參數(shù)及其相互關系。每個BP模型對應模擬每個水質(zhì)參數(shù)xi(t)(i=1,2,…,6),分別為游離氯、TOC、EC、pH、溫度和濁度。每個BP模型的輸入?yún)?shù)包括某一時刻其他幾個水質(zhì)參數(shù)數(shù)據(jù)和目標水質(zhì)參數(shù)前一時刻的數(shù)據(jù)。在每一時刻,共有6個輸入,如式(2)所示:
(2)
例如,以游離氯為目標水質(zhì)參數(shù),構建相應的BP模型結構,如圖4和式(3)所示:
(3)
圖4 游離氯參數(shù)的BP網(wǎng)絡結構
4.2 誤差評估與分類
利用歷史數(shù)據(jù)對模型不斷訓練,構建數(shù)據(jù)驅(qū)動的BP模型。訓練得到的BP模型預測供水管網(wǎng)中的水質(zhì)參數(shù)數(shù)據(jù),將預測值與實測值進行比較,確定預測誤差,進行誤差評估和分類分析。計算測量值和預測的水質(zhì)參數(shù)值之間的差異可以得到估計誤差,如式(4)所示:
(4)
對于每個BP模型而言,估計的殘差都是有界的,通過模型訓練得到最優(yōu)閾值。當某一時刻某水質(zhì)參數(shù)的估計殘差超過閾值,則被認為是離群值。為了將水質(zhì)參數(shù)的正常狀況與發(fā)生污染異常相區(qū)分,計算的殘差ERi(t)作為“正?!薄爱惓!钡姆诸悩藴?。利用訓練得到的閾值進行誤差分類,如果測量值在閾值范圍內(nèi),表明沒有異常事件發(fā)生,屬于正常狀況。在訓練階段,通過查看多次實驗后的每個水質(zhì)參數(shù)殘差值,可以發(fā)現(xiàn)落在[96%,99%]這個上限和下限范圍內(nèi)的殘差是可以接受的殘差;若殘差超過此范圍,判定為異常值。
4.3 序貫貝葉斯更新
在不斷訓練BP模型的過程中,算法性能可以用混淆矩陣[12]來衡量。利用混淆矩陣進行模型分類,將所有觀察值分為4類。真正類(TruePositive,TP):真實的異常事件發(fā)生時,殘差歸類為一個離群點。假正類(FalsePositive,FP):在正常情況下,殘差歸類為一個離群點。真負類(TrueNegative,TN):在正常情況下,殘差歸類為合理的模型錯誤。假負類(FalseNegative,FN):真實的異常事件發(fā)生時,殘差歸類為合理的模型錯誤。如表1所示。
表1 4種情況記號定義
RD和FAR是異常事件檢測性能評價常用標準。RD表示檢測出異常的數(shù)目占實際發(fā)生異??偞螖?shù)的比值。FAR表示檢測出的虛假異常占所有決策次數(shù)的比值,如式(5)所示:
(5)
在序貫貝葉斯概率更新階段,對每個新觀察值而言,事件的概率通過序貫貝葉斯分析[11]來更新。通過序貫貝葉斯分析,將檢測到的異常點轉(zhuǎn)換為污染異常事件的概率。在序貫分析中,觀察值的數(shù)量事先不知;相反,觀察值順序讀取,需要對當前的狀態(tài)作出決策。每次經(jīng)過序貫更新后,進行三種判斷:有事件、無事件、額外觀察。本文序貫更新后有兩種狀態(tài):離群點和正常值,如式(6)所示。初始情況下,事件的概率很低,對于每次新到的觀測值,事件的后驗概率通過貝葉斯規(guī)則序貫更新,用式(7)可以計算得到:
(6)
(7)
在本文應用中,污染事件的初始概率設為10-5,污染事件發(fā)生的閾值概率設為PThreshold=0.7。在這個階段,每個參數(shù)的概率各自更新。如果某個參數(shù)事件更新的概率超過該參數(shù)設定的閾值,表明該參數(shù)發(fā)生異常事件。仿真實驗模擬污染異常事件下,每個水質(zhì)參數(shù)的更新概率,結果如表2。從表2中看出在08:20,6個參數(shù)中有一個參數(shù)確定有異常事件發(fā)生;在09:00,有3個參數(shù)確定了異常事件,發(fā)出預警。另外,從08:20到17:00時間段,隨著污染事件發(fā)生,概率逐漸增加;當污染事件結束時,概率逐漸減少,當概率超過閾值時,發(fā)出相應報警。
表2 污染事件概率更新
4.4 多變量融合決策
在每個時間段,通過單變量的事件概率融合為一個統(tǒng)一的多變量事件概率,可以反映一個事件基于所有參數(shù)的概率。此外,水質(zhì)參數(shù)的權重也反映其對融合決策的影響。水質(zhì)污染異常事件發(fā)生時,不同的水質(zhì)參數(shù)對污染的預測能力不同。本文采用文獻[1]中的方法為6個水質(zhì)參數(shù)指標分配不同權重,在每個時間段,通過融合單變量的事件概率計算多參數(shù)變量的事件概率。
在模擬污染異常事件的情況下,在Matlab上完成仿真實驗,模擬10個污染事件,單變量的水質(zhì)參數(shù)概率更新的結果,表示在模擬污染異常事件的情況下,經(jīng)過序貫貝葉斯更新后6個單變量水質(zhì)參數(shù)的異常事件概率,如圖5所示。以游離氯的單變量水質(zhì)參數(shù)概率為例,黑線表示模擬的10次污染事件,點線表示在一定時間間隔,游離氯水質(zhì)參數(shù)預測污染異常事件的概率。本文將污染異常事件發(fā)生的閾值概率設為PThreshold=0.7。每個水質(zhì)參數(shù)事件更新的概率超過閾值0.7,表示在這一段時間間隔,該單變量參數(shù)有異常事件發(fā)生。從圖5可以看出,模擬10個污染事件多次運行平均結果顯示,游離氯指標檢測出了7個異常事件,存在3次錯誤預警。其他5個水質(zhì)參數(shù)的檢測結果從圖5中可以看出:EC指標檢測出6個異常事件中,有1次錯誤預警;pH值指標檢測出了5個異常事件,有1次錯誤預警;溫度指標檢測出了5個異常事件,沒有錯誤預警;TOC指標檢測出了9個異常事件,有3次錯誤預警;濁度指標檢測出了8次異常事件,有2次錯誤預警。
將6個水質(zhì)參數(shù)分配對應權重后,單變量的事件概率融合為一個統(tǒng)一的多變量事件概率。圖6顯示了6個事件概率圖,其中:事件被預測出的概率為1,未被預測出的概率為0。每個子圖表示了考慮一個或多個不同權重的水質(zhì)參數(shù)得到的概率。例如,圖6預警(1)表示有一個水質(zhì)參數(shù)超過設定閾值,聲明發(fā)生污染事件。在這種情況下,大多數(shù)事件能夠被檢測到。從圖6預警(1)中可以看出檢測出了10個異常事件中的9個,檢出率很高,但是誤報率也比較高,有4次錯誤預警。預警(2)表示至少兩個或者更多個參數(shù)發(fā)出預警,表明發(fā)生了污染異常事件。在這種情況下,只有一個事件未被檢測,有2次錯誤預警。從圖6中可以看出,對于多變量參數(shù)指標而言,當3個參數(shù)融合發(fā)生預警時,檢測精確度和誤檢率之間能達到比較好的權衡,誤報率降到了0次。當4個或4個以上參數(shù)融合預警時,沒有發(fā)生誤報,但是檢出率也降低了。從圖6中可以看出,需要根據(jù)檢出率和誤報率做一個權衡,達到最佳檢測效果。根據(jù)圖6可以看出,本文確定當在一段時間內(nèi),供水管網(wǎng)中某個節(jié)點有3個或以上的水質(zhì)參數(shù)經(jīng)過序貫貝葉斯更新,概率超過給定的閾值PThreshold=0.7時,經(jīng)過融合決定,認為在該節(jié)點發(fā)生了水質(zhì)污染異常事件。
圖5 單變量參數(shù)的事件概率
圖6 多變量參數(shù)的事件概率
5.1 實驗環(huán)境設置
實驗數(shù)據(jù)來自于從CANARY[13]獲得的供水管網(wǎng)的真實水質(zhì)數(shù)據(jù)集,在供水管網(wǎng)正常水質(zhì)狀況下每5 min采集一次(大約35 000個時間段)。檢測下列水質(zhì)參數(shù):游離氯、電導率(EC)、pH值、溫度、總有機碳(TOC)和濁度。通過在正常水質(zhì)數(shù)據(jù)上引入泛型干擾來疊加污染異常事件[14]。將數(shù)據(jù)集分2個子集:67%數(shù)據(jù)用于訓練,33%數(shù)據(jù)用于測試。
實驗準備:由于污染物的異常行為對水質(zhì)參數(shù)的影響在真實的供水管網(wǎng)系統(tǒng)不能實際地測試,對測量的時間序列數(shù)據(jù)通過引入泛型干擾來模擬污染異常事件。在常規(guī)數(shù)據(jù)上疊加模擬的異常事件,反映由污染異常事件引起水質(zhì)參數(shù)的數(shù)據(jù)變化。事件模擬的方案是根據(jù)文獻[15]提出方法,假定污染事件的分布形態(tài)是高斯分布,如圖7顯示本實驗的6個水質(zhì)參數(shù)在正常情況和疊加的污染異常事件情況下的部分時間序列。
實驗分為兩個部分:1)BP模型預測效果驗證。BP模型模擬多變量水質(zhì)參數(shù)時序數(shù)據(jù),結合貝葉斯序貫分析獨立更新每個參數(shù)的事件概率,BP模型的預測精度關系到M-TAEDA檢測精確度,所以驗證BP模型的預測精度。2)與S-TAEDA對比分析??刂谱兞浚瑑H僅考慮一個水質(zhì)參數(shù),即將M-TAEDA與單變量參數(shù)時間異常事件檢測算法S-TAEDA在相同的實驗條件下進行對比分析,通過多項評價指標的對比分析來驗證算法的優(yōu)勢。實驗結果將從ROC曲線下面積、檢出率RD、誤報率FAR指標來驗證模型的預測精確度。
5.2 實驗結果分析
5.2.1 BP模型預測效果驗證
本文選擇前67%的數(shù)據(jù)作為訓練數(shù)據(jù),后33%作為測試數(shù)據(jù)。根據(jù)訓練數(shù)據(jù)建模得到數(shù)據(jù)驅(qū)動的BP預測模型,用測試子集來評估該BP預測模型。對每個水質(zhì)參數(shù)的新觀測值,計算其殘差作為總誤差??紤]均值(Mean)、標準差(Standard Deviation, STD)、MSE(均方誤差)和相關系數(shù)(R2)估計參數(shù),表3列出了6個水質(zhì)參數(shù)在BP模型訓練階段和測試階段的結果。從表3中可以看出,在訓練階段6個水質(zhì)參數(shù)數(shù)據(jù)的均值、標準差的預測值與實測值相差很小,均小于0.035。這表明該數(shù)據(jù)集沒有過多的噪聲數(shù)據(jù),數(shù)據(jù)能夠反映水質(zhì)實際狀況。另一方面,在測試階段,6個水質(zhì)參數(shù)的預測值與實測值相差不大,標準差、均方誤差可接受,各個參數(shù)的相關系統(tǒng)差異也不大。從表3可以看到,BP模型的預測精度達約90%,效果理想,表明BP模型能夠正確地分辨出水質(zhì)正常與異常。
圖7 多變量參數(shù)時間序列
表3 BP模型訓練和測試階段的結果
Tab.3 Training results and test results with BP model
階段參數(shù)游離氯/(mg·L-1)EC/(ms·cm-1)pH值溫度/℃TOC/ppb濁度/NTU訓練階段測試階段均值1均值2預測值實測值預測值實測值相關系數(shù)均方誤差均值1均值2預測值實測值預測值實測值相關系數(shù)均方誤差1.94778.32009.04017.2530.9600.223-1.945-77.6700-9.039-17.253-0.966-0.2201.94778.32009.04017.2530.9600.223-1.945-77.6700-9.039-17.253-0.966-0.2200.9230.98600.9990.9990.6850.6390.0070.03470.0000.0050.0760.0082.01088.35909.15118.0861.0210.225-2.002-87.2070-9.159-18.078-1.031-0.1980.07552.24400.2151.1891.4521.439-0.145-55.8040-0.240-1.302-1.214-1.3510.6250.91400.6900.7790.6540.6540.0160.50200.0180.3770.7321.379
5.2.2 與S-TAEDA對比分析
本文提出M-TAEDA用BP模擬各個水質(zhì)參數(shù),根據(jù)不同的水質(zhì)參數(shù)對污染的預測能力不同,為多個水質(zhì)參數(shù)分配對應的權重,可以大幅度降低單個參數(shù)檢測算法的誤報率對整個檢測結果影響。從圖8~9可以看出,模擬多次異常事件,M-TAEDA的檢出率基本在75%以上,S-TAEDA的檢出率基本在50%~60%,平均比S-TAEDA高約40%。同時,M-TAEDA的誤報率都小于10%,相對于S-TAEDA約15%以上的誤報率,誤報率下降了45%。實驗結果表明了本文提出的多變量參數(shù)的時間異常事件檢測算法在檢出率與誤報率方面都較優(yōu)。
ROC曲線是檢出率和誤報率一種更直觀的表現(xiàn),以可視化的方式表示RD和FAR之間的權衡關系。本實驗通過設定出多個不同的臨界值,計算出S-TAEDA和M-TAEDA的多個檢出率和誤報率的值。圖10顯示了S-TAEDA與M-TAEDA的ROC曲線。從圖10中可以看出,M-TAEDA的ROC曲線下面積明顯大于比S-TAEDA,表明M-TAEDA比S-TAEDA的檢測精確度高,誤報率低,檢測效果理想。
圖8 兩種算法檢出率的對比
圖9 兩種算法誤報率的對比
圖10 兩種算法對應的ROC曲線
從上述兩個指標比較分析看出,本文提出的多變量參數(shù)水質(zhì)異常事件檢測算法M-TAEDA比單變量參數(shù)水質(zhì)異常事件檢測算法S-TAEDA具有很明顯優(yōu)勢。這是因為M-TAEDA用BP模擬各個水質(zhì)參數(shù),預測目標參數(shù)下一個時刻的監(jiān)測值,較符合真實應用場景中多個水質(zhì)參數(shù)之間相互影響的實際情況;另外,由于不同水質(zhì)參數(shù)對污染的預測能力不同,為多個水質(zhì)參數(shù)分配相應權重,綜合考慮多個參數(shù)的事件概率作出融合決策并預警。而S-TAEDA僅僅通過模擬一個水質(zhì)參數(shù),容易造成比較高的誤報率。
本文提出多變量水質(zhì)參數(shù)時序數(shù)據(jù)異常事件檢測的方法(M-TAEDA),引入BP模型模擬供水管網(wǎng)中的水質(zhì)參數(shù),結合序貫貝葉斯更新確定單個水質(zhì)參數(shù)的異常事件概率,最終將單變量事件概率融合為統(tǒng)一的多變量事件概率,最終作出融合判斷,預測供水管網(wǎng)單個節(jié)點的異常事件。實驗結果表明BP模型模擬多變量水質(zhì)參數(shù)進行預測可以達到90%精確性;與S-TAEDA方法相比,M-TAEDA方法可以提高異常檢出率約40%,降低誤報率約45%。
References)
[1] HALL J, HERRMANN J G.On-line water quality parameters as indicators of distribution system contamination [J].Journal American Water Works Association, 2007, 99(1): 66-77.
[2] HUANG T, MA X, JI X, et al.Online detecting spreading events with the spatio-temporal relationship in water distribution networks [M]// Advanced Data Mining and Applications.Berlin: Springer, 2013: 145-156.
[3] STOTEY M V, GAAG B V D, BURNS B P.Advances in on-line drinking water quality monitoring and early warning systems [J].Water Research, 2011, 45(2): 741-747.
[4] YIM S J, CHOI Y H.Fault-tolerant event detection using two thresholds in wireless sensor networks [C]// Proceedings of the 15th IEEE Pacific Rim International Symposium on Dependable Computing.Piscataway, NJ: IEEE, 2009: 331-335.
[5] XUE W, LUO Q, WU H.Pattern-based event detection in sensor networks [J].Distributed & Parallel Databases, 2012, 30(1): 27-62.
[6] BYRT D, CARLSON K H.Expanded summary: real-time detection of intentional chemical contamination in the distribution system [J].Journal American Water Works Association, 2005, 97(7): 130-133.
[7] WANG X R, LIZIER J T, OBST O, et al.Spatiotemporal anomaly detection in gas monitoring sensor networks [C]// EWSN 2008: Proceedings of the 5th European Conference on Wireless Sensor Networks.Berlin: Springer, 2008: 90-105.
[8] UUSITAL L.Advantages and challenges of Bayesian networks in environmental modelling [J].Ecological Modelling, 2014, 203(3/4): 312-318.
[9] ELIADED G, LAMBROU T P, PANAYIOTOU C G, et al.Contamination event detection in water distribution systems using a model-based approach [J].Procedia Engineering, 2014, 89: 1089-1096.
[10] 侯迪波,陳玥,趙海峰,等.基于RBF神經(jīng)網(wǎng)絡和小波分析的水質(zhì)異常檢測方法[J].傳感器與微系統(tǒng),2013,32(2):138-141.(HOU D B, CHEN Y, ZHAO H F, et al.Based on the RBF neural network and wavelet analysis the water quality of anomaly detection method [J].Transducer and Microsystem Technologies, 2013, 32(2): 138-141.)
[11] PERELMAN L, OSTFELD A.Bayesian networks for source intrusion detection [J].Journal of Water Resources Planning and Management, 2012, 139(4): 426-432.
[12] 孔英會,景美麗.基于混淆矩陣和集成學習的分類方法研究[J].計算機工程與科學,2012,34(6):111-117.(KONG Y H, JING M L.Classification method based on confusion matrix and the integrated learning research [J].Computer Engineering and Science, 2012, 34(6): 111-117.)
[13] MURRAY R, HAXTON T, et al Water quality event detection systems for drinking water contamination warning systems: Development testing and application of CANARY [EB/OL].[2016-06-20].https://cfpub.epa.gov/si/si_public_file_download.cfm?p_download_id=496189.
[14] KLISE K A, MCKENNA S A.Multivariate applications for detecting anomalous water quality [C]// Proceedings of the 2006 Symposium on Water Distribution Systems Analysis.Cincinnati, OH: American Society of Civil Engineers, 2011: 1-11.
[15] MCKENNA S A, WILSON M, KLISE K A.Detecting changes in water quality data [J].Journal American Water Works Association, 2008, 77(1): 74-85.
This work is partially supported by the National Natural Science Foundation of China (U1301252), the National Science and Technology Support Program (2013BAB06B04), the National Key R&D Program (2016YFC0400910), the Technology Project of China Huaneng Group Company Headquarters (HNKJ13-H17-04), the Science and Technology Project of Yunnan Province (2014GA007), the Special Fund for Basic Scientific Research of Central Universities (2015B22214).
MAO Yingchi, born in 1976, Ph.D., associate professor.Her research interests include distributed computing and parallel processing, distributed data management.
QI Hai, born in 1994, M.S.candidate.His research interests include distributed computing, parallel processing.
JIE Qing, born in 1989, M.S.candidate.Her research interests include distributed computing, parallel processing, data management.
WANG Longbao, born in 1977, lecturer.His research interests include intelligent data processing.
M-TAEDA: temporal abnormal event detection algorithm for multivariate time-series data of water quality
MAO Yingchi*, QI Hai, JIE Qing, WANG Longbao
(CollegeofComputerandInformation,HohaiUniversity,NanjingJiangsu211100,China)
The real-time time-series data of multiple water parameters are acquired via the water sensor networks deployed in the water supply network.The accurate and efficient detection and warning of pollution events to prevent pollution from spreading is one of the most important issues when the pollution occurs.In order to comprehensively evaluate the abnormal event detection to reduce the detection deviation, a Temproal Abnormal Event Detection Algorithm for Multivariate time series data (M-TAEDA) was proposed.In M-TAEDA, it could analyze the time-series data of multiple parameters with BP (Back Propagation) model to determine the possible outliers, respectively.M-TAEDA algorithm could detect the potential pollution events through Bayesian sequential analysis to estimate the probability of an abnormal event.Finally, it can make decision through the multiple event probability fusion in the water supply systems.The experimental results indicate that the proposed M-TAEDA algorithm can get the 90% accuracy with BP model and improve the rate of detection about 40% and reduce the false alarm rate about 45% compared with the temporal abnormal event detection of Single-Variate Temproal Abnormal Event Detection Algorithm (S-TAEDA).
Wireless Sensor Network (WSN); abnormal event detection; Back Propagation (BP) model; multivariate water quality parameter; time-series data
2016-08-05;
2016-08-24。 基金項目:國家自然科學基金資助項目(U1301252);國家科技支撐計劃項目(2013BAB06B04);國家重點研發(fā)計劃項目(2016YFC0400910);中國華能集團公司總部科技項目(HNKJ13-H17-04);云南省科技計劃項目(2014GA007);中央高校基本科研業(yè)務費專項資金資助項目(2015B22214)。
毛鶯池(1976—),女,上海人,副教授,博士,CCF會員,主要研究方向:分布式計算與并行處理、分布式數(shù)據(jù)管理; 齊海(1994—),男,安徽安慶人,碩士研究生,主要研究方向:分布式計算、并行處理; 接青(1989—),女,山東煙臺人,碩士研究生,主要研究方向:分布式計算、并行處理、數(shù)據(jù)管理; 王龍寶(1977—),男,江蘇鹽城人,講師,主要研究方向:智能數(shù)據(jù)處理。
1001-9081(2017)01-0138-07DOI:10.11772/j.issn.1001-9081.2017.01.0138
TP393;TP
A