魏 媛,馮天恒,黃平捷,侯迪波,張光新
(浙江大學(xué) 工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310027)
?
管網(wǎng)水質(zhì)多指標(biāo)動(dòng)態(tài)關(guān)聯(lián)異常檢測(cè)方法
魏媛,馮天恒,黃平捷,侯迪波,張光新
(浙江大學(xué) 工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310027)
摘要:為了提高城市供水管網(wǎng)水質(zhì)監(jiān)測(cè)系統(tǒng)的污染檢測(cè)能力,利用污染物所引起多個(gè)指標(biāo)變化之間的關(guān)聯(lián)特性,提出基于多常規(guī)水質(zhì)指標(biāo)動(dòng)態(tài)關(guān)聯(lián)分析的水質(zhì)異常檢測(cè)方法.應(yīng)用動(dòng)態(tài)時(shí)間規(guī)整算法(DTW)衡量多個(gè)常規(guī)水質(zhì)指標(biāo)時(shí)間序列間的動(dòng)態(tài)距離,刻畫各指標(biāo)波動(dòng)的相似程度和動(dòng)態(tài)關(guān)聯(lián)特性.利用D-S證據(jù)理論融合各指標(biāo)單獨(dú)的異常概率,將融合后得到的供水管網(wǎng)水質(zhì)異常概率與所設(shè)定的多指標(biāo)融合異常概率閾值進(jìn)行比較,作出當(dāng)前時(shí)刻水質(zhì)是否存在水質(zhì)異常的綜合判斷.依托課題組模擬供水管網(wǎng)實(shí)驗(yàn)系統(tǒng),設(shè)計(jì)不同濃度的硫酸銅和鐵氰化鉀污染物的注入實(shí)驗(yàn),利用在線監(jiān)測(cè)的pH值、濁度、余氯、溶解氧等8種常規(guī)水質(zhì)指標(biāo)進(jìn)行動(dòng)態(tài)關(guān)聯(lián)分析和水質(zhì)異常檢測(cè),方法的可行性和異常檢測(cè)性能通過受試者工作特征曲線(ROC)進(jìn)行驗(yàn)證.
關(guān)鍵詞:常規(guī)水質(zhì)指標(biāo);數(shù)據(jù)融合;水質(zhì)異常檢測(cè);時(shí)間序列分析;動(dòng)態(tài)時(shí)間規(guī)整;相關(guān)性分析
水是人類賴以生存的自然資源,飲用水的質(zhì)量與人們生產(chǎn)生活息息相關(guān).城市供水系統(tǒng)中任一環(huán)節(jié)出現(xiàn)問題,均可能對(duì)居民的日常生活用水造成嚴(yán)重影響[1].建立一套能夠準(zhǔn)確挖掘異常水質(zhì)狀況并及時(shí)進(jìn)行預(yù)警處理的飲用水污染預(yù)警系統(tǒng)對(duì)于保障廣大居民的用水安全意義重大.水質(zhì)異常檢測(cè)作為后續(xù)響應(yīng)操作的基礎(chǔ),在整個(gè)水質(zhì)預(yù)警系統(tǒng)中起著非常重要的作用.
供水管網(wǎng)中的水質(zhì)監(jiān)測(cè)數(shù)據(jù)在日常觀測(cè)中的變化稱為水質(zhì)波動(dòng).引起管網(wǎng)水質(zhì)發(fā)生波動(dòng)的原因包括日常背景變化、工藝操作變化、儀表傳輸噪聲以及水質(zhì)污染事件等.在水質(zhì)異常檢測(cè)中,最受關(guān)注的是由于水質(zhì)污染事件所引起的水質(zhì)波動(dòng),如何能夠?qū)⒁蛭廴疚镒⑷胨鸬漠惓W兓瘡某R?guī)水質(zhì)波動(dòng)中剝離出來,是水質(zhì)異常檢測(cè)的核心.
早期的研究主要依據(jù)統(tǒng)計(jì)學(xué)方法,通過判斷單一水質(zhì)指標(biāo)測(cè)量值是否超出背景數(shù)據(jù)均值3倍標(biāo)準(zhǔn)差的范圍來判斷是否存在異常[2];為了克服水質(zhì)數(shù)據(jù)本身存在的波動(dòng)性對(duì)檢測(cè)結(jié)果的影響,之后的研究逐漸向時(shí)間序列分析的方向過渡[3];近年來,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,水質(zhì)異常檢測(cè)逐漸打破單一參數(shù)的束縛,研究人員開始利用機(jī)器學(xué)習(xí)的相關(guān)方法將多個(gè)傳感器的檢測(cè)結(jié)果進(jìn)行融合,以期達(dá)到更好的檢測(cè)效果.貝葉斯網(wǎng)絡(luò)[4]、決策樹[5]、人工神經(jīng)網(wǎng)絡(luò)[6]、支持向量機(jī)[7]等有監(jiān)督的學(xué)習(xí)算法以及K平均聚類[8]、軌跡聚類[9]、最小橢球體積聚類[10]、多維最近鄰聚類[11]等無監(jiān)督的學(xué)習(xí)算法都在水質(zhì)異常檢測(cè)領(lǐng)域得到了廣泛的應(yīng)用;此外,針對(duì)空間分布傳感器檢測(cè)結(jié)果的融合逐漸成為研究的熱點(diǎn)[12-13].雖然上述研究的方法不同,但結(jié)果都體現(xiàn)出了多指標(biāo)異常檢測(cè)性能的優(yōu)勢(shì).
多指標(biāo)水質(zhì)信息融合并非簡(jiǎn)單的數(shù)據(jù)疊加.污染物進(jìn)入水體后,會(huì)引起多個(gè)水質(zhì)指標(biāo)之間的聯(lián)動(dòng)變化,且由于受到水體緩沖、儀器檢測(cè)原理等因素的影響,各指標(biāo)對(duì)污染物的響應(yīng)速度及持續(xù)時(shí)間不同[14].現(xiàn)有的多傳感器信息融合的異常檢測(cè)方法多是通過統(tǒng)計(jì)一段時(shí)間窗口內(nèi)出現(xiàn)異常的指標(biāo)個(gè)數(shù)來對(duì)各指標(biāo)的決策結(jié)果進(jìn)行直接融合[15-16],往往對(duì)于污染物注入前、后指標(biāo)之間的相關(guān)性變化挖掘不夠充分,且由于各指標(biāo)時(shí)間序列的波動(dòng)變化并非完全同步,往往會(huì)導(dǎo)致融合后的判斷結(jié)果存在滯后和誤判.
本文針對(duì)該問題,提出基于動(dòng)態(tài)時(shí)間規(guī)整算法的水質(zhì)異常檢測(cè)方法.動(dòng)態(tài)時(shí)間規(guī)整算法是一種將時(shí)間規(guī)整與距離測(cè)度結(jié)合起來進(jìn)行相似性度量的方法.因該算法對(duì)序列在時(shí)間軸的伸縮、扭曲和異位等形變具有較好的包容性,在語音識(shí)別、機(jī)器學(xué)習(xí)等領(lǐng)域的序列相似度比較中得到了很好的應(yīng)用.本文將動(dòng)態(tài)時(shí)間規(guī)整算法引入到多水質(zhì)指標(biāo)的變化相似度分析中,通過滑動(dòng)時(shí)間窗讀取一定長(zhǎng)度窗口內(nèi)各個(gè)水質(zhì)參數(shù)的時(shí)間序列,利用動(dòng)態(tài)時(shí)間規(guī)整算法來計(jì)算任意兩個(gè)指標(biāo)時(shí)間序列之間的動(dòng)態(tài)距離,得到兩兩指標(biāo)間波動(dòng)的動(dòng)態(tài)關(guān)聯(lián)系數(shù).利用D-S證據(jù)理論的方法融合每個(gè)參數(shù)各自的基本異常概率,判斷當(dāng)前時(shí)刻的水質(zhì)是否存在異常.該方法旨在通過多指標(biāo)關(guān)聯(lián)特性的挖掘來提高異常檢測(cè)的靈敏程度,同時(shí)減少因各指標(biāo)響應(yīng)速度不同所導(dǎo)致的檢測(cè)誤判和滯后.
1管網(wǎng)水質(zhì)異常檢測(cè)算法
水質(zhì)異常是指一個(gè)或多個(gè)水質(zhì)指標(biāo)在一定時(shí)間內(nèi)所呈現(xiàn)出的偏離正常行為的波動(dòng)狀況[17].由污染物所引起的水質(zhì)異常通常會(huì)造成一個(gè)或多個(gè)水質(zhì)指標(biāo)產(chǎn)生波動(dòng),且不同指標(biāo)的變化之間呈現(xiàn)一定的關(guān)聯(lián)性,這與因傳感器故障、儀器傳輸噪聲等因素所引起的水質(zhì)監(jiān)測(cè)數(shù)據(jù)波動(dòng)有著本質(zhì)的區(qū)別.這種關(guān)聯(lián)特性的利用可以在單一指標(biāo)檢測(cè)的基礎(chǔ)之上,進(jìn)一步提高異常檢測(cè)的準(zhǔn)確性和靈敏程度.本文將單參數(shù)的基本異常概率和多參數(shù)的動(dòng)態(tài)關(guān)聯(lián)系數(shù)進(jìn)行融合,通過D-S證據(jù)理論的基本概率分配函數(shù)定義基于單參數(shù)的異常概率,利用動(dòng)態(tài)時(shí)間規(guī)整算法來計(jì)算水質(zhì)參數(shù)兩兩間的動(dòng)態(tài)關(guān)聯(lián)系數(shù).依據(jù)合成規(guī)則將單參數(shù)層面的異常概率與多參數(shù)層面的相關(guān)程度進(jìn)行融合,對(duì)當(dāng)前時(shí)刻水質(zhì)是否存在異常作出綜合判斷.
1.1單參數(shù)基本異常概率計(jì)算
對(duì)于單指標(biāo)的時(shí)間序列,異常的定義通常是指一段時(shí)間內(nèi)的觀測(cè)值相對(duì)于參考值的偏移程度.本文通過D-S證據(jù)理論的基本概率分配函數(shù)來定義每個(gè)指標(biāo)(證據(jù))各自的異常概率.
D-S證據(jù)理論由Dempster[18]提出,并由Shafer進(jìn)一步完善[19].D-S證據(jù)理論依靠證據(jù)(即多源信息)的積累,逐漸縮小假設(shè)范圍,從而實(shí)現(xiàn)多源信息的融合.證據(jù)理論最基本的內(nèi)容包括3個(gè)部分:識(shí)別框架、基本概率分配函數(shù)和合成規(guī)則.
識(shí)別框架是一個(gè)元素可窮舉的集合,集合內(nèi)互斥的各元素代表所有的可能性.在水質(zhì)異常檢測(cè)中,識(shí)別框架中只包含正常(normal)與異常(abnormal)兩個(gè)元素.基本概率分配函數(shù)是從識(shí)別框架的冪集到[0,1]的映射,框架中所有可能性的概率之和為1.在水質(zhì)異常檢測(cè)的實(shí)際應(yīng)用中,單參數(shù)的基本異常概率須能夠反映出水質(zhì)時(shí)間序列在短時(shí)間內(nèi)的動(dòng)態(tài)變化,因此引入短時(shí)均方根[20]來衡量水質(zhì)時(shí)間序列在時(shí)間窗口內(nèi)的波動(dòng)情況.定義基本概率分配函數(shù)如下:
(1)
式中:m(Abnornal)為當(dāng)前時(shí)刻該水質(zhì)指標(biāo)發(fā)生異常的概率;D為當(dāng)前時(shí)刻向前一個(gè)時(shí)間窗內(nèi)各個(gè)觀測(cè)值的短時(shí)均方根;σ為水質(zhì)正常波動(dòng)下歷史數(shù)據(jù)的短時(shí)均方根平均值,由歷史數(shù)據(jù)訓(xùn)練而得.當(dāng)水質(zhì)時(shí)間序列的波動(dòng)為零時(shí),m(Abnormal)=0;當(dāng)水質(zhì)時(shí)間序列的波動(dòng)趨于無窮時(shí),m(Abnormal)=1.定義的單參數(shù)的基本異常概率符合實(shí)際物理含義.
1.2多參數(shù)關(guān)聯(lián)系數(shù)計(jì)算
在污染物注入系統(tǒng)之后并非所有的監(jiān)測(cè)指標(biāo)都會(huì)有響應(yīng).不同的污染物可能會(huì)引起不同指標(biāo)的變化,且各指標(biāo)的變化之間存在較強(qiáng)的關(guān)聯(lián)性.在將多個(gè)指標(biāo)的檢測(cè)結(jié)果進(jìn)行融合前,需要引入各個(gè)指標(biāo)之間變化的關(guān)聯(lián)程度.
度量多指標(biāo)時(shí)間序列相關(guān)性的主要方法包括Minkowski距離、動(dòng)態(tài)時(shí)間規(guī)整、奇異值分解和基于點(diǎn)分布特征的方法等[21].動(dòng)態(tài)時(shí)間規(guī)整算法(dynamictimewarping,DTW) 最早用于語音信號(hào)處理方向,由Berndt等[22]引入到時(shí)間序列分析中,用于度量?jī)蓚€(gè)任意長(zhǎng)度的時(shí)間序列的相似度.DTW算法對(duì)時(shí)間序列的同步問題穩(wěn)健性較好,允許時(shí)間序列長(zhǎng)度不同,且允許不同步的點(diǎn)進(jìn)行對(duì)應(yīng)計(jì)算,因此對(duì)于在時(shí)間軸上存在伸縮、扭曲和異位的時(shí)間序列,采用該算法能夠較好地度量?jī)蓵r(shí)間序列之間的相似性.
DTW算法的原理如圖1所示,圖中,γ為電導(dǎo)率.依據(jù)兩點(diǎn)間的歐式距離可以構(gòu)造距離矩陣d.
(2)
DTW算法的實(shí)質(zhì)是在所有的點(diǎn)點(diǎn)匹配中尋找一種使得平均距離最短的匹配模式,即
(3)
圖1 DTW算法原理圖Fig.1 Schematic diagram of DTW
考慮到各指標(biāo)在時(shí)間軸上可能存在響應(yīng)不同步的情形,引入最大允許時(shí)間偏差ξ.ξ為兩序列對(duì)應(yīng)點(diǎn)進(jìn)行匹配時(shí)最大可以允許的時(shí)間軸異位,定義t0時(shí)刻兩時(shí)間序列間在最大允許時(shí)間偏差為ξ時(shí)的動(dòng)態(tài)距離為
(4)
得到當(dāng)前時(shí)刻兩序列的動(dòng)態(tài)距離之后,將該距離值映射到[0,1]內(nèi),得到動(dòng)態(tài)關(guān)聯(lián)系數(shù)為
(5)
(6)
1.3概率合成
合成規(guī)則是用于計(jì)算同一識(shí)別框架下不同證據(jù)信息的基本概率融合方法,根據(jù)實(shí)際情況不同,存在很多不同的合成規(guī)則.在水質(zhì)異常檢測(cè)中,正常的水質(zhì)波動(dòng)情況下各參數(shù)的聯(lián)動(dòng)性較弱,污染事件通常會(huì)引發(fā)兩種或兩種以上水質(zhì)指標(biāo)的聯(lián)動(dòng)變化,因此本文的概率融合選擇將DTW算法得到的任意兩參數(shù)之間關(guān)聯(lián)系數(shù)與兩參數(shù)各自的單參數(shù)基本異常概率進(jìn)行相乘,得到融合后的異常概率關(guān)聯(lián)矩陣.從矩陣各元素中選取最大值作為當(dāng)前時(shí)刻的水質(zhì)異常概率,通過與所設(shè)定的異常概率報(bào)警閾值進(jìn)行比較,給出當(dāng)前時(shí)刻水質(zhì)是否存在異常的判斷結(jié)果.
(7)
綜上所示,提出的水質(zhì)異常檢測(cè)方法計(jì)算流程如圖2所示.
概率合成規(guī)則是取單指標(biāo)異常概率與多指標(biāo)關(guān)聯(lián)系數(shù)乘積的最大值,因此如果只是單一指標(biāo)因信號(hào)傳輸故障、瞬時(shí)噪聲引入等原因?qū)е碌牟▌?dòng),不會(huì)對(duì)乘積結(jié)果產(chǎn)生大幅度影響;當(dāng)兩個(gè)或兩個(gè)以上水質(zhì)指標(biāo)監(jiān)測(cè)值同時(shí)出現(xiàn)大幅波動(dòng),且各參數(shù)的波動(dòng)具有較強(qiáng)的相關(guān)性時(shí),融合概率有可能超過閾值形成異常報(bào)警.這樣的融合結(jié)果不僅能夠利用多參數(shù)之間的相關(guān)性實(shí)現(xiàn)準(zhǔn)確的異常挖掘,而且可以有效地避免因傳感器噪聲、信號(hào)干擾等造成的誤報(bào),盡量在保證檢出率的前提下降低誤報(bào)率.
圖2 異常判斷流程圖Fig.2 Anomaly detection flow chart
2管網(wǎng)污染物注入實(shí)驗(yàn)
2.1污染物注入實(shí)驗(yàn)設(shè)計(jì)
整個(gè)實(shí)驗(yàn)是在課題組的供水管網(wǎng)模擬實(shí)驗(yàn)系統(tǒng)上進(jìn)行的.管網(wǎng)構(gòu)造如圖3所示,包括自動(dòng)加藥混合系統(tǒng)以及在線監(jiān)測(cè)系統(tǒng)兩個(gè)部分.加藥過程通過PLC控制加藥支路的蠕動(dòng)泵來實(shí)現(xiàn),全部在線監(jiān)測(cè)儀器都安置在主管路沿線上.
圖3 污染注入模擬實(shí)驗(yàn)管網(wǎng)示意圖Fig.3 Experimental pipeline system structure diagram
根據(jù)《生活飲用水衛(wèi)生標(biāo)準(zhǔn)》(GB5749-2006)的有關(guān)規(guī)定可知,城市飲用水的主要監(jiān)測(cè)指標(biāo)可以分為感官性狀與一般理化指標(biāo)、微生物指標(biāo)、毒理指標(biāo)、消毒劑指標(biāo)以及放射性指標(biāo).雖然近幾年傳感器技術(shù)的迅猛提升使得針對(duì)特定污染物的專用指標(biāo)分析技術(shù)得到了快速的發(fā)展,然而整個(gè)自然界污染物質(zhì)種類繁多,專用指標(biāo)分析技術(shù)很難覆蓋全部種類.最常用的是諸如溫度、濁度、pH、電導(dǎo)率等感官性狀與一般理化指標(biāo).在該實(shí)驗(yàn)系統(tǒng)中,進(jìn)行在線測(cè)量的水質(zhì)指標(biāo)包括pH、濁度(turb)、溶解氧(dissolvedoxygen,DO)、總有機(jī)碳(totalorganiccarbon,TOC)、化學(xué)需氧量(chemicaloxygendemand,COD)、氨氮(NH3-N)、硝氮(NO3-N)和余氯(Cl),具體檢測(cè)內(nèi)容及測(cè)量精度如表1所示.表中,TD為濁度.所有傳感器的采樣間隔統(tǒng)一設(shè)置為1min.實(shí)驗(yàn)藥品選用硫酸銅溶液和鐵氰化鉀溶液.這兩種物質(zhì)是電鍍、制銅、顏料、制革等領(lǐng)域中常用的工業(yè)原料,也是《污水綜合排放指標(biāo)》和飲用水衛(wèi)生標(biāo)準(zhǔn)中嚴(yán)控的指標(biāo),且這兩類污染物一旦注入供水管網(wǎng),將會(huì)引起多種常規(guī)水質(zhì)監(jiān)測(cè)指標(biāo)的異常波動(dòng).
實(shí)驗(yàn)分為正常情況下的水質(zhì)監(jiān)測(cè)和污染物注入后的水質(zhì)監(jiān)測(cè)兩個(gè)階段,全部實(shí)驗(yàn)持續(xù)5h,包含301個(gè)采樣時(shí)間點(diǎn).前100min為正常情況下的水質(zhì)監(jiān)測(cè)實(shí)驗(yàn),該過程開啟主管路,關(guān)閉加藥支路,通過在線監(jiān)測(cè)儀器對(duì)各個(gè)水質(zhì)參數(shù)進(jìn)行在線測(cè)量.隨后開展6組污染物注入實(shí)驗(yàn),分別通過加藥桶注入3組不同濃度的硫酸銅溶液和3組不同質(zhì)量濃度的鐵氰化鉀溶液,具體加入的污染物溶液質(zhì)量濃度如表2所示,每組注入實(shí)驗(yàn)持續(xù)時(shí)間為10min.表中,ρ1~ρ3分別為第1~3次注入質(zhì)量濃度.
表1 污染注入模擬實(shí)驗(yàn)儀器儀表信息與對(duì)應(yīng)檢測(cè)項(xiàng)目
表2 污染注入模擬實(shí)驗(yàn)加藥質(zhì)量濃度
圖4 正常的水質(zhì)監(jiān)測(cè)和污染物引起的異常Fig.4 Fluctuation in normal observation and contamination injection
圖4記錄的是正常情況下的水質(zhì)波動(dòng)和污染物注入后引起異常的監(jiān)測(cè)結(jié)果.圖中,t為時(shí)間.其中前100個(gè)點(diǎn)為正常水質(zhì)的監(jiān)測(cè)結(jié)果,用于訓(xùn)練窗口短時(shí)均方根和兩兩參數(shù)間動(dòng)態(tài)距離的平均值.從第101點(diǎn)開始出現(xiàn)的灰色陰影部分表示污染物添加時(shí)刻.前3個(gè)灰色陰影分別對(duì)應(yīng)于三次硫酸銅溶液注入,后3個(gè)分別對(duì)應(yīng)鐵氰化鉀溶液的注入.
2.2單參數(shù)的基本異常概率計(jì)算
利用前100min系統(tǒng)正常運(yùn)行情況下的水質(zhì)監(jiān)測(cè)數(shù)據(jù),分別計(jì)算出8個(gè)參數(shù)歷史情況下短時(shí)均方根的均值σ.從第101個(gè)時(shí)間點(diǎn)開始進(jìn)行污染物注入實(shí)驗(yàn),通過比較各參數(shù)在當(dāng)前窗口內(nèi)的短時(shí)均方根D與歷史均值σ的偏離程度來計(jì)算單參數(shù)的基本異常概率.分別選取硫酸銅注入實(shí)驗(yàn)中t1=105時(shí)刻和鐵氰化鉀注入實(shí)驗(yàn)中t2=205時(shí)刻的監(jiān)測(cè)值進(jìn)行分析,得到各參數(shù)的基本異常概率Pab,如表3所示.
表3 單參數(shù)基本異常概率計(jì)算
由基本異常概率可以看出,在硫酸銅溶液注入實(shí)驗(yàn)中,pH、COD、TOC反應(yīng)強(qiáng)烈,氨氮、硝氮、余氯反應(yīng)不明顯;在鐵氰化鉀溶液注入實(shí)驗(yàn)中,TOC、氨氮、硝氮、余氯反應(yīng)強(qiáng)烈,pH、濁度沒有明顯變化.若基于單一參數(shù)的檢測(cè)結(jié)果進(jìn)行異常判斷,則非常容易產(chǎn)生漏報(bào).接下來考慮引入多參數(shù)間的關(guān)聯(lián)分析.
2.3多參數(shù)的動(dòng)態(tài)關(guān)聯(lián)矩陣計(jì)算
圖5 正常情況下各參數(shù)的平均動(dòng)態(tài)距離矩陣Fig.5 Average dynamic distance matrix under normal observation
圖6 t1=105時(shí)刻多指標(biāo)動(dòng)態(tài)關(guān)聯(lián)程度示意圖Fig.6 Multi-parameters dynamic correlation diagram at t1=105
圖7 t2=205時(shí)刻多指標(biāo)動(dòng)態(tài)關(guān)聯(lián)程度示意圖Fig.7 Multi-parameters dynamic correlation diagram at t2=205
2.4概率合成與異常判斷
利用提出的合成規(guī)則,將單指標(biāo)的基本異常概率和多指標(biāo)的關(guān)聯(lián)系數(shù)進(jìn)行相乘,并從中選取最大值,可以得到t1=105和t2=205兩個(gè)時(shí)刻融合后的異常概率分別為
P(t1)=0.670 3,P(t2)=0.764 9.
(8)
得到融合的概率后,通過與設(shè)定的閾值進(jìn)行比較,可以作出異常判斷.
3實(shí)驗(yàn)結(jié)果分析
3.1檢測(cè)結(jié)果統(tǒng)計(jì)分析
對(duì)各參數(shù)所有時(shí)刻的監(jiān)測(cè)數(shù)據(jù)進(jìn)行分析處理,將融合概率的異常判斷結(jié)果按真陽性(truepositive,TP)、假陽性(falsepositive,FP)、真陰性(truenegative,TN)及假陰性(falsenegative,FN)進(jìn)行統(tǒng)計(jì),具體定義參見表4.根據(jù)統(tǒng)計(jì)的判定結(jié)果,可以定義算法的判斷準(zhǔn)確度(accuracy,ACC).
表4 異常檢測(cè)混淆矩陣
(9)
基于以上定義,記錄301個(gè)采樣點(diǎn)的判定結(jié)果,如表5所示.設(shè)置觸發(fā)異常報(bào)警的概率閾值為0.65,得到融合后的檢測(cè)結(jié)果,如圖5所示.從實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果可以看出,6次污染事件都成功檢出,檢測(cè)準(zhǔn)確度可達(dá)95.3%.
表5 水質(zhì)檢測(cè)統(tǒng)計(jì)結(jié)果
如表5所示,在整組實(shí)驗(yàn)的301個(gè)時(shí)間點(diǎn)中,共產(chǎn)生3個(gè)誤報(bào)(FP)的時(shí)間點(diǎn),其中有2個(gè)誤報(bào)點(diǎn)是發(fā)生在整組實(shí)驗(yàn)開始的階段.對(duì)比圖4可以看出,由于系統(tǒng)剛剛啟動(dòng),濁度、溶解氧等指標(biāo)相對(duì)不穩(wěn)定,造成誤判.針對(duì)產(chǎn)生的11個(gè)漏報(bào)(FN)的時(shí)間點(diǎn)進(jìn)行深入分析.圖8中,AE、AR分別為實(shí)際情況和檢測(cè)結(jié)果.由圖8可以看出,這些漏報(bào)點(diǎn)都發(fā)生在事件開始的階段,即在事件發(fā)生與產(chǎn)生報(bào)警之間存在一定的遲延,平均每次事件的遲延為1.0~2.0個(gè)時(shí)間步長(zhǎng).
圖8 實(shí)際事件與檢測(cè)結(jié)果對(duì)比圖Fig.8 Comparison between actual events and detection results
3.2ROC曲線和異常檢測(cè)性能分析
ROC曲線[23](受試者工作特征曲線)是使用最廣泛的算法性能評(píng)價(jià)方法.ROC曲線是以誤報(bào)率(falsepositiverate,FPR)為橫坐標(biāo)、檢出率(truepositiverate,TPR)為縱坐標(biāo)繪制而成的,曲線與橫軸和直線x=1所圍成的圖形面積被稱為ROC曲線下面積.ROC曲線下面積越大,算法的性能越好.此外,從原點(diǎn)引出的對(duì)角線意味著隨機(jī)判定的結(jié)果,因此一個(gè)算法的ROC曲線應(yīng)在對(duì)角線左上方,才能說明該方法是有效的.
圖9 ROC曲線效果圖Fig.9 Roc curve comparison diagram
如圖9的虛線所示為采用動(dòng)態(tài)時(shí)間規(guī)整算法得到的ROC曲線.為了凸顯動(dòng)態(tài)時(shí)間規(guī)整在處理時(shí)間軸存在形變問題時(shí)的有效性,引入直接利用皮爾遜相關(guān)系數(shù)法(具體算法參見文獻(xiàn)[16])計(jì)算兩兩指標(biāo)之間的波動(dòng)相關(guān)性的方法進(jìn)行對(duì)比,ROC曲線如點(diǎn)劃線所示.從圖9可以看出,雖然皮爾遜相關(guān)系數(shù)法相較于其他的多指標(biāo)融合水質(zhì)異常檢測(cè)算法而言,將多個(gè)參數(shù)之間的相關(guān)性納入水質(zhì)評(píng)價(jià)當(dāng)中,但由于受各參數(shù)在時(shí)間軸上表現(xiàn)不一致的影響,ROC曲線下面積明顯小于基于動(dòng)態(tài)時(shí)間規(guī)整算法的ROC曲線下面積.特別是當(dāng)誤報(bào)率較小時(shí),動(dòng)態(tài)時(shí)間規(guī)整算法的檢出率遠(yuǎn)高于相關(guān)系數(shù)法.這說明基于動(dòng)態(tài)時(shí)間規(guī)整的異常檢測(cè)算法不僅能夠較好地挖掘各參數(shù)之間的波動(dòng)相關(guān)性,更避免了因參數(shù)反應(yīng)速度不一致所帶來的影響,具有較好的檢測(cè)效果.
4結(jié)語
針對(duì)目前城市供水水質(zhì)污染種類眾多、現(xiàn)有報(bào)警技術(shù)未充分利用多指標(biāo)內(nèi)在關(guān)聯(lián)信息等問題,本文提出基于多水質(zhì)指標(biāo)間動(dòng)態(tài)關(guān)聯(lián)分析進(jìn)行水質(zhì)異常檢測(cè)的方法.通過衡量單參數(shù)層面的異常概率以及多參數(shù)兩兩之間的動(dòng)態(tài)相關(guān)性,得到融合后的水質(zhì)異常概率,從而判斷當(dāng)前水質(zhì)是否存在異常.選取多組不同濃度的硫酸銅溶液和鐵氰化鉀溶液進(jìn)行管網(wǎng)模擬實(shí)驗(yàn),利用實(shí)驗(yàn)所得的數(shù)據(jù)對(duì)方法的有效性進(jìn)行驗(yàn)證.實(shí)驗(yàn)結(jié)果表明,采用該方法可以有效地挖掘污染物注入前、后水質(zhì)指標(biāo)間的內(nèi)在聯(lián)系,利用關(guān)聯(lián)信息對(duì)因污染物引起的水質(zhì)異常波動(dòng)進(jìn)行檢測(cè)和識(shí)別,在保證了檢出率的情況下盡可能降低誤報(bào)率,同時(shí)能夠較好地克服各參數(shù)在時(shí)間軸上表現(xiàn)不一致所帶來的干擾,實(shí)現(xiàn)更加及時(shí)、準(zhǔn)確地水質(zhì)異常檢測(cè).城市供水管網(wǎng)的空間跨度遠(yuǎn)大于實(shí)驗(yàn)室模擬系統(tǒng),因此在實(shí)際應(yīng)用中,算法的性能可能會(huì)受制于傳感器安裝位置以及響應(yīng)速度的影響.未來的研究可以著眼于如何利用供水網(wǎng)絡(luò)中多個(gè)檢測(cè)站點(diǎn)的信息來提升異常檢測(cè)的準(zhǔn)確性.
參考文獻(xiàn)(References):
[1]TAMMINENS,RAMOSH,COVASD.WatersupplysystemperformancefordifferentpipematerialspartI;waterqualityanalysis[J].WaterResourcesManagement, 2008, 22(11): 1579-1607.
[2]BYERMD,CARLSONK.Real-timedetectionofintentionalchemicalcontaminationinthedistributionsystem[J].JournalAmericanWaterWorksAssociation, 2005, 97(7): 1-34.
[3]FARUKD.AhybridneuralnetworkandARIMAmodelforwaterqualitytimeseriesprediction[J].EngineeringApplicationsofArtificialIntelligence, 2010, 23(4): 586-594.
[4]BABINSM,BURKOMHS,MNATSAKANYANZR,etal.Drinkingwatersecurityandpublichealthdiseaseoutbreaksurveillance[J].JohnsHopkinsAplTechnicalDigest, 2008, 27(4): 403-411.
[5]OLIKERN,OSTAFELDA.Acoupledclassification-evolutionaryoptimizationmodelforcontaminationeventdetectioninwaterdistributionsystems[J].WaterResearch, 2014, 51(6): 234-245.
[6]PERELMANL,ARADJ,HOUSHM,etal.Eventdetectioninwaterdistributionsystemsfrommultivariatewaterqualitytimeseries[J].EnvironmentalScienceandTechnology, 2012, 46(15): 8212-8219.
[7]MODARESIF,ARAGHINEJADS.Acomparativeassessmentofsupportvectormachines,probabilisticneuralnetworks,andk-nearestneighboralgorithmsforwaterqualityclassification[J].WaterResourcesManagement, 2014, 28(12): 4095-4111.
[8]ZOUH,ZOUZ,WANGX.AnenhancedK-meansalgorithmforwaterqualityanalysisoftheHaiheriverinChina[J].InternationalJournalofEnvironmentalResearchandPublicHealth, 2015, 12(11): 14400-14413.
[9]MCKENNASA,VUGRINED,HARTDB,etal.Multivariatetrajectoryclusteringforfalsepositivereductioninonlineeventdetection[J].JournalofWaterResourcesPlanningandManagement, 2013, 139(1): 3-12.
[10]OLIKERN,OSTFELDA.Minimumvolumeellipsoidclassificationmodelforcontaminationeventdetectioninwaterdistributionsystems[J].BulletinoftheAtomicScientists, 2014, 57(6): 1-12.
[11]MCKENNASA,KLISEKA.Multivariateapplicationsfordetectinganomalouswaterquality[C] ∥ 2006WaterDistributionSystemsAnalysisSymposium.Cincinnati: [s.n.], 2006: 1-11.
[12]YANGYJ,HAUGHTRC,GOODRICHJA.Real-timecontaminantdetectionandclassificationinadrinkingwaterpipeusingconventionalwaterqualitysensors:techniquesandexperimentalresults[J].JournalofEnvironmentalManagement, 2009, 90(8): 2494-2506.
[13]OLIKERN,OSTFELDA.Waterqualityeventdetectioninwaternetworksthroughmultiplesensorsdata[C] ∥ProceedingsofWorldEnvironmentalandWaterResourcesCongress.Austin:IEEE, 2015: 902-906.
[14]BENSALEHMS,QASIMSM,OBEIDAM,etal.Areviewonwirelesssensornetworkforwaterpipelinemonitoringapplications[C] ∥ 2013CollaborationTechnologiesandSystems(CTS)ofIEEE.SanDiego:IEEE, 2013: 128-131.
[15]JONATHANA,MASHORH,LINAP,etal.Adynamicthresholdsschemeforcontaminanteventdetectioninwaterdistributionsystems[J].WaterResearch, 2013, 47(5): 1899-1908.
[16]SHUMINGL,HANC,KATES,etal.Contaminationeventdetectionusingmultipletypesofconventionalwaterqualitysensorsinsourcewater[J].EnvironmentalMonitoringandAssessment, 2014, 16(8): 2028-2038.
[17]MUNIZCD,NIETOPJ,FERNANDEZJR,etal.DetectionofoutliersinwaterqualitymonitoringsamplesusingfunctionaldataanalysisinSanEstebanestuary(NorthernSpain) [J].ScienceoftheTotalEnvironment, 2012, 439(1): 54-61.
[18]GIAOBC,ANHDT.Similaritysearchinmultiplehighspeedtimeseriesstreamsunderdynamictimewarping[C] ∥ 2015NationalFoundationforScienceandTechnologyDevelopmentConferenceonInformationandComputerScience.HoChiMinhCity:IEEE, 2015: 82-87.
[19]ZHUQY,ZHANGGX,FENGTH,etal.Studyonwaterqualityanalysisandearly-warningtechnologybasedonroughsetandevidencetheory[J].JournalofZhejiangUniversity, 2012, 38(6): 747-754.
[20] 楊將新,鄭華文,曹衍龍,等. 基于自適應(yīng)AR模型的核電站松動(dòng)件報(bào)警方法[J]. 原子能科學(xué)技術(shù), 2010, 44(6): 701-705.
YANGJiang-xin,ZHENGHua-wen,CAOYan-long,etal.Alarmingmethodofloosepartsinnuclearpowerplantbasedonadaptiveauto-regressivemodel[J].AtomicEnergyScienceandTechnology, 2010, 44(6): 701-705.
[21] 李正欣,張鳳鳴,李克武. 基于DTW的多元時(shí)間序列模式匹配方法[J]. 模式識(shí)別與人工智能, 2011, 03(4): 425-430.
LIZheng-xin,ZHANGFeng-ming,LIKe-wu.DTWbasedpatternmatchingmethodformultivariatetimeseries[J].PatternRecognitionandArtificialIntelligence, 2011, 03(4): 425-430.
[22]BERNDTDJ,CLIFFORDJ.Findingpatternsintimeseries:adynamicprogrammingapproach[J].AdvancesinKnowledgeDiscoveryandDataMining, 1996, 1(1): 229-248.
[23]FAWCETTT.AnintroductiontoROCanalysis[J].PatternRecognitionLetters, 2006, 27(8): 861-874.
收稿日期:2015-11-15.浙江大學(xué)學(xué)報(bào)(工學(xué)版)網(wǎng)址: www.journals.zju.edu.cn/eng
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61573313;U1509208);浙江省科技廳公益資助項(xiàng)目(2014C33025);浙江省重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2015C03G2010034).
作者簡(jiǎn)介:魏媛(1990-),女,碩士生,從事多源信息融合水質(zhì)異常檢測(cè)技術(shù)研究. ORCID: 0000-0002-5312-8791. E-mail: vera_wy@zju.edu.cn 通信聯(lián)系人:黃平捷,男,副教授. ORCID: 0000-0002-5487-6097. E-mail: huangpingjie@zju.edu.cn
DOI:10.3785/j.issn.1008-973X.2016.07.025
中圖分類號(hào):X 832
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1008-973X(2016)07-1402-08
Contaminationeventdetectionmethodbasedondynamiccorrelationanalysisofmultiplewaterqualityparameters
WEIYuan,FENGTian-heng,HUANGPing-jie,HOUDi-bo,ZHANGGuang-xin
(State Key Laboratory of Industrial Control Technology, Zhejiang University, Hangzhou 310027, China)
Abstract:A multivariate correlation analysis method was proposed by exploring the internal correlation within conventional water quality parameters before and after the occurrence of contamination event in order to improve the performance of the existing water quality anomaly detection methods. The dynamic distance between each two monitored parameters was calculated to define the fluctuation correlation of the two time series by using the dynamic time warping (DTW) method. The correlation coefficient was fused with univariate basic abnormal probability based on D-S evidence theory in order to obtain the fused probability. The synthesis alarm decision was made by comparing the fused probability with the threshold. The proposed method was tested with experimental monitoring data collected from the laboratory pipeline system. Different concentrations of copper sulfate and potassium ferricyanide were separately injected into the pipeline system. Eight conventional monitoring parameters were measured by sensors installed along the pipeline. The collected monitoring data was applied to correlation analysis and probability fusion based on the proposed method. The ROC analysis was introduced to verify the performance and validity of the techniques.
Key words:conventional water parameter; data fusion; water quality event detection; time series analysis; dynamic time warping; correlation analysis