張 峰 薛惠鋒 WANG Wei 宋曉娜 萬 毅
(1.中國航天系統(tǒng)科學(xué)與工程研究院研究生部, 北京 100048;2.紐約州立賓漢姆頓大學(xué)湯瑪士·華生工程與應(yīng)用科學(xué)學(xué)院, 賓漢姆頓 NY 13902;3.泰山學(xué)院商學(xué)院, 泰安 271000; 4.水利部水資源管理中心, 北京 100053)
水資源監(jiān)測異常數(shù)據(jù)模態(tài)分解-支持向量機重構(gòu)方法
張 峰1薛惠鋒1WANG Wei2宋曉娜3萬 毅4
(1.中國航天系統(tǒng)科學(xué)與工程研究院研究生部, 北京 100048;2.紐約州立賓漢姆頓大學(xué)湯瑪士·華生工程與應(yīng)用科學(xué)學(xué)院, 賓漢姆頓 NY 13902;3.泰山學(xué)院商學(xué)院, 泰安 271000; 4.水利部水資源管理中心, 北京 100053)
完備真實的水資源監(jiān)測數(shù)據(jù)是支撐數(shù)據(jù)分析與決策的基本前提。在梳理現(xiàn)階段水資源監(jiān)測異常數(shù)據(jù)的基礎(chǔ)上,提出運用移動平均擬合初篩來直觀辨識異常監(jiān)測數(shù)據(jù),進而選取集合模態(tài)分解對非可直觀辨識異常監(jiān)測數(shù)據(jù)進行挖掘的方法。將剔除異常監(jiān)測值后的時序數(shù)據(jù)作為基于粒子群優(yōu)化最小二乘支持向量機模型的模擬樣本,并利用其恢復(fù)所剔除的異常監(jiān)測數(shù)據(jù)。對水務(wù)公司日取水量監(jiān)測數(shù)據(jù)的實證分析結(jié)果表明,通過移動平均擬合與模態(tài)分解可較大限度地保留含有異常數(shù)據(jù)的特征向量并實現(xiàn)數(shù)據(jù)的有效重構(gòu),相比傳統(tǒng)的統(tǒng)計方法其具有更好的適用性;運用粒子群優(yōu)化的最小二乘支持向量機可進一步提高對剔除異常值數(shù)據(jù)的擬合效果,且符合水資源監(jiān)測數(shù)據(jù)的季節(jié)波動規(guī)律特征及對實際取用水狀態(tài)的客觀反映,據(jù)此可相對合理地達(dá)到恢復(fù)所剔除異常監(jiān)測數(shù)據(jù)的目的。
水資源監(jiān)測; 異常數(shù)據(jù); 數(shù)據(jù)重構(gòu); 模態(tài)分解; 最小二乘支持向量機
實現(xiàn)對水資源的全面監(jiān)測是國家水資源監(jiān)控能力建設(shè)項目的重點內(nèi)容,是落實2011年中央一號文件和水利信息化建設(shè)的龍頭工程,尤其是對8 558個規(guī)模以上取用水戶、4 493個重要水功能區(qū)與入河排污口及737個省界斷面等的水量和水質(zhì)的在線監(jiān)測,由此逐步形成完善的國家水資源在線監(jiān)測數(shù)據(jù)采集傳輸網(wǎng)絡(luò)體系,為強化水資源管理提供重要決策支撐[1]。
當(dāng)前國家水行政部門與相關(guān)機構(gòu)正著力探索處理水資源監(jiān)測異常數(shù)據(jù)的有效方法,但水資源監(jiān)測數(shù)據(jù)特點不同于傳統(tǒng)的統(tǒng)計數(shù)據(jù),現(xiàn)有相關(guān)數(shù)據(jù)分析方法的適用性還需要進一步研究。MANDEL等[2]基于水資源分配網(wǎng)絡(luò)的復(fù)雜性,提出采用聚類函數(shù)的方法用于挖掘水質(zhì)異常數(shù)據(jù)的主要特征及估計未來重大水質(zhì)事件發(fā)生的概率;KAR等[3]針對水資源數(shù)據(jù)監(jiān)測中金屬污染物的空間變化情況,融合支持向量機與多元回歸分析技術(shù),提出了可用于輔助水質(zhì)遠(yuǎn)程監(jiān)測Hyperion數(shù)據(jù)分類模型;PARK等[4]選取主成分分析方法構(gòu)建影響水量分配數(shù)據(jù)變化的關(guān)聯(lián)要素判別模型,并通過測算模型的剩余誤差來識別水資源數(shù)據(jù)的異常值;同樣應(yīng)用主成分的方法,PISINARAS等[5]基于對河流水量與水質(zhì)的實地調(diào)研數(shù)據(jù)的分析,提出了提高水資源監(jiān)測數(shù)據(jù)質(zhì)量的相關(guān)途徑;龍秋波等[6]利用中國水利普查數(shù)據(jù)、水資源統(tǒng)計公報數(shù)據(jù)等進行數(shù)據(jù)統(tǒng)計差異分析,并構(gòu)建了趨勢離差和線性回歸模型等,分別實現(xiàn)了不同行業(yè)之間水資源數(shù)據(jù)差異甄別與修正;方海泉等[7]選用中位數(shù)與集成模態(tài)分解技術(shù)對水資源監(jiān)測數(shù)據(jù)進行分析,并認(rèn)為根據(jù)數(shù)據(jù)之間的偏差比率可識別其異常值;魏晶茹等[8]針對污水監(jiān)測數(shù)據(jù)中存在的數(shù)據(jù)異常及缺失問題,建立了非線性的支持向量機模型,分別利用擬合誤差與樣本訓(xùn)練值來完成異常數(shù)據(jù)的辨識和缺失數(shù)據(jù)的補充。此外,還有學(xué)者探討了經(jīng)典統(tǒng)計學(xué)中的拉依達(dá)準(zhǔn)則在水文數(shù)據(jù)異常值處理中的應(yīng)用[9]。
綜上可知,水資源監(jiān)測異常數(shù)據(jù)的識別與處理已成為水資源管理研究工作的重點,而學(xué)者們嘗試諸多數(shù)據(jù)建模方法并建立了一定程度的分析基礎(chǔ),但實際上水資源監(jiān)測數(shù)據(jù)上傳至國家水資源管理系統(tǒng)中具有數(shù)據(jù)規(guī)模大、人工檢測操作復(fù)雜等特點,同時其數(shù)據(jù)本身呈現(xiàn)出季節(jié)波動規(guī)律,此背景下達(dá)到有效識別監(jiān)測異常數(shù)據(jù)的目標(biāo)則需要構(gòu)建與其相適應(yīng)的檢測模型。據(jù)此,本文針對日取用水量監(jiān)測數(shù)據(jù)為研究對象,結(jié)合該類監(jiān)測數(shù)據(jù)統(tǒng)計中的實際情況,提出一種基于移動平均擬合和模態(tài)分解的水資源監(jiān)測異常數(shù)據(jù)檢測方法,分別從可直觀辨識與非可直觀辨識的水資源異常數(shù)據(jù)處理角度完成其異常數(shù)據(jù)的辨識,并在驗證模型有效性基礎(chǔ)上利用粒子群-支持向量機仿真模型實現(xiàn)對異常數(shù)據(jù)的恢復(fù)。
1.1 可直觀辨識異常數(shù)據(jù)情景
可直觀辨識的水資源監(jiān)測數(shù)據(jù)異常是指能夠利用其監(jiān)測數(shù)據(jù)值的變化大小或統(tǒng)計曲線的走勢而直接讀取的非常規(guī)數(shù)據(jù)狀態(tài)。按照水資源監(jiān)測系統(tǒng)呈現(xiàn)出的水資源監(jiān)測數(shù)據(jù)狀況,以日取水量數(shù)據(jù)為例,其可直觀識別出相對典型的監(jiān)測數(shù)據(jù)異常情況有:①數(shù)據(jù)值連續(xù)為零。如圖1a所示,水資源監(jiān)測數(shù)據(jù)連續(xù)一段時間內(nèi)取水量為零,該情況下多是由于監(jiān)測設(shè)備停用、傳感器損壞等問題導(dǎo)致。②數(shù)據(jù)值連續(xù)不變。即水資源監(jiān)測數(shù)據(jù)處于非零狀態(tài)的恒定值(圖1b),正常狀態(tài)下日取水量均會存在不同程度的差異,但長時間不發(fā)生變化則說明其具有產(chǎn)生異常的可能。③數(shù)據(jù)值突變過大、過低、為零。該情景主要指監(jiān)測數(shù)據(jù)在某一點上出現(xiàn)明顯的突變,但隨后趨于波動不大的連續(xù)狀態(tài)(圖1c),而突變的原因有多種,包括該日取水量確實由于水資源需求而改變,但也可能是設(shè)備受外界環(huán)境干擾而產(chǎn)生異常波動。④數(shù)據(jù)值季節(jié)性反差。正常狀態(tài)下日取水量總體上呈一定規(guī)律變化,例如觀測國家水資源管理系統(tǒng)中對重點取用水戶的監(jiān)測數(shù)據(jù)值多數(shù)是“夏季高而冬季低”的趨勢,這主要是由于夏季取用水需求相對較高導(dǎo)致,但局部異常數(shù)據(jù)則表現(xiàn)出相反態(tài)勢,即冬季總體水資源需求量相對夏季應(yīng)下降但所監(jiān)測的數(shù)據(jù)卻呈持續(xù)上升趨勢(圖1d,其中藍(lán)點表示冬季原始監(jiān)測數(shù)據(jù)相對夏季呈現(xiàn)出偏高的異常狀態(tài),紅點表示正常狀態(tài)下相對夏季偏低的監(jiān)測數(shù)據(jù)狀態(tài)),或在夏季出現(xiàn)相反的現(xiàn)象。⑤數(shù)據(jù)值缺失。該問題存在兩種表現(xiàn)形式,即數(shù)據(jù)連續(xù)性缺失與間斷性缺失,這兩種均為水資源監(jiān)測系統(tǒng)中無法獲取實際監(jiān)測數(shù)據(jù)而造成數(shù)據(jù)值處于空白,但前者是指特定時間段內(nèi)某一點或連續(xù)某幾點出現(xiàn)監(jiān)測數(shù)據(jù)缺失,而后者則是一套原始數(shù)據(jù)中存在非連續(xù)的2處以上數(shù)據(jù)缺失,對于上述場景的異常數(shù)據(jù)重構(gòu)通常需要與歷史年份下該時間段內(nèi)的監(jiān)測數(shù)據(jù)進行擬合與對比進行判定,但是由于目前水資源監(jiān)控能力尚處于建設(shè)階段,其所能獲取的歷史年份監(jiān)測數(shù)據(jù)相對有限,亟需采用一些定量的方法對其進行重構(gòu)。
圖1 可直觀辨識的水資源監(jiān)測異常數(shù)據(jù)情景Fig.1 Visual identification of abnormal data scenarios for water resources detection
對于可直觀辨識的水資源監(jiān)測異常數(shù)據(jù)需要依據(jù)實際情況,通過反饋校對的形式檢驗數(shù)據(jù)的真?zhèn)危羰怯蓪嶋H需求而引發(fā)的數(shù)據(jù)變動則不需再進行調(diào)整,而對于由于設(shè)備損壞、人工操作等導(dǎo)致的數(shù)據(jù)異常則需要采取相應(yīng)的措施進行數(shù)據(jù)修正。
1.2 非可直觀辨識異常數(shù)據(jù)情景
除上述可直觀辨識的異常數(shù)據(jù)情景外,其它情景多為水資源監(jiān)測數(shù)據(jù)連續(xù)且上下波動幅度并不明顯的情況,但這其中并不能排除全部為監(jiān)測到的精準(zhǔn)數(shù)據(jù),通常也會存在通過直接觀測而無法輕易發(fā)現(xiàn)的數(shù)據(jù)異常值,對此可將此類異常數(shù)據(jù)稱為非可直觀辨識異常數(shù)據(jù)。據(jù)其數(shù)據(jù)特性來看,非可直觀辨識異常數(shù)據(jù)檢測要在看似正常的數(shù)據(jù)流中查找存在異常的數(shù)據(jù)點,其判定精度直接關(guān)系到水資源監(jiān)控工作的復(fù)雜性,但此類異常數(shù)據(jù)的排查難度明顯高于可直觀辨識的異常數(shù)據(jù),而這也是自國家水資源監(jiān)控能力建設(shè)以來亟待解決的難點。
1.3 技術(shù)路線
基于現(xiàn)有國家水資源監(jiān)測系統(tǒng)中異常數(shù)據(jù)的表征狀態(tài),本文按照異常數(shù)據(jù)先檢測后重構(gòu)的思路,確定技術(shù)路線如圖2所示。
圖2 研究技術(shù)路線Fig.2 Technical route of research
2.1 概率統(tǒng)計模型
常用經(jīng)典統(tǒng)計學(xué)異常值檢測準(zhǔn)則有拉依達(dá)準(zhǔn)則(3σ)、格拉布斯準(zhǔn)則、狄克遜準(zhǔn)則等[10],這類準(zhǔn)則的使用通常是建立在單次試驗重復(fù)測量的基礎(chǔ)上,但水資源監(jiān)測數(shù)據(jù)每日測量重復(fù)次數(shù)有限,因此這些準(zhǔn)則在水資源監(jiān)測數(shù)據(jù)異常值辨析的適用性上有待驗證。
2.2 模態(tài)分解模型
集合經(jīng)驗?zāi)B(tài)分解(EEMD)是對經(jīng)典模態(tài)分解進行改進的一種融合噪聲輔助數(shù)據(jù)處理方法,在模態(tài)分解上具有抗混疊的優(yōu)勢[11]。選取EEMD處理水資源監(jiān)測異常數(shù)據(jù)的識別,可有效提取監(jiān)測數(shù)據(jù)固有模態(tài)函數(shù)(Intrinsic mode function,IMF)并挖掘異常特征向量規(guī)律[12],其步驟如下:
(1)對原始時間序列x(t)添加隨機高斯白噪聲ηm(t),取得融合噪聲后的待處理序列
xm(t)=x(t)+ηm(t)
(1)
(2)將含有白噪聲的序列xm(t)進行EMD分解,得到n個IMF分量ci,m(t)(i=1,2,…,n)和剩余分量rn,m(t)。
(3)添加均方根值相等的不同白噪聲序列,并反復(fù)運行上述步驟,取得M組不同的IMF分量及剩余分量。
(4)計算M組IMF分量與剩余分量的均值,將其最終分解取得的IMF分量與剩余分量定義為模態(tài)分解EEMD的分析結(jié)果,即
(2)
2.3 粒子群-支持向量機仿真模型
考慮數(shù)據(jù)樣本的規(guī)模和最小二乘支持向量機(LSSVM)在解決非線性、規(guī)模樣本等問題的擬合優(yōu)勢[13],本文選取該方法對水資源監(jiān)測異常數(shù)據(jù)進行恢復(fù)。同時,利用粒子群算法(PSO)優(yōu)化LSSVM核函數(shù)的參數(shù)。其中LSSVM目標(biāo)函數(shù)為
(3)
式中ω——權(quán)向量θ——誤差向量
γ——懲罰因子,γgt;0
考慮RBF核函數(shù)處理非線性輸入與輸出關(guān)系的適用性,選取其作為LSSVM的核函數(shù)[14]
(4)
式中ωi——Lagrange乘子
圖3 利用PSO優(yōu)化LSSVM參數(shù)流程Fig.3 Flow chart of parameters of LSSVM optimized by PSO
選取參數(shù)優(yōu)化后的LSSVM模型,將除了存在數(shù)據(jù)明顯異常的水資源監(jiān)測數(shù)據(jù)作為模型訓(xùn)練樣本進行擬合,通過控制擬合誤差辨識其監(jiān)測數(shù)據(jù)異常值,進而根據(jù)擬合結(jié)果對水資源監(jiān)測異常數(shù)據(jù)進行恢復(fù)。
3.1 數(shù)據(jù)說明
以某水務(wù)有限公司2016年日取水量監(jiān)測數(shù)據(jù)為例(共366 d),該數(shù)據(jù)序列源于國家水資源管理系統(tǒng)數(shù)據(jù)庫,記為x(p)(圖4)。對其可直觀辨識的水資源異常數(shù)據(jù)初步處理后,重點分析其非可直觀辨識的日取水量監(jiān)測異常數(shù)據(jù)。
圖4 日取水量監(jiān)測數(shù)據(jù)變化狀態(tài)Fig.4 Changing states of daily monitoring water data
3.2 可直觀辨識的水資源異常數(shù)據(jù)粗處理
按照可直觀辨識的水資源異常數(shù)據(jù)的情景類別,觀測圖4中未出現(xiàn)季節(jié)反差的現(xiàn)象,但需對日取水量監(jiān)測數(shù)據(jù)的出現(xiàn)數(shù)值突變過大、為零、缺失、連續(xù)恒定不變的數(shù)據(jù)點進行初篩,其中數(shù)值突變過大包括過高和過低兩種情況。對于這類異常數(shù)據(jù)需要在進行非可直觀辨識異常數(shù)據(jù)分析建模前進行剔除,否則易受其影響而導(dǎo)致所建數(shù)據(jù)模型判定精度受損,但是同時也要考慮日取水量監(jiān)測數(shù)據(jù)信息狀態(tài)的反映,避免由于數(shù)據(jù)剔除規(guī)模過大而造成數(shù)據(jù)建模信息支撐不足。據(jù)此,鑒于日取水量通常受季節(jié)影響相對顯著,可分別采用多項式擬合、移動平均算法預(yù)估其可直觀辨識的水資源異常數(shù)據(jù)(圖5、6,綠色曲線表示多項式與移動平均擬合曲線,紅色點指識別的異常數(shù)據(jù))。其中,利用多項式與移動平均數(shù)據(jù)擬合時,可參考經(jīng)典統(tǒng)計學(xué)中的拉依達(dá)準(zhǔn)則對大于“樣本均值±3倍標(biāo)準(zhǔn)差”數(shù)據(jù)為異常值的定義方法,但同時考慮相比統(tǒng)計類數(shù)據(jù),監(jiān)測類數(shù)據(jù)具有監(jiān)測頻率高、部分異常值波動幅度大等特點,若直接采用拉依達(dá)準(zhǔn)則易受異常值影響導(dǎo)致其閾值范圍準(zhǔn)確度降低。因此,此處采用在剔除樣本數(shù)據(jù)最大值與最小值的基礎(chǔ)上計算其數(shù)據(jù)標(biāo)準(zhǔn)差,進而采用“擬合值±3倍標(biāo)準(zhǔn)差”的方法識別異常數(shù)據(jù)。其中,擬合值是指運用多項式與移動平均算法在各監(jiān)測時刻上的擬合數(shù)據(jù)。
圖5 基于多項式的數(shù)據(jù)擬合曲線與異常點識別Fig.5 Data fitting curve and abnormal point identification based on polynomial
圖6 基于移動平均的數(shù)據(jù)擬合曲線與異常點識別Fig.6 Data fitting curve and abnormal point identification based on moving average
上述多項式擬合可基于數(shù)據(jù)樣本總體對其宏觀變動趨勢進行反映,具有簡單而直觀的特點,但通常也易出現(xiàn)過擬合或欠擬合的現(xiàn)象,尤其是在監(jiān)測數(shù)據(jù)擬合中對其數(shù)據(jù)的局部波動規(guī)律擬合不足;而移動平均法則不僅對原始監(jiān)測數(shù)據(jù)具有修勻或平滑的作用,而且同時還可以在一定程度上融合原有時序數(shù)據(jù)的波動特點,但無法實現(xiàn)對波動幅度并非異常明顯數(shù)據(jù)的檢驗。根據(jù)數(shù)據(jù)離散狀態(tài),可知多項式擬合狀態(tài)下需要剔除的異常數(shù)據(jù)點相對較多(41項),而經(jīng)實際校驗反饋發(fā)現(xiàn)其中部分?jǐn)?shù)據(jù)點被誤判為異常值。采用移動平均法所需剔除異常數(shù)據(jù)點為14項,其擬合的數(shù)據(jù)波動規(guī)律要比多項式擬合效果相對更加顯著。而對比兩種方法監(jiān)測出的異常數(shù)據(jù)量,多項式擬合要遠(yuǎn)高于移動平均法,這主要是因為移動平均法能夠在不改變原始監(jiān)測時序數(shù)據(jù)趨勢的情況下,可對局部監(jiān)測數(shù)據(jù)的變動規(guī)律進行較高程度的擬合,并體現(xiàn)其局部波動狀態(tài),多項式擬合難以實現(xiàn)該功能,而對于移動平均法無法檢測出的非可直觀辨識異常數(shù)據(jù)則可通過EEMD方法進行進一步挖掘。因此,在保障數(shù)據(jù)建模信息盡可能完整的前提下,選取移動平均法作出的可直觀辨識的水資源異常數(shù)據(jù)更加合理,剔除這類異常數(shù)據(jù)點后的日取水量監(jiān)測數(shù)據(jù)序列記為x(p′),其曲線如圖7所示。
圖7 剔除可直觀辨識異常點后監(jiān)測數(shù)據(jù)Fig.7 Daily monitoring water data after abnormal data revised
3.3 基于模態(tài)分解的非可直觀辨識異常數(shù)據(jù)分析
以初步修正后的時間序列x(p′)為樣本,在維持其數(shù)據(jù)點時序位置不變的情況下采取EEMD模型分解其樣本數(shù)據(jù),如圖8所示。其中包括8組分量,7個固有模態(tài)函數(shù)ci(i=1,2,…,7)與1個殘余項r。觀測其分量可知c1整體均呈高頻噪聲狀態(tài),而c2局部數(shù)據(jù)噪聲較為顯著,考慮監(jiān)測數(shù)據(jù)中突變型異常數(shù)據(jù)的特征,其異常數(shù)據(jù)通常可引發(fā)局部監(jiān)測值發(fā)生相對顯著的時序波動,表現(xiàn)于模態(tài)分量中為高頻噪聲,因此,要取得相對穩(wěn)定的整體原始監(jiān)測數(shù)據(jù)與局部變動態(tài)勢,則可對高頻分量進行剔除處理,并利用剩余低頻分量實現(xiàn)對原x(p′)數(shù)據(jù)序列的濾波處理。因此,可將后6項相對低頻分量進行數(shù)組重構(gòu),記為x(p″),如圖9所示。按照重構(gòu)結(jié)果,可發(fā)現(xiàn)重構(gòu)數(shù)據(jù)序列x(p″)能夠?qū)颖局械亩鄶?shù)正常數(shù)據(jù)進行較高精度擬合,并取得了相對較為平緩的重構(gòu)數(shù)據(jù)趨勢線,即滿足對數(shù)據(jù)變化特征客觀反映的標(biāo)準(zhǔn)。
圖8 非可直觀辨識異常數(shù)據(jù)模態(tài)分解Fig.8 Daily monitoring water data analysis by EEMD method
圖9 模態(tài)分解重構(gòu)數(shù)據(jù)擬合狀態(tài)Fig.9 Data reconstruction based on EEMD method
圖10 相對誤差計算結(jié)果Fig.10 Results of relative error calculation
圖11 全部異常數(shù)據(jù)檢測結(jié)果Fig.11 Results of all abnormal data detection
為進一步提高基于模態(tài)分解重構(gòu)數(shù)據(jù)與粗處理后監(jiān)測原始數(shù)據(jù)的對比程度,需測算數(shù)據(jù)序列之間的相對誤差E_p,結(jié)果見圖10。按照相對誤差E_p閾值±0.5的控制標(biāo)準(zhǔn)(該閾值根據(jù)現(xiàn)有水資源監(jiān)測數(shù)據(jù)統(tǒng)計分析和相關(guān)專家經(jīng)驗初步設(shè)定,隨著其監(jiān)測數(shù)據(jù)歷史樣本的增加可進一步優(yōu)化),設(shè)定當(dāng)|E_p|大于0.5時,其所對應(yīng)的x(p″)數(shù)據(jù)點判定為異常值。據(jù)此,發(fā)現(xiàn)其中有11項監(jiān)測數(shù)據(jù)出現(xiàn)異常狀態(tài)。而為增強異常數(shù)據(jù)在水資源管理系統(tǒng)中的可視化水平,則結(jié)合可直觀辨識的日取水量異常數(shù)據(jù)粗處理結(jié)果,將整個步驟中判定為異常數(shù)據(jù)(含可直觀辨識與非可直觀辨識異常數(shù)據(jù))點處均設(shè)為零,記為x(p?),如圖11所示。由圖11可看出,出現(xiàn)異常數(shù)據(jù)的時間多集中于上半年,而下半年則相對較少,說明隨著水資源監(jiān)測體系與水資源監(jiān)控管理信息平臺建設(shè)的不斷完善,對水資源監(jiān)測數(shù)據(jù)采集與傳輸精準(zhǔn)度的提升有了顯著性改善。而局部水資源監(jiān)測異常數(shù)據(jù)表明,部分監(jiān)測還存在數(shù)據(jù)連續(xù)性異常的現(xiàn)象,特別是在132~137 d期間,數(shù)據(jù)呈連續(xù)為零的狀態(tài),而此類問題的多數(shù)情況下是由監(jiān)測設(shè)備本身或受環(huán)境影響而導(dǎo)致,即說明在整體水資源監(jiān)測水平上升的良性趨勢下,局部監(jiān)測基礎(chǔ)設(shè)施仍需完善。
為驗證本文提出的水資源監(jiān)測異常數(shù)據(jù)檢驗方法的有效性,同時采用了經(jīng)典統(tǒng)計學(xué)中的3σ準(zhǔn)則和箱線圖方法對其數(shù)據(jù)進行異常分析[18],以增加對比度。由于這類統(tǒng)計方法適用的條件存在差異,且缺乏對水資源監(jiān)測數(shù)據(jù)時序特征的考慮,結(jié)果發(fā)現(xiàn)在依據(jù)3σ準(zhǔn)則下,其正常閾值范圍為[-1 299.56, 15 510.83],即僅有3個數(shù)據(jù)異常點可被識別;而選取箱線圖統(tǒng)計中,也只有4個異常點被檢驗出來(圖12),多數(shù)異常值被忽略,無法為水資源監(jiān)測數(shù)據(jù)分析與決策提供足夠的信息支撐。而該對比結(jié)果也進一步印證了本文所采用的異常值檢測模型對水資源監(jiān)測數(shù)據(jù)具有實用性。
圖12 基于箱線圖異常值檢測結(jié)果Fig.12 Abnormal data detection based on box-plot
3.4 基于PSO-LSSVM的異常數(shù)據(jù)恢復(fù)
ij=(xij-xjmax)/(xjmax-xjmin)
(5)
xj——xij所在j列數(shù)值
xij——原始監(jiān)測數(shù)據(jù)
xjmax——xj的最大值
xjmin——xj的最小值
利用RBF核函數(shù),根據(jù)模型(4)對數(shù)據(jù)序列?_p分別進行LSSVM、PSO-LSSVM模型樣本訓(xùn)練,并通過PSO-LSSVM擬合模型重構(gòu)圖11中檢測出的異常數(shù)據(jù)點,結(jié)果如圖13與圖14所示,而圖15顯示了粒子群進化中適應(yīng)度的變化情況。
圖13 基于序列?_p的PSO-LSSVM數(shù)據(jù)模擬Fig.13 PSO-LSSVM sample training based on ?_p
圖14 基于PSO-LSSVM的異常數(shù)據(jù)恢復(fù)Fig.14 Recovery of abnormal data based on PSO-LSSVM
圖15 粒子群進化與適應(yīng)度變化曲線Fig.15 Evolution and fitness of particle swarm
圖16 基于曲線擬合的異常數(shù)據(jù)恢復(fù)Fig.16 Recovery of abnormal data based on curve fitting
3.5 討論
(1)在國家水資源監(jiān)控能力二期建設(shè)的關(guān)鍵階段,如何對現(xiàn)有規(guī)模性水資源監(jiān)測數(shù)據(jù)進行全面分析,進而為水資源管理決策提供有效支撐是亟需解決的重要問題,而實現(xiàn)數(shù)據(jù)分析決策支持的前提是提高數(shù)據(jù)的可用性,尤其是水資源監(jiān)測數(shù)據(jù)完備構(gòu)建與真?zhèn)舞b定,這類問題與水資源監(jiān)測異常數(shù)據(jù)緊密相關(guān)。然而現(xiàn)階段相關(guān)部門及學(xué)術(shù)研究中對水資源監(jiān)測異常數(shù)據(jù)并沒有形成統(tǒng)一的認(rèn)識[19-20],在實際水資源統(tǒng)計與監(jiān)測數(shù)據(jù)管理中,通常認(rèn)為異常值是偏離鄰近監(jiān)測值較大的數(shù)據(jù)。據(jù)此,本文所定義的水資源監(jiān)測異常數(shù)據(jù)是出現(xiàn)數(shù)值連續(xù)不變、數(shù)值呈季節(jié)性反差,以及數(shù)據(jù)相比鄰域時刻呈現(xiàn)突變過大、過低或為零等的非常規(guī)數(shù)據(jù)。該定義方式基本符合水資源監(jiān)測數(shù)據(jù)管理中的實際狀況,也可對相關(guān)監(jiān)測數(shù)據(jù)分析提供借鑒。
(2)基于維持水資源監(jiān)測異常數(shù)據(jù)的實際特征而采取的移動平均擬合與EEMD方法識別日取水量監(jiān)測異常數(shù)據(jù)的研究思路,能夠較大程度地模擬監(jiān)測點的水資源取用狀態(tài)及變動趨勢。實際上,導(dǎo)致水資源監(jiān)測數(shù)據(jù)異常的因素有很多,但是歸結(jié)起來可分為兩大類,即實際突變異常和待修正異常。其中實際突變異常主要是指由于實際取用水需求改變而引發(fā)的監(jiān)測數(shù)據(jù)上升或下降,而待修正異常則是受監(jiān)測設(shè)備或環(huán)境等影響而造成實際數(shù)據(jù)與水資源管理系統(tǒng)中呈現(xiàn)的數(shù)據(jù)存在較大差異。對于前者可通過人工校對識別,并保留其原始監(jiān)測數(shù)據(jù),而后者則需運用相應(yīng)的方法或模型進行辨識,而本文提出方法可為其提供一種數(shù)據(jù)分析方法。此外,運用PSO-LSSVM的日取水量監(jiān)測數(shù)據(jù)擬合曲線與監(jiān)測點取用水實際狀況相一致,且符合季節(jié)波動規(guī)律,這不僅可用于解決監(jiān)測異常數(shù)據(jù)的恢復(fù),也適用于監(jiān)測數(shù)據(jù)缺失填補的情況。
按照可直觀辨識與非可直觀辨識的異常值識別思路對水資源監(jiān)測異常數(shù)據(jù)存在情況進行總結(jié)梳理,在其基礎(chǔ)上提出了基于移動平均擬合與EEMD相結(jié)合的水資源監(jiān)測異常數(shù)據(jù)檢測模型,和基于PSO-LSSVM的異常數(shù)據(jù)恢復(fù)方法,并通過對水務(wù)公司的實際日取水量監(jiān)測數(shù)據(jù)進行實證分析,驗證了上述方法在處理其監(jiān)測異常數(shù)據(jù)上的可行性與有效性。研究發(fā)現(xiàn),傳統(tǒng)的統(tǒng)計手段難以滿足監(jiān)測頻率高同時具有季節(jié)周期波動規(guī)律的水資源監(jiān)測數(shù)據(jù)分析的要求,而經(jīng)過對可直觀辨識的異常數(shù)據(jù)進行粗處理后,采用EEMD方法可在保障其監(jiān)測數(shù)據(jù)時序特征狀態(tài)不變的情況下完成對異常數(shù)據(jù)的篩選,其適用性更強。同時,PSO優(yōu)化后的LSSVM模型可更加系統(tǒng)地擬合剔除異常數(shù)據(jù)后的樣本,其擬合狀態(tài)與實際取用水季節(jié)波動規(guī)律基本一致。因此,該類監(jiān)測異常數(shù)據(jù)處理方法可為水行政部門推進水資源監(jiān)控能力建設(shè)提供理論支持,也能對其它相關(guān)領(lǐng)域的時序監(jiān)測數(shù)據(jù)分析提供參考。
1 中華人民共和國水利部,財政部.國家水資源監(jiān)控能力建設(shè)項目實施方案(2012—2014)[S].北京: 中華人民共和國水利部,2012.
2 MANDEL P, MAUREL M, CHENU D. Better understanding of water quality evolution in water distribution networks using data clustering[J]. Water Research, 2015, 87: 69-78.
3 KAR S, RATHORE V S, SHARMA R, et al. Classification of river water pollution using Hyperion data[J]. Journal of Hydrology, 2016, 537: 221-233.
4 PARK S, JUNG S Y. Principal component analysis of water pipe flow data[J]. Procedia Engineering, 2014, 89: 395-400.
5 PISINARAS V, PETALAS C, GEMITZI A, et al. Water quantity and quality monitoring of Kosynthos river, north-eastern Greece[J]. Global Nest Journal, 2007, 9(3): 259-268.
6 龍秋波,賈紹鳳,汪黨獻(xiàn).中國用水?dāng)?shù)據(jù)統(tǒng)計差異分析[J].資源科學(xué), 2016, 38(2): 248-254.
LONG Qiubo, JIA Shaofeng, WANG Dangxian. Disparity in China’s water use statistics[J].Resources Science, 2016, 38(2): 248-254. (in Chinese)
7 方海泉,薛惠鋒,蔣云鐘,等.基于EEMD的水資源監(jiān)測數(shù)據(jù)異常值檢測與校正[J/OL].農(nóng)業(yè)機械學(xué)報, 2017,48(9):257-263. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1amp;file_no=20170932amp;journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2017.09.032.
FANG Haiquan, XUE Huifeng, JIANG Yunzhong, et al. Outlier detection and correction for water resources monitoring data based on EEMD[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2017,48(9):257-263. (in Chinese)
8 魏晶茹,馬瑜,白冰,等.基于PSO-SVM算法的環(huán)境監(jiān)測數(shù)據(jù)異常檢測和缺失補全[J].環(huán)境監(jiān)測管理與技術(shù), 2016, 28(4): 53-56.
WEI Jingru, MA Yu, BAI Bing, et al. Anomaly detection and missing completion of environment monitoring data based on PSO-SVM[J]. The Administration and Technique of Environmental Monitoring, 2016, 28(4): 53-56. (in Chinese)
9 侍建國,張亦飛.拉依達(dá)準(zhǔn)則在處理區(qū)域水文數(shù)據(jù)異常值中的應(yīng)用[J].海河水利, 2016(5): 49-51.
SHI Jianguo, ZHANG Yifei. The application of Pauta criterion in regional hydrological outlier analysis[J]. Haihe Water Resources, 2016(5): 49-51. (in Chinese)
10 ANDERSON T W, ANDERSON T W, ANDERSON T W, et al. An introduction to multivariate statistical analysis[M]. New York: Wiley, 1958: 30-36.
11 曾祥,周曉軍,楊辰龍,等.基于經(jīng)驗?zāi)B(tài)分解和S變換的缺陷超聲回波檢測方法[J/OL].農(nóng)業(yè)機械學(xué)報,2016,47(11):414-420.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20161156amp;flag=1. DOI:10.6041/j.issn.1000-1298.2016.11.056.
ZENG Xiang, ZHOU Xiaojun, YANG Chenlong, et al. Ultrasonic defect echoes identification based on empirical mode decomposition and stransform[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2016,47(11):414-420. (in Chinese)
12 WU Z, HUANG N E. Ensemble empirical mode decomposition: a noise-assisted data analysis method[J]. Advances in Adaptive Data Analysis, 2009, 1(1): 1-41.
13 SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300.
14 DEMPE S, ZEMKOHO A B. On the Karush-Kuhn-Tucker reformulation of the bilevel optimization problem[J]. Nonlinear Analysis: Theory, Methods amp; Applications, 2012, 75(3): 1202-1218.
15 GORJAEI R G, SONGOLZADEH R, TORKAMAN M, et al. A novel PSO-LSSVM model for predicting liquid rate of two phase flow through wellhead chokes[J]. Journal of Natural Gas Science and Engineering, 2015, 24: 228-237.
16 YANG X, YU F, PEDRYCZ W. Long-term forecasting of time series based on linear fuzzy information granules and fuzzy inference system[J]. International Journal of Approximate Reasoning, 2017, 81: 1-27.
17 SUBASI A. Classification of EMG signals using PSO optimized SVM for diagnosis of neuromuscular disorders[J]. Computers in Biology and Medicine, 2013, 43(5): 576-586.
18 KOSE E, TOKATLI C, ?ICEK A. Monitoring stream water quality: a statistical evaluation[J]. Polish Journal of Environmental Studies, 2014, 23(5): 1637-1647.
19 BARNETT V, LEWIS T. Outliers in statistical data[M]. New York: Wiley, 1994: 12-20.
20 FILZMOSER P. Identification of multivariate outliers: a performance study[J]. Austrian Journal of Statistics, 2016, 34(2): 127-138.
MethodsofAbnormalDataDetectionandRecoveryforWaterResourcesMonitoringBasedonEEMDandPSO-LSSVM
ZHANG Feng1XUE Huifeng1WANG Wei2SONG Xiaona3WAN Yi4
(1.GraduateSchool,ChinaAcademyofAerospaceSystemScientificandEngineering,Beijing100048,China2.ThomasJ.WatsonSchoolofEngineeringandAppliedScience,BinghamtonUniversity,StateUniversityofNewYork,BinghamtonNY13902,USA3.SchoolofBusiness,TaishanUniversity,Taian271000,China4.WaterResourcesManagementCenter,MinistryofWaterResources,Beijing100053,China)
The national water resources monitoring capacity building project which started in 2012 in China is an important way to improve the level of water conservancy information. It requires that the historical time-series monitoring data of water resources should be complete and reliable so that it can be used to support data analysis and decision making. The basic scenarios for monitoring abnormal data were summed up and a comprehensive model was proposed, aiming at abnormal data detection and recovery. Moving average fitting and ensemble empirical mode decomposition (EEMD) method were introduced to identify both observable and non-observable abnormal monitoring data. The particle swarm optimization based least squares support vector machine (PSO-LSSVM) was then adopted for abnormal data recovery and imputation. All above methods were tested with the daily water consumption monitoring data of water company. Results showed that the feature vector that contained exception data could be well preserved by moving average fitting and EEDM method and the effective reconstruction of water monitoring data was achieved, exhibiting better applicability than traditional statistical methods. Moreover, it can be observed that the PSO-LSSVM model had the ability to further improve the fitting results of the time-series data that excluded outliers. The fitted curve conformed to the seasonal fluctuation rule and it was consistent with the actual state of water demand. Accordingly, the objective of recovering the excluded data exception could be achieved reasonably by using this method. Furthermore, these methods can be applied to the analysis of monitoring data in other areas.
water resources monitoring; abnormal data; data reconstruction; modal decomposition; least squares support vector machine
10.6041/j.issn.1000-1298.2017.11.038
N945.2
A
1000-1298(2017)11-0316-08
2017-08-15
2017-09-07
國家自然科學(xué)基金委員會-廣東聯(lián)合基金項目(U1501253)和廣東省省級科技計劃項目(2016B010127005)
張峰(1989—),男,博士生,主要從事系統(tǒng)工程與工業(yè)工程研究,E-mail: aerospace1989@163.com