方海泉 薛惠鋒 蔣云鐘 周鐵軍 萬 毅 王海寧
(1.中國航天系統(tǒng)科學與工程研究院研究生部, 北京 100048; 2.中國水利水電科學研究院水資源研究所, 北京 100038;3.湖南農業(yè)大學理學院, 長沙 410128; 4.水利部水資源管理中心, 北京 100053)
基于EEMD的水資源監(jiān)測數據異常值檢測與校正
方海泉1薛惠鋒1蔣云鐘2周鐵軍3萬 毅4王海寧1
(1.中國航天系統(tǒng)科學與工程研究院研究生部, 北京 100048; 2.中國水利水電科學研究院水資源研究所, 北京 100038;3.湖南農業(yè)大學理學院, 長沙 410128; 4.水利部水資源管理中心, 北京 100053)
提出利用中位數法與集成經驗模態(tài)分解(EEMD)相結合的方法對時間序列數據的異常值進行檢測,首先通過中位數法對明顯異常的數據進行初步篩選,再用EEMD對剩余數據進行分解,通過疊加低頻分量可以擬合出大多數數據的整體變化趨勢,而不受異常值的影響,從而根據偏差比率可有效檢測出異常值。然后根據異常值檢測后的時間序列數據的凹凸性變化趨勢,用分段曲線擬合對異常值校正。最后,以H1自來水廠的日取水量數據為例進行實證分析。結果表明:提出的中位數法與EEMD相結合的方法能夠有效地檢測異常值,校正后得到的數據能夠真實反映該水廠取用水情況,可為后續(xù)分析提供更加真實可靠的數據。
水資源; 監(jiān)測數據; 異常值; 集成經驗模態(tài)分解; 中位數; 分段曲線擬合
水資源是人類社會賴以生存和發(fā)展的基本條件,是一個國家經濟社會發(fā)展的重要戰(zhàn)略資源。2011年中央1號文件和中央水利工作會議明確要求實行最嚴格水資源管理制度。為支撐最嚴格水資源管理制度更好地實施,2012年國家啟動了水資源監(jiān)控能力建設項目[1-2]。在此之前,國家也已開展了很多相關工作,如2005年以來,各地相繼開展了城市和流域水資源實時監(jiān)控與管理系統(tǒng)建設,為及時全面準確掌握水資源信息奠定了良好基礎[3-4]。通過對水資源在線監(jiān)測,可以獲取大量寶貴的真實客觀數據。但水資源在線監(jiān)測數據需要經歷采集、傳輸、存儲以及數據平臺交換等環(huán)節(jié),其中任何一個環(huán)節(jié)出現故障都會導致數據獲取異常。為了更有效利用監(jiān)測數據,需要采用合理的數據挖掘方法對異常值進行檢測與校正。
水資源監(jiān)測數據主要包括水量監(jiān)測數據和水質監(jiān)測數據。本文主要討論水量監(jiān)測數據中的取用水戶日取水量監(jiān)測數據,并以自來水廠的取水量為例進行分析。國內對于水量在線監(jiān)測數據的分析才開始起步,文獻[5]應用A-D檢驗方法判斷取水戶水量監(jiān)測數據是否符合正態(tài)分布,從而判斷獲取的監(jiān)測數據是否可靠。國外對流域水量水質監(jiān)測、農業(yè)灌溉用水監(jiān)測數據的研究較多,對取用水戶取水量監(jiān)測數據的分析也不多。文獻[6]研究了美國阿肯色州農業(yè)灌溉水量問題,文獻[7]應用主成分分析法對希臘東北部Kosynthos河的水量和水質數據進行了分析,文獻[8]對土耳其流域水量和水質監(jiān)測數據進行分析得出流量在逐年減少、水溫在逐年增加的結論。
異常值目前尚無公認的準確定義,普遍采用的是HAWKINS[9]給出的定義。HAWKINS認為異常值是在數據集中與眾不同的數據,使人懷疑這些數據并非隨機偏差,而是產生于完全不同的機制。本文把取用水監(jiān)測數據的異常值定義為對于任一時間點的數據相對其鄰域時間范圍內其他數據偏差較大的數據。該定義不僅考慮了時間序列數據的集合特性,還考慮了任一時刻點數據的時序變化特性。取用水監(jiān)測數據本質上屬于時間序列數據。對于時間序列異常值檢測方法的研究,前人已經提出了很多算法,如基于統(tǒng)計、聚類、距離、密度等異常值檢測方法[10-13]。文獻[14]對國內外各種異常檢測方法進行了對比,分析了每種異常檢測方法的優(yōu)缺點。近年來,異常值檢測在很多領域都得到非常重要的研究和發(fā)展;文獻[15]提出多步異常值檢測方法應用于交通數據分析;文獻[16]應用基于統(tǒng)計學的異常值分析方法對結構損傷進行識別;文獻[17]應用函數型數據分析方法對水質監(jiān)測數據進行異常值分析。通過異常值檢測之后,把檢測出的異常值替換為0值,然后再對0值進行填補,也就是對異常值進行校正。常用的0值填補方法有均值填補法、回歸填補法、熱平臺填補、多重填補法、人工神經網絡等[18-21]。
針對取用水戶日取用水量監(jiān)測數據呈現出季節(jié)波動和年度周期變化的特點,本文首先提出中位數法和集成經驗模態(tài)分解(Ensemble empirical mode decomposition, EEMD)法相結合的方法對異常值進行檢測,再用分段曲線擬合法對異常值校正。
經驗模態(tài)分解(EMD)方法是由HUANG等[22]于1998年提出。EMD在機械故障診斷、地球物理探測、生物醫(yī)學分析、回波檢測等方面都得到廣泛的應用[23-26]。尚未見有文獻用于時間序列異常值檢測。EMD可將不同尺度的波動或趨勢從原信號中逐級分離出來[22]。EMD適用于分析非線性非平穩(wěn)信號,且具有完全自適應性。原始的時間序列x(t)經過EMD分解得到一系列固有模態(tài)函數(Intrinsic mode function,IMF)和一個殘余項(residual, 簡記res),即
(1)
式中ci——第i個IMFrn——殘余項n——分解得到的固有模態(tài)函數的個數
EEMD是EMD的改進算法,有效解決了EMD的混頻現象[27]。
在曲線擬合之前需要判斷時間序列數據的凹凸性。若凹凸性沒有發(fā)生變化,可用直接曲線擬合;若凹凸性發(fā)生變化,需要對時間序列數據進行分段,再對每一段分別進行曲線擬合,這就是分段曲線擬合。直接曲線擬合可以視為分段曲線擬合的特殊情況,此時分為一段。凹凸性可根據變化趨勢判斷,EMD是目前提取時間序列趨勢的最好方法[30]。
面對大量原始的取用水監(jiān)測數據,對數據進行異常值檢測和校正是后序分析必不可少的重要環(huán)節(jié),本文建立了取用水監(jiān)測數據的異常值檢測與校正模型,如圖1所示。該模型不僅適用于取用水監(jiān)測數據,也適用于一般的時間序列數據異常值的檢測與校正。
圖1 異常值檢測與校正模型Fig.1 Model of outlier detection and correction
異常值檢測與校正模型的總體思路:首先,應用中位數法對原始時間序列數據進行異常值初步檢測,其次,用EEMD法進一步精細檢測,把檢測出的異常值替換為0,再通過EEMD判斷凹凸性檢驗,根據凹凸性進行分段,最后應用分段曲線擬合方法對0值進行填補。經過異常值檢測與校正得到更加接近真實、有效的時間序列數據。
一般情況下,取用水監(jiān)測數據的異常值包括異常大值、異常小值(大于0)、0值和負值4種類型。根據自來水廠取用水實際情況,一般水廠每天24 h都在不間斷取水,負值和0值屬于異常值。因此,本研究主要討論異常大值和異常小值(大于0)2種類型的檢測,并提出中位數與EEMD結合的異常值檢測方法。
2.2.1中位數法初步檢測
2.2.2EEMD法精細檢測
(2)
dik越大,則該時間點的數據為異常值的可能性也就越大。
直接曲線擬合方法是把{gi}中的正數選出來,得到一組樣本點(i+,gi+),i+表示{gi}中出現正數的位置,采用多項式對樣本點(i+,gi+)進行曲線擬合,得到的多項式記為f(x)。用曲線擬合值f(xi0)替換{gi}中的0值得到校正后的時間序列數據,記為{ki},這里i0表示{gi}中0值出現的位置。分段曲線擬合就是對每個時間段分別進行曲線擬合,對于每一段曲線擬合方法與直接曲線擬合相同,擬合后再把不同時間段校正后的結果按時間順序拼接起來得到最后的結果。
選取H1自來水廠的日取水量數據為研究對象。監(jiān)測數據來源于水資源管理系統(tǒng)數據庫。選取時間范圍為2015年1月1日—2016年12月31日,共計731 d。
3.2.1原始監(jiān)測數據時間序列圖
H1自來水廠的原始日取水量時間序列監(jiān)測數據為{ai},如圖2所示。從圖2中可以看出,存在異常大值、異常小值和0值,并且存在連續(xù)多個0值。
圖2 原始監(jiān)測數據(2015-01-01—2016-12-31)Fig.2 Original monitoring data
3.2.2中位數法異常值初步檢測
設定異常值初步檢測的條件為監(jiān)測數據大于中位數的5倍或者小于中位數的0.1倍,經過初步檢測后把異常值替換為0。原始的監(jiān)測數據經過替換后得到序列{bi},如圖3所示。
圖3 異常值初步檢測后的數據(2015-01-01—2016-12-31)Fig.3 Data after initial outlier detection
圖4 異常值初步檢測后集成經驗模態(tài)分解(2015-01-01—2016-12-31)Fig.4 EEMD after initial outlier detection
3.2.3EEMD法異常值進一步檢測
圖5 后6個低頻分量疊加曲線(2015-01-01—2016-12-31)Fig.5 Curve superposed by six low frequency components
圖6 偏差比率(2015-01-01—2016-12-31)Fig.6 Deviation rate
圖7 基于中位數與EEMD結合的異常值檢測(2015-01-01—2016-12-31)Fig.7 Outlier detection based on method of combining median and EEMD
為了體現本文提出方法的優(yōu)勢,與傳統(tǒng)的異常值檢測方法箱線圖對比。箱線圖異常值檢測方法基于統(tǒng)計學原理[31],能夠檢測出數據集中異常大和異常小值,但是沒有考慮時序變化特性,與圖7進行對比,圖8中的箭頭標出了用箱線圖未能檢測出的異常值,尤其是第3個箭頭(從左到右數)標出的異常值,該異常值相比臨近時間點的數據異常大,但是從整個數據集中看不屬于異常。證明本文提出檢測異常值檢測方法非常有效。
圖8 基于箱線圖的異常值檢測(2015-01-01—2016-12-31)Fig.8 Outlier detection based on boxplot
3.4.1用EEMD提取異常值檢測后的變化趨勢
圖9 基于EEMD凹凸性檢驗(2015-01-01—2016-12-31)Fig.9 Convexity and concavity test based on EEMD
3.4.2用分段曲線擬合法對異常值校正
把{g1i}中的正數選出來進行曲線擬合,用曲線擬合的結果替換相應位置的0值,經過校正后獲得的時間序列數據記為{k1i},結果如圖10左半圖所示。同樣地,對{g2i}的0值進行填補,結果如圖10右半圖所示。把2段時間序列數據校正后得到的結果按時間順序拼接起來得到時間序列數據如圖11所示。
圖10 分段曲線擬合校正異常值(2015-01-01—2016-12-31)Fig.10 Outlier correction by piecewise curve fitting
圖11 經過異常值檢測和校正后得到的數據(2015-01-01—2016-12-31)Fig.11 Data after outlier detection and correction
圖12 直接曲線擬合校正異常值(2015-01-01—2016-12-31)Fig.12 Outlier correction by direct curve fitting
為了與分段曲線擬合對比,采用直接曲線擬合對異常值校正,結果如圖12所示。與圖10對比可以看出,對于凹凸性發(fā)生改變的時間序列數據,分段擬合曲線能更好地體現時序變化趨勢。因此,對于凹凸性發(fā)生改變的時間序列數據,對異常值進行校正時,分段曲線擬合結果優(yōu)于直接曲線擬合結果。
常規(guī)的異常值檢測與校正方法對時間序列數據的缺失個數有一定的要求,若數據缺失嚴重則難以恢復,連續(xù)缺失數據越多恢復越困難。本文提出的中位數-EEMD異常值檢測和曲線擬合異常值校正方法在使用之前同樣需要考慮數據缺失問題。
隨著水資源監(jiān)控能力建設項目的不斷完善和發(fā)展,水資源管理系統(tǒng)存儲的水資源監(jiān)測數據逐日遞增,為充分發(fā)揮大量的監(jiān)測數據在水資源管理業(yè)務上的作用,有效的數據預處理方法至關重要。對于時間跨度大且變化趨勢復雜的非線性非平穩(wěn)水資源在線監(jiān)測數據,本文提出了中位數法與EMMD相結合的異常值檢測方法和分段曲線擬合的異常值校正方法。通過以H1自來水廠的日取水量數據為例,并與傳統(tǒng)的異常值檢測和校正方法進行對比,結果說明本文提出的方法更加優(yōu)越,經過異常值檢測和校正得到更加接近真實的日取水量數據。本文提出的異常值檢測和校正方法可為監(jiān)測數據服務于水資源管理業(yè)務提供參考,并且可推廣應用于其他領域的時間序列數據的異常值檢測和校正。該方法適用于歷史監(jiān)測數據,對于實時在線監(jiān)測數據異常值的檢測和校正需要以此為基礎,因為實時在線監(jiān)測數據異常值檢測和校正必須建立在歷史監(jiān)測數據可靠的基礎上,所以本文提出的方法對于下一步實時在線監(jiān)測數據異常值檢測和校正也起到很好的理論支撐作用。
1 蔡陽. 國家水資源監(jiān)控能力建設項目及其進展[J]. 水利信息化,2013(6): 5-10. CAI Y. National water resources monitoring capacity building project and its progress[J]. Water Resources Informatization, 2013(6): 5-10. (in Chinese)
2 中華人民共和國水利部,財政部. 國家水資源監(jiān)控能力建設項目實施方案(2012—2014)(水資源[2012]411號) [Z]. 北京:中華人民共和國水利部,2012.
3 蔣云鐘,張小娟,石玉波,等. 水資源實時監(jiān)控與管理系統(tǒng)標準體系建設[J]. 中國水利,2007(1): 55-58. JIANG Y Z, ZHANG X J, SHI Y B, et al. On the construction of standard system of water resources real-time monitoring and controlling system[J]. China Water Resources, 2007(1): 55-58. (in Chinese)
4 蔣云鐘, 萬毅. 水資源監(jiān)控能力建設功能需求及實施策略[J]. 中國水利, 2012(7): 26-30. JIANG Y Z, WAN Y.Demand analysis of water resources monitoring capacity and implementation strategy study[J]. China Water Resources, 2012(7): 26-30. (in Chinese)
5 蔣吉發(fā),劉飛. A-D檢驗在取水戶水量在線監(jiān)測數據穩(wěn)定性分析中的應用[J]. 四川水利,2016(2): 53-55. JIANG J F, LIU F.A-D detection in the application of stability analysis on on-line monitoring data about intake water amount [J]. Sichuan Water Conservancy,2016(2): 53-55. (in Chinese)
6 REBA M L, DANIELS M, CHEN Y S, et al. A statewide network for monitoring agricultural water quality and water quantity in Arkansas [J]. Journal of Soil and Water Conservation,2013, 68(2): 45-49.
7 PISINARAS V,PETALAS C,GEMITZI A, et al. Water quantity and quality monitoring of Kosynthos river, North-eastern Greece [J]. Global NEST Journal,2007, 9(3): 259-268.
8 ODEMIS B, EVRENDILEK F. Monitoring water quality and quantity of national watersheds in Turkey [J]. Environmental Monitoring & Assessment, 2007, 133(1-3):215-229.
9 HAWKINS D. Identification of outliers[M]. London: Chapman and Hall, 1980.
10 BARNET V, LEWIS T. Outliers in statistical data[M]. Chichester: John Wiley and Sons, 1994.
11 WANG J S, CHIANG J C. A cluster validity measure with outliers detection for support vector clustering[J]. IEEE Transactions on Systems Man and Cybernetics, Part B-Cybernetics, 2008, 38(1): 78-89.
12 KNORR E M,NG R T. A unified notion of outlierss: properties and computation[C]∥Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining, 1997: 219-222.
13 BREUNIG M, KRIEGEL H P, NG R, et al. LOF: identifying density-based local outliers[C]∥Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, 2000: 93-104.
14 陳運文,吳飛,吳廬山,等. 基于異常檢測的時間序列研究[J]. 計算機技術與發(fā)展, 2015, 25(4): 166-170. CHEN Y W, WU F, WU L S, et al. Research on time series based on anomaly detection[J]. Computer Technology and Development, 2015, 25(4): 166-170.(in Chinese)
15 MONOWAR H B, BHATTACHARYYA D K, KALITA J K. A multi-step outlier-based anomaly detection approach to network-wide traffic[J]. Information Sciences, 2016, 348: 243-271.
16 緱百勇,陸秋海,向志海,等. 損傷識別的模態(tài)數據異常值分析方法[J]. 清華大學學報:自然科學版, 2015, 55(3): 356-360. GOU B Y, LU Q H, XIANG Z H, et al. Damage detection using modal data outlier analysis[J]. Journal of Tsinghua University: Science and Technology, 2015, 55(3): 356-360.(in Chinese)
18 BELLO A L. Imputation techniques in regression analysis: looking closely at their implementation[J]. Computational Statistics and Data Analysis, 1995, 20(1): 45-57.
19 RAO J N K, SHAO J. Jackknife variance estimation with survey data under hot deck imputation[J]. Biometrika, 1992, 79(4): 811-822.
20 RUBIN D B. Multiple imputations in sample surveys [R]. American Statistical Association, 1978: 20-34.
21 AMER S R. Neural network imputation: a new fashion or a good tool[D]. Corvallis, OR:Oregon State University, 2004.
22 HUANG N E, SHEN Z. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings of the Royal Society of London, l998, A454: 903-995.
23 LAU B, RIEMENSCHNEIDER S, XU Y. Gearbox fault diagnosis using empirical mode decomposition and Hilbert spechum [J]. Mechanical Systems and Signal Processing, 2006, 20(3):718-734.
24 ZHANG R R, ASCE M, MA S, et al. Hilbert-Huang transform analysis of dynamic and earthquake motion recordings [J]. Journal of Engineering Mechanics, 2003,129(8):861-875.
25 CHAPPELL M A, PAYNE S J. A method for the automated detection of venous gas bubbles in humans using empirical mode decomposition [J]. Annals of Biomedical Engineering, 2005,33(10):1411-1421.
26 曾祥, 周曉軍, 楊辰龍,等. 基于經驗模態(tài)分解和S變換的缺陷超聲回波檢測方法[J/OL]. 農業(yè)機械學報, 2016, 47(11): 414-420. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20161156&flag=1. DOI:10.6041/j.issn.1000-1298.2016.11.056. ZENG X, ZHOU X J, YANG C L, et al. Ultrasonic defect echoes identification based on empirical mode decomposition and s-transform[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(11): 414-420.(in Chinese)
27 WU Z H, HUANG N E, LONG S R, et al. On the trend, detrending, and the variability of nonlinear and non-stationary time series[J]. Proceedings of the National Academy of Sciences, 2007, 104: 14889-14894.
28 胡守信,李柏年.基于MATLAB的數學實驗[M].北京:科學出版社,2004: 63-65.
29 張霞, 李儒, 岳躍民,等. 諧波改進的植被指數時間序列重建算法[J]. 遙感學報, 2010, 14(3): 442-447. ZHANG X, LI R, YUE Y M,et al. Improved algorithm for reconstructing vegetation index image time series based on Fourier harmonic analysis[J]. Journal of Remote Sensing, 2010, 14(3): 442-447. (in Chinese)
30 鄧擁軍,王偉,錢成春,等. EMD方法及Hilbert變換中邊界問題的處理[J]. 科學通報, 2001, 46(3): 257-263. DENG Y J, WANG W, QIAN C C,et al. EMD method and transact boundary problem of Hilbert transform[J]. Chinese Science Bulletin, 2001, 46(3): 257-263.(in Chinese)
31 盛驟,謝式千,潘承毅. 概率論與數理統(tǒng)計[M]. 北京:高等教育出版社,2008: 132-135.
OutlierDetectionandCorrectionforWaterResourcesMonitoringDataBasedonEEMD
FANG Haiquan1XUE Huifeng1JIANG Yunzhong2ZHOU Tiejun3WAN Yi4WANG Haining1
(1.GraduateSchool,ChinaAerospaceAcademyofSystemsScienceandEngineering,Beijing100048,China2.InstituteofWaterResources,ChinaInstituteofWaterResourcesandHydropowerResearch,Beijing100038,China3.CollegeofScience,HunanAgriculturalUniversity,Changsha410128,China4.WaterResourcesManagementCenter,MinistryofWaterResources,Beijing100053,China)
In order to improve the availability and accuracy of online monitoring data of water resources, it is very important to detect and correct the outliers of monitoring data. The water resources monitoring data are non-linear and non-stationary time series data, the outlier detection method of the conventional time series did not take into account the convexity and concavity of time series. A combining median and ensemble empirical mode decomposition (EEMD) method was presented for outlier detection. Firstly, the outliers were preliminarily detected by the median method. And then the remaining data were decomposed by EEMD. The overall trend of most of the data can be fitted by superimposing the low-frequency components, but not affected by outlier, and the outlier can be detected effectively according to the deviation rate. Then, according to change of convexity and concavity of time series data after outlier detection, the method of piecewise curve fitting was used to correct the outliers. Finally, taking the daily water intake data of H1 waterworks as an example, the results showed that the method of combining median and EEMD can detect outliers effectively. The data obtained after correction can truly reflect the actual situation of water intake of waterworks. It can also provide more reliable data for subsequent analysis.
water resources; monitoring data; outliers; ensemble empirical mode decomposition; median; piecewise curve fitting
N945
A
1000-1298(2017)09-0257-07
10.6041/j.issn.1000-1298.2017.09.032
2017-02-02
2017-02-28
國家自然科學基金委員會-廣東聯合基金項目(U1501253)和廣東省省級科技計劃項目(2016B010127005)
方海泉(1985—),男,博士生,主要從事數據分析與系統(tǒng)工程研究,E-mail: fanghaiquan22@126.com