甄倩倩, 王丁磊
(安陽師范學(xué)院 軟件學(xué)院,河南 安陽 455000)
電力無線傳感器網(wǎng)絡(luò)中不良數(shù)據(jù)的檢測與修正
甄倩倩, 王丁磊
(安陽師范學(xué)院 軟件學(xué)院,河南 安陽 455000)
為檢測無線傳感器網(wǎng)絡(luò)中的不良數(shù)據(jù)并對其修正,提出了一種新的不良數(shù)據(jù)檢測與修正方法.該方法利用空間相關(guān)性以及先驗數(shù)據(jù)建立一個數(shù)學(xué)模型,然后給出一定的偏離度范圍.如果檢驗數(shù)據(jù)的偏離度在給定的偏離度范圍內(nèi),則該數(shù)據(jù)為正常數(shù)據(jù),反之,該數(shù)據(jù)為不良數(shù)據(jù).在數(shù)據(jù)集上多次測試結(jié)果表明,該算法能夠?qū)Σ涣紨?shù)據(jù)進(jìn)行檢測與辨識,并給出了相對精確的估計值.
無線傳感器網(wǎng)絡(luò);空間相關(guān)性;不良數(shù)據(jù);檢測與修正;偏離度
在電力系統(tǒng)無線傳感器網(wǎng)絡(luò)采集、傳輸、存儲等過程中,由于工況復(fù)雜,數(shù)據(jù)在收集過程中可能產(chǎn)生各種噪聲、離群點(diǎn)或較大的誤差[1],如果測量值與真實值之間偏差較大,則該數(shù)據(jù)即可稱為不良數(shù)據(jù).電力系統(tǒng)運(yùn)營中包含很多數(shù)據(jù),這些數(shù)據(jù)是否準(zhǔn)確將直接影響電力系統(tǒng)的運(yùn)行安全,因為無線傳感器的自身特點(diǎn)以及其部署區(qū)域的外部環(huán)境造成不良數(shù)據(jù)的出現(xiàn)在電力系統(tǒng)的日常運(yùn)營中是不可避免的.如果不對其進(jìn)行處理,那么它的存在有時會使電力調(diào)度人員對電力系統(tǒng)的狀態(tài)估計不清,從而影響電力系統(tǒng)的正常運(yùn)營以及安全.所以不良數(shù)據(jù)檢測與辨識是電力系統(tǒng)狀態(tài)估計的重要功能之一,其功能是發(fā)現(xiàn)和排除測量采樣數(shù)據(jù)中偶然出現(xiàn)的少數(shù)不良數(shù)據(jù),以提高狀態(tài)估計的可靠性[2].電力系統(tǒng)中不良數(shù)據(jù)檢測與修正對狀態(tài)估計結(jié)果的準(zhǔn)確性起著重要作用[3].電力系統(tǒng)不良數(shù)據(jù)檢測與修正能夠避免一些錯誤數(shù)據(jù)的出現(xiàn),減少誤差,從而在一定程度上提高在線或離線計算程序的可信度[4].基于以上原因提出了一種不良數(shù)據(jù)檢測并修正的算法,用于修正電力系統(tǒng)中存在的不良數(shù)據(jù),從而提高數(shù)據(jù)系統(tǒng)的可靠性.
近年來,許多學(xué)者以數(shù)學(xué)、控制理論和其他新理論為指導(dǎo),進(jìn)行電力系統(tǒng)不良數(shù)據(jù)檢測與辨識問題的研究,并結(jié)合電力系統(tǒng)的特點(diǎn),在理論研究與工程應(yīng)用方面取得了大量的成果,進(jìn)一步豐富和發(fā)展了相關(guān)算法[5],并提出很多與之相關(guān)的算法,例如基于k-means聚類算法[3]、基于模糊數(shù)學(xué)理論[5]、基于殘差信息辨識的不良數(shù)據(jù)[6]、新息圖[7]、基于模糊聚類[8]、基于小波的[9-10]、基于最大指數(shù)絕對值目標(biāo)函數(shù)[11]、基于神經(jīng)網(wǎng)絡(luò)的以及基于模式匹配的不良數(shù)據(jù)檢測方法等.
文獻(xiàn)[3]對具體的應(yīng)用背景提出了相應(yīng)的不良數(shù)據(jù)辨識方法,主要研究日負(fù)荷曲線中的不良數(shù)據(jù),提出了一種基于改進(jìn)的k-means聚類算法,該算法首先結(jié)合有效指數(shù)準(zhǔn)則,提取出電力系統(tǒng)中的日負(fù)荷曲線,并利用提取出的負(fù)荷曲線對待檢測曲線進(jìn)行檢測與辨識,最終確定出待檢測曲線中是否含有不良數(shù)據(jù).文獻(xiàn)[5]提出了一種基于模糊數(shù)學(xué)理論的綜合評價算法,并根據(jù)算法建立隸屬度函數(shù)以及評價指標(biāo),并對不同的算法進(jìn)行評價,比較各個算法的優(yōu)缺點(diǎn).文獻(xiàn)[6]提出了一種解決多不良數(shù)據(jù)辨識的方法,該方法不存在殘差污染和殘差淹沒的問題.該方法首先選取部分?jǐn)?shù)據(jù)進(jìn)行估計,然后用剩余的數(shù)據(jù)替換掉參與估計的待檢測數(shù)據(jù),并計算替換后的各個數(shù)據(jù)的標(biāo)準(zhǔn)化殘差的大小對數(shù)據(jù)進(jìn)行評估,從而辨別出不良數(shù)據(jù).文獻(xiàn)[7]提出了一種新息圖法,該方法尋找新息偏大的可疑的節(jié)點(diǎn)并尋找該節(jié)點(diǎn)是否存在突變路徑,從而最終確定突變子網(wǎng)存在與否,進(jìn)而識別不良數(shù)據(jù).文獻(xiàn)[8]在模糊集理論的基礎(chǔ)上提出的一種檢測方法,該方法將相鄰的兩個采樣時刻的數(shù)據(jù)差以及標(biāo)準(zhǔn)殘差作為特征對象進(jìn)行模糊聚類分析,根據(jù)已知的優(yōu)良數(shù)據(jù),辨別出其他優(yōu)良數(shù)據(jù),從而最終檢測出變異的不良數(shù)據(jù).文獻(xiàn)[9]使用傅里葉函數(shù)變換以及小波分析法對不良數(shù)據(jù)進(jìn)行檢測.文獻(xiàn)[10]利用小波自身的去除噪聲的原理以及其奇異性檢測理論,提出了一種對不良數(shù)據(jù)進(jìn)行辨識的新方法.該算法能夠確定不良數(shù)據(jù)的類型及位置.文獻(xiàn)[11]中提出了一種用最大指數(shù)絕對值來衡量數(shù)據(jù)是不是不良數(shù)據(jù),通過引進(jìn)輔助變量得到等價模型,并進(jìn)行求解,該算法可以抑制多個強(qiáng)相關(guān)的不良數(shù)據(jù).
但上述所列舉的這些算法都沒有考慮到無線傳感器的特性,所以無法應(yīng)用在無線傳感器網(wǎng)絡(luò)的不良數(shù)據(jù)辨識上.無線傳感器網(wǎng)絡(luò)某些節(jié)點(diǎn)之間空間上具有很大的相關(guān)性,以及節(jié)點(diǎn)本身時間序列的特性,所以本文針對特定的用處選擇了充分考慮無線傳感器網(wǎng)絡(luò)的空間相關(guān)性的算法對不良數(shù)據(jù)進(jìn)行檢測與修正.
2.1 相關(guān)定義
定義1 偏離度(degree of deviation):偏離度是指真實數(shù)據(jù)偏離目標(biāo)數(shù)據(jù)的程度.
偏離度計算公式如式(1)所示,
(1)
其中dev:偏離度,abs:絕對值,real:真實數(shù)據(jù),target:目標(biāo)數(shù)據(jù).
定義2 相似性度量(similarity measurement):相似性度量是用于比較一些形狀、圖像、信息或數(shù)據(jù)相似性的一個函數(shù)[12].
文獻(xiàn)[12]中比較了幾種不同的相似性度量,例如,積相關(guān)、絕對差、平方差、平均絕對差、平均平方差、歸一化積等.另外,在數(shù)據(jù)挖掘中還有一些常用的衡量相似性的函數(shù),常用的相似性函數(shù)有歐氏距離.但歐氏距離等計算雖然簡單,卻不能處理不等長序列,在兩個序列完全相似而只是沿y軸移動一段距離的情況下會出現(xiàn)錯誤的判別,而且它們并不能反映兩個序列相似性的本質(zhì)[13].文獻(xiàn)[14]提出了一種斜率相似性度量.基于斜率的時間序列相似性度量方法在線性分段的基礎(chǔ)上,對兩個序列間的斜率差進(jìn)行加權(quán)[14].選擇不同的相似性度量函數(shù)對最后的結(jié)果會產(chǎn)生很大的影響,所以選擇一個合適的相似性度量函數(shù)相當(dāng)重要.為了選擇一個合適的相似性度量函數(shù),結(jié)合無線傳感器的具體特性進(jìn)行考慮,即用空間上的相關(guān)性來度量節(jié)點(diǎn)之間的相似性.對于某一個實測節(jié)點(diǎn)來說,由于無線傳感器之間的空間相關(guān)性,在數(shù)據(jù)質(zhì)量正常的情況下,節(jié)點(diǎn)之間會有近似的函數(shù)對應(yīng)關(guān)系.
2.2 算法描述
對于正常的電力系統(tǒng)運(yùn)營過程中的數(shù)據(jù),都在固定的范圍內(nèi)波動,不會有很大的偏差,所以基于這一原理,本文在有先驗經(jīng)驗的基礎(chǔ)上,利用歷史的正常數(shù)據(jù)先建立數(shù)學(xué)模型,然后對數(shù)據(jù)進(jìn)行判定.具體過程如下:
1)求皮爾遜相關(guān)系數(shù),選取相關(guān)性大于0.3的節(jié)點(diǎn).任意節(jié)點(diǎn)i與j之間的皮爾遜相關(guān)系數(shù)計算為
(2)
其中,j=1,2,…,i-1,i+1,…,n.yik代表節(jié)點(diǎn)i的第k個值,yjk代表節(jié)點(diǎn)j的第k個值.yi代表節(jié)點(diǎn)i的平均值,yj代表節(jié)點(diǎn)j的平均值.r(i,j)∈[-1,1],用以反映兩個變量之間關(guān)系密切程度的統(tǒng)計指標(biāo).
2)建模.根據(jù)參與建模的節(jié)點(diǎn)用最小二乘法按照公式(3)構(gòu)造多元回歸分析函數(shù),給每一個節(jié)點(diǎn)建立一個擬合模型,其中k為相關(guān)變量的數(shù)目,Xk為第k個變量,βj(j=1,2,…,k)稱為回歸系數(shù).
Yi=β0+β1X1+β2X2+β3X3+…+βkXk.
(3)
3)利用模型預(yù)測并判定不良數(shù)據(jù).判定某一節(jié)點(diǎn)中檢測序列數(shù)據(jù)點(diǎn)是不是不良數(shù)據(jù).首先根據(jù)建立的模型求出檢測數(shù)據(jù)點(diǎn)的預(yù)測值,然后根據(jù)預(yù)測值與檢測值求出偏離度,如果偏離度在正常偏離度的范圍內(nèi),則該數(shù)據(jù)為正常數(shù)據(jù),繼續(xù)對下一個值進(jìn)行判定,反之,該數(shù)據(jù)為不良數(shù)據(jù),用預(yù)測模型得到的值替換檢測值,繼續(xù)對下一個值進(jìn)行檢測.
本文在MATLAB R2012b下進(jìn)行仿真實驗,數(shù)據(jù)采用電力系統(tǒng)運(yùn)營過程中由6個傳感器采集到的真實完整且數(shù)據(jù)質(zhì)量良好的空氣預(yù)熱器煙氣出口溫度數(shù)據(jù)集(如圖1所示).為了驗證算法的有效性與精確性,對數(shù)據(jù)集進(jìn)行一定的修改,使得數(shù)據(jù)集中含有一定的不良數(shù)據(jù),使用算法對其進(jìn)行辨識,檢驗算法是否能夠識別,并檢驗修正后的值與真實值之間的誤差范圍.
圖1 原始數(shù)據(jù)Fig.1 Raw Data
3.1 實驗設(shè)定
實驗選用的是6個溫度傳感器采集到的空氣預(yù)熱器出口溫度值,分別命名為節(jié)點(diǎn)A、節(jié)點(diǎn)B、節(jié)點(diǎn)C、節(jié)點(diǎn)D、節(jié)點(diǎn)E、節(jié)點(diǎn)F.圖1是這6個節(jié)點(diǎn)所采集到的800個數(shù)據(jù)的詳細(xì)信息.由圖1可知,一段時間內(nèi),數(shù)據(jù)固定在一定的范圍內(nèi)波動,所以為了檢測不良數(shù)據(jù),選取前400個正常數(shù)據(jù)點(diǎn)作為訓(xùn)練樣本建立數(shù)學(xué)模型,并求出誤差范圍的大小.
為了驗證數(shù)據(jù)的有效性,可以進(jìn)行以下兩種假設(shè)條件實驗:
(1)假設(shè)節(jié)點(diǎn)A的第500和第600個節(jié)點(diǎn)是不良數(shù)據(jù),原數(shù)據(jù)值分別為169.997,171.385,將它們分別修改為168.997,172.385,即為第500個數(shù)據(jù)減少了1 ℃,第600個數(shù)據(jù)增加了1 ℃,并分析設(shè)定偏離度的大小對實驗結(jié)果的影響.
(2)假設(shè)節(jié)點(diǎn)A的第601到第650個數(shù)據(jù)以步長0.1 ℃的方式遞減,即601個數(shù)據(jù)減少了0.1 ℃,602個數(shù)據(jù)減少了0.2 ℃,第603個數(shù)據(jù)減少了0.3 ℃,依次類推,并分析設(shè)定偏離度的大小對實驗結(jié)果的影響.
3.2 實驗結(jié)果分析
通過求解相關(guān)系數(shù),得出節(jié)點(diǎn)A與節(jié)點(diǎn)B、C、D、E、F的相關(guān)系數(shù)分別為0.705 9、0.965 9、0.727 6、0.240 4、0.020 2.如果節(jié)點(diǎn)與節(jié)點(diǎn)A的相關(guān)性大于0.3,則將其加入?yún)⑴c回歸分析的隊列中,故節(jié)點(diǎn)B、C、D參與回歸分析,得到線性回歸分析模型為dataA=26.153 8-0.091 9×dataB+0.809×dataC+0.125 8×dataD,其中dataA、dataB、dataC、dataD分別代表節(jié)點(diǎn)A、B、C、D的數(shù)值.根據(jù)上述擬合模型求得的預(yù)測值與真實值之間的誤差范圍為[-0.401 8, 0.378 9],誤差絕對值的平均值為0.104 1,預(yù)測序列的平均值為171.086 8.
首先實驗設(shè)定(1),根據(jù)建立的多元線性回歸模型,依次求得節(jié)點(diǎn)A第401到800的預(yù)測值,并將其與真實值之間的誤差進(jìn)行對比.
根據(jù)偏離度的定義可知,第401到第800個數(shù)據(jù)的偏離度情況如圖2所示.
根據(jù)偏離度在設(shè)定范圍內(nèi)為正常數(shù)據(jù),反之則為不良數(shù)據(jù)的概念,由圖2可以明顯分析出如果偏離度的設(shè)定范圍在0.2%以內(nèi),那么很多正常點(diǎn)都被識別為不良數(shù)據(jù),如果偏離度設(shè)定在0.3%以內(nèi),那么會有兩個點(diǎn)有誤,如果偏離度范圍設(shè)定在0.4%以內(nèi),則正好能夠檢出這兩個不良數(shù)據(jù).即第500個和第600個數(shù)據(jù)不在正常偏離度的范圍內(nèi)(分別為0.687 8和0.567 3),而其他值都在正常偏離度的范圍內(nèi),所以可以把它們識別為不良數(shù)據(jù),使用預(yù)測的數(shù)據(jù)值代替原始數(shù)據(jù),從而可以達(dá)到修正不良數(shù)據(jù)的目的,它們的預(yù)測值分別為170.167 3、171.412 6,與修改前的數(shù)據(jù)誤差都很小,與實驗前的真實值基本吻合.
實驗設(shè)定(2)中,依舊根據(jù)已經(jīng)求出來的多元線性回歸模型對第401到第800個數(shù)據(jù)點(diǎn)依次進(jìn)行判定,已經(jīng)建立的數(shù)學(xué)模型為:dataA=26.153 8-0.091 9×dataB+0.809×dataC+0.125 8×dataD.求出的預(yù)測序列與實驗設(shè)定(1)中所求的相同,因為參與計算的其他節(jié)點(diǎn)值沒有改變,都是正常值.實驗設(shè)定(2)檢測序列的偏離度如圖3所示.
圖2 檢測序列的偏離度Fig.2 Deviation of detection sequence
圖3 檢測序列的偏離度Fig.3 Deviation of detection sequence
圖4 預(yù)測值與原始真實值之間的對比Fig.4 The comparison of predicted value and real value
由圖3可知,第600到第650個數(shù)據(jù)點(diǎn)數(shù)據(jù)遠(yuǎn)遠(yuǎn)偏離正常的偏離度范圍.實驗結(jié)果表明,如果偏離度的范圍設(shè)定在0.2%以內(nèi),會有很多數(shù)據(jù)被檢測為不良數(shù)據(jù),如果偏離度的范圍設(shè)定在0.3%以內(nèi),仍然會有部分?jǐn)?shù)據(jù)被誤檢,而偏離度如果設(shè)定在0.4%以內(nèi),則剛好能夠檢測出第606到第650個數(shù)據(jù)點(diǎn).因為從第606個數(shù)據(jù)開始偏離度大于0.4%,所以在本實驗中該算法能夠檢測出與真實值誤差大于0.8的不良數(shù)據(jù).所以從第606個數(shù)據(jù)到第650個數(shù)據(jù)均被檢測出來,并用預(yù)測值對其進(jìn)行修正,具體的預(yù)測值與原始真實值之間的對比圖如圖4所示.
由圖4所示,預(yù)測值與原始真實值序列基本重合,它們之間誤差很小,可以忽略,所以可以使用預(yù)測值來對不良數(shù)據(jù)進(jìn)行修正.這樣的值很接近真實值,對電力系統(tǒng)中的決策具備良好的參考價值.
綜合兩個實驗分析可知,偏離度設(shè)定在0.4%,剛好能夠檢測出不良數(shù)據(jù),而又不至于將正常數(shù)據(jù)誤辨識為不良數(shù)據(jù),所以偏離度設(shè)定在0.4%比較合理.
本文針對電力系統(tǒng)運(yùn)營中無線傳感器網(wǎng)絡(luò)中存在不良數(shù)據(jù)的問題,提出了一種基于空間相關(guān)性以及偏離度的不良數(shù)據(jù)檢測方法,并對不良數(shù)據(jù)進(jìn)行數(shù)據(jù)修正.通過多次比對實驗得到了一個最合理的偏離度的取值,最后在真實數(shù)據(jù)集上進(jìn)行仿真分析,實驗結(jié)果表明,該算法能夠檢測出系統(tǒng)中存在的不良數(shù)據(jù),且不會產(chǎn)生誤檢的情況,對于不良數(shù)據(jù)修正后的結(jié)果接近真實值.本文提出的算法估計精度高,精確的數(shù)據(jù)為數(shù)據(jù)分析等進(jìn)一步工作奠定了良好的基礎(chǔ),從而使得電力人員能夠正確評估設(shè)備等的運(yùn)營情況并能夠及時做出調(diào)整.
[1] 黎燦兵,劉曉光,趙弘俊,等.中壓配電網(wǎng)不良負(fù)載數(shù)據(jù)分析與處理方法[J].電力系統(tǒng)自動化,2008,32(20):97-99.
[2] 劉莉,翟登輝,姜新麗.電力系統(tǒng)不良數(shù)據(jù)檢測與辨識方法的現(xiàn)狀與發(fā)展[J].電力系統(tǒng)保護(hù)與控制,2010,38(5):143-147.
[3] 劉莉,王剛,翟登輝.k-means聚類算法在負(fù)荷曲線分類中的應(yīng)用[J].電力系統(tǒng)保護(hù)與控制,2011,39(23):65-68.
[4] 王興志, 嚴(yán)正, 沈沉, 等. 基于在線核學(xué)習(xí)的電網(wǎng)不良數(shù)據(jù)檢測與辨識方法[J].電力系統(tǒng)保護(hù)與控制, 2012, 40(1): 50-55.
[5] 蔣德瓏,王克文.不良數(shù)據(jù)檢測與辨識算法的評估研究[J].計算機(jī)工程與應(yīng)用, 2012,48(22) :239-243.
[6] 盧志剛,張宗偉.基于量測量替換與標(biāo)準(zhǔn)化殘差檢測的不良數(shù)據(jù)辨識[J].電力系統(tǒng)自動化,2007,31(13):52-56.
[7] 毛志強(qiáng),蔡中勤,周蘇荃,等.基于新息圖法的電力系統(tǒng)負(fù)荷突變辨識[J].電力系統(tǒng)自動化,2011,35(12):37-41.
[8] 蔣德瓏,王克文,王祥東.基于模糊等價矩陣聚類分析的不良數(shù)據(jù)辨識[J].電力系統(tǒng)保護(hù)與控制,2011,39(21):1-6.
[9] 康仁.基于小波分析的母線負(fù)荷預(yù)測不良數(shù)據(jù)檢測[J].中國電力,2011,44(8):5-8.
[10]李慧,楊明皓.小波分析在電力系統(tǒng)不良數(shù)據(jù)辨識中的應(yīng)用[J].繼電器,2005,33(3):10-14.
[11]付艷蘭,陳艷波,姚銳,等.基于最大指數(shù)絕對值目標(biāo)函數(shù)的抗差狀態(tài)估計方法[J].電網(wǎng)技術(shù),2013,37(11):3 166-3 171.
[12]劉寶生,閆莉萍,周東華.幾種經(jīng)典相似性度量的比較研究[J].計算機(jī)應(yīng)用研究, 2006, 23(11): 1-3.
[13]湯胤.時間序列相似性分析方法研究[J].計算機(jī)工程與應(yīng)用,2006,42(1):68-71.
[14]張建業(yè),潘泉,張鵬,等. 基于斜率表示的時間序列相似性度量方法[J].模式識別與人工智能, 2007, 20(2): 271-274.
Detection and Correction of Bad Data in Wireless Sensor Network of Power System
ZHEN Qianqian, WANG Dinglei
(SchoolofSoftwareEngineering,AnyangNormalUniversity,Anyang455000,China)
In order to detect and amend the bad data in wireless sensor network, a new bad data detection and correction algorithm is proposed. The proposed algorithm uses prior data bank and spatial correlation of wireless sensor network, and it gives the range of deviation. If the detected data in a certain deviation of given range, the data are normal data, otherwise, bad data. The test results on the data sets show that the proposed algorithm is able to detect and identify bad data and give bad data an estimated value.
wireless sensor network; spatial correlation; bad data; detection and correction; degree of deviation
2015-07-15
甄倩倩(1988—),女,河南開封人,安陽師范學(xué)院軟件學(xué)院教師.
10.3969/j.issn.1007-0834.2015.04.011
TP391
A
1007-0834(2015)04-0038-05