金容鑫,婁岱松,黃華德,毛漢領(lǐng)
(廣西大學(xué)機(jī)械工程學(xué)院,南寧 530004)
數(shù)據(jù)的準(zhǔn)確性是對(duì)水電機(jī)組開展運(yùn)行分析與故障診斷的基礎(chǔ)。傳感器故障、采集設(shè)備故障、電磁信號(hào)干擾、通信設(shè)備損壞等原因,導(dǎo)致原始數(shù)據(jù)中存在大量不完整的數(shù)據(jù)和異常的數(shù)據(jù)。這些不良的異常數(shù)據(jù)對(duì)水電機(jī)組的運(yùn)行分析與故障診斷將帶來嚴(yán)重的負(fù)面影響。形成高質(zhì)量的數(shù)據(jù)資源,對(duì)于提高水電機(jī)組運(yùn)行分析與故障診斷的準(zhǔn)確性具有重要意義。
數(shù)據(jù)辨識(shí)和恢復(fù)受到各行業(yè)研究者的高度重視,提出了針對(duì)各種數(shù)據(jù)特點(diǎn)的辨識(shí)和恢復(fù)處理方法。如在數(shù)據(jù)辨識(shí)方面,孟建良[1]提出了基于Spark 和聚類分析的辨識(shí)不良數(shù)據(jù)的新方法,將抽樣技術(shù)和最大最小距離法引入到傳統(tǒng)K-means 算法中,克服了收斂速度慢且易陷入局部極小等問題,并用于對(duì)輸電網(wǎng)狀態(tài)估計(jì)中的不良數(shù)據(jù)進(jìn)行檢測(cè)和辨識(shí)。方睿[2]基于MNMR 狀態(tài)估計(jì)算法提出了一種基于UPU 并行加速的量測(cè)不良數(shù)據(jù)辨識(shí)方法,有較好的不良數(shù)據(jù)辨識(shí)能力。胡陽(yáng)[3]提出了一種基于置信等效邊界模型的風(fēng)功率數(shù)據(jù)清洗方法,用于異常數(shù)據(jù)識(shí)別剔除。WANG[4]提出一種基于時(shí)空相關(guān)性約束的不良數(shù)據(jù)檢測(cè)與識(shí)別方法,并用于電力系統(tǒng)功率平衡數(shù)據(jù)的清理。YU[5]提出了基于進(jìn)化對(duì)稱損失函數(shù)的方法,直接識(shí)別輸出電力系統(tǒng)不良數(shù)據(jù)。SHUANG H等[6]提出了一種基于極大獨(dú)立集的異常檢測(cè)方法,由字符串之間距離量化修復(fù)數(shù)據(jù)。鐘建偉[7]提出基于蟻群算法的改進(jìn)新息圖法,并用數(shù)值仿真結(jié)果驗(yàn)證方法的效果。LIN[8]把高效的LNR 測(cè)試應(yīng)用于識(shí)別不同組中的多個(gè)壞數(shù)據(jù),識(shí)別和糾正超大電力系統(tǒng)中的測(cè)量誤差。在數(shù)據(jù)恢復(fù)方面,洪梓銘[9]提出基于優(yōu)先級(jí)分配策略的電網(wǎng)信息系統(tǒng)數(shù)據(jù)恢復(fù)方法,使物理?yè)p壞情況下的數(shù)據(jù)得以恢復(fù)。王方超[10]針對(duì)GPS 坐標(biāo)序列中的缺失值問題,提出基于數(shù)據(jù)驅(qū)動(dòng)的RegEM 插補(bǔ)算法,在大量數(shù)據(jù)缺失的情況下效果優(yōu)于傳統(tǒng)方法。謝智穎[11]提出了整合緩沖區(qū)、四分位數(shù)、時(shí)間依賴網(wǎng)絡(luò)等時(shí)空處理方法的清洗方法,提高了公交車到達(dá)時(shí)間的預(yù)測(cè)精度。張帥[12]建立電力負(fù)荷的多尺度時(shí)序特征建模,提出周尺度的電力負(fù)荷缺失數(shù)據(jù)恢復(fù)方法,并嘗試恢復(fù)年度等長(zhǎng)時(shí)段日負(fù)荷數(shù)據(jù)。FAN[13]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)健康監(jiān)測(cè)振動(dòng)數(shù)據(jù)恢復(fù)方法,具有較好的丟失數(shù)據(jù)恢復(fù)能力。LI[14]提出了一種基于相關(guān)隔離森林和注意力的LSTM(CiF-AL)的數(shù)據(jù)清理方法,優(yōu)化了異常數(shù)據(jù)恢復(fù)的定位精度和校正精度。王子馨[15]提出基于長(zhǎng)短期記憶網(wǎng)絡(luò)的缺失數(shù)據(jù)恢復(fù)方法,可用于提高電力系統(tǒng)量測(cè)數(shù)據(jù)質(zhì)量。針對(duì)多源時(shí)間序列缺失數(shù)據(jù)恢復(fù)問題,劉歌[16]提出一種基于雙重正則矩陣分解的恢復(fù)方法,并驗(yàn)證了算法的有效性。
綜上所述,不同領(lǐng)域的數(shù)據(jù)辨識(shí)和恢復(fù)的研究較多,但鮮有針對(duì)水電機(jī)組監(jiān)測(cè)數(shù)據(jù)的研究與應(yīng)用。本文針對(duì)水電機(jī)組監(jiān)測(cè)數(shù)據(jù)的延時(shí)性和相似性、小樣本和非線性、異常數(shù)據(jù)和缺失數(shù)據(jù)并存等特點(diǎn),利用K-means 聚類方法辨識(shí)異常數(shù)據(jù)、支持向量回歸恢復(fù)缺失數(shù)據(jù),構(gòu)建水電機(jī)組監(jiān)測(cè)數(shù)據(jù)的辨識(shí)和恢復(fù)方法,并利用某水電站的實(shí)際監(jiān)測(cè)數(shù)據(jù)驗(yàn)證方法的有效性。
經(jīng)典的最為廣泛使用的K-means 聚類算法主要以歐氏距離作為相似性衡量指標(biāo),表征數(shù)據(jù)的相似性和延續(xù)性,其計(jì)算流程如下:
(1)從N個(gè)數(shù)據(jù)樣本中隨機(jī)選擇k個(gè)樣本并初始化這個(gè)k聚類中心{C1,C2,…,Ck}。
(2)計(jì)算每一個(gè)樣本到每一個(gè)聚類中心的歐氏距離,依次比較每一個(gè)樣本到每一個(gè)聚類中心的距離,將樣本分配到距離最近的聚類中心的類簇,形成k簇,并根據(jù)以下公式更新k簇,計(jì)算公式如下:
式中:Ci為簇Si的中心樣本。
(3)對(duì)新的k簇重新計(jì)算該類的聚類中心,計(jì)算公式如下:
重復(fù)步驟(2)~(3)至滿足條件|Cn+1-Cn|≤ε后計(jì)算終止。
K-means聚類算法簡(jiǎn)單、快速,對(duì)大數(shù)據(jù)集有高效率和可伸縮性,可進(jìn)行模塊化分類。
應(yīng)用支持向量回歸(Support Vector Regression,SVR)方法,通過非線性映射將樣本集從低維空間映射到高維空間。對(duì)n個(gè)訓(xùn)練樣本該非線性映射也就是超平面可以定義為:
式中:x,ω,b分別是輸入向量,權(quán)重及截距。于是,SVR 方法可形式化為:
式中:C為懲罰因子;Lε是不敏感損失函數(shù),將ε作為不敏感誤差,則不敏感損失函數(shù)Lε的表達(dá)式為:
對(duì)于回歸錯(cuò)誤的數(shù)據(jù)點(diǎn),引入松弛變量ξi和ξi*,可將Lε代入(4)式可得:
引入拉格朗日乘數(shù)以及核函數(shù)將目標(biāo)函數(shù)轉(zhuǎn)換為對(duì)偶形式:
式中:αi和αi*是拉格朗日乘數(shù);K(xi,xj)為核函數(shù),可以將低維空間的內(nèi)積運(yùn)算轉(zhuǎn)換為高維空間的函數(shù)運(yùn)算。最小化拉格朗日函數(shù)后,獲得SVR表達(dá)式:
SVR常用的核函數(shù)為線性核函數(shù):
對(duì)于樣本的分類問題,用基于線性核函數(shù)的Linear SVR 可以快速有效解決。
可使用均方根百分比誤差(Root Mean Square Percentage Error,RMSPE)、平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)和擬合優(yōu)度(Goodness of Fit,R2)等3 個(gè)指標(biāo)評(píng)價(jià)Linear SVR 在回歸學(xué)習(xí)中的性能。RMSPE表示回歸結(jié)果的準(zhǔn)確性,結(jié)果越準(zhǔn)確,RMSPE越小;MAPE代表回歸結(jié)果的一致性,結(jié)果越一致,MAPE越小;R2代表擬合優(yōu)度,擬合優(yōu)度越大,則模型的擬合效果越好。它們計(jì)算公式分別為:
式中:N為樣本個(gè)數(shù);為t時(shí)刻的實(shí)際值;為模型在t時(shí)刻的預(yù)測(cè)值為實(shí)際值的平均值。
(1)使用K-means 聚類算法辨識(shí)錯(cuò)誤數(shù)據(jù)。從數(shù)據(jù)集中隨機(jī)選取k個(gè)樣本點(diǎn)作為初始聚類中心,將剩下的樣本分配到歐氏距離最小的聚類中心所對(duì)應(yīng)的類簇,并更新類簇直到滿足條件,完成分類。辨識(shí)出錯(cuò)誤數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)清洗。
(2)使用清洗后的數(shù)據(jù),利用Linear SVR 求取函數(shù)f(x)的參數(shù),使其在訓(xùn)練后能夠通過樣本缺失的自變量x預(yù)測(cè)對(duì)應(yīng)的因變量,實(shí)現(xiàn)對(duì)缺失數(shù)據(jù)的恢復(fù)。
(3)計(jì)算擬合后RMSPE、MAPE、R2指標(biāo),對(duì)恢復(fù)后的數(shù)據(jù)進(jìn)行評(píng)價(jià)。
以廣西南寧某水電站2015年5月投入使用的額定功率為30.77 MW 的燈泡貫流式水電機(jī)組為研究對(duì)象,該水電站計(jì)算機(jī)監(jiān)控系統(tǒng)中存儲(chǔ)了自運(yùn)行以來的大量水電機(jī)組運(yùn)行狀態(tài)監(jiān)測(cè)數(shù)據(jù)。監(jiān)控系統(tǒng)采集的監(jiān)測(cè)參數(shù)包括電流、電壓、功率等電氣參數(shù),振動(dòng)、行程、位移、導(dǎo)葉開度、水位、流量、壓力等機(jī)械參數(shù),以及瓦溫、油溫、繞組溫度等熱量參數(shù),主要測(cè)點(diǎn)的部分原始數(shù)據(jù)見表1。在實(shí)際中,由于傳感器異常、機(jī)組停機(jī)、日常維修等問題會(huì)導(dǎo)致存儲(chǔ)的數(shù)據(jù)存在丟失、奇異等問題,在對(duì)數(shù)據(jù)分析之前需要對(duì)原始數(shù)據(jù)進(jìn)行清洗。
表1 2015年10月9日部分測(cè)點(diǎn)部分原始數(shù)據(jù)Tab.1 Part of original data of some measuring points on Oct.9,2015
水電機(jī)組的運(yùn)行過程狀態(tài)是連續(xù)的,具有高度重復(fù)性和高度的相似性,不易發(fā)生突變,可使用K-means 聚類法完成錯(cuò)誤數(shù)據(jù)的辨識(shí)。下面以有功功率、定子線圈溫度為例進(jìn)行數(shù)據(jù)清洗。每個(gè)監(jiān)測(cè)參數(shù)有4 998 個(gè)數(shù)據(jù)項(xiàng),每10 min記錄一次數(shù)據(jù)。有功功率及定子線圈溫度參數(shù)的直方圖如圖1所示。
圖1 監(jiān)測(cè)數(shù)據(jù)分布統(tǒng)計(jì)Fig.1 Distribution statistics of monitoring data
在圖1(a)中,橫軸0~5 范圍內(nèi)出現(xiàn)的頻率是1 221 次,很明顯該部分?jǐn)?shù)據(jù)是存在錯(cuò)點(diǎn)的,需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理。這些接近于0 的數(shù)據(jù)大部分是由于機(jī)組停機(jī)后,由監(jiān)測(cè)系統(tǒng)自動(dòng)將這些數(shù)據(jù)補(bǔ)充到當(dāng)前時(shí)刻的數(shù)據(jù)中。由圖1(b)可知,在機(jī)組停機(jī)后溫度傳感器收集到的數(shù)據(jù)依然存儲(chǔ)在監(jiān)控系統(tǒng)的數(shù)據(jù)庫(kù)中,因此需要對(duì)該部分?jǐn)?shù)據(jù)進(jìn)行辨識(shí)。
使用K-means 聚類法辨別“功率-定子線圈溫度”之間的錯(cuò)誤數(shù)據(jù),如圖2所示為功率-定子線圈溫度分布圖,從其中隨機(jī)選取k個(gè)樣本點(diǎn)作為初始聚類中心,更新類簇直到滿足條件,完成分類,研究不同聚類中心個(gè)數(shù)對(duì)辨識(shí)錯(cuò)誤數(shù)據(jù)效果的影響,如圖3所示。
圖2 有功功率-定子線圈溫度Fig.2 Active power-stator coil temperature
從圖3中可以看出聚類中心個(gè)數(shù)的不同,每個(gè)聚類的分布范圍存在較大的差異。隨著聚類中心個(gè)數(shù)的變化,零功率點(diǎn)也隨之變化,當(dāng)聚類中心的個(gè)數(shù)為3時(shí),錯(cuò)誤數(shù)據(jù)檢測(cè)出的概率是98.5%。因此使用K-means 聚類方法是可以有效識(shí)別出這些異常的錯(cuò)誤數(shù)據(jù),在實(shí)際應(yīng)用過程中,需要對(duì)檢出率與誤檢率進(jìn)行綜合權(quán)衡,確定合理的聚類中心個(gè)數(shù)。在清洗完辨識(shí)出的錯(cuò)誤數(shù)據(jù)后,還需要結(jié)合以下方式進(jìn)行數(shù)據(jù)清洗。
圖3 聚類中心個(gè)數(shù)對(duì)功率-曲線聚類結(jié)果的影響Fig.3 The influence of the number of clustering centers on the power curve clustering results
(1)因監(jiān)控系統(tǒng)自身出現(xiàn)的問題如上位機(jī)故障等,無法記錄數(shù)據(jù),導(dǎo)致一些時(shí)間段內(nèi)出現(xiàn)數(shù)據(jù)不變,或者數(shù)據(jù)量全部為0的狀況。因此,剔除數(shù)據(jù)中的所有狀態(tài)量為“0”或者是數(shù)據(jù)不變的記錄。
(2)因機(jī)組在停機(jī)狀態(tài),監(jiān)控系統(tǒng)在正常運(yùn)行,此時(shí)生成的數(shù)據(jù)中功率接近于0,這些數(shù)據(jù)對(duì)機(jī)組分析評(píng)估沒有意義。因此,剔除數(shù)據(jù)中有功功率接近于0且機(jī)組轉(zhuǎn)速為0的記錄。
根據(jù)上述方法剔除錯(cuò)誤數(shù)據(jù)后,定子線圈溫度的直方圖如圖4所示。
從圖4的頻數(shù)分布來看,處理后的定子線圈溫度數(shù)據(jù)質(zhì)量相比于處理前的質(zhì)量有了顯著提升。為了進(jìn)一步分析該數(shù)據(jù),用高斯分布進(jìn)行曲線擬合并對(duì)該統(tǒng)計(jì)分布的參數(shù)估計(jì),均值為u=77.468 2,方差為σ=11.890 5 均值的0.95 置信區(qū)間為[77.087 5,77.848 8],方差的0.95 置信區(qū)間為[11.627 4,12.165 9],定子線圈溫度近似服從于高斯分布,定子線圈溫度還受到機(jī)組工況等因素影響。
圖4 錯(cuò)誤數(shù)據(jù)處理后定子線圈溫度統(tǒng)計(jì)分布Fig.4 Statistical distribution of stator coil temperature after error data processing
以某水電站1 號(hào)機(jī)組2015年7月15日至2016年7月30日的定子線圈溫度和有功功率數(shù)據(jù)為研究對(duì)象,共1 982 組數(shù)據(jù),前1 487個(gè)數(shù)據(jù)用于模型訓(xùn)練,后495個(gè)數(shù)據(jù)用于模型驗(yàn)證。對(duì)這些水電機(jī)組監(jiān)測(cè)數(shù)據(jù),使用基于線性核函數(shù)的Linear SVR 各個(gè)參數(shù)擬合模型的性能指標(biāo)見表2。
表2 Linear SVR模型參數(shù)Tab.2 Parameters of linear SVR model
從表3、圖5、6 中可以看出算法的RMSPE和MAPE均不超過3%,表明該模型訓(xùn)練過程誤差小,擬合程度好、具有較高的預(yù)測(cè)精度,可滿足水電機(jī)組的預(yù)測(cè)要求。每個(gè)擬合模型類別的擬合優(yōu)度R2都達(dá)到0.99以上,很接近1,說明模型的擬合效果很好。通過分析三個(gè)評(píng)價(jià)性能指標(biāo),結(jié)果表明,運(yùn)用Linear SVR模型能夠高度還原原始數(shù)據(jù)信息,對(duì)水電機(jī)組缺失數(shù)據(jù)進(jìn)行恢復(fù)能達(dá)到很好的效果。
表3 擬合模型性能指標(biāo)Tab.3 Performance index of fitting model
圖5 定子線圈溫度線性支持向量回歸擬合效果Fig.5 Fitting effect of stator coil temperature with linear support vector machine
本文針對(duì)水電機(jī)組海量監(jiān)測(cè)數(shù)據(jù)中蘊(yùn)含的異常數(shù)據(jù),提出了一種利用K-means 聚類方法辨識(shí)錯(cuò)誤數(shù)據(jù),Linear SVR 恢復(fù)缺失數(shù)據(jù)的方法。案例采用了有功功率和定子線圈溫度的監(jiān)測(cè)數(shù)據(jù)驗(yàn)證了所提方法的有效性和可行性,可得以下結(jié)論。
圖6 有功功率線性支持向量回歸擬合效果Fig.6 Fitting effect of active power linear support vector machine
(1)K-means 聚類方法只有一個(gè)聚類參數(shù)可調(diào),計(jì)算簡(jiǎn)單。當(dāng)聚類中心為3 個(gè)時(shí),使用K-means 聚類方法辨識(shí)錯(cuò)誤數(shù)據(jù)的準(zhǔn)確率達(dá)98.5%,對(duì)辨識(shí)出的異常數(shù)據(jù)進(jìn)行清洗,可以獲得高質(zhì)量的數(shù)據(jù)。
(2)運(yùn)用Linear SVR 模型對(duì)水電機(jī)組缺失的定子線圈溫度和有功功率數(shù)據(jù)進(jìn)行恢復(fù),得到數(shù)據(jù)訓(xùn)練模型和驗(yàn)證模型的RMSPE和MAPE均不超過3%,其擬合優(yōu)度R2均在0.99 以上,說明擬合的準(zhǔn)確性高,預(yù)測(cè)精度高,恢復(fù)的數(shù)據(jù)接近真實(shí)數(shù)據(jù)。