王惠杰, 李鑫鑫,許小剛,王 品
(1.華北電力大學(xué)能源動力與機(jī)械工程學(xué)院,河北保定071003;2.大連發(fā)電有限責(zé)任公司,遼寧大連116021)
?
基于電廠工況劃分的模糊C-均值聚類算法研究
王惠杰1, 李鑫鑫1,許小剛1,王 品2
(1.華北電力大學(xué)能源動力與機(jī)械工程學(xué)院,河北保定071003;2.大連發(fā)電有限責(zé)任公司,遼寧大連116021)
火電機(jī)組在運行過程中產(chǎn)生大量的歷史數(shù)據(jù),而目前所使用數(shù)據(jù)分析方法僅僅對這些歷史數(shù)據(jù)進(jìn)行簡單的分類和統(tǒng)計,并不能對這些數(shù)據(jù)所隱含的規(guī)律進(jìn)行挖掘。利用相關(guān)性分析對某電廠的實時數(shù)據(jù)進(jìn)行研究,從大量的機(jī)組運行參數(shù)中篩選出對機(jī)組能耗影響較大的重要參數(shù):負(fù)荷、循環(huán)水入口溫度、主蒸汽溫度、再熱蒸汽溫度、主蒸汽壓力、循環(huán)水流量。然后,介紹了模糊C-均值聚類算法的相關(guān)理論及其應(yīng)用,利用此方法對以上6個參數(shù)進(jìn)行工況劃分。實際應(yīng)用結(jié)果表明,在對電廠大量實時進(jìn)行數(shù)據(jù)聚類和合理工況劃分過程中,模糊C-均值聚類算法起到一定作用,并且對優(yōu)化運行和機(jī)組節(jié)能優(yōu)化有重大的意義。
熱耗率;相關(guān)系數(shù);工況劃分;模糊C-均值聚類
電廠機(jī)組在復(fù)雜的運行過程中產(chǎn)生大量的歷史數(shù)據(jù),而這些數(shù)據(jù)背后不僅蘊(yùn)含著大量豐富的信息和知識,同時還具有維數(shù)高、復(fù)雜非線性和強(qiáng)耦合性等特點[1-3]。影響機(jī)組能耗指標(biāo)的因素就有幾十個甚至上百個,并且這些影響因素會隨電站機(jī)組設(shè)備特性、運行邊界和運行狀態(tài)的變化而發(fā)生改變。相關(guān)性分析法可以將這些熱力系統(tǒng)參數(shù)之間復(fù)雜的非線性關(guān)系簡化為線性相關(guān)性問題來進(jìn)行處理;然后根據(jù)相關(guān)性系數(shù)來篩選出與機(jī)組能耗關(guān)系較大的重要參數(shù)[4,5]。
目前,國內(nèi)電站機(jī)組普遍面臨著外界環(huán)境溫度和機(jī)組負(fù)荷大幅度變化等問題,這不僅會造成機(jī)組運行工況變化較大,火電機(jī)組在不同運行工況下的特性差異也很大,對應(yīng)的最優(yōu)值也是不同的。為了使各個工況點都對建模過程的數(shù)據(jù)起到作用,避免一些典型工況的冗余或一些非典型工況的缺失,而導(dǎo)致算法的結(jié)果偏向于典型工況,因此產(chǎn)生了機(jī)組的運行工況劃分問題[6,7]。目前對電站機(jī)組進(jìn)行工況劃分的方法通常有等頻率法、等密度法、等寬度法和K-均值聚類算法等[8]。而以上這些傳統(tǒng)的聚類算法往往只是將某個樣本對象生硬地劃分到唯一的某一個類屬中,但對于現(xiàn)實的電站機(jī)組運行數(shù)值對象,它們的數(shù)值之間都存在一定的聯(lián)系,因此為避免劃分過硬等問題,本文引入利用了模糊集理論。在電廠機(jī)組模糊離散化過程中,模糊C-均值聚類算法(Fuzzy C-Means,FCM)的運用最為成功普遍。1973年,F(xiàn)CM最先是由Dunn提出,隨后由Bezdek改進(jìn)并發(fā)展起來的一種模糊聚類算法。FCM不僅具有重要的基礎(chǔ)理論,而且在實際應(yīng)用中有一定的實用價值,目前已經(jīng)成功地用于解決包括特征分析、數(shù)據(jù)分析和分離器設(shè)計在內(nèi)的很多問題,并同時成功應(yīng)用在農(nóng)業(yè)工程、圖像分析、醫(yī)學(xué)診斷、天文學(xué)、化學(xué)、地質(zhì)學(xué)、形狀分析及目標(biāo)識別等多種領(lǐng)域。隨著該算法應(yīng)用的不斷深入發(fā)展,模糊聚類算法的研究也得到了不斷的改進(jìn)。該算法是將各個類的隸屬度從只能取1或0擴(kuò)展到[0,1],從而來表示樣本數(shù)據(jù)屬于不同的類,從而解決了數(shù)據(jù)劃分過硬的問題,為進(jìn)行軟劃分提供了有力的分析工具[9-11]。
本文基于電站機(jī)組大量的歷史運行數(shù)據(jù),基于這種相互聯(lián)系特點,應(yīng)用相關(guān)性分析方法得出熱耗率與各參數(shù)間的相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)的判定,從大量的電廠機(jī)組運行參數(shù)中確定對機(jī)組能耗影響較大的重要參數(shù)。然后,介紹了模糊C-均值聚類算法的基本理論及應(yīng)用,利用此方法對已篩選好的重要參數(shù)實時數(shù)據(jù)劃分成相似的工況簇,以同一工況簇為基礎(chǔ),利于建模以后的分析和進(jìn)行運行參數(shù)最優(yōu)目標(biāo)值的研究。
相關(guān)性分析是用來分析兩個變量(或變量組)之間相互依存關(guān)系的一種統(tǒng)計學(xué)方法,可以通過相關(guān)性系數(shù)這一指標(biāo)來衡量兩變量之間的關(guān)系[12]。對于兩個參數(shù)x,y之間的相關(guān)性系數(shù)的計算公式,如式(1)所示:
(1)
判斷兩變量之間相關(guān)關(guān)系的方向和密切程度的強(qiáng)弱,可以利用相關(guān)性系數(shù)數(shù)值的符號和大小。若r>0,即為正相關(guān),表示相關(guān)參數(shù)的變化方向是相同的;r<0,即為負(fù)相關(guān),表示相關(guān)參數(shù)的變化方向是相反的。而r=0,表示不相關(guān);r=+1,表示完全正相關(guān);r=-1,表示完全負(fù)相關(guān)。
當(dāng)|r|越趨近于1時,其相關(guān)程度越高;當(dāng)|r|越趨近于0時,其相關(guān)程度越低。當(dāng)|r|≥0.8時,可視為兩個變量高度相關(guān);當(dāng)0.5≤|r|<0.8時,可視為中度相關(guān);當(dāng)0.3≤|r|<0.5時,可視為低度相關(guān);當(dāng)|r|<0.3時,可視為兩個變量之間的相關(guān)程度極弱[13]。通常認(rèn)為r≥0.5的變量有分析的必要,即兩個變量之間的相關(guān)程度為高度相關(guān)或中度相關(guān)。
FCM應(yīng)用于工況劃分的基本計算思路是:(1)首先要選取對樣本X進(jìn)行劃分的聚類個數(shù)c和初始化各聚類中心數(shù)值,以及樣本屬于不同類別的初始隸屬度矩陣和權(quán)重系數(shù);(2)然后根據(jù)距離最小原則將各樣本劃分到c類中的某一類,經(jīng)過不斷地迭代計算聚類中心和隸屬度矩陣,從而調(diào)整各樣本所屬類別;(3)最終使類內(nèi)距離平方和達(dá)到最小時停止循環(huán),從而來確定樣本所屬的類。最終達(dá)到對樣本數(shù)據(jù)進(jìn)行分類的目的[14-16]。
令目標(biāo)數(shù)據(jù)集X={x1,x2,…xn}∈Rm表示給定的已知樣本集合,m是樣本空間的維數(shù),n是樣本個數(shù),c(c>1)是對X進(jìn)行劃分的聚類個數(shù)。FCM算法可以描述如下:
(2)
(3)
(4)
(5)
(6)
式中:m>1是模糊系數(shù);U=uij是一個c×m的模糊劃分矩陣,uij是第j個樣本xj屬于第i類的隸屬度值;V=[v1,v2,…vn]是由c個聚類中心向量構(gòu)成的n×c的矩陣;dij=‖xj-vi‖表示從樣本點xj到中心vi的距離。
FCM算法先選取初始化類中心(或者隸屬度矩陣),然后利用式(5)和式(6)進(jìn)行迭代直至滿足設(shè)定的終止條件。FCM算法的具體步驟如下:
(1)設(shè)定聚類個數(shù)c(2≤c≤n)和模糊指數(shù)m(1≤m≤+∞);初始化矩陣U(0),初始化各類中心V(0);設(shè)置收斂的精度ε>0;設(shè)置循環(huán)次數(shù)s=0。
(2)用式(6)計算U(s+1)。
(3)用式(5)計算V(k+1),令k=k+1。
重復(fù)步驟(1)和(2),直到滿足如下的終止條件:
(7)
3.1 進(jìn)行相關(guān)性分析
本文對某電廠提取的從2015年8~11月的歷史運行數(shù)據(jù)進(jìn)行分析,經(jīng)數(shù)據(jù)選擇與數(shù)據(jù)檢驗得到穩(wěn)定運行工況數(shù)據(jù)。對影響機(jī)組能耗的歷史運行參數(shù)進(jìn)行相關(guān)性分析。
根據(jù)經(jīng)驗常識,本課題選取負(fù)荷、主蒸汽溫度、主蒸汽壓力、再熱蒸汽溫度、汽包壓力、給水溫度、給水流量、循環(huán)水入口溫度、循環(huán)水流量等來分析與機(jī)組熱耗之間的相關(guān)性,計算得出各參數(shù)與機(jī)組熱耗的相關(guān)性系數(shù)如表1所示。
表1 相關(guān)性系數(shù)計算結(jié)果
根據(jù)表1可以得出。相關(guān)性系數(shù)為正時,意味著機(jī)組熱耗隨運行參數(shù)的增大而增大;相反,相關(guān)性系數(shù)為負(fù)時,意味著機(jī)組熱耗隨參數(shù)的增大而減小。根據(jù)表1中相關(guān)性系數(shù)大小排序,可以分析得出對熱耗影響較大的前6個因素是負(fù)荷、循環(huán)水入口溫度、主蒸汽溫度、再熱蒸汽溫度、主蒸汽壓力、循環(huán)水流量。
3.2 對各參數(shù)進(jìn)行工況劃分
利用模糊C-均值聚類算法對各參數(shù)進(jìn)行工況劃分時,對于C值的選擇,可能會嚴(yán)重影響工況劃分的結(jié)果,如組數(shù)太多會導(dǎo)致數(shù)據(jù)離散化太強(qiáng),每組之間的前后關(guān)聯(lián)性降低;如果組數(shù)太少又會導(dǎo)致代表性數(shù)據(jù)模糊,都會對以后的建模結(jié)果造成影響。因此組數(shù)的選取是一個重要的過程,鑒于上述原因,本文選擇將每個參數(shù)劃分為10組,這樣就對6個參數(shù)劃分出106個區(qū)間。通過上文的相關(guān)性分析結(jié)果,本文選擇與機(jī)組能耗相關(guān)性強(qiáng)的6個參數(shù)進(jìn)行工況劃分。根據(jù)模糊C-均值聚類算法將各參數(shù)進(jìn)行聚類劃分,其結(jié)果如圖1~6所示。
圖2 主蒸汽溫度的聚類劃分結(jié)果
圖3 再熱蒸汽溫度的聚類劃分結(jié)果
圖4 循環(huán)水入口溫度的聚類劃分結(jié)果
圖5 主蒸汽壓力的聚類劃分結(jié)果
圖6 循環(huán)水流量的聚類劃分結(jié)果
根據(jù)圖1~6的工況劃分結(jié)果,經(jīng)過聚類后得到的各參數(shù)區(qū)間,呈現(xiàn)出一定的聚類特性。由各圖聚類后得到的10個類,區(qū)間所包含的個數(shù)是不均勻的,如機(jī)組在低負(fù)荷和高負(fù)荷運行的負(fù)荷點較少,而在穩(wěn)定運行時較多。將每個參數(shù)分為10組,則可將所有參數(shù)分為106種不同工況, 這樣分組結(jié)果也許某些組中會有幾百條甚至更多的數(shù)據(jù),其他的數(shù)據(jù)忽略,這樣就能有效防止數(shù)據(jù)冗余。經(jīng)過工況劃分后的數(shù)據(jù)不一定將所有工況全部填滿,并且可能有些工況的數(shù)據(jù)量過少,避免影響計算結(jié)果刪除不具有代表性的數(shù)據(jù)。隨著機(jī)組運行參數(shù)的不斷積累,工況劃分各工況中的數(shù)據(jù)不斷完善。模糊C-均值聚類算法不僅具有快速簡潔,并且避免劃分過硬等問題。
綜上所述,本文使用模糊C-均值聚類算法在進(jìn)行電廠生產(chǎn)過程的工況劃分,對每個參數(shù)進(jìn)行劃分成相似的工況簇,該方法克服了傳統(tǒng)聚類算法的硬劃分和不穩(wěn)定等缺點,具有更好的劃分效果。機(jī)組運行工況劃分對以后的電站數(shù)據(jù)挖掘優(yōu)化目標(biāo)值和機(jī)組運行參數(shù)優(yōu)化等生產(chǎn)實踐有一定參考價值。同時為挖掘電站設(shè)備的節(jié)能潛力以及耗差分析、指導(dǎo)運行和維修提供依據(jù)和有利的前提條件。
(1)對各參數(shù)進(jìn)行相關(guān)性分析,根據(jù)相關(guān)性系數(shù)的判定,最終篩選出與機(jī)組能耗具有較強(qiáng)關(guān)聯(lián)性的6組參數(shù):負(fù)荷、循環(huán)水入口溫度、主蒸汽溫度、再熱蒸汽溫度、主蒸汽壓力、循環(huán)水流量。
(2)利用模糊C-均值算法對與機(jī)組能耗具有較強(qiáng)關(guān)聯(lián)性的6個參數(shù)進(jìn)行工況劃分,將每個參數(shù)劃分為10組,最終得出106個不同工況。最后將分組后的數(shù)據(jù)重新組合,得到了能全面反映設(shè)備特性和運行特性的工況,為后續(xù)建模及參數(shù)優(yōu)化提供了有代表性的數(shù)據(jù)。
(3)計算結(jié)果表明,模糊C-均值聚類方法在機(jī)組工況劃分中取得較好的效果。另外對以后的數(shù)據(jù)挖掘電站優(yōu)化目標(biāo)值和機(jī)組運行參數(shù)優(yōu)化等具有一定實踐價值。該方法不僅有效地解決了數(shù)據(jù)劃分過硬的問題,而且使得機(jī)組運行工況的構(gòu)建可行性更強(qiáng)。
[1]李正哲,馬燕峰,婁雅融,等.基于電力節(jié)能減排雙目標(biāo)調(diào)度優(yōu)化模型及方法的研究[J].電力科學(xué)與工程,2012,28(6):44-50.
[2]王寧玲.基于數(shù)據(jù)挖掘的大型燃煤發(fā)電機(jī)組節(jié)能診斷優(yōu)化理論與方法研究[D].北京:華北電力大學(xué), 2011.
[3]王惠杰, 張春發(fā), 宋之平.火電機(jī)組運行參數(shù)能耗敏感性分析[J].中國電機(jī)工程學(xué)報, 2008, 28(29):6-10.
[4]宋小敏, 張國防, 邢淑蘭,等.基于數(shù)據(jù)挖掘的課程相關(guān)性分析方法[J].山西財經(jīng)大學(xué)學(xué)報, 2012,34(3):240-241.
[5]馬瑞, 康仁, 羅斌,等.基于改進(jìn)主成分分析法的火電機(jī)組能耗特征識別方法[J].電網(wǎng)技術(shù),2013, 37(5):1196-1201.
[6]楊婷婷, 曾德良, 劉吉臻,等.基于工況劃分的火電機(jī)組運行優(yōu)化規(guī)則提取[J].華北電力大學(xué)學(xué)報(自然科學(xué)版), 2009, 36(6):64-68.
[7]翟少磊, 黃孝彬, 劉吉臻.基于工況劃分的電廠經(jīng)濟(jì)性指標(biāo)挖掘[J].中國電力, 2009, 42(7):68-71.
[8]王秋平, 陳志強(qiáng), 魏浩.基于數(shù)據(jù)挖掘的電站運行參數(shù)目標(biāo)值優(yōu)化[J].電力科學(xué)與工程, 2015,31(7):19-24.
[9]LI J Q, NIU C L, LIU J Z.Application of data mining technique in optimizing the operation of power plants[J].Journal of Power Engineering, 2006, 26(6):830-835.
[10]HAN J, KAMBEER M, KAMBER M.Data mining: Concepts and techniques [J].Morgan Kaufmann Publishers, 2006, 5(4):394-395.
[11]石琴, 仇多洋, 吳靖.基于主成分分析和FCM聚類的行駛工況研究[J].環(huán)境科學(xué)研究, 2012, 25(1):70-76.
[12]張建鼎.電站輔機(jī)運行參數(shù)劣化分析的研究[D].北京:華北電力大學(xué), 2011.
[13]王開明, 束洪春, 曹立平,等.基于相關(guān)性分析的OLTC運行狀態(tài)評價方法研究[J].電力系統(tǒng)保護(hù)與控制,2015,43(19):54-59.
[14]劉寶玲, 何鈞.基于數(shù)據(jù)挖掘及SIS的工況劃分方法研究[J].南昌工程學(xué)院學(xué)報, 2009, 28(6):36-39.
[15]王寧玲, 楊勇平, 楊志平.多變邊界條件下火電機(jī)組能耗基準(zhǔn)狀態(tài)診斷[J].中國電機(jī)工程學(xué)報, 2013,33(26):1-7.
[16]孫曉霞, 劉曉霞, 謝倩茹.模糊C-均值(FCM)聚類算法的實現(xiàn)[J].計算機(jī)應(yīng)用與軟件, 2008, 25(3):48-50.
Research on Fuzzy C-mean Clustering Algorithm Based on Power Plant Operating Conditions
WANG Huijie1, LI Xinxin1, XU Xiaogang1, WANG Pin2
(1.School of Energy and Power Engineering, North China Electric Power University, Baoding 071003,China;2.Dalian Power Generation Co., Ltd.,Dalian 116021, China)
Thermal power unit produces a large number of historical data during the operation process, and the currently used methods for data analysis classify these historical data and carry out statistics in a rather simple way, which cannot reveal the hidden rules beneath these data.The correlation analysis is applied for the study of real-time data for a power plant.Some parameters, such as the load, circulating water entrance temperature, main steam temperature, reheat steam temperature, steam pressure, and circulating water flow, are selected and considered as important ones who have great influence on the energy consumption of the unit.Then, the related theory of fuzzy C- mean clustering algorithm and its application are introduced, and by using this method, six parameters mentioned above are divided according to the working condition.The results obtained during practical application show that during the reasonable working condition division and data clustering process, fuzzy C- means clustering algorithm works and is of great significance to the optimization of the operation and energy saving of the group.
heat consumption rate; correlation coefficient; working condition classification; fuzzy C- means clustering
2016-07-19。
中央高?;究蒲袠I(yè)務(wù)費專項基金資助項目(12NQ40)。
王惠杰(1979-),男,副教授,主要從事能源利用節(jié)能技術(shù)、熱力發(fā)電廠系統(tǒng)、設(shè)備及運行節(jié)能在線監(jiān)測等工作,E-mail:ncepuwhj@163.com。
TK01+8
A
10.3969/j.issn.1672-0792.2016.11.010