高 瑜, 仝衛(wèi)國
(華北電力大學(xué) 控制與計算機工程學(xué)院,河北保定071003)
?
基于關(guān)聯(lián)規(guī)則的一次風(fēng)機故障預(yù)警方法研究
高瑜, 仝衛(wèi)國
(華北電力大學(xué) 控制與計算機工程學(xué)院,河北保定071003)
為了減少發(fā)電廠設(shè)備故障造成的損失和降低檢修費用,基于DCS數(shù)據(jù)庫中的大量運行數(shù)據(jù),利用關(guān)聯(lián)數(shù)據(jù)挖掘的方法發(fā)現(xiàn)一次風(fēng)機各測量量之間隱藏的關(guān)系,建立關(guān)聯(lián)規(guī)則庫,通過當(dāng)前運行數(shù)據(jù)與規(guī)則庫的匹配程度,判斷設(shè)備是否處于故障形成過程,從而達到故障預(yù)警的目的。實驗結(jié)果表明,該方法能夠在設(shè)備故障形成早期及時發(fā)現(xiàn)問題,提前報警,進而證明基于運行數(shù)據(jù)的關(guān)聯(lián)規(guī)則,可以準(zhǔn)確地反映一次風(fēng)機各測量量之間的關(guān)系,并在故障預(yù)警中達到良好的效果。
電廠;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;故障;預(yù)警
關(guān)聯(lián)規(guī)則是指從大量的,看似沒有關(guān)系的數(shù)據(jù)中發(fā)現(xiàn)潛藏在數(shù)據(jù)多個屬性之間的相互關(guān)聯(lián)或者某種規(guī)律,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是數(shù)據(jù)挖掘中最重要的任務(wù)之一[1]?;痣姀SDCS數(shù)據(jù)庫中蘊含著大量的機組運行數(shù)據(jù),而這些數(shù)據(jù)中隱藏著大量不為人所知的知識,關(guān)聯(lián)規(guī)則即是設(shè)備各測點之間隱含的耦合關(guān)系,當(dāng)故障開始形成時,這種關(guān)系就逐漸被打破。據(jù)此,本文旨在運用數(shù)據(jù)挖掘的方法,發(fā)現(xiàn)蘊藏在大量數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,從而利用關(guān)聯(lián)規(guī)則建立設(shè)備故障預(yù)警模型,并驗證關(guān)聯(lián)規(guī)則在設(shè)備預(yù)警中的有效性。DCS數(shù)據(jù)庫中各測點均為數(shù)量型屬性,本文采用CA算法將數(shù)量型屬性劃分成若干個優(yōu)化的區(qū)間,從而達到將數(shù)量型屬性離散化的目的[2],然后用經(jīng)典的Apriori挖掘算法發(fā)現(xiàn)頻繁項集并挖掘關(guān)聯(lián)規(guī)則。再利用所挖掘出的關(guān)聯(lián)規(guī)則建立預(yù)警模型,并驗證本文所提出的預(yù)警方法的有效性。本文采集了某電廠1號一次風(fēng)機的歷史運行數(shù)據(jù)作為研究對象。
布爾型關(guān)聯(lián)規(guī)則″W?Z″的支持率定義為:
其中,Support(W∪Z)為數(shù)據(jù)庫所有記錄中包含W∪Z的記錄個數(shù),稱為W∪Z的支持數(shù);n為數(shù)據(jù)庫的記錄總條數(shù)。即支持率代表事物在所有記錄中出現(xiàn)的頻率。
布爾型關(guān)聯(lián)規(guī)則″W?Z″的信任度定義為:
即信任度代表某事物在已經(jīng)發(fā)生的事務(wù)中出現(xiàn)的條件概率。
滿足給定的最小支持率(minSup)和最小信任度(minConf)條件的關(guān)聯(lián)規(guī)則稱為有意義的關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的挖掘問題就是要從數(shù)據(jù)庫的記錄中找出有意義的關(guān)聯(lián)規(guī)則。
Aprori算法是一種廣度優(yōu)先算法,用來產(chǎn)生頻繁項集。通過對數(shù)據(jù)庫T的多次掃描來發(fā)現(xiàn)所有的頻繁屬性集,在每一次掃描中只考慮包含相同屬性個數(shù)的所有集合(含有k個屬性的集合稱為k-屬性集)。在第1次掃描中,Apriori算法計算I中所有屬性的支持度,生成所有1-頻繁屬性集L1;然后根據(jù)L1確定2-候選屬性集的集合C2,從C2找出所有2-頻繁屬性集L2;然后再根據(jù)L2確定3-候選屬性集的集合C3,從C3找出所有3-頻繁屬性集L3;如此下去直到不再有候選屬性集產(chǎn)生。算法中采用任何非(k-1)-頻繁屬性集都不可能是k-頻繁屬性集的子集這樣一個性質(zhì)修剪候選屬性集,有效地減少了候選集支持數(shù)的計算量,同時還引入散列樹來有效地計算每個屬性集的支持數(shù)[3]。
本文選取了某電廠1號一次風(fēng)機20個測量量作為關(guān)聯(lián)變量,從DCS數(shù)據(jù)庫中導(dǎo)出該一次風(fēng)機自2013年8月至2014年3月的歷史記錄,經(jīng)數(shù)據(jù)預(yù)處理后將各測點采樣間隔統(tǒng)一為5 s,選取其中5 000組運行數(shù)據(jù)組成待挖掘數(shù)據(jù)庫,測量量信息及數(shù)據(jù)形式如表1、表2所示,都是連續(xù)型屬性,如溫度、壓力、振動等。而Apriori算法針對的是離散型數(shù)據(jù),要求每個測量量的取值是有限個,因此,需要將連續(xù)型屬性離散化。當(dāng)屬性的取值連續(xù)變化時,將其劃分為若干個區(qū)間,然后將每個區(qū)間映射為一個值,這樣一個連續(xù)的量就變?yōu)橛邢迋€取值。為此,可以用聚類的方法將連續(xù)量劃分為若干個區(qū)間,并要求這些區(qū)間能有效反應(yīng)數(shù)據(jù)的實際分布情況。
2.1區(qū)間劃分方法
聚類算法主要分為兩大類:硬聚類與模糊聚類。硬聚類有層次凝聚算法、C-均值算法和球型C-均值算法等。模糊聚類算法有FCM算法、關(guān)系模糊C-均值算法(RFCM)、模糊競爭凝聚算法(CA)和FC-MDE算法等。
表1 測量量信息
表2 部分測量數(shù)據(jù)
C-均值和球型C-均值等硬聚類算法,是基于某一目標(biāo)數(shù)據(jù)只能被劃分到一個類而展開的。例如,C-均值算法可以根據(jù)數(shù)據(jù)的實際分布情況將連續(xù)型屬性離散化成若干個區(qū)間,但C-均值算法的類個數(shù)是預(yù)先給定的,在迭代過程中不再改變,因此聚類個數(shù)依賴于人的經(jīng)驗。
本文采用模糊聚類算法將連續(xù)型屬性劃分成若干個優(yōu)化的區(qū)間,CA算法(競爭凝聚算法)綜合了分層聚類與劃分聚類的優(yōu)點,對于預(yù)先給定的不同類個數(shù),能夠隨著迭代過程不斷改變類的數(shù)目,一些競爭力差的類在迭代過程中不斷消失,并最終得到能夠有效地體現(xiàn)數(shù)據(jù)的實際分布情況的優(yōu)化聚類個數(shù),從而將連續(xù)型屬性離散化成若干個優(yōu)化的區(qū)間[4]。
2.2區(qū)間劃分過程
CA算法將記錄在連續(xù)型屬性“一次風(fēng)機A相電流”上的取值劃分成c個區(qū)間:把“一次風(fēng)機A相電流”的所有取值放在一起作為數(shù)據(jù)集Y,用CA算法對Y進行聚類,迭代過程中不斷改變劃分矩陣U和聚類中心,矩陣U中每一行的元素即是Y中的每一個取值分別在c個模糊集上的隸屬度。根據(jù)最大隸屬度原則將Y中的元素聚成c類,并取出類中最小、最大的值作為區(qū)間的左右端點,這樣“一次風(fēng)機A相電流”就被離散化為12個優(yōu)化的區(qū)間。20個測點通過CA算法劃分得到的優(yōu)化區(qū)間個數(shù)分別為:9,5,9,20,16,12,9,11,20,11,5,7,7,9,15,13,11,10,20,13。
給每一個測量量對應(yīng)的所有區(qū)間從小到大編號,例如“一次風(fēng)機入口調(diào)節(jié)檔板開度”的9個優(yōu)化區(qū)間分別編號1-9,這樣所采集到的“一次風(fēng)機入口調(diào)節(jié)檔板開度”每個數(shù)據(jù)就映射到這9個區(qū)間中,另外,鑒于數(shù)據(jù)挖掘的需要,20個測量量的區(qū)間要加以區(qū)分,故將20個測量量的序號體現(xiàn)在最終的待挖掘數(shù)據(jù)庫中。例如,“一次風(fēng)機入口調(diào)節(jié)檔板開度”為55.66,即該值落在1號測量量“一次風(fēng)機入口調(diào)節(jié)檔板開度”的第4個區(qū)間,故將該數(shù)據(jù)記為104。同樣,將20個測量量的數(shù)據(jù)全部轉(zhuǎn)變?yōu)樵摲N形式。
最終得到如表3所示的離散化數(shù)據(jù)庫。
表3 離散化數(shù)據(jù)庫
3.1minSup與minConf的選取及規(guī)則庫的建立
為了使挖掘出的規(guī)則準(zhǔn)確地表達一次風(fēng)機各測點之間的關(guān)系,minSup與minConf的選取是關(guān)鍵。本文采用匹配率作為評價在某一組minSup與minConf參數(shù)下關(guān)聯(lián)規(guī)則的準(zhǔn)確性的指標(biāo),并通過多組實驗,找到一組最佳的minSup與minConf作為最終故障預(yù)警規(guī)則庫的挖掘參數(shù)。
用5 000組訓(xùn)練數(shù)據(jù)與規(guī)則庫進行匹配,匹配率mr=k1/k2×100%,其中k1為該組數(shù)據(jù)符合的關(guān)聯(lián)規(guī)則總數(shù),k2為只符合規(guī)則前件而不符合規(guī)則后件的規(guī)則數(shù),mr即表示規(guī)則庫對該組數(shù)據(jù)的適用性。mr越大,表示規(guī)則更正確地反映了該組數(shù)據(jù)各屬性的內(nèi)在聯(lián)系。同理,用所有訓(xùn)練數(shù)據(jù)的匹配率均值mean來表達規(guī)則庫對訓(xùn)練數(shù)據(jù)的平均匹配程度。同時,用各組數(shù)據(jù)匹配率的方差variance來表達規(guī)則庫適用于訓(xùn)練數(shù)據(jù)的穩(wěn)定程度,方差小即表示規(guī)則很好的覆蓋所有運行數(shù)據(jù),并且匹配率波動不是很大。
通過觀察在不同minSup與minConf下均值與方差的變化,尋找一對最佳的minSup與minConf,作為挖掘算法的參數(shù)。實驗結(jié)果如圖1、圖2所示。
圖1 不同支持率下,匹配率均值與信任度的關(guān)系
由圖1、圖2,總體而言支持率數(shù)值越大、信任度越高,那么均值越大、方差越小,但支持率和信任度過大都會導(dǎo)致均值驟然降低、方差驟然升高。這是由于支持率和信任度過大導(dǎo)致規(guī)則數(shù)驟減,降低了規(guī)則庫的覆蓋率,也就是大量運行數(shù)據(jù)找不到與之相配的規(guī)則,反而使匹配率降低。支持率和信任度過小則會導(dǎo)致挖掘時間過長,且規(guī)則數(shù)過多,會拉低平均匹配率,也就是很多規(guī)則并不可信。另外,由于Apriori算法效率不高,需考慮挖掘過程的時間成本。表4為不同支持率下,尋找頻繁項集所用時間,支持率越小時,用時越長。據(jù)此,本文選擇minSup=2%,minConf=95%作為Apriori算法的參數(shù)。挖掘出的頻繁項集共計14 089條,關(guān)聯(lián)規(guī)則共計27 729條,部分頻繁項集及關(guān)聯(lián)規(guī)則形式如表5、表6所示。
支持率/支持數(shù)1%/502%/1003%/1504%/2005%/2506%/300時間/min>1000123261276
表5 部分頻繁項集
表6 部分關(guān)聯(lián)規(guī)則
對表5所列關(guān)聯(lián)規(guī)則進行解釋,例如第6條關(guān)聯(lián)規(guī)則的意思是:如果1號測量量(一次風(fēng)機入口調(diào)節(jié)檔板開度)取值落在第1個區(qū)間([34.14,41.02]),11號測量量(一次風(fēng)機后軸承溫度2)取值落在第1個區(qū)間([28.96,31.96]),18號測量量(一次風(fēng)機電動機定子線圈溫度4)取值落在第1個區(qū)間([69.86,73.60]),那么15號測量量(一次風(fēng)機電動機定子線圈溫度1)取值落在第1個區(qū)間([73.24,77.29]),16號測量量取值落在第1個區(qū)間([72.88,78.48])的可能性為98.88%。
3.2規(guī)則庫的有效性驗證
由挖掘出的所有規(guī)則組成規(guī)則庫,另外選取了風(fēng)機在2014年7月的一次故障報警前共5 019組數(shù)據(jù)(經(jīng)插值處理后各測量量時間間隔統(tǒng)一為5 s)進行規(guī)則庫的有效性驗證。為了避免因不確定因素及隨機干擾導(dǎo)致的實時數(shù)據(jù)偏離正常值,而產(chǎn)生誤報警,本文采用滑動窗口的統(tǒng)計方法。設(shè)窗口寬度為20,即把包括當(dāng)前匹配率在內(nèi)的前20組數(shù)據(jù)的匹配率取均值,作為當(dāng)前的匹配率。在實驗中,預(yù)警閾值選為80%。實驗結(jié)果如圖3。
圖3 實驗結(jié)果
由圖3,當(dāng)運行數(shù)據(jù)與規(guī)則庫的匹配率降至80%時即發(fā)生報警,較原有系統(tǒng)超限報警時間提前約2.5 h,有效地起到了預(yù)警作用。
故障往往是一個逐漸發(fā)生的過程,在故障早期,各測點值雖均未超限,但實際上設(shè)備各測點之間原有的關(guān)系正在被逐漸打破,不斷惡化。關(guān)聯(lián)規(guī)則即是設(shè)備在正常狀態(tài)下各測點之間關(guān)系的體現(xiàn),在故障形成的過程中,原本的關(guān)聯(lián)規(guī)則對當(dāng)前運行數(shù)據(jù)的適用性逐漸降低,直至低于閾值,發(fā)生報警。通過實驗,驗證了關(guān)聯(lián)規(guī)則在故障預(yù)警過程中的有效性,且該預(yù)警方法不依賴于任何有關(guān)設(shè)備的先驗知識,完全依靠歷史數(shù)據(jù)即可方便地建立設(shè)備的“預(yù)警模型”——關(guān)聯(lián)規(guī)則庫。當(dāng)各參數(shù)選擇恰當(dāng),該規(guī)則庫能夠準(zhǔn)確地體現(xiàn)設(shè)備的正常狀態(tài),故具備良好的預(yù)警效果。
[1]王鳳良, 富學(xué)斌, 許志銘.發(fā)電廠一次風(fēng)機異常振動故障診斷及處理[J].風(fēng)機技術(shù),2014(3):88-92.
[2]崔建,李強,吳瑕.大型數(shù)據(jù)庫的模糊關(guān)聯(lián)規(guī)則挖掘算法研究[J].計算機工程與設(shè)計,2011(10):3424-3427.
[3]郭康維.基于相似性建模的鍋爐一次風(fēng)機故障預(yù)警研究[D].保定:華北電力大學(xué),2014.
[4]郭嘉美.模糊關(guān)聯(lián)規(guī)則挖掘及在工業(yè)數(shù)據(jù)中的應(yīng)用[D].鄭州:鄭州大學(xué),2014.
[5]陸建江.模糊關(guān)聯(lián)規(guī)則的研究與應(yīng)用[M].北京:科學(xué)出版社,2008.
[6]高明.火電廠送風(fēng)機故障預(yù)警系統(tǒng)的研究[D].保定:華北電力大學(xué),2013.
[7]楊錫運,郭鵬,岳俊紅. 風(fēng)力發(fā)電機組故障診斷技術(shù)[M]. 北京:中國水利水電出版社,2015.
[8]朱彥廷.連續(xù)屬性的關(guān)聯(lián)規(guī)則挖掘[J].華中師范大學(xué)學(xué)報(自然科學(xué)版), 2013,47(2):178-180.
[9]魯緒閣,范云霄,錢抗抗.設(shè)備故障診斷技術(shù)綜述及其發(fā)展趨勢陰[J].礦山機械,2008,35(12):15-18.
[10]SIMON J W,XIANG B J,YANG W X.Condition monitoring of the power output of wind turbine generators using wavelets[J].IEEE Transactions on Energy Conversion,2010,25(3):715-721.
[11]AGRAWAL R, INIELINSKI T,SWAMI A. Database mining:A performance perspective[J].IEEE Transactions on Knowledge and Data Engineering, 1993, 5(6):914-925.
[12]周子煜,文麗書.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法探討[J]. 電子技術(shù)與軟件工程,2016(14):27-29.
Research of Method to Failure Prognostic of Primary Air Fan Based on Association Rules
GAO Yu,TONG Weiguo
(School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China)
Aiming at reducing the loss and cost caused by equipment failure, by using the method of data mining to find the hidden relationships among each measuring point of primary air fan, a collection of association rules basing on mass DCS operation data in the database are established. By judging the matching degree of the running current data with the rule base, the primary air fan state is analyzed and judged so as to achieve a goal of prognostic. The experimental results show that this method is able to find the problem and give an alarm in time. And then it proves that association rules based on the operation data can accurately reflect the relationship between each measuring point of the fan, and achieve good results in the early prognostic.
power plant; data mining; association rules; failure; prognostic
2016-05-31。
高瑜(1990-),男,碩士研究生,主要從事數(shù)據(jù)挖掘與故障預(yù)警方面的研究,E-mail:285640220@qq.com。
TM614
ADOI:10.3969/j.issn.1672-0792.2016.10.007