孫鶴旭,孫澤賢,林 濤
(河北工業(yè)大學 控制科學與工程學院,天津 300130)
數(shù)據(jù)挖掘技術(shù)在風電機組故障診斷中的應用
孫鶴旭,孫澤賢*,林 濤
(河北工業(yè)大學 控制科學與工程學院,天津 300130)
針對傳統(tǒng)的故障診斷方式已經(jīng)不能滿足風電故障系統(tǒng)實時性、準確性的要求,提出了基于Hadoop框架,并結(jié)合粗糙集屬性約簡以及Apriori算法共同處理分析風電機組監(jiān)測數(shù)據(jù),進而實現(xiàn)快速、準確地診斷風機故障的方法:首先利用屬性約簡減小數(shù)據(jù)規(guī)模,剔除冗余屬性項;之后通過MapReduce框架改進Apriori算法,提高數(shù)據(jù)挖掘效率,降低時間和空間復雜度.實驗表明:該算法在保證診斷準確率的前提下,具有良好的性能,也證明了該算法的有效性和可行性.
故障診斷;Hadoop框架;屬性約簡;Apriori算法
近年來,風能作為清潔能源在改善中國能源結(jié)構(gòu)方面發(fā)揮著越來越重要的作用[1].由于風電場自身的特殊性及負荷的不穩(wěn)定性,對風電場的安全性和經(jīng)濟效益都產(chǎn)生了極大影響.因此,對風電機組故障診斷的實時性、準確性提出了很高的要求.然而,不同廠商的風機所采集的數(shù)據(jù)類型、位數(shù)、存儲格式有較大差異,這就形成了海量、異構(gòu)、多源的風電機組狀態(tài)監(jiān)測大數(shù)據(jù).文獻[2]結(jié)合遺傳算法和FP-Growth算法,通過MapReduce并行計算框架,大大提高了頻繁項集挖掘算法的運行效率.文獻[3]利用粗糙集的屬性約簡以及改進的C4.5算法實現(xiàn)了對掘進機的故障診斷,然而由于風電監(jiān)控數(shù)據(jù)自身具有屬性項繁多,存在大量的冗余數(shù)據(jù)的缺陷,并且C4.5算法在構(gòu)建樹的過程中,需要重復掃描數(shù)據(jù)集.因此,C4.5算法并不適合用于風電機組的故障診斷.文獻[4]首先通過屬性約簡降低數(shù)據(jù)維度,進而在MapReduce框架下實現(xiàn)對汽輪機組運行性能的優(yōu)化;然而,由于其仍采用傳統(tǒng)的串行屬性約簡方法,導致在面對海量數(shù)據(jù)時會降低算法的整體運行性能.文獻[5]通過屬性約簡和值約簡自動提取電網(wǎng)報警規(guī)則,但其只是實現(xiàn)了報警信息處理的初步智能化,并沒有挖掘多維數(shù)據(jù)隱藏的內(nèi)在關聯(lián)關系.文獻[6]采用K鄰近度異常檢測技術(shù),提取故障診斷信息.文獻[7]提出一種基于導數(shù)分析的的定子單相電流故障特征分析方法,此方法能夠有效地判斷不平衡故障的程度.
針對以上問題,本文提出了結(jié)合粗糙集理論的屬性約簡和Apriori的組合思想,減小了挖掘數(shù)據(jù)的維度,降低了時間和空間復雜度,提高了算法整體性能;同時,利用MapReduce并行計算框架,對屬性約簡和Apriori算法各個步驟并行化,不僅提高了挖掘效率,而且減少了內(nèi)存消耗.
1.1 Apriori算法的不足及改進措施
目前,關于風機的整體運行狀態(tài)的監(jiān)測多采用風電機組數(shù)據(jù)采集與監(jiān)視控制(SCADA)系統(tǒng),多傳感器對風機的各特征量(電流、電壓、溫度等)進行數(shù)據(jù)采集,構(gòu)成了風機運行大數(shù)據(jù),屬性項的數(shù)量很大;傳統(tǒng)的Apriori算法面對海量數(shù)據(jù)時存在兩方面的不足,一方面,Apriori算法在運行時會產(chǎn)生大量的候選集及多次掃描事務數(shù)據(jù)庫.并且挖掘出的關聯(lián)規(guī)則結(jié)果僅包含若干個屬性項,由此可知,只有少數(shù)的屬性項參與到核心的挖掘工作.由于無效屬性的存在,運行Apriori算法會生成大量的冗余候選集,進而造成了極大的資源浪費.另一方面,傳統(tǒng)的Apriori算法是單節(jié)點上的串行計算,面對海量數(shù)據(jù)會存在著內(nèi)存不足等導致的運行速率較慢的情況;針對規(guī)模和數(shù)量呈現(xiàn)指數(shù)級增長的數(shù)據(jù),如何對層次化的故障原因、故障影響展開快速分析,獲得較為全面的故障知識信息庫已經(jīng)成為風機故障診斷領域亟待解決的問題.
針對這兩點不足,本文結(jié)合云計算環(huán)境下的Hadoop平臺,基于MapReduce并行化結(jié)構(gòu)改進Apriori算法,使之滿足并行化計算要求;并引入粗糙集理論中的屬性約簡理念,篩選出與關聯(lián)規(guī)則無關的屬性項并將之刪除,減小事務數(shù)據(jù)庫規(guī)模.經(jīng)過以上改進,形成了一個基于Hadoop平臺的高效關聯(lián)規(guī)則算法:MpApriori算法.相較于傳統(tǒng)的Apriori算法,MpApriori算法減少了屬性項的數(shù)量,避免了多次重復檢索數(shù)據(jù)庫,降低了關聯(lián)規(guī)則挖掘的時間和空間復雜度,提高了挖掘效率.
1.2 粗糙集及屬性約簡
定義1 設風機故障決策信息表S=(U,A,V,f)為一個故障知識表達系統(tǒng),其中U為數(shù)據(jù)對象的非空有限集合,即論域;A表示屬性的非空有限集合,A=C∪D,C∩D=?,C為條件屬性,D稱為決策屬性;V表示屬性值的集合,且V1是屬性Ai的值域;f表示信息函數(shù),又稱CD決策表.
定義2 若非空屬性子集C?A時,稱C的不可區(qū)分關系IND(C)是U上的等價關系,其中:
IND(C)={(x,y)∈U2|?a∈C,f(x,a)=
f(y,a)}.
(1)
定義3 設S=(U,A,V,f)是一個信息系統(tǒng),a∈A是一個屬性,如果屬性集A-{a}與屬性集A的區(qū)分能力相同,則稱屬性a是不必要的,否則稱a是必要的.如果任意a∈A都是必要的,則稱A是獨立的,否則稱A是依賴的.A中所有必要的屬性集合稱為A的核,即為CORE(A).
定義4 設S=(U,A,V,f)是一個決策表,D的C正域記作POSC(D),定義為:
(2)
1.3 MpApriori算法工作流程
MpAriori算法劃分為兩大部分:第1部分,基于MapReduce技術(shù)的風電大數(shù)據(jù)屬性約簡;第2部分,Apriori算法的并行化處理.本文首先利用Hadoop平臺實現(xiàn)了風電大數(shù)據(jù)屬性約簡,通過結(jié)合MapReduce并行處理框架,不僅能夠高效的進行屬性約簡計算,而且具有良好的可擴展性;對事務數(shù)據(jù)庫進行屬性約簡之后,實現(xiàn)Apriori算法的并行化;相對于傳統(tǒng)的Apriori算法,MpApriori算法減少了數(shù)據(jù)庫的屬性數(shù)量,避免了重復檢索數(shù)據(jù)庫,降低了算法運行的時間、空間復雜度,提高了挖掘效率.
1.3.1 基于MapReduce技術(shù)的風電大數(shù)據(jù)屬性約簡
假設將風場的海量數(shù)據(jù)集中報警信息視為一個知識表達系統(tǒng),將遙信信號作為條件屬性集合C,利用MapReduce和可辨識矩陣進行屬性約簡,去掉無用的、冗余的屬性,進而可以得到更有利于決策的規(guī)則.MapReduce作為一種并行計算模式,使屬性約簡能夠滿足并行化計算要求,算法流程圖如圖1所示.
圖1 屬性約簡流程圖Fig.1 Flowchart of the attribute reduction
對于給定的決策表S=(U,A,V,f),通過結(jié)合MapReduce和可辨識矩陣進行屬性約簡的步驟如下.
(1)構(gòu)建可辨識矩陣.將決策表數(shù)據(jù)分為m部分,Hadoop為每一個部分構(gòu)建一個map任務.定義每一個矩陣元素的值,map輸出
(2)篩選核屬性集.在reduce階段判斷key值包含元素個數(shù),篩選出只包含一個元素的key值,并將其作為結(jié)果的key值輸出,輸出結(jié)果即為決策表的核屬性集,表示為C0;value值即為map階段構(gòu)建的可辨識矩陣.
(4)提取核屬性集合的補集.將第(1)步得到的可辨識矩陣橫向分割為m個部分,每一個Mi(i=1,2,…,m)對應一個map任務,找出與核屬性集合c0相交為空的集合Ei,即Ei∩c0=?,map輸出
(3)
(6)得到屬性約簡結(jié)果.首先對P和L進行合取運算得到P′,其中P′=P∧L;之后提取P′析取范式:P′=∨Q,即P′=Q1∨Q2∨Q3……∨Qk;其中,Qi中包含的條件屬性就是決策表屬性約簡后的一個結(jié)果.
1.3.2Apriori算法的并行化實現(xiàn)
在對事務數(shù)據(jù)庫進行屬性約簡之后,再將Apriori算法結(jié)合MapReduce并行計算框架,形成一個基于云計算的高效關聯(lián)規(guī)則算法.算法的整體流程圖如圖2所示.
圖2 Apriori算法并行化流程圖Fig.2 Flowchart of the parallel Apriori algorithm
(1)將事務數(shù)據(jù)庫轉(zhuǎn)換成決策集的形式,進行屬性約簡計算,減小數(shù)據(jù)規(guī)模,形成新的數(shù)據(jù)集.
(2)分解新的數(shù)據(jù)集為N個規(guī)模大致相同的子集,并隨機分配到Hadoop的工作節(jié)點上.
(3)Map階段,借鑒MapReduce實現(xiàn)的經(jīng)典wordCount算法,在每一個節(jié)點處掃描對應的數(shù)據(jù)庫子集,運行Apriori算法得到部分k項候選集,輸出鍵值對
(4)Reduce階段,接收Map階段生成的鍵值對
(5)比較全局k項候選集的支持度和最小支持度閾值,篩選出k項頻繁項集.
(6)重復(3)~(5)步,通過k項頻繁項集篩選(k+1)項頻繁項集.
(7)多次迭代計算后,得到最終頻繁項集,并計算其置信度與最小置信度比較得到最強關聯(lián)規(guī)則.
融合粗糙集和Apriori算法,主要是利用粗糙集的屬性約簡算法和Apriori算法挖掘信息內(nèi)在規(guī)律的特點,并結(jié)合MapReduce并行計算框架以提高整體故障規(guī)則挖掘效率,節(jié)省了帶寬、內(nèi)存等資源的消耗,步驟如圖3所示.
圖3 風電機組故障診斷過程Fig.3 the process of malfunction diagnosis on the wind turbogenerator
2.1 數(shù)據(jù)預處理
風電機組的負荷、運行參數(shù)、性能指標隱藏著復雜的內(nèi)在關系,這些關系包含著大量的信息,挖掘這些關系并將其定量化,進而進行準確、實時的風電機組故障診斷.論文研究基于某風場的歷史數(shù)據(jù),通過風機上傳的遙信信號作為條件屬性構(gòu)成條件屬性集合C={A,B,C,D,E,F,G},其中條件屬性A表示發(fā)電機定子溫度,B表示母線電壓越限,C表示母線電壓越限回復,D表示風機變頻器開關跳閘,E表示風機變頻器開關閉合,F(xiàn)表示刀閘變位開,G表示刀閘變位合.假設將風電機組報警類型作為決策屬性集合D=j5i0abt0b,決策屬性d的屬性值如下:
1:發(fā)電機定子溫度告警
2:電壓越限報警
3:開關變位報警
4:開關變位,電壓越限報警
5:開關拒動報警
6:無報警
收集某風場部分報警信息實例組成對象集合U={E1,E2,…,E20},形成表1所示的決策表系統(tǒng).
表1 決策表系統(tǒng)
依據(jù)本文介紹的屬性約簡步驟,計算決策表的可辨識矩陣,由于可辨識矩陣是對角線對稱矩陣;因此,在屬性約簡的過程中,本文將可辨識矩陣轉(zhuǎn)換為上三角矩陣,如式(4)所示:
(4)
在式(4)中包含的條件屬性組成的組成核屬性集合為C0={A,B,C,D,E},再利用MapReduce框架進行合取、析取運算,進而得到約簡后的條件屬性集為{A,B,C,D,E},其他的屬性為冗余屬性.去除冗余屬性后,約簡后的決策表如表2所示.
表2 屬性約簡后的決策表
2.2 算法應用及結(jié)果
采用改進的Apriori算法對所選的數(shù)據(jù)進行數(shù)據(jù)挖掘工作,數(shù)據(jù)預處理之后,選取的7個條件屬性約簡為5個,減小了數(shù)據(jù)規(guī)模.在Hadoop平臺上,設置最小支持度為20%,最小置信度為80%,依據(jù)MPApriori算法流程對所選故障數(shù)據(jù)進行挖掘工作,以尋求強關聯(lián)規(guī)則,進而得到更加準確的故障診斷結(jié)果.
本文隨機選擇GE、聯(lián)合動力、遠景的3種型號風機,選取2014年2月1日至2015年2月1日的部分連續(xù)數(shù)據(jù)進行試驗.所要診斷的故障主要分為4個故障狀態(tài),即發(fā)電機定子故障、開關變位故障、開關拒動故障、電壓越限故障,以及一個正常狀態(tài),分別編號為C1至C5;實驗分別在單機環(huán)境和并行化環(huán)境同時進行,多次實驗取平均值進行對比.總的來說,采用傳統(tǒng)的Apriori算法進行串行執(zhí)行的故障診斷和并行化的結(jié)果基本一致,但在運行效率上,并行化取得了很大的提高.整體運行結(jié)果如表3、表4所示.
表3 診斷結(jié)果
表4 測試時間對比
由表4可知,由于Hadoop框架需要多次重復迭代的特點,在面對小數(shù)據(jù)集的情況下,算法執(zhí)行效率反而不及單機運行;在面對大數(shù)據(jù)集時,傳統(tǒng)串行算法產(chǎn)生的候選集數(shù)量過大,造成了運行效率的大大降低;然而,借助于MapReduce框架的并行計算優(yōu)勢,Hadoop集群使得算法的運行效率得到了極大的提高.
針對大數(shù)據(jù)環(huán)境下風電機組故障診斷的準確性和實時性的要求,本文設計了基于當前主流大數(shù)據(jù)技術(shù)的風機故障診斷算法—MPApriori算法,利用MapReduce并行計算框架,結(jié)合粗糙集的屬性約簡和Apriori算法,加速風電機組故障診斷的過程和數(shù)據(jù)處理的效率,降低了時間和空間復雜度.實驗證明,本文提出的方法在充分保證故障診斷正確率的基礎上,顯示出了較高的運算性能,滿足海量監(jiān)測數(shù)據(jù)下,可以滿足風電機組故障診斷對實時性和準確性的要求.
[1] 張少敏,毛 冬,王保義.大數(shù)據(jù)處理技術(shù)在風電機組齒輪箱故障診斷與預警中的應用[J].電力系統(tǒng)自動化,2016(14):129-134.
[2] 孫鶴旭,孫澤賢,林 濤.基于云計算的最大頻繁項集挖掘算法[J].中南民族大學學報(自然科學版),2016(03):102-106.
[3] 張?zhí)烊?于天彪,趙海峰,等.數(shù)據(jù)挖掘技術(shù)在全斷面掘進機故障診斷中的應用[J].東北大學學報(自然科學版),2015(04):527-531+541.
[4] 萬 祥,胡念蘇,韓鵬飛,等.大數(shù)據(jù)挖掘技術(shù)應用于汽輪機組運行性能優(yōu)化的研究[J].中國電機工程學報,2016(02):459-467.
[5] 晁 進,劉文穎,劉勇智,等.基于粗糙集理論的電網(wǎng)報警規(guī)則自動提取與應用[J].電力系統(tǒng)保護與控制,2011(08):95-99.
[6] 顧煜炯,宋 磊,徐天金,等.變工況條件下的風電機組齒輪箱故障預警方法[J].中國機械工程,2014(10):1346-1351+1405.
[7] 李 輝,楊 東,楊 超,等.基于定子電流特征分析的雙饋風電機組葉輪不平衡故障診斷[J].電力系統(tǒng)自動化,2015(13):32-37.
Application of Data Mining Technology in Fault Diagnosis of Wind Turbogenerator
Sun Hexu,Sun Zexian,Lin Tao
(Institute of Control Science and Engineering , Hebei University of Technology , Tianjin 300130, China)
The traditional fault diagnosis method can not meet the requirements of the real-time and accuracy of the system. To solve this problem ,the paper introduced the attribute reduction in rough set theory, and then improved the classical Apriori association rules on the MapReduce framework. The algorithm improved the efficiency of data mining, reduced the complexity of time and space. Experimental results show that the algorithm has good performance and speedup ratio, and it also proves the validity and feasibility of the algorithm.
fault diagnosis ;Hadoop ; attribute reduction ;Apriori
2016-06-30 *通訊作者 孫澤賢, 研究方向:數(shù)據(jù)挖掘、云計算, E-mail:1249226957@qq.com
孫鶴旭(1956-),男,教授,博導,研究方向:自動化領域,E-mail:shx13682168380@sina.com
天津市科技支撐項目(14ZCDZGX00818).
TP3
A
1672-4321(2016)04-0081-05