康建東,李 偉,張 雋,劉宇星,秦長鋒,胡建勇(中國電力科學研究院,100192;國網冀北電力有限公司,100053)
基于數(shù)據挖掘的電網故障診斷研究
康建東,李 偉,張 雋,劉宇星,秦長鋒,胡建勇
(中國電力科學研究院,100192;國網冀北電力有限公司,100053)
在實際電網故障診斷中,面臨如何從海量數(shù)據中找到所發(fā)生的連鎖故障之間的相互影響關系、以及一個故障發(fā)生可能引起其他故障發(fā)生的概率問題。本文研究內容是將數(shù)據挖掘技術中的聚類分析、關聯(lián)規(guī)則、貝葉斯網絡、綜合應用于電網故障的處理。首先應用聚類分析技術對電網的故障數(shù)據進行故障聚類,其次對數(shù)據進行關聯(lián)規(guī)則分析、發(fā)現(xiàn)故障之間的相互影響關系,再次基于貝葉斯網絡統(tǒng)計分析故障間相互影響的概率問題,最后結合以上分析結果給出輔助決策信息。
數(shù)據挖掘;ETL;電網故障;數(shù)據倉庫;關聯(lián)規(guī)則;聚類分析;貝葉斯網絡
隨著電網規(guī)模的不斷擴大,電網發(fā)生故障時會有大量的故障信息,這些信息被送入了調度中心,調度員應該快速分析故障特征,判斷故障設備并盡快恢復用戶供電。除了提高調度員自身的業(yè)務素質以外,國內科研機構也正在研究利用計算機輔助決策來提高故障的處理效率。如何從大量的故障信息中有效挖掘信息,從信息中及時發(fā)現(xiàn)知識,提供給調度員做出相應決策。針對這些問題本文基于數(shù)據挖掘技術對電網故障診斷進行研究,給出相應的輔助決策信息供調度員參考。
1)數(shù)據挖掘的概念
數(shù)據挖掘(Data Mining簡稱DM)就是從大量、不完全、有噪聲、模糊的或者隨機的數(shù)據中獲取有效的、新穎的、潛在有用的、最終可理解的信息和知識的過程。數(shù)據挖掘不是簡單的數(shù)據查詢和檢索,而是對數(shù)據的統(tǒng)計、分析、綜合和推理,為決策提供更多可用數(shù)據和判據。
2)數(shù)據挖掘的分析方法
數(shù)據挖掘的方法可粗分為:統(tǒng)計方法、機器學習方法、神經網絡方法和數(shù)據庫方法。統(tǒng)計方法可細分為:回歸分析、貝葉斯判別、聚類分析、探索性分析、以及模糊集、粗糙集、支持向量機等。機器學習可細分為:決策樹、基于范例的推理CBR、遺傳算法、貝葉斯信念網絡等。神經網絡方法可細分為:BP算法、自組織神經網絡等。
3)數(shù)據挖掘與傳統(tǒng)分析方法的區(qū)別
數(shù)據挖掘與傳統(tǒng)的數(shù)據分析(如查詢、報表、聯(lián)機應用分析)的本質區(qū)別是數(shù)據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據挖掘所得到的信息應具有先前未知,有效和實用三個特征。
監(jiān)控設備故障、通道故障等原因會照成電網設備的部分實時參數(shù)丟失或者錯誤,傳統(tǒng)的專家系統(tǒng)無法使用歷史數(shù)據中的規(guī)則進行分析,給出決策。因此要在大量的歷史數(shù)據中找到與當前故障最相近的模型非常困難。因此通過聚類分析、關聯(lián)規(guī)則和貝葉斯網絡進行綜合應用對電網故障進行有力的判據。
1.1 聚類分析對故障的分析
聚類分析是將物理的或者抽象的數(shù)據集合劃分為多個類別的過程,聚類之后的每個類別中任意兩個數(shù)據樣本之間具有較高的相似度,相似度可以根據數(shù)據樣本的描述屬性的具體取值來計算,通常采用數(shù)據樣本間的距離來表示。通過聚類分析來完成電網故障的相似度處理,進行故障的歸類,并可以作為關聯(lián)規(guī)則的預處理工作。
1.2 關聯(lián)規(guī)則對故障的分析
關聯(lián)規(guī)則是從歷史數(shù)據集合中發(fā)現(xiàn)不同數(shù)據項之間的相互影響關聯(lián)關系。下面就故障發(fā)生判斷故障的區(qū)域進行分析。
關聯(lián)規(guī)則定義:給定一組故障信息F={F1,F(xiàn)2,…,F(xiàn)m}、故障區(qū)域A={A1,A2,…,An},故障關聯(lián)規(guī)則是形如R:X => Y的蘊含式,其中X為規(guī)則的條件并且是F的模式,Y為規(guī)則的結果并且是A的模式。
如果通過關聯(lián)規(guī)則得到表達式為{F1,F(xiàn)2 => A1},既說明由故障F1,F(xiàn)2這些故障信息診斷得出故障區(qū)域是A1。
關聯(lián)規(guī)則的項集支持度:
其中support(X)描述項集X出現(xiàn)的概率
關聯(lián)規(guī)則的可信度:
綜合上述支持度和可信度指標進行判定故障之間的關聯(lián)關系結論的有用性。
1.3 貝葉斯網絡對故障的分析
貝葉斯網絡是以貝葉斯概率為理論基礎,最早起源于貝葉斯統(tǒng)計分析,它是概率理論和圖論相結合的產物。多用于專家系統(tǒng),成為不確定性知識和推理問題的流行方法。
貝葉斯網絡主要功能是預測和診斷,在貝葉斯網絡工作之前,需要對歷史數(shù)據進行訓練。
貝葉斯網絡的建立和訓練算法,首先把實際問題的事件抽象為節(jié)點,第二步建立兩個或者多個結節(jié)之間的連線。給定一個節(jié)點P,PS和QS分別表示節(jié)點的兩個狀態(tài)。從歷史數(shù)據中訓練出節(jié)點之間的條件概率和聯(lián)合條件概率,判斷故障發(fā)生相互影響的可能性概率。
條件概率:
聯(lián)合條件概率:
2.1 數(shù)據倉庫體系結構
電力系統(tǒng)故障數(shù)據倉庫的系統(tǒng)架構提出是為了簡化設計、建模、管理和實現(xiàn),用于描述各個模塊之間的相互關系。電力系統(tǒng)故障數(shù)據倉庫系統(tǒng)架構如圖1所示,數(shù)據源包括文件、數(shù)據庫、設備,是從EMS/SCADA、PMUs、GIS等系統(tǒng)中進行采集的。數(shù)據導入包括對數(shù)據抽取、轉換和加載,在轉換過程中對數(shù)據進行檢查和出錯處理。之后將數(shù)據加載到數(shù)據倉庫中并為后續(xù)業(yè)務提供服務。
2.2 ETL處理過程
應運專門的ETL工具對數(shù)據源進行數(shù)據的抽取、轉換、清洗、裝載到數(shù)據倉庫中。ETL工具實現(xiàn)的功能包括數(shù)據抽取和轉換裝載、源數(shù)據建立和數(shù)據倉庫建模。所以這些數(shù)據都保存到數(shù)據倉庫中,由于各個數(shù)據源采用不同的數(shù)據存儲形式,所以構建數(shù)據倉庫時必須通過ETL工具將這些數(shù)據按一定規(guī)則導入到數(shù)據倉庫中,來保證數(shù)據的一致性,達到綜合應用各種數(shù)據源的目的。
圖1 電力系統(tǒng)故障數(shù)據倉庫系統(tǒng)架構圖
1)數(shù)據抽取
數(shù)據倉庫中的大量歷史數(shù)據主要是從SCADA/EMS、MIS、DBMS、PUMs、GIS等系統(tǒng)中獲得。
2)數(shù)據轉換
數(shù)據轉換是更改數(shù)據的類型、大小、小數(shù)位數(shù)、精度或者字段為空性等。
轉換工具中提供相應的函數(shù)對數(shù)據的重新格式化、字符串的處理和類型轉換進行處理。在轉換過程中應該對不同的數(shù)據源,列如:TXT、Excel、Doc、DB等進行相應的轉換。
3)數(shù)據加載
將轉換后的數(shù)據進行統(tǒng)一、分類加載到數(shù)據倉庫中,由于關心的主題不同把數(shù)據倉庫的數(shù)據建立各種數(shù)據集市。
2.3 多維數(shù)據模型建立
由于故障發(fā)生的影響因素眾多,因此本文設計了PMUs中心數(shù)據倉庫的數(shù)據采集模塊,包括PMUs實測數(shù)據采集、EMS/SCADA數(shù)據采集及其它可利用的數(shù)據源采集。根據研究問題的不同建立故障的數(shù)據集市。如下圖2中間表格是故障的事實,為四周的每一個維度增加一個字段作為維度表的外鍵,通過外鍵和事實表進行互聯(lián),在此基礎上,可以利用OLAP技術進行各種復雜的查詢,掌握故障的一些基本信息。
圖2 故障星型模式
3.1 數(shù)據準備
基于冀北電網2011年到2013年期間的事故數(shù)據進行聚類分析、關聯(lián)規(guī)則分析、貝葉斯網絡分析。與電網故障的類別劃分、關聯(lián)性分析、貝葉斯網絡有關的屬性項主要包括發(fā)生時間、設備名稱、故障區(qū)域、故障發(fā)生原因和類型。
3.2 聚類分析挖掘
對冀北電網故障數(shù)據進行故障相似類型的聚類得到故障相應的分類。
(1)利用歐氏距離作為故障數(shù)據樣本間的相似性度量。
(2)選擇評價聚類性能的準則函數(shù)。
(3)選擇某個初始分類,之后用迭代的方法得到聚類結果,使得評價聚類的準則函數(shù)取得最優(yōu)值。
3.3 關聯(lián)規(guī)則挖掘
基于聚類分析結果對變壓器類故障利用關聯(lián)規(guī)則對其進行分析,設定最小支持度=0.25時生成頻繁項集如表1所示。
通過對頻繁項集的分析發(fā)現(xiàn)在張家口和唐山易發(fā)生220千伏變壓器跳閘事故,設備的“產品質量”導致事故占比重較大,“產品質量”與“保護裝置故障”的關聯(lián)性較大。
表1 冀北電網故障頻繁項集表(部分)
3.4 貝葉斯網絡挖掘
根據關聯(lián)規(guī)則分析結果中相應的故障診斷的特點、建立相應Bayes網絡結構如圖3所示。Bayes網絡是由網絡結構和條件概率分布表組成。網絡結構是一種基于有向無環(huán)圖的圖表模型,由節(jié)點和有向弧段組成。
圖3 Bayes網絡結構圖
1) 網絡結構圖形
上層節(jié)點表示故障原因,下層節(jié)點表示故障類型。設有故障樣本集F={F1,F2,F3…Fn}和故障類型樣本集C={C1,C2,C3,C4…Cm}其中n,m分別代表元素個數(shù)。假定兩個樣本集中的所有元素是相互獨立的。
2) 節(jié)點的條件概率表(CPT)
表中列出了所有故障節(jié)點相對應于其故障原因節(jié)點所有可能的條件概率值P。例如對于上述的Bayes網絡結構,假設故障原因有兩個分別是產品質量和保護裝置故障,選取與這些故障相關受影響區(qū)域得出其條件概率表如表2。
表2 條件概率表(部分)
3.5 結果分析
1) 測試數(shù)據
基于冀北電網2011年到2013年期間的事故歷史數(shù)據。
2) 系統(tǒng)運行結果分析
通過對關聯(lián)規(guī)則的分析可以得出需要的知識。例如:張家口、產品質量和保護裝置故障,說明在張家口由于產品質量很容易導致保護裝置故障。如圖4冀北電網220千伏變壓器跳閘故障關聯(lián)分析部分關聯(lián)規(guī)則圖。
圖4 變壓器故障關聯(lián)性分析關聯(lián)規(guī)則(部分)
通過對Bayes網絡的分析可以得出需要的知識。如圖5 所示診斷結論為秦皇島、廊坊、承德地區(qū)由于維護不當導致變壓器故障所占概率比重較大,系統(tǒng)建議維護人員在維護過程中多加注意。張家口、唐山地區(qū)由于產品質量導致變壓器故障所占比重較大,系統(tǒng)建議在選擇產品時多加注意。
本文提出的基于數(shù)據挖掘技術的電網故障診斷研究方法有如下特點,首先建立了多數(shù)據源的中心數(shù)據倉庫,解決了數(shù)據來源的廣泛問題,同時根據不同的需求建立了相應主題的數(shù)據集市,使數(shù)據檢索更加方便。其次利用數(shù)據挖掘中的三種典型算法分別是聚類分析、關聯(lián)規(guī)則、貝葉斯網絡對數(shù)據進行分析,最后對三種算法的結果進行綜合分析發(fā)現(xiàn)未知知識,對電網故障處理給出輔助建議。
[1] 于之虹,郭志忠.數(shù)據挖掘與電力系統(tǒng)[J].電網技術,2001,25(8): 58-62
[2] 張克君,李伯群.基于DWLMS模型的分布式web用戶訪問模式挖掘[J].清華大學學報,2005,45(S1): 62-66
[3] 陳志泊.數(shù)據倉庫與數(shù)據挖掘[M].清華大學出版社,2009
[4] Jiawei Han,Micheline Kamber. 數(shù)據挖掘概念與技術.2版.[M].北京:機械工業(yè)出版社,2007
[5] 王珊.數(shù)據倉庫技術與聯(lián)機分析處理[M].北京科學出版社,1999
[6] 張耀天,何正友,趙靜.基于粗糙集理論和樸素貝葉斯網絡的電網故障診斷方法[J].電網技術,2007,31(1)
[7] 馮潔,陶宏才.快速挖掘最大頻繁項集[J].微電子學與計算機,2007,24(5):123-124
[8] 顧雪平,張文勤,高曙. 基于神經網絡和元件關聯(lián)分析的電網故障診斷[J].華北電力大學學報,1999,(02):12-17.
[9] 霍利民,朱永利,賈蘭英. 基于貝葉斯網絡的電網故障診斷[J].華北電力大學學報,2004,(03):30-34.
[10] Liu Bing,Hsu Wynne,Ma Yiming.Integrating Classification and Association Rule Mining. In:Proceedings of 1998 International Conference on Knowledge Discovery and Data Mining.NewYork:1998
Power System Fault Diagnosis Research Based on Data Mining
Kang Jiandong,Li Wei,Zhang Jun,Liu Yuxing,Qin Changfeng,Hu Jianyong
(China Electric Power Research Institute,100192;country Ji North Power Co.Ltd,100053)
In actual power grid fault diagnosis,facing how to find out what happened from the huge amounts of data in a cascading fault between the interaction relations,as well as a fault may cause the probability of other fault issues.In this paper,the research content is to clustering analysis and association rules and Bayes Network in data mining technology,comprehensive applied to power grid fault processing.The first application of clustering analysis technology to power grid fault data clustering,secondly,association rules of data analysis,found the mutual influence of relationship between the fault,again based on Bayes Network Statistics analysis of the mutual influence between fault probability problem,finally combining the above analysis results give auxiliary decision-making information.
Data Mining;ETL;Power System Fault;Data Warehouse;Association rules;Clustering Analysis;Bayes Network
圖5 變壓器故障原因分析圖