黃劍湘, 林錚, 駱釗*, 禹晉云, 楊濤, 徐峰
(1. 中國(guó)南方電網(wǎng)有限責(zé)任公司超高壓輸電公司昆明局, 昆明 650217; 2.昆明理工大學(xué)電力工程學(xué)院, 昆明 650500)
隨著泛在電力物聯(lián)網(wǎng)建設(shè)的不斷發(fā)展以及物理信息系統(tǒng)在電力系統(tǒng)中的深度融合,電力數(shù)據(jù)的數(shù)量呈爆炸增長(zhǎng)的趨勢(shì)[1],電力電氣行業(yè)的大數(shù)據(jù)時(shí)代已經(jīng)到來[2]。換流站的復(fù)雜程度與設(shè)備智能化程度逐漸升高,因此對(duì)換流站的智能化運(yùn)維水平提出了更高的要求。當(dāng)前換流站的運(yùn)維數(shù)據(jù)主要依靠事件順序記錄(sequence events recorder, SER)系統(tǒng)記錄龐大的一、二次設(shè)備運(yùn)維日志[3]。當(dāng)直流系統(tǒng)進(jìn)行順控操作或出現(xiàn)故障時(shí),換流站SER系統(tǒng)生成海量異構(gòu)、多態(tài)的數(shù)據(jù)[4],這些數(shù)據(jù)中蘊(yùn)含著大量有價(jià)值的信息,包含了很多典型的事件集及強(qiáng)關(guān)聯(lián)性的特征事件,對(duì)其進(jìn)行數(shù)據(jù)挖掘與數(shù)據(jù)分析對(duì)提升換流站的運(yùn)維管控水平有重要的意義。但中外對(duì)于換流站SER的故障數(shù)據(jù)挖掘的技術(shù)較少,缺乏對(duì)換流站故障數(shù)據(jù)日志間的關(guān)聯(lián)分析。
利用數(shù)據(jù)挖掘技術(shù)分析復(fù)雜數(shù)據(jù),近年來在電網(wǎng)的數(shù)據(jù)分析中得到了廣泛的應(yīng)用[5],且利用數(shù)據(jù)挖掘算法對(duì)電力系統(tǒng)的運(yùn)行數(shù)據(jù)進(jìn)行分析[6-8]已經(jīng)逐步成為主流的方法。文獻(xiàn)[9]引入了數(shù)據(jù)挖掘與關(guān)聯(lián)分析的思想,提出了尋找二次設(shè)備的薄弱環(huán)節(jié)的混合聚類分析的網(wǎng)損評(píng)估方法并為分析處理電網(wǎng)故障提供決策支持。文獻(xiàn)[10]提出了薄弱度的概念來量化分析電氣設(shè)備的薄弱性,通過關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘分析出配電網(wǎng)的薄弱點(diǎn)。但對(duì)于換流站的數(shù)據(jù)挖掘與分析文獻(xiàn)相對(duì)較少,尤其是在換流站SER建模方面與面對(duì)海量SER事件的挖掘還處在探索階段。
為此,提出一種基于關(guān)聯(lián)規(guī)則算法的換流站SER事件集挖掘方法,同時(shí)定義SER典型事件支持組與SER典型事件置信事件的概念,通過對(duì)常見換流站典型事件歷史SER事件進(jìn)行關(guān)聯(lián)分析,得到了典型事件支持組與典型事件置信事件,以此分析未來典型事件中的SER事件缺失情況,并及時(shí)告知換流站運(yùn)維人員,避免了人工檢查異常SER事件的中漏看錯(cuò)看,方便換流站運(yùn)維人員及時(shí)發(fā)現(xiàn)換流站的設(shè)備異常動(dòng)作。
關(guān)聯(lián)規(guī)則(association rules, AR)是反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個(gè)重要技術(shù),用于在大型數(shù)據(jù)庫中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系[11]。關(guān)聯(lián)規(guī)則的強(qiáng)度取決于支持度和置信度。
(1) 支持度(Support):全部事件中,事件{X,Y}出現(xiàn)可能性,即總項(xiàng)目集中子項(xiàng)目集{X,Y}的比重,可表示為
(1)
式(1)中:Support(X→Y)為子項(xiàng)目集X對(duì)子項(xiàng)目集Y的支持度;N(X,Y)為事件{X,Y}出現(xiàn)的次數(shù);N為項(xiàng)目集的總數(shù)。
(2) 置信度(Confidence):在關(guān)聯(lián)規(guī)則中,事件X發(fā)生的條件下,另一事件Y發(fā)生的概率,即一個(gè)項(xiàng)目集中同時(shí)含有X和Y的概率,可表示為
(2)
式(2)中:Confidence(X→Y)為子項(xiàng)目集X對(duì)子項(xiàng)目集Y的置信度;N(X)為事件X出現(xiàn)的次數(shù)。
支持度作為關(guān)聯(lián)規(guī)則強(qiáng)度的度量之一,衡量子項(xiàng)目集在總項(xiàng)目集出現(xiàn)的頻率。通過設(shè)置最小支持度閾值minsup,篩選出現(xiàn)頻率較多的有意義規(guī)則,剔除出現(xiàn)頻率較小的無意義規(guī)則。支持度大于最小支持度閾值的項(xiàng)集被稱為頻繁項(xiàng)集。
置信度作為關(guān)聯(lián)規(guī)則強(qiáng)度的又一個(gè)度量,衡量頻繁項(xiàng)集中兩個(gè)事務(wù)同時(shí)出現(xiàn)的概率。通過設(shè)置最小置信度閾值mincon,篩選出頻繁項(xiàng)集中兩個(gè)事務(wù)同時(shí)發(fā)生的概率。置信度大于最小置信度頻繁項(xiàng)集中的強(qiáng)規(guī)則。
常見的關(guān)聯(lián)規(guī)則包括布爾關(guān)聯(lián)規(guī)則和數(shù)值型規(guī)則,而換流站SER的數(shù)據(jù)屬于布爾型數(shù)據(jù)[12]。分析SER事件集時(shí)采用布爾關(guān)聯(lián)規(guī)則,并且通過調(diào)整最小支持度閾值得到合適的頻繁項(xiàng)集作為SER故障可信組。
Apriori算法和FP-Growth算法是最常見的關(guān)聯(lián)規(guī)則算法[13]。由于Apriori算法需要掃描數(shù)據(jù)庫多次且操作過程中產(chǎn)生大量的候選集,導(dǎo)致時(shí)間、空間成本過高,而FP-Growth算法僅需要對(duì)數(shù)據(jù)集掃描兩次,且不生產(chǎn)候選集,有效降低了FP-Growth算法的寫入與讀取次數(shù)。Apriori算法和FP-Growth算法的比較如表1所示。
綜合考慮Apriori算法和FP-Growth算法的優(yōu)缺點(diǎn),考慮采用FP-Growth算法實(shí)現(xiàn)換流站發(fā)生故障時(shí)SER事件告警關(guān)聯(lián)規(guī)則的挖掘。
表1 Apriori和FP-Growth的比較Table 1 Comparison of Apriori and FP-Growth
FP-Growth算法挖掘頻繁項(xiàng)集主要是包括兩個(gè)步驟,具體如下。
步驟1建立頻繁模式樹(frequent pattern-tree, FP-Tree):第一次掃描目標(biāo)數(shù)據(jù)集,篩選頻繁項(xiàng)為1的項(xiàng)目集,并定義項(xiàng)目出現(xiàn)最少次數(shù)即最小支持度,定向刪減項(xiàng)目支持度小于最小支持度的項(xiàng)目,并將目標(biāo)數(shù)據(jù)集中的條目按項(xiàng)目支持度降序進(jìn)行排列,在此基礎(chǔ)上二次掃描目標(biāo)數(shù)據(jù)集,并創(chuàng)建自頂向下的項(xiàng)頭表和FP-Tree。
步驟2從FP-Tree中挖掘頻繁項(xiàng)集:將項(xiàng)目按照從頂向下的順序查找其條件模式基(conditional patten base, CPB),遞歸調(diào)用樹結(jié)構(gòu)以刪除小于最小支持度的項(xiàng),直至呈現(xiàn)單一路徑的樹結(jié)構(gòu)。
換流站SER系統(tǒng)每日會(huì)產(chǎn)出近十萬條SER事件,需從中篩選出發(fā)生故障時(shí)且有價(jià)值的特征項(xiàng)以方便關(guān)聯(lián)規(guī)則挖掘。SER系統(tǒng)記錄的部分SER事件如圖1所示,原始SER事件記錄的數(shù)據(jù)特征項(xiàng)如表2所示。
在原始SER事件的數(shù)據(jù)中,時(shí)間方便收集故障發(fā)生后產(chǎn)生的SER數(shù)據(jù);主機(jī)方便定位故障發(fā)生位置;系統(tǒng)為SER系統(tǒng)本身相關(guān)的;等級(jí)為SER事件對(duì)當(dāng)前運(yùn)行下的工況,分為“正常”“輕微”“報(bào)警”“緊急”4個(gè)等級(jí);報(bào)警組為定位產(chǎn)生該條事件的控制設(shè)備組或控制軟件;事件為SER系統(tǒng)對(duì)當(dāng)前運(yùn)行下進(jìn)行的動(dòng)作帶有嵌入值的事件內(nèi)容描述。
通過換流站SER事件特征篩選,可以降低SER事件模型維度,故需從原始SER事件特征選取有效特征,從原始SER數(shù)據(jù)中利用時(shí)間和等級(jí)作為索引,主機(jī)、報(bào)警組和事件作為特征來進(jìn)行建模。其次,在時(shí)間的處理中,直流輸電系統(tǒng)狀態(tài)轉(zhuǎn)換操作及保護(hù)出口后相關(guān)設(shè)備動(dòng)作將在0~120 s內(nèi)完成,故設(shè)置關(guān)聯(lián)事件最大時(shí)間差為120 s,即考慮換流站保護(hù)動(dòng)作后120 s內(nèi)SER事件組。換流站SER事件模型M|system可表示為
M|system=[I(I1,I2,I3),P(P1,P2)]
(3)
式(3)中:下標(biāo)system為采用的冗余系統(tǒng);I為索引維度特征的集合;I1為時(shí)間維度;I2為位置維度;I3為等級(jí)維度;P為時(shí)間特征的集合:P1為報(bào)警組;P2為事件。
通過分類換流站中的典型事件,分析換流站出現(xiàn)典型事件時(shí)SER事件的關(guān)聯(lián)規(guī)則,得出不同典型事件時(shí)出現(xiàn)的SER事件集合。利用SER數(shù)據(jù)清洗與建模,并對(duì)典型事件的分類結(jié)果進(jìn)行FP-Growth關(guān)聯(lián)分析,取支持度最大的頻繁項(xiàng)集作為換流站SER典型事件支持組,其表征在相似的典型事件下,該類SER事件組發(fā)生概率極大,視其為必然發(fā)生,其挖掘流程如圖2所示。
在得出換流站SER典型事件支持組后,利用挖掘結(jié)果中的置信值,將非SER典型事件支持組但相對(duì)于SER典型事件支持組置信度大于0.6的SER事件作為換流站SER典型事件置信事件,其表征在針對(duì)相似但不同的典型事件下,該SER事件發(fā)生概率大于60%,即在大多數(shù)相似典型事件下會(huì)出現(xiàn),但需要運(yùn)維人員根據(jù)實(shí)際情況進(jìn)行輔助判斷,其挖掘流程如圖3所示。
圖1 SER系統(tǒng)記錄部分SER事件Fig.1 SER system records some SER events
表2 原始SER事件特征Table 2 Characteristics in primary SER log
圖2 SER典型事件支持組流程圖Fig.2 Flow chart of SER class event support group
圖3 換流站SER典型事件置信事件挖掘流程圖Fig.3 Flow chart of confidence events mining for typical SER class events in converter station
SER數(shù)據(jù)接入后,在換流站開展同類順控操作或發(fā)生相似故障時(shí),利用歷史數(shù)據(jù)挖掘的SER故障支持組與置信事件,判斷是否滿足換流站SER支持組與置信事件,若滿足SER故障支持組則繼續(xù)判斷置信事件,若不滿足SER故障支持組則直接向控制中心報(bào)告異常情況;在滿足SER故障支持組的條件下,將未出現(xiàn)的故障置信事件及其置信值發(fā)至控制中心,輔助運(yùn)維人員進(jìn)行下一步處理,具體流程如圖4所示。
圖4 SER事件集分析方法Fig.4 Method of SER event set analysis
采用操作系統(tǒng)為Windows 10、內(nèi)存為8 GB、CPU為Intel(R) Core(TM) i3-9100F CPU@3.60 GHz、GPU為NVIDIA GeForce GTX 1650的實(shí)驗(yàn)環(huán)境,使用Python3.8語言開發(fā),實(shí)驗(yàn)軟件平臺(tái)為Anacaoda3,編寫數(shù)據(jù)清理、建模程序及FP-Growth算法程序。
數(shù)據(jù)來源于昆柳龍直流系統(tǒng)2020年5月20日—2020年12月20日調(diào)試期間換流站記錄的事件/報(bào)警信息,由控制保護(hù)系統(tǒng)主機(jī)及其I/O系統(tǒng)自身產(chǎn)生,經(jīng)由站LAN網(wǎng)發(fā)送到SCADA系統(tǒng),由SCADA系統(tǒng)處理后保存到實(shí)時(shí)數(shù)據(jù)庫和歷史數(shù)據(jù)庫中。同時(shí)為建立典型事件集,分類了常見的昆柳龍換流站典型事件集:直流系統(tǒng)典型順控操作和典型故障,如表3所示。
表3 昆柳龍換流站典型事件Table 3 Typical events in Kun-Liu-Long converter station
考慮到昆柳龍直流換流站調(diào)試期間數(shù)據(jù)量較小,單次事件的事件集數(shù)據(jù)不完善,故設(shè)置FP-Growth的最小支持度為0.5,最小置信度為0.6。以換流器閉鎖轉(zhuǎn)解鎖為例,SER系統(tǒng)記錄了14次換流器閉鎖轉(zhuǎn)解鎖及相似操作,挖掘得到換流器閉鎖轉(zhuǎn)解鎖相似事件的所用滿足的SER事件集,得到14次換流器閉鎖轉(zhuǎn)解鎖的FP-Growth數(shù)據(jù)挖掘結(jié)果,如圖5所示。
可以看出,事件集1為挖掘結(jié)果的最大支持度,故將集合1作為換流器閉鎖轉(zhuǎn)解鎖典型事件的支持組,其具體事件如表4所示。同時(shí),通過最小置信度得到相對(duì)于置信度大于0.6的SER事件,將其作為換流器閉鎖轉(zhuǎn)解鎖典型事件的置信事件,如表5所示。典型事件極區(qū)送端側(cè)故障(極母線接地、中性母線接地)的換流站SER典型事件支持組與置信事件挖掘結(jié)果表6所示,其他部分典型事件關(guān)聯(lián)挖掘結(jié)果如表7所示。
圖5 SER事件集支持度Fig.5 SER log event set support
表4 換流器閉鎖轉(zhuǎn)解鎖支持組Table 4 Support group of inverter lock-to-unlock
表5 換流器閉鎖轉(zhuǎn)解鎖典型事件的置信事件Table 5 Confidence events of inverter lock-to-unlock
以某次換流器閉鎖轉(zhuǎn)解鎖為例,SER系統(tǒng)記錄SER事件集,利用上節(jié)換流器閉鎖轉(zhuǎn)解鎖SER典型事件支持組與置信事件挖掘結(jié)果,分析SER事件集如表8所示??梢娫赟ER事件集中通過昆柳龍換流站SER典型事件支持組與置信事件挖掘結(jié)果分析當(dāng)前直流系統(tǒng)典型順控操作和典型故障的SER事件集,為運(yùn)維人員快速查看SER事件集中典型SER事件的缺失及時(shí)提供指導(dǎo)作用。
表6 極區(qū)送端側(cè)故障的關(guān)聯(lián)挖掘結(jié)果Table 6 Association mining results of faults on the transmission side of the DC pole area
表7 部分典型事件挖掘結(jié)果Table 7 Association mining results of some other typical events
表8 換流器閉鎖轉(zhuǎn)解鎖SER事件集Table 8 Association mining results of faults on the transmission side of the DC pole area
續(xù)表8
提出一種基于關(guān)聯(lián)規(guī)則算法的換流站SER事件集挖掘方法,得出以下結(jié)論。
(1) 在分析了換流站SER事件的數(shù)據(jù)特點(diǎn)基礎(chǔ)上,設(shè)計(jì)了包含時(shí)間、地點(diǎn)、等級(jí)維度特征和報(bào)警組、事件關(guān)聯(lián)數(shù)據(jù)挖掘特征的SER事件模型。利用了FP-Growth算法進(jìn)行換流站典型事件產(chǎn)生的SER事件集的數(shù)據(jù)挖掘與分析。引入了SER典型事件支持組與置信事件概念分析SER事件的異常情況。
(2) 挖掘結(jié)果表明,利用FP-Growth算法可以從海量SER事件中高效地提取關(guān)鍵SER事件;有效地挖掘出換流站發(fā)生故障時(shí)最大SER典型事件支持組和置信事件。
(3) 目前針對(duì)換流站SER事件的關(guān)聯(lián)挖掘方法較少,通過文中提出的方法可以有效協(xié)助運(yùn)維人員發(fā)現(xiàn)SER事件異常。隨著事件的推移,SER系統(tǒng)將積累更多的事件數(shù)據(jù),下一步的工作主要考慮自動(dòng)提取出故障發(fā)生的SER事件數(shù)據(jù)并利用Hadoop大數(shù)據(jù)平臺(tái)并行挖掘關(guān)聯(lián)SER事件數(shù)據(jù),逐步提高最小支持度與置信度閾值以達(dá)到精確挖掘,自動(dòng)判斷SER事件異常問題并直接應(yīng)用于昆柳龍直流工程,同時(shí)可為未來白鶴灘-江蘇±800 kV特高壓直流輸電工程換流站高效運(yùn)維提供參考。