羅超月嶺,鄭韻馨,徐幀雨,謝雨龍,代明成,李 黎
(華中科技大學(xué)電氣與電子工程學(xué)院,湖北武漢 430000)
電力變壓器是電力系統(tǒng)中最常見的設(shè)備之一,在發(fā)電、輸電、配電等各個環(huán)節(jié)都承擔(dān)著不可替代的作用。然而,由于使用年限的增加、操作條件的變化及其它因素,變壓器會出現(xiàn)各種故障,如絕緣失效、接觸不良、局部放電等。這些故障不僅影響變壓器的正常運(yùn)行,而且可能導(dǎo)致嚴(yán)重的事故,造成生命和財(cái)產(chǎn)損失,因此及時掌握變壓器運(yùn)行狀態(tài)并進(jìn)行故障診斷具有重要的現(xiàn)實(shí)意義。
目前電力系統(tǒng)中運(yùn)行的大多是油浸式變壓器,主要通過對油中溶解特征氣體進(jìn)行分析來判斷變壓器運(yùn)行狀態(tài),常見的有三比值法、Rogers 比值法、Nomograph 法和Duval 三角形法等,這些方法操作簡單,但依賴人工經(jīng)驗(yàn),診斷準(zhǔn)確率不高。隨著機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)的日益成熟,支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等方法被逐步應(yīng)用變壓器故障診斷中。文獻(xiàn)[1]對深層一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),對容易判斷錯的樣本提前篩選,并與比值法相融合,有效提高了分類準(zhǔn)確率。文獻(xiàn)[2]基于鯨魚優(yōu)化算法對決策樹模型進(jìn)行改進(jìn),通過將多個決策樹集成為一個強(qiáng)學(xué)習(xí)器,將一個多分類問題轉(zhuǎn)化為多個二分類問題。文獻(xiàn)[3]在麻雀搜索算法中引入動態(tài)反向?qū)W習(xí),通過優(yōu)化支持向量機(jī)(Support Vector Machines,SVM)模型參數(shù)來提高其尋找全局最優(yōu)解的能力。文獻(xiàn)[4]采用螢火蟲優(yōu)化算法對變壓器油中21 維溶解氣體特征量進(jìn)行篩選,去除相關(guān)性較小的特征量后再進(jìn)行故障診斷。這些方法都集中于對當(dāng)前智能算法的改進(jìn),但要保證算法的可靠性和良好的泛化能力,需要提供足夠數(shù)量且均衡的訓(xùn)練樣本集。
變壓器工作過程中產(chǎn)生的樣本數(shù)據(jù)絕大部分是正常數(shù)據(jù),僅一小部分是故障數(shù)據(jù),這就導(dǎo)致了數(shù)據(jù)的不平衡性,嚴(yán)重影響變壓器故障診斷分類準(zhǔn)確性。因此,許多學(xué)者提出采用過采樣、欠采樣或混合采樣的方法對不平衡數(shù)據(jù)集進(jìn)行處理。文獻(xiàn)[5]提出采用自適應(yīng)綜合過采樣數(shù)據(jù)平衡算法(Adaptive Synthetic Sampling Approach for Imbalanced Learning,ADASYN)處理少數(shù)樣本和多數(shù)樣本邊界處的噪聲數(shù)據(jù),使邊界分布更均勻。但該方法未考慮少數(shù)類樣本的整體分布情況,容易造成樣本內(nèi)部稀疏。文獻(xiàn)[6]將K 均值聚類算法和人工少數(shù)類過采樣法(Synthetic Minority Over-Sampling Technique,SMOTE)算法融合,有利于識別邊界數(shù)據(jù),但僅限于二分類樣本的合成。
針對文獻(xiàn)[5-6]的問題,本文提出了基于灰狼算法(Grey Wolf Optimizer,GWO)優(yōu)化的SVM 變壓器故障診斷模型。首先采用混合采樣方法,對故障樣本數(shù)據(jù)進(jìn)行刪減和擴(kuò)充,去掉噪聲數(shù)據(jù)的同時增強(qiáng)類間數(shù)據(jù)的差異性;其次,采用混沌序列初始化灰狼種群,設(shè)置收斂因子隨迭代次數(shù)非線性變化,并基于差分進(jìn)化思想,引入概率突變機(jī)制,優(yōu)化種群個體,從而達(dá)到提高診斷結(jié)果的精度和穩(wěn)定性的目的。最后,通過實(shí)驗(yàn)對比分析本文方法與傳統(tǒng)故障診斷模型基于混合采樣均衡數(shù)據(jù)集的診斷結(jié)果。所提方法在均衡數(shù)集下的準(zhǔn)確率相較于傳統(tǒng)的反向傳播神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network Algorithm,BPNN)、粒子群優(yōu)化支持向量機(jī)(Particle Swarm Optimization-Support Vector Machine Algorithm,PSO-SVM)、麻雀算法優(yōu)化支持向量機(jī)(Sparrow Search Algorithm-Support Vector Machine Algorithm,SSA-SVM)與鯨魚優(yōu)化支持向量機(jī)(Whale Optimization Algorithm-Support Vector Machine Algorithm,WOA-SVM)模型得到了有效提升,可以更準(zhǔn)確地進(jìn)行變壓器故障診斷,為變壓器故障診斷提供新思路。
為最大程度地保留故障數(shù)據(jù)重要信息,同時避免過采樣生成冗余樣本,本文采用閾值迭代算法(Iterative Hard Thresholding for Compressed Sensing,IHT)和Borderline-SMOTE 分別對多數(shù)類樣本和少數(shù)類樣本進(jìn)行刪減和擴(kuò)充處理。
傳統(tǒng)的SMOTE 算法基于最近鄰特性生成少數(shù)類樣本,一定程度上增強(qiáng)了少數(shù)類樣本的類內(nèi)聚合性,但其未考慮多數(shù)類樣本的分布特性,容易造成類間重復(fù),降低識別準(zhǔn)確率。而Borderline-SMOTE算法選擇最具代表性的邊界樣本來生成新樣本,可以避免過度擬合和類內(nèi)混淆的問題[7-8]。
假設(shè)少數(shù)類樣本為Xi,根據(jù)K近鄰公式(1)計(jì)算距離Xi最近的K個樣本的歐氏距離,即:
式中:xi和yi分別為n維空間中的2 個樣本點(diǎn);dist(X,Y)為2 個樣本點(diǎn)間的歐式距離。
針對所有少數(shù)類樣本,Borderline-SMOTE 算法根據(jù)K近鄰距離將其分為安全樣本、邊界樣本、噪聲樣本3 類。設(shè)樣本點(diǎn)xi有m個近鄰,并且在m個近鄰中有m′個樣本點(diǎn)屬于多數(shù)類樣本,則
對邊界樣本進(jìn)行線性插值處理,如式(3)所示。
式中:Xxin為合成后的新樣本;為Xi m個近鄰中的少數(shù)類樣本集;λ為0~1 中的1 個隨機(jī)數(shù),其原理如圖1 所示。若m=6,則圖1 中A為邊界樣本;B為安全樣本;C為噪聲樣本。
圖1 基于Borderline-SMOTE的少數(shù)類樣本合成Fig.1 Synthesis of minority samples based on Borderline-SMOTE
實(shí)例硬度(Instance Hardness,IH)常用來表征樣本點(diǎn)被分類器錯誤分類的概率,因此IH 較高的數(shù)據(jù)點(diǎn)被認(rèn)為是處于樣本邊緣或者是噪聲數(shù)據(jù)[9]。假設(shè)在n維空間中有訓(xùn)練樣本(xi,yi),對于弱分類器a可計(jì)算得到輸入特征向量xi的概率為P(yi|xi,a),定義M為樣本集關(guān)于a的IH,則有:
將訓(xùn)練樣本數(shù)據(jù)集合設(shè)為N,定義其相應(yīng)權(quán)重為P(a|t),則訓(xùn)練樣本(xi,yi)的IH 方程為:
本文采用IHT 算法對多數(shù)類樣本的數(shù)據(jù)點(diǎn)進(jìn)行概率決策,剔除IH 值高的點(diǎn),有效去除多數(shù)類樣本中的噪聲并減少模型過擬合的風(fēng)險。
變壓器故障類型和氣體特征含量間映射關(guān)系復(fù)雜,并且其數(shù)據(jù)集存在噪聲數(shù)據(jù)較多、故障數(shù)據(jù)比例小的問題,而SVM 在處理小樣本、高維、非線性數(shù)據(jù)時具有良好的表現(xiàn),因此本文選擇SVM 模型作為基礎(chǔ)分類器[10]。
作為一個具有很強(qiáng)泛化學(xué)習(xí)能力的二分類模型,SVM 通過在樣本空間中找到正確劃分樣本點(diǎn)并且?guī)缀伍g距最大的超平面,實(shí)現(xiàn)訓(xùn)練樣本正確分類。
SVM 的分類性能主要與懲罰因子C和核參數(shù)γ相關(guān),兩者越精確,模型的分類準(zhǔn)確率越高,泛化能力越強(qiáng),因此本文采用改進(jìn)灰狼算法對C和γ進(jìn)行尋優(yōu)。
灰狼算法是一種模仿大自然界中灰狼群體捕獵行為的仿生算法,其采用啟發(fā)式搜索策略,具有收斂速度快、參數(shù)少、魯棒性強(qiáng)的特點(diǎn)[11]。
算法流程包括狼群劃分、圍剿、捕獵和攻擊4個階段。首先將狼群按照適應(yīng)值從高到低的順序分為4 個社會等級,其代號分別為α,β,δ,ω。圍剿階段,狼群找到目標(biāo)獵物進(jìn)行圍捕;捕獵階段,灰狼群體中的其他個體會根據(jù)α,β,δ狼的位置不斷縮小自己與圍捕目標(biāo)間的距離并更新位置;攻擊階段,通過距離大小判斷灰狼是否找尋到目標(biāo)獵物并可以進(jìn)行最優(yōu)解的尋找。
灰狼的初始種群位置和收斂因子等參數(shù)會影響算法的性能和收斂速度,需要進(jìn)一步實(shí)驗(yàn)和調(diào)整。為了提高灰狼算法的泛化能力和收斂精度,本文從3 個方面對灰狼算法進(jìn)行改進(jìn)。
1)Halton 序列初始化種群。本文采用能夠在搜索空間內(nèi)生成均勻隨機(jī)數(shù)列的Halton 序列初始化種群位置[12]。假設(shè)獲得1 個以l為基數(shù)的混沌序列D(n),公式為:
式中:n為任意整數(shù),n∈(1,L);am∈{0,1,...,l-1}(m=0,1,…,G)。
其基本反轉(zhuǎn)函數(shù)為:
由此,可以得到以l為基數(shù)的一維Halton 序列,多維Halton 序列可由不同基數(shù)的一維Halton 序列組合而成。
2)收斂因子動態(tài)化。灰狼位置迭代時收斂因子線性變化。文獻(xiàn)[13]通過將收斂因子替換成余弦、指數(shù)、對數(shù)、動態(tài)型后對比發(fā)現(xiàn),動態(tài)收斂因子的陷入局部最優(yōu)的概率最低,且能有效提高收斂速度。因此本文將收斂因子替換為:
式中:c為動態(tài)收斂因子;fmax,fmin分別為收斂因子的最大值和最小值;tmax為最大迭代次數(shù);t為當(dāng)前迭代次數(shù)。
通過動態(tài)增大或減小收斂因子增加算法在前后期的全局搜索能力。
3)差分進(jìn)化策略?;诓罘诌M(jìn)化的思想對灰狼個體進(jìn)行選擇和變異[14]。為了選擇出競爭力較強(qiáng)的父代優(yōu)秀灰狼個體,將動態(tài)收斂因子與α狼進(jìn)行疊加構(gòu)造出變異因子,其函數(shù)表達(dá)式為:
式中:S為交叉概率因子,為一常數(shù),適當(dāng)選取可有效提高收斂速度;為變異操作后灰狼i第t+1次迭代所處的位置向量;rand(p),rand(q)分別為在[0,1]內(nèi)服從均勻分布的隨機(jī)數(shù)[15-16]。
本文選取文獻(xiàn)[17]提供的2014—2016 年間某省電力公司220 kV 油浸式變壓器在線監(jiān)測數(shù)據(jù)(針對已安裝在線監(jiān)測裝置的設(shè)備)以及與之相關(guān)的重大缺陷或故障歷史數(shù)據(jù)(針對曾經(jīng)發(fā)生過缺陷或故障的設(shè)備),共計(jì)480 組。利用Borderline-SMOTEIHT 的混合采樣將每類樣本擴(kuò)充到150 個,采取分層抽樣的方式按3∶1 的比例劃分為訓(xùn)練集和測試集[18-19],樣本分布情況和故障編碼如表1 所示。其中總計(jì)為訓(xùn)練集、測試集和混合采樣的代數(shù)和。
表1 數(shù)據(jù)分布及編碼Table 1 Data distribution and coding 個
變壓器的運(yùn)行狀態(tài)通常劃分為正常運(yùn)行(N)、低能放電(D1),高能放電(D2),局部放電(PD),中低溫過熱(T12)和高溫過熱(T3)6 類,主要特征氣體為H2,CH4,C2H6,C2H4和C2H25 種[20-21]。不同特征氣體比值與故障類型的映射關(guān)系復(fù)雜,為準(zhǔn)確反映氣體數(shù)據(jù)與故障類型的特征關(guān)聯(lián)性,在文獻(xiàn)[22]的基礎(chǔ)上選取基于5 種氣體的8 種不同組合形式作為特征氣體參量,如表2 所示。其中,C1表示H2,CH4;C2表示C2H6,C2H4和C2H2。
表2 特征參量Table 2 Characteristic parameter
部分故障樣本氣體特征體積分?jǐn)?shù)如表3 所示。
表3 部分故障樣本特征氣體體積分?jǐn)?shù)Table 3 Partial fault sample gas characteristic data×10-6
為驗(yàn)證本文所提Borderline-SMOTE-IHT 混合采樣算法合成的新樣本是否改變了樣本集特征氣體間的數(shù)據(jù)關(guān)聯(lián)性,以低能放電擴(kuò)充樣本為例,由Spearman 系數(shù)計(jì)算得到各特征氣體之間的關(guān)聯(lián)度矩陣,如圖2—圖3 所示。
圖2 采樣前特征氣體關(guān)聯(lián)度矩陣Fig.2 Correlation matrix of characteristic gas before sampling
圖3 混合采樣后特征氣體關(guān)聯(lián)度矩陣Fig.3 Correlation matrix of characteristic gases after mixed sampling
由圖2 和圖3 可知,樣本擴(kuò)充前CH4,C2H6,C2H4之間的關(guān)聯(lián)度值最大,分別為0.75,0.80 和0.69,擴(kuò)充后關(guān)聯(lián)度值變?yōu)?.84,0.69 和0.86;H2與CH4,C2H6,C2H4氣體間的關(guān)聯(lián)度次之,由0.54,0.53,0.36 變?yōu)閿U(kuò)充后的0.64,0.65,0.49;C2H2與H2,CH4,C2H6,C2H4的關(guān)聯(lián)度最小。這表明擴(kuò)充的新樣本并未改變特征氣體間的關(guān)聯(lián)程度,并且增強(qiáng)了某些特征氣體的數(shù)據(jù)特征。DL/T 722—2016《變壓器油中溶解氣體分析和判斷導(dǎo)則》中說明低能放電的主要特征氣體為C2H4和H2,次要特征氣體為CH4,C2H6,也側(cè)面驗(yàn)證了樣本擴(kuò)充的準(zhǔn)確性。
為進(jìn)一步驗(yàn)證Borderline-SMOTE-IHT 混合采樣算法對變壓器故障診斷精度提升的有效性,選擇傳統(tǒng)的樣本擴(kuò)充算法,包括非均衡數(shù)集、SMOTE 和隨機(jī)過采樣法[23-25],在同等樣本數(shù)量下采用SVM 模型進(jìn)行故障診斷,其診斷結(jié)果如表4 所示。
表4 不同采樣算法診斷結(jié)果Table 4 Diagnostic results of different sampling algorithms
由表4 可知,Borderline-SMOTE-IHT 混合采樣算法對精度提升效果最為顯著,其故障診斷準(zhǔn)確率達(dá)90.21%,Kappa 系數(shù)(用于衡量算法的分類結(jié)果與實(shí)際標(biāo)簽之間的一致性)為0.91,這是因?yàn)楸疚乃岱椒骖櫫硕鄶?shù)類樣本和少數(shù)類樣本的分布特征,增強(qiáng)了樣本的類內(nèi)聚合性。
為證明本文所提方法的有效性,將本文方法與目前幾種常用的變壓器故障診斷方法BPNN,PSOSVM,SSA-SVM 與WOA-SVM 進(jìn)行對比。其中,PSO-WVM,SSA-SVM,WOA-SVM 的最大迭代次數(shù)均設(shè)為100 次;初始個體數(shù)目為40;懲罰系數(shù)和核函數(shù)參數(shù)的范圍為[0,500];BPNN 算法輸入層和輸出層的神經(jīng)元個數(shù)分別為16 和7,中間3 個隱藏層的神經(jīng)元個數(shù)分別為16,64,128;學(xué)習(xí)率取0.01;激活函數(shù)除了輸出層Softmax,其余都是Relu;PSOSVM 算法中全局更新速度設(shè)置為1.2;粒子位置更新150 次;粒子速度限值取±15。其中,用本文所提改進(jìn)GWO-SVM 與PSO-SVM,SSA-SVM,WOA-SVM 對SVM 模型參數(shù)進(jìn)行尋優(yōu)的迭代曲線如圖4 所示。
圖4 不同優(yōu)化算法迭代曲線圖Fig.4 Iterative curves of different optimization algorithms
由圖4 可知,PSO-SVM 算法在搜索過程中容易陷入局部最優(yōu)解,導(dǎo)致準(zhǔn)確率不高。SSA-SVM 算法雖然全局搜索能力較強(qiáng),但其處理離散問題效果不佳,迭代時收斂慢、精度不高。WOA-SVM 算法需要在多次迭代中不斷更新權(quán)重和模型參數(shù),這使得算法的計(jì)算成本較高,時間較長。
圖5—圖9 為各類模型預(yù)測分類結(jié)果圖。
圖5 PSO-SVM模型預(yù)測分類結(jié)果Fig.5 Prediction&classification results of PSO-SVM model
圖6 BPNN模型預(yù)測分類結(jié)果Fig.6 Prediction&classification results of BPNN model
圖7 SSA-SVM模型預(yù)測分類結(jié)果Fig.7 Prediction&classification results of SSA-SVM model
圖8 WOA-SVM模型預(yù)測分類結(jié)果Fig.8 Prediction&classification results of WOA-SVM model
圖9 改進(jìn)GWO-SVM模型預(yù)測分類結(jié)果Fig.9 Prediction&classification results of improved GWO-SVM model
通過異常點(diǎn)偏離計(jì)算可得,PSO-SVM,BPNN,SSA-SVM,WOA-SVM 與改進(jìn)GWO-SVM 模型的準(zhǔn)確率分別為81.67%,85.54%,82.50%,84.62%和94.17%。
分析圖5—圖9 可知:
1)本文所提基于混合采樣的改進(jìn)GWO-SVM變壓器故障方法準(zhǔn)確率達(dá)到94.17%,相較于傳統(tǒng)的BPNN,PSO-SVM,SSA-SVM,WOA-SVM 模型分別提升了8.63%,12.38%,12.5%,9.55%,對高能放電和低能放電、正常運(yùn)行和局部放電及高溫過熱和中低溫過熱的區(qū)分準(zhǔn)確率都有了明顯的提高。
2)WOA 算法和PSO 算法優(yōu)化的SVM 模型提高了低能放電、高能放電和局部放電的診斷能力,但對于中低溫過熱和高溫過熱的區(qū)分能力不足,診斷準(zhǔn)確率為77.5%和72.5%。結(jié)合故障數(shù)據(jù)進(jìn)行分析,低溫過熱和高溫過熱在過熱時會產(chǎn)生較多CH4,但高溫過熱油的氧化分解更劇烈,產(chǎn)生更多的H2,對H2的特征參量辨識度不夠,導(dǎo)致模型更容易出現(xiàn)分類錯誤。
3)BPNN 模型和SSA 優(yōu)化的SVM 模型對局部放電、低能放電和高能放電的辨識存在明顯偏差,在這3 類故障上的準(zhǔn)確率分別為78.33%,76.67%。結(jié)合故障數(shù)據(jù)進(jìn)行分析,這3 類故障產(chǎn)生的特征氣體相似,主要的氣體類型為H2和CH4,但高能放電通常會導(dǎo)致更高的氣體濃度和更多種類的氣體生成,而局部放電和低能放電通常只產(chǎn)生少量的氣體,因此容易造成識別準(zhǔn)確率低。
針對油浸式變壓器存在的樣本數(shù)據(jù)不均衡、故障診斷準(zhǔn)確率低的問題,提出一種基于混合采樣的改進(jìn)GWO-SVM 變壓器故障診斷模型,具體結(jié)論如下:
1)針對故障樣本數(shù)據(jù)較少,正常運(yùn)行樣本偏多的問題,提出了基于Borderline-SMOTE-IHT 算法的樣本擴(kuò)充方法,為最大程度地保留故障數(shù)據(jù)重要信息,采用IHT 和Borderline-SMOTE 分別對多數(shù)類樣本和少數(shù)類樣本進(jìn)行刪減和擴(kuò)充處理,關(guān)聯(lián)度矩陣表明該方法保留并增強(qiáng)了某些氣體的特征數(shù)據(jù),提高了樣本的可辨識度。
2)鑒于GWO 算法存在容易陷入局部最優(yōu)解的問題,采用Halton 序列初始化種群和動態(tài)化收斂因子,并基于差分進(jìn)化思想,引入概率突變機(jī)制,提高了算法的泛化能力和收斂精度,分類預(yù)測準(zhǔn)確率為94.05%,相較于傳統(tǒng)的BPNN,PSO-SVM,SSA-SVM與WOA-SVM 模型分別提升了8.63%,12.38%,12.5%,9.55%,證明了所提方法的有效性,可為運(yùn)維人員在故障數(shù)據(jù)不足時,及時掌握變壓器運(yùn)行狀態(tài)并進(jìn)行檢修工作,具有一定的理論意義和工程實(shí)用價值。