王 毅 ,陳 進(jìn) ,李松濃 ,陳 濤 ,戴蓮丹 ,宣 姝
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.國(guó)網(wǎng)重慶市電力公司電力科學(xué)研究院,重慶 400014;3.國(guó)網(wǎng)重慶市電力公司營(yíng)銷服務(wù)中心,重慶 400023)
電弧是一種由于絕緣介質(zhì)被電壓擊穿而導(dǎo)致的持續(xù)放電現(xiàn)象,通常伴隨著電極部分揮發(fā)[1-2]。在生活中由于輸電線長(zhǎng)時(shí)間帶載、過(guò)載產(chǎn)生熱量或者由于外力導(dǎo)致的絕緣層老化、破損,會(huì)產(chǎn)生電弧現(xiàn)象[3-4]。這類電弧是人們不希望產(chǎn)生的,稱為故障電弧[5-6]。
近年來(lái),相關(guān)學(xué)者從不同角度對(duì)故障電弧的檢測(cè)進(jìn)行了廣泛研究,文獻(xiàn)[7]通過(guò)快速傅里葉變換(FFT)得到電流的幅度譜,再對(duì)其進(jìn)行稀疏表示來(lái)進(jìn)行故障檢測(cè),在對(duì)稀疏表示的Lp 范數(shù)進(jìn)行調(diào)整時(shí),發(fā)現(xiàn)對(duì)不同的數(shù)據(jù)采用不同的范數(shù)可以提高分類的準(zhǔn)確性。文獻(xiàn)[8]分別分析了小波熵算法、基于支持向量機(jī)(SVM)和邏輯回歸的分類模型,綜合以上算法可知相對(duì)于簡(jiǎn)單方法,該組合算法具有更好的檢測(cè)功能。文獻(xiàn)[9]集中討論了電弧電流中的40~100 kHz 的高頻諧波部分,通過(guò)FFT 和閾值設(shè)置,可以有效識(shí)別故障電弧。文獻(xiàn)[10]提取電流中的9 個(gè)時(shí)頻域特征,再使用主成分分析將9 個(gè)特征在維度上縮減為3 個(gè)參數(shù),最后使用SVM 建立了負(fù)荷識(shí)別和串聯(lián)電弧檢測(cè)的綜合模型。
上述故障識(shí)別均從故障的高頻分量入手,通常需要高采樣頻率和高計(jì)算量。本文通過(guò)實(shí)驗(yàn)采集大量電流,各種信息混合情況下傳統(tǒng)機(jī)器學(xué)習(xí)算法表現(xiàn)不佳,本文提出一種Stacking 模型融合的時(shí)域故障電弧檢測(cè)方法,經(jīng)驗(yàn)證該算法的識(shí)別率能達(dá)到98%以上。
本文根據(jù)GBT 31143-2014《電弧故障保護(hù)電器的一般要求》選用故障電弧發(fā)生器,根據(jù)各公開文獻(xiàn)對(duì)家用電器的大致分類選用多個(gè)典型負(fù)載采集電流信息,實(shí)驗(yàn)采集原理如圖1 所示。
圖1 電流信息采集系統(tǒng)
本文使用白熾燈、電風(fēng)扇、電烙鐵、調(diào)光燈、LED 燈和筆記本作為典型負(fù)載進(jìn)行測(cè)量,使用電流互感器和picoscope高性能示波器作為電流采集工具,采樣頻率為10 kHz。在采集故障電流時(shí),根據(jù)GB14.287.4-2014《電器火災(zāi)監(jiān)控系統(tǒng)第4 部分:故障電弧探測(cè)器》規(guī)定電弧持續(xù)時(shí)間不超過(guò)0.42 ms 或者不超過(guò)額定電流值5%的微小電弧不作為電弧統(tǒng)計(jì)。
如圖1 所示,采集正常電流時(shí)不接入故障電弧發(fā)生器,利用示波器與電流互感器相連測(cè)量電流;采集故障電流時(shí)串聯(lián)接入故障電弧發(fā)生器,實(shí)驗(yàn)開始前旋轉(zhuǎn)故障電弧發(fā)生器移動(dòng)電極的螺桿使紫銅錐棒與固定電極石墨圓棒接觸,此時(shí)電路閉合,實(shí)驗(yàn)開始后緩緩旋轉(zhuǎn)螺桿將移動(dòng)電極拉開使故障電弧發(fā)生器內(nèi)產(chǎn)生連續(xù)電弧,保存此段電流作為故障電流。使用上述方法采集6 種不同類型用電器單獨(dú)和混合電流波形。
采集不同類型用電器混合工作狀態(tài)下的正常和故障電流,用電器功率信息如表1 所示,采集樣本信息如表2 所示。
表1 典型負(fù)載
選取表1 中所示的負(fù)載作為典型負(fù)載進(jìn)行測(cè)量。采集的電流信息包括各種電器單獨(dú)工作以及不同類型用電器同時(shí)工作時(shí)正常和故障電流信息。采集電器和采集到的電流樣本情況如表2 所示。
表2 電流信息采集情況
本文主要針對(duì)低壓交流故障電弧進(jìn)行檢測(cè),此類故障電弧的一般特性為:故障電弧信號(hào)中含有高頻噪聲;電弧電流上升速度快于非電弧電流;電弧電流存在“平肩部”[2]。分別取白熾燈、筆記本正常和故障電流的5 個(gè)周期進(jìn)行歸一化后繪制圖2 所示電流波形。
圖2 白熾燈和筆記本正常和電弧狀態(tài)電流波形
機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)等多門學(xué)科[11]。機(jī)器學(xué)習(xí)算法可分為三大類:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。本文主要使用監(jiān)督學(xué)習(xí)算法進(jìn)行故障電弧檢測(cè),將所有正常電流的類標(biāo)簽設(shè)為1,故障電流數(shù)據(jù)類標(biāo)簽設(shè)為2。
提取時(shí)域電流數(shù)據(jù)的平均值、中位數(shù)、方差以及極差進(jìn)行故障識(shí)別。表3 為求解上述特征的表達(dá)式。其中,N 表示一個(gè)電流周期內(nèi)的采樣電流個(gè)數(shù);xi表示當(dāng)前電流周期內(nèi)的第i 個(gè)電流樣本。
表3 時(shí)域特征表達(dá)式
本文選取決策樹進(jìn)行故障識(shí)別,決策樹是一種樹形結(jié)構(gòu)[12],由節(jié)點(diǎn)和有向邊組成。節(jié)點(diǎn)有兩種類型:非葉子節(jié)點(diǎn)和葉子節(jié)點(diǎn)。非葉子節(jié)點(diǎn)表示一個(gè)特征或?qū)傩?葉子節(jié)點(diǎn)表示一個(gè)類。決策樹結(jié)構(gòu)如圖3 所示。
圖3 決策樹結(jié)構(gòu)
決策樹的學(xué)習(xí)本質(zhì)上是從訓(xùn)練集中歸納出一組分類規(guī)則,得到與數(shù)據(jù)集矛盾較小的樹形結(jié)構(gòu)。決策樹學(xué)習(xí)的損失函數(shù)通常是正則化的極大似然函數(shù),通常采用啟發(fā)式方法,近似求解這一最優(yōu)化問(wèn)題。
本文使用網(wǎng)格搜索法對(duì)決策樹的最大深度進(jìn)行尋優(yōu)。網(wǎng)格搜索法首先為想要調(diào)參的參數(shù)設(shè)定一組候選值,然后窮舉參數(shù)的組合,再根據(jù)設(shè)定的評(píng)分機(jī)制找到最好的設(shè)置。本文設(shè)定決策樹的最大深度從1 到20 依次遞增,取表2 中14 種用電器的正常和故障電流信息各1 500 組組成樣本集,將樣本集按照5 份切分進(jìn)行交叉驗(yàn)證,將5 次測(cè)試集準(zhǔn)確率的平均值作為評(píng)分標(biāo)準(zhǔn),找到評(píng)分最高的組對(duì)應(yīng)的最大深度作為最優(yōu)值進(jìn)行決策樹建模。過(guò)程如圖4 所示。
圖4 為具有交叉驗(yàn)證的網(wǎng)格搜索法。上述方法在Python3.8 環(huán)境下仿真可得仿真結(jié)果,如圖5 所示。
圖4 具有交叉驗(yàn)證的網(wǎng)格搜索法
由圖5 可得出決策的最大深度最優(yōu)值為14,最優(yōu)識(shí)別率為94.11%。現(xiàn)考慮使用集成機(jī)器學(xué)習(xí)的方法對(duì)改模型進(jìn)行改進(jìn),提高故障識(shí)別率。
圖5 決策樹參數(shù)尋優(yōu)
集成學(xué)習(xí)將訓(xùn)練集數(shù)據(jù)輸入若干弱學(xué)習(xí)器,通過(guò)一定的結(jié)合策略,最終可以得到一個(gè)強(qiáng)學(xué)習(xí)器[13-14]。
集成方法可分為兩類:第一類是串行集成方法,其中參與訓(xùn)練的弱學(xué)習(xí)器按照順序生成(Boosting 框架)。序列方法的原理是利用弱學(xué)習(xí)器之間的依賴關(guān)系,通過(guò)對(duì)之前訓(xùn)練中錯(cuò)誤標(biāo)記的樣本賦值較高的權(quán)重,可以提高整體的預(yù)測(cè)效果。另一類是并行集成方法,其中參與訓(xùn)練的弱學(xué)習(xí)器并行生成(Bagging 框架)。并行方法的原理是利用弱學(xué)習(xí)器之間的獨(dú)立性,通過(guò)平均可以顯著降低錯(cuò)誤。
本文選擇基于bagging 框架的隨機(jī)森林和極限樹以及基于boosting 框架的Adaboost 和XGboost 算法對(duì)決策樹進(jìn)行優(yōu)化。
隨機(jī)森林和Adaboost 選擇14 作為每棵樹的最大深度。其基學(xué)習(xí)器個(gè)數(shù)使用參數(shù)尋優(yōu)的方法,以算法耗費(fèi)的時(shí)間和準(zhǔn)確率為評(píng)分機(jī)制,找到最佳參數(shù)。集成算法準(zhǔn)確率如圖6 所示。
圖6 中隨著樹數(shù)量的增加,算法準(zhǔn)確率也有所增加,其中Adaboost 在樹數(shù)量增加64 后,準(zhǔn)確率基本不上升但耗費(fèi)時(shí)間會(huì)增多,故對(duì)于Adaboost 來(lái)說(shuō),選擇64 棵樹作為基學(xué)習(xí)器是合適的;隨機(jī)森林在100 棵樹的條件下準(zhǔn)確率較高,同時(shí)耗費(fèi)的時(shí)間不多,故選擇100 棵樹作為隨機(jī)森林的基學(xué)習(xí)器。
圖6 集成算法準(zhǔn)確率
對(duì)于極限樹和XGboost 算法的最大深度和樹的數(shù)量,首先在1~1 000 以內(nèi)按200 劃分為5 份,在每份中分別按10 劃分尋找最優(yōu)值。對(duì)于極限樹和XGboost,表4 和表5 分別表示網(wǎng)格搜索得到的最優(yōu)值。
表4 極限樹參數(shù)尋優(yōu)
表5 XGBoost 參數(shù)尋優(yōu)
極限樹最大深度從10 至100 按間隔10 遞增,基學(xué)習(xí)器個(gè)數(shù)從100 至300 按10 遞增。表4 列出了最大深度50 至60、基學(xué)習(xí)器200 至220 的準(zhǔn)確率,從表中可看出最大深度為60、基學(xué)習(xí)器210 時(shí)準(zhǔn)確率最高,故后續(xù)仿真中極限樹的參數(shù)均以上述數(shù)值為準(zhǔn)。
XGboost 最大深度從8 至10 間隔2 遞增,基學(xué)習(xí)器個(gè)數(shù)從10 至200 間隔10 遞增。表5 列出了最大深度8至12、基學(xué)習(xí)器個(gè)數(shù)110 至130 對(duì)應(yīng)的準(zhǔn)確率,可得最大深度為10,基學(xué)習(xí)器120 個(gè)時(shí)準(zhǔn)確率最高。
將個(gè)體學(xué)習(xí)器結(jié)合在一起時(shí)使用的方法叫作結(jié)合策略。有一種結(jié)合策略是使用另外一個(gè)機(jī)器學(xué)習(xí)算法來(lái)將個(gè)體機(jī)器學(xué)習(xí)器的結(jié)果結(jié)合在一起,這個(gè)策略就是Stacking[15]。
本文區(qū)別于常用的將機(jī)器學(xué)習(xí)算法作為基學(xué)習(xí)器的方法,將經(jīng)過(guò)參數(shù)尋優(yōu)的集成機(jī)器學(xué)習(xí)模型作為基學(xué)習(xí)器進(jìn)行Stacking 模型融合。在Stacking 方法中次級(jí)學(xué)習(xí)器一般使用線性算法,本文使用邏輯回歸算法作為次級(jí)學(xué)習(xí)器。
圖7~圖10 分別表示在不同訓(xùn)練集下提升樹、隨機(jī)森林、極限樹、XGBoost 以及Stacking 集成算法的準(zhǔn)確率、精確率、召回率以及F1 指標(biāo)。其中,Stacking 使用前4 種集成機(jī)器學(xué)習(xí)算法作為初級(jí)學(xué)習(xí)器。
準(zhǔn)確率是分類正確的樣本個(gè)數(shù)占總樣本個(gè)數(shù)的比例,是分類問(wèn)題中最簡(jiǎn)單最常用的評(píng)價(jià)指標(biāo)。如圖7 所示,本仿真中4 種算法的準(zhǔn)確率隨著樣本數(shù)量的增大而有所增加,但其識(shí)別率基本處于95%以上,在樣本集大的情況下,準(zhǔn)確率能達(dá)到97%以上,相較于非集成算法決策樹而言,準(zhǔn)確率有所提升。且Stacking 模型融合算法準(zhǔn)確率在集成學(xué)習(xí)的基礎(chǔ)上又有所提升,在樣本量較大的情況下,準(zhǔn)確率能達(dá)到98%-99%。
圖7 算法準(zhǔn)確率
在本文仿真中,正常電流特征被標(biāo)記為正例,故障電流特征被標(biāo)記為反例。精確率指模型預(yù)測(cè)為正的樣本中實(shí)際也為正的樣本占被預(yù)測(cè)為正的樣本的比例,體現(xiàn)了模型對(duì)負(fù)樣本的區(qū)分能力,精確度越高,模型對(duì)負(fù)樣本的區(qū)分能力越強(qiáng)。本文提出的故障電弧檢測(cè)算法主要需要檢測(cè)出電流中的負(fù)樣本。如圖8 所示,Stacking 集成算法精確度不論在大樣本還是小樣本情況下都明顯高于其他算法。
圖8 算法精確率
召回率指實(shí)際為正的樣本中被預(yù)測(cè)為正的樣本所占實(shí)際為正的樣本的比例,體現(xiàn)模型對(duì)負(fù)樣本的識(shí)別能力,召回率越高,模型對(duì)正樣本的識(shí)別能力越強(qiáng)。對(duì)于本文,召回率可以認(rèn)為是正常樣本被錯(cuò)判為故障樣本的比例,召回率越高,其誤判的可能性越低。如圖9 所示,在樣本量較大的情況下Stacking 算法在召回率上也有很好的表現(xiàn)。就此指標(biāo)來(lái)說(shuō),Stacking 算法在誤報(bào)率上也有很好的性能。
圖9 算法召回率
在實(shí)際應(yīng)用中,為了評(píng)價(jià)模型的綜合性能,引入了F1 指標(biāo)對(duì)模型進(jìn)行進(jìn)一步評(píng)判。F1 指標(biāo)是精確率和召回率的調(diào)和平均值,F(xiàn)1 指標(biāo)越高,說(shuō)明模型更穩(wěn)健。在圖10 中可看出,在樣本數(shù)量較大或較小的情況下,Stacking 算法的F1 指標(biāo)均高于其他算法,故Stacking 模型融合算法具有更好的穩(wěn)健性。
圖10 算法F1 指標(biāo)
綜上所述,Stacking 模型融合算法不論在準(zhǔn)確性、精確性、召回率以及F1 指標(biāo)都有較好的表現(xiàn),Stacking 算法更適合于故障電弧檢測(cè)。
本文主要針對(duì)住宅和配電網(wǎng)情況下的低壓交流故障電弧檢測(cè),在此供電條件下,使用符合標(biāo)準(zhǔn)的故障電弧發(fā)生器采集電流信息。由于時(shí)頻轉(zhuǎn)換算法需要耗費(fèi)大量計(jì)算時(shí)間,故本文只使用時(shí)域特征組成特征矩陣,結(jié)合模型融合進(jìn)行故障識(shí)別。經(jīng)過(guò)大量實(shí)驗(yàn)數(shù)據(jù)的驗(yàn)證可知,Bagging 集成框架和Boosting 集成框架對(duì)故障識(shí)別算法均有改進(jìn)。但是將上述集成算法作為Stacking 模型融合的初級(jí)學(xué)習(xí)器進(jìn)行故障檢測(cè)可獲得更好的性能。