廖建平,單 杰,李志軍,,陳昊旻,楚金偉,萬 福
(1.中國南方電網(wǎng)有限責(zé)任公司 超高壓輸電公司,廣東 廣州 510663;2.國電南京自動化股份有限公司,江蘇 南京 211153;3.重慶大學(xué) 輸配電裝備及系統(tǒng)安全與新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,重慶 400030)
油中溶解氣體分析(dissolved gas analysis,DGA)是診斷油浸式高壓電力設(shè)備故障的重要手段[1]。在線色譜技術(shù)是實(shí)現(xiàn)油浸式變壓器實(shí)時(shí)監(jiān)測的關(guān)鍵技術(shù)。油浸式變壓器在線色譜峰定性是確定某色譜峰所對應(yīng)的特征氣體,主要任務(wù)是從有干擾的色譜信號中提取特定組分氣體譜峰的信息,包括峰的起始點(diǎn)、峰的頂點(diǎn)、峰的結(jié)束點(diǎn)等。
目前,色譜峰定性分析方法很多,包括時(shí)間窗法[2]、導(dǎo)數(shù)法[3-4]、匹配模式法[5]、灰色關(guān)聯(lián)度分析法[6]以及反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)法[7]。文獻(xiàn)[5]利用模式匹配技術(shù)進(jìn)行變壓器色譜峰定性,會出現(xiàn)不合理的負(fù)相關(guān)以及不同參數(shù)的選擇導(dǎo)致不同的結(jié)果。文獻(xiàn)[6]是對文獻(xiàn)[3-4]的改進(jìn),但是關(guān)聯(lián)度數(shù)值設(shè)定過于剛性化。文獻(xiàn)[7]采用的BP神經(jīng)網(wǎng)絡(luò)是對斜率門限閾值和窗口區(qū)間閾值的確定,存在色譜峰漂移難以辨識的問題。故時(shí)間窗法和導(dǎo)數(shù)法是目前的主流方法,但其根據(jù)保留時(shí)間設(shè)定每個(gè)成分的窗口區(qū)間從而進(jìn)行成分定性[8],在實(shí)際應(yīng)用中存在的缺點(diǎn)是辨識范圍較小,抗假峰能力差。色譜儀器長時(shí)間運(yùn)行之后,色譜峰會出現(xiàn)不可避免地漂移,若漂移范圍超過窗口區(qū)間則出現(xiàn)無法識峰或識峰錯(cuò)誤的故障。文獻(xiàn)[9]引入模糊數(shù)學(xué)來解決這一問題,但隸屬度函數(shù)一般根據(jù)經(jīng)驗(yàn)選區(qū),具有很大的主觀性,容易導(dǎo)致誤判。
針對以上問題,本文將C4.5決策樹算法引入電力變壓器油色譜定性領(lǐng)域,對色譜峰的有效定性起到一定的作用。
決策樹是一種常見的機(jī)器學(xué)習(xí)方法。C4.5決策樹算法是數(shù)據(jù)分類算法中比較常用的經(jīng)典算法之一,得到的結(jié)果較為準(zhǔn)確,理解性強(qiáng),容易看懂[10]。該算法同時(shí)也是一種監(jiān)督學(xué)習(xí),首先給定多個(gè)樣本,每個(gè)樣本都有一組特征屬性和一個(gè)類別,這些類別是事先確定的,通過監(jiān)督學(xué)習(xí)得到一個(gè)分類器(決策樹模型)。這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對象根據(jù)其特征屬性給出正確的分類[11]。
本文色譜數(shù)據(jù)來源于國電南京自動化股份有限公司NS801B變壓器油中溶解氣體在線監(jiān)測裝置,該裝置基于氣相色譜檢測技術(shù),能按預(yù)設(shè)的周期實(shí)時(shí)監(jiān)測變壓器油中溶解的H2、CO、CO2、CH4、C2H2、C2H4和C2H6等特征氣體濃度和增長率,通過故障診斷專家系統(tǒng)分析潛伏性故障及故障類型,便于實(shí)時(shí)了解變壓器運(yùn)行狀態(tài)。裝置內(nèi)采用的色譜分離模塊可采集上述7種氣體,色譜曲線圖如圖1所示。
圖1 色譜曲線圖
NS801B裝置利用導(dǎo)數(shù)的辨識峰算法獲得的峰位置達(dá)上百個(gè),只知道峰位置,不知道這個(gè)峰到底是哪個(gè)組分。該裝置采用的方法是根據(jù)保留時(shí)間設(shè)定窗口區(qū)間來定性組分,即對于每個(gè)成分,根據(jù)該成分的標(biāo)準(zhǔn)保留時(shí)間預(yù)先設(shè)定其窗口變動區(qū)間閾值,只要實(shí)際色譜分析所得的保留時(shí)間在標(biāo)準(zhǔn)保留時(shí)間的窗口變動區(qū)間內(nèi),便定性該組分峰。然而色譜分析流程是多因素耦合的復(fù)雜非線性系統(tǒng),由于變壓器油色譜在線監(jiān)測裝置在長期運(yùn)行過程中,色譜峰受載氣流量、色譜柱老化、環(huán)境溫度、氣敏檢測器、油氣分離等多因素影響,導(dǎo)致色譜圖會出現(xiàn)非規(guī)則、不確定性變化,如峰位的前后移動、峰形的擴(kuò)展收縮。顯然,如果此時(shí)仍然采用固定閾值對色譜圖分析處理就會產(chǎn)生較大的誤差,易出現(xiàn)對氣體色譜峰的誤判和漏判現(xiàn)象,影響檢測的正確性和準(zhǔn)確性。
圖2 采用C4.5決策樹算法對組分峰進(jìn)行定性的研究流程
本文采用C4.5決策樹算法對組分峰進(jìn)行定性,在決策樹對根結(jié)點(diǎn)選取時(shí),采用二分法對連續(xù)屬性進(jìn)行離散化處理,從而得到特征屬性的自適應(yīng)閾值;接著利用特征屬性作為結(jié)點(diǎn)進(jìn)行決策樹分類,得到7個(gè)組分峰;再按照預(yù)定順序?qū)?個(gè)組分峰進(jìn)行定性,從而避免利用保留時(shí)間設(shè)定的窗口區(qū)間所帶來的識峰錯(cuò)誤。采用C4.5決策樹算法對組分峰進(jìn)行定性的研究流程如圖2所示。
為了充分說明本文算法,收集了NS801B裝置監(jiān)測的不同油中溶解氣體濃度的7組數(shù)據(jù),其數(shù)據(jù)編號分別為20190605152550、20190605162730、20190605172741、20190605182731、20190605187462、20190605111772和20190605162435。NS801B變壓器油中溶解氣體在線監(jiān)測裝置辨識的每一組數(shù)據(jù)中的峰個(gè)數(shù)分別為363、183、172、221、145、179和156。本文將第1組數(shù)據(jù)作為訓(xùn)練樣本集D,共計(jì)363個(gè);將剩余組數(shù)據(jù)作為測試樣本集,分別為Q1、Q2、Q3、Q4、Q5和Q6。
NS801B變壓器油中溶解氣體在線監(jiān)測裝置可以測得的峰屬性包括:起始點(diǎn)、中間點(diǎn)、結(jié)束點(diǎn)、峰高、峰寬、峰面積、高寬比(峰高/峰寬)、峰間距和峰類型等。本文將其屬性分為兩類:第一類為決策特征屬性(用于決策樹算法的數(shù)據(jù)分類);第二類為無效屬性,即非第一類屬性。定義決策樹算法峰定性的特征屬性集為:
U={峰高,峰寬,峰面積,峰中點(diǎn)位置}。
經(jīng)過數(shù)據(jù)準(zhǔn)備及數(shù)據(jù)選取之后,本文得到了訓(xùn)練樣本集D,測試樣本集Q1~Q6以及特征屬性集U。充分利用特征屬性集,選擇最優(yōu)的特征屬性進(jìn)行組合,建立分類規(guī)則,分類出有效峰。
2.2.1 特征屬性閾值的自適應(yīng)
傳統(tǒng)方法根據(jù)經(jīng)驗(yàn)固定閾值大小,而本文算法特征屬性集U中的4個(gè)特征屬性(峰高、峰寬、峰面積和峰中點(diǎn)位置)都是連續(xù)值,將數(shù)據(jù)進(jìn)行預(yù)處理(即離散化),從而自適應(yīng)閾值。本文利用二分法對連續(xù)屬性進(jìn)行處理[12],得到自適應(yīng)閾值。
定義h、w、s和p分別為訓(xùn)練樣本集D中特征屬性峰高、峰寬、峰面積和峰中點(diǎn)位置的連續(xù)屬性。h、w、s和p在訓(xùn)練樣本集D上出現(xiàn)了V個(gè)可能的取值(V≤363),將這些取值從小到大進(jìn)行排序,分別記為:
峰高:{h1,h2,h3,…,hV};
峰寬:{w1,w2,w3,…,wV};
峰面積:{s1,s2,s3,…,sV};
峰中點(diǎn)位置:{p1,p2,p3,…,pV},
各個(gè)V值根據(jù)數(shù)據(jù)真實(shí)情況各不相同。
以峰高h(yuǎn)為例,基于劃分點(diǎn)t可將訓(xùn)練樣本集分為Dt+和Dt-,其中,Dt-包含峰高不大于t的樣本,Dt+包含峰高大于t的樣本。顯然,對相鄰的屬性取值hi與hi+1來說,t在區(qū)間[hi,hi+1)中任意取值所產(chǎn)生的劃分結(jié)果相同。因此,對連續(xù)屬性峰高h(yuǎn),本文考察包含(V-1)個(gè)元素的候選分點(diǎn)集合
(1)
2.2.2 基于信息增益比率的C4.5決策樹結(jié)點(diǎn)特征屬性選擇
C4.5決策樹算法采用自頂向下的貪婪搜索歷遍可能的決策樹空間[13]。該算法的構(gòu)造過程從“特征屬性集U中哪一個(gè)特征將在樹的根結(jié)點(diǎn)被測試”的問題開始,分類能力最好的特征屬性將被選作樹的根結(jié)點(diǎn),然后為該根結(jié)點(diǎn)特征的每個(gè)可能值產(chǎn)生一個(gè)分支,并將訓(xùn)練樣本集D排列到適當(dāng)?shù)姆种е?即樣本的特征屬性值對應(yīng)的分支);重復(fù)整個(gè)過程,用每個(gè)分支結(jié)點(diǎn)關(guān)聯(lián)的訓(xùn)練樣本來選取在該結(jié)點(diǎn)被測試的最佳特征[14]。特征參數(shù)集U中共4個(gè)特征參數(shù)(h,w,s,p),利用C4.5決策樹算法的增益率來選擇最佳的劃分特征屬性,以峰高h(yuǎn)為例,具體步驟如下。
步驟1計(jì)算信息熵。信息熵是度量樣本集純度最常用的一種指標(biāo)。當(dāng)前訓(xùn)練樣本集D中有效峰所占的比例為Pk(k=1,2),則D的信息熵定義[12]如下:
(2)
其中:Ent(D)的值越小,D的純度越高;訓(xùn)練樣本集D中包含有效峰和無效峰。
步驟2根據(jù)2.2.1小節(jié)進(jìn)行數(shù)據(jù)離散化處理之后,計(jì)算出用特征屬性峰高h(yuǎn)對訓(xùn)練樣本集D進(jìn)行劃分所獲得的信息增益[12]:
(3)
步驟3C4.5決策樹算法是從候選劃分屬性中找出信息增益高于平均水平的屬性,再從中選擇增益率最高的。增益率定義[12]如下:
(4)
其中:
(5)
IV(h)稱為特征屬性h的固有值。一般來說屬性h的可能取值越多(即V越大),則IV(h)的值通常會越大[15]。
步驟4比較Gain_ratio(D,h),Gain_ratio(D,w),Gain_ratio(D,s),Gain_ratio(D,p)的大小,選擇最大的值作為最佳劃分點(diǎn),即根結(jié)點(diǎn)。接著在每個(gè)分支結(jié)點(diǎn)循環(huán)以上過程。
結(jié)束條件:數(shù)據(jù)分類結(jié)束或者所有True決策點(diǎn)樣本總數(shù)和為7。
2.2.3 決策樹形成
訓(xùn)練編號為20190605152550的第1組數(shù)據(jù),對特征屬性“峰高”,在決策樹學(xué)習(xí)開始時(shí),根結(jié)點(diǎn)包含19個(gè)訓(xùn)練樣本(363個(gè)數(shù)據(jù)值中除去重復(fù)峰寬值所得到的真實(shí)樣本)。故由式(2)得Ent(D)=0.949 452。根據(jù)式(1),該屬性的候選劃分點(diǎn)集合包含15個(gè)候選值:T峰高={0,0.002 342,0.008 358,0.019 199,0.033 967,0.918 968,1.968 109,4.132 203,6.571 499,10.679 400,15.141 897,18.746 905,22.110 970,22.893 356,31.650 967}。由式(3)可計(jì)算出特征屬性“峰高”的信息增益較高的劃分點(diǎn)為0.918 968,對應(yīng)信息增益為0.485。最后,由式(4)得該劃分點(diǎn)的增益率為Gain_ratio(D,h)=0.486。
同理,得到其余特征屬性劃分點(diǎn)和增益率為:
峰寬:92.509,Gain_ratio(D,w)=0.588;
峰面積:80.318,Gain_ratio(D,s)=0.484;
峰中點(diǎn)位置:4 022.5,Gain_ratio(D,p)=0.511。
圖3 峰定性的C4.5決策樹
于是,“峰寬”被選為根結(jié)點(diǎn)劃分屬性,接著結(jié)點(diǎn)劃分過程遞歸進(jìn)行,然后對決策樹修剪(修剪過程中發(fā)現(xiàn)本文所示的決策樹已經(jīng)不能再做任何修剪,修剪掉任何規(guī)則都會使分類精度降低,修剪方法見文獻(xiàn)[10]),最終生成如圖3所示的峰定性的C4.5決策樹。
表1 基于C4.5決策樹算法的分類精度結(jié)果
由表1可知:測試結(jié)果的平均準(zhǔn)確率已經(jīng)達(dá)到95.23%,但是仍未達(dá)到準(zhǔn)確無誤進(jìn)行峰識別的預(yù)期。分析其原因,關(guān)鍵在于決策樹中對于特征屬性峰面積閾值的自適應(yīng)設(shè)定。訓(xùn)練樣本集D與測試樣本集Q進(jìn)行比較,發(fā)現(xiàn)訓(xùn)練樣本集D所測氣體濃度較高,導(dǎo)致峰面積較大,故在決策樹算法中得到的自適應(yīng)閾值較大(s=425.32)。這就導(dǎo)致測試樣本集Q1和Q3在大閾值時(shí)的錯(cuò)誤分類。為了解決這一問題,可以將峰面積的閾值人工修改為s=10,則測試樣本Q1和Q3的準(zhǔn)確率從85.7%提升為100%;或者進(jìn)一步擴(kuò)大訓(xùn)練樣本集的容量,找到更為合適的自適應(yīng)閾值,準(zhǔn)確率也會提高。
圖4 變壓器油中溶解氣體在線監(jiān)測裝置現(xiàn)場圖
隨后,將該算法應(yīng)用于國電南京自動化股份有限公司NS801B變壓器油中溶解氣體在線監(jiān)測裝置中,該裝置現(xiàn)場圖如圖4所示。對現(xiàn)場運(yùn)行超過5年的20臺裝置的數(shù)據(jù)進(jìn)行算法驗(yàn)證,其中一臺裝置編號為NS801B-20140623032的部分驗(yàn)證結(jié)果如表2所示。訓(xùn)練樣本集為2014年的現(xiàn)場運(yùn)行數(shù)據(jù)(訓(xùn)練樣本D=36),驗(yàn)證樣本集為2015年6月至2018年6月的數(shù)據(jù)(每2個(gè)月采集1次)。
由表2可知:在不人為調(diào)整峰位置、峰寬等參數(shù)的前提下,當(dāng)訓(xùn)練樣本集D≥30時(shí)就能避免自適應(yīng)閾值不準(zhǔn)確的問題(即上述s過大問題),此時(shí)該算法準(zhǔn)確率在98.4%以上。同時(shí),在數(shù)據(jù)整理過程中發(fā)現(xiàn),該算法應(yīng)用在20臺裝置上時(shí),2015年的準(zhǔn)確率明顯高于2018年??赡苁钱?dāng)裝置運(yùn)行時(shí)間過長時(shí),由于各種原因峰位會向后漂移,造成算法的準(zhǔn)確率下降。為進(jìn)一步提高準(zhǔn)確率,NS801B變壓器油中溶解氣體在線監(jiān)測裝置應(yīng)用策略為每運(yùn)行一個(gè)月,自動將前一個(gè)月的數(shù)據(jù)作為訓(xùn)練樣本,使閾值重新自適應(yīng)一次,葉子結(jié)點(diǎn)將重新生成,得到一棵新的決策樹。此時(shí)該算法的準(zhǔn)確率將接近100%。
表2 裝置編號為NS801B-20140623032的部分驗(yàn)證結(jié)果
本文將C4.5決策樹算法引入了變壓器色譜峰定性領(lǐng)域,論述了基于C4.5決策樹算法的峰定性原理,對該算法進(jìn)行了研究、設(shè)計(jì)和測試分析。該算法通過多個(gè)特征屬性的自適應(yīng)閾值來進(jìn)行決策,原理簡單,有效峰定性準(zhǔn)確,可有效避免因峰位的前后移動、峰形的擴(kuò)展收縮導(dǎo)致的對氣體色譜峰的誤判和漏判等現(xiàn)象。