吳文海,孫 磊,柯 堅(jiān),張 霆
(西南交通大學(xué)機(jī)械工程學(xué)院,成都 610031)
日益惡化的自然環(huán)境造成了絕緣子表面積污速度的增加,因此污閃事故發(fā)生的可能性也進(jìn)一步提高[1]。KJ系列水沖洗設(shè)備,在各大鐵路局使用,并取得良好的效果。然而到目前為止,由于缺乏有效的污穢度檢測方法,沖洗工作的開展多數(shù)依賴于操作人員的經(jīng)驗(yàn),準(zhǔn)確性差,浪費(fèi)資源。為實(shí)現(xiàn)沖洗自動化,急需有效的絕緣子污穢度檢測方法,為絕緣子清潔工作提供重要的技術(shù)前提和保障。
絕緣子的在線檢測因其安裝位置的特殊性及分布區(qū)域的廣泛性而成為難點(diǎn)[2]。多年來,國內(nèi)外一直在尋找有效的絕緣子在線檢測方法,取得了諸多進(jìn)展:泄漏電流法作為一種傳統(tǒng)的接觸式測量方法[3]具有較好的準(zhǔn)確性,文獻(xiàn)[4-5]把其與神經(jīng)網(wǎng)絡(luò)結(jié)合,取得了很好的效果,此種方法需為每個絕緣子安裝傳感器,耗材費(fèi)力,難以滿足實(shí)際應(yīng)用需求;非接觸式測量方法如紅外或紫外成像技術(shù)實(shí)現(xiàn)絕緣子污穢狀態(tài)檢測[6-7]目前是國內(nèi)外研究的熱點(diǎn),可紫外成像技術(shù)受運(yùn)行電壓影響較大且需在放電狀態(tài)下測量,紅外成像技術(shù)受環(huán)境溫度影響較大,精度相對較差,影響因素較多,局限性較大;文獻(xiàn)[8]利用可見光圖像與機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)了絕緣子污穢等級的分類,影響因素相對較少,可監(jiān)督式學(xué)習(xí)中獲取絕緣子真實(shí)污穢度相對不易,且沒有考慮到真實(shí)的樣本分布并處理成多分類模型。
在綜合考量沖洗經(jīng)驗(yàn)及應(yīng)用需求后,提出一種采用支持向量域描述的鐵路絕緣子污穢度檢測方法。結(jié)果表明,該方法對解決絕緣子污穢度的異常檢測問題具有良好的適應(yīng)性和實(shí)用性。
等值鹽密(ESDD)反映了絕緣子的污穢等級,可見光圖像中反映的僅是等值灰密(NSDD),即絕緣子上的覆灰程度。文獻(xiàn)[8]指出:在同一地區(qū)的一段時間內(nèi),落在絕緣子表面的灰塵中的鹽分的比重基本保持不變,即絕緣子表面積灰程度越嚴(yán)重,污穢等級也就越高。因此,可以利用圖像中覆灰程度不同導(dǎo)致的圖像特征的變化來表示等值鹽密的變化,即污穢度。實(shí)際圖像中能反映絕緣子污穢度的特征量很多,這些特征量與絕緣子污穢度間的相對關(guān)系多數(shù)難以直接描述,因此,想要實(shí)現(xiàn)圖像特征與污穢度間相對關(guān)系的確定十分不易,而目前流行的機(jī)器學(xué)習(xí)正是研究這樣一種從大量數(shù)據(jù)中需找描述規(guī)律的方法。
TB/T 2007-2015規(guī)定鐵路絕緣子現(xiàn)場污穢度的測量、污穢度等級分類按照GB/T 26218.1-2010第8章進(jìn)行,定義污穢度等級為很輕、輕、中等、重、很重。按照KJ系列水沖洗車的實(shí)際工作需求,簡化為污染和未污染兩類(即需要沖洗和不需要沖洗),既滿足了實(shí)際應(yīng)用需求又減少了開發(fā)難度。室內(nèi)人工涂污試驗(yàn)所得樣本圖像如圖1所示,污穢樣本與潔凈樣本的圖像特征差異明顯。
圖1 不同污穢度絕緣子的可見光圖像樣本
積灰程度對于絕緣子圖像三大底層特征中的形狀而言影響甚小,可以忽略不記,因此針對紋理和顏色空間,通過一定的方法提取相關(guān)特征量,作為學(xué)習(xí)器的訓(xùn)練樣本。
在提取特征之前,首先采用最大類間方差(Otsu)法對圖像進(jìn)行分割,去除背景對后續(xù)特征計(jì)算的干擾。Otsu法通過最大化類間方差自動選擇合適的閾值,利用此閾值把圖像分割為背景和目標(biāo)兩部分。閾值分割之后的效果如圖2(b)所示,可以看出分割后的結(jié)果可以有效去除背景信息,但依然存在邊緣輪廓不完整,內(nèi)部含有空洞及一些細(xì)小干擾等,因此進(jìn)一步地采用腐蝕、膨脹等形態(tài)學(xué)運(yùn)算填補(bǔ)空洞,平滑輪廓邊緣,去除細(xì)小干擾,最終結(jié)果見圖2(c)。
圖2 圖像分割結(jié)果示意
對分割后的圖像提取其顏色特征,顏色特征具有一定的穩(wěn)定性和魯棒性,對方向和大小不敏感,是描述圖像最簡單有效的特征[9]。選取圖像處理中常用的4種顏色空間:RGB、HSI、Lab、YUV。顏色空間有許多表征方法如顏色直方圖、顏色矩等。采用直方圖來描述顏色空間,其作為一種概率統(tǒng)計(jì)方法,具有旋轉(zhuǎn)不變性和縮放不變性等特點(diǎn),在圖像處理中得到廣泛應(yīng)用。顏色直方圖通過統(tǒng)計(jì)方法計(jì)算出一幅圖像中各顏色分量的概率p(i),并從顏色直方圖中計(jì)算出6種常用的統(tǒng)計(jì)量,分別為:一階矩、二階矩、三階矩、四階矩、能量、熵。
對于紋理特征提取的方法有自相關(guān)函數(shù)法,灰度共生矩陣法(GLCM)等,其中GLCM是公認(rèn)的有效方法,具有很強(qiáng)的魯棒性和適應(yīng)能力,反映了一幅圖像在方向、間隔上變化幅度及快慢的綜合信息[10]。GLCM運(yùn)用統(tǒng)計(jì)的方法計(jì)算一幅圖像f(x,y)從灰度為i的像素點(diǎn)出發(fā),與其距離為d,灰度為j的像素點(diǎn)同時出現(xiàn)的概率p(i,j|d,θ),統(tǒng)計(jì)方向一般取0°,45°,90°,135°。并定義了對比度、能量、相關(guān)性、熵等14個統(tǒng)計(jì)特征值來描述紋理特征。文獻(xiàn)[11]指出這14個特征之中存在冗余結(jié)論,其中,能量、熵、對比度和相關(guān)性間不相關(guān),具有很好的分辨能力。
把顏色和紋理特征融合,常用的特征融合方法是將多個特征串行組合,然而其構(gòu)成的多維特征向量因其自身的冗余性及高維性,造成分類器運(yùn)算時間增長及識別能力下降,所以使用核主成分分析(KPCA)對特征進(jìn)行提取,KPCA是一種常用的非線性降維方法,是利用核技巧對經(jīng)典的主成分分析進(jìn)行的非線性推廣[12],主要思想是首先通過非線性函數(shù)φ把樣本數(shù)據(jù)映射到高維特征空間F,然后在F中應(yīng)用PCA進(jìn)行降維。假設(shè)樣本X=[x1,x2,…,xN]通過φ映射到F=[φ(x1),φ(x2),…,φ(xN)],映射后訓(xùn)練樣本的協(xié)方差矩陣S為
(1)
若映射后的樣本已被中心化,通過對S進(jìn)行特征值分解可求得S的特征向量v和特征值λ,有
λφ(xk)v=φ(xk)Sv,k=1,2,…,N
(2)
特征向量可由特征空間F的一維坐標(biāo)描述,則v可表示為
(3)
將式(1)和式(3)代入到式(2),并引入核矩陣Kij=φ(xi)φ(xi),即可以得到
Nλα=Kα
(4)
通過式(4)可求得特征向量和特征值,進(jìn)而通過投影變換即可以確定樣本在低維空間的表示。
由于無法窮盡樣本空間的所有特征,因此傳統(tǒng)的異常檢測方法效果并不理想。而單分類的學(xué)習(xí)方法只針對正常樣本進(jìn)行學(xué)習(xí)形成診斷策略,對于異常檢測可以取得較好的效果。其中支持向量數(shù)據(jù)描述(SVDD)以支持向量機(jī)和統(tǒng)計(jì)學(xué)習(xí)理論(SLT)為基礎(chǔ),繼承了支持向量機(jī)的優(yōu)點(diǎn),魯棒性好,小樣本學(xué)習(xí)時具有很好的泛化能力[13]。但傳統(tǒng)的SVDD方法側(cè)重于對方法的探索,對數(shù)據(jù)集本身的關(guān)注程度不夠,脫離實(shí)際問題背景去單純的研究學(xué)習(xí)算法,在實(shí)際應(yīng)用中效果不佳,而且SVDD以距離為度量,當(dāng)輸入空間的樣本在各方向上距離不均勻時,最終得到的描述輪廓會包含許多空白區(qū)域,如當(dāng)樣本中含有離群點(diǎn)時SVDD易發(fā)生過擬合現(xiàn)象。且SVDD構(gòu)造的描述邊界間隔為0,泛化能力不強(qiáng)。文獻(xiàn)[14]在SVDD的基礎(chǔ)上引入粗糙集的概念,通過在特征空間尋找具有上超球和下超球結(jié)構(gòu)的粗糙支持向量數(shù)據(jù)描述(RSVDD),在一定程度上解決了這個問題,然而在RSVDD中構(gòu)造超球面時,邊界區(qū)域以外的數(shù)據(jù)和邊界區(qū)域內(nèi)的數(shù)據(jù)分別具有相同的懲罰因子C和δC,沒有充分考慮樣本的分布信息對超球體的影響,許多文獻(xiàn)在傳統(tǒng)SVDD中引入樣本的分布信息,文獻(xiàn)[15]使用KNN算法構(gòu)造出密度權(quán)重SVDD,文獻(xiàn)[16]使用局部密度改進(jìn)了一種密度誘導(dǎo)SVDD等,都具有很好的效果。結(jié)合上述研究成果,引入一種模糊因子來描述整個數(shù)據(jù)集的分布情況,通過模糊因子對不同的樣本引入不同的懲罰項(xiàng),構(gòu)造一個更加緊湊的模糊粗糙支持向量數(shù)據(jù)描述(FRSVDD)。FRSVDD的優(yōu)化目標(biāo)如式(5)所示
(5)
這個優(yōu)化問題的解可以通過構(gòu)造Lagrange函數(shù)給出,并引入核函數(shù)K(x,y),即可把上述優(yōu)化問題的對偶問題轉(zhuǎn)化為二次規(guī)劃問題
(6)
求解這個二次規(guī)劃問題可以得到Lagrange乘子αi,而且超球體的球心為
(7)
根據(jù)KKT條件,得到下述結(jié)論:
(1)αi=0對應(yīng)的數(shù)據(jù)點(diǎn)位于下超球邊界內(nèi);
(2)0<αi (3)αi=Cωi對應(yīng)的數(shù)據(jù)點(diǎn)位于下超球邊界外且位于上超球邊界內(nèi),即可能性區(qū)域; (4)Cωi<αi<δCωi對應(yīng)的數(shù)據(jù)點(diǎn)位于上超球邊界上; (5)αi=δCωi對應(yīng)的數(shù)據(jù)點(diǎn)位于上超球的邊界外。 RU與RL分別為上超球半徑與下超球半徑,結(jié)合式(7)進(jìn)而可確定上下邊界輪廓。而對于任意一個測試樣本點(diǎn),其與超球中心a的距離與上、下超球半徑作出比較即可判斷測試樣本污穢度的異常。 其中模糊因子ωi的確定使用可能性1-聚類算法(PCM,C=1)實(shí)現(xiàn),PCM在模糊均值聚類(FCM)的基礎(chǔ)上放寬了對隸屬程度的約束,使得隸屬度不再是對1的共享或者劃分,聚類結(jié)果受噪聲點(diǎn)的干擾程度較小,具有較好的魯棒性。且P1M具有良好的全局收斂性,可以在很大程度上保證每個模糊因子是對數(shù)據(jù)描述輪廓中心的度量。 為驗(yàn)證方法的可行性,按照絕緣子污穢標(biāo)準(zhǔn)進(jìn)行室內(nèi)人工涂污實(shí)驗(yàn)并采集樣本圖像共806張,隨機(jī)選取圖像作為訓(xùn)練集,其余作為測試集,每次實(shí)驗(yàn)保證訓(xùn)練集數(shù)量在600以上。對分割之后的圖像一方面使用顏色直方圖提取出RGB、HSV、YUV空間中的均值、方差、偏差、峰度、能量、熵共54個特征值,另一方面使用GLCM提取出0°、45°、90°、135°四個方向上的能量、熵、對比度、相關(guān)性共計(jì)16個特征,其中部分特征結(jié)果列舉如圖3、圖4所示??梢钥闯?,大部分特征對NSDD都很敏感,可以作為樣本輸入到學(xué)習(xí)器中很好地進(jìn)行訓(xùn)練,比如各顏色空間中的熵如圖3所示;可有些特征值之間存在冗余結(jié)論,如圖4所示,不同樣本圖像紋理空間相關(guān)性整體趨勢相同,可用一個方向表示。 圖3 不同樣本圖像顏色空間的熵 圖4 不同樣本圖像紋理空間的相關(guān)性 圖5 各主元的累積貢獻(xiàn)率 使用KPCA對樣本空間進(jìn)行降維,其中核函數(shù)選用高斯核函數(shù),各主元的累積貢獻(xiàn)率如圖5所示,可以看出核函數(shù)寬度對累積貢獻(xiàn)率的影響很大,為了在保留盡可能多的主成分的情況下實(shí)現(xiàn)可視化的分析,綜合考量之后選取核函數(shù)寬度為200,選用前二維主元在低維空間中表示原始數(shù)據(jù),累積貢獻(xiàn)率達(dá)到88.50%,能保留絕大部分原始空間的信息。 對降維后的二維樣本,首先使用P1M進(jìn)行學(xué)習(xí)訓(xùn)練確定模糊因子ωi,其中模糊程度系數(shù)設(shè)置為3,由于P1M隨機(jī)初始化聚類中心和隸屬度,并通過迭代的方法得到的模糊因子ωi,因此結(jié)果具有一定的隨機(jī)性,應(yīng)多次測量取平均值,實(shí)驗(yàn)結(jié)果表明取5次測量結(jié)果的平均值可滿足應(yīng)用需求,如表1所示。 表1 部分樣本對樣本中心隸屬度的平均值(5次測量結(jié)果) 把ωi引入到SVDD和RSVDD中,確定模糊數(shù)據(jù)描述和模糊粗糙的數(shù)據(jù)描述邊界,其中核函數(shù)選用高斯核函數(shù),如圖6(σ=0.05,C=0.09)和圖7所示(δ=20,C=0.004,σ=0.05)。 圖6 FSVDD結(jié)果示意 圖7 FRSVDD結(jié)果示意 從圖6可以看出,SVDD通過最小包圍超球,把樣本分割成兩個部分,超球內(nèi)的是不需要沖洗的正常樣本,超球外的是需要沖洗的異常樣本,鑒于樣本不具備顯著分離特性,所以沒有一個很明確的界限來分割異常和正常區(qū)域,無法調(diào)整得到最佳參數(shù)。由圖7可以看出,新增加的超球形成了上下邊界輪廓,把數(shù)據(jù)分隔成3個部分:位于下邊界輪廓曲線內(nèi)的樣本認(rèn)為是正常樣本,不需要沖洗;位于上邊界輪廓曲線外的樣本為異常樣本,需要沖洗;而位于上下邊界曲線內(nèi)的樣本可能為異常樣本,可交由人工加以判別選擇是否沖洗,在實(shí)際使用過程中漏警率是必須要考慮的評價指標(biāo),本著盡量減少漏警率(可能污閃的樣本盡量沖洗)的原則對分布在此區(qū)域內(nèi)的樣本應(yīng)盡量選擇沖洗。因此在較少的先驗(yàn)知識下模糊區(qū)域可以盡可能的權(quán)衡虛警率和漏警率,以選擇合適的參數(shù)。SVDD與RSVDD對比實(shí)驗(yàn)的部分?jǐn)?shù)據(jù)見表2,其中兩種方法分類得到的負(fù)樣本集一致。根據(jù)數(shù)據(jù)對比發(fā)現(xiàn),在默認(rèn)第三類樣本均能得到正確分類的前提下,RSVDD大幅降低了漏警率,并且有效降低了虛警率,可顯著提高實(shí)際工作效率。 表2 SVDD與RSVDD部分實(shí)驗(yàn)數(shù)據(jù)對比 由于現(xiàn)場污穢度測量困難且精度較低,本文提出了另一個解決方案,使用SVDD的方法實(shí)現(xiàn)鐵路絕緣子污穢度的異常檢測,為水沖洗工作的開展提供一種有效的參考和技術(shù)前提。并且引入模糊因子構(gòu)造模糊RSVDD,邊界輪廓更加緊湊,很好解決了SVDD魯棒性不強(qiáng)及容易產(chǎn)生過擬合問題,并通過模糊區(qū)域有效降低虛警率和漏警率,以滿足實(shí)際工作需求。4 實(shí)驗(yàn)與結(jié)果分析
5 結(jié)論