林 穎,張峰達,李壯壯,孫藝瑋,于文牮
(1.國網山東省電力公司電力科學研究院,山東 濟南 250003;2.國網山東省電力公司威海供電公司,山東 威海 264200)
紅外熱成像技術通過非接觸式探測獲取電力設備的溫度信息,具有探測距離遠、探測速度快、不受電磁干擾、安全可靠、圖像直觀等特點,因此在電力設備的日常巡檢中得到廣泛的應用。對獲取的紅外圖像中電力設備區(qū)域的溫度分布情況進行分析,可有效發(fā)現(xiàn)設備局部過熱等潛在缺陷,為設備管理和狀態(tài)檢修提供重要依據,避免因電力設備故障造成一系列損失。
然而,紅外檢測技術的大范圍推廣產生了海量的紅外圖像。如何對紅外圖像中不同類型的電力設備進行自動檢測識別和智能故障診斷,實現(xiàn)設備異常的準確判斷和實時預警,成為當前急需解決的問題,亦涌現(xiàn)出了諸多的研究工作[1-2]。而其中的電力設備區(qū)域分割,是紅外圖像自動分析和故障診斷的基礎,受到了研究者的廣泛關注[3-8]。
早期的紅外圖像電力設備分割多基于傳統(tǒng)的圖像處理技術和機器學習方法[1-8],包括閾值分割、自動聚類、分水嶺法和交互式分割法等。例如,Shao等[3]基于經典的一維Otsu 閾值分割算法提出了一種改進的二維多閾值自動提取方法,能夠更加清晰地將管道從復雜背景中分割出來;聶方彥等[4]提出了一種基于非廣延高斯熵的圖像閾值分割方法,緩解了圖像中像素灰度極不均衡的問題;李唐兵等[5]設計了一種通過改進飛蛾撲火算法的紅外圖像多閾值分割方法,能夠準確確定每個部分的溫度范圍;王晶等[2]針對紅外視頻圖像提取時空特征,利用基于沙普利加法特征歸因聚類算法對時空特征聚類,從而實現(xiàn)目標分割;王曉飛等[6]提出了一種基于分布信息的直覺模糊C 均值聚類分割算法,有效抑制邊緣模糊和圖像不均勻對分割造成的干擾;王如意[7]設計了一種基于分水嶺的電力設備紅外圖像分割算法;葉健強等[8]在GrabCut 交互式分割算法的基礎上,使用目標檢測得到標定框代替用戶選擇的初始框,實現(xiàn)目標區(qū)域的分割。這些傳統(tǒng)的分割方法多依賴于人工設計的特征和淺層學習模型,無法適應復雜多變的成像條件和背景環(huán)境,模型的檢測性能與場景泛化能力較低。
近年來,隨著深度學習技術的快速發(fā)展,特別是基于深度卷積神經網絡的語義分割方法如全卷積網絡(fully convolutional network,F(xiàn)CN)[9]、DeepLab[10]、金字塔場景解析網絡(pyramid scene parsing network,PSPNet)[11]、高分辨率網絡(high resolution network,HRNet)[12]等在可見光圖像公開數(shù)據集中性能的提升,深度神經網絡亦逐漸應用于電力設備紅外圖像的檢測及分割[13-18]。例如,Liu 等[13]利用深度殘差U型網絡(U-Net),Zhao 等[14]利用DeepLab 網絡對紅外圖像中的電力設備進行分割。這些方法將在可見光數(shù)據集中預訓練得到的網絡遷移至自行構建的小規(guī)模紅外圖像數(shù)據集中進行調優(yōu)。其存在的問題是:1)由于分割任務需要像素級的標注,人工標注代價大,紅外圖像數(shù)據集的規(guī)模受限,制約了深度神經網絡模型的性能;2)模型只能分割出電力設備的主體目標,不能做到對任意感興趣的設備目標進行分割。此外,當分割結果不理想時,無法進行進一步的修正。
為解決上述問題,提出了一種紅外圖像電力設備的交互式分割方法,基于可見光圖像中預訓練的FocalClick 模型[19],對電力設備紅外圖像中的感興趣目標進行分割。一方面,可極大地降低人工標注的代價,快速獲得較大規(guī)模的紅外圖像標注數(shù)據集供分割和其他像素級理解任務的使用;另一方面,可對指定的特定目標進行分割或修正分割結果,提升分割的性能,從而提升后續(xù)分析的準確性。
交互式分割旨在利用簡單的人工交互方式如點擊、畫線、畫框等方式對圖像的語義分割結果進行修正,從而提升分割的精度?,F(xiàn)有的交互式分割方法[19-20]多針對可見光圖像數(shù)據集。文中將可見光圖像數(shù)據集中預訓練的FocalClick 模型遷移到紅外圖像中,實現(xiàn)對紅外圖像中電力設備區(qū)域的交互式分割。用戶可通過點擊的交互方式指定感興趣的電力設備目標,得到初步的分割結果后,對分割不完整的區(qū)域進行再次點擊,進一步得到準確完整的目標區(qū)域,如圖1 所示,圖1 中紅色和綠色的點分別為第一次和第二次點擊的點。
圖1 電力設備交互式分割示意圖Fig.1 Interactive segmentation sample for electrical equipment
在電力設備的紅外圖像中訓練交互式分割模型時,利用人工標注的分割結果作為已知的真實掩模,使用一種基于隨機采樣的點擊生成策略來模擬用戶的輸入。分割模型則基于FocalClick 框架,并采用當前性能較優(yōu)的語義分割網絡HRNet 作為骨干網絡進行目標掩模的粗略預測。
如果從真實用戶那里收集交互點擊序列,代價太過昂貴。即使對于同一張圖像中的同一個目標,不同用戶生成的交互序列也不唯一,具有隨機性。因此,更好的方式是模仿用戶的點擊習慣,使用含有隨機性的點擊生成策略來自動產生這些點擊序列[20]。首先采用隨機采樣的方法生成初始點擊。如果初始分割的結果需要進一步的修正,則采用迭代采樣的方法生成后續(xù)點擊。生成的點擊包括正、負點擊,前者落在感興趣目標上,而后者落在背景區(qū)域內。
隨機采樣方法具體如下。設O是物體的真實掩模像素的集合,為了采樣正點擊,隨機選擇O中的n個像素作為正點擊,同時這些點擊需要滿足以下兩個過濾條件:1)任意兩個點擊之間至少相距dstep個像素;2)任意點擊距離目標邊界至少要有dmargin個像素。
在得到初始分割結果后需要進一步采樣時,采用的迭代采樣方法如下:
1)對比先前掩模與真實掩模之間的區(qū)別,獲取差異區(qū)域。使用連通分量將這些差異像素分為不同的集群,并根據連通面積選擇其中最大的一個集群。
2)在這個集群內產生一個點。如果之前在該集群中沒有采樣過點,那么應當選取此集群的中心點;如果之前采樣過點,那么此次采樣的點要與之前采樣的點以及該集群邊界的歐式距離最大,從而避免多個點擊之間距離過近。
3)確定點擊的性質。如果該集群中對應的像素位置在目標對象上,則產生的點為正點擊,否則為負點擊。
采用FocalClick 框架作為交互式分割網絡架構。如圖2 所示,該網絡架構包括目標裁剪模塊、粗略分割模塊、焦點裁剪模塊、局部細化模塊以及漸進合并模塊。
圖2 FocalClick框架示意圖Fig.2 Architecture of FocalClick network
首先,使用高斯圖來表示點擊,將紅外圖像、高斯點擊圖與先前掩模連接起來,如圖3 所示。連接后的圖像輸入到目標裁剪模塊中,選擇目標對象周圍的區(qū)域并將其裁剪出來,將其大小調整為較小的比例后發(fā)送給粗略分割模塊用以預測粗略掩模。然后,焦點裁剪模塊通過形態(tài)學分析找到需要細化的局部區(qū)域,并將其放大后輸入到局部細化模塊中進行進一步優(yōu)化。最后,采用漸進合并將細化后的局部掩模與全圖掩模對齊合并。
圖3 交互式分割網絡輸入示意圖Fig.3 Input diagram of the interactive segmentation network
1.2.1 目標裁剪模塊
目標裁剪模塊的作用在于過濾掉與目標對象無關的背景信息。該模塊首先計算先前掩模和新添加的點擊最小外部框,然后按照1.4 的比率進行展開。最后,裁剪圖像和點擊圖中的相應區(qū)域并將其調整為小尺度。
1.2.2 粗略分割模塊
粗略分割模塊的目的在于通過一個分割網絡得到目標的粗略掩模,以便后續(xù)定位焦點裁剪區(qū)域并進行進一步的局部細化操作。選擇高分辨率網絡HRNet 作為分割網絡,其結構如圖4 所示,通過融合不同分辨率的分支,獲得優(yōu)異的分割性能。
圖4 HRNet結構示意圖Fig.4 Architecture of HRNet
HRNet 網絡包含4 個層級。其中層級1 中的網絡使用BottleNeck,層級2 和層級3 中的網絡使用BasicBlock。每個層級由多個分支組成。層級1 包含一個遷移層,層級2 和層級3 包含融合層和遷移層,層級4 包含一個融合層。其中,遷移層用來生成一個下采樣兩倍分支的輸入特征圖,而融合層用于不同分支信息的交互融合。通過4 個層級不同分辨率分支的特征提取與信息交互,取得優(yōu)異的語義分割性能。HRNet 將在可見光圖像集ImageNet 中進行預訓練后,用于紅外圖像分割的訓練學習。
1.2.3 焦點裁剪模塊
焦點裁剪模塊的作用在于定位新點擊試圖修改的區(qū)域,使得算法在每次單擊后無須更新所有像素的掩模,而只在用戶期望修改的區(qū)域進行更新,實現(xiàn)局部區(qū)域的修正。具體地,該模塊首先比較原始分割結果和先前掩模之間的差異,以獲得差異掩碼Mxor;然后,計算包含新點擊的Mxor的最大連通區(qū)域,并為該最大連通區(qū)域生成外部框,稱此區(qū)域為焦點區(qū)域;與目標裁剪類似,以1.4 的比率對焦點區(qū)域進行裁剪和擴展。此外,該模塊使用RoiAlign 來裁剪分割網絡預測得到的特征。
1.2.4 局部細化模塊
局部細化模塊的作用在于恢復焦點裁剪所得到的粗略掩模中的細節(jié)。首先使用Xception 卷積從裁剪的張量中提取低層特征。同時,調整通過RoiAlign 后的特征通道數(shù),并將其與所提取的低級特征融合。為獲得精細預測,使用兩個分支來預測細節(jié)圖Md和邊界圖Mb,并通過更新粗略預測掩模的邊緣區(qū)域Ml來計算精細預測Mr,計算方法為
1.2.5 漸進合并模塊
漸進合并模塊的作用在于將細化后的局部掩模與全圖掩模對齊合并。該模塊使用形態(tài)學分析來確定用戶意圖。添加新的點擊后,將新預測的掩模以閾值0.5 進行二值化,并計算新預測掩模與現(xiàn)有掩模之間的不同區(qū)域,然后選擇包含新點擊的最大連通區(qū)域作為更新區(qū)域。在這個區(qū)域中,將新預測的掩模更新到先前掩模的對應位置上,并且在其他區(qū)域中保持與先前掩模相同。
邊界圖Mb的監(jiān)督損失函數(shù)通過對真實掩模進行8 次下采樣并重新調整到原始大小來計算獲得。經過這一操作后發(fā)生變化的區(qū)域,意味著含有更多的細節(jié)。在整個分割網絡中,采用一個二元交叉熵損失Lbce來監(jiān)督邊界檢測結果,用歸一化焦點損失[20]Lnfl監(jiān)督粗分割結果,用邊界加權的歸一化焦點損失Lbnfl監(jiān)督精細分割的結果。因此,完整的損失函數(shù)定義為
在訓練過程中,對損失函數(shù)L進行求導后,利用梯度回傳(backpro pagation,BP)的方法對網絡的權重進行學習,從而得到訓練后的網絡,實現(xiàn)交互式分割。
在電力設備的日常巡檢中收集了3 327 張紅外圖像,其電力設備或部件包括電流互感器、電壓互感器、開關、避雷器等。為了驗證文中的方法,對采集的圖像進行了像素級的人工標注。在實驗中,隨機選取數(shù)據集中90%的圖像進行訓練,剩下10%的圖像用于測試,由此得到2 994 張訓練圖像以及333 張測試圖像。
采用Pytorch 版本的FocalClick 框架實現(xiàn)電力設備交互式分割模型。在實驗過程中,將電力設備紅外圖像及模擬生成的點擊分批次地輸入到網絡中,利用Adam[21]優(yōu)化器訓練網絡,更新深度神經網絡的參數(shù)。Adam 優(yōu)化器的參數(shù)設置為β1=0.9,β2=0.999。使用隨機翻轉和隨機縮放進行數(shù)據增強。采用在ImageNet 上預訓練得到的HRNet 模型來初始化網絡的權重。
實驗使用的主機CPU 為Intel Xeon E5-2620 v4,GPU 配置為GeForce GTX 1080Ti,深度學習框架平臺為Pytorch。實驗過程中,總共進行230 次迭代訓練,每次迭代輸入2 994 張訓練圖像,計算損失函數(shù)的值并對模型的參數(shù)進行更新。初始學習率設置為5×10-4,并在第190 次和第220 次迭代后分別將其降低10 倍。批大小(Batchsize)設置為32,在4 塊GeForce GTX 1080Ti 顯卡上進行并行訓練。
實驗訓練過程中整體損失函數(shù)的下降曲線如圖5所示。從圖中可以看出,訓練過程中損失函數(shù)的值不斷下降并最終保持穩(wěn)定,說明模型得到了有效訓練。
圖5 模型訓練過程中損失函數(shù)曲線Fig.5 Loss curve of the model during training
訓練完成后,在測試集上對交互式分割模型進行評估。使用的評判標準為點擊次數(shù)(number of clicks,NoC)和分割交并比(intersection over union,IoU)。在測試集中評測結果為:在達到85%的IoU時所需的平均NoC 為1.72 次;在達到90%的IoU 時所需的平均NoC 為2.88 次。
此外,在參與測試的333 張圖像中,僅有1 張圖像在20 次點擊后無法達到85%的IoU,僅有9 張圖片在20 次點擊后無法達到90%的IoU。此外,所有測試圖像總共用時為97 s,每張圖像的平均處理時間為291 ms。
上述實驗結果表明,在小規(guī)模已標注圖像的支撐下,訓練得到的模型能夠在極少交互點擊次數(shù)的情況下得到較好的分割結果。與分割任務所需的像素級標注相比,通過少數(shù)幾次點擊交互的方法能夠極大地縮短標注所需的時間。因此,文中方法有望幫助標注人員快速、準確地在紅外圖像中標注出感興趣的電力設備目標或部件。在大大降低人工標注代價的同時,進一步構建大規(guī)模的紅外圖像電力設備分割數(shù)據集。
圖6 展示了測試集中部分樣例的分割結果,包含數(shù)據集中的四種電力設備的類別,其中綠點為交互點擊的點,藍色區(qū)域為分割結果。從圖6 中可以看出文中使用的模型能夠對不同類型的電力設備或目標部件進行準確分割,并能適應不同的溫度場景,同時對抗復雜背景環(huán)境的干擾,具有良好的魯棒性。
提出了一種針對電力設備紅外圖像的交互式分割方法,允許用戶通過交互式的點擊迭代控制分割結果,直到達到滿意的分割效果。該方法可以幫助標注人員快速、準確地在紅外圖像中標注出感興趣的電力設備,從而大大節(jié)省了人力成本和時間成本。相比于傳統(tǒng)的分割方法,文中方法對于復雜的背景變化具有更強的魯棒性。
此外,文中使用的方法無須在每次單擊后都更新所有像素的掩模,只在用戶期望修改的區(qū)域進行局部更新,不僅避免了原本已經標注好的細節(jié)的丟失,而且減少了重復計算和冗余,從而大大節(jié)省了計算量,提高了網絡的運行速度。