謝世朋,李 博,張 冬
1.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇 南京 210003
2.國(guó)網(wǎng)江蘇省電力有限公司淮安供電分公司,江蘇 淮安 223002
隨著我國(guó)經(jīng)濟(jì)的蓬勃發(fā)展,目前社會(huì)生產(chǎn)及人民日常生活處處都離不開(kāi)用電,這對(duì)供電部門(mén)提出了更高的要求,不僅要保證充足的供電量,還要保證較高的供電可靠性[1]。對(duì)配電線路進(jìn)行帶電作業(yè)[2-3]的技術(shù)就是為了滿足在持續(xù)供電的條件下,對(duì)供電設(shè)備以及供電線路進(jìn)行維護(hù)檢修、測(cè)試等相關(guān)作業(yè)而誕生的,該技術(shù)目前已廣泛應(yīng)用到相關(guān)領(lǐng)域,用以保證供電的可靠性。
然而作業(yè)人員在對(duì)配電線路進(jìn)行不停電作業(yè)時(shí)具有較高的危險(xiǎn)性,所以精確的安全預(yù)警系統(tǒng)在不停電作業(yè)時(shí)是非常重要的。而對(duì)配電線路進(jìn)行精準(zhǔn)語(yǔ)義分割又是不停電作業(yè)安全預(yù)警中最為核心的技術(shù)之一,語(yǔ)義分割的精度直接決定了安全預(yù)警的可靠性。
圖像語(yǔ)義分割[4-5]是指從像素的角度將表達(dá)不同語(yǔ)義類(lèi)別的像素按區(qū)域分割開(kāi)來(lái),是圖像處理任務(wù)的核心技術(shù)之一。隨著人工智能時(shí)代到來(lái),圖像語(yǔ)義分割逐漸成為了無(wú)人駕駛、室內(nèi)導(dǎo)航等前沿科技領(lǐng)域的研究熱點(diǎn)。
在圖像語(yǔ)義分割領(lǐng)域,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)技術(shù)不斷取得更好的成績(jī),逐漸替代了傳統(tǒng)的分割方法。相較于傳統(tǒng)的分割方法,基于深度學(xué)習(xí)的分割方法可以通過(guò)搭建深度學(xué)習(xí)網(wǎng)絡(luò)自主學(xué)習(xí)、提取圖像的特征,從而進(jìn)行端到端的分類(lèi)學(xué)習(xí),這樣可以有效地提高語(yǔ)義分割的速度和精度。
2015年,Long等[6]首次提出了全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)用于語(yǔ)義分割領(lǐng)域,它將卷積神經(jīng)網(wǎng)絡(luò)中用于圖片分類(lèi)任務(wù)的全連接層全部轉(zhuǎn)化為卷積層,并且引入反卷積層及跳躍結(jié)構(gòu),確保了網(wǎng)絡(luò)的穩(wěn)定性和魯棒性。隨著FCN的出現(xiàn),深度學(xué)習(xí)正式進(jìn)入圖像語(yǔ)義分割領(lǐng)域[4]。
作為在醫(yī)學(xué)圖像分割領(lǐng)域中最常用的模型,U?Net[7]以其最典型的U型對(duì)稱(chēng)結(jié)構(gòu)被人熟記,U型對(duì)稱(chēng)結(jié)構(gòu)的兩側(cè)分別做下采樣操作和上采樣操作。其中通過(guò)下采樣可以獲取圖像的上下文信息,而上采樣可以對(duì)語(yǔ)義分割的邊界實(shí)現(xiàn)精準(zhǔn)定位,這樣使得模型可以在訓(xùn)練較少數(shù)據(jù)的情況下具有較高的分割能力。同年,一個(gè)名為SegNet[8]的語(yǔ)義分割模型問(wèn)世,其采用編碼器?解碼器結(jié)構(gòu)來(lái)對(duì)圖像進(jìn)行語(yǔ)義分割,并利用maxpool的索引進(jìn)行上采樣,從而節(jié)省了網(wǎng)絡(luò)模型的內(nèi)存。
Google團(tuán)隊(duì)的DeepLab系列的語(yǔ)義分割模型也在語(yǔ)義分割領(lǐng)域不斷進(jìn)步。DeepLabv1[9]是由深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)和全連接的條件隨機(jī)場(chǎng)(CRF)構(gòu)成,這樣可以有效地解決深度卷積神經(jīng)網(wǎng)絡(luò)定位不精確的問(wèn)題。而DeepLabv2[10]語(yǔ)義分割模型在DeepLabv1的基礎(chǔ)上進(jìn)行了創(chuàng)新,在模型結(jié)構(gòu)上融合了空洞空間卷積池化金字塔(ASPP)模塊。該模塊可以有效地提高網(wǎng)絡(luò)分割能力。同年改進(jìn)的DeepLabv3[11]版本問(wèn)世,其核心思想是改進(jìn) ASPP結(jié)構(gòu)并引入了批量歸一化層,從而提升網(wǎng)絡(luò)的分割精度。而最新的 DeepLabv3+[12]語(yǔ)義分割模型在DeepLabv3的基礎(chǔ)上增加了編解碼器和Xception主干網(wǎng)絡(luò),提高了網(wǎng)絡(luò)語(yǔ)義分割的速度和精度。
此外,Zhao等[13]提出的 PSPNet語(yǔ)義分割模型引入了金字塔池化模塊,這樣可以使語(yǔ)義分割網(wǎng)絡(luò)提高獲取圖像全局上下文信息的能力。以及He等[14]提出的 Mask?RCNN 語(yǔ)義分割模型,其主要對(duì)Faster?RCNN[15-16]模型進(jìn)行了擴(kuò)展,在其基礎(chǔ)上增加了用于分割任務(wù)的網(wǎng)絡(luò)分支,采用 ROIAlign替代Faster?RCNN 中的 RoIPooling,同時(shí)將殘差網(wǎng)絡(luò)[17]與特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[18]相結(jié)合用于對(duì)圖像進(jìn)行特征提取,使得網(wǎng)絡(luò)在檢測(cè)到目標(biāo)的同時(shí)對(duì)其實(shí)現(xiàn)高質(zhì)量地分割。
大量實(shí)驗(yàn)表明,基于深度學(xué)習(xí)的圖像語(yǔ)義分割算法在處理圖像語(yǔ)義分割方面都具有較好的表現(xiàn)。然而不停電作業(yè)環(huán)境復(fù)雜,且對(duì)分割精度要求較高,傳統(tǒng)的語(yǔ)義分割模型并不能滿足工作需求。為此本文提出了一種基于改進(jìn)Mask?RCNN的配電線路語(yǔ)義分割方法,對(duì)配電線路實(shí)現(xiàn)精準(zhǔn)的語(yǔ)義分割。
Mask?RCNN[14]是一個(gè)非常靈活的框架,可以完成目標(biāo)檢測(cè)[15-16]、語(yǔ)義分割等多種圖像處理任務(wù)。Mask?RCNN主要包含以下3個(gè)部分:
(1)主干網(wǎng)絡(luò)。在 Mask?RCNN模型里采用ResNet50/101+FPN模型作為主干網(wǎng)絡(luò),運(yùn)用了表達(dá)能力較好的算法進(jìn)行特征提取,并且采用特征金字塔網(wǎng)絡(luò)進(jìn)行多尺度數(shù)據(jù)的提取。
(2) 區(qū)域推薦網(wǎng)絡(luò)(Region Proposal Network,RPN)。 Mask?RCNN 中仿照 Faster?RCNN 中的 RPN網(wǎng)絡(luò)沒(méi)有進(jìn)行修改,只是將FPN網(wǎng)絡(luò)與RPN網(wǎng)絡(luò)結(jié)合起來(lái)。
(3)感興趣區(qū)域校正(Region of Interest Align,RoI Align)。 Mask?RCNN 采用RoI Align技術(shù)選取感興趣區(qū)域。RoI Align的輸出是由候選區(qū)域映射得出尺寸固定的特征圖,這也是Mask?RCNN網(wǎng)絡(luò)的創(chuàng)新點(diǎn)之一。RoI Align舍棄了量化運(yùn)算,運(yùn)用雙線性插值函數(shù),得到像素點(diǎn)上的灰度大小,這種做法就將整個(gè)特征聚集過(guò)程連續(xù)化了。
傳統(tǒng)Mask?RCNN在配電線路分割中,分割表現(xiàn)不好,如圖1所示,出現(xiàn)斑塊狀分割結(jié)果,甚至無(wú)法分割。這主要是由于配電線路是大長(zhǎng)寬比的物體,在有限的訓(xùn)練樣本中,測(cè)試集的尺度變化和旋轉(zhuǎn)變化與訓(xùn)練樣本有較大的差異,使得傳統(tǒng)的Mask?RCNN無(wú)法完成比較好的分割效果。
圖1 傳統(tǒng)的Mask?RCNN分割效果
為了保證網(wǎng)絡(luò)對(duì)大長(zhǎng)寬比配電線路的分割精度和速度,本文將對(duì) Mask?RCNN的 Mask分支進(jìn)行修改。
(1)主干網(wǎng)絡(luò)的修改
本文以ResNet101作為主干網(wǎng)絡(luò)。ResNet101的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 ResNet101網(wǎng)絡(luò)結(jié)構(gòu)細(xì)化圖
借鑒InceptionV2的思路網(wǎng)絡(luò),針對(duì)圖2中的Input stream模塊,本文對(duì) Mask?RCNN主干網(wǎng)絡(luò)(ResNet網(wǎng)絡(luò))拆解大核卷積,即將大核卷積由多層小卷積替代,這樣可以通過(guò)加深網(wǎng)絡(luò)深度達(dá)到原有大核的表現(xiàn)能力。本文使用的網(wǎng)絡(luò)改進(jìn)方法如圖3所示。改進(jìn)后的網(wǎng)絡(luò)在加快網(wǎng)絡(luò)計(jì)算速度的同時(shí),又減小網(wǎng)絡(luò)過(guò)擬合的概率。
圖3 對(duì)Input Stream模塊的改進(jìn)
(2)特征金字塔網(wǎng)絡(luò)(FPN)階段的改進(jìn)
在 FPN 階段,借鑒 CoordConv[19],創(chuàng)建一個(gè)與輸入相同的空間大小的張量,其中包含像素坐標(biāo),這些坐標(biāo)被標(biāo)準(zhǔn)化至[-1,1],并和原始的輸入進(jìn)行通道上的數(shù)據(jù)合并。若原始輸入大小為H×W×D,則新輸入張量的大小為H×W×(D+2),其中最后兩個(gè)通道為xy像素坐標(biāo),從而提供全局位置信息。
由于配電線路設(shè)施布置較為密集,測(cè)試圖像存在較大的旋轉(zhuǎn)和尺度變化,傳統(tǒng)的Mask?RCNN模型很難對(duì)其實(shí)現(xiàn)精準(zhǔn)的語(yǔ)義分割,因此本文在對(duì)Mask?RCNN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)的同時(shí),也對(duì)其損失函數(shù)進(jìn)行了一些改進(jìn)。本文引入了旋轉(zhuǎn)錨框(Anchors)[20],這樣可以對(duì)大長(zhǎng)寬比的目標(biāo)保持較高的定位精度和速度,即在文獻(xiàn)[15]中的邊框回歸損失中引入新的參數(shù)θ,θ表示邊框在y軸相對(duì)于x軸的角度,范圍為[0,π/2],改進(jìn)后的邊框定義如下
式中,x、y、θ、w和h分別表示邊框的中心坐標(biāo)、旋轉(zhuǎn)角度及其寬度和高度;x、y,xa、ya,x?、y?分別表示預(yù)測(cè)框、錨框和真實(shí)框坐標(biāo)。本文將改進(jìn)后的邊框回歸損失函數(shù)定義為
式中,N代表錨框的個(gè)數(shù),i代表邊框的索引值,其中包含 (x,y,w,h,θ) 5 個(gè)參數(shù);為真實(shí)值標(biāo)簽,當(dāng)錨框與真實(shí)框的IoU(Intersection over Union)重疊區(qū)域最大或與真實(shí)框的IoU重疊區(qū)域大于0.7,即錨定為正時(shí),的值為1,否則為0;ti表示預(yù)測(cè)邊界框信息,表示與正錨點(diǎn)相關(guān)聯(lián)的真實(shí)框信息。同時(shí)回歸損失表示為其中R函數(shù)定義為
本文采用的實(shí)驗(yàn)環(huán)境如表1所示,模型訓(xùn)練過(guò)程中各項(xiàng)參數(shù)如表2所示。
表1 實(shí)驗(yàn)環(huán)境
表2 訓(xùn)練參數(shù)
本文使用高精度視覺(jué)相機(jī)在不停電作業(yè)現(xiàn)場(chǎng)采集相關(guān)配電線路圖片制成數(shù)據(jù)集,數(shù)據(jù)集一共1 800張圖片。首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,圖像大小設(shè)置為1 920像素×1 080像素。然后用標(biāo)注工具labelme對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注:打開(kāi)“l(fā)abelme”,調(diào)整圖片位置后,點(diǎn)擊鼠標(biāo)右鍵選擇相應(yīng)的標(biāo)記方法,在配電線邊緣任意一點(diǎn)處左鍵單擊,創(chuàng)建起始點(diǎn),然后沿著圖片中的配電線外圍不斷地增加節(jié)點(diǎn),都是左鍵單擊的操作,最終回到起點(diǎn)左鍵單擊結(jié)束。此時(shí)會(huì)自動(dòng)彈出標(biāo)簽名選擇框,本文只對(duì)配電線進(jìn)行標(biāo)注,輸入標(biāo)簽名并點(diǎn)擊確認(rèn)鍵即可,按照上述方法將圖片中的配電線依次進(jìn)行標(biāo)注,最后點(diǎn)擊保存。生成對(duì)應(yīng)的json文件,再轉(zhuǎn)換為對(duì)應(yīng)的原圖,8位標(biāo)簽圖和存放標(biāo)簽名稱(chēng)的yaml文件。本文選取其中的1 700張圖片用于訓(xùn)練,100張圖片用于測(cè)試。
另外,在模型訓(xùn)練過(guò)程中對(duì)數(shù)據(jù)集做以下操作:
(1)圖片縮放。在本文模型的訓(xùn)練和測(cè)試期間,為提升模型訓(xùn)練速度,需要將數(shù)據(jù)集內(nèi)的圖片縮放成960像素×540像素。
(2)數(shù)據(jù)增強(qiáng)。為了使輸入圖片滿足網(wǎng)絡(luò)架構(gòu)的需要,本文將去均值、水平翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)也應(yīng)用于訓(xùn)練中。
(1) 像素精度(Pixel Accuracy,PA):分類(lèi)正確的像素點(diǎn)數(shù)和所有的像素點(diǎn)數(shù)的比例。
式中,i,j為像素在圖像中的橫縱坐標(biāo)值,pii表示正確預(yù)測(cè)的像素點(diǎn)(即屬于某一類(lèi)別且預(yù)測(cè)也為該類(lèi)),pij表示錯(cuò)誤預(yù)測(cè)的像素點(diǎn)(即本屬于某一類(lèi)別卻預(yù)測(cè)為其他類(lèi)別的像素點(diǎn))。
(2) 平均交并比(Mean Intersection over Union,MIoU)。
(3) 平均精度(Average Precision,AP)。
式中,N為數(shù)據(jù)集中圖像的總數(shù),P(k)為識(shí)別出的圖像為k時(shí)的查準(zhǔn)率,Δr(k)為查全率在k與k-1之間的差值。
本文基于改進(jìn)的Mask?RCNN模型對(duì)10 kV配電線路進(jìn)行語(yǔ)義分割,可視化分割結(jié)果如圖4所示。為驗(yàn)證本文提出的方法對(duì)配電線路進(jìn)行語(yǔ)義分割的效果,將本文提出的方法與 U?Net、Mask?RCNN 網(wǎng)絡(luò)分割結(jié)果進(jìn)行對(duì)比,對(duì)比結(jié)果如圖5所示。
圖4 配電線路分割結(jié)果圖
圖5 本文方法與其他算法對(duì)比結(jié)果
由圖5可見(jiàn),本文提出的方法在不停電作業(yè)的復(fù)雜背景下可以對(duì)配電線路實(shí)現(xiàn)精確地分割,且分割邊界的細(xì)節(jié)表現(xiàn)較好,尤其是對(duì)較大長(zhǎng)寬比的目標(biāo)。
本文選擇了近年來(lái)提出的幾個(gè)比較經(jīng)典的語(yǔ)義分割算法與本文提出方法做比較,在本文建立的數(shù)據(jù)集上,采用平均精度(AP),像素精度(PA),平均交并比(MIoU)及分割速度指標(biāo)進(jìn)行評(píng)估。定量指標(biāo)見(jiàn)表3。
從表3可以看出,本文算法在平均精度(AP),像素精度(PA),平均交并比(MIoU)及分割速度指標(biāo)上顯著優(yōu)于U?Net和Mask?RCNN方法。
表3 本文算法實(shí)驗(yàn)結(jié)果與其他算法對(duì)比
本文提出了一種基于改進(jìn)Mask?RCNN的配電線路精準(zhǔn)語(yǔ)義分割方法,采用高精度視覺(jué)相機(jī)作為信息輸入,基于改進(jìn)的Mask?RCNN語(yǔ)義分割網(wǎng)絡(luò),對(duì)配電線路進(jìn)行語(yǔ)義分割工作。實(shí)驗(yàn)結(jié)果證明,本文提出的方法可以在復(fù)雜的不停電作業(yè)環(huán)境下對(duì)配電線路實(shí)現(xiàn)精準(zhǔn)的語(yǔ)義分割。下一階段研究方向是在保證分割精度的同時(shí)加快分割速度。