趙 輝,姜立鋒,王紅君,岳有軍
(1.天津理工大學電氣電子工程學院/天津市復雜系統(tǒng)控制理論與應用重點實驗室,天津 300384;2.天津農(nóng)學院工程技術(shù)學院,天津 300392)
在變電站中,儀表作為一種重要的監(jiān)測手段,是表征變電站是否正常運行的一個關鍵因素。相對于數(shù)顯式儀表或者其他類型的監(jiān)測方式,傳統(tǒng)的指針式儀表由于具有結(jié)構(gòu)簡單、成本低、環(huán)境適應能力、抗電磁干擾能力強等優(yōu)點,仍然起著不可替代的作用[1]。但是,由于這類儀表大多沒有預留數(shù)字接口,無法實現(xiàn)數(shù)據(jù)的自動采集與傳輸,需要人工讀取、記錄、上傳數(shù)據(jù),存在效率低、錯誤率高的問題,尤其存在對海量數(shù)據(jù)信息應用不足的缺陷。
為解決此類問題,變電站投入大量的智能巡檢機器人,一方面可以緩解以人力為主的檢修模式帶來的壓力;另一方面可以將海量的數(shù)據(jù)資源進行匯總分析,更快更好的實現(xiàn)我國智能電網(wǎng)的建設。由于存在檢測速度慢、檢測精度低,易出現(xiàn)漏檢、誤檢等問題,當前智能巡檢機器人還不能很好地滿足變電站的實際使用需求。因此,研究一種可靠、穩(wěn)定、快速的指針式儀表檢測方法具有重要的意義。
現(xiàn)有的指針式儀表檢測方法可以分為基于數(shù)字圖像處理技術(shù)的傳統(tǒng)目標檢測算法和基于機器學習或者是深度學習的現(xiàn)代目標檢測算法,常見的傳統(tǒng)算法包括基于對稱性的二值化閾值分割算法[2]、基于圓形區(qū)域累計直方圖的精確定位方法[3]、區(qū)域生長法[4]等。
基于數(shù)字圖像處理技術(shù)的目標檢測算法復雜度低,運行速度較快,但是存在可移植性、通用性、對環(huán)境的適應性均較差等問題,不適合變電站這類復雜的環(huán)境;基于深度學習的現(xiàn)代目標檢測算法可以通過構(gòu)建網(wǎng)絡并進行學習繼而進行預測,可以預測數(shù)據(jù)的分布,從大量的數(shù)據(jù)中學習一個模型,并用這個模型預測新的數(shù)據(jù),因此,可以在沒有太多先驗知識的情況下,完成變電站環(huán)境中指針式儀表的檢測[5]。
文獻[6]將可變形卷積模塊添加到SSD(single shot multibox detector)網(wǎng)絡結(jié)構(gòu)中,提升了網(wǎng)絡的檢測速度,但是存在檢測能力不足的問題,尤其是對小目標物體的檢測不太友好;文獻[7-8]均基于Faster R-CNN完成了儀表的檢測,其中,文獻[7]使用VGG-16作為特征提取網(wǎng)絡,通過添加特征匹配模板提高檢測精度,文獻[8]增加錨點的數(shù)量以提高檢測精度,但兩者在速度上均達不到變電站對實時性的要求且對系統(tǒng)運行性能有很高的要求;文獻[9-12]基于對YOLO(yolo only look once)網(wǎng)絡的改進完成目標的檢測識別,雖然在速度上相對于其他網(wǎng)絡有了進一步提升,但是也沒有達到變電站對檢測實時性的要求,且在提高檢測速度的同時損失了部分檢測精度。
基于此,在YOLO v3的基礎上,在保證檢測精度的同時,通過減少網(wǎng)絡深度以加快網(wǎng)絡計算速度,此外,通過改進網(wǎng)絡結(jié)構(gòu)和損失函數(shù)等方式以保證網(wǎng)絡的精度。以期提供一種可在真實變電站環(huán)境中應用的指針式儀表檢測算法。
YOLO v3最早是由Redmon等[13]提出來的,是一種多尺度的目標檢測算法,基本思想是將整張圖片作為網(wǎng)絡的輸入,并在最后的輸出層直接輸出回歸的目標框的位置信息以及目標的類別信息,不同于Fast-RCNN[14]、Faster-RCNN[15]兩階段的目標檢測算法,YOLO v3是一種端到端的網(wǎng)絡結(jié)構(gòu),是一階段目標檢測算法,其不需要在中間生成候選框區(qū)域,大大提升了網(wǎng)絡的收斂速度。
圖1 DarkNet-53網(wǎng)絡結(jié)構(gòu)Fig.1 Darknet-53 network architecture
圖2 Darknetconv2 d-BN-leaky(DBL)單元和基本殘差塊Fig.2 Darknetconv2 d-BN-leaky (DBL)units and basic residuals blocks
YOLO v3使用DarkNet-53作為特征提取網(wǎng)絡,結(jié)構(gòu)如圖1所示,DarkNet-53一共包含53個卷積層,由5個基本殘差塊[16]構(gòu)成,殘差塊主要由兩個DBL(darknetconv2 d-BN-leaky)單元組成,如圖2所示,其中,DBL是DarkNet-53的基本組成單元,包含卷積、歸一化和ReLU(rectified linear unit)激活函數(shù)三部分,YOLO v3使用前52層結(jié)構(gòu),并沒有使用最后的全連接層,DarkNet-53使用conv的stride代替Pooling層實現(xiàn)降采樣,加深網(wǎng)絡的同時降低了池化對網(wǎng)絡梯度的影響。
YOLO v3的損失函數(shù)Loss分為3個部分:定位損失Lloc、類別損失Lcla和置信度損失Lconf。
Loss=Lloc+Lconf+Lcla
(1)
定位損失采用均方誤差函數(shù):
(2)
置信度損失采用交叉熵損失函數(shù):
(3)
類別損失采用交叉熵損失函數(shù):
(4)
初始候選框(anchor box)的選擇會影響網(wǎng)絡的速度和精度,原YOLO v3的anchors尺寸是分別采用3個尺度對VOC數(shù)據(jù)集和CoCo數(shù)據(jù)集通過k-means聚類得到的,但該尺寸的候選框并不一定適合本課題的需要,為了加快網(wǎng)絡的收斂速度,減小因候選框尺寸的不同對最后結(jié)果帶來的影響,本文將采用k-means++聚類方法并使用平均交并比(average intersection over union,AIou)作為評判標準重新選擇候選框尺寸,AIou越大,代表聚類的效果越好。選取k=1~12進行聚類分析,得到錨點框的個數(shù)k與平均交并比AIou的關系如圖3所示。
圖3 聚類分析結(jié)果Fig.3 Cluster analysis results
如圖3所示,隨著k的不斷增大且當k=9時,函數(shù)變化趨于平穩(wěn),此時,AIou達到86.97%,為了平衡AIou與網(wǎng)絡結(jié)構(gòu)的復雜度,選擇錨點框的數(shù)量為9,此時錨點框的尺寸為(52,52)、(64,59)、(74,71)、(90,94)、(94,120)、(112,107)、(143,141)、(180,171)、(223,195)。
通過對變電站環(huán)境場景進行實際分析,指針式儀表這類檢測目標具有以下兩個特點:①目標大小不一致,由于采集圖像時的距離因素加上目標本身大小不同,導致目標在圖像中占據(jù)的面積可能會有較大的差異;②相同目標具有多元化的特點,由于采集圖像的角度、采集距離以及一些其他的外在因素,會使同一目標具有多元化的特點。
變電站巡檢機器人執(zhí)行檢測任務時,對實時性要求較高,為滿足這一需求,將減少網(wǎng)絡的深度以提高網(wǎng)絡的速度,但是當網(wǎng)絡的深度減少之后,對特征提取能力會有一定的影響?;谝陨峡紤],在精簡之后的網(wǎng)絡結(jié)構(gòu)中做了以下兩個方面的改進。
2.2.1 引入Res2Net模塊
Res2Net結(jié)構(gòu)簡單、性能優(yōu)秀,揭示了一個新的維度,即“尺度”(scale),在Res2Net模塊內(nèi)部,不同特征組合稱為不同的尺度。與其他的殘差結(jié)構(gòu)相比,Res2Net在原有殘差單元結(jié)構(gòu)中增加了小的殘差塊,使用層級鏈接,用一組3*3的卷積代替了原來的卷積,使整個網(wǎng)絡具有更加細微的檢測能力,增加了每一層感受野的大小,在計算負載不增加的同時,特征提取能力更強大。
Res2Net殘差網(wǎng)絡的整體思路為:首先使用1*1的卷積對輸入的數(shù)據(jù)進行過渡調(diào)整,將1*1卷積之后的輸出劃分到s個子集,定義為xi,i∈{1,2,…,s},每一個特征都有相同的尺度大小,但通道數(shù)是輸入特征的1/s,除了x1外的其他子特征都有對應的3*3卷積,定義為Ki(·),輸出為yi,子特征xi都和Ki-1(·)相加,然后輸入到Ki(·),為了在增加s時減小參數(shù),省略了x1的3*3卷積,因此,yi可以表示為
(5)
最后,將每一個通道的輸出yi輸入到1×1的卷積層,進行特征融合,將融合之后的輸出輸入到下一層的網(wǎng)絡結(jié)構(gòu)。
Res2Net中的每一個3*3的卷積操作都可以潛在的接受所有其左邊的特征信息,每一個輸出都能增大感受野,所以,每一個Res2Net都能獲取不同數(shù)量和不同感受野大小的特征組合。Res2Net將特征圖分為多個部分,減少了信息冗余和參數(shù)計算量,隨著通道數(shù)的增加,提取到的信息也就越豐富,語義信息更強,而前面的通道則具有淺層的信息,這一類信息以位置信息為主,理論上,通道數(shù)越多,能提取到的信息越豐富,特征粒度越細,但是經(jīng)過測試,當s=4時的網(wǎng)絡整體性能達到最佳,故文中選取s=4。如圖4所示分別為Res2Net殘差網(wǎng)絡結(jié)構(gòu)與YOLO v3原有的殘差網(wǎng)絡結(jié)構(gòu),可以明顯看出,兩者在結(jié)構(gòu)上有很大的不同,Res2Net的結(jié)構(gòu)更加復雜。
圖4 Res2Net殘差結(jié)構(gòu)與YOLO v3殘差結(jié)構(gòu)Fig.4 Res2Net residuals and YOLOv3 residuals
2.2.2 采用特征層遷移融合的方式
原始的YOLO v3網(wǎng)絡只用到了特征提取網(wǎng)絡結(jié)構(gòu)中的后3層特征層,淺層的特征層并沒有使用,但是淺層的特征層語義信息弱、分辨率高,適合儀表這類小目標物體的檢測,可以較好地解決前文說明的變電站環(huán)境中指針式儀表具有目標大小不一致的問題。
如圖5所示,將淺層的特征層變換尺度,對淺層的特征層做了兩次下采樣,下采樣因子設置為2,首先,通過1*1的卷積操作降低維度,然后,再通過3*3的卷積操作提取特征,通過1*1的卷積操作調(diào)整通道數(shù),再重復此操作,最后,與深層的特征層進行融合作為新的預測特征。
圖5 尺度縮小模塊Fig.5 Scale down module
圖6 SPP模塊Fig.6 SPP module
SPP module是由4個并行的分支組成,如圖6所示,分別是kernal size為1*1、5*5、9*9、13*13的最大池化,在Feature Map經(jīng)過SPP module池化后的特征圖重新拼接,然后,傳到下層的檢測網(wǎng)絡之中。YOLO v3-SPP借鑒空間金字塔的思想,通過SPP實現(xiàn)了局部特征和全局特征,特征圖經(jīng)過局部融合和全局特征相融合后,豐富了特征圖的表達能力,利于解決待檢測圖像目標大小差異較大(目標多元化)的問題,一定程度上提高了檢測的精度。
改進后的結(jié)構(gòu)如圖7所示,改進后的網(wǎng)絡結(jié)構(gòu)層數(shù)相比之前明顯減少,一定程度上減少了網(wǎng)絡的參數(shù)量,提升了計算速度。
在目標檢測任務中,傳統(tǒng)的YOLO v3網(wǎng)絡的Loss損失函數(shù)是以MSE(mean squared error)為目標框坐標的損失,MSE損失對尺度信息比較敏感,在回歸Loss相同的條件下,IoU(intersection over union)值卻有可能不同,如圖8所示。
IoU作為損失函數(shù),如式(6)所示,具有尺度不變性,意味著任意的兩個方框A、B的相似程度與框的尺度無關,但是,IoU作為損失函數(shù)會存在兩個問題。
(1)當IoU=0時,無法反映兩個框的相似程度,此時的損失函數(shù)沒有梯度,無法進行訓練。
(6)
式(6)中:A、B分別為預測框和真實框。
(2)IoU作為損失函數(shù)無法區(qū)分兩個對象之間不同的對齊方式,如圖9所示。
故無法將IoU作為損失函數(shù),基于此,提出將GIoU(generalized intersection over union)作為損失函數(shù),GIoU與IoU類似具有尺度不變性,也可以作為一種距離度量,不同的是,GIoU可以分辨兩個對象之間的對齊方式;且IoU只關注兩部分的重合區(qū)域,而GIoU不僅關注重合區(qū)域,還關注其他的非重合區(qū)域,能更好地反映兩部分的重合程度。
圖7 改進后的網(wǎng)絡結(jié)構(gòu)Fig.7 The improved network structure
圖8 Loss相同、IoU不同情況的示意圖Fig.8 Schematic diagram of the same Loss but different situations of IoU
圖9 IoU=0.33的情況示意圖Fig.9 Schematic diagram of when IoU is equal to 0.33
GIoU計算公式如式(7)所示,其值一般用LGIoU表示,如式(8)所示,參數(shù)如圖10所示。
(7)
LGIoU=1-GIoU
(8)
式中:A為預測框的面積;B為真實框的面積;C為包圍預測框和真實框的最小外接矩形的面積;表示減號。
圖10 GIoU參數(shù)關系圖Fig.10 GIoU parameter relationship diagram
將本文模型與Faster R-CNN、SSD、原始YOLO v3以及傳統(tǒng)的目標檢測算法在同一個數(shù)據(jù)集上進行訓練、測試,并對取得的結(jié)果進行評估。
為了驗證網(wǎng)絡的泛化能力,準備了兩套數(shù)據(jù)集,一套是真實變電站環(huán)境中儀表的數(shù)據(jù)集,用于訓練網(wǎng)絡,來源于網(wǎng)絡、實地兩個部分,另一套是自己制作的高標準的數(shù)據(jù)集,均使用Labelimg手動標注,實驗使用第二套未經(jīng)訓練的不同類型儀表的數(shù)據(jù)集作為測試集以測試網(wǎng)絡的泛化能力。
為了驗證模型的有效性,將4種神經(jīng)網(wǎng)絡模型以及傳統(tǒng)的目標檢測算法在相同的數(shù)據(jù)集上進行評估,并對實驗結(jié)果進分析;采用平均精度均值(mean average precision,mAP)和檢測耗時(t)作為主要評價指標,mAP越大,表示該模型定位與檢測的準確率越高,如式(9)所示。此外,精確率(precision)、召回率(recall)也將作為評價的標準,其中,精確率表示模型預測的所有正樣本中,預測正確的比例,如式(10)所示;召回率表示為預測的所有真實目標中,模型預測正確的目標比例,如式(11)所示。
(9)
(10)
(11)
式中:TP代表預測為正樣本并且預測正確的樣本數(shù)量;FP代表預測為正樣本,但是實際上是負樣本的樣本數(shù)量;FN代表實際為正樣本,但是預測為負樣本的樣本數(shù)量。
當輸入的圖片質(zhì)量較高且目標易檢測時,兩者都能很好地檢測出目標的位置,但是當單張圖片存在多個儀表且儀表的大小存在一定的差異時,如圖11(a)和圖11(b)所示;儀表目標被遮擋時,如圖11(c)和圖11(d)所示;儀表目標受到光照影響其他外在因素的影響時,如圖11(e)所示。傳統(tǒng)的目標檢測算法局限性較大,不能很好地檢測出目標的位置,其中,當受光照影響較大的時候,傳統(tǒng)的目標檢測算法并沒能檢測出儀表的位置,而神經(jīng)網(wǎng)絡目標檢測算法均能很好地完成任務。
instrument為儀表設備名稱;紅色圓圈為傳統(tǒng)目標檢測方法包圍框圖11 傳統(tǒng)目標檢測算法與神經(jīng)網(wǎng)絡效果對比Fig.11 Comparison of traditional target detection algorithm and neural networks
4種神經(jīng)網(wǎng)絡算法的P-R曲線圖如圖12所示。
從圖13可知,F(xiàn)aster R-CNN、原始YOLO v3以及改進的YOLO v3網(wǎng)絡的mAP較高,可以滿足變電站環(huán)境中對準確率的要求,繼續(xù)對這3種mAP較高的算法做速度對比實驗,由于需要載入權(quán)重等因素,所有的網(wǎng)絡預測第一張圖片的時間均較長,但是網(wǎng)絡預測時間會越來越快繼而趨于穩(wěn)定,故不采用輸入預測網(wǎng)絡的前幾張圖片所使用的時間,從預測網(wǎng)絡趨于穩(wěn)定開始,依次輸入10張圖片取預測時間的均值作為最終的結(jié)果,實驗結(jié)果如表1所示。
圖12 不同算法P-R圖Fig.12 P-R diagrams of different algorithms
圖13 不同算法mAP對比Fig.13 Map comparison of different algorithms
從表1可以看出,改進之后的YOLO v3網(wǎng)絡單張圖片的檢測速度相對于Faster-RCNN網(wǎng)絡和原始YOLO v3網(wǎng)絡分別提升了73.7%和45.8%,可以滿足變電站對實時性的需求。
圖14展示了使用本文模型在隨機挑選的測試集圖片上以及真實變電站環(huán)境中的檢測的結(jié)果,可以看出,模型仍能精確地定位儀表所在的位置,以上結(jié)果證明,本文模型在不同的使用場景下,檢測的速度和精度均表現(xiàn)出了不錯的性能,尤其適用于變電站環(huán)境中指針式儀表的目標檢測。
表1 實驗結(jié)果Table 1 The experiment results
針對變電站環(huán)境中指針式儀表的檢測存在精度和速度不高的問題,提出了一種改進的YOLO v3算法,該算法在精度上可以滿足變電站的實際使用需求,尤其是在檢測速度上,相對比其他的網(wǎng)絡有了顯著的提升,數(shù)據(jù)集大部分采用的是單張圖片一個儀表的形式,單張圖片多個儀表的僅占整個數(shù)據(jù)集的5%左右,在對單張圖片多張儀表的檢測中會出現(xiàn)漏檢的情況,后期將增加數(shù)據(jù)集的多樣性,以提升識別的精度。
instrument為設備名稱圖14 本文方法檢測結(jié)果Fig.14 The test results of the method presented in this paper