陳 強, 彭繼慎, 閆云鳳, 齊冬蓮
(1.浙江大學 電氣工程學院,浙江 杭州 310027;2.遼寧工程技術(shù)大學 電氣與控制工程學院,遼寧 葫蘆島 125105)
在電氣化鐵路行業(yè)中,吊弦對接觸網(wǎng)的穩(wěn)定運行起著至關(guān)重要的作用。在鏈型懸掛中,接觸線通過吊弦懸掛在承力索上,通過調(diào)節(jié)吊弦長度保證接觸懸掛的結(jié)構(gòu)高度和接觸線高度,從而改善接觸懸掛的彈性,提高受電弓的受流質(zhì)量。然而,受電弓與懸鏈線之間存在復雜的機械和電氣相互作用,這不可避免地導致受電弓接觸網(wǎng)系統(tǒng)的高缺陷率,并嚴重影響操作安全性。由于長期操作中的振動和激勵導致吊弦松脫變形不受力,會影響接觸懸掛的結(jié)構(gòu)高度和接觸線高度,導致受電弓受流質(zhì)量下降,對整個系統(tǒng)造成不可避免的損害。
為及時發(fā)現(xiàn)不受力吊弦,保障高速鐵路接觸網(wǎng)穩(wěn)定運行,構(gòu)建高速鐵路供電安全檢測監(jiān)測系統(tǒng),結(jié)合接觸網(wǎng)懸掛狀態(tài)檢測監(jiān)測裝置獲得的高清圖像,通過離線讀取捕獲圖像中的大量數(shù)據(jù),手動檢測缺陷。
但是,隨著高速鐵路的大規(guī)模建設(shè),中國電氣化鐵路的總里程已超過 10 萬km,通過人工讀取檢測缺陷顯然不太可能,工作人員很容易視覺疲勞,并相應(yīng)地遺漏一些缺陷。
近年來,隨著計算機視覺技術(shù)的快速發(fā)展,基于圖像處理技術(shù)的接觸網(wǎng)零部件缺陷識別方法由于安全性高、行車干擾小等優(yōu)勢,在接觸網(wǎng)缺陷識別中獲得越來越廣泛的應(yīng)用[1]。文獻[2]通過 Hough 變換對采集到的接觸網(wǎng)圖像中的直線特征進行提取,根據(jù) AdaBoost 算法找出能夠代表支柱的直線,從而確定定位器的位置。文獻[3]提出一種基于局部特征描述的統(tǒng)計模式識別算法和螺釘灰度分布規(guī)律的圖像檢測方法,檢測斜撐套筒的螺釘松脫與脫落。文獻[4]采用 Hough 直線檢測初定位開口銷,PBoW 模型對初定位圖片進行分類,SIFT 算法細定位開口銷,使用 Hough 累加矩陣實現(xiàn)多位置開口銷不良狀態(tài)的同時檢測。以上基于傳統(tǒng)機器學習的方法由于需要人工設(shè)計特征,魯棒性較差,具有較大的局限性。得益于深度卷積神經(jīng)網(wǎng)絡(luò) (Deep Convolutional Neural Network,DCNN) 在計算機視覺方面的重大突破,越來越多的文章采用基于 DCNN 的深度學習方法進行缺陷檢測。文獻[5]分3個階段實現(xiàn)等電位線松散故障自動檢測,采用卷積神經(jīng)網(wǎng)絡(luò)提取等電位線特征,基于馬爾可夫隨機場模型進行圖像分割,通過分析獨立連接區(qū)域的數(shù)量和像素的標準偏差給出故障狀態(tài)。文獻[6]采用3個階段實現(xiàn)接觸網(wǎng)支撐裝置上的緊固件自動缺陷檢測,先用 SSD 對緊固件進行粗定位,然后用 YOLO 對緊固件細定位,最后采用分類網(wǎng)絡(luò)進行缺陷識別。以上兩種方法由于流程復雜,階段繁多,很難在實際應(yīng)用中推廣。文獻[7]采用級聯(lián)的Faster R-CNN 對高鐵接觸網(wǎng)支撐裝置上的等電位線進行故障檢測。Faster R-CNN 本身是一個兩階段的目標檢測框架,級聯(lián)兩個 Faster R-CNN 進行故障檢測顯得略微臃腫,而且速度不夠高,難以達到實時的要求。
本文針對接觸網(wǎng)吊弦不受力的缺陷識別問題,提出一種基于深度學習的吊弦不受力識別方法。該方法分為兩階段:第一階段通過 FCOS[8]對高速鐵路接觸網(wǎng)圖像中的吊弦區(qū)域進行檢測定位;第二階段通過添加焦點損失[9](Focal Loss,F(xiàn)L)的ResNet50[10]分類網(wǎng)絡(luò)(ResNet50-FL),對檢測定位到的吊弦進行分類識別,獲得吊弦不受力的圖像。
本文提出方法的整體流程如圖 1 所示。其中輸入圖片固定尺寸為 1 024×800,送入 FCOS 檢測網(wǎng)絡(luò)定位吊弦的位置,從圖中提取 (crop) 出吊弦區(qū)域并縮放 (resize) 為固定尺寸 224×224,送入添加焦點損失的 ResNet50 分類網(wǎng)絡(luò)獲取吊弦的狀態(tài)——正常(受力)或異常(不受力)。
圖1 識別方法的整體流程
采用FCOS吊弦定位算法,其網(wǎng)絡(luò)架構(gòu)如圖2所示。圖2中,C3、C4、C5 表示主干網(wǎng)絡(luò)的特征圖,P3—P7 是用于最終預測的特征層。H×W是特征圖的高度和寬度。s(s= 8,16,…,128) 是特征圖相對于輸入圖像的下采樣率。首先用全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network,F(xiàn)CN)[11]代替卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 重新構(gòu)造目標檢測器;然后說明如何利用多級預測來提高召回率并解決邊界框重疊導致的歧義;最后介紹中心度 (Center-ness) 分支,該分支有助于抑制檢測到的劣質(zhì)邊界框并大幅度提高整體性能。
圖2 FCOS 網(wǎng)絡(luò)架構(gòu)
1.1.1 全卷積一階段目標檢測器
對于特征圖Fi的每個位置 (x,y),可以將其映射到輸入圖像 (?s/2」+xs,?s/2」+ys) 上,該位置靠近特征圖接收域的中心。位置 (x,y) 與基于錨的檢測器不同,后者將輸入圖像上的位置視為多個錨框的中心,并以這些錨框作為參考回歸目標邊界框,直接在該位置回歸目標邊界框。換句話說,檢測器直接將位置視為訓練樣本,而不是像基于錨的檢測器那樣,將錨框視為訓練樣本。
具體來說,如果位置 (x,y) 落入任何一個真實框內(nèi)且該位置的類別標簽c是真實框的類別標簽,則將其視為正樣本。否則,它是一個負樣本,即背景類,并且c= 0。除了分類標簽外,還有一個四維實向量T*=(l*,t*,r*,b*) 作為位置的回歸目標。l*、t*、r*、b*為位置到邊界框4個邊的距離,如圖 3 所示。如果某個位置落入多個邊界框,則將其視為模棱兩可的樣本。只需選擇面積最小的邊界框作為回歸目標。如果位置 (x,y) 與邊界框Bi相關(guān)聯(lián),則該位置的訓練回歸目標為
圖3 FCOS 預測的四維實向量含義
( 1 )
1.1.2 使用 FPN 進行 FCOS 的多級預測
根據(jù) FPN[12],在不同級別的特征圖上檢測到不同大小的目標。具體來說,使用了定義為 {P3,P4,P5,P6,P7}5個級別的特征圖。P3、P4、P5 由主干 CNN 的特征圖 C3、C4、C5 后跟 FPN 中具有自上而下連接的 1×1 卷積層生成,如圖 2 所示。P6 和 P7 通過在 P5 和 P6 上分別應(yīng)用步長為 2 的一個卷積層來實現(xiàn)。結(jié)果,特征層 P3、P4、P5、P6 和 P7 的步長分別為 8、16、32、64 和 128。
與基于錨的檢測器不同,后者將不同大小的錨框分配給不同的特征級別,F(xiàn)COS 直接限制了每個級別的邊界框回歸的范圍。具體包括以下步驟:
Step1計算所有特征級別上每個位置的回歸目標l*、t*、r*和b*。
Step2如果位置滿足 max(l*,t*,r*,b*)>mi或 max(l*,t*,r*,b*) 1.1.3 FCOS 的中心度 在 FCOS 中使用多級預測后,F(xiàn)COS 和基于錨的檢測器之間仍然存在性能差距。這是由于遠離目標中心的位置產(chǎn)生了許多低質(zhì)量的預測邊界框,因此提出一種簡單而有效的策略來抑制這些低質(zhì)量的預測邊界框,而無需引入任何超參數(shù)。具體來說,添加一個與分類分支 (如圖 2 所示) 平行的單層分支,以預測目標的中心度。中心度描述了從當前位置到該位置所負責的目標中心的標準化距離。給定位置的回歸目標l*、t*、r*和b*,中心度的定義為 ( 2 ) 中心度的范圍是 0~1,采用二進制交叉熵損失進行訓練。測試時,通過將預測的中心度乘以相應(yīng)的分類分數(shù)來計算最終分數(shù),用于對檢測到的邊界框排名。因此,中心度可以降低遠離目標中心邊界框的分數(shù)。結(jié)果,這些低質(zhì)量的邊界框很有可能被最終的非極大值抑制(Non-Maximum Suppression,NMS)過程濾除,從而提高檢測性能。 吊弦缺陷識別采用添加焦點損失的 ResNet50 分類網(wǎng)絡(luò)。ResNet50 分類網(wǎng)絡(luò)在圖像分類任務(wù)中取得了重大突破。但是,由于吊弦缺陷樣本與正常樣本的不均衡,ResNet50 分類網(wǎng)絡(luò)不能準確地定位到正負樣本之間具有判別性的區(qū)域,因此,引入焦點損失進行難負樣本挖掘,更準確地定位正負樣本之間具有判別性的區(qū)域。 1.2.1 交叉熵損失 交叉熵 (Cross Entropy,CE) 損失的定義為 ( 3 ) 式中:y∈{0,1},指定了地面真值的類別,并且p∈[0,1] 是模型對于標簽y= 1 的類的估計概率。為方便起見,定義pt為 ( 4 ) 把式( 4 )代入式( 3 )有 CE(p,y)=CE(pt)=-lg(pt) ( 5 ) 交叉熵損失的一個顯著特性是,即使是易于分類的樣本 (pt?0.5) 也會導致較大的損失。如果將大量簡單的樣本相加,這些損失值可能會使稀有類別不堪重負。 1.2.2 平衡交叉熵損失 解決類別不平衡的常用方法是引入一個加權(quán)因子α∈[0,1] 用于類別 1,1-α用于類別 0。定義αt為 ( 6 ) 可將α平衡的交叉熵損失表示為 CE(pt)=-αtlg(pt) ( 7 ) 1.2.3 焦點損失 α平衡的交叉熵損失雖然平衡了正負樣本的重要性,但并沒有區(qū)分簡單和困難的樣本。因此,將損失函數(shù)重塑,減輕其對簡單樣本的關(guān)注度,從而將訓練重點放在難負樣本上。即為交叉熵損失添加一個調(diào)制因子 (1-pt)γ,其焦點參數(shù)γ可調(diào)且γ≥0。將焦點損失定義為 FL(pt)=-(1-pt)γlg(pt) ( 8 ) 焦點損失與交叉熵損失相比具有以下兩個屬性: (1)當樣本分類錯誤且pt較小時,調(diào)制因子接近1,并且損失不受影響。當pt→1因數(shù)變?yōu)?,降低了分類良好的樣本損失。 大多數(shù)剖腹產(chǎn)手術(shù)患者因?qū)κ中g(shù)了解不充分,存在緊張、焦慮、恐懼等不良心理,非常不利于術(shù)后康復。因此,護理人員要將手術(shù)的相關(guān)知識及手術(shù)注意事項向患者詳細的講解,協(xié)助做好術(shù)前各種檢查;指導患者學會有效咳嗽,避免震動傷口;同時,認真傾聽患者的主訴,給予細致的解答,盡量滿足她們的訴求,給予親人般關(guān)心和安慰,消除她們術(shù)前、術(shù)中、術(shù)后各種不良情緒,樹立樂觀的心態(tài),積極配合臨床治療與護理,爭取早日康復。 (2)焦點參數(shù)γ可以平滑地調(diào)整簡單樣本的權(quán)重。當γ= 0時,焦點損失等于交叉熵損失,并且隨著γ增加,調(diào)節(jié)因子的作用也會增加。 從式 ( 8 ) 可以看出,調(diào)制因子減少了簡單樣本的損失,并擴展了樣本接收低損失的范圍。例如,對于γ= 2,與交叉熵損失相比,歸類為pt= 0.9 的樣本的損失將降低99%,而對于pt≈ 0.968 的樣本,其損失將降低99.9%。這反過來增加了糾正錯誤分類的樣本的重要性 (對于pt=0.5和γ= 2,其損失最多減少75%)。 1.2.4 平衡焦點損失 與平衡交叉熵損失類似,定義平衡焦點損失為 FL(pt)=-αt(1-pt)γlg(pt) ( 9 ) 在實驗過程中,α和γ為可調(diào)參數(shù),一般設(shè)置為α=0.25,γ=2,但在處理具體問題時仍需根據(jù)實際情況調(diào)整。本文采用γ=2 作為默認設(shè)置,經(jīng)過實驗對比設(shè)置α=0.25,作為焦點損失的參數(shù)。 為了驗證本文提出方法的有效性,在服務(wù)器上進行了實驗,服務(wù)器的基本配置如下:4 個 12 核 CPU,型號為 Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50 GHz,64 GB 內(nèi)存,4 個 GeForce RTX 2080Ti GPU(11 GB顯存),Ubuntu16.04 操作系統(tǒng)。采用 PyTorch 深度學習框架進行訓練和測試。 以某省高速鐵路接觸網(wǎng)吊弦圖像為研究的基礎(chǔ)數(shù)據(jù)集,利用標注工具對圖像中的吊弦區(qū)域進行標注,獲得標簽文件,用此數(shù)據(jù)集進行訓練獲得最終的吊弦不受力識別模型。 采用的接觸網(wǎng)吊弦圖像的原始像素大小為2 585×1 940,在訓練FCOS檢測模型時統(tǒng)一將原圖縮放為 1 024×800 像素大小。共標注了 1 500 張圖片,獲得了 1 622 個實例,取出其中的 1 200 張圖片作為訓練集,300 張圖片作為驗證集。在訓練添加焦點損失的 ResNet50 分類模型時統(tǒng)一將提取的吊弦圖縮放為 224×224 像素大小。分類數(shù)據(jù)集的相關(guān)信息見表 1 。 表1 分類數(shù)據(jù)集分布 張 在第一階段訓練檢測網(wǎng)絡(luò)時,使用帶有動量項的隨機梯度下降 (Stochastic Gradient Descent,SGD) 的學習策略,初始學習率為 0.01,動量項為 0.9,衰減項為1×10-4。使用在 ImageNet 中訓練的預訓練模型 ResNet50。 檢測模型訓練完成后,通過檢測模型從原圖中獲得吊弦的定位,將其從原圖中摳取出來并縮放為 224×224 像素大小,作為分類網(wǎng)絡(luò)的輸入。在第二階段訓練分類網(wǎng)絡(luò)時,同樣使用帶有動量項的隨機梯度下降的學習策略,初始學習率為0.000 015,動量項為 0.9,衰減項為1×10-5。 2.3.1 檢測效果對比 在評估 FCOS 的檢測效果時與Faster RCNN、RetinaNet、SSD進行對比。除了 SSD 的輸入圖片尺度為 512×512,其他模型的輸入圖片尺度均為 1 024×800,對比結(jié)果見表 2 ,AP@IoU=0.75表示模型預測的邊界框和地面真值邊界框的交并比(Intersection-over-Union,IoU) 為 0.75 時的平均精度,用于衡量模型的檢測精度;Inf time 表示模型的推理時間,用于衡量模型的檢測速度。根據(jù)表2 結(jié)果可知,F(xiàn)COS 在精度和速度上取得了較好的平衡。 表2 檢測算法結(jié)果對比 2.3.2 識別效果對比 評估一個分類器算法的好壞包括許多項指標,吊弦不受力識別的分類目標只有兩類,記為正例 (Positive) 和負例 (Negative),其中,正例標簽為 1,負例標簽為 0,分類器的混淆矩陣見表 3 。TP為被分類器正確劃分為正例的個數(shù);FP為被分類器錯誤劃分為正例的個數(shù);FN為被分類器錯誤劃分為負例的個數(shù);TN為被分類器正確劃分為負例的個數(shù)。 表3 分類器的混淆矩陣 根據(jù)分類器的混淆矩陣可以求出其精度Precision和召回率Recall,其中精度是精確性的度量,表示被分為正例的實例中實際為正例的比例;召回率是覆蓋面的度量,表示所有正例中被分對的比例,衡量了分類器對正例的識別能力。精度和召回率的定義為 (10) 受試者工作特征曲線 (Receiver Operating Characteristic Curve,ROC) 是以真陽性率 (True Positive Rate,TPR) 為縱坐標,假陽性率 (False Positive Rate,F(xiàn)PR) 為橫坐標繪制的性能評價曲線。真陽性率和假陽性率的定義式為 (11) 可以將不同模型對同一數(shù)據(jù)集的ROC曲線繪制在同一坐標系中,ROC曲線越靠近左上角,說明其對應(yīng)模型越可靠。也可以通過ROC曲線下面的面積AUC來評價模型,AUC越大,模型越可靠。 由于吊弦的正(不受力)負(受力)樣本嚴重不均衡,而在實際應(yīng)用中更關(guān)注正樣本的識別效果,即希望將吊弦不受力的樣本全部識別正確,因此,更關(guān)注正樣本的召回率。 為了評估添加焦點損失的 ResNet50 分類網(wǎng)絡(luò)對吊弦不受力的識別效果,本文將其與經(jīng)典的機器學習分類算法邏輯回歸(Logistics Regression,LR)、神經(jīng)網(wǎng)絡(luò) (Neural Network,NN)、隨機森林(Random Forest,RF)、支持向量機 (Support Vector Machine,SVM)、K近鄰 (K-Nearest Neighbors,KNN)、(Gradient Boosting Decision Tree,GBDT)、AdaBoost 以及 ResNet50 分類網(wǎng)絡(luò)進行對比,機器學習分類算法的特征采用的是顏色直方圖,圖4為分類算法的 ROC 曲線對比,表4為分類算法的結(jié)果對比。 表4 分類算法結(jié)果對比 圖4 分類算法的 ROC 曲線 根據(jù)對比結(jié)果可知,經(jīng)典的機器學習分類算法對吊弦不受力的識別效果較差,尤其是 SVM 算法直接把所有樣本都歸為負例,沒有學到任何特征,這與特征的選擇具有一定關(guān)系,設(shè)計其他更具有區(qū)分性的特征可能會提升識別效果,但尋找區(qū)分性的特征具有較大難度;而基于 DCNN 的方法則具有較高的性能,而且不需要手工選擇特征。ResNet50 的效果要優(yōu)于所有經(jīng)典的機器學習分類算法,而添加焦點損失的 ResNet50 對不受力吊弦線的召回率要比ResNet50 高,雖然精度略低于ResNet50,但是,在實際應(yīng)用中更希望將所有不受力吊弦識別出來,因此,模型的召回率比精度更重要。從圖4可以看出,添加焦點損失的 ResNet50 模型的 AUC 與 ResNet50 相等,因此,它們的可靠性相同,從實際應(yīng)用的角度來看,添加焦點損失的 ResNet50 分類網(wǎng)絡(luò)的性能優(yōu)于其他方法。 2.3.3 焦點損失的效果驗證 為了驗證焦點損失對難負樣本挖掘的效果,在各種經(jīng)典的分類網(wǎng)絡(luò)上進行實驗,對比添加焦點損失前后模型對吊弦不受力缺陷的識別效果。表5為添加焦點損失前后分類網(wǎng)絡(luò)的識別效果對比。從表 5 可以看出,焦點損失適用于各種分類網(wǎng)絡(luò),可以提升分類網(wǎng)絡(luò)對不受力吊弦的召回率,增強分類網(wǎng)絡(luò)的缺陷識別性能。 表5 添加焦點損失前后分類網(wǎng)絡(luò)的識別效果對比 2.3.4 焦點損失的消融研究 采用焦點損失的默認設(shè)置γ=2。為了探究α參數(shù)對結(jié)果的影響,采用不同的α進行消融對比,研究α對分類網(wǎng)絡(luò)定位類別間判別性區(qū)域性能的促進程度,實驗結(jié)果見表6 。 表6 α 參數(shù)對比實驗結(jié)果 根據(jù)表6結(jié)果可知,在本實驗中,α=0.25 時對分類網(wǎng)絡(luò)的定位效果促進作用最大,因此,本文最終采用α=0.25,γ=2 作為焦點損失的參數(shù)。 2.3.5 可視化解釋 為了解釋添加焦點損失的 ResNet50 分類網(wǎng)絡(luò)與原本的 ResNet50 分類網(wǎng)絡(luò)相比是否確實學到了更優(yōu)意義的特征,讓網(wǎng)絡(luò)準確地定位到正負樣本之間具有判別性的區(qū)域,采用類激活映射 (Class Activation Mapping,CAM)[13]對分類結(jié)果進行可視化,如圖5所示。圖5(a)為ResNet50 的結(jié)果,圖5(b)為添加焦點損失的 ResNet50 的結(jié)果,圖5中深紅色區(qū)域表示模型定位到的判別性區(qū)域。根據(jù)圖5結(jié)果可知,添加焦點損失的 ResNet50 分類網(wǎng)絡(luò)確實更加關(guān)注吊弦的不受力部位,從而更加準確地識別出吊弦不受力缺陷。添加焦點損失的 ResNet50 分類網(wǎng)絡(luò)對吊弦正常和異常判斷的置信度低于 ResNet50 分類網(wǎng)絡(luò),說明焦點損失在難負樣本挖掘上起到重要作用。 圖5 熱力圖對比 本文提出一種基于深度學習技術(shù)的吊弦不受力識別方法,該方法采用 FCOS 檢測模型定位吊弦區(qū)域,根據(jù)吊弦缺陷樣本較少的特點,采用添加焦點損失的 ResNet50 分類網(wǎng)絡(luò)識別吊弦不受力缺陷。在某省高速鐵路接觸網(wǎng)圖像數(shù)據(jù)集上進行對比實驗,證明本文提出的方法能夠更加準確地識別出吊弦不受力缺陷。此外,在難負樣本的挖掘上具有顯著優(yōu)勢,適用于正負樣本不均衡的缺陷識別。在未來的工作中,可以針對吊弦不受力缺陷識別進一步修改損失項以提升缺陷識別召回率。1.2 吊弦缺陷識別
2 實驗結(jié)果與分析
2.1 數(shù)據(jù)集
2.2 實現(xiàn)細節(jié)
2.3 實驗與分析
3 結(jié)束語