朱夢(mèng)瑞,牛宏俠
(1.甘肅省高原交通信息及控制重點(diǎn)實(shí)驗(yàn)室,蘭州 730070;2.蘭州交通大學(xué)a.光電技術(shù)與智能控制教育部重點(diǎn)實(shí)驗(yàn)室,b.自動(dòng)化與電氣工程學(xué)院,蘭州 730070)
鐵路是國(guó)民經(jīng)濟(jì)生產(chǎn)的大動(dòng)脈,承擔(dān)了全國(guó)60%的旅客周轉(zhuǎn)量和70%的貨物周轉(zhuǎn)量.交通運(yùn)輸部曾表示[1]:到2025 年,全國(guó)鐵路營(yíng)業(yè)總里程將達(dá)到17 萬(wàn)km 左右,其中 高鐵達(dá)5 萬(wàn)km 左 右,基本 覆蓋城區(qū)人口20 萬(wàn)以上的城市.因此保證列車安全、可靠、快速的運(yùn)行變得尤為重要.但我國(guó)大部分鐵路的運(yùn)行場(chǎng)景是相對(duì)開放的,常有行人、掉落的貨物、自然災(zāi)害導(dǎo)致的危險(xiǎn)等可能越過鐵路防護(hù)限界,威脅列車的行駛安全.因此對(duì)鐵路限界周圍異物進(jìn)行實(shí)時(shí)檢測(cè)逐漸成為研究熱點(diǎn).
鐵軌異物檢測(cè)主要分為接觸式和非接觸式兩類.其中接觸式檢測(cè)法主要有電網(wǎng)檢測(cè)法、光纖光柵檢測(cè)法等.非接觸式檢測(cè)法主要包括雷達(dá)檢測(cè)法、紅外線屏障法、超聲波檢測(cè)法、視頻圖像檢測(cè)法等[2].隨著鐵軌異物檢測(cè)要求的提高,以視頻圖像檢測(cè)為主的非接觸式異物檢測(cè),尤其是基于深度學(xué)習(xí)的圖像處理方法[3]逐漸成為研究重點(diǎn).李沛奇等[4]提出把單目視覺技術(shù)應(yīng)用到鐵軌異物侵限檢測(cè)中,改進(jìn)蟻群算法使檢測(cè)的軌道線更加完整.但基于機(jī)器視覺方法的檢測(cè)結(jié)果容易被外界環(huán)境變化影響,因此近幾年卷積神經(jīng)網(wǎng)絡(luò)[5](Convolutional Natural Network,CNN)在鐵軌異物入侵的檢測(cè)中應(yīng)用越來(lái)越多.王洋等[6]提出改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),通過預(yù)先訓(xùn)練卷積核提高準(zhǔn)確率,簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)為全連接提升速度,使卷積神經(jīng)網(wǎng)絡(luò)更適合鐵路異物檢測(cè)場(chǎng)景.李曉蕊[7]提出了基于深度信念網(wǎng)絡(luò)和遷移學(xué)習(xí)的檢測(cè)算法框架,提高檢測(cè)速度和泛化能力.李暉暉等[8]提出將圖像進(jìn)行4 個(gè)重疊區(qū)域的分割,用SSD(Single Shot MultiBox Dector)檢測(cè)劃分的圖像,對(duì)結(jié)果進(jìn)行整合輸出,提升了對(duì)小異物的檢測(cè)能力.徐巖等[9]提出基于快速卷積神經(jīng)網(wǎng) 絡(luò)(Faster Region-based Convolutional Natural Network,F(xiàn)aster R-CNN)的鐵軌異物侵限檢測(cè)算法,在其中引入遷移學(xué)習(xí),提高檢測(cè)異物的精度,但模型較為復(fù)雜,檢測(cè)速度不理想.于曉英等[10]提出改進(jìn)原有YOLO(You Only Look Once)算法的模型結(jié)構(gòu),通過分組預(yù)訓(xùn)練提升異物檢測(cè)的速度.
鐵路運(yùn)行速度較快,制動(dòng)距離較大,行車間隔較小,因此對(duì)異物檢測(cè)的實(shí)時(shí)性也有更高的需求.本文將實(shí)時(shí)性較好的YOLOv3 算法[11]應(yīng)用到鐵軌異物的識(shí)別中,同時(shí)對(duì)算法模型進(jìn)行改進(jìn),解決其異物識(shí)別精度不理想和異物誤檢漏檢的問題.首先,通過對(duì)圖像預(yù)處理用透視變換[12]確定軌道位置后用逆透視擬合軌道[13].為了充分保障行車安全,結(jié)合標(biāo)準(zhǔn)軌距鐵路限界(GB 146.2—2020)[14]的規(guī)定和現(xiàn)場(chǎng)實(shí)際,將左右軌道線分別向外擴(kuò)張1.6 m 的危險(xiǎn)防護(hù)區(qū)域;其次,提出一種改進(jìn)YOLOv3 算法的鐵軌異物入侵識(shí)別模型,以提升識(shí)別的準(zhǔn)確率和實(shí)時(shí)性,提高小目標(biāo)檢測(cè)精度.改進(jìn)主要針對(duì)兩個(gè)方面:1)針對(duì)原有的K-means 算法選取先驗(yàn)框時(shí)存在的局部最優(yōu)而非全局最優(yōu)的問題,采用K-means++聚類算法[15]使得生成的錨框和特征圖層更加匹配.降低尺寸小于32×32 像素的鐵軌異物漏檢的概率,有效提升識(shí)別異物的準(zhǔn)確率;2)針對(duì)原有模型特征提取參數(shù)過多,存在部分冗余以及特征提取具有時(shí)滯性的問題,引入MobileNetv2 作為網(wǎng)絡(luò)的特征提取器.實(shí)現(xiàn)模型輕量化,提高整個(gè)模型識(shí)別的效率和實(shí)時(shí)性.
本文的鐵軌異物識(shí)別算法主要包括軌道位置定位和入侵異物識(shí)別分類兩部分.首先對(duì)圖像進(jìn)行預(yù)處理,劃分感興趣區(qū)域,透視變換檢測(cè)軌道,然后擴(kuò)展1.6 m 的危險(xiǎn)區(qū)域[14],將軌道區(qū)域、危險(xiǎn)區(qū)域與原圖進(jìn)行擬合,得到合適的軌道位置和危險(xiǎn)區(qū)域范圍.最后利用改進(jìn)后的YOLOv3算法對(duì)劃分軌道區(qū)域、危險(xiǎn)區(qū)域后的圖像進(jìn)行異物識(shí)別.識(shí)別的流程如圖1所示.
在對(duì)含軌道的圖像進(jìn)行邊緣檢測(cè)時(shí),首先借助python 中的OpenCV 工具包將需要處理的三通道RGB 圖轉(zhuǎn)換為單通道的灰度化圖像[12],如圖2(a)所示,再利用Canny 邊緣檢測(cè)對(duì)圖像進(jìn)行邊緣檢測(cè),如圖2(b)所示.
圖1 鐵軌異物入侵識(shí)別流程圖Fig.1 Flow chart of foreign body intrusion detection on railway tracks
圖2 圖像預(yù)處理Fig.2 Image preprocessing
鐵路場(chǎng)景的圖像中包含了大量不相關(guān)的直線目標(biāo)會(huì)影響軌道區(qū)域的檢測(cè),因此在圖像中需先劃分出感興趣區(qū)域(Region of Interest,ROI),如圖3(a)所示,其中梯形部分是圖像的ROI 區(qū)域;利用OpenCV 中的函數(shù)進(jìn)行透視變換,采用滑動(dòng)窗口法檢測(cè)到軌道的邊緣像素點(diǎn),最小二乘法[11]對(duì)像素點(diǎn)擬合得到軌道線,如圖3(b)所示.
圖3 檢測(cè)軌道Fig.3 Detection track
采用OpenCV 函數(shù)逆透視變換到之前的視圖上并高亮顯示.根據(jù)鐵路建筑限界規(guī)定將左右軌道各向外擴(kuò)展1.6 m 的鐵路軌道異物檢測(cè)區(qū)域,滿足限界需要的同時(shí)也能充分保障行車安全.檢測(cè)效果如圖4 所示,其中綠色區(qū)域?yàn)殍F路鋼軌的位置,藍(lán)色區(qū)域?yàn)閿U(kuò)展后的異物檢測(cè)區(qū)域.軌道區(qū)域檢測(cè)中彎軌和直軌均有較好的檢測(cè)結(jié)果.
圖4 軌道位置和異物檢測(cè)區(qū)域顯示Fig.4 Display of track position and foreign object detection area
1.2.1 YOLOv3 算法結(jié)構(gòu)
YOLOv3 是典型的one-stage 算法,使用CNN[16]作為特征提取器,直接進(jìn)行預(yù)測(cè)框回歸和分類預(yù)測(cè),YOLOv3 和R-CNN 系 列 算 法、SSD[17]算 法 相 比 有較好的實(shí)時(shí)性,其模型結(jié)構(gòu)中沒有池化層和全連接層,網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示.
YOLOv3 采用Darknet-53 作為骨干網(wǎng)絡(luò),引入特征金字塔網(wǎng)絡(luò)中的多尺度融合,在13×13、26×26、52×52 三個(gè)尺度下進(jìn)行結(jié)果預(yù)測(cè),有效改善了對(duì)不同大小異物的識(shí)別效果.將高層特征上采樣堆疊到低層次特征上,增強(qiáng)低層次特征的語(yǔ)義信息,提升對(duì)異物的分類定位能力[18].同時(shí)為了提高識(shí)別的準(zhǔn)確性,引入Faster R-CNN 先驗(yàn)框,在3 個(gè)尺度下預(yù)設(shè)先驗(yàn)框,由K-means 算法生成9 種不同尺寸的先驗(yàn)框.使用與標(biāo)注框有最大交并比(Intersection over Union,IOU)值的先驗(yàn)框進(jìn)行結(jié)果預(yù)測(cè),再采用非極大值抑制(Non-Maximum Suppression,NMS)篩選這些預(yù)測(cè)框,輸出置信度最大的預(yù)測(cè)框.另外,YOLOv3 不再使用softmax 預(yù)測(cè)對(duì)象分類,其采用logistic 的輸出進(jìn)行預(yù)測(cè),可支持多標(biāo)簽對(duì)象.
1.2.2 YOLOv3 損失函數(shù)
鐵路異物識(shí)別問題既要確定異物位置,也要得到類別信息.以Faster R-CNN 為代表的two-stage算法將損失函數(shù)分為對(duì)物體位置的回歸和物體類別的分類兩部分,導(dǎo)致這類算法無(wú)法實(shí)現(xiàn)端到端檢測(cè),訓(xùn)練難度也較大.而YOLOv3 算法用一個(gè)損失函數(shù)解決了位置和分類兩個(gè)問題,實(shí)現(xiàn)了端到端檢測(cè),因此算法檢測(cè)速度也較快.
圖5 YOLOv3 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 YOLOv3 network structure
YOLOv3 損失函數(shù)由目標(biāo)定位偏移損失函數(shù)、目標(biāo)置信度損失函數(shù)、目標(biāo)分類損失函數(shù)三部分組成,其中置信度損失函數(shù)又分為有物體的置信度預(yù)測(cè)和沒有物體的置信度預(yù)測(cè)兩部分.YOLOv3 損失函數(shù)函數(shù)的計(jì)算公式如下
式中:λcoord為協(xié)調(diào)不同大小矩形框?qū)φ`差函數(shù)貢獻(xiàn)的權(quán)重系數(shù);λnoobj為不含目標(biāo)時(shí)的置信懲罰系數(shù);(xi,yi)為預(yù)測(cè)框的中心坐標(biāo)值;Iobjij表示第i個(gè)網(wǎng)格的第j個(gè)錨框是否負(fù)責(zé)這個(gè)目標(biāo)物體,obj指的是目標(biāo)物體,如果負(fù)責(zé),否則為0.wi和hi為預(yù)測(cè)框的寬和高;Ci為預(yù)測(cè)目標(biāo)的置信度;pi為物體類別的預(yù)測(cè)概率.經(jīng)過多次調(diào)參訓(xùn)練仿真結(jié)果表明,當(dāng)λcoord取值為5,λnoobj取值為0.5 時(shí),本文模型的識(shí)別效果最優(yōu).
傳統(tǒng)的YOLOv3 算法采用Darknet-53 作為特征提取主干網(wǎng)絡(luò),雖然可以提取有效的特征信息,但其網(wǎng)絡(luò)深度高達(dá)106 層,且運(yùn)用大量堆疊的殘差結(jié)構(gòu),導(dǎo)致參數(shù)量巨大,異物識(shí)別速度不佳.因此本文使用運(yùn)算復(fù)雜度較低,結(jié)構(gòu)簡(jiǎn)單的輕量級(jí)網(wǎng)絡(luò)MobileNetv2 作為YOLOv3 的特征提取網(wǎng)絡(luò),可以減少一定的參數(shù)冗余,提升算法實(shí)時(shí)性.
MobileNetv1 網(wǎng)絡(luò)采用深度可分離卷積(如圖6(a)所示)減少計(jì)算量,深度可分離卷積將傳統(tǒng)卷積(如圖6(b)所示)分為逐通道卷積(Depthwise,DW)和逐點(diǎn)卷積(Ponitwise,PW)兩部分,同時(shí)將ReLU6 作為激活函數(shù),相比傳統(tǒng)卷積操作,其參數(shù)量和運(yùn)算成本較低.假定輸入DF×DF×M大小的特征圖,輸出特征圖大小為N×DF×DF,其中DF是特征圖的寬度和高度,假定兩者是相同的;M和N是通道數(shù).對(duì)于標(biāo)準(zhǔn)的卷積DK×DK,傳統(tǒng)的卷積操作的計(jì)算量為:A=DK×DK×M×N×DF×DF,而深度卷積神經(jīng)網(wǎng)絡(luò)中逐通道卷積DW 的計(jì)算量為:DK×DK×M×DF×DF,逐點(diǎn)卷積PW 的計(jì)算量為:M×N×DF×DF,因此深度卷積神經(jīng)網(wǎng)絡(luò)的總計(jì)算量為:B=DK×DK×M×DF×DF+N×M×DF×DF,對(duì)比兩者計(jì)算量如下
由式(2)可知,采用深度卷積神經(jīng)網(wǎng)絡(luò)極大地減少了參數(shù)量.
圖6 傳統(tǒng)卷積、MobileNetv1、MobileNetv2 微結(jié)構(gòu)對(duì)比Fig.6 Microstructure comparison of traditional convolution,MobileNetv1 and MobileNetv2
MobileNetv2(如圖6(c)所 示)和MobileNetv1一樣仍采用DW 和PW 組成的深度卷積來(lái)提取特征,但由于DW 卷積沒有改變通道數(shù)的能力,如果上一層給的通道數(shù)較少,DW 就只能在低維空間提取特征,因此MobileNetv2 在DW 卷積層前再加一個(gè)PW 卷積,給每一層DW 配一個(gè)PW 用來(lái)升維.
同時(shí)MobileNetv2 去掉了第2 個(gè)PW 激活函數(shù),保留了特征多樣性,增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力.Mobile-Netv2 網(wǎng)絡(luò)如表1 所示.其中t為擴(kuò)張倍數(shù),c為通道數(shù),n為重復(fù)次數(shù),s為步長(zhǎng),k′為一通道數(shù)值.
表1 MobileNetv2 網(wǎng)絡(luò)Tab.1 MobileNetv2 network
YOLOv3 中利用K-means 聚類算法生成目標(biāo)的先驗(yàn)框,隨機(jī)選擇初始聚類中心.其聚類結(jié)果受離群數(shù)據(jù)的影響,是局部最優(yōu)但并非全局最優(yōu),導(dǎo)致小尺寸異物漏檢和識(shí)別準(zhǔn)確率下降.而鐵路場(chǎng)景中,行人距離攝像頭距離稍遠(yuǎn),就會(huì)成為小目標(biāo).因此本文采用隨機(jī)性較低的K-means++算法優(yōu)化數(shù)據(jù)集先驗(yàn)框選取部分.K-means++算法以初始聚類中心之間的相互距離盡可能的遠(yuǎn)作為聚類平均重疊度的度量,使得聚類結(jié)果不受隨機(jī)選擇的初始聚類中心的影響,從而生成尺寸更適合的錨框,降低小尺寸鐵路異物的漏檢概率.
K-means++聚類算法的步驟為
1)從輸入的有m個(gè)樣本點(diǎn)的數(shù)據(jù)集中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)聚類中心o1;
2)計(jì)算每個(gè)點(diǎn)和初始聚類中心o1的距離,并將樣本xn到聚類中心oj之間的距離記作d=(xn,oj);
3)從樣本中隨機(jī)選取一個(gè)樣本點(diǎn)作為下一個(gè)聚類中心的概率為
計(jì)算每一個(gè)樣本點(diǎn)到與其最近的聚類中心的距離D(x);
4)選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心,選擇的原則是:D(x)較大的點(diǎn),被選為聚類中心的概率較大,即遵循輪盤法則;
5)重復(fù)3)、4)步驟直到選擇了K個(gè)聚類中心;
6)利用這K個(gè)初始聚類中心運(yùn)行標(biāo)準(zhǔn)的Kmeans 聚類.
在使用K-means++聚類算法確定錨框參數(shù)的過程中,為減少由于先驗(yàn)框自身大小帶來(lái)的歐式距離誤差,以樣本框和先驗(yàn)框之間的交并比代替原來(lái)算法中的歐式距離作為目標(biāo)函數(shù),目標(biāo)函數(shù)值越小則聚類效果越好,目標(biāo)函數(shù)D的計(jì)算公式為
式中:IOUboxcen表示樣本框和聚類中心的交并比;box為樣本標(biāo)簽的目標(biāo)框;cen為聚類中心;n為樣本數(shù);k為類別數(shù).
針對(duì)本文的鐵軌異物相關(guān)數(shù)據(jù)集重新聚類出不同尺度下的錨框值.特征圖尺度越小,對(duì)應(yīng)錨框的面積越大,因此按照面積大小分配不同特征圖尺度下的先驗(yàn)框尺寸,如表2 所示.
表2 不同尺度下的先驗(yàn)框尺寸Tab.2 A priori box size at different scales
本文在Tensorflow-gpu1.13.2 版本的深度學(xué)習(xí)框架下采用Mobilnetv2-YOLOv3 實(shí)現(xiàn)鐵軌異物識(shí)別.電腦配置的CPU 型號(hào)為Intel i7-8700K,GPU 型號(hào)為NVIDIA GeForceMX150. 操作系統(tǒng)為Windows10,使 用 Python3.6 編 譯 器,同 時(shí) 配 置CUDA10.0,Cudnn7.5.1 進(jìn)行GPU 加速處理.
本文數(shù)據(jù)集包含2 000 張圖片,其中1 600 張作為訓(xùn)練集,400 張作為驗(yàn)證集.實(shí)驗(yàn)數(shù)據(jù)集在VOC 數(shù)據(jù)集的基礎(chǔ)上,增加鐵路場(chǎng)景下的相關(guān)圖像.主要的圖像數(shù)據(jù)包括1 000 張VOC2007 和VOC2012 中其他場(chǎng)景下的各類異物圖像.另外,按照VOC2007 格式標(biāo)注了1 000 張鐵路場(chǎng)景下的各類異物圖像.本文數(shù)據(jù)集中標(biāo)注的鐵路異物主要包括貓、狗、馬、牛、羊、鳥、人、汽車、自行車、摩托車、瓶子、樹木.為了防止誤檢和行車安全數(shù)據(jù)集中額外標(biāo)注了火車,但火車不是異物(部分圖像如圖7 所示).
圖7 鐵路場(chǎng)景下異物圖像Fig.7 Image of foreign objects in railway scene
在訓(xùn)練模型階段,批尺寸(batch_size)設(shè)置為8,IOU 閾值設(shè)置為0.05.將上面標(biāo)注的鐵軌異物數(shù)據(jù)集按照8∶2 的比例進(jìn)行訓(xùn)練集和驗(yàn)證集的劃分,利用本文改進(jìn)的MobileNetv2-YOLOv3 訓(xùn)練鐵軌異物數(shù)據(jù)集獲得異物識(shí)別模型.最后對(duì)已經(jīng)進(jìn)行過軌道區(qū)域和危險(xiǎn)區(qū)域標(biāo)定的相關(guān)圖像進(jìn)行鐵軌異物識(shí)別.
3.3.1 評(píng)價(jià)指標(biāo)
本文選取平均準(zhǔn)確率mAP[18]和幀速率FPS 作為模型檢測(cè)結(jié)果的評(píng)價(jià)指標(biāo)對(duì)本文算法進(jìn)行評(píng)價(jià).其中mAP 的提升體現(xiàn)了改進(jìn)后的算法對(duì)準(zhǔn)確率的提高,幀速率FPS 的上升體現(xiàn)了算法實(shí)時(shí)性的提高.AP 為P-R 曲線與橫軸包圍的面積,mAP 為所有類的AP 值的平均值,用以下計(jì)算公式可得
式中:TP為正樣本被正確分類的正樣本;FP為被錯(cuò)誤分類的負(fù)樣本;FN為被錯(cuò)誤分類的正樣本;P()表示為每一級(jí)對(duì)應(yīng)的最大P值;Δr(k)表示級(jí)別數(shù)從k-1 變化到k時(shí),R值變化的差值;n表示鐵軌異物的類別.
3.3.2 改進(jìn)K-means 聚類算法對(duì)模型的影響
改進(jìn)K-means 聚類算法前后的鐵路各類異物的AP 值如圖8 所示.
由式(8)計(jì)算可得,改進(jìn)前mAP 為79.5%.用K-means++聚類算法進(jìn)行錨框尺寸選擇之后,mAP提升到86.65%.
改進(jìn)前后的識(shí)別對(duì)比如圖9 所示.圖9 中的數(shù)字表示物體類別的置信度.通過對(duì)比結(jié)果可知,改進(jìn)后,尺寸為12×32 像素的目標(biāo)未發(fā)生漏檢,且置信度有所提高.其中兩列火車的置信度由圖9(a)中的0.80 和0.75 提升到圖9(b)中的0.98 和0.94,和火車距離較近光線較暗不易發(fā)現(xiàn)的小目標(biāo)仍能準(zhǔn)確檢測(cè)出來(lái).因此,利用K-means++聚類算法所得的先驗(yàn)框尺寸更適合鐵軌異物的數(shù)據(jù)集,它降低了由于異物位置原因和尺寸導(dǎo)致的漏檢概率,同時(shí)提升了物體類別識(shí)別的置信度.
圖8 K-means++聚類算法改進(jìn)前后的AP 對(duì)比Fig.8 AP comparison before and after the improvement of K-means++ clustering algorithm
圖9 改進(jìn)效果對(duì)比Fig.9 Comparison of improving effects
3.3.3 骨干網(wǎng)絡(luò)優(yōu)化結(jié)果
骨干網(wǎng)絡(luò)優(yōu)化后的異物識(shí)別AP 值如圖10 所示.由式(8)計(jì)算可得,改進(jìn)后的以MobileNetv2 為特征提取網(wǎng)絡(luò)識(shí)別異物的mAP 為89.23%.與以Darknet53 為特征提取網(wǎng)絡(luò)及采用K-means++聚類算法識(shí)別異物的mAP 值86.65% 相比,提高了2.58%,有效地提高了異物的識(shí)別精度.
圖10 骨干網(wǎng)絡(luò)優(yōu)化后的AP 圖Fig.10 AP diagram after backbone network optimization
同時(shí)由于MobileNetv2 的深度可分離卷積特性,使得參數(shù)量減少,速度變快,幀速率有明顯提高,由改進(jìn)前的20 f·s-1提高到54.3 f·s-1,這表明調(diào)整骨干網(wǎng)絡(luò)對(duì)模型識(shí)別異物的準(zhǔn)確率有一定提高,采用輕量化的MobileNetv2 特征提取網(wǎng)絡(luò)對(duì)鐵軌異物識(shí)別的實(shí)時(shí)性有顯著的提升.
3.3.4 實(shí)驗(yàn)結(jié)果
本文改進(jìn)后的MobileNetv2-YOLOv3 算法鐵路軌道異物識(shí)別結(jié)果如圖11 所示.圖11(a)為在實(shí)際的鐵路場(chǎng)景下,單個(gè)異物的識(shí)別結(jié)果;圖11(b)為實(shí)際鐵路場(chǎng)景下,多個(gè)異物的識(shí)別結(jié)果(置信度均大于0.6);圖11(c)為數(shù)據(jù)集中異物顏色與軌道顏色背景相似時(shí)的識(shí)別結(jié)果(置信度為0.67);圖11(d)為黃沙極端天氣下異物的識(shí)別結(jié)果,在此情況下仍然可以將異物準(zhǔn)確檢測(cè)出來(lái)(置信度為1).
圖11 鐵軌異物識(shí)別結(jié)果Fig.11 Detection results of foreign objects in railway tracks
3.3.5 本文算法與YOLOv3 的性能對(duì)比
針對(duì)YOLOv3 模型中的特征提取網(wǎng)絡(luò)層數(shù)過多、算法先驗(yàn)框尺寸與特征圖層不夠契合等缺點(diǎn).本文算法提出以MobileNetv2 為特征提取網(wǎng)絡(luò),采用K-means++聚類得出算法先驗(yàn)框尺寸.用本文的鐵軌異物圖像數(shù)據(jù)集對(duì)改進(jìn)前后的模型進(jìn)行訓(xùn)練,得到500 次迭代后的模型準(zhǔn)確率和損失值,如圖12 所示.
圖12 loss 和mAP 曲 線Fig.12 Loss and mAP curves
從圖12(a)中可知,本文改進(jìn)后的YOLOv3 的損失值在100 輪的時(shí)候趨于穩(wěn)定,趨于0.5 左右;而原YOLOv3 在大約150 輪的時(shí)候趨于穩(wěn)定,趨于0.8左右.圖12(b)可知,本文改進(jìn)的YOLOv3 算法在50輪左右,mAP 值已經(jīng)上升到0.8 左右,最終穩(wěn)定在0.89 左 右,而 原YOLOv3 在100 輪 左 右,mAP 值 上升到0.7 左右,最終穩(wěn)定在0.79 左右.因此相較于原YOLOv3 算法,本文改進(jìn)的算法在損失函數(shù)收斂速度和檢測(cè)精度上均有顯著提升.
3.3.6 本文算法與其他模型的對(duì)比
本文算法與Faster R-CNN、SSD、文獻(xiàn)[8]、文獻(xiàn)[9]等幾種主流卷積神經(jīng)網(wǎng)絡(luò)模型在本文3.1 所述的同一實(shí)驗(yàn)平臺(tái)和同一鐵軌異物數(shù)據(jù)集上進(jìn)行識(shí)別效果對(duì)比,結(jié)果如表3 所示.
表3 本文算法與其他模型對(duì)比結(jié)果Tab.3 Comparison of the proposed model with other models
由表3 對(duì)比可知,本文算法的mAP 略低于Faster R-CNN 算 法 和 文 獻(xiàn)[8]的mAP,但 由 于Faster-RCNN 檢測(cè)流程是先用區(qū)域建議網(wǎng)絡(luò)RPN生成2 000 個(gè)建議窗口,再用卷積神經(jīng)網(wǎng)絡(luò)對(duì)候選區(qū)域進(jìn)行分類,導(dǎo)致Faster R-CNN 算法和文獻(xiàn)[8]的檢測(cè)速度不理想.由于SSD 算法金字塔特征層次的網(wǎng)絡(luò)特性,其對(duì)異物檢測(cè)的準(zhǔn)確度不高,檢測(cè)速度表現(xiàn)一般.本文算法的檢測(cè)速度和準(zhǔn)確度均比文獻(xiàn)[9]更理想,對(duì)一幀的處理時(shí)間也由傳統(tǒng)YOLOv3算法的0.053 s 降至0.011 s.綜上,本文算法在保證鐵路異物識(shí)別準(zhǔn)確性的前提下,識(shí)別速度提升明顯,較其他方法有一定的優(yōu)勢(shì).
針對(duì)鐵路異物識(shí)別,構(gòu)建了一個(gè)改進(jìn)YOLOv3算法的鐵路異物識(shí)別模型,通過鐵路運(yùn)行現(xiàn)場(chǎng)的實(shí)地調(diào)研,獲取鐵路異物圖像數(shù)據(jù)集,對(duì)所構(gòu)建模型進(jìn)行訓(xùn)練和測(cè)試.實(shí)驗(yàn)結(jié)果表明:
1)逆透視變換確定軌道位置后,根據(jù)鐵路安全限界的規(guī)定將其擴(kuò)張一定距離作為危險(xiǎn)區(qū)域,為后續(xù)異物檢測(cè)提供基礎(chǔ),減少誤報(bào)警情況.
2)通過K-means++聚類算法,生成更適合本文數(shù)據(jù)集的先驗(yàn)框尺寸,提高識(shí)別精度,降低錯(cuò)檢和漏檢的概率,異物識(shí)別精度達(dá)到89.23%.
3)采用MobileNetv2 作為特征提取網(wǎng)絡(luò),對(duì)模型實(shí)現(xiàn)輕量化改進(jìn),有效降低了參數(shù)量過多對(duì)模型識(shí)別實(shí)時(shí)性和準(zhǔn)確性的影響.最終,模型的幀速率由20 f·s-1提升到54.3 f·s-1,更適合鐵路異物檢測(cè)的場(chǎng)景.