郭忠峰,張淵博,王赫瑩,任仲偉
深度學(xué)習(xí)目標(biāo)檢測算法在貨運(yùn)列車車鉤識別中的應(yīng)用
郭忠峰1,張淵博1,王赫瑩1,任仲偉2
(1. 沈陽工業(yè)大學(xué) 遼寧省智能制造與工業(yè)機(jī)器人重點(diǎn)實(shí)驗(yàn)室,遼寧 沈陽 110870;2. 貴州理工學(xué)院,貴州 貴陽 550009)
鐵路貨運(yùn)列車的自動摘鉤是實(shí)現(xiàn)駝峰作業(yè)自動化的重要環(huán)節(jié),為了完成貨運(yùn)列車自動摘鉤工作,需要實(shí)現(xiàn)車鉤的快速準(zhǔn)確識別。通過當(dāng)前廣泛應(yīng)用的YOLO_v2網(wǎng)絡(luò)模型,研究針對貨運(yùn)列車在正常工作條件下車鉤的識別問題,通過K-means聚類算法對YOLO_v2網(wǎng)絡(luò)模型中anchor的個(gè)數(shù)進(jìn)行調(diào)整優(yōu)化,找出適用于本次車鉤識別的最優(yōu)anchor個(gè)數(shù)以及寬高維度,并通過訓(xùn)練自制具有明顯目標(biāo)特征數(shù)據(jù)集來獲取更加準(zhǔn)確的權(quán)重。結(jié)果表明改進(jìn)YOLO_v2模型在精確度上達(dá)到92.6%;在召回率上達(dá)到了91.8%;在FPS上達(dá)到45幀/s,改進(jìn)的YOLO_v2模型達(dá)到了預(yù)期設(shè)計(jì)目標(biāo)。
改進(jìn)YOLO_v2模型;貨運(yùn)列車;車鉤識別;K-means聚類算法
隨著國民經(jīng)濟(jì)的日益發(fā)展,鐵路運(yùn)輸任務(wù)愈來愈重,為了提高車箱周轉(zhuǎn)率、縮短貨物運(yùn)輸時(shí)間,從而設(shè)計(jì)出了自動摘鉤機(jī)器人[1]。自動摘鉤機(jī)器人分別由車鉤識別系統(tǒng)、同步運(yùn)動定位系統(tǒng)、機(jī)械臂抓取提鉤系統(tǒng)3部分組成,車鉤識系統(tǒng)別作為自動摘鉤機(jī)器人的一部分,其車鉤檢測反應(yīng)速度和車鉤識別準(zhǔn)確率對自動摘鉤機(jī)器人工作完成度具有重要影響。當(dāng)前機(jī)器視覺以及目標(biāo)檢測技術(shù)飛速發(fā)展,通過基于深度學(xué)習(xí)的算法框架,能夠快速地從圖像中檢測出目標(biāo)特征,機(jī)器視覺中關(guān)于圖像識別有四大類任務(wù),分別是分類、定位、檢測以及分割,其核心任務(wù)是找出圖像中所有感興趣的目標(biāo)(物體),并確定它們的位置和大小。
早期的目標(biāo)檢測方法通常是通過提取圖像的一些目標(biāo)特征,使用 DPM (Deformable Parts Model)模型,用滑動窗口的方式來預(yù)測具有較高score的bounding box。但是其精度較低而且用時(shí)較長,后來出現(xiàn)了object proposal方法,相比于滑動窗口這種窮舉的方式,減少了大量的計(jì)算,提高了檢測效率,同時(shí)在性能上也有很大的提高。
當(dāng)前在目標(biāo)檢測方面的深度學(xué)習(xí)方法主要分為大類:two stage的目標(biāo)檢測算法以及one stage的目標(biāo)檢測算法。
Two stage的目標(biāo)檢測算法也叫做基于侯選區(qū)域的深度學(xué)習(xí)目標(biāo)檢測法,先由算法生成一系列候選區(qū)域,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取、類別及位置判斷,來完成目標(biāo)檢測任務(wù),代表性算法有R-CNN[2]和SPP-NET[3]等。
One stage的目標(biāo)檢測算法則不產(chǎn)生候選框,直接將目標(biāo)邊框定位問題轉(zhuǎn)化為回歸問題處理,實(shí)現(xiàn)了實(shí)時(shí)的端到端目標(biāo)檢測,代表性算法有YOLO[4]和SSD[5]等。
2015年,Joseph Redmon和Ali Farhadi等提出了YOLO(You Only Look Once )算法,這是一種基于單個(gè)神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法,其網(wǎng)絡(luò)結(jié)構(gòu)是在GoogLeNet[6]模型之上建立的。YOLO在理念上遵循端到端的訓(xùn)練和實(shí)時(shí)檢測,能夠?qū)崿F(xiàn)一次性檢測多個(gè)Box的位置和尺寸的神經(jīng)網(wǎng)絡(luò),最大的優(yōu)點(diǎn)是檢測速度快。作為第1代的YOLO算法,即YOLO_v1算法,同之前的Faster R-CNN目標(biāo)檢測算法相比,在實(shí)時(shí)檢測速度上有大幅提升,但相應(yīng)的在預(yù)測精度上有一定程度的降低[7]。
2016年,Redmon等推出了YOLO的第2代的版本YOLO_v2,相較于YOLO_v1算法模型,YOLO _v2利用批量規(guī)范化原理,通過對數(shù)據(jù)進(jìn)行格式統(tǒng)一、降噪處理以及均衡化等能夠顯著提高訓(xùn)練的速度以及準(zhǔn)確度;將訓(xùn)練檢測網(wǎng)絡(luò)從YOLO中的分辨率從224×224提升到448×448,從而使得mAP提升了大約4%;更改了基礎(chǔ)網(wǎng)絡(luò)使得向前傳播運(yùn)算量提升了3倍(1次);去掉了全連接層,分辨率改為13×13,從而提高了召回率(Recall);在YOLO _v2中同樣采用了3×3卷積核,但是在3×3卷積核之間插入了1×1卷積核進(jìn)行特征壓縮;使用維度聚類和直接預(yù)測的方法對anchor改進(jìn),提升mAP。
當(dāng)前國內(nèi)貨運(yùn)列車的車鉤主要分為上提鉤式車鉤和下提鉤式車鉤,如圖1所示的白框處是視覺上直觀區(qū)分兩者的重要標(biāo)志,對于上提鉤式車鉤,提鉤人員只需轉(zhuǎn)動車鉤,即可完成提鉤作業(yè)。對于下提鉤式車鉤,提鉤人員需先向上提起車鉤,然后再轉(zhuǎn)動車鉤[8],因?yàn)槠涔ぷ髟淼牟煌瑸榱吮WC圖像目標(biāo)識別的精確度和實(shí)時(shí)性,本文以當(dāng)前具有最佳識別效果的YOLO_v2為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),以解決車鉤的識別以及分類問題。
(a) 上提鉤式車鉤手柄;(b) 下提鉤式車鉤手柄
盡管YOLO_v2在VOC以及COCO測試集上都有很優(yōu)秀的表現(xiàn),但是針對本次貨車車鉤檢測其得到的訓(xùn)練權(quán)重存在識別精確率低,識別效果不理想的情況,在實(shí)際測試中發(fā)現(xiàn) anchor的維度[9]對精確率以及檢測速度影響較大,盡管在訓(xùn)練過程中對anchor的寬高值進(jìn)行調(diào)整,若能夠預(yù)先直接設(shè)定anchor的維度值,在訓(xùn)練過程中能得到更好的權(quán)重。
YOLO_v2通過K-means[10]聚類方法訓(xùn)練得到anchor的寬高維度,獲得了5個(gè)anchor,對于本文的車鉤識別在召回率和模型復(fù)雜度之間進(jìn)行平衡之后,不需要多達(dá)5種類型的anchor。機(jī)械手臂在摘鉤之前通過固定視覺角度采集車鉤的圖像信息,通過在自行標(biāo)定的測試集圖片中的情況分析,能夠完成車鉤檢測需要3種anchor,然后利用K-means聚類算法對目標(biāo)框統(tǒng)計(jì)規(guī)律進(jìn)行維度聚類分析并驗(yàn)證是否是最優(yōu)的anchor維度。
K-means是一個(gè)簡單快捷的聚類算法,原理是將數(shù)據(jù)分為很多個(gè)簇或者類別,同一個(gè)簇內(nèi)的數(shù)據(jù)的間距趨向于最小,根據(jù)這個(gè)原理去劃分出有明顯區(qū)別的K個(gè)類別,則其定義的損失函數(shù)如(1)所示,
其中將數(shù)據(jù)(x)聚合為K類,聚合后的類別分別為(t),每個(gè)聚合的中心分別為(μ)。
YOLO_v2通過anchor直接預(yù)測bounding boxes的坐標(biāo)時(shí),坐標(biāo)是相對于柵格邊長的比例(0到1之間),因此要將anchor的寬和高也轉(zhuǎn)換為相對于柵格邊長的比例。通過使用K-means聚類算法對數(shù)據(jù)集中目標(biāo)框的寬高進(jìn)行維度聚類分析,直到相鄰2次聚類的結(jié)果相同時(shí)停止迭代過程,然后做出目標(biāo)函數(shù)變化曲線圖,對于聚類中心來說,當(dāng)聚類中心多的時(shí)候容易引起過擬合問題,相反的聚合中心少的時(shí)候容易造成欠擬合,本文采用誤差平方的變化來評價(jià)檢測結(jié)果的好壞,即當(dāng)聚合中心個(gè)數(shù)時(shí)候其誤差平方下降速度會很快,當(dāng)聚合中心個(gè)數(shù)多的時(shí)候其下降速度會明顯的減緩[11],從圖2的圖像上來看就是曲線發(fā)上明顯彎折的地方,即=3,最終的聚類中心點(diǎn)坐標(biāo)作為archor的寬高緯度,即anchor總共有3個(gè),其參數(shù)分別為(1.46,0.71),(1.64,1.74),(9.86,4.01)。
本文實(shí)驗(yàn)平臺配置如表1所示。
圖2 目標(biāo)函數(shù)曲線變化
表1 實(shí)驗(yàn)設(shè)備配置
本文通過運(yùn)用改進(jìn)YOLO-v2算法來實(shí)現(xiàn)對于貨運(yùn)列車車鉤的實(shí)時(shí)識別,從而使自動摘鉤機(jī)器人能夠進(jìn)行準(zhǔn)確的摘鉤作業(yè)。目標(biāo)數(shù)據(jù)集包括4 000張圖片,訓(xùn)練集圖片包含3 500張自制的貨運(yùn)列車車鉤的圖片及其標(biāo)注的特定場景圖片;測試集圖片包含500張自制的貨運(yùn)列車車鉤的圖片,其中訓(xùn)練集中的車鉤用LabelImg進(jìn)行標(biāo)定,標(biāo)定的標(biāo)簽包含4種輸出情況,即A手柄(A-handle)、A基座(A- pedestal)、B手柄(B-handle)及B基座(B-pedestal),正確的輸出為A手柄及A基座或B手柄及B基座被同時(shí)正確的選的標(biāo)定,其他的輸出均視為錯(cuò)誤。
車鉤手柄檢測效果如圖3所示,其中,白實(shí)線包圍框?yàn)楦倪M(jìn)YOLO_v2車鉤手柄檢測模型預(yù)測結(jié)果,紅實(shí)線包圍框是事先標(biāo)注的目標(biāo)真實(shí)值,圖3(a)為上提鉤式車鉤,圖3(b)為下提鉤式車鉤。通過對比目標(biāo)數(shù)據(jù)集中圖片的預(yù)測結(jié)果與真實(shí)值的重合率達(dá)到了98.6%,達(dá)到了實(shí)驗(yàn)要求。
(a) 上提鉤式車鉤;(b) 下提鉤式車鉤
針對改進(jìn)YOLO_v2魯棒性檢測實(shí)驗(yàn)如圖4所示,驗(yàn)證了在不同光照、局部遮擋以及車鉤部分缺損條件下的車鉤識別準(zhǔn)確率[12],圖4(a)和圖4(b)分別為陰暗條件下和局部遮蓋條件下檢測結(jié)果,在正午最強(qiáng)光照以及傍晚無光照條件下車鉤都能被識別;圖4(c)和圖4(d)分別為車鉤局部遮擋條件下和車鉤部分缺損條件下檢測結(jié)果,測試集檢測結(jié)果表明,當(dāng)車鉤被遮擋或者缺損部分不大于46%時(shí),均能夠識別檢測出車鉤。
表2中通過比較Faster R-CNN,YOLO _v2以及改進(jìn)YOLO _v2模型的識別結(jié)果,改進(jìn)YOLO _v2在anchor數(shù)量減少的情況下有更高的平均重疊率。
表3為測試集階段3種算法對于車鉤圖片識別的精確度、召回率以及每秒檢測幀數(shù)的統(tǒng)計(jì)數(shù)據(jù),通過對圖片統(tǒng)計(jì)以及精確度和召回率的計(jì)算,改進(jìn)YOLO_v2算法相對于另外2種算法擁有更好的 表現(xiàn)。
測試數(shù)據(jù)集上的檢測用時(shí)如下:改進(jìn)YOLO _v2模型檢測圖片的平均用時(shí)為22 ms,即45幀/s;YOLO _v2檢測一張圖片平均用時(shí)為 25 ms,即40幀/s;Faster R-CNN檢測一張圖片平均用時(shí)為63 ms,即16幀/s。可以看出,改進(jìn)YOLO _v2的檢測速度是 Faster R-CNN的 3倍,比YOLO _v2也快??梢姼倪M(jìn)YOLO _v2比Faster R-CNN及YOLO _v2的運(yùn)算效率都高。在對貨運(yùn)列車車鉤的檢測上,改進(jìn)YOLO _v2模型更能滿足實(shí)時(shí)性的要求。
(a) 陰暗條件下檢測圖片;(b) 高曝光條件下檢測圖片;(c) 車鉤局部遮擋圖片;(d) 車鉤部分缺損圖片
表2 候選框生成結(jié)果對比
表3 測試集結(jié)果對比
如圖5(a),5(b)和5(c)分別為改進(jìn)YOLO_v2,YOLO_v2以及Faster R-CNN3種算法在測試圖片集中對上提鉤式車鉤的測試集結(jié)果,圖6(a),6(b)和6(c)分別為改進(jìn)YOLO_v2,YOLO_v2以及Faster R-CNN3種算法在測試圖片集中對下提鉤式車鉤的測試結(jié)果。相較于YOLO_v2和Faster R-CNN算法,改進(jìn)YOLO_v2算法優(yōu)化了檢測過程,大幅縮減檢測時(shí)間,降低了錯(cuò)檢、漏檢情況,檢測效果明顯變好。
(a)改進(jìn)YOLO_v2算法檢測圖;(b) YOLO_v2算法檢測圖;(c)Faster R-CNN算法檢測圖
(a) 改進(jìn)YOLO_v2算法檢測圖;(b) YOLO_v2算法檢測圖;(c) Faster R-CNN算法檢測圖
1) 引入了目標(biāo)檢測算法進(jìn)行貨運(yùn)列車車鉤識別方法,相較于傳統(tǒng)電氣信號控制系統(tǒng)降低了系統(tǒng)的復(fù)雜程度,增大了駝峰軌道的空間利用率,提升了車鉤目標(biāo)追蹤的靈活性和準(zhǔn)確性。
2) 相較于Faster R-CNN及YOLO_v2算法,改進(jìn)YOLO_v2通過K-means聚類算法對anchor的目標(biāo)框個(gè)數(shù)進(jìn)行了調(diào)整優(yōu)化,在對精確率、召回率及檢測速度3方面的測試中都有很大提升。
3) 測試了改進(jìn)YOLO_v2算法在不同光照、局部遮擋以及車鉤部分缺損條件下的識別情況,根據(jù)識別結(jié)果證明改進(jìn)YOLO_v2算法具有良好的魯棒性,滿足工作條件下車鉤識別功能。
[1] 劉超穎, 臧麗超, 王戰(zhàn)中, 等. 鐵路貨車摘鉤機(jī)器人的動力學(xué)分析與仿真[J]. 機(jī)床與液壓, 2013, 41(17): 142?145. LIU Chaoying, ZANG Lichao, WANG Zhanzhong, et al. Dynamics analysis and simulation of railway freight car unhooking robot[J]. Machine Tool and Hydraulic Pressure, 2013, 41(1): 142?145.
[2] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus: IEEE, 2014: 580?587.
[3] HE Kaiming,ZHANG Xian. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904?1916.
[4] Redmon J, Divvala S, Girshick R, et al. You only look once: Untified, real-time object detection[C]// IEEE Conferenceon Computer Vision and Patteren Recongnition (CVPR). Las Vegas: IEEE, 2016: 779?788.
[5] LIU W, Angulovd, Erhand, et al. SSD: Single shot multi-box detector[C]// Proceedings of the 2016 European Conference on Computer Vision. Springer: IEEE, 2016: 21?37.
[6] Szegedy C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 1?9.
[7] 王超, 付子昂. 基于YOLO_V2模型的交通標(biāo)識檢測算法[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(增2): 276?278. WANG Chao, FU Ziang. Traffic sign detection algorithms based on YOLO_V2 model[J]. Computer Application, 2018, 38(Suppl 2): 276?278.
[8] 臧麗超. 鐵路貨車摘鉤機(jī)器人設(shè)計(jì)與仿真研究[D]. 石家莊: 石家莊鐵道大學(xué), 2013. ZANG Lichao. Design and simulation of a coupler removal robot for railway freight cars[D]. Shijiazhuang: Shiiazhuang Tiedao University, 2014.
[9] 呂欣然, 陳潔, 張立保, 等. 基于顯著特征聚類的遙感圖像感興趣區(qū)域檢測[J]. 光學(xué)學(xué)報(bào), 2015, 35(增1): 103?108. Lü Xinran, CHEN Jie, ZHANG Libao, et al. Detection of region of interest in remote sensing images based on significant feature clustering[J]. Journal of Optics, 2015, 35(Suppl 1): 103?108.
[10] 張素潔, 趙懷慈. 最優(yōu)聚類個(gè)數(shù)和初始聚類中心點(diǎn)選取算法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2017, 34(6): 1617? 1620. ZHANG Sujie, ZHAO Huaici. Research on the optimal clustering number and the selection of the initial clustering center[J]. Computer Applied Research, 2017, 34(6): 1617?1620.
[11] 王曙光, 呂攀飛. 改進(jìn)YOLO_V2的裝甲車輛目標(biāo)識別[J]. 計(jì)算機(jī)與現(xiàn)代化, 2018, 38(9): 68?71, 79. WANG Shuguang, Lü Panfei. Target recognition of armored vehicle based on improved YOLO_V2[J]. Computer and Modernization, 2018, 34(9): 68?72.
[12] 郭敬東, 陳彬, 王仁書, 等. 基于YOLO的無人機(jī)電力線路桿塔巡檢圖像實(shí)時(shí)檢測[J]. 中國電力, 2019, 52(7): 17?23. GUO Jingdong, CHEN Bin, WANG Renshu, et al. Real time detection of uav power line tower inspection image based on YOLO[J]. China Electric Power, 2019, 52(7): 17?23.
Application of deep learning target detection algorithm in freight train coupler recognition
GUO Zhongfeng1, ZHANG Yuanbo1, WANG Heying1, REN Zhongwei2
(1. Key Laboratory of Intelligent Manufacturing and Industrial Robot of Liaoning Province, Shenyang University of Technology, Shenyang 110870, China; 2. Guizhou Institute of Technology, Guiyang 550009, China)
Aiming at the complex problem that the EMU (Electric Multiple Units) trains operation need to consider punctuality, energy saving, safety and comfort, the operation time was regarded as the standard of passenger satisfaction, and the energy consumption was seen as the standard of the railway company satisfaction. Meanwhile, considering the influence of electrical phases in order to make the train operation more in line with the actual situation, a multi-objective optimization model for the train operation was established, which was constrained by safety, track characteristics and passenger comfort and so on. Then, a kind of algorithm combining NSGA-II (Non-dominated Sorting Genetic Algorithm-II) with golden ratio technology was proposed to solve the problem of uneven individuals distribution in the solution space when using NSGA-II to optimize. The tests of the algorithms show that the golden ratio NSGA-II algorithm has better distribution and convergence than the NSGA-II algorithm. Finally, taking CRH3of a certain section of Wuhan-Guangzhou line as a simulation case, some simulation results are shown, which further indicate that the model and the proposed algorithm are feasible.
improved YOLO_v2 model; freight train; coupler recognition; K-means clustering algorithm
TP391
A
1672 ? 7029(2020)10 ? 2479 ? 06
10.19713/j.cnki.43?1423/u.T20191164
2019?12?24
遼寧省教育廳資助項(xiàng)目(LQGD2017034)
郭忠峰(1978?),男,遼寧沈陽人,副教授,博士,從事機(jī)器人技術(shù)研究;E?mail:13146221@qq.com
(編輯 陽麗霞)