洪松 高定國(guó) 三排才讓
摘要:在新時(shí)代背景下,智慧交通的概念已經(jīng)出現(xiàn)在人們的生活中。檢測(cè)車輛和行人已經(jīng)成為目標(biāo)檢測(cè)領(lǐng)域比較熱門的應(yīng)用研究方向。該文將YOLO_v3目標(biāo)檢測(cè)算法應(yīng)用于車輛和行人的檢測(cè)。針對(duì)行人和車輛檢測(cè)問題,將分類器的輸出張量維度設(shè)置為21維。實(shí)驗(yàn)結(jié)果表明,訓(xùn)練出的模型在測(cè)試集上的平均檢測(cè)精度約為89%。其中,車輛的檢測(cè)精度約為95.64%.行人的檢測(cè)精度約為82.55%。
關(guān)鍵詞:智慧交通;目標(biāo)檢測(cè);車輛;行人
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)08-0192-02
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1 概述
隨著城市的發(fā)展,城市交通流和人流密度成為城市道路交通擁擠的重要原因。針對(duì)這一問題,智慧交通的概念出現(xiàn)在人們的認(rèn)知中,也因此提出了新時(shí)代智慧交通的發(fā)展應(yīng)強(qiáng)化前沿科技應(yīng)用與研發(fā)的觀點(diǎn)[1]。在此背景下,車輛和行人檢測(cè)成為當(dāng)下的研究熱門。近年來計(jì)算機(jī)視覺領(lǐng)域發(fā)展迅猛,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)層出不窮。當(dāng)前的目標(biāo)檢測(cè)技術(shù)主要分為兩大類,一是以Fast R-CNN和Faster R-CNN為代表的基于區(qū)域生成的兩階段檢測(cè)算法;二是以YOLO和SSD為代表的基于回歸的單階段檢測(cè)算法[2]。兩階段的檢測(cè)算法通常具有較高的檢測(cè)精度,但檢測(cè)速度較慢,而單階段檢測(cè)算法在犧牲了一定檢測(cè)精度的基礎(chǔ)上提高了檢測(cè)速度。
目前YOLO系列檢測(cè)算法已經(jīng)在工程中的各個(gè)領(lǐng)域中都有廣泛的應(yīng)用。其中,在航空航天領(lǐng)域,鈕賽賽[3]等人將YOLO智能網(wǎng)絡(luò)算法用于紅外弱小多目標(biāo)的檢測(cè),將其與傳統(tǒng)的模板匹配方法相比,在檢測(cè)概率和檢測(cè)精度上YOLO具有明顯的優(yōu)勢(shì)。在交通領(lǐng)域,周慧娟[4]等人提出了基于改進(jìn)Tiny YOL02的地鐵進(jìn)站客流人臉檢測(cè)方法,測(cè)試結(jié)果表明基于改進(jìn)的TinyYOL02的人臉檢測(cè)算法相比于原始的檢測(cè)算法在召回率和檢測(cè)速度上都有提升且有較好的泛化性。在農(nóng)業(yè)領(lǐng)域,燕紅文[5]等人提出了基于改進(jìn)Tiny-YOLO模型的群養(yǎng)生豬臉部姿態(tài)檢測(cè)算法,實(shí)驗(yàn)表明該模型可以有效地對(duì)群養(yǎng)生豬不同類別臉部姿態(tài)進(jìn)行檢測(cè)。在教育領(lǐng)域,黃偉鎧[6]等人設(shè)計(jì)了一種基于YOLO算法的學(xué)生課堂關(guān)注度分析系統(tǒng),該系統(tǒng)能有效檢測(cè)課堂中學(xué)生的行為,為分析學(xué)生的課堂關(guān)注度提供了一種有利的手段。由此可見,YOLO系列檢測(cè)算法已經(jīng)應(yīng)用于各行各業(yè).并取得了不錯(cuò)的檢測(cè)效果,具有一定的實(shí)際應(yīng)用價(jià)值。
單階段檢測(cè)算法YOLO_v3因其良好的檢測(cè)精度和速度,已經(jīng)在工程應(yīng)用中成為主流檢測(cè)算法。本文在KITTI數(shù)據(jù)集的基礎(chǔ)上,利用YOLO_v3算法對(duì)該數(shù)據(jù)集進(jìn)行特征訓(xùn)練學(xué)習(xí),進(jìn)一步對(duì)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行調(diào)整,最終得到本文的車輛和行人檢測(cè)模型。
2 YOLO v3算法理論
2.1 特征提取網(wǎng)絡(luò)Darknet-53
YOLO_v3其主干特征提取網(wǎng)絡(luò)由連續(xù)的3x3和IXI卷積層組合而成,因?yàn)橐还灿?3個(gè)卷積層,又被稱為Darknet_53[7]。YOLO_v3的特征提取網(wǎng)絡(luò)Darknet-53如圖1所示,在整個(gè)特征提取網(wǎng)絡(luò)的結(jié)構(gòu)里沒有池化層和全連接層,張量的尺寸變換是通過改變卷積核的步長(zhǎng)來實(shí)現(xiàn)的,在此結(jié)構(gòu)中不考慮全局平均池化,張量維度的變化一共有5次。
2.2 基于車輛和行人檢測(cè)的YOLO_v3算法分析
YOLO_v3網(wǎng)絡(luò)將輸入的行人和車輛圖片進(jìn)行預(yù)處理,然后將其送入CNN網(wǎng)絡(luò),CNN網(wǎng)絡(luò)將輸入的圖片分割成SXS的網(wǎng)格,每個(gè)單元格被用于檢測(cè)那些中心點(diǎn)落在該單元格內(nèi)的目標(biāo)。每個(gè)單元格會(huì)預(yù)測(cè)檢測(cè)物體邊界框的4個(gè)偏移坐標(biāo)和置信度得分。最后YOLO_v3會(huì)在三個(gè)等級(jí)上進(jìn)行預(yù)測(cè),每個(gè)等級(jí)負(fù)責(zé)不同規(guī)模大小的物體的預(yù)測(cè),每種規(guī)模預(yù)測(cè)三個(gè)邊界框。在本實(shí)驗(yàn)數(shù)據(jù)集中類別為行人和車輛,共兩類。所以得到的張量是SxSx[3x(4+1+2)],其中包含4個(gè)邊界框的坐標(biāo)、1個(gè)目標(biāo)預(yù)測(cè)以及兩種分類預(yù)測(cè)。
3 基于YOLO_v3的車輛和行人檢測(cè)實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
本文是在KITTI數(shù)據(jù)集的基礎(chǔ)上訓(xùn)練行人和車輛檢測(cè)模型,官方提供的數(shù)據(jù)集中只有訓(xùn)練集圖片給出了標(biāo)簽,一共有7481張圖片。將這7481張圖片按照9:1的比例劃分為訓(xùn)練集和測(cè)試集。該數(shù)據(jù)集中共有八個(gè)類別,分別是Car、Van、Truck、Tram、Pedestrian等,將這八個(gè)類合并為Car、Pedestrian這兩個(gè)大類。最后通過格式轉(zhuǎn)換腳本程序?qū)ITTI數(shù)據(jù)集格式轉(zhuǎn)化為YOLO網(wǎng)絡(luò)所需要的標(biāo)簽格式。
3.2 實(shí)驗(yàn)平臺(tái)
本實(shí)驗(yàn)平臺(tái)的配置為:顯卡為2080Ti,顯存IIG,CPU為In-ter Core i7 9700,內(nèi)存64G,操作系統(tǒng)為ubuntu18.04,CUDA版本為10.1,CUDNN版本為7.6.3。
3.3 實(shí)驗(yàn)參數(shù)設(shè)定
本實(shí)驗(yàn)初始學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.0005,最大迭代次數(shù)設(shè)置為50000次,動(dòng)量參數(shù)設(shè)置為0.9。在模型訓(xùn)練過程中,按照設(shè)定的訓(xùn)練節(jié)點(diǎn)調(diào)整學(xué)習(xí)率的大小,減少模型訓(xùn)練過程中的損失,該訓(xùn)練節(jié)點(diǎn)分別為最大迭代次數(shù)的80%和90%[8]。本實(shí)驗(yàn)數(shù)據(jù)集中的大部分車輛和行人在圖片中所占比例較小,較難分辨,為了提高檢測(cè)精度,將送入網(wǎng)絡(luò)的圖片分辨率設(shè)置為608x608。同時(shí)為了提高模型的魯棒性,在訓(xùn)練過程中隨機(jī)使用不同尺寸的圖片進(jìn)行訓(xùn)練。
4 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)過程及分析
實(shí)驗(yàn)過程中的loss和mAp值的變化趨勢(shì)如圖2所示,在前5000次迭代中l(wèi)oss急劇下降,mAp值逐步上升。隨著迭代次數(shù)的增加loss和mAp的變化趨于平緩,mAp的值在89%至91%范圍內(nèi)波動(dòng)。在40000次迭代訓(xùn)練后loss值趨于穩(wěn)定不再下降,當(dāng)?shù)?xùn)練結(jié)束時(shí),loss的值約為0.22左右。
4.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
本實(shí)驗(yàn)采用目標(biāo)檢測(cè)領(lǐng)域公認(rèn)的平均檢測(cè)精度mAP以及Precision、Recall、Fl值來衡量模型的性能。Precision、Recall、F1值、AP及mAP定義如式(1)一(5)所示。
其中TP表示正確檢測(cè)到是行人或車輛;FP表示誤檢測(cè)為是行人或車輛;FN表示漏檢測(cè)行人或車輛;P,R分別表示精確率與召回率;C表示數(shù)據(jù)集中的類別總數(shù),本實(shí)驗(yàn)取2,C.表示當(dāng)前第i個(gè)類別,i的取值為0和1。
4.3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,訓(xùn)練出的模型在748張圖片的測(cè)試集上的平均檢測(cè)精度約為89%。其中,車輛的檢測(cè)精度約為95.64%,行人的檢測(cè)精度約為82.55%。詳細(xì)的實(shí)驗(yàn)結(jié)果如表1到3所示,在測(cè)試集上的部分檢測(cè)效果如圖3和4所示。
5 結(jié)束語
本文闡述了基于YOLO_v3的車輛和行人檢測(cè)方法,包括修改分類器維度、模型訓(xùn)練及網(wǎng)絡(luò)參數(shù)調(diào)整。實(shí)驗(yàn)結(jié)果表明基于YOLO_v3的車輛和行人檢測(cè)方法取得了不錯(cuò)的檢測(cè)效果,具有一定的實(shí)用價(jià)值。但是基于YOLO_v3的車輛和行人檢測(cè)方法對(duì)于弱小車輛和行人目標(biāo)檢測(cè)效果不好,下一步可針對(duì)特定場(chǎng)景下的弱小車輛和行人目標(biāo)進(jìn)行網(wǎng)絡(luò)改進(jìn)以進(jìn)一步提升網(wǎng)絡(luò)檢測(cè)精度。
參考文獻(xiàn):
[1]伍朝輝,武曉博,王亮.交通強(qiáng)國(guó)背景下智慧交通發(fā)展趨勢(shì)展望[Jl.交通運(yùn)輸研究,2019,47(4):26-36.
[2]周曉彥,王珂,李凌燕.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述[J].電子測(cè)量技術(shù),2017,40(11):89-93.
[3]鈕賽賽,周華偉,朱婧文,等.基于YOLO智能網(wǎng)絡(luò)的紅外弱小 多目標(biāo)檢測(cè)技術(shù)[Jl.上海航天,2019,36(5):28-34.
[4]周慧娟,張強(qiáng),劉羽,等.基于YOLO:的地鐵進(jìn)站客流人臉檢測(cè)方法[J].計(jì)算機(jī)與現(xiàn)代化,2019(10):76-82.
[5]燕紅文,劉振宇,崔清亮,等,基于改進(jìn)Tiny-YOLO模型的群養(yǎng)生豬臉部姿態(tài)檢測(cè)[Jl.農(nóng)業(yè)工程學(xué)報(bào),2019,35(18):169-179.
[6]黃偉鎧,張登輝.基于YOLO算法的學(xué)生課堂關(guān)注度分析系統(tǒng)[J].浙江樹人大學(xué)學(xué)報(bào):自然科學(xué)版,2019,19(3):1-4,17.
[7]
Redmonj, Farhadi A.YOL09000: better, faster, stronger[C]//2017lEEE Conference on Computer Vision and Pattem Recognition(CVPR),July 21-26, 2017. Honolulu, Hl. lEEE, 2017.
[8]游忍,周春燕,劉明華,等.基于TINY-YOLO的嵌入式人臉檢測(cè)系統(tǒng)設(shè)計(jì)[Jl.工業(yè)控制計(jì)算機(jī),2019,32(3):47-48.
【通聯(lián)編輯:梁書】
收稿日期:2019-12-21
作者簡(jiǎn)介:洪松(1994-),男,碩士生,主要研究圖像處理;高定國(guó)(1972-),藏族,碩士,教授,主要研究藏文信息處理、算法設(shè)計(jì);三排才讓(1994-),男,藏族,碩士生,主要研究藏文信息處理。