諸葛晶昌,李 想
(中國民航大學(xué) 電子信息與自動(dòng)化學(xué)院,天津 300300)
機(jī)坪特種車輛檢測(cè)是從計(jì)算機(jī)視覺技術(shù)出發(fā),使用目標(biāo)檢測(cè)算法實(shí)現(xiàn)圖像或視頻序列中機(jī)坪特種車輛的檢測(cè)。目前,大多數(shù)的航班保障任務(wù)依賴人工對(duì)特種車輛進(jìn)行判別、記錄。該方式消耗大量的人力且數(shù)據(jù)的隨意性較大,不利于提升航班保障效率。因此,針對(duì)機(jī)坪特種車輛提出一種車輛細(xì)粒度分類的算法具有重要意義。
傳統(tǒng)算法對(duì)于物體的檢測(cè)通常包括區(qū)域選取、特征提取及特征分類這3個(gè)階段。傳統(tǒng)算法通常使用滑動(dòng)窗口算法,在得到待測(cè)目標(biāo)位置后,一般使用人工精心設(shè)計(jì)的提取器進(jìn)行特征提取,如尺度不變特征變換[1]和類Haar特征[2]等。最后,對(duì)提取到的特征進(jìn)行分類得到最終的檢測(cè)結(jié)果。由于傳統(tǒng)算法是人工設(shè)計(jì)的提取器,魯棒性較差[3],因此無法達(dá)到實(shí)際應(yīng)用的要求。
隨著人工智能的發(fā)展和計(jì)算機(jī)算力的提升,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法逐漸成為主流。深度學(xué)習(xí)的目標(biāo)檢測(cè)算法又可以分為基于區(qū)域建議的二階檢測(cè)算法和基于回歸的一階檢測(cè)算法。
基于區(qū)域建議的二階檢測(cè)算法由Girshick等人[4]提出,之后發(fā)展出Fast R-CNN[5]目標(biāo)檢測(cè)方法,而Fast R-CNN由于候選區(qū)域提取的計(jì)算量過大,嚴(yán)重影響了檢測(cè)的速度。Ren等人[6]在此基礎(chǔ)上進(jìn)行改進(jìn),提出了Faster R-CNN 目標(biāo)檢測(cè)算法,相較Fast R-CNN 算法而言在速度上優(yōu)勢(shì)明顯。
王林等人[7]將Faster R-CNN 應(yīng)用于車輛檢測(cè),但對(duì)于小型目標(biāo)車輛的檢測(cè)效果并不理想。Yang等人[8]基于Faster R-CNN 算法采用小區(qū)域放大檢測(cè)的策略,進(jìn)行道路車輛檢測(cè),但在實(shí)際檢測(cè)場(chǎng)景下該算法計(jì)算量大實(shí)時(shí)性較差,且容易受到遮擋的影響。
YOLO 系列算法是具有代表性的一階目標(biāo)檢測(cè)算法。最初的兩代YOLO 算法在檢測(cè)精度和速度兩方面并沒有較為亮眼的表現(xiàn),直到采用Darknet 作為主干網(wǎng)絡(luò)的YOLOv3[9]誕生才真正做到了檢測(cè)精度與檢測(cè)速度較好的平衡。在YOLOv3之后提出的YOLOv4[10]以及YOLOv5[11]又在此基礎(chǔ)上進(jìn)行了大規(guī)模的改進(jìn),成為了現(xiàn)階段性能突出的目標(biāo)檢測(cè)算法。
馬睿等人[12]使用YOLOv4算法實(shí)現(xiàn)水位的自動(dòng)識(shí)別,葉樹芬等人[13]針對(duì)電力線和桿塔應(yīng)用場(chǎng)景使用深度可分離卷積技術(shù)降低YOLOv5的模型計(jì)算量,并改進(jìn)NMS算法提升檢測(cè)算法性能。在車輛檢測(cè)研究方面,王銀等人[14]在YOLOv4基礎(chǔ)上使用MobileNetv2深度可分離卷積模塊代替?zhèn)鹘y(tǒng)卷積,并將CBAM 注意力模塊融合到特征提取網(wǎng)絡(luò)中,解決了傳統(tǒng)車輛檢測(cè)算法檢測(cè)精度低,小尺度目標(biāo)識(shí)別效果差的問題。郭宇陽等人[15]針對(duì)路側(cè)交通監(jiān)控場(chǎng)景和智能交通管控需要,借鑒GhostNet結(jié)構(gòu),在YOLOv4基礎(chǔ)上提出了輕量化車輛檢測(cè)算法,在檢測(cè)速度上有顯著優(yōu)勢(shì)。
目前大部分的車輛檢測(cè)算法研究面向交通監(jiān)控場(chǎng)景,主要?jiǎng)澐制?、卡車、公交車三類,針?duì)特定場(chǎng)景下的車輛細(xì)粒度分類研究較少。對(duì)此,本文提出了一種基于改進(jìn)YOLOv5s的機(jī)坪特種車輛檢測(cè)方法,主要有以下三個(gè)貢獻(xiàn):
1)將位置信息融入通道注意力中,使檢測(cè)算法將注意力集中于感興趣區(qū)域,擴(kuò)大機(jī)坪特種車輛特征權(quán)重覆蓋的范圍,對(duì)特種車輛全局特征的把握能力更強(qiáng)。
2)在三尺度特征檢測(cè)網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種四尺度特征檢測(cè)網(wǎng)絡(luò),對(duì)尺度差異較大的機(jī)坪特種車輛具有更好的檢測(cè)效果。
3)針對(duì)多尺度特征融合中各輸入對(duì)于最終輸出貢獻(xiàn)不同的問題,結(jié)合四尺度檢測(cè)網(wǎng)絡(luò)提出了一種雙向加權(quán)融合結(jié)構(gòu)。各節(jié)點(diǎn)根據(jù)輸入分辨率的不同學(xué)習(xí)匹配相應(yīng)的權(quán)重,使機(jī)坪特種車輛多尺度特征融合的結(jié)果更合理。
YOLOv5s由Input輸入、Backbone主干網(wǎng)絡(luò)、Neck層及Detect輸出四部分構(gòu)成。本文在YOLOv5s中融合CA 注意力機(jī)制(CA,coordinate attention)[16],增強(qiáng)網(wǎng)絡(luò)對(duì)不同特種車輛特征信息的獲取能力;網(wǎng)絡(luò)Neck部分增加第四層檢測(cè)尺度,結(jié)合加權(quán)雙向特征金字塔(BiFPN)[17]結(jié)構(gòu)對(duì)路徑聚合網(wǎng)絡(luò)PANet[18](PANet,path aggregation network)結(jié)構(gòu)進(jìn)行改進(jìn),加強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)特征更高層次的融合及網(wǎng)絡(luò)對(duì)不同尺度特種車輛的檢測(cè)能力,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 改進(jìn)的YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)
機(jī)坪特種車輛檢測(cè)相較城市交通場(chǎng)景下汽車、卡車、公交車三類車輛的檢測(cè)來說,車輛的種類更多,難度更大,需要檢測(cè)算法對(duì)特種車輛特征有更高的分辨力。注意力機(jī)制的核心是讓卷積神經(jīng)網(wǎng)絡(luò)更多的關(guān)注圖像中重要的部分,而不是對(duì)圖像中所有物體都進(jìn)行關(guān)注。
傳統(tǒng)的注意力機(jī)制包括SENet[19]、ECA[20]、CBAM[21]等。CA 注意力機(jī)制相較于傳統(tǒng)的通道注意力,將位置信息融入注意力中,利用獲取的位置信息更快的定位感興趣位置,在幾乎不額外消耗計(jì)算資源的同時(shí)對(duì)于算法性能的提升效果更好。
CA 注意力機(jī)制將兩個(gè)通道注意力分解為兩個(gè)一維特征編碼,分別沿兩個(gè)空間方向進(jìn)行特征聚合。CA 注意力機(jī)制結(jié)構(gòu)如圖2所示。
圖2 CA 注意力機(jī)制結(jié)構(gòu)
首先,是CA 注意力機(jī)制的嵌入,CA 注意力機(jī)制分別使用尺寸為(H,1)和(1,W)的卷積核沿著水平坐標(biāo)和垂直坐標(biāo)對(duì)每一個(gè)通道進(jìn)行編碼,其中高度為h的c通道輸出表示為:
同理,寬度為w的c通道輸出表示為:
上述兩種變換分別沿兩個(gè)空間方向聚合特征,得到一對(duì)方向感知的特征圖。這兩種轉(zhuǎn)換允許注意力模塊捕捉到沿著一個(gè)空間方向的長期依賴關(guān)系,并保存沿著另一個(gè)空間方向的精確位置信息,這有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的目標(biāo)。
通過這兩種變換后生成CA 注意力。在轉(zhuǎn)換過程中,CA 注意力機(jī)制先將之前生成的兩個(gè)特征圖進(jìn)行級(jí)聯(lián),用一個(gè)1*1的卷積進(jìn)行F1變換,表示為:
其中:生成的f∈RC/r×(H+W)是空間信息在水平方向和垂直方向上的中間特征圖,r表示下采樣比例。
接著,沿著空間維度將f分為兩個(gè)單獨(dú)的張量fh∈RC/r×H和fw∈RC/r×W,經(jīng)過兩個(gè)1*1卷積Fh和Fw將兩者變換到與輸入相同的通道數(shù),上述過程可以表示為:
其中:σ表示sigmoid激活函數(shù)。
最后,對(duì)gh和gw進(jìn)行拓展,得到注意力權(quán)重。CA 注意力機(jī)制的最終輸出可以表示為:
YOLOv5s網(wǎng)絡(luò)各部分對(duì)輸入特征的提取作用有所不同,Backbone網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行初始階段的特征提取,SPPF模塊將提取的初始階段特征圖轉(zhuǎn)化為特征向量輸出,Neck部分對(duì)輸入提取深層語義特征圖,并將Backbone網(wǎng)絡(luò)提取的淺層語義特征圖與深層語義特征圖進(jìn)行融合。因此,在特征提取的不同階段融合CA 注意力機(jī)制效果會(huì)有一定的差別。
在YOLOv5s網(wǎng)絡(luò)中融合注意力機(jī)制的方式通常有4種,如圖3所示,分別為:融入Backbone網(wǎng)絡(luò)的每個(gè)C3模塊后(a)、單獨(dú)融入Backbone網(wǎng)絡(luò)的SPPF模塊前(b1)或后(b2)、融入網(wǎng)絡(luò)Neck的每個(gè)C3模塊后(c)、將注意力機(jī)制融合進(jìn)網(wǎng)絡(luò)的Backbone(d)或Neck(e)部分的每個(gè)C3模塊中。除此以外,也可以將上述方式進(jìn)行組合。
圖3 注意力機(jī)制融入網(wǎng)絡(luò)方式
其中,C3CA 模塊是把CA 注意力機(jī)制融入C3 模塊,具體實(shí)現(xiàn)方式如圖4 所示,給C3 模塊賦予一層注意力。C3CA 模塊相較單獨(dú)融合CA 注意力機(jī)制來說,不改變網(wǎng)絡(luò)的總層數(shù),且參數(shù)量更低。
圖4 CA 融入C3模塊的方式
YOLOv5s網(wǎng)絡(luò)分別經(jīng)過8倍、16 倍、32 倍下采樣輸出P3、P4、P5三個(gè)尺度的特征圖。三個(gè)尺度的特征圖分別適用于檢測(cè)小、中、大三類目標(biāo)。
考慮到機(jī)坪監(jiān)控視角下特種車輛形態(tài)差異較大,以中、中大型目標(biāo)為主的情況,在原始輸出P3、P4、P5三個(gè)分別為80*80、40*40、20*20尺度特征圖的基礎(chǔ)上增加P6檢測(cè)尺度,輸出10*10的特征圖。如圖5所示,改進(jìn)的四尺度的特征檢測(cè)網(wǎng)絡(luò)對(duì)于大、中、小型目標(biāo)的檢測(cè)精度均有一定程度的提升。
圖5 改進(jìn)的多尺度特征融合結(jié)構(gòu)
YOLOv5s的Neck部分采用的PANet結(jié)構(gòu)是在特征金字塔[22](FPN,feature pyramid networks)的基礎(chǔ)上增加了一條自底部向上的通道,雖然在一定程度上提升了網(wǎng)絡(luò)對(duì)不同尺度特征融合的能力,但這種融合方式只是簡單的相加。由于機(jī)坪應(yīng)用場(chǎng)景對(duì)特種車輛檢測(cè)精度的要求更高,因此,本文針對(duì)PANet結(jié)構(gòu)進(jìn)行改進(jìn)??紤]到不同通道的輸入對(duì)于最終輸出貢獻(xiàn)不同的問題,結(jié)合加權(quán)雙向特征金字塔結(jié)構(gòu),改進(jìn)Neck中通道連接結(jié)構(gòu),各通道節(jié)點(diǎn)采用加權(quán)融合的方式,改進(jìn)的特征金字塔結(jié)構(gòu)如圖6所示。
圖6 改進(jìn)的特征金字塔結(jié)構(gòu)
改進(jìn)的特征金字塔結(jié)構(gòu)是雙向跨尺度連接與快速歸一化融合兩者的結(jié)合,其中快速歸一化融合相較Softmax融合來說,精度相近卻有更快的速度。
加權(quán)雙向特征金字塔的快速歸一化融合可以表示為:
其中:ωi表示特征Ii對(duì)應(yīng)的一個(gè)可學(xué)習(xí)權(quán)重且ωi≥0,為避免數(shù)值不穩(wěn)定∈=0.000 1,其余的權(quán)重值在歸一化后都介于0~1之間。以加權(quán)雙向特征金字塔輸出P5(out)為例,可以表示為:
其中:P5(in)表示P5特征層的輸入節(jié)點(diǎn),P5(td)表示P5特征層的第一個(gè)輸出節(jié)點(diǎn),P5(out)表示P5特征層的第二個(gè)輸出節(jié)點(diǎn),Conv表示卷積操作,Resize表示上采樣或下采樣操作。
改進(jìn)后的特征金字塔結(jié)構(gòu)在四尺度特征檢測(cè)網(wǎng)絡(luò)的基礎(chǔ)上增加了P4(in)到P4(out)及P5(in)到P5(out)兩條通道,在不占用更多計(jì)算資源的前提下,擴(kuò)大了多尺度特征融合范圍。改進(jìn)后各節(jié)點(diǎn)可以根據(jù)輸入特征尺度的分辨率不同,學(xué)習(xí)匹配相應(yīng)的權(quán)重,使網(wǎng)絡(luò)在多尺度特征融合過程中得到更合理的特征權(quán)重。
鑒于通用數(shù)據(jù)集無法為機(jī)坪特種車輛檢測(cè)提供數(shù)據(jù)支持,本文在實(shí)驗(yàn)前期構(gòu)建了機(jī)坪特種車輛數(shù)據(jù)集。針對(duì)機(jī)場(chǎng)旅客航班保障工作中較為重要且暫無替代方式的車輛,包括飛機(jī)牽引車、行李拖車、客梯車、加油車、食品車及擺渡車共六類。數(shù)據(jù)包含白天、夜晚不同時(shí)間段及遠(yuǎn)近不同視角,示例如圖7所示。其中,部分圖片來自機(jī)坪視頻數(shù)據(jù)篩選提取,又從網(wǎng)絡(luò)上搜集了部分特種車輛圖片進(jìn)行補(bǔ)充,六類車輛共計(jì)5 022張圖片。所有數(shù)據(jù)均采用Labelimg進(jìn)行標(biāo)注,其中4 472張作為訓(xùn)練集,500張作為測(cè)試集,50張作為驗(yàn)證集。
圖7 數(shù)據(jù)集示例
使用k-means算法對(duì)自建的機(jī)坪特種車輛數(shù)據(jù)集進(jìn)行重新聚類,結(jié)果如圖8所示。聚類得到12個(gè)錨點(diǎn)框[29,52],[87,54],[57,106],[80,103],[73,197],[112,133],[140,176],[93,272],[229,155],[198,266],[353,355],[553,433],將其按先后順序分為4組,分別適用于小、中、中大、大型四類機(jī)坪特種車輛的檢測(cè)。
圖8 聚類結(jié)果
本文實(shí)驗(yàn)均在Windows10 操作系統(tǒng)下進(jìn)行,CPU 為Intel(R)Core(TM)i7-10700@2.90GHz,內(nèi)存為64G。
GPU 型號(hào)為Nvidia GeForce RTX3080,實(shí)驗(yàn)仿真使用PyTorch深度學(xué)習(xí)框架,開發(fā)環(huán)境為Python3.7,CUDA 版本為11.0。
實(shí)驗(yàn)中輸入圖像的分辨率統(tǒng)一設(shè)置為640*640,網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.01,動(dòng)量因子為0.937,訓(xùn)練epochs為300。
為了對(duì)改進(jìn)后的算法性能做出評(píng)估,本文選取了精確度(P,Precision)、召回率(R,Recall)、平均精度mAP0.5、mAP0.5:0.95、參數(shù)量Params及浮點(diǎn)計(jì)算量GFLOPs作為評(píng)價(jià)指標(biāo)。
其中,mAP0.5表示IoU 閾值為0.5時(shí)所有目標(biāo)類別的平均檢測(cè)精度,mAP0.5:0.95 表示以步長0.05,計(jì)算IoU 從0.5到0.95的10個(gè)IoU 閾值下的平均檢測(cè)精度,通常情況下IoU 閾值越高對(duì)于算法的回歸能力要求更高;Params表示參數(shù)量,用于計(jì)算內(nèi)存消耗;GFLOPs表示每秒10億次浮點(diǎn)計(jì)算,是衡量訓(xùn)練復(fù)雜程度的重要指標(biāo)。精確率、召回率以及平均精度的計(jì)算式如下所示:
其中:TP表示把正類預(yù)測(cè)為正類,F(xiàn)P表示把負(fù)類預(yù)測(cè)為正類,F(xiàn)N表示把正類預(yù)測(cè)為負(fù)類,Nc表示類別數(shù)。
YOLOv5根據(jù)不同網(wǎng)絡(luò)深度和寬度,劃分出n、s、m、l、x五種模型,模型規(guī)模依次增大,檢測(cè)精度也有所差異。其中,YOLOv5n網(wǎng)絡(luò)深度和寬度分別為0.33 和0.25;YOLOv5s網(wǎng)絡(luò)深度和寬度分別為0.33和0.50;YOLOv5m網(wǎng)絡(luò)深度和寬度分別為0.67和0.75;YOLOv5l網(wǎng)絡(luò)深度和寬度分別為1.0和1.0;YOLOv5x網(wǎng)絡(luò)深度和寬度分別為1.33和1.25。
本文依據(jù)5種模型在機(jī)坪特種車輛數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果選擇最為適合的模型進(jìn)行改進(jìn),選擇的依據(jù)主要是模型精度、參數(shù)量及計(jì)算量的平衡。
網(wǎng)絡(luò)參數(shù)量的增大、模型計(jì)算量的提升會(huì)在一定程度上降低網(wǎng)絡(luò)檢測(cè)速度,訓(xùn)練所消耗的時(shí)間也有所增加。如表1所示,YOLOv5n和YOLOv5s是五種模型中相對(duì)較小的兩種模型,在網(wǎng)絡(luò)訓(xùn)練階段二者所消耗的時(shí)間較為接近,遠(yuǎn)少于其余三種模型所需時(shí)間。YOLOv5x由于參數(shù)量和計(jì)算量均最大,因而訓(xùn)練所需的時(shí)間也最長。
表1 不同深度和寬度的YOLOv5模型對(duì)比實(shí)驗(yàn)
網(wǎng)絡(luò)規(guī)模最小的YOLOv5n在實(shí)驗(yàn)中由于網(wǎng)絡(luò)深度和寬度的限制,精度與其余4 種模型有著較為明顯的差距,YOLOv5s在參數(shù)量和計(jì)算量僅高于YOLOv5n的情況下,精度與網(wǎng)絡(luò)規(guī)模更大的YOLOv5m 很接近,mAP0.5 僅低0.1%,參數(shù)量卻減少了66.3%,計(jì)算量減少了66.9%。在與YOLOv5系列更大的模型對(duì)比中,YOLOv5s的mAP0.5僅低于YOLOv5l模型0.6%,而參數(shù)量和計(jì)算量分別只有YOLOv5l 的15.2% 和14.7%,與網(wǎng)絡(luò)模型最大的YOLOv5x相比mAP0.5也僅低了0.7%。
此外,兩岸流行音樂受眾雖然都具有“懷舊”的審美偏好,但各自所偏愛的歌手及其風(fēng)格截然不同。在臺(tái)北與北京舉辦個(gè)人演唱會(huì)的“懷舊”歌手,無一相同。大陸流行歌手崔健及其所演繹的搖滾音樂,是北京乃至大陸流行音樂受眾最為喜愛的“懷舊”流行音樂風(fēng)格,但搖滾風(fēng)格并非臺(tái)灣流行音樂受眾的“懷舊”點(diǎn)。而深受臺(tái)灣流行音樂受眾喜愛的閩南語歌曲,則在大陸缺乏市場(chǎng)。
結(jié)合實(shí)驗(yàn)結(jié)果,在考慮算法部署難易程度外,還應(yīng)杜絕資源消耗與算法性能提升不匹配的情況。因此,本文選擇網(wǎng)絡(luò)參數(shù)量與計(jì)算量較低但精度表現(xiàn)尚佳的YOLOv5s作為改進(jìn)的基礎(chǔ)。
在YOLOv5s網(wǎng)絡(luò)的不同位置融合CA 注意力機(jī)制的效果有較大差異,本文針對(duì)圖3所述的YOLOv5s網(wǎng)絡(luò)融合注意力機(jī)制的幾個(gè)位置進(jìn)行實(shí)驗(yàn)。
由表2的實(shí)驗(yàn)結(jié)果可以看出,CA 注意力機(jī)制并非在所有位置都能提升網(wǎng)絡(luò)的檢測(cè)性能。位置d,即對(duì)Backbone網(wǎng)絡(luò)的C3模塊融合CA 注意力機(jī)制的效果最差;位置a,即在Backbone網(wǎng)絡(luò)的每個(gè)C3模塊后單獨(dú)加一層CA 注意力機(jī)制的效果也較差。
表2 CA 注意力機(jī)制不同位置對(duì)比實(shí)驗(yàn)
在b1、b2、c、e四個(gè)位置添加CA 注意力機(jī)制對(duì)原始網(wǎng)絡(luò)有一定的效果,在四個(gè)有效位置基礎(chǔ)上進(jìn)行組合實(shí)驗(yàn),注意力機(jī)制組合實(shí)驗(yàn)結(jié)果可以看出b2結(jié)合e的嵌入方式和單獨(dú)在位置c進(jìn)行注意力機(jī)制嵌入的方式效果是最好的。然而,比較P、R、mAP各項(xiàng)指標(biāo)可見,上述兩種注意力機(jī)制組合的提升效果還是不如在b1位置單獨(dú)融合CA 注意力機(jī)制。
綜上,在YOLOv5s網(wǎng)絡(luò)的b1位置,即SPPF 模塊前單獨(dú)融合CA 注意力機(jī)制的實(shí)驗(yàn)效果最好。由此可見,在初始階段特征提取結(jié)束,將提取的特征圖轉(zhuǎn)化為特征向量輸出前,CA 注意力機(jī)制能夠最大程度上地提升網(wǎng)絡(luò)感受野,提升算法對(duì)特種車輛特征的檢測(cè)能力。
為了驗(yàn)證CA 注意力機(jī)制與其他注意力機(jī)制相比對(duì)原始網(wǎng)絡(luò)性能提升的優(yōu)劣,本文對(duì)實(shí)驗(yàn)效果最好的b1位置,融合SE、CBAM、ECA 三種注意力機(jī)制進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同注意力機(jī)制對(duì)比實(shí)驗(yàn)
從表3中可以看出,并非幾種注意力機(jī)制都能夠提升網(wǎng)絡(luò)的檢測(cè)能力,SE、CBAM 兩種注意力機(jī)制只能對(duì)精確率有輕微的提升作用,其他幾項(xiàng)如召回率和平均精度均低于原始實(shí)驗(yàn)數(shù)據(jù)。
為了評(píng)估算法在融合CA 注意力機(jī)制前后對(duì)特種車輛特征檢測(cè)能力的差異,本文將改進(jìn)后的算法與原始算法進(jìn)行特征權(quán)重?zé)崃D對(duì)比。
由圖9可以看出,原始網(wǎng)絡(luò)對(duì)于機(jī)坪特種車輛的特征把握能力較弱,特征權(quán)重所占比例較低,而加入CA 注意力后的算法對(duì)于機(jī)坪特種車輛全局特征的把握能力更好,權(quán)重覆蓋范圍也更大。
圖9 加入CA 前后熱力圖對(duì)比
為了驗(yàn)證本文改進(jìn)后的算法與其他檢測(cè)算法性能的優(yōu)劣,本文選取經(jīng)典算法SSD[23]、Faster-RCNN、YOLOv3、YOLOv4-tiny[24]以及YOLOv4算法作為對(duì)照。此外,本文分別使用輕量化網(wǎng)絡(luò)ShuffleNetv2[25]、MobileNetv3[26]替換YOLOv5原始主干網(wǎng)絡(luò),得到輕量化的YOLOv5-Shuffle-Netv2、YOLOv5-MobileNetv3兩種檢測(cè)算法。使用上述7種算法和本文算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同目標(biāo)檢測(cè)算法對(duì)比實(shí)驗(yàn)
從表4中可以看出:本文改進(jìn)后的算法在參數(shù)量和模型復(fù)雜程度較低的情況下,取得了最高的mAP0.5。與參數(shù)量更低,模型復(fù)雜程度更低的YOLOv5-ShuffleNetv2、YOLOv5-MobileNetv3及YOLOv4-tiny 三種算法相比,本文算法精度優(yōu)勢(shì)明顯;與參數(shù)量更大,模型復(fù)雜程度更高的SSD、Faster-RCNN、YOLOv3、YOLOv4算法相比,本文算法依舊具有優(yōu)勢(shì)。本文改進(jìn)算法的mAP0.5高出對(duì)比算法中性能最優(yōu)的YOLOv3 算法1.6%,而參數(shù)量卻比YOLOv3算法少了79.6%,模型復(fù)雜度低了89.3%。
為驗(yàn)證本文改進(jìn)的CA 注意力機(jī)制、四層特征檢測(cè)網(wǎng)絡(luò)以及雙向加權(quán)特征金字塔結(jié)構(gòu)的有效性,進(jìn)行消融實(shí)驗(yàn),評(píng)估各個(gè)部分在相同實(shí)驗(yàn)條件下對(duì)本文檢測(cè)算法性能的影響。消融實(shí)驗(yàn)以原始的YOLOv5s網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果作為基準(zhǔn),實(shí)驗(yàn)數(shù)據(jù)如表5所示。
表5 消融實(shí)驗(yàn)
由消融實(shí)驗(yàn)結(jié)果可以看出:四尺度特征檢測(cè)和三尺度特征檢測(cè)相比,檢測(cè)效果的提升是全面的。此外,無論是改進(jìn)的雙向加權(quán)特征金字塔結(jié)構(gòu)還是融合CA 注意力機(jī)制都對(duì)算法的Precision、Recall、mAP 有顯著的提升。與原始網(wǎng)絡(luò)相比,Recall提升3.5%,mAP0.5:0.95提升了3.3%,mAP0.5有2.3%的提升,Precision雖有輕微波動(dòng)也提升了1.6%。
將改進(jìn)后的算法與YOLOv5s在機(jī)坪應(yīng)用場(chǎng)景下的檢測(cè)結(jié)果進(jìn)行對(duì)比,由圖10 可以看出,YOLOv5s算法在遮擋較大的場(chǎng)景下無法有效的對(duì)特種車輛進(jìn)行檢測(cè),而改進(jìn)后的算法對(duì)機(jī)坪特種車輛的特征檢測(cè)能力更強(qiáng),在面對(duì)部分遮擋時(shí)算法的魯棒性更好??偟膩碚f,改進(jìn)后的機(jī)坪特種車輛檢測(cè)算法在精度更高的同時(shí),穩(wěn)定性也更為出眾。
圖10 實(shí)際檢測(cè)結(jié)果對(duì)比
本文提出了一種基于改進(jìn)YOLOv5s的目標(biāo)檢測(cè)算法,旨在提升機(jī)坪應(yīng)用背景下對(duì)常見航班保障特種車輛的檢測(cè)能力。
首先,考慮YOLOv5不同模型大小和性能的差異,基于實(shí)驗(yàn)結(jié)果選擇YOLOv5s 作為改進(jìn)算法。之后,在YOLOv5s網(wǎng)絡(luò)的不同位置融合CA 注意力機(jī)制,確定融合效果最佳的位置。為了驗(yàn)證CA 注意力機(jī)制性能的優(yōu)劣,在效果最佳的位置上分別融合SE、CBAM、ECA 三種注意力機(jī)制進(jìn)行對(duì)比實(shí)驗(yàn)。接著,提出了一種四尺度特征檢測(cè)網(wǎng)絡(luò),在原始三尺度檢測(cè)網(wǎng)絡(luò)的基礎(chǔ)上增加了10*10的輸出尺度,強(qiáng)化了網(wǎng)絡(luò)對(duì)不同尺度特種車輛的檢測(cè)能力,并結(jié)合加權(quán)雙向特征金字塔結(jié)構(gòu)進(jìn)行改進(jìn),改進(jìn)后的算法對(duì)不同尺度特征的融合更為合理。此外,使用kmeans算法對(duì)機(jī)坪特種車輛數(shù)據(jù)集進(jìn)行聚類,用聚類得到的錨框數(shù)據(jù)替換原始數(shù)據(jù)。在自建的機(jī)坪特種車輛數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:本文提出的機(jī)坪特種車輛檢測(cè)算法在Precision、Recall、平均精度mAP指標(biāo)上較原始網(wǎng)絡(luò)均有顯著提升。
最后,需要指出本文在采用四尺度特征檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)后,雖帶來了更優(yōu)的檢測(cè)效果,但網(wǎng)絡(luò)參數(shù)量和模型整體的復(fù)雜程度均有一定增加,與一些輕量化算法相比對(duì)設(shè)備性能的要求較高。因此,下一步將考慮如何將檢測(cè)網(wǎng)絡(luò)整體輕量化的同時(shí)依然保持較高的檢測(cè)能力,便于在更低算力設(shè)備上的部署。