李向榮,孫立輝
〈圖像處理與仿真〉
融合注意力機(jī)制的多尺度紅外目標(biāo)檢測(cè)
李向榮,孫立輝
(河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050061)
針對(duì)紅外圖像存在細(xì)節(jié)紋理特征差、對(duì)比度低、目標(biāo)檢測(cè)效果差等問(wèn)題,基于YOLOv4(You Only Look Once version 4)架構(gòu)提出了一種融合通道注意力機(jī)制的多尺度紅外目標(biāo)檢測(cè)模型。該模型首先通過(guò)降低主干特征提取網(wǎng)絡(luò)深度,減少了模型參數(shù)。其次,為補(bǔ)充淺層高分辨率特征信息,重新構(gòu)建多尺度特征融合模塊,提高了特征信息利用率。最后在多尺度加強(qiáng)特征圖輸出前,融入通道注意力機(jī)制,進(jìn)一步提高紅外特征提取能力,降低噪聲干擾。實(shí)驗(yàn)結(jié)果表明,本文算法模型大小僅為YOLOv4的28.87%,對(duì)紅外目標(biāo)的檢測(cè)精度得到了明顯提升。
紅外圖像;目標(biāo)檢測(cè);YOLOv4;通道注意力機(jī)制
紅外成像技術(shù)依據(jù)不同物體間的紅外熱輻射強(qiáng)度差異進(jìn)行成像[1],具有受天氣影響小、抗光線干擾能力強(qiáng)等優(yōu)點(diǎn),彌補(bǔ)了可見(jiàn)光成像受光線條件影響的缺陷,能夠?qū)崿F(xiàn)全天候獲取檢測(cè)目標(biāo)。但與可見(jiàn)光成像相比,紅外目標(biāo)成像存在紋理特征少、對(duì)比度低、信噪比低、成像模糊等特點(diǎn),這些特點(diǎn)的存在增大了紅外目標(biāo)檢測(cè)難度,目標(biāo)檢測(cè)準(zhǔn)確率較低。因此,開展紅外目標(biāo)檢測(cè)算法研究,對(duì)提高紅外目標(biāo)檢測(cè)效果有重要意義。
傳統(tǒng)的紅外目標(biāo)檢測(cè)[2-4]多采用模板匹配、閾值分割、統(tǒng)計(jì)學(xué)習(xí)等方法,通過(guò)抑制背景區(qū)域來(lái)突出目標(biāo)區(qū)域?qū)崿F(xiàn)目標(biāo)檢測(cè),但這些方法魯棒性差、對(duì)場(chǎng)景敏感,實(shí)際應(yīng)用效果不理想。隨著計(jì)算能力的提升,基于深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的目標(biāo)檢測(cè)技術(shù)在可見(jiàn)光圖像領(lǐng)域中取得了巨大進(jìn)展,將深度卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用到紅外目標(biāo)檢測(cè)領(lǐng)域受到越來(lái)越多學(xué)者的關(guān)注,并開展了許多相關(guān)研究。如Hao等人[5]對(duì)RCNN[6](Regions with CNN features)進(jìn)行改進(jìn),提出一種雙層區(qū)域建議網(wǎng)絡(luò),并在主干網(wǎng)絡(luò)中引入多尺度池模塊,實(shí)現(xiàn)了多尺度紅外目標(biāo)檢測(cè);顧佼佼等人[7]在Faster RCNN[8]的基礎(chǔ)上,通過(guò)拼接多尺度特征圖得到具有更豐富語(yǔ)義信息特征向量,提高了紅外目標(biāo)檢測(cè)精度;劉智嘉等人[9]在YOLOv3[10]基礎(chǔ)上對(duì)主干特征提取網(wǎng)絡(luò)進(jìn)行輕量化操作,并減少特征金字塔結(jié)構(gòu)的尺度,明顯提升了檢測(cè)速度,但檢測(cè)準(zhǔn)確率因此而下降??傮w而言,基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外目標(biāo)檢測(cè)的精確度和速度仍有待提高。
深度卷積神經(jīng)網(wǎng)絡(luò)利用色彩、紋理等信息進(jìn)行特征提取,構(gòu)建高層語(yǔ)義信息,但在處理紅外圖像時(shí),紅外目標(biāo)像素占比少,深層網(wǎng)絡(luò)中目標(biāo)特征丟失嚴(yán)重,致使特征提取效果不理想。除此之外,紅外圖像缺少色彩信息,目標(biāo)與背景特征差異小,深度卷積神經(jīng)網(wǎng)絡(luò)不能對(duì)有效信息和無(wú)效信息產(chǎn)生區(qū)分,致使紅外目標(biāo)檢測(cè)難度增大,檢測(cè)準(zhǔn)確度低。
針對(duì)上述紅外目標(biāo)檢測(cè)中存在的問(wèn)題,本文提出一種融合通道注意力機(jī)制的多尺度紅外目標(biāo)檢測(cè)模型SE-YOLOv4。該模型首先使用K-means算法對(duì)紅外目標(biāo)錨框尺寸進(jìn)行調(diào)整,并在不影響特征提取能力的前提下,對(duì)主干特征提取網(wǎng)絡(luò)作精簡(jiǎn),減少網(wǎng)絡(luò)計(jì)算量。其次,重新構(gòu)建多尺度特征融合模塊,補(bǔ)充淺層高分辨率特征信息,進(jìn)而實(shí)現(xiàn)多尺度目標(biāo)精確識(shí)別。最后,在路徑聚合網(wǎng)絡(luò)輸出前融入通道注意力機(jī)制SE(Squeeze-and-Excitation Networks)[11],增強(qiáng)特征融合效果的同時(shí)加強(qiáng)網(wǎng)絡(luò)對(duì)顯著性特征的關(guān)注,從而整體提高紅外目標(biāo)檢測(cè)性能。通過(guò)在自制紅外數(shù)據(jù)集和FLIR公開紅外數(shù)據(jù)集上對(duì)不同目標(biāo)檢測(cè)算法進(jìn)行性能驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,本文算法具有更好的紅外目標(biāo)檢測(cè)效果。
深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)紅外目標(biāo)進(jìn)行特征提取時(shí),由于目標(biāo)信噪比低、像素占比低,經(jīng)過(guò)多次卷積下采樣操作后像素信息會(huì)隨特征圖尺寸變小逐漸消失,導(dǎo)致紅外目標(biāo)檢測(cè)效果并不理想。為提高紅外目標(biāo)檢出率,本文以YOLOv4[12]為基礎(chǔ)網(wǎng)絡(luò),提出一種融合注意力機(jī)制的多尺度紅外目標(biāo)檢測(cè)網(wǎng)絡(luò)SE-YOLOv4。
SE-YOLOv4目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包含Backbone主干特征提取網(wǎng)絡(luò)、Neck頸部網(wǎng)絡(luò)和Head目標(biāo)預(yù)測(cè)網(wǎng)絡(luò)3部分。主干特征提取網(wǎng)絡(luò)為CSPDarknet53改進(jìn)后的CSPDarknet44,用于提取圖像特征,采集多層特征圖,以供后續(xù)檢測(cè)使用。Neck頸部網(wǎng)絡(luò)由空間金字塔池化結(jié)構(gòu)(Spatial Pyramid Pooling,SPP)和多尺度特征融合網(wǎng)絡(luò)組成。SPP結(jié)構(gòu)包含4個(gè)不同尺度的最大池化層,將主干特征提取網(wǎng)絡(luò)的最后一層特征層經(jīng)3次卷積后進(jìn)行最大池化處理,增大特征層感受野,分離出最顯著的上下文特征。為充分利用淺層特征信息,本文重新構(gòu)建多尺度特征融合網(wǎng)絡(luò),將有效特征層的選取由降32、16、8倍改為降16、8、4倍,并通過(guò)FPN[13]結(jié)構(gòu)和PAN[14]結(jié)構(gòu)實(shí)現(xiàn)深層、淺層語(yǔ)義信息充分融合,豐富目標(biāo)特征信息。為了進(jìn)一步增強(qiáng)特征融合效果,引入通道注意力機(jī)制SE,使網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征圖通道間相關(guān)性,緩解跨尺度融合中的混疊效應(yīng)[15]。與此同時(shí),通過(guò)重新分配特征圖通道間權(quán)重,增強(qiáng)特征圖中對(duì)有效信息關(guān)注,抑制冗余信息干擾。目標(biāo)預(yù)測(cè)網(wǎng)絡(luò)YOLO Head對(duì)獲得的加強(qiáng)特征圖進(jìn)行特征整合,得到預(yù)測(cè)結(jié)果。
圖1 SE-YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)
合理的先驗(yàn)框(anchor)能有效提高目標(biāo)檢測(cè)性能[16]。YOLOv4原始設(shè)定的先驗(yàn)框是根據(jù)可見(jiàn)光coco數(shù)據(jù)集得來(lái)的,主要面向自然光場(chǎng)景下的目標(biāo)檢測(cè)。將原先驗(yàn)框直接應(yīng)用于紅外目標(biāo)檢測(cè)中,先驗(yàn)框與紅外目標(biāo)邊框的重合度較低,不利于精準(zhǔn)預(yù)測(cè)目標(biāo)位置,從而影響目標(biāo)檢測(cè)效果。為了使先驗(yàn)框尺寸更加適用于紅外數(shù)據(jù)集,增強(qiáng)先驗(yàn)框與目標(biāo)邊框重合度,本文對(duì)紅外目標(biāo)尺寸大小重新聚類,得到更適合的anchor參數(shù)。通過(guò)聚類使得anchor與聚類中心之間的重合度交并比IoU(Intersection over Union)值更大,距離更小。距離衡量公式如式(1)所示:
式中:box為目標(biāo)標(biāo)簽框,centroid為聚類中心。
SE-YOLOv4結(jié)構(gòu)輸出3個(gè)尺度特征層,每層采用3個(gè)先驗(yàn)框,實(shí)現(xiàn)目標(biāo)位置的預(yù)測(cè)。按照上述方法,采用Kmeans算法對(duì)紅外數(shù)據(jù)集中的目標(biāo)尺寸進(jìn)行聚類分析得到尺寸更適合的anchor,并將得到的聚類結(jié)果分配到對(duì)應(yīng)的3個(gè)輸出特征層上,如表1所示。
表1 本文紅外數(shù)據(jù)集先驗(yàn)框尺寸表
CSPDarknet53網(wǎng)絡(luò)主要由CSPStage與殘差塊ResBlock相結(jié)合的Resblock_body構(gòu)成,網(wǎng)絡(luò)不同層之間使用跳躍連接,有效緩解了因網(wǎng)絡(luò)過(guò)深造成梯度消失的問(wèn)題,但由于網(wǎng)絡(luò)層數(shù)較深,隨著卷積和池化次數(shù)的增加,深層特征層包含的細(xì)節(jié)紋理信息越來(lái)越弱,目標(biāo)特征丟失嚴(yán)重。因此,將CSPDarknet53的C5、C4、C3三層特征層替換成C4、C3、C2三層特征層作為有效特征層參與后續(xù)特征融合。C4、C3、C2中含有更豐富的淺層信息,可有效緩解紅外圖像特征丟失的問(wèn)題。此時(shí)網(wǎng)絡(luò)底層特征層C5未起到檢測(cè)作用,增加了網(wǎng)絡(luò)參數(shù)量,舍去CSPDarknet53最后一層Resblock_body結(jié)構(gòu),用CSPDarknet44作為主干特征提取網(wǎng)絡(luò),降低模型大小,提升訓(xùn)練速度。
CSPDarknet44網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)輸入圖像尺寸為416×416,經(jīng)3×3卷積核對(duì)輸入圖像進(jìn)行卷積處理,激活函數(shù)選用泛化能力好的Mish函數(shù)。卷積后的圖像經(jīng)4個(gè)Resblock_body塊繼續(xù)深入提取特征,Reblock_body塊主要包括主干和大殘差邊兩部分,主干部分進(jìn)行殘差塊的堆疊,另一部分將大殘差邊簡(jiǎn)單處理后與主干部分相連接。其中,4個(gè)Reblock_body塊內(nèi)部殘差塊堆疊個(gè)數(shù)分別為1、2、8、8,并將網(wǎng)絡(luò)最后三層提取到的特征圖供檢測(cè)使用。
1.4.1 融入通道注意力機(jī)制的特征融合
不同尺度的特征圖經(jīng)上采樣或下采樣操作完成尺度統(tǒng)一后,采用串聯(lián)堆疊concat操作將不同尺度的特征信息融合。假設(shè)concat兩路輸入的通道數(shù)分別為1,2,…,X和1,2,…,Y,那么concat的單個(gè)輸出通道如式(2)所示,其中*表示卷積。
從上式可看出,concat操作只是實(shí)現(xiàn)通道維度上合并[17],并沒(méi)有關(guān)注通道內(nèi)在特征間的聯(lián)系,易造成跨尺度融合中的混疊效應(yīng),使得融合過(guò)程中的信息衰減。受SENet的啟發(fā),將其引入到特征融合網(wǎng)絡(luò)中,通過(guò)計(jì)算特征圖每個(gè)通道與關(guān)鍵信息的相關(guān)度,對(duì)通道分配相應(yīng)權(quán)重,增強(qiáng)特征圖通道間的相關(guān)性。
圖2 主干特征提取網(wǎng)絡(luò)結(jié)構(gòu)
Fig.2 Backbone feature extraction network structure
1.4.2 多尺度特征融合網(wǎng)絡(luò)
將基于通道注意力機(jī)制的特征融合算法應(yīng)用于多尺度特征融合網(wǎng)絡(luò)中,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。整個(gè)網(wǎng)絡(luò)主要流程:經(jīng)CSPDarknet44網(wǎng)絡(luò)特征提取后得到C2、C3、C4三個(gè)不同深度的特征層輸入到多尺度特征融合網(wǎng)絡(luò),首先FPN結(jié)構(gòu)使深層特征層信息融入到淺層中,將C4特征層上采樣與中層特征層C3串聯(lián)堆疊后,進(jìn)行5次卷積生成特征圖P3,P3再經(jīng)上采樣與淺層特征層C2融合,得到加強(qiáng)特征圖P2。為了充分利用淺層特征信息,實(shí)現(xiàn)淺層特征層信息融入到深層中,PAN結(jié)構(gòu)將淺層加強(qiáng)特征層P2經(jīng)下采樣與特征層P3融合,生成加強(qiáng)特征圖N3,N3再經(jīng)下采樣與P4特征融合后,生成加強(qiáng)特征圖N4。N2、N3、N4經(jīng)通道注意力模塊SE,對(duì)特征圖每個(gè)通道上的權(quán)重進(jìn)行顯式建模,使得特征圖能夠自動(dòng)學(xué)習(xí)通道間相關(guān)性,增強(qiáng)特征提取效果。
該網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有以下優(yōu)點(diǎn):①輸入的有效特征層淺層信息更豐富,有利于紅外特征信息保留,提高檢測(cè)性能。②通道注意力機(jī)制SE的融入,避免了特征融合中信息衰減的問(wèn)題。③輸出的3個(gè)尺度加強(qiáng)特征圖中因通道間權(quán)重關(guān)系得到優(yōu)化,更加關(guān)注有效信息的存在,減少噪聲信息干擾。
通道注意力SE可在增加少量參數(shù)量的情況下,分配特征圖通道間的權(quán)重,加強(qiáng)對(duì)有用信息的關(guān)注的同時(shí)抑制噪聲干擾,從而提升卷積神經(jīng)網(wǎng)絡(luò)性能。SENet網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,給定一個(gè)輸入特征圖,高和寬分別為,,通道數(shù)為,通過(guò)全局平均池化global average pooling得到該輸入層個(gè)feature map的通道權(quán)重?cái)?shù)值分布情況,計(jì)算公式如式(3)所示:
上式(3)將××的輸入轉(zhuǎn)換成1×1×的輸出,對(duì)應(yīng)圖3中的sq操作。輸出c表示為經(jīng)過(guò)Squeeze壓縮后得到的通道權(quán)重?cái)?shù)組,長(zhǎng)度為,X表示輸入特征圖,X(,)表示在輸入特征圖上坐標(biāo)為(,)的點(diǎn)。
為了完全捕獲通道間的相關(guān)性,將壓縮得到的通道權(quán)重值Z經(jīng)過(guò)一個(gè)全連接層操作1×Z,1的維度是/×,其中為縮放系數(shù),在本文中取的是16,最終經(jīng)過(guò)1全連接層后的結(jié)果是1×1×/,在經(jīng)過(guò)一個(gè)Relu層其輸出的維度不變;然后在經(jīng)過(guò)一個(gè)全連接層操作2×Relu(1, Z),2的維度是×/,因此輸出維度是1×1×,最后經(jīng)過(guò)sigmoid函數(shù)激活,得到結(jié)果S,計(jì)算公式如式(4)所示:
通過(guò)上述兩個(gè)全連接操作得到了通道相關(guān)性,即通道注意力權(quán)重S。最后,加權(quán)調(diào)整輸入特征圖的通道,即把個(gè)通道都乘以相應(yīng)的通道注意力權(quán)重,計(jì)算公式如式(5)所示:
X¢=scale(X,S)?S(5)
式中:¢為輸入特征圖經(jīng)過(guò)通道注意力加權(quán)后的結(jié)果,符號(hào)“?”表示逐元素相乘,以上為通道注意力機(jī)制SENet模型的原理。
圖4 SENet網(wǎng)絡(luò)結(jié)構(gòu)
公開紅外數(shù)據(jù)集的圖像紋理特征更清晰,與實(shí)際中常用的紅外攝像機(jī)成像差異較大。為使實(shí)驗(yàn)數(shù)據(jù)更加真實(shí),切實(shí)解決現(xiàn)實(shí)問(wèn)題,本文實(shí)驗(yàn)數(shù)據(jù)集采用自行采集的紅外數(shù)據(jù)集,如圖5所示。使用Xcore Micro Ⅱ系列非制冷紅外攝像機(jī)拍攝全天不同時(shí)段、多個(gè)場(chǎng)景的戶外街道上行駛的車輛、行人和自行車的視頻,并將視頻逐幀提取圖片,經(jīng)過(guò)篩選制作成紅外數(shù)據(jù)集。該數(shù)據(jù)集中共4000張圖片,分辨率大小為640×480,使用Labelme軟件對(duì)車輛、行人、自行車3類紅外目標(biāo)進(jìn)行PascalVOC格式人工標(biāo)注。將數(shù)據(jù)集劃分訓(xùn)練集:驗(yàn)證集:測(cè)試集=8:1:1,采用凍結(jié)訓(xùn)練的方式進(jìn)行訓(xùn)練。
圖5 紅外數(shù)據(jù)集樣本及人工標(biāo)注示例
本實(shí)驗(yàn)的計(jì)算機(jī)操作系統(tǒng)為Ubuntu 18.04,GPU型號(hào)為RTX 2080Ti,運(yùn)行內(nèi)存為16GB,CUDA版本為11.4。算法編寫采用Pytorch框架,Python編程語(yǔ)言,Adam優(yōu)化器動(dòng)態(tài)優(yōu)化網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練。為加快訓(xùn)練速度,初始凍結(jié)主干網(wǎng)絡(luò)并設(shè)置學(xué)習(xí)率r為0.001,batchsize為8,訓(xùn)練50個(gè)epoch;將主干網(wǎng)絡(luò)解凍后,設(shè)置學(xué)習(xí)率r為0.0001,batchsize為4,訓(xùn)練150個(gè)epoch。
本文通過(guò)平均準(zhǔn)確率(Average Precision,AP)、(mean Average Precision,mAP)、參數(shù)量和模型大小等指標(biāo)對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能進(jìn)行評(píng)價(jià)。其中AP、mAP值的計(jì)算與查準(zhǔn)率Precision和召回率Recall有關(guān),這兩項(xiàng)計(jì)算公式如式(6)、(7)所示。
式中:TP(True Positives)為正確預(yù)測(cè)正樣本的數(shù)量;FP(False Positives)為錯(cuò)誤預(yù)測(cè)負(fù)樣本的數(shù)量;FN(False Negatives)為錯(cuò)誤預(yù)測(cè)正樣本的數(shù)量。
以Recall為橫軸,Precision為縱軸可以畫出的一條-曲線,-曲線下的面積定義為AP值。AP與mAP計(jì)算公式如式(8)、(9)所示,其中代表目標(biāo)檢測(cè)類別數(shù)量。
在自采的紅外數(shù)據(jù)集上將本文SE-YOLOv4模型與多種目標(biāo)檢測(cè)模型進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證本文算法的有效性。
2.4.1 SE-YOLOv4與YOLOv4實(shí)驗(yàn)結(jié)果對(duì)比
將本文SE-YOLOv4算法與YOLOv4算法的檢測(cè)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,如圖6所示??梢钥闯鲈赟E-YOLOv4算法對(duì)3類目標(biāo)的檢測(cè)AP值均得到了提高,檢測(cè)效果提升明顯。其中,car目標(biāo)AP值為93%,比YOLOv4的89%提升了4%;person目標(biāo)AP值為90%,比YOLOv4的85%提升了5%;bicycle目標(biāo)AP值為81%,比YOLOv4的70%提升了11%。
2.4.2 檢測(cè)效果對(duì)比
本文SE-YOLOv4與YOLOv4算法在不同場(chǎng)景下進(jìn)行的目標(biāo)檢測(cè)效果對(duì)比,如圖7所示,其中(a)、(b)分別為YOLOv4和SE-YOLOv4算法的檢測(cè)效果圖??梢钥闯鲈诙鄨?chǎng)景下進(jìn)行紅外目標(biāo)檢測(cè),SE-YOLOv4檢測(cè)效果得到很大提升。
圖7展現(xiàn)了3組YOLOv4和SE-YOLOv4的檢測(cè)效果實(shí)驗(yàn)對(duì)比圖。在第一組圖中,YOLOv4未檢測(cè)到左側(cè)車輛,SE-YOLOv4可對(duì)其精準(zhǔn)檢測(cè)。第二組圖中,YOLOv4只檢測(cè)到person,而SE-YOLOv4對(duì)不明顯的bicycle也可以檢測(cè)到。第三組圖中,SE-YOLOv4對(duì)各目標(biāo)檢測(cè)精度均高于YOLOv4檢測(cè)結(jié)果。
2.4.3 目標(biāo)檢測(cè)算法實(shí)驗(yàn)對(duì)比
為了進(jìn)一步驗(yàn)證SE-YOLOv4算法的性能,將SE-YOLOv4與EfficientDet[18]、Faster R-CNN、SSD[19]、YOLO[10,12,20-21]系列算法進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。
圖6 YOLOv4和SE-YOLOv4檢測(cè)精度對(duì)比
圖7 SE-YOLOv4與YOLOv4檢測(cè)效果對(duì)比
表2 相關(guān)目標(biāo)檢測(cè)模型實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,本文算法SE-YOLOv4檢測(cè)性能高于其他算法,mAP值為87.85%,比原YOLOv4算法的mAP值高6.57%,比EfficientDet、Faster-RCNN、SSD、YOLOv3、YOLOv5算法的mAP值分別高16.77%、20.32%、14.31%、7.42%、2.85%,說(shuō)明本文SE-YOLOv4算法對(duì)于紅外目標(biāo)有更好的檢測(cè)效果。
對(duì)比各類目標(biāo)的AP值可以發(fā)現(xiàn),YOLOv3、YOLOv4、YOLOv5算法在進(jìn)行檢測(cè)時(shí)對(duì)于低對(duì)比度的目標(biāo)檢測(cè)效果不好,bicycle表現(xiàn)的尤為明顯,目標(biāo)與背景差異小,相比于其他目標(biāo)檢測(cè)難度大。SE-YOLOv4算法通過(guò)重新設(shè)計(jì)多尺度特征融合策略,引入通道注意力機(jī)制的方式,增強(qiáng)網(wǎng)絡(luò)對(duì)紅外低對(duì)比度目標(biāo)的特征提取能力。本文SE-YOLOv4算法實(shí)驗(yàn)結(jié)果中低對(duì)比度bicycle的AP值為81%,比YOLOv3高14%,比YOLOv4高11%,并且比目前性能最好的YOLOv5高7%,實(shí)驗(yàn)結(jié)果表明SE-YOLOv4算法大大提高了對(duì)紅外目標(biāo)的檢測(cè)性能。
2.4.4 消融實(shí)驗(yàn)
為了分析每個(gè)模塊對(duì)提高模型性能的作用進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。消融實(shí)驗(yàn)共5組,分別是YOLOv4模型,重構(gòu)多尺度特征融合的網(wǎng)絡(luò)模型,加入改進(jìn)主干網(wǎng)絡(luò)后的模型,單獨(dú)引入SE的模型以及本文SE-YOLOv4算法模型。
第二組實(shí)驗(yàn)通過(guò)改變多尺度特征融合網(wǎng)絡(luò)中的有效特征層,充分利用淺層特征層信息進(jìn)行多尺度特征融合,使得對(duì)3類目標(biāo)的檢測(cè)精度都得到了提升,尤其是針對(duì)低對(duì)比度目標(biāo)bicycle的精度漲了10%,說(shuō)明優(yōu)化后網(wǎng)絡(luò)選取的有效特征層在保持普通紅外目標(biāo)的檢測(cè)精度的同時(shí),有效提高了對(duì)紅外低對(duì)比度目標(biāo)的檢測(cè)能力,并且網(wǎng)絡(luò)參數(shù)量下降為YOLOv4的56.32%;第三組實(shí)驗(yàn)降低主干網(wǎng)絡(luò)深度,在不影響特征提取能力的情況下減少了48.8%的網(wǎng)絡(luò)參數(shù)量;第四組實(shí)驗(yàn)通過(guò)只引入SE通道注意力機(jī)制,提高網(wǎng)絡(luò)抗干擾能力,對(duì)每一類目標(biāo)的檢測(cè)精度都有提升,mAP值提高了2.04%;最后一組實(shí)驗(yàn)即本文SE-YOLOv4算法,在主干網(wǎng)絡(luò)和有效特征層改進(jìn)后再引入SE,比第三組實(shí)驗(yàn)的mAP值高了1.9%。綜上所述,本文SE-YOLOv4算法在檢測(cè)精度上得到了很大的提升,網(wǎng)絡(luò)模型大小僅為YOLOv4的28.87%,為紅外目標(biāo)檢測(cè)提供了更好的性能。
為了進(jìn)一步驗(yàn)證本文SE-YOLOv4算法的檢測(cè)性能,同時(shí)在FLIR公開紅外數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,檢測(cè)實(shí)驗(yàn)結(jié)果如表4所示。FLIR數(shù)據(jù)集由FLIR Black Fly熱像儀拍攝,同樣有行人、車輛、自行車3類目標(biāo),但與自行采集的紅外數(shù)據(jù)集相比成像更加清晰,對(duì)比度更低,實(shí)驗(yàn)效果對(duì)比如圖8所示。
表4中實(shí)驗(yàn)結(jié)果表明,與YOLOv3、YOLOv4、YOLOv5模型相比,SE-YOLOv4有更好的檢測(cè)效果。SE-YOLOv4的mAP值比YOLOv4高了7.08%,比YOLOv3和YOLOv5分別高了21.42%、5.08%。其中,SE-YOLOv4算法對(duì)bicycle精度值提升最明顯,比YOLOv4高20%,比YOLOv3和YOLOv5分別高37%、16%。
表3 消融實(shí)驗(yàn)
表4 相關(guān)目標(biāo)檢測(cè)模型實(shí)驗(yàn)結(jié)果
圖8中展示了FLIR數(shù)據(jù)集在YOLOv4和SE-YOLOv4模型中的檢測(cè)效果對(duì)比,左側(cè)為YOLOv4檢測(cè)圖,右側(cè)為SE-YOLOv4檢測(cè)圖。可明顯看到對(duì)于對(duì)比度低、輪廓模糊的目標(biāo),本文算法檢測(cè)性能更好。SE-YOLOv4通過(guò)充分利用淺層特征層信息,并融合注意力機(jī)制,以此加強(qiáng)紅外目標(biāo)特征提取能力,使得總體檢測(cè)性能更強(qiáng),準(zhǔn)確度更高。
針對(duì)紅外目標(biāo)特點(diǎn),本文提出了融入注意力機(jī)制的多尺度紅外目標(biāo)檢測(cè)模型,有效提高了紅外目標(biāo)檢測(cè)精度,同時(shí)減少了網(wǎng)絡(luò)冗余計(jì)算量。該模型重新構(gòu)建了多尺度特征融合網(wǎng)絡(luò),網(wǎng)絡(luò)中充分利用淺層特征層信息,有效緩解了因特征丟失導(dǎo)致檢測(cè)準(zhǔn)確度低的問(wèn)題。其次,通過(guò)融入通道注意力讓網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征圖通道間相關(guān)性,突出紅外目標(biāo)信息的同時(shí)提高了網(wǎng)絡(luò)抗干擾能力。為了證明方法的有效性,在自采紅外數(shù)據(jù)集和公開紅外數(shù)據(jù)集中與相關(guān)目標(biāo)檢測(cè)算法進(jìn)行對(duì)比測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文算法模型大小僅為YOLOv4的28.87%,紅外目標(biāo)檢測(cè)準(zhǔn)確度得到了明顯提升。但本文算法在檢測(cè)中仍存在目標(biāo)漏檢現(xiàn)象,下一步工作將根據(jù)存在的問(wèn)題繼續(xù)研究,以達(dá)到更好的紅外目標(biāo)檢測(cè)效果。
[1] 史澤林, 馮斌, 馮萍. 基于波前編碼的無(wú)熱化紅外成像技術(shù)綜述(特邀)[J]. 紅外與激光工程, 2022, 51(1): 32-42.
SHI Zelin, FENG Bin, FENG Ping. An overview of non thermal infrared imaging technology based on wavefront coding (invited) [J]., 2022, 51(1): 32-42.
[2] CHEN C, LI H, WEI Y, et al. A local contrast method for small infrared target detection[J]., 2013, 52(1): 574-581.
[3] LIU R, LU Y, GONG C, et al. Infrared point target detection with improved template matching[J]., 2012, 55(4): 380-387.
[4] Teutsch M, Muller T, Huber M, et al. Low resolution person detection with a moving thermal infrared camera by hot spot classification[C]//, 2014: 209-216.
[5] HAO Q, ZHANG L, WU X, et al. Multiscale object detection in infrared streetscape images based on deep learning and instance level data augmentation[J]., 2019, 9(3): 565.
[6] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//, 2014: 580-587.
[7] 顧佼佼, 李炳臻, 劉克, 等. 基于改進(jìn)Faster R-CNN的紅外艦船目標(biāo)檢測(cè)算法[J]. 紅外技術(shù), 2021, 43(2): 170-178.
GU Jiaojiao, LI Bingzhen, LIU Ke, et al Infrared ship target detection algorithm based on improved Faster R-CNN[J]., 2021, 43(2): 170-178.
[8] REN S, HE K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2016, 39(6): 1137-1149.
[9] 劉智嘉, 汪璇, 趙金博, 等. 基于YOLO算法的紅外圖像目標(biāo)檢測(cè)的改進(jìn)方法[J].激光與紅外, 2020, 50(12): 1512-1520.
LIU Zhijia, WANG Xuan, ZHAO Jinbo, et al. An improved method of infrared image target detection based on YOLO algorithm[J]., 2020, 50(12): 1512-1520.
[10] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.
[11] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//, 2018: 7132-7141.
[12] Bochkovskiy A, Wang C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J/OL].: 2004.10934, 2020.
[13] LIN T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]//(CVPR), 2017: 2117-2125.
[14] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//(CVPR), 2018: 8759-8768.
[15] LUO Y, CAO X, ZHANG J, et al. CE-FPN: enhancing channel information for object detection[J/OL].: 2103. 10643, 2021.
[16] 謝俊章, 彭輝, 唐健峰, 等. 改進(jìn)YOLOv4的密集遙感目標(biāo)檢測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(22): 247-256.
XIE Junzhang, PENG Hui, TANG Jianfeng, et al. Improved dense remote sensing target detection of YOLOv4[J]., 2021, 57(22): 247-256.
[17] 鞠默然, 羅江寧, 王仲博, 等. 融合注意力機(jī)制的多尺度目標(biāo)檢測(cè)算法[J].光學(xué)學(xué)報(bào), 2020, 40(13): 132-140.
JU Muran, LUO Jiangning, WANG Zhongbo, et al. Multi scale target detection algorithm integrating attention mechanism[J]., 2020, 40(13): 132-140.
[18] TAN M, PANG R, LE Q V. Efficient det: Scalable and efficient object detection[C]//, 2020: 10781-10790.
[19] LIU W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//, 2016: 21-37.
[20] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//, 2016: 779-788.
[21] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//, 2017: 7263-727.
Multiscale Infrared Target Detection Based on Attention Mechanism
LI Xiangrong,SUN Lihui
(College of Information Technology, Hebei University of Economics and Business, Shijiazhuang 050061, China)
To address the problems of poor textural detail, low contrast, and poor target detection in infrared images, a multiscale infrared target detection model that integrates a channel attention mechanism is proposed based on Yolov4 (You Only Look Once version 4). First, the number of model parameters is reduced by reducing the depth of the backbone feature extraction network. Second, to supplement the shallow high-resolution feature information, the multiscale feature fusion module is reconstructed to improve the utilization of the feature information. Finally, before the multiscale feature map is generated, the channel attention mechanism is integrated to further improve the infrared feature extraction ability and reduce noise interference. The experimental results show that the size of the algorithm model in this study was only 28.87% of the Yolov4. The detection accuracy of the infrared targets also significantly improved.
infrared image, target detection, YOLOv4, attention mechanism
TN215
A
1001-8891(2023)07-0746-09
2022-04-10;
2022-07-20.
李向榮(1998-),女,碩士研究生,研究方向:圖像處理、目標(biāo)檢測(cè)。E-mail: 243404315@qq.com。
孫立輝(1970-),男,博士,教授,研究領(lǐng)域:圖像處理、數(shù)據(jù)分析。E-mail: Sun_lh@163.com。
河北省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(20350801D)。