曾文健,朱艷,沈韜,曾凱,劉英莉
1. 昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,昆明 650500; 2. 昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,昆明 650500
近年來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的目標(biāo)檢測(cè)算法以其優(yōu)異的檢測(cè)性能和快速處理數(shù)據(jù)的能力在目標(biāo)檢測(cè)領(lǐng)域得到了廣泛應(yīng)用?,F(xiàn)階段的目標(biāo)檢測(cè)算法按檢測(cè)流程分為兩類;一類是以Faster R-CNN(region-convolutional neural network)(Ren 等,2017)、Mask R-CNN(He 等,2017)為代表的具有區(qū)域建議的兩階段目標(biāo)檢測(cè)算法,這些檢測(cè)算法在檢測(cè)精度上較高但是檢測(cè)速度慢。另一類是以SSD(single shot multibox detector)(Liu 等,2016)、YOLOv4(you only look once)(Bochkovskiy 等,2020)等為代表的單階段目標(biāo)檢測(cè)算法,這些檢測(cè)算法能實(shí)現(xiàn)實(shí)時(shí)性的快速檢測(cè),但是在檢測(cè)精度上低于兩階段的目標(biāo)檢測(cè)算法。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法雖然在對(duì)自然光學(xué)圖像的檢測(cè)中取得了較好的檢測(cè)效果,但由于太赫茲圖像的對(duì)比度較低,圖像中目標(biāo)的邊緣信息模糊,導(dǎo)致背景信息容易與目標(biāo)信息混淆;同時(shí),由于太赫茲圖像中的目標(biāo)尺寸較小,目標(biāo)特征有限,最后導(dǎo)致基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法對(duì)太赫茲圖像的檢測(cè)效果較差。因此,如何利用有限的特征信息來(lái)準(zhǔn)確檢測(cè)太赫茲圖像中的目標(biāo)是太赫茲圖像檢測(cè)的難點(diǎn)。
為了解決上述問(wèn)題,本文在YOLOv4的基礎(chǔ)上提出一種融合非對(duì)稱特征注意力和特征融合的目標(biāo)檢測(cè)網(wǎng)絡(luò)AFA-YOLO(asymmetric feature attention-YOLO)。AFA-YOLO在檢測(cè)模型中加入非對(duì)稱卷積(Ding等,2019)來(lái)增強(qiáng)模型對(duì)目標(biāo)的特征提取能力,并且使用CBAM(convolutional block attention module)(Woo 等, 2018)注意力機(jī)制模塊使模型關(guān)注圖像中的有用特征,抑制冗余特征,從而減少背景信息對(duì)目標(biāo)產(chǎn)生的干擾,降低漏檢情況。本文的主要貢獻(xiàn)如下:
1)以YOLOv4檢測(cè)網(wǎng)絡(luò)為基礎(chǔ),針對(duì)太赫茲圖像檢測(cè)提出了一種融合非對(duì)稱特征注意力和特征融合的目標(biāo)檢測(cè)網(wǎng)絡(luò)AFA-YOLO,能有效提高對(duì)太赫茲圖像中目標(biāo)的檢測(cè)精度并降低漏警率。
2)設(shè)計(jì)了一種非對(duì)稱特征注意力模塊,該模塊通過(guò)非對(duì)稱卷積增強(qiáng)了網(wǎng)絡(luò)對(duì)目標(biāo)的特征提取能力,利用通道注意力關(guān)注到圖像中目標(biāo)的重要通道信息,利用空間注意力使網(wǎng)絡(luò)關(guān)注圖像中的關(guān)鍵區(qū)域。
3)通過(guò)增加網(wǎng)絡(luò)中的信息傳輸路徑對(duì)高層特征進(jìn)行特征增強(qiáng),將低層高分辨率特征和具有豐富語(yǔ)義信息的高層特征融合,充分利用低層特征檢測(cè)太赫茲圖像中的小尺度目標(biāo)。
4)對(duì)比了不同的目標(biāo)檢測(cè)算法在太赫茲數(shù)據(jù)集上的檢測(cè)效果。在滿足實(shí)時(shí)性檢測(cè)的前提下,AFA-YOLO在對(duì)太赫茲圖像中小目標(biāo)的檢測(cè)上獲得了最高的檢測(cè)精度以及最低的漏警率,檢測(cè)精度為82.36%,漏警率為12.78%。
Faster R-CNN是以VGG(Visual Geometry Group)網(wǎng)絡(luò)為基礎(chǔ)的兩階段目標(biāo)檢測(cè)算法,該算法將候選區(qū)域生成、特征提取、分類和位置精修統(tǒng)一到一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中,真正實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè),提高了檢測(cè)速度和檢測(cè)精度。但是在獲取區(qū)域建議的過(guò)程中,由于計(jì)算量較大,無(wú)法達(dá)到實(shí)時(shí)性檢測(cè)。Mask R-CNN對(duì)Faster R-CNN進(jìn)行了擴(kuò)展,添加了一個(gè)分支,使用現(xiàn)有的檢測(cè)對(duì)目標(biāo)進(jìn)行并行的預(yù)測(cè),并且在類別預(yù)測(cè)時(shí)做到了像素級(jí)別。
YOLO(Redmon等,2016)是常見(jiàn)的單階段檢測(cè)算法之一,YOLO將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)化成一個(gè)回歸問(wèn)題,大大加快了檢測(cè)速度。與Faster R-CNN不同的是,YOLO算法在訓(xùn)練和預(yù)測(cè)過(guò)程中利用全圖信息,因此可以將背景預(yù)測(cè)錯(cuò)誤率降低一半。但YOLO算法對(duì)小尺度目標(biāo)的檢測(cè)效果不太好,隨后YOLO9000(Redmon和Farhadi,2017)、YOLOv3(Redmon 和Farhadi,2018)等算法針對(duì)這一問(wèn)題在不同程度上有了相關(guān)改進(jìn)。本文中用到的YOLOv4算法平衡了檢測(cè)精度和速度,可以在一塊普通的GPU上完成訓(xùn)練,最后達(dá)到實(shí)時(shí)性檢測(cè)。YOLOv4先通過(guò)由53個(gè)卷積層組成的網(wǎng)絡(luò)CSPDarkNet53(cross stage paritial DarkNet53)進(jìn)行特征提取,再由空間金字塔池化(spatial pyramid pooling, SPP)進(jìn)行多尺度特征融合,同時(shí)路徑聚合網(wǎng)絡(luò)(path aggregation network, PANet)(Wang 等, 2019)會(huì)對(duì)提取到的特征進(jìn)行特征增強(qiáng),最后將特征圖送入檢測(cè)層進(jìn)行目標(biāo)檢測(cè)操作。
SSD是常見(jiàn)的單階段檢測(cè)算法之一。主網(wǎng)絡(luò)結(jié)構(gòu)是VGG16,并將最后兩個(gè)全連接層改成了卷積層。SSD算法與YOLO的不同之處是除了在最終特征圖上做目標(biāo)檢測(cè)外,還在之前選取的5個(gè)特征圖上進(jìn)行預(yù)測(cè),雖然提高了對(duì)小尺度目標(biāo)的檢測(cè)精度,但是SSD算法的缺點(diǎn)也很明顯,需要人工設(shè)置先驗(yàn)框的尺寸大小和比例,并且對(duì)目標(biāo)的召回率較低。
上述檢測(cè)方法都實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè),將深度學(xué)習(xí)中的檢測(cè)方法引入太赫茲圖像的檢測(cè)中可以大大減少人力資源的使用,同時(shí)提高安檢場(chǎng)景中的檢測(cè)效率。但上述方法并不針對(duì)太赫茲圖像中的目標(biāo)檢測(cè),在對(duì)太赫茲圖像的檢測(cè)中檢測(cè)精度較低,同時(shí)存在較高的漏檢。
在對(duì)太赫茲圖像的檢測(cè)研究中,目前研究人員通過(guò)改進(jìn)相關(guān)的檢測(cè)算法來(lái)提高對(duì)太赫茲圖像的檢測(cè)效果。Xiao等人(2018)提出了一種結(jié)合預(yù)處理和結(jié)構(gòu)優(yōu)化的框架R-PCNN(region-preprocessing convolutional neural networks),在Faster R-CNN網(wǎng)絡(luò)中加入圖像去噪和增強(qiáng)模塊來(lái)解決傳統(tǒng)的圖像分割和定位方法對(duì)太赫茲圖像檢測(cè)精度和速度不夠的問(wèn)題。Zhang等人(2018)分析了太赫茲圖像與光學(xué)圖像的相似性,提出了基于光學(xué)特征遷移的分類方法和一種閾值分割結(jié)合Faster R-CNN的檢測(cè)方法,用于獨(dú)立檢測(cè)人體和其他物體以提高檢測(cè)性能;Yang等人(2019)通過(guò)稀疏低秩分解方法挖掘太赫茲圖像的時(shí)空信息,實(shí)現(xiàn)對(duì)可疑對(duì)象的高精度自動(dòng)檢測(cè)和識(shí)別。
在目標(biāo)檢測(cè)中,由于小尺度目標(biāo)在圖像中的信息較少導(dǎo)致檢測(cè)小尺度目標(biāo)要比檢測(cè)中型和大型目標(biāo)更困難。在COCO(common objects in context)評(píng)價(jià)標(biāo)準(zhǔn)中,圖像中小于或者等于32×32像素的物體通常歸類為小尺度目標(biāo)。當(dāng)前研究人員針對(duì)小尺寸目標(biāo)檢測(cè)也展開(kāi)了相關(guān)的研究。Sommer等人(2017)用5個(gè)卷積層和3個(gè)全連接層組成的淺層神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)對(duì)航空?qǐng)D像中的小尺度目標(biāo)檢測(cè)。Gao等人(2018)先對(duì)圖像進(jìn)行下采樣,然后使用強(qiáng)化學(xué)習(xí)動(dòng)態(tài)地搜索感興趣區(qū)域,最后以更高的分辨率對(duì)該區(qū)域進(jìn)行小尺度目標(biāo)檢測(cè)。陳冰曲和鄧濤(2019)針對(duì)車輛數(shù)據(jù)集重新設(shè)計(jì)了SSD算法的區(qū)域候選框,并在SSD算法的損失函數(shù)基礎(chǔ)上增加排斥損失提高對(duì)重疊目標(biāo)檢測(cè)。Liu等人(2020)提出一種基于反卷積區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)準(zhǔn)確檢測(cè)交通標(biāo)志的問(wèn)題。郭璠等人(2021)提出了一種基于語(yǔ)義分割的通道注意方法和空間注意方法YOLOv3-A來(lái)增強(qiáng)模型對(duì)交通標(biāo)志的檢測(cè)性能。
AFA-YOLO檢測(cè)網(wǎng)絡(luò)在CSPDarkNet53的淺層部分設(shè)計(jì)了一種非對(duì)稱特征注意力模塊,該模塊結(jié)合了非對(duì)稱卷積和CBAM注意力機(jī)制的優(yōu)點(diǎn)來(lái)強(qiáng)化網(wǎng)絡(luò)模型對(duì)太赫茲圖像中目標(biāo)的特征提取能力。圖1為AFA-YOLO的網(wǎng)絡(luò)結(jié)構(gòu)圖,輸入圖像先經(jīng)過(guò)非對(duì)稱特征注意力模塊和特征提取網(wǎng)絡(luò)CSPDarkNet53進(jìn)行特征提取,再由SPP流向路徑聚合網(wǎng)絡(luò)。由于小尺度目標(biāo)依賴淺層網(wǎng)絡(luò)提取的低層特征信息,因此,AFA-YOLO檢測(cè)框架中進(jìn)行了特征融合,將經(jīng)過(guò)非對(duì)稱特征注意力模塊后的低層高分辨率特征和高層具有豐富語(yǔ)義信息的特征融合,充分利用低層特征圖中目標(biāo)的外觀信息進(jìn)行定位,如圖1中虛線所示,最后網(wǎng)絡(luò)結(jié)合不同分辨率的YOLO檢測(cè)層進(jìn)行目標(biāo)檢測(cè)。
圖1 AFA-YOLO網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of AFA-YOLO network
2.2.1 非對(duì)稱卷積
在太赫茲圖像中,由于圖像中目標(biāo)尺寸相對(duì)較小,特征信息有限且圖像中目標(biāo)的邊緣信息模糊,普通的方形卷積核對(duì)于太赫茲圖像中目標(biāo)的特征提取能力不足,不能突出卷積核提取到的目標(biāo)特征。非對(duì)稱卷積相比于普通方形的卷積增加了水平卷積和豎直卷積,新增的兩個(gè)卷積核增強(qiáng)了方形卷積核中心骨架的特征提取能力,從而強(qiáng)化了方形卷積核中心的特征,弱化了邊緣的特征,因此,非對(duì)稱卷積能很好地幫助網(wǎng)絡(luò)提取到目標(biāo)的特征。圖2為非對(duì)稱卷積。
圖2 非對(duì)稱卷積Fig.2 Asymmetric convolution
在AFA-YOLO的網(wǎng)絡(luò)中,本文在特征提取網(wǎng)絡(luò)CSPDarkNet53第1個(gè)卷積層之前使用非對(duì)稱卷積將現(xiàn)有的3×3卷積核替換成3×3、1×3、3×1這3個(gè)并行的卷積核,這3個(gè)卷積核會(huì)分別對(duì)同一個(gè)輸入特征進(jìn)行特征提取操作,然后將這3個(gè)卷積核提取到的特征進(jìn)行融合后得到該卷積層的輸出結(jié)果。
2.2.2 通道注意力機(jī)制
注意力機(jī)制模塊的主要功能是為了增加檢測(cè)模型的數(shù)據(jù)表征能力,使網(wǎng)絡(luò)學(xué)習(xí)到圖像特征中的重要信息并抑制不重要的信息。按照注意力作用的特征形式,注意力機(jī)制可以分為基于通道的注意力和基于空間的注意力。
圖像的通道信息一般代表不同的特征信息,圖像的通道數(shù)越多,包含的特征信息越豐富。使用通道注意力機(jī)制來(lái)選擇通道中的關(guān)鍵特征,同時(shí)抑制與目標(biāo)無(wú)關(guān)的特征,有利于將太赫茲圖像中的目標(biāo)信息和背景信息分離,從而減少模型的漏檢情況。圖3為通道注意力機(jī)制。
圖3 通道注意力Fig.3 Channel attention
圖3中對(duì)一個(gè)輸入特征分別進(jìn)行空間的全局平均池化和最大池化后得到兩個(gè)1維向量,然后將其輸入到一個(gè)共享感知機(jī)中,再將得到的兩個(gè)特征相加后經(jīng)過(guò)一個(gè)Sigmoid激活函數(shù)得到權(quán)重系數(shù)Mc。最后,將得到的權(quán)重系數(shù)和原來(lái)的特征相乘即可得到經(jīng)過(guò)通道注意力后的新特征。實(shí)現(xiàn)通道注意力的方法為
(1)
2.2.3 空間注意力機(jī)制
空間注意力關(guān)注的是圖像中目標(biāo)的位置信息。利用空間注意力機(jī)制可以增加目標(biāo)關(guān)鍵區(qū)域的權(quán)重,使網(wǎng)絡(luò)關(guān)注到太赫茲圖像中的重點(diǎn)區(qū)域,有助于網(wǎng)絡(luò)提取到目標(biāo)關(guān)鍵特征。圖4為空間注意力機(jī)制。
圖4 空間注意力Fig.4 Spatial attention
在CBAM的空間注意力中,Woo 等人(2018)證明了使用7×7的卷積核比3×3的卷積核效果更好,因此本文同樣使用7×7的卷積核來(lái)提取特征。然后,特征經(jīng)過(guò)Sigmoid激活函數(shù)得到空間注意力權(quán)重Ms。為了保證最后得到的特征在空間維度上與輸入的特征一致,將權(quán)重特征Ms和原始特征相乘即可得到縮放后的新特征。實(shí)現(xiàn)空間注意力的方法為
(2)
神經(jīng)網(wǎng)絡(luò)通過(guò)一系列卷積和池化操作可以提取到圖像中目標(biāo)的相關(guān)特征。淺層網(wǎng)絡(luò)的感知域較小,可以學(xué)習(xí)到局部區(qū)域的特征,深層網(wǎng)絡(luò)具有較大的感知域,能夠?qū)W習(xí)到更加抽象的特征。
在AFA-YOLO網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)深度的增加,神經(jīng)網(wǎng)絡(luò)提取到特征的語(yǔ)義信息也就越強(qiáng),這些特征對(duì)物體的大小、位置和方向等敏感性更低,因此有助于檢測(cè)性能的提高。但隨著網(wǎng)絡(luò)深度的增加,特征圖的分辨率會(huì)逐漸降低,并且高層特征丟失了目標(biāo)外觀的細(xì)節(jié)信息,因此在檢測(cè)太赫茲圖像中這些尺寸較小的目標(biāo)時(shí)需要高分辨率的低層特征來(lái)定位目標(biāo)。本文通過(guò)增加網(wǎng)絡(luò)中的信息傳輸路徑,如圖5中虛線所示,讓低層特征和高層特征以add(特征圖相加,通道數(shù)不變)方式進(jìn)行特征融合,充分利用高分辨率的低層特征來(lái)提高網(wǎng)絡(luò)模型對(duì)小尺度目標(biāo)的檢測(cè)效果。圖5為低層特征和高層特征的融合方式。
圖5 特征融合Fig.5 Feature fusion
將淺層的高分辨率特征圖通過(guò)下采樣的方式與不同的特征進(jìn)行融合,使得高層特征圖能獲取到細(xì)粒度的目標(biāo)外觀信息,從而優(yōu)化對(duì)太赫茲圖像中小尺度目標(biāo)的定位和檢測(cè)效果。add方式的特征融合方法為
(3)
式中,X和Y分別表示兩組輸入特征的通道,K表示卷積核,Z表示輸出特征,c為特征圖通道的最大值。
本文所使用的太赫茲數(shù)據(jù)集包含了7 711幅不同的太赫茲圖像,每幅圖像的尺寸為200×380像素,如圖6所示。對(duì)收集到的7 711幅太赫茲圖像用LabelImg軟件進(jìn)行標(biāo)注,將圖像中的檢測(cè)目標(biāo)分為兩類,分別為phone和knife,標(biāo)注過(guò)程中發(fā)現(xiàn)所有目標(biāo)均小于32×32像素。標(biāo)注完成后,每一幅太赫茲圖像都對(duì)應(yīng)有一個(gè)XML(extensible markup language)格式的標(biāo)注文件,文件里記錄著目標(biāo)的位置信息。最后,將太赫茲圖像制作成VOC(visual object classes)類型的數(shù)據(jù)集。
圖6 太赫茲圖像Fig.6 Terahertz images
表1為本文實(shí)驗(yàn)環(huán)境配置表,實(shí)驗(yàn)在Ubantu16.04系統(tǒng)下進(jìn)行,處理器型號(hào)為Intel(R) Core(TM) i5-9400F CPU @ 2.90 GHz,使用Nvidia RTX 2060顯卡,內(nèi)存為16 GB,開(kāi)發(fā)語(yǔ)言為python3.6,深度學(xué)習(xí)框架采用PyTorch1.6以及OpenCV3圖像處理庫(kù)。
表1 實(shí)驗(yàn)環(huán)境配置Table 1 Experimental environment configuration
在訓(xùn)練階段,batchsize批量大小為4,momentum動(dòng)量為0.9,decay權(quán)值衰減為0.000 5,learning_rate學(xué)習(xí)率為0.001,迭代次數(shù)為300 epoch。
目標(biāo)檢測(cè)算法的評(píng)價(jià)指標(biāo)有平均精度均值、漏警率以及檢測(cè)速度。平均精度均值代表所有類別檢測(cè)的平均準(zhǔn)確率,平均準(zhǔn)確率(average precision, AP)由查準(zhǔn)率p和召回率r計(jì)算得到。漏警率是衡量檢測(cè)模型的重要指標(biāo)之一,尤其是對(duì)小尺度目標(biāo)的檢測(cè),判斷模型是否將圖像中所有目標(biāo)全部檢測(cè)出來(lái)。檢測(cè)速度是評(píng)估一個(gè)檢測(cè)器的實(shí)時(shí)性指標(biāo),通常用每秒處理幀數(shù)表示,幀率(frames per second, FPS)越大,說(shuō)明檢測(cè)器的實(shí)時(shí)性越好,當(dāng)FPS值大于30幀/s時(shí)即可做到實(shí)時(shí)性檢測(cè)。各指標(biāo)公式為
(4)
(5)
(6)
(7)
(8)
式中,查準(zhǔn)率p為正確檢測(cè)的正樣本數(shù)占檢測(cè)結(jié)果中正樣本總數(shù)的比例,召回率r為正確檢測(cè)的正樣本數(shù)占實(shí)際正樣本總數(shù)的比例,真陽(yáng)性(TP)表示正確檢測(cè)的正樣本數(shù)、假陽(yáng)性(FP)表示實(shí)際為負(fù)樣本但檢測(cè)為正樣本的數(shù)量、假陰性(FN)表示實(shí)際為正樣本但檢測(cè)為負(fù)樣本的數(shù)量,Q表示檢測(cè)的類別數(shù),AP(q)表示q類別的平均準(zhǔn)確率,MA為漏警率,用來(lái)衡量模型漏檢程度。
3.4.1 實(shí)驗(yàn)結(jié)果
為了說(shuō)明本文方法AFA-YOLO相比YOLOv4的優(yōu)劣之處,對(duì)比了兩者的模型參數(shù)量以及模型的推理時(shí)間。從表2可以看出,AFA-YOLO相比YOLOv4,模型的參數(shù)量大小增加了1.25 M,因此推理時(shí)間也增加了3 ms。
表2 模型參數(shù)與推理時(shí)間Table 2 Model parameters and inference time
本文對(duì)訓(xùn)練過(guò)程進(jìn)行了可視化,其中圖7、圖8分別對(duì)比了AFA-YOLO與YOLOv4訓(xùn)練時(shí)的mAP和recall的變化曲線。
圖7中模型的mAP值隨訓(xùn)練周期逐漸增大,在訓(xùn)練300 epoch后,其中AFA-YOLO的值最終穩(wěn)定在82.36%,YOLOv4的值最終穩(wěn)定在78.44%,AFA-YOLO比YOLOv4高了3.92%。圖8中模型的召回率同樣隨著訓(xùn)練周期的增加逐漸升高,AFA-YOLO最終穩(wěn)定在87.22%,YOLOv4最終穩(wěn)定在84.57%, AFA-YOLO比YOLOv4高了2.65%。
圖7 mAP曲線Fig.7 mAP curves
圖8 召回率曲線Fig.8 Recall curves
從實(shí)驗(yàn)結(jié)果分析得到,本文AFA-YOLO方法雖然在模型參數(shù)量上有所增加,但是能帶來(lái)更高的檢測(cè)精度以及更高的召回率。
3.4.2 消融實(shí)驗(yàn)
為了充分探究AFA-YOLO中每個(gè)模塊的改進(jìn)對(duì)檢測(cè)模型的影響,進(jìn)行消融實(shí)驗(yàn),對(duì)比YOLOv4、YOLOv4+非對(duì)稱特征注意力、YOLOv4+特征融合和本文AFA-YOLO算法。實(shí)驗(yàn)結(jié)果如表3所示。由表3可知,在網(wǎng)絡(luò)中增加了非對(duì)稱特征注意力模塊后,mAP提升了1.99%, MA降低了2.1%,F(xiàn)PS降低了2.85幀/s;在網(wǎng)絡(luò)中增加了特征融合后,mAP提升了1.53%,MA降低了1.98%,F(xiàn)PS降低了1.31 幀/s;在同時(shí)加入非對(duì)稱特征注意力模塊和特征融合后,mAP提升了3.96%,MA降低了2.65%,F(xiàn)PS降低了4.06幀/s。從檢測(cè)角度看,在網(wǎng)絡(luò)中添加非對(duì)稱特征注意力模塊和特征融合后雖然檢測(cè)速度有所降低,但是能有效讓檢測(cè)模型學(xué)習(xí)到太赫茲圖像中目標(biāo)的特征,從而能有效提升檢測(cè)模型的檢測(cè)精度,同時(shí)降低模型的漏警率。
表3 消融實(shí)驗(yàn)Table 3 Ablation experiment
圖9為AFA-YOLO模型對(duì)太赫茲圖像檢測(cè)的結(jié)果圖,圖中的數(shù)值代表了模型判斷為該類別的置信度,從檢測(cè)效果來(lái)看,AFA-YOLO模型能很好地將太赫茲圖中的目標(biāo)檢測(cè)出來(lái),并且達(dá)到了較高的精度。
圖9 太赫茲圖像檢測(cè)Fig.9 Terahertz image detection
3.4.3 與其他方法的對(duì)比
為了說(shuō)明AFA-YOLO模型的有效性,本文對(duì)比了主流的目標(biāo)檢測(cè)算法在太赫茲數(shù)據(jù)集中的檢測(cè)效果。其中,F(xiàn)aster R-CNN、Mask R-CNN為兩階段目標(biāo)檢測(cè)算法,SSD、YOLOv3、YOLOv4為單階段目標(biāo)檢測(cè)算法。實(shí)驗(yàn)結(jié)果如表4所示,與其他檢測(cè)算法相比,AFA-YOLO檢測(cè)算法中的非對(duì)稱特征注意力模塊提升了對(duì)太赫茲圖像中目標(biāo)的檢測(cè)精度,同時(shí)能有效降低漏警率,并且特征融合也有利于對(duì)太赫茲圖像中的目標(biāo)檢測(cè),AFA-YOLO相比原YOLOv4算法雖然檢測(cè)速度有所降低,但是仍能滿足實(shí)時(shí)性的檢測(cè)要求。
表4 不同檢測(cè)算法的比較Table 4 Comparison of different detection algorithms
隨著太赫茲技術(shù)的發(fā)展,基于太赫茲成像的人體安檢技術(shù)成為安檢領(lǐng)域中的研究熱點(diǎn)。但太赫茲圖像中目標(biāo)較小、特征有限,并且背景信息易對(duì)目標(biāo)信息產(chǎn)生干擾,這成為太赫茲圖像檢測(cè)的難點(diǎn)問(wèn)題。本文以YOLOv4算法為基礎(chǔ),提出了一種融合非對(duì)稱特征注意力的目標(biāo)檢測(cè)網(wǎng)絡(luò)AFA-YOLO。首先,AFA-YOLO網(wǎng)絡(luò)在淺層網(wǎng)絡(luò)中使用非對(duì)稱卷積來(lái)增強(qiáng)網(wǎng)絡(luò)的特征提取能力,能在目標(biāo)特征有限的太赫茲圖像中提取到有效的目標(biāo)特征;其次,網(wǎng)絡(luò)中加入了CBAM注意力機(jī)制,通過(guò)通道注意力和空間注意力使網(wǎng)絡(luò)模型學(xué)習(xí)到圖像中目標(biāo)的重要特征,解決背景信息和目標(biāo)信息干擾的問(wèn)題,同時(shí)讓檢測(cè)模型關(guān)注圖像中的重點(diǎn)區(qū)域;最后通過(guò)增加網(wǎng)絡(luò)中低層到高層的信息傳輸路徑對(duì)高層特征增強(qiáng),將低層高分辨率特征和高層具有豐富語(yǔ)義信息的特征進(jìn)行融合,充分利用低層特征檢測(cè)太赫茲圖像中的小尺度目標(biāo)。實(shí)驗(yàn)結(jié)果表明,本文提出的AFA-YOLO方法在太赫茲數(shù)據(jù)集上的檢測(cè)精度提升了3.96%,達(dá)到了82.36%;漏警率降低了2.65%,為12.78%;FPS降低了4.06幀/s,為32.26幀/s,達(dá)到了較好的檢測(cè)效果。本文與其他檢測(cè)算法進(jìn)行了對(duì)比,AFA-YOLO算法在檢測(cè)精度和漏警率的表現(xiàn)上優(yōu)于其他檢測(cè)算法,但由于在網(wǎng)絡(luò)模型中增加了非對(duì)稱卷積,導(dǎo)致模型的參數(shù)量增多,因此AFA-YOLO在檢測(cè)速度上慢于YOLOv3、YOLOv4以及SSD算法,但是仍然能滿足實(shí)時(shí)性的檢測(cè)要求。
由于本文中只有knife和phone兩類檢測(cè)對(duì)象,圖像樣本上缺乏多樣性,因此在以后的研究工作中,將陸續(xù)增加檢測(cè)對(duì)象,將安檢中的違禁品納入其中,并擴(kuò)充太赫茲圖像數(shù)據(jù)集以提高本模型的實(shí)用性和魯棒性。