劉 輝,張琳玉*,王復(fù)港,何如瑾
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 數(shù)智化通信新技術(shù)應(yīng)用研究中心,重慶 400065)
近年來(lái),在深度學(xué)習(xí)的推動(dòng)下,計(jì)算機(jī)視覺(jué)技術(shù)發(fā)展迅猛,目標(biāo)檢測(cè)作為該領(lǐng)域的重要研究方向之一,主要對(duì)圖像中的物體類(lèi)別進(jìn)行標(biāo)識(shí),有著廣泛的應(yīng)用場(chǎng)景。相較于傳統(tǒng)的檢測(cè)方法,現(xiàn)階段作為目標(biāo)檢測(cè)研究主要技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在特征提取能力和時(shí)間效率方面都具有顯著的優(yōu)勢(shì)。目前,目標(biāo)檢測(cè)算法主要包括雙階段和單階段兩類(lèi)。前者以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-Convolutional Neural Network,R-CNN)[1-2]為代表,后者主要包括YOLO(You Only Look Once)[3-5]和SSD(Single Shot multibox Detector)[6-7]。其中,YOLO 系列網(wǎng)絡(luò)憑借檢測(cè)速度快的特點(diǎn),在遙感圖像檢測(cè)、移動(dòng)設(shè)備的物體檢測(cè)等實(shí)時(shí)檢測(cè)上應(yīng)用廣泛。
現(xiàn)階段目標(biāo)檢測(cè)算法在性能上已有很大突破,但隨著CNN 層數(shù)不斷加深,下采樣(subsampling)過(guò)程導(dǎo)致圖像分辨率不斷降低,算法結(jié)構(gòu)也逐漸復(fù)雜化。大多數(shù)算法在增強(qiáng)特征表達(dá)能力的同時(shí)容易忽略恢復(fù)圖像時(shí)所必需的細(xì)節(jié)信息,造成小目標(biāo)的漏檢和誤檢。針對(duì)上述問(wèn)題,文獻(xiàn)[8]的方法通過(guò)早期添加殘差注意力機(jī)制實(shí)現(xiàn)小目標(biāo)的聚集,使目標(biāo)框定位到網(wǎng)絡(luò)感興趣的位置,抑制掉無(wú)用的信息,進(jìn)而減少背景信息中不必要的淺層信息,提升網(wǎng)絡(luò)的特征提取能力。文獻(xiàn)[9]中利用混合空洞卷積(Hybird Dilated Convolution,HDC)增大淺層網(wǎng)絡(luò)的感受野,使淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)能夠更好地融合,從而提高小目標(biāo)檢測(cè)的精度。文獻(xiàn)[10]中提出了一種多級(jí)特征融合方法來(lái)引入上下文信息,并利用拼接模塊以及元素和模塊實(shí)例化該特征融合方法,提升了小目標(biāo)的識(shí)別精度。文獻(xiàn)[11]中采用多尺度注意力融合不同層次的小目標(biāo)特征信息,提升了小目標(biāo)檢測(cè)的準(zhǔn)確率。文獻(xiàn)[12]中利用Inception-SE(Inception-Squeeze-and-Excitation)結(jié) 構(gòu)使網(wǎng)絡(luò)更快收斂,多尺度特征圖充分融合,從而提升目標(biāo)檢測(cè)性能。文獻(xiàn)[13]中提出了一種基于注意力的特征交互方法,通過(guò)在常規(guī)特征提取器的每個(gè)模塊后添加一個(gè)小網(wǎng)絡(luò)來(lái)獲得注意力權(quán)重,減少?zèng)_突信息。文獻(xiàn)[14]中提出用不同尺寸大小的卷積核生成多尺度的特征圖,融合成具有全局信息的特征表達(dá)方式。這些算法在一定程度上提升了檢測(cè)的精度,但是沒(méi)有考慮到下采樣率過(guò)大導(dǎo)致小目標(biāo)丟失、計(jì)算量過(guò)大等問(wèn)題,無(wú)法有效地進(jìn)一步提升檢測(cè)效果。
針對(duì)上述問(wèn)題,本文基于YOLOv5[15-16]提出了一種基于注意力機(jī)制和上下文信息的目標(biāo)檢測(cè)算法(YOLOv5 object detection algorithms based on Attention mechanism and Context information,AC-YOLO)。首先考慮到下采樣率過(guò)大會(huì)導(dǎo)致小目標(biāo)部分信息丟失,在主干網(wǎng)絡(luò)中引入多尺度空洞卷積模塊,在保持分辨率的同時(shí)增大感受野以充分利用上下文信息;然后在通道注意力模塊中引入位置注意力,捕獲跨通道信息,加強(qiáng)感興趣區(qū)域的表示,從而優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提升小目標(biāo)的檢測(cè)性能;最后為了調(diào)整待檢測(cè)目標(biāo)的位置信息,減少目標(biāo)漏檢現(xiàn)象,引入 Soft-NMS(Soft-Non-Maximum Suppression)算法,避免非極大值抑制(Non-Maximum Suppression,NMS)算法直接刪除兩個(gè)重疊過(guò)多的候選框中較低置信度的候選框,對(duì)錨框置信度進(jìn)行優(yōu)化以提高模型的準(zhǔn)確率,在一般場(chǎng)景以及遙感圖像檢測(cè)中均具有較好的檢測(cè)效果。
YOLO 系列算法是一種單階段檢測(cè)方法,在訓(xùn)練過(guò)程中,采用S×S個(gè)網(wǎng)格劃分輸入圖像,然后用目標(biāo)所在的網(wǎng)格輸出預(yù)測(cè)邊框來(lái)完成預(yù)測(cè)。YOLOv5 結(jié)構(gòu)如圖1 所示,其中:na為預(yù)測(cè)框的數(shù)量,nc為預(yù)測(cè)類(lèi)的數(shù)量。相較于其他YOLO模型,YOLOv5 采用跨階段局部網(wǎng)絡(luò)(Cross Stage Partial Network,CSPNet)[17]對(duì)特征提取部分和Neck 部分進(jìn)行了優(yōu)化,該結(jié)構(gòu)由復(fù)合卷積(Conv+BN+SiLU,CBS)模塊和殘差模塊組成,有利于降低計(jì)算量、增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。此外,YOLOv5 在骨干網(wǎng)絡(luò)前添加了Focus 模塊對(duì)圖片進(jìn)行切片操作,能夠在不造成特征信息丟失的情況下進(jìn)行下采樣,并增大其感受野。CBS 模塊由標(biāo)準(zhǔn)卷積層、批歸一化(Batch Normalization,BN)層和SiLU(Sigmoid weighted Liner Unit)激活函數(shù)層組成,該模塊可增強(qiáng)模型學(xué)習(xí)能力,獲得豐富的特征表達(dá)??臻g金字塔池化(Spatial Pyramid Pooling,SPP)[18]模塊使用不同的窗口,可以同時(shí)獲得不同尺寸的特征,再進(jìn)行特征聚合,對(duì)于提升不同尺寸目標(biāo)的檢測(cè)精度起到了積極作用。而Neck 網(wǎng)絡(luò)部分借鑒了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PNet)[19]和路徑 聚合網(wǎng) 絡(luò)(Path Aggregation Network,PANet)[20]結(jié)構(gòu),通過(guò)自底向上和自頂向下的路徑提高信息傳遞效率,可以提取到多樣化的特征,增強(qiáng)了模型的魯棒性;并且得益于強(qiáng)大的GPU 處理能力,采用PyTorch 深度學(xué)習(xí)框架,訓(xùn)練時(shí)間大幅減少,在現(xiàn)階段的目標(biāo)檢測(cè)任務(wù)中取得了不錯(cuò)的進(jìn)展。
圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 YOLOv5 network structure
增大感受野是提升目標(biāo)檢測(cè)性能的一種重要方法。在空洞卷積出現(xiàn)以前,大多數(shù)研究都是通過(guò)堆疊卷積層和引入池化操作來(lái)增大感受野,但增加卷積層會(huì)導(dǎo)致計(jì)算量增大,訓(xùn)練速度降低;池化操作會(huì)降低圖像分辨率,造成檢測(cè)過(guò)程中小目標(biāo)信息的丟失。而空洞卷積可以在不改變圖像尺寸大小的前提下獲得較大感受野,并能有效提取圖像細(xì)節(jié)信息。文獻(xiàn)[21]和文獻(xiàn)[22]分別提出了空洞殘差模塊以及空洞空間卷積池化金字塔,這兩種方法在特征融合時(shí)都采用了不同尺寸的空洞卷積,使網(wǎng)絡(luò)更好地從周?chē)袼刂刑崛∩舷挛男畔?,增大其感受野。與上述研究不同,本文采用多種不同空洞率的空洞卷積來(lái)捕獲多尺度特征信息,從而減少小目標(biāo)的信息丟失。
注意力機(jī)制能夠根據(jù)目標(biāo)的重要程度進(jìn)行權(quán)重分配,突出某些重要特征,從而有效捕獲上下文信息,在多個(gè)計(jì)算機(jī)視覺(jué)任務(wù)中都取得了不錯(cuò)的效果。文獻(xiàn)[23]中設(shè)計(jì)了通道注意力用于獲取通道間關(guān)聯(lián),進(jìn)而有效地構(gòu)建通道間的相互依賴關(guān)系,提升網(wǎng)絡(luò)檢測(cè)的性能。隨后,卷積注意力機(jī)制模塊(Convolutional Block Attention Module,CBAM)[24]進(jìn)一步推廣了這一思想,將空間和通道兩個(gè)維度的特征以級(jí)聯(lián)的方式進(jìn)行連接來(lái)生成注意力圖,并將它與輸入特征圖相乘進(jìn)一步修正獲取到的特征。Hou 等[25]提出了一種新的坐標(biāo)注意力(Coordinate Attention,CA),考慮了位置信息對(duì)通道信息的影響,捕獲位置感知的信息,有助于模型更精準(zhǔn)地定位?;谏鲜鲅芯?,本文方法引入注意力機(jī)制旨在解決下采樣過(guò)程中小目標(biāo)漏檢造成的定位不精準(zhǔn)問(wèn)題。
非極大值抑制(NMS)在大多目標(biāo)檢測(cè)算法中起著至關(guān)重要的作用。在目標(biāo)檢測(cè)過(guò)程中,NMS 不斷地將得分最高的邊框與其他邊框進(jìn)行交并比(Intersection over Union,IoU)操作,然后刪除IoU 值超過(guò)給定閾值的邊框,此過(guò)程會(huì)抑制掉大量得分低且重疊度較高的錨框,造成漏檢從而影響檢測(cè)精度。針對(duì)此問(wèn)題,后續(xù)研究產(chǎn)生了一系列算法的改進(jìn),如文獻(xiàn)[26]中提出了一種針對(duì)位置優(yōu)先級(jí)進(jìn)行NMS 過(guò)濾的方法,該方法在網(wǎng)絡(luò)中添加了IoU 預(yù)測(cè)分支,但容易增大計(jì)算量;文獻(xiàn)[27]中提出的加權(quán)法和方差加權(quán)求平均法用來(lái)優(yōu)化邊框的位置和置信度得分。與上述方法不同,本文主要對(duì)過(guò)濾候選框的方法進(jìn)行改進(jìn),利用Soft-NMS[28]替換原始的將分?jǐn)?shù)設(shè)置為0 的NMS 算法,減少漏檢情況。
YOLOv5 算法使用CSPDarknet53 提取特征圖信息,在下采樣時(shí),采用了3×3 大小的卷積核,并將步長(zhǎng)設(shè)置為2,雖然在一定程度上增大了感受野,但是多次下采樣容易導(dǎo)致檢測(cè)過(guò)程中小尺寸目標(biāo)丟失,檢測(cè)結(jié)果不佳。因此,為保留更多的細(xì)節(jié)信息,本文將在原有模型上減少一次下采樣操作,以獲得原圖1/16 的特征圖分辨率,然后利用本文設(shè)計(jì)的空洞可分離卷積模塊(如圖2(c)所示)進(jìn)行密集特征提取。
圖2 不同類(lèi)型模塊的比較Fig.2 Comparison of different types of modules
眾多研究表明,由于采樣稀疏,單一空洞率的空洞卷積得到的鄰近像素間缺乏依賴關(guān)系,會(huì)產(chǎn)生網(wǎng)格效應(yīng)[29],即空洞率過(guò)大時(shí),有些像素特征無(wú)法被提取到,造成關(guān)鍵信息的丟失;同時(shí)模塊中使用多個(gè)空洞卷積會(huì)增加計(jì)算量,不利于小目標(biāo)檢測(cè)。為避免上述問(wèn)題,本文堆疊多個(gè)不同空洞率的空洞卷積以獲取多尺度的特征信息。此外,為輕量化網(wǎng)絡(luò)結(jié)構(gòu),本文參考了一維非瓶頸卷積模塊(如圖2(a)所示)和Inception 基礎(chǔ)模塊(如圖2(b)所示)。圖2(a)采用了一個(gè)單分支結(jié)構(gòu),利用分解卷積代替標(biāo)準(zhǔn)卷積,能減少模型參數(shù)量、加快訓(xùn)練,且該結(jié)構(gòu)能夠解決“大而密”的特征提取問(wèn)題,有利于平衡檢測(cè)精度和速度;圖2(b)采用多分支結(jié)構(gòu),使用不同卷積核進(jìn)行卷積運(yùn)算,提升了模型對(duì)不同尺度目標(biāo)的自適應(yīng)性。受以上思想的啟發(fā),本文構(gòu)建了多尺度空洞可分離卷積模塊(Multiscale Dilated Separable Convolutional Module,MDSCM),在該模塊中,采用多分支結(jié)構(gòu),在每個(gè)分支上均采用不同空洞率的空洞卷積,并且通過(guò)卷積分解實(shí)現(xiàn)高效計(jì)算。
MDSCM 采用不同空洞率的空洞卷積來(lái)擴(kuò)大感受野,提高網(wǎng)絡(luò)對(duì)于多尺度特征的提取,有效地獲取豐富的上下文特征信息。MDSCM 主要由5 個(gè)分支組成,其中一條支路為殘差結(jié)構(gòu),只進(jìn)行1×1 卷積;另外4 條支路由4 個(gè)空洞率分別為1、2、3、5 的3×1 和1×3 可分離卷積串聯(lián)3×1 和1×3 空洞可分離卷積層組成,首先分別通過(guò)3×1 和1×3 可分離卷積獲取更高層的語(yǔ)義信息,隨后利用鋸齒狀的空洞率同時(shí)實(shí)現(xiàn)對(duì)大小目標(biāo)的特征提取,用不同空洞率的空洞卷積來(lái)關(guān)注遠(yuǎn)近距離信息,提高模型的自適應(yīng)能力。然而,模塊內(nèi)堆疊多個(gè)空洞卷積會(huì)增加參數(shù)量,因此,MDSCM 考慮了深度可分離卷積的優(yōu)勢(shì),并將其與空洞卷積優(yōu)勢(shì)互補(bǔ),使計(jì)算量大幅降低。如圖2(c)所示,圖2 中“DConv”為深度可分離卷積,rate 為空洞率。特別地,在使用拼接操作合并分支后,采用1×1 卷積層進(jìn)行多個(gè)分支間的特征融合,加強(qiáng)信息間的溝通,并將通道數(shù)降低到設(shè)定的大小,增強(qiáng)特征表達(dá)能力。
與圖2(a)和圖2(b)中模塊相比,改進(jìn)后的模塊通過(guò)堆疊不同空洞率的空洞可分離卷積來(lái)有效獲取特征圖的上下文信息,在增大感受野的同時(shí)降低計(jì)算量,加快了訓(xùn)練的進(jìn)程,增強(qiáng)了模型的特征表達(dá)能力,同時(shí)也提高了模塊的兼容性。
結(jié)合1.3 節(jié)所述,本文利用CA 模塊將位置信息嵌入通道注意力中,可捕獲方向感知和位置感知的信息,改善通道注意力中位置信息缺失的問(wèn)題,幫助模型獲取更加精準(zhǔn)定位的細(xì)節(jié)信息。同時(shí)充分考慮全局特征,在CA 模塊的基礎(chǔ)上引入了全局平均池化(Global Average Pooling,GAP)來(lái)獲取全局上下文信息,在不增加計(jì)算量的情況下有效減少背景中不必要的信息,加強(qiáng)感興趣區(qū)域的特征表達(dá)。
GCA(Global Coordinate Attention)是一種新型移動(dòng)網(wǎng)絡(luò)注意力機(jī)制,它不僅僅能夠捕獲跨通道信息,還能沿兩個(gè)方向聚合特征信息,靈活且輕便,可以很容易地插入經(jīng)典網(wǎng)絡(luò)中。GCA 結(jié)構(gòu)如圖3 所示。首先,對(duì)于輸入特征圖分別沿X、Y兩個(gè)方向進(jìn)行自適應(yīng)平均池化,以提取兩個(gè)空間方向上的權(quán)重信息;隨后將垂直和水平兩個(gè)方向上的輸入特征聚合為兩個(gè)獨(dú)立的方向感知特征映射,其中一個(gè)方向用來(lái)捕獲遠(yuǎn)程依賴關(guān)系,另一個(gè)用來(lái)實(shí)現(xiàn)對(duì)目標(biāo)的精準(zhǔn)定位,每個(gè)元素都能體現(xiàn)感興趣對(duì)象是否存在于相對(duì)應(yīng)的行和列中;最后再將X、Y方向上互補(bǔ)的特征信息應(yīng)用于輸入特征圖中,防止采樣過(guò)程中的信息丟失。這種結(jié)構(gòu)雖然能幫助定位到感興趣的目標(biāo)位置,但卻沒(méi)有很好地整合全局上下文信息。因此,本文引入一個(gè)全局平均池化來(lái)獲取全局信息,增強(qiáng)模型對(duì)信道間的敏感性,并使用上采樣(upsample)來(lái)匹配輸入圖像的分辨率;然后將X、Y方向上的特征信息與CA 分支的輸出相乘,產(chǎn)生被關(guān)注特征;最后,得到的特征圖再與原特征圖相加,減少細(xì)節(jié)信息的損失,從而幫助模型更好地識(shí)別目標(biāo)。如圖3所示。在該模塊中,將X和Y兩個(gè)方向平均池化以及全局平均池化所提取的特征重新融合來(lái)增強(qiáng)特征,并使用線性整流函數(shù)(Rectified Linear Unit,ReLU)和BN 層增強(qiáng)網(wǎng)絡(luò)的非線性能力。
圖3 GCA結(jié)構(gòu)Fig.3 Structure of GCA
傳統(tǒng)NMS 算法根據(jù)置信度的大小選擇最優(yōu)的預(yù)測(cè)值,然而置信度高的邊框不一定是最適合的框。一些特殊場(chǎng)景下的數(shù)據(jù)集往往包含大量密集圖像,例如遙感圖像中由于視角的上升導(dǎo)致小目標(biāo)間的距離變小,使得傳統(tǒng)的NMS 算法通過(guò)強(qiáng)制刪除一些重疊的有效檢測(cè)框,造成檢測(cè)過(guò)程中出現(xiàn)漏檢、誤檢現(xiàn)象。因此,本文在YOLOv5 目標(biāo)檢測(cè)網(wǎng)絡(luò)中引入Soft-NMS 替代傳統(tǒng)的NMS 算法,有效提升了檢測(cè)精度。
傳統(tǒng)的NMS 刪除了重復(fù)框的同時(shí),也會(huì)誤將候選框中不同類(lèi)物體得分較低的框刪除,導(dǎo)致召回率降低。NMS 計(jì)算公式如式(1)所示:
其中:Si為NMS 的計(jì)算結(jié)果;Ti為每個(gè)檢測(cè)物體邊框的得分;iou(A,Bi)表示A與Bi的交并比。NMS 設(shè)置了一個(gè)閾值Nt來(lái)決定是否應(yīng)該從置信度最高框A的鄰域中刪除或保留一些框:如果任意框Bi與置信度最高框A沒(méi)有出現(xiàn)重疊的目標(biāo),那么在較低的檢測(cè)閾值下不會(huì)造成漏檢現(xiàn)象;但如果兩框重疊度較高,交并比大于一定的閾值Nt,則會(huì)因徹底刪除Bi而造成目標(biāo)的漏檢現(xiàn)象。與NMS 算法相比,Soft-NMS 逐步降低Bi得分而不是直接刪除,避免了由于刪除任意框而出現(xiàn)漏檢的情況,使性能得以提升,具體方法如式(2)所示:
函數(shù)(2)重新定義了邊框的得分,衰減了大于閾值Nt的檢測(cè)框分?jǐn)?shù),優(yōu)化了NMS 算法。但考慮到線性的分?jǐn)?shù)重置并不連續(xù),當(dāng)達(dá)到Nt的閾值時(shí),邊框的得分會(huì)使檢測(cè)序列突變,顯著影響檢測(cè)效果。因此Soft-NMS 提出了高斯重置函數(shù)來(lái)解決檢測(cè)序列帶來(lái)的跳變問(wèn)題,改進(jìn)方式如式(3)所示:
其中:σ為超參數(shù),D為保存經(jīng)過(guò)Soft-NMS 抑制的建議框。
針對(duì)傳統(tǒng)的NMS 算法存在目標(biāo)漏檢問(wèn)題,本文采用含高斯重置函數(shù)的Soft-NMS 算法替換原YOLOv5 中的NMS 算法,對(duì)錨框置信度進(jìn)行優(yōu)化,避免因強(qiáng)制刪除邊框而造成的目標(biāo)漏檢現(xiàn)象,可有效提高預(yù)測(cè)的精確度。
為降低小目標(biāo)的漏檢率,提升檢測(cè)精度,本文構(gòu)建了一種新型的基于注意力機(jī)制和上下文的目標(biāo)檢測(cè)算法ACYOLO。如圖4 所示,上采樣系數(shù)設(shè)置為2,Concat 為拼接操作,用于將深層和淺層維度的特征融合。假定給定一張大小為640×640 的圖像,4 次下采樣通過(guò)復(fù)合卷積模塊實(shí)現(xiàn),通過(guò)下采樣可以獲得大小為40×40、80×80、160×160 的三種特征圖用于檢測(cè),隨后對(duì)底層40×40 的特征圖進(jìn)行上采樣,分別得到80×80、160×160 的特征圖,并利用Concat 將它們與淺層網(wǎng)絡(luò)進(jìn)行同等尺寸大小的特征圖融合,增強(qiáng)多層次的語(yǔ)義信息。由于簡(jiǎn)單的下采樣可能會(huì)濾除重要信息,相較于下采樣系數(shù)為5 的原始YOLOv5 網(wǎng)絡(luò),本文采用4 倍下采樣,但同時(shí)會(huì)降低網(wǎng)絡(luò)對(duì)大目標(biāo)的特征提取能力,為此,本文在CSP1_3后采用一個(gè)MDSCM 替代下采樣。利用堆疊的空洞卷積在不改變圖片分辨率的情況下引入上下文特征信息,增大其感受野,增強(qiáng)其推理能力;并在MDSCM 中引入深度可分離卷積以降低參數(shù)量,提升檢測(cè)速度;為獲得足夠的細(xì)節(jié)特征信息,在堆疊模塊中引入了殘差連接,再由批歸一化和SiLU 激活函數(shù)作為整體輸出。為了進(jìn)一步減少背景信息,選擇聚焦位置,產(chǎn)生具有分辨率性的特征表示,在主干網(wǎng)絡(luò)引入GCA,捕獲跨通道信息,從而更好地定位到感興趣的目標(biāo)。最后,利用Soft-NMS 將兩個(gè)物體框中得分低的框削弱,解決物體的遮擋問(wèn)題,提高召回率和模型的檢測(cè)精度。
圖4 AC-YOLO網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 AC-YOLO network structure
為驗(yàn)證本文所提出的網(wǎng)絡(luò)模型的性能,引入2007 和2012 的PASCAL VOC 數(shù)據(jù)集[30]、DOTA 航拍圖像數(shù)據(jù)集[31]和DIOR 遙感數(shù)據(jù)集[32]進(jìn)行分析。PASCAL VOC 標(biāo)注的數(shù)據(jù)有20 類(lèi),包括人、鳥(niǎo)、飛機(jī)、自行車(chē)等,共有21 502 張圖像,其中測(cè)試集、訓(xùn)練集的劃分比例為1∶4。DOTA 是由武漢大學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室和華中科技大學(xué)聯(lián)合構(gòu)建的一組航拍圖像數(shù)據(jù)集,標(biāo)注的數(shù)據(jù)有15 類(lèi),包括輪船、飛機(jī)、港口等,共有21 046 張圖像,187 452 個(gè)實(shí)例,其中測(cè)試集、訓(xùn)練集的劃分比例為1∶3。DIOR 數(shù)據(jù)集是由西北工業(yè)大學(xué)提出的一種光學(xué)遙感圖像數(shù)據(jù)集,標(biāo)注的數(shù)據(jù)有20 類(lèi),圖像多樣性豐富,主要為飛機(jī)、橋梁、煙囪、風(fēng)力發(fā)電機(jī)、高爾夫球場(chǎng)等,共有23 463 張圖像,其中測(cè)試集、訓(xùn)練集的劃分比例為1∶3。為了達(dá)到對(duì)比實(shí)驗(yàn)的效果,提高模型的泛化能力,滿足對(duì)不同場(chǎng)景下多尺度目標(biāo)的檢測(cè)要求,本文所選數(shù)據(jù)集中目標(biāo)尺寸大小不一,變化程度也不同。
本文實(shí)驗(yàn)環(huán)境的配置如表1 所示。
表1 實(shí)驗(yàn)環(huán)境配置Tab.1 Experimental environment configuration
實(shí)驗(yàn)采用平均精度(Average Precision,AP)、平均精度均值(mean AP,mAP)、幀率即每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)評(píng)判目標(biāo)檢測(cè)的性能。
AP 由橫軸為召回率、縱軸為精準(zhǔn)率所構(gòu)成的P-R 曲線在一定范圍積分求得,計(jì)算公式如式(4)所示:
在目標(biāo)檢測(cè)中通常會(huì)對(duì)多目標(biāo)進(jìn)行檢測(cè),那么對(duì)多個(gè)類(lèi)別求平均AP 值,就得到了mAP 值,如式(5)所示:
FPS 是評(píng)價(jià)網(wǎng)絡(luò)檢測(cè)目標(biāo)時(shí)常用的速度指標(biāo),值越大則圖像越流暢。
在實(shí)驗(yàn)過(guò)程中均保持相同的超參數(shù),以確保實(shí)驗(yàn)的公平比較。實(shí)驗(yàn)仍采用640×640 分辨率大小的圖像作為輸入,使用與原YOLOv5 一樣的數(shù)據(jù)增強(qiáng)方法。在PASCAL VOC 2007 和2012 數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),驗(yàn)證所提模塊的有效性,結(jié)果如表2 所示。
表2 PASCAL VOC數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.2 Ablation experimental results on PASCAL VOC dataset
1)MDSCM 的有效性。為了進(jìn)一步加強(qiáng)多尺度特征信息的表達(dá)能力,本文在主干網(wǎng)絡(luò)YOLOv5 中加入了MDSCM,降低了下采樣率,保留了更多的空間細(xì)節(jié)信息。第一組實(shí)驗(yàn)對(duì)比了原YOLOv5 和YOLOv5+MDSCM 的檢測(cè)效果,由表2 可知后者的mAP 提升了0.90 個(gè)百分點(diǎn),說(shuō)明增強(qiáng)特征圖的感受野可以有效提高多尺度上下文信息的提取能力。
2)GCA 模塊的有效性。為了進(jìn)一步增強(qiáng)模型關(guān)注全局信息的能力,本文考慮了將CA 注意力模塊級(jí)聯(lián)一個(gè)全局平均池化模塊,增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。第二組實(shí)驗(yàn)對(duì)比了原YOLOv5 和YOLOv5+GCA 的檢測(cè)效果,由表2 可知后者的mAP 提升了2.30 個(gè)百分點(diǎn),這是因?yàn)樵黾幼⒁饬C(jī)制可以捕獲跨通道信息,獲取空間位置間的依賴關(guān)系,有助于模型精確地定位,并抑制無(wú)用的信息。相較于CA 模塊,GCA 模塊以獲得一個(gè)更大的感受野,最終精度達(dá)到了81.40%;同時(shí)由于沒(méi)有增加額外的計(jì)算量,F(xiàn)PS 保持不變。
3)Soft-NMS 算法的有效性。為了降低模型的漏檢率,第三組實(shí)驗(yàn)對(duì)比了原YOLOv5 和YOLOv5+Soft-NMS,由表2 可知后者的mAP 提升了0.50 個(gè)百分點(diǎn),檢測(cè)精度得到一定提升。這是由于傳統(tǒng)的NMS 刪除了重復(fù)框的同時(shí),也會(huì)誤將不同類(lèi)物體中得分較低的框刪除,造成漏檢現(xiàn)象。而Soft-NMS 算法減弱了相應(yīng)邊框的置信度,在一定程度上降低了漏檢率,有效地提升了檢測(cè)精度。
為驗(yàn)證本文提出的網(wǎng)絡(luò)結(jié)構(gòu)在不同數(shù)據(jù)集上的優(yōu)勢(shì),從推理速度和檢測(cè)精度兩方面進(jìn)行對(duì)比,結(jié)果如表3~6 所示。
表3 不同網(wǎng)絡(luò)在PASCAL VOC數(shù)據(jù)集上的性能比較Tab.3 Performance comparison of different networks on PASCAL VOC dataset
由表3 可知,在相同數(shù)據(jù)集下,本文的AC-YOLO 算法在目標(biāo)檢測(cè)任務(wù)中的mAP 達(dá)到了82.80%,與Faster-RCNN、SSD、YOLOv3、Tiny-YOLOv3、YOLOv5 算法相比,分別提升了9.48、5.14、10.46、9.52、3.70 個(gè)百分點(diǎn)。相較于原YOLOv5算法,AC-YOLO 算法雖在檢測(cè)速度上有微小下降,但是檢測(cè)精度卻得到了較大提升,遠(yuǎn)遠(yuǎn)超過(guò)大多數(shù)檢測(cè)器,說(shuō)明過(guò)大的下采樣率對(duì)小目標(biāo)的檢測(cè)并不友好。
表4 進(jìn)一步列出了部分網(wǎng)絡(luò)結(jié)構(gòu)在PASCAL VOC 數(shù)據(jù)集上的檢測(cè)精度,結(jié)果表明本文AC-YOLO 算法在20 個(gè)類(lèi)別上的檢測(cè)精度超過(guò)了對(duì)比算法,說(shuō)明融合注意力機(jī)制和上下文信息更利于多尺度有效特征的提取,有效地提升了網(wǎng)絡(luò)對(duì)各個(gè)類(lèi)別的檢測(cè)能力。圖5 展示了在PASCAL VOC 數(shù)據(jù)集上可視化的結(jié)果。
圖5 PASCAL VOC數(shù)據(jù)集上的可視化檢測(cè)效果對(duì)比Fig.5 Visual detection effect comparison on PASCAL VOC dataset
表4 PASCAL VOC數(shù)據(jù)集上不同網(wǎng)絡(luò)結(jié)構(gòu)在各類(lèi)別上的精度對(duì)比 單位:%Tab.4 Comparison of precisions under different network structures on each category of PASCAL VOC dataset unit:%
為了驗(yàn)證改進(jìn)算法在遙感圖像應(yīng)用場(chǎng)景中的檢測(cè)效果,將AC-YOLO 算法在航拍圖像數(shù)據(jù)集DOTA 上進(jìn)行實(shí)驗(yàn),結(jié)果如表5 所示。和其他一些優(yōu)秀的算法框架相比,AC-YOLO算法在DOTA 數(shù)據(jù)集上的mAP 達(dá)到了71.74%,相較于YOLOv5 算法提升了1.49 個(gè)百分點(diǎn),并在大多類(lèi)別上的檢測(cè)精度都高于其他算法。特別在Storage-tank、Helicopter、Bridge 等類(lèi)別上的檢測(cè)精度提升明顯,說(shuō)明本文算法對(duì)排列密集的小尺寸物體具有更好的檢測(cè)效果。從圖6 的可視化檢測(cè)結(jié)果也可以看出,AC-YOLO 可以檢測(cè)出原YOLOv5 中漏檢的飛機(jī)、儲(chǔ)油罐等小尺寸目標(biāo),對(duì)于排列密集的目標(biāo)的檢測(cè)精度 也高于YOLOv5;但 對(duì)Harbor、Ground-track-field、Tennis-court 等背景化的物體檢測(cè)效果不佳,可能是由于遙感檢測(cè)場(chǎng)景下目標(biāo)與背景顏色相近且目標(biāo)形狀單一而導(dǎo)致誤判,造成檢測(cè)精度較低。綜合來(lái)看,本文的目標(biāo)檢測(cè)算法表現(xiàn)更優(yōu)。
圖6 DOTA數(shù)據(jù)集上的可視化檢測(cè)效果對(duì)比Fig.6 Visual detection effect comparison on DOTA dataset
表5 DOTA數(shù)據(jù)集上不同網(wǎng)絡(luò)結(jié)構(gòu)在各類(lèi)別上的精度對(duì)比 單位:%Tab.5 Comparison of precisions under different network structures on each category of DOTA dataset unit:%
表6 DIOR數(shù)據(jù)集上不同網(wǎng)絡(luò)結(jié)構(gòu)在各類(lèi)別上的精度對(duì)比 單位:%Tab.6 Comparison of precisionsunder different network structures on each category of DIOR dataset unit:%
此外,在DIOR 光學(xué)遙感數(shù)據(jù)集中,AC-YOLO 改進(jìn)算法的mAP 達(dá)到了77.11%,平均精度提升了2.48 個(gè)百分點(diǎn),在Airplane、Vehicle、Bridge、Expressway-toll-station 等小物體的檢測(cè)精度上取得了不錯(cuò)的效果。可視化結(jié)果如圖7 所示。AC-YOLO 在復(fù)雜環(huán)境背景下的檢測(cè)精度高于YOLOv5,尤其是在檢測(cè)Airplane 時(shí),通過(guò)目標(biāo)周?chē)h(huán)境的信息來(lái)增強(qiáng)目標(biāo)特征,達(dá)到精準(zhǔn)定位,從而使檢測(cè)精度高達(dá)93.10%,遠(yuǎn)超YOLOv5,并在Vehicle 和Ship 上的檢測(cè)精度分別提升了4.50個(gè)百分點(diǎn)和6.70 個(gè)百分點(diǎn),增強(qiáng)了小目標(biāo)的語(yǔ)義信息,更好地檢測(cè)出圖中的小尺寸目標(biāo)。以上實(shí)驗(yàn)結(jié)果表明,同YOLOv5 相比,改進(jìn)算法更適用于含有大量密集排列的小目標(biāo)的遙感圖像檢測(cè)。
圖7 DIOR數(shù)據(jù)集上的可視化檢測(cè)效果對(duì)比Fig.7 Visual detection effect comparison on DIOR dataset
為有效結(jié)合上下文信息,獲取多尺度特征,本文提出了一種基于YOLOv5 的改進(jìn)算法AC-YOLO。針對(duì)原網(wǎng)絡(luò)中下采樣率過(guò)大造成小目標(biāo)信息丟失的問(wèn)題,提出MDSCM 增大感受野,增強(qiáng)多尺度信息的提取,減少有效信息的丟失;針對(duì)數(shù)據(jù)集中目標(biāo)尺寸變化劇烈的問(wèn)題,引入GCA 模塊,有效捕獲方向感知和位置感知的全局特征信息,幫助模型更精準(zhǔn)地定位,提升檢測(cè)精度;為解決目標(biāo)檢測(cè)中密集物體相鄰框造成的誤檢問(wèn)題,利用Soft-NMS 算法計(jì)算錨框的置信度,降低模型的漏檢率。實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的YOLOv5 算法在PASCAL VOC 數(shù)據(jù)集上表現(xiàn)良好,尤其對(duì)于遙感圖像中的小目標(biāo)、密集目標(biāo)等具有更好的檢測(cè)效果,并在DOTA 和DIOR兩個(gè)遙感圖像數(shù)據(jù)集上驗(yàn)證了本文模型的有效性和優(yōu)越性。之后的工作中,將繼續(xù)優(yōu)化檢測(cè)算法:一方面在保持精度的同時(shí),降低模型的參數(shù)量以提升檢測(cè)速度;另一方面,繼續(xù)提升背景化特征信息的敏感度,達(dá)到較高的檢測(cè)精度。