牛 潤,曲 毅,鄭樂輝,魏建國
1.武警工程大學(xué) 研究生大隊(duì),西安710086
2.武警工程大學(xué) 信息工程學(xué)院,西安710086
目標(biāo)檢測是識(shí)別圖像中感興趣的目標(biāo)以及確定位置,在日常生活各個(gè)領(lǐng)域中,如智能安防、自動(dòng)駕駛、工業(yè)生產(chǎn)等場景下被廣泛應(yīng)用。在實(shí)際應(yīng)用中,大量目標(biāo)由于自身大小或者距離等因素被定義為小目標(biāo)。隨著深度學(xué)習(xí)的廣泛應(yīng)用,目標(biāo)檢測的精度被不斷提升,但針對(duì)小目標(biāo)的檢測一直是難點(diǎn)。小目標(biāo)覆蓋的像素區(qū)域小、分辨率低、特征不夠明顯且表達(dá)能力弱,在當(dāng)前通過深度換精度的模型中,特征極易丟失,導(dǎo)致小目標(biāo)檢測難于常規(guī)目標(biāo)的檢測[1]。
在解決小目標(biāo)檢測方面,研究人員做了大量探索,主要包括Anchor box 優(yōu)化、引入注意力機(jī)制、特征融合、特征增強(qiáng)、改進(jìn)網(wǎng)絡(luò)、改進(jìn)損失函數(shù)等研究[2]。針對(duì)特征信息在網(wǎng)絡(luò)中易丟失的問題,人們利用特征金字塔進(jìn)行多尺度特征圖處理,Liu等[3]提出SSD網(wǎng)絡(luò),應(yīng)用特征金字塔思想,通過主干網(wǎng)絡(luò)不同層的特征圖實(shí)現(xiàn)多尺度檢測,有效利用了淺層特征信息,但不同尺度特征圖信息沒有有效結(jié)合。Lin 等[4]提出特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN),通過融合鄰近層特征圖實(shí)現(xiàn)了深層特征信息反向傳輸來增強(qiáng)淺層特征,但FPN結(jié)構(gòu)雖然增強(qiáng)了較淺特征圖的語義信息,但深層特征圖依然會(huì)失去許多位置信息,Liu 等[5]通過在FPN 上添加一條從下往上的通路,縮短了位置信息向上傳輸?shù)木嚯x,實(shí)現(xiàn)了位置信息向深層特征圖的有效傳遞。
由于小目標(biāo)所占像素過少,可直接利用的信息不豐富,研究人員通過上下文信息來強(qiáng)化模型檢測能力,F(xiàn)u等[6]在SSD模型的基礎(chǔ)上加入反卷積層獲取上下文信息,生成了一種“寬-窄-寬”的沙漏結(jié)構(gòu)。李青援[7]在SSD模型中引入一條自深向淺的遞歸反向路徑,通過特征增強(qiáng)模塊將深層包含上下文信息的語義特征增強(qiáng)到淺層。梁延禹等[8]使用特征圖的空間和通道間全局信息來增強(qiáng)淺層特征圖中小目標(biāo)的上下文信息。Yu 等[9]提出空洞卷積來擴(kuò)大感受野,Li等[10]利用空洞卷積設(shè)計(jì)了一種三叉戟網(wǎng)絡(luò)(TridentNet)以利用目標(biāo)上下文語義信息。
本文從多尺度信息融合和上下文信息的利用兩個(gè)角度出發(fā),采用HRNet[11]和HRDNet[12]能夠保留豐富小目標(biāo)特征信息的優(yōu)勢網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建一種多分辨率子網(wǎng)并行連接的特征提取網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)具有以下6個(gè)特點(diǎn):
(1)具有多分辨率網(wǎng)絡(luò)并行連接結(jié)構(gòu),并且將不同分辨率特征圖多次進(jìn)行融合,使每個(gè)分辨率特征圖都能多次接受其他分辨率特征圖的信息,可得到既包含高分辨率位置信息又包含低分辨率語義信息的輸出特征圖。
(2)縮短了高分辨率分支子網(wǎng)的深度,使其保持更加豐富的細(xì)節(jié)信息和位置信息,同時(shí)加深低分辨率分支子網(wǎng)深度,使其獲得更抽象的語義信息。
(3)使用了擴(kuò)大感受野的模塊,使得模型可以獲得豐富的目標(biāo)上下文語義信息,增強(qiáng)檢測能力。
(4)使用了融合因子來調(diào)節(jié)低分辨率特征信息到高分辨率特征信息的流通,強(qiáng)化模型對(duì)小目標(biāo)檢測的針對(duì)性。
(5)在下采樣時(shí)使用Focus 模塊實(shí)現(xiàn)不丟失信息的分辨率降低;在相鄰特征圖融合時(shí),使用亞像素卷積[13]實(shí)現(xiàn)不丟失信息的分辨率提升。
(6)采用注意力機(jī)制來進(jìn)一步提高小目標(biāo)檢測能力。
在卷積神經(jīng)網(wǎng)絡(luò)中,高分辨率的圖像包含更豐富的細(xì)節(jié)信息,對(duì)于小目標(biāo)檢測至關(guān)重要,但高分辨率特征圖也產(chǎn)生了較多的運(yùn)算量,增大了計(jì)算成本。此外,位于模型深層的低分辨率特征圖包含豐富的語義信息,可以用來提高模型對(duì)目標(biāo)的識(shí)別能力?;谝陨峡紤],Sun等[11]設(shè)計(jì)了用于關(guān)鍵點(diǎn)檢測的高分辨率網(wǎng)絡(luò)HRNet。
HRNet結(jié)構(gòu)如圖1所示,通過將不同分辨率網(wǎng)絡(luò)并行連接,將低分辨率特征圖與高分辨率特征圖進(jìn)行融合,使特征提取網(wǎng)絡(luò)可以輸出包含豐富語義信息的高分辨率特征圖。圖像經(jīng)過不同分支可以得到分辨率大小不一的特征圖,且輸入進(jìn)每一分支的特征圖都融合了前一階段所有尺度的特征圖,使得每一分支的特征圖都兼顧高分辨率與低分辨率的特征信息,保留更多小目標(biāo)特征信息。
圖1 HRNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 HRNet network structure
HRNet的核心思想在于圖像在模型中進(jìn)行處理時(shí),全程都保持了較高的分辨率,同時(shí)生成多個(gè)低分辨率的特征圖,利用其增強(qiáng)高分辨率特征圖的特征信息。
Liu等[12]同樣利用這種思想設(shè)計(jì)了針對(duì)小目標(biāo)檢測的網(wǎng)絡(luò)HRDNet,其結(jié)構(gòu)如圖2所示,首先構(gòu)建圖像金字塔,得到不同分辨率的圖像,針對(duì)高分辨率的圖像使用較淺的特征提取網(wǎng)絡(luò)處理,對(duì)低分辨率網(wǎng)絡(luò)則使用較深的網(wǎng)絡(luò),然后使用多尺度特征金字塔實(shí)現(xiàn)淺層到深層、高分辨率到低分辨率的特征信息流通,增強(qiáng)對(duì)多尺度目標(biāo)的語義表征能力。
圖2 HRDNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 HRDNet network structure
HRDNet 通過使用較淺的網(wǎng)絡(luò)處理高分辨率圖像,既可以節(jié)省計(jì)算資源,同時(shí)可以保留圖像的細(xì)節(jié)信息;用較深的網(wǎng)絡(luò)處理低分辨率圖像可以獲得特征高度凝練的語義信息。
小目標(biāo)在圖像中占用的像素少,特征信息不夠充分,一種優(yōu)化的思路是利用目標(biāo)周圍環(huán)境的信息來輔助識(shí)別,這些信息被稱作目標(biāo)上下文語義信息。通常圖像中的物體不是獨(dú)立存在,其必然與周圍環(huán)境存在一定聯(lián)系,利用好目標(biāo)的上下文語義信息可以豐富目標(biāo)特征。常用的優(yōu)化方法為利用空洞卷積擴(kuò)大神經(jīng)網(wǎng)絡(luò)的感受野,Liu 等[14]利用空洞卷積設(shè)計(jì)了RFB 模塊(receptive field block)。
RFB 模塊借鑒人類視覺的感受野結(jié)構(gòu)Receptive Fields(RFs),使用多尺寸、多離心率的空洞卷積核構(gòu)建了多分支結(jié)構(gòu)。RFB 模塊對(duì)輸入的圖像首先使用3 種不同尺寸(1×1、3×3、5×5)的普通卷積核進(jìn)行處理,然后使用不同離心率的空洞卷積得到3 個(gè)不同感受野的特征圖,將其融合可以得到特征增強(qiáng)的特征圖。RFB-s是RFB模塊的變體,通過用3×3卷積層代替5×5卷積層,用1×3和3×1卷積層代替3x3卷積層來減少計(jì)算量。
與傳統(tǒng)卷積模塊,RFB模塊較低離心率的分支得到的特征圖中,每個(gè)像素可以凝練包含部分或者目標(biāo)整體的特征信息,較高離心率的分支能夠凝練包括目標(biāo)本身與周圍環(huán)境在內(nèi)的特征信息,將多分支融合的優(yōu)勢在于:高離心率分支可以為低離心率分支擴(kuò)充上下文語義信息;低離心率分支則可以彌補(bǔ)高離心率分支卷積核擴(kuò)散造成的細(xì)節(jié)信息丟失。
Gong 等[15]指出,在應(yīng)用FPN 進(jìn)行小目標(biāo)檢測時(shí),F(xiàn)PN 中相鄰層之間的信息傳遞會(huì)給小目標(biāo)的檢測帶來負(fù)面影響,由于要檢測的目標(biāo)很小,每一層的學(xué)習(xí)能力不足,深層網(wǎng)絡(luò)難以學(xué)習(xí)到足夠有用的特征信息,不能對(duì)淺層進(jìn)行指導(dǎo),每一層更應(yīng)關(guān)注本層的學(xué)習(xí),減少對(duì)其他層的影響。因而Gong等提出特征融合因子來調(diào)整信息的流通性。
通過計(jì)算FPN 中每層特征圖捕獲的目標(biāo)正樣本數(shù)量,從而得到不同分辨率下的特征圖對(duì)小尺度目標(biāo)的“關(guān)注度”,用相鄰兩層正樣本數(shù)量的比值作為特征融合因子,在特征圖融合時(shí)使用,可以有效引導(dǎo)不同層更加關(guān)注本層目標(biāo)特征,減小其他層帶來的負(fù)面影響。計(jì)算特征融合因子的公式為:
Focus 結(jié)構(gòu)在YOLOv5 模型(UltralyticsLLC 公司于2020年5月提出的一種單階段目標(biāo)檢測網(wǎng)絡(luò))中首次出現(xiàn),如圖3(a)中所示,它將輸入的圖像進(jìn)行切片操作,減小圖像分辨率的同時(shí)同比例擴(kuò)大了通道數(shù),然后應(yīng)用普通卷積進(jìn)行特征整合,對(duì)比傳統(tǒng)下采樣方法,F(xiàn)ocus結(jié)構(gòu)有效利用了所有圖像數(shù)據(jù),沒有丟失圖像信息。亞像素卷積如圖3(b)所示,其處理圖像的方法與Focus結(jié)構(gòu)類似,首先利用普通的卷積將圖像的通道數(shù)擴(kuò)大n2倍,然后對(duì)生成的特征圖進(jìn)行尺寸重塑(reshape 操作),使其分辨率擴(kuò)大為原來的n倍、通道數(shù)保持不變,亞像素卷積區(qū)別于傳統(tǒng)的補(bǔ)零、插值的上采樣方法,擴(kuò)大分辨率用的是圖像特征信息,沒有引入無用數(shù)據(jù),實(shí)現(xiàn)了無失真的上采樣。
圖3 Focus結(jié)構(gòu)和亞像素卷積Fig.3 Focus structure and subpixel convolution
模型在處理小目標(biāo)圖像時(shí)會(huì)混入大量不包含目標(biāo)信息的“無意義”區(qū)域,這些信息會(huì)對(duì)有效目標(biāo)的特征提取造成影響,研究人員提出了注意力機(jī)制來引導(dǎo)模型關(guān)注目標(biāo)區(qū)域,提高特征提取能力。注意力機(jī)制借鑒了人類視覺特有的腦信號(hào)處理機(jī)制,在人眼視覺神經(jīng)掃描圖像時(shí)會(huì)產(chǎn)生注意力焦點(diǎn),重點(diǎn)關(guān)注某幾個(gè)關(guān)鍵區(qū)域以排除無關(guān)信息的干擾,提高對(duì)信息處理的精度和效率。
神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制是一種即插即用的可學(xué)習(xí)模塊,工作原理是對(duì)特征圖張量中的數(shù)值分配權(quán)重系數(shù),強(qiáng)化重點(diǎn)區(qū)域的信息。注意力機(jī)制主要包括通道注意力機(jī)制和空間注意力機(jī)制,通道注意力機(jī)制是對(duì)特征圖的通道維度進(jìn)行權(quán)重分配,動(dòng)態(tài)強(qiáng)化各通道的特征,代表模型是SENet[16];空間注意力機(jī)制在空間維度上進(jìn)行權(quán)重分配,學(xué)習(xí)圖像上不同位置的依賴關(guān)系,動(dòng)態(tài)強(qiáng)化空間維度的特征,代表模型有SAM[17]等;還有結(jié)合兩種機(jī)制的結(jié)構(gòu)如BAM[18]、CBAM[19]等。自注意力機(jī)制是從自然語言處理領(lǐng)域發(fā)展而來的注意力機(jī)制的分支,它不依賴外部信息的引導(dǎo),依靠自身輸入建立全局依賴關(guān)系生成權(quán)重系數(shù),常用的是transformer[20]模塊,代表模型有ViT[21]、DETR[22]等。
為了有效整合高分辨率淺層特征信息與低分辨率深層特征信息,本文基于HRNet和HRDNet設(shè)計(jì)了一種多分辨率子網(wǎng)并行連接的網(wǎng)絡(luò)結(jié)構(gòu)。該模型結(jié)構(gòu)如圖4所示,首先對(duì)輸入的圖片應(yīng)用Focus結(jié)構(gòu)進(jìn)行處理,通過對(duì)圖像進(jìn)行切片和卷積,實(shí)現(xiàn)不丟失圖像信息的尺寸縮減,構(gòu)建輸入圖像金字塔;將不同尺寸的特征圖輸入到不同深度的網(wǎng)絡(luò)分支中提取特征,各網(wǎng)絡(luò)分支使用不同數(shù)量的RFB 模塊搭建,將尺寸縮小1/4、1/8 和1/16 的特征圖分別輸入到包含1 個(gè)、2 個(gè)和3 個(gè)RFB 模塊的分支中,低深度分支只處理大分辨率特征圖,高深度分支只處理小分辨率特征圖,三個(gè)分支并行連接同步運(yùn)行,在三個(gè)分支中間位置進(jìn)行兩次多尺度特征圖融合,充分結(jié)合高分辨率淺層定位信息和低分辨率深層語義信息。所提的網(wǎng)絡(luò)結(jié)構(gòu)命名為PHRNet(parallel high-resolution net)。
圖4 本文所設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure designed in this paper
將三個(gè)分支輸出的三個(gè)不同分辨率大小的特征圖傳入多尺度特征融合結(jié)構(gòu)進(jìn)行信息融合。本文結(jié)合在現(xiàn)有的多尺度特征融合網(wǎng)絡(luò)FPN和PAN的基礎(chǔ)上進(jìn)行改進(jìn),構(gòu)建了對(duì)小目標(biāo)檢測針對(duì)性的網(wǎng)絡(luò)結(jié)構(gòu)。本文設(shè)計(jì)的結(jié)構(gòu)如圖5所示。
圖5 多尺度特征融合結(jié)構(gòu)Fig.5 Multi-scale feature fusion structure
為了加強(qiáng)定位信息的流通,在FPN 結(jié)構(gòu)后補(bǔ)充了PAN 結(jié)構(gòu),在對(duì)低分辨率特征圖進(jìn)行上采樣時(shí),使用了亞像素卷積對(duì)原特征圖擴(kuò)充通道再重組為更高分辨率的特征圖,以此實(shí)現(xiàn)不丟失信息的尺寸放大。在對(duì)特征圖上采樣和下采樣時(shí)應(yīng)用特征融合因子來調(diào)整信息的流通,引導(dǎo)模型更加關(guān)注小目標(biāo)。
本文所提模型采用了輕量級(jí)注意力機(jī)制CBAM(convolutional block attention module)模塊,插入到指定RFB模塊后。CBAM模塊結(jié)合了空間注意力機(jī)制和通道注意力機(jī)制,從空間和通道兩個(gè)維度上強(qiáng)化特征圖中的目標(biāo)信息,引導(dǎo)模型增強(qiáng)對(duì)關(guān)鍵信息的注意力。CBAM模塊結(jié)構(gòu)如圖6所示。
圖6 CBAM注意力機(jī)制結(jié)構(gòu)Fig.6 Structure of CBAM attention mechanism
通道注意力機(jī)制的工作流程為:特征圖輸入后分別進(jìn)行全局最大池化和全局平均池化,經(jīng)過兩層共用的全連接層后相加輸出通道權(quán)重。空間注意力機(jī)制的工作流程為:對(duì)特征圖進(jìn)行通道維度的最大池化和平均池化,輸出結(jié)果拼接后經(jīng)過一次卷積得到空間維度權(quán)重。
為了進(jìn)一步提高模型對(duì)小目標(biāo)的檢測能力,在模型中加入了自注意力機(jī)制transformer模塊,其核心機(jī)制是全局關(guān)聯(lián)的建立,公式為:
式中,Q代表Query向量,K代表Key向量,V代表Value向量,它們是通過對(duì)展平分割后的特征圖進(jìn)行全連接操作得到的,以四維張量的形式表現(xiàn)。dk表示向量的長度,存在的目的是使得訓(xùn)練過程中具有更穩(wěn)定的梯度。因此在進(jìn)行向量運(yùn)算時(shí),特征圖中的每個(gè)像素都參與了與其他所有像素的計(jì)算,所以transformer模塊可以構(gòu)建全局的關(guān)聯(lián),具有很強(qiáng)的通用建模能力,可以用來獲取更豐富的特征信息,但因其較大的參數(shù)量和運(yùn)算量不利于后期的優(yōu)化部署,本模型僅在處理低分辨率的分支網(wǎng)絡(luò)中使用,加入的位置為第3、6、9個(gè)RFB模塊后。加入注意力機(jī)制后的模型命名為PHRNet-A,結(jié)構(gòu)如圖4所示。
數(shù)據(jù)集:本文選擇用于航空?qǐng)D像中微小物體檢測的數(shù)據(jù)集AI-TOD[23]作為模型訓(xùn)練和檢測的基準(zhǔn)數(shù)據(jù)集,具有車輛、船只等8 個(gè)種類,包含28 036 張圖片共計(jì)70 0621 個(gè)檢測實(shí)例。AI-TOD 數(shù)據(jù)集目標(biāo)實(shí)際大小只有平均12.8 個(gè)像素,遠(yuǎn)小于其他數(shù)據(jù)集,適合本論文的研究。
評(píng)價(jià)指標(biāo):本文采用平均精度值(average precision,AP)作為評(píng)價(jià)指標(biāo),包括mAP、AP50、AP75、APs和APm。AP50表示目標(biāo)真實(shí)框和模型預(yù)測框交并比(IOU)閾值為0.5 時(shí)的平均精度值,AP75為0.75,mAP 表示交并比閾值從0.5到0.95之間等間距取10個(gè)值,并計(jì)算這10個(gè)閾值下AP的均值;APs表示檢測目標(biāo)所占像素小于322個(gè)像素,APm表示檢測目標(biāo)所占像素在322到962之間。
本文實(shí)驗(yàn)所用配置環(huán)境如表1所示。
表1 實(shí)驗(yàn)環(huán)境配置Table 1 Experimental environment configuration
實(shí)驗(yàn)參數(shù)設(shè)置如下:使用AI-TOD 數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和測試,輸入圖片大小縮放為416×416,使用雙顯卡并行訓(xùn)練,每個(gè)顯卡的batchsize設(shè)置為8;實(shí)驗(yàn)采用隨機(jī)梯度下降算法(stochastic gradient descent,SGD),學(xué)習(xí)率初始值設(shè)為0.1,采用余弦退火算法調(diào)整學(xué)習(xí)率,共訓(xùn)練350 個(gè)epochs,在訓(xùn)練前對(duì)圖像進(jìn)行翻轉(zhuǎn)裁剪等數(shù)據(jù)增強(qiáng)操作,對(duì)不同模型采用相同參數(shù)設(shè)置,對(duì)比實(shí)驗(yàn)結(jié)果并分析。
3.3.1 不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比實(shí)驗(yàn)
為了驗(yàn)證所提網(wǎng)絡(luò)結(jié)構(gòu)的性能,將所提特征提取網(wǎng)絡(luò)結(jié)構(gòu)與當(dāng)前常用的相近深度的特征提取網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比,針對(duì)不同特征提取網(wǎng)絡(luò),使用相同的數(shù)據(jù)增強(qiáng)方法,在特征提取網(wǎng)絡(luò)后應(yīng)用FPN結(jié)構(gòu),檢測頭和損失函數(shù)都采用Generalized Focal Loss[24],實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同特征提取網(wǎng)絡(luò)在AI-TOD數(shù)據(jù)集性能對(duì)比Table 2 Performance comparison of different feature extraction networks in AI-TOD dataset %
由表2可知,所提的網(wǎng)絡(luò)結(jié)構(gòu)相較常用的其他模型效果最好,mAP 達(dá)到了8.3%。ResNeXt-50 網(wǎng)絡(luò)具有較高的寬度,DLA-34實(shí)現(xiàn)了淺層信息與深層信息的融合,因而這兩個(gè)模型較為出眾,mAP 分別為7.5%和7.2%。本文所提PHRNet兼具以上兩個(gè)特點(diǎn),mAP值比DLA-34高1.1個(gè)百分點(diǎn),比ResNeXt-50高0.8個(gè)百分點(diǎn),其他指標(biāo)表現(xiàn)也十分優(yōu)異,但在中等目標(biāo)的檢測指標(biāo)APm上的表現(xiàn)有所欠缺,僅為20.6%。經(jīng)分析發(fā)現(xiàn)特征融合因子的使用,使模型被訓(xùn)練的更加關(guān)注小目標(biāo)而忽視中等目標(biāo)。實(shí)驗(yàn)結(jié)果的對(duì)比分析表明,本文所提PHRNet 網(wǎng)絡(luò)結(jié)構(gòu)在小目標(biāo)檢測任務(wù)中的表現(xiàn)優(yōu)于當(dāng)前主流的特征提取網(wǎng)絡(luò),具有良好的特征提取性能,還可以根據(jù)實(shí)際應(yīng)用場景的不同調(diào)整特征融合因子以適應(yīng)不同尺度目標(biāo)的檢測。
3.3.2 不同尺度分支輸出特性對(duì)比
為了進(jìn)一步優(yōu)化模型檢測能力,通過設(shè)置消融實(shí)驗(yàn),探究不同尺度分支輸出的特征圖對(duì)檢測結(jié)果的影響。實(shí)驗(yàn)方法為:使用AI-TOD數(shù)據(jù)集作為驗(yàn)證集進(jìn)行測試,每次只保留一個(gè)或兩個(gè)分支輸出,其余設(shè)為0,假設(shè)尺寸縮小1/4的輸出特征圖為F1、縮小1/8為F2、縮小1/16為F3,消融實(shí)驗(yàn)對(duì)比結(jié)果如表3所示。
表3 消融實(shí)驗(yàn)結(jié)果分析Table 3 Analysis of ablation experiment results %
從實(shí)驗(yàn)結(jié)果可以看出,低分辨率分支的輸出特征圖對(duì)最終檢測結(jié)果的貢獻(xiàn)很小,在將特征圖F3設(shè)為0后檢測精度僅下降了0.3個(gè)百分點(diǎn),而F1特征圖和F3特征圖同時(shí)輸出的結(jié)果也僅比F1單一輸出高了0.2個(gè)百分點(diǎn),可見模型對(duì)小目標(biāo)的檢測能力主要來自高分辨率分支。通過實(shí)驗(yàn)為模型的進(jìn)一步優(yōu)化給出了思路:可以通過減少高分辨率分支的參數(shù)量,以最小的精度代價(jià)換取檢測速度的提升。
3.3.3 多尺度特征融合結(jié)構(gòu)驗(yàn)證實(shí)驗(yàn)
為了驗(yàn)證本文所提改進(jìn)的多尺度特征融合結(jié)構(gòu)的有效性,通過在原FPN+PAN 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上逐步添加亞像素卷積和特征融合因子來進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4。
表4 多尺度特征融合結(jié)構(gòu)消融實(shí)驗(yàn)Table 4 Multi-scale feature fusion structural ablation experiment
通過實(shí)驗(yàn)對(duì)比可以看出,改進(jìn)后的多尺度特征融合結(jié)構(gòu)比原結(jié)構(gòu)表現(xiàn)更優(yōu),使用亞像素卷積后平均檢測精度上升0.2個(gè)百分點(diǎn),使用特征融合因子后精度上升0.9個(gè)百分點(diǎn),實(shí)驗(yàn)結(jié)果證明了所提新結(jié)構(gòu)的有效性。
3.3.4 注意力機(jī)制相關(guān)實(shí)驗(yàn)
本文通過加入注意力機(jī)制強(qiáng)化模型對(duì)小目標(biāo)的“關(guān)注度”,通過將不同注意力模塊加入網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證本文方法的有效性,消融實(shí)驗(yàn)結(jié)果如表5所示。
表5 注意力模塊消融實(shí)驗(yàn)Table 5 Attention module ablation experiment
實(shí)驗(yàn)結(jié)果表明,BAM 和CBAM 作為兼具通道維度操作和空間維度操作的注意力模塊,性能要優(yōu)于單一維度操作的模塊;CBAM 的表現(xiàn)最好,mAP 達(dá)到了9.0%,在加入自注意力機(jī)制后mAP達(dá)到最高10.3%,驗(yàn)證了本文所用方法的有效性。
實(shí)驗(yàn)結(jié)果證明了自注意力機(jī)制Transformer 的應(yīng)用可以進(jìn)一步提升模型對(duì)小目標(biāo)的特征提取能力。
3.3.5 可視化結(jié)果
為了更直觀地驗(yàn)證本文所提模型的有效性,以未加入注意力機(jī)制的PHRNet 為特征提取網(wǎng)絡(luò)的模型與CspDarknet53、ResNet-50、Rep-VGG、ResNeXt-50和DLA-34模型對(duì)比,檢測一張包含密集小目標(biāo)航拍圖,圖7 為模型對(duì)比的可視化結(jié)果。
圖7 可視化結(jié)果對(duì)比Fig.7 Visual result comparison
從圖中可以看出,本文所提模型相較其他常用模型對(duì)小目標(biāo)的檢測能力更強(qiáng),可以檢測出更多的小型目標(biāo)。
為進(jìn)一步驗(yàn)證本文所提模型的可應(yīng)用價(jià)值,將所提的PHRNet-A 特征提取網(wǎng)絡(luò)替換到不同的主流目標(biāo)檢測模型中進(jìn)行測試,得到結(jié)果如表6。
表6 所提網(wǎng)絡(luò)應(yīng)用實(shí)驗(yàn)Table 6 Proposed network application experiment
對(duì)比結(jié)果表明,本文所提并行高分辨率特征提取網(wǎng)絡(luò)能夠適用于不同種類的目標(biāo)檢測模型中,提高對(duì)小目標(biāo)的檢測能力。
針對(duì)小目標(biāo)檢測信息丟失、定位不準(zhǔn)等問題,本文在參考經(jīng)典高分辨率網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)了高分辨、多尺度并行的網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取網(wǎng)絡(luò),實(shí)現(xiàn)了淺層與深層、多尺度的特征融合,擴(kuò)寬了網(wǎng)絡(luò)結(jié)構(gòu),增強(qiáng)了小目標(biāo)信息的流通,強(qiáng)化對(duì)小目標(biāo)的特征提取能力。通過引入特征融合因子和注意力機(jī)制,引導(dǎo)模型更加關(guān)注小目標(biāo),進(jìn)一步提高對(duì)小目標(biāo)的檢測能力。
在小目標(biāo)數(shù)據(jù)集AI-TOD 上的平均檢測精度為10.4%,高于其他主流的特征提取網(wǎng)絡(luò),更好地解決了小目標(biāo)檢測困難的問題,可應(yīng)用于各類目標(biāo)檢測模型替換原有的特征提取網(wǎng)絡(luò),適應(yīng)小目標(biāo)檢測任務(wù)。
本文在實(shí)驗(yàn)中探究了多尺度分支對(duì)檢測結(jié)果的影響,為模型進(jìn)一步優(yōu)化提供了思路,在未來的工作中,將以本文探究成果為指導(dǎo)對(duì)模型進(jìn)行剪枝、壓縮等操作,實(shí)現(xiàn)模型輕量化處理,提高檢測速度和占用的參數(shù)量,使模型更易于在移動(dòng)端部署。