黃 強(qiáng),潘 晴,田妮莉
(廣東工業(yè)大學(xué)信息工程學(xué)院,廣東 廣州 510006)
目標(biāo)檢測是計(jì)算機(jī)視覺的基本問題,可以應(yīng)用在現(xiàn)代社會(huì)的許多場景中,如視頻監(jiān)控[1],自動(dòng)駕駛[2],遙感圖像檢測[3]等。近年來,隨著深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測領(lǐng)域涌現(xiàn)了許多優(yōu)秀算法,可大致分為兩階段目標(biāo)檢測網(wǎng)絡(luò)[4-6]和單階段目標(biāo)檢測網(wǎng)絡(luò)[7-9],而無論是兩階段還是單階段檢測網(wǎng)絡(luò),都面臨著一個(gè)共同的挑戰(zhàn),即在不同尺度上識別目標(biāo),由此,特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,FPN)[10]應(yīng)運(yùn)而生,其通過一種自上而下的路徑和橫向連接的方式構(gòu)建特征圖金字塔,結(jié)合了低分辨率、強(qiáng)語義的特征和高分辨率、弱語義的特征,使得所有等級的特征圖都包含豐富的語義信息,從而改善對不同尺度目標(biāo)的檢測效果。但FPN對相鄰等級的特征圖只是簡單地通過最近鄰插值法縮放到相同的尺度然后進(jìn)行相加融合,沒有考慮不同等級的特征圖之間存在的語義差異,導(dǎo)致融合時(shí)會(huì)產(chǎn)生冗余甚至錯(cuò)誤的信息,容易引發(fā)混疊效應(yīng)使得檢測效果不佳;另一方面,FPN采用的自上而下的漸進(jìn)式融合結(jié)構(gòu)會(huì)使得包含目標(biāo)空間結(jié)構(gòu)細(xì)節(jié)的低級特征信息只能局限在最后一個(gè)融合階段被訪問,而包含完整目標(biāo)上下文信息的高級語義信息被逐漸傳輸?shù)捷^淺的層從而被稀釋。對此,Liu等[11]提出了PAFPN,在FPN中添加了自下而上的融合路徑,有效緩解了高級語義信息被稀釋與低級空間結(jié)構(gòu)信息局限訪問的問題,但兩次的漸進(jìn)式融合結(jié)構(gòu)將引發(fā)更嚴(yán)重的混疊效應(yīng);Guo等[12]提出AugFPN,其為降低不同尺度之間的語義差異提出一致監(jiān)督(Consistent Supervision,CS),為不同尺度的特征融合中降低信息損失提出殘差特征增強(qiáng)(Residual Feature Augmentation,RFA)以及為更好地從圖像金字塔中提取感興趣區(qū)域的特征用于分類提出了軟感興趣區(qū)域選擇(Soft Region of Interest Selection,SRoIS),從而補(bǔ)償融合過程中產(chǎn)生的各種信息缺失;此外,Pang等[13]提出Balanced FPN,將所有等級的特征圖縮放到中間等級特征圖的大小相加取平均,并引入了一種注意力模塊對融合特征進(jìn)行細(xì)化,可以綜合性地平衡各等級特征圖上的各類特征信息,但沒有針對性地考慮各級特征圖上的特征信息。
注意力模塊是一種對特征圖加權(quán)進(jìn)而引導(dǎo)模型“看向”圖像的重點(diǎn)區(qū)域的方法,只需要簡單插入到模型中,就能使模型提取到更具有鑒別性的特征,已被證明在各種計(jì)算機(jī)視覺任務(wù)具有極大的助力作用[14-18]。例如,最為經(jīng)典的SENet[14]通過對輸入特征圖進(jìn)行擠壓和激勵(lì)操作生成通道級的權(quán)重,然后賦給輸入特征圖實(shí)現(xiàn)加權(quán),從而建立通道維度之間的相互依賴關(guān)系。而后的工作,如NLNet[15],CBAM[16],GCNet[17]等陸續(xù)通過引入空間注意機(jī)制進(jìn)行了進(jìn)一步的擴(kuò)展。
本文借鑒了注意力模塊的思想,提出一種新的位置加權(quán)特征金字塔網(wǎng)絡(luò)(Position-Weighted Feature Pyramid Network,PWFPN),首先通過位置加權(quán)模塊(Position-Weighted Module,PWM)從不同等級的特征圖的所有通道中學(xué)習(xí)得到對各等級特征圖既具有針對性又具有綜合性的位置權(quán)重,然后將位置權(quán)重賦給相應(yīng)的特征圖,實(shí)現(xiàn)對特征圖每個(gè)位置的加權(quán),以改善混疊效應(yīng)和高級語義信息被稀釋、低級空間信息局限訪問的問題;然后引入了金字塔池化模塊(Pyramid Pooling Module,PPM)[19],通過將特征圖劃分為不同大小的子區(qū)域進(jìn)行池化以提取多尺度特征,與位置加權(quán)模塊相結(jié)合加強(qiáng)特征金字塔各等級特征圖的特征的表征能力。最后的實(shí)驗(yàn)驗(yàn)證了位置加權(quán)特征金字塔網(wǎng)絡(luò)的先進(jìn)性以及對不同類型的目標(biāo)檢測網(wǎng)絡(luò)的實(shí)用性。
本文在傳統(tǒng)特征金字塔網(wǎng)絡(luò)的基礎(chǔ)上添加了兩個(gè)模塊,分別為位置加權(quán)特征金字塔模塊和金字塔池化化模塊,如圖1所示。使用金字塔池化模塊對最高等級特征圖C5進(jìn)行處理以生成多尺度特征,使用位置加權(quán)特征模塊對所有等級的特征圖進(jìn)行位置加權(quán)以引導(dǎo)特征金字塔網(wǎng)絡(luò)的漸進(jìn)式融合。
圖1 位置加權(quán)特征金字塔網(wǎng)絡(luò)概覽
(1)
(2)
由于包含特征圖不同大小區(qū)域的上下文信息的多尺度特征有助于模型區(qū)分不同的類別[19-22],本文引入了金字塔池化模塊對輸入特征金字塔網(wǎng)絡(luò)的最高等級的特征圖C5進(jìn)行處理,如圖2所示。首先將C5劃分為不同大小的子區(qū)域,生成不同位置的池化表示,不同金字塔級別的輸出對應(yīng)著不同大小的特征圖;然后分別輸入1×1卷積層以減少各特征圖的通道數(shù),再通過最近鄰插值法將各等級特征圖上采樣為C5大小;最后將所生成的不同級別的特征圖與輸入的特征圖C5進(jìn)行拼接,得到最終的金字塔池化輸出特征圖。
圖2 金字塔池化模塊
所有實(shí)驗(yàn)均在硬件配置為CPU(Inter Xeon)、單張GPU(NVIDIA TITAN XP) 、主板 (超微X10DRG-Q)、內(nèi)存(鎂光 256G);軟件配置為Ubuntu操作系統(tǒng)、CUDA、Anaconda、Pytorch等的服務(wù)器上完成。所有模型的訓(xùn)練與評估在PASCAL VOC2007[23]與PASCAL VOC2012上完成。訓(xùn)練時(shí),統(tǒng)一采用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD),訓(xùn)練批次大小設(shè)置為4,初始學(xué)習(xí)率設(shè)置為0.0025,權(quán)重衰減設(shè)置為0.0001,動(dòng)量設(shè)置為0.9。
3.2.1 實(shí)驗(yàn)對比
實(shí)驗(yàn)使用Faster RCNN[6]和 RetinaNet[7]兩種不同類型的目標(biāo)檢測網(wǎng)絡(luò)分別與不同類型的特征金字塔網(wǎng)絡(luò)相結(jié)合進(jìn)行實(shí)驗(yàn)對比。其中,用于特征提取的骨干網(wǎng)絡(luò)統(tǒng)一選用在ImageNet[24]上預(yù)訓(xùn)練的ResNet-50[25]。為了更好的分析實(shí)驗(yàn)結(jié)果,評價(jià)指標(biāo)采用COCO數(shù)據(jù)集的評價(jià)指標(biāo)[26],實(shí)驗(yàn)結(jié)果如表1所示。由于PWFPN中的位置加權(quán)模塊所生成的位置權(quán)重來源于輸入FPN中的各等級特征圖,又考慮了同一位置在所有等級特征圖的所有通道的特征信息,因此既具有針對性又具有綜合性,其能夠?qū)ψ陨隙碌臐u進(jìn)式融合過程起到引導(dǎo)作用,使得各等級特征圖上的低級空間信息和高級語義信息更加均衡,從而提升網(wǎng)絡(luò)的檢測精度。其中,對于單階段目標(biāo)檢測網(wǎng)絡(luò)RetinaNet,檢測精度增長了1.2AP,對于兩階段檢測網(wǎng)絡(luò)Faster RCNN,檢測精度提升了1.1AP。同時(shí),可以發(fā)現(xiàn)在RetinaNet中,PWFPN對小目標(biāo)檢測有著顯著的提升效果,其檢測精度增長了5.4AP。這證明了本文所提出的位置加權(quán)特征金字塔網(wǎng)絡(luò)的實(shí)用性,能夠?qū)Σ煌愋偷臋z測網(wǎng)絡(luò)的識別效果進(jìn)行有效提升。
表1 與最新方法的實(shí)驗(yàn)結(jié)果對比
另外,與最先進(jìn)的方法相比,在RetinaNet中,PWFPN相較于PAFPN、Balanced FPN、AugFPN分別增長了1.0AP、1.1AP、1.1AP,在Faster RCNN中,PWFPN相比AugFPN增長了1.0AP,與PAFPN、Balanced FPN效果相當(dāng)。這證明了本文所提出的位置加權(quán)特征金字塔網(wǎng)絡(luò)的先進(jìn)性。
3.2.2 各模塊性能分析
本節(jié)分析了位置加權(quán)特征金字塔網(wǎng)絡(luò)的各個(gè)模塊的性能,如表2所示。其中Baseline是以ResNet-50為特征提取器的RetinaNet,使用傳統(tǒng)的特征金字塔網(wǎng)絡(luò)。通過表中數(shù)據(jù)可以看出,當(dāng)傳統(tǒng)的特征金字塔網(wǎng)絡(luò)添加了位置加權(quán)模塊后,檢測精度總體增長了0.7AP。對于真實(shí)框和預(yù)測框之間的交并比(Intersection Over Union,IOU)為50的指標(biāo),檢測精度提升了0.5AP,而對于定位要求更為嚴(yán)苛的指標(biāo)AP75,檢測精度增長了0.9AP;對于不同尺度的目標(biāo),大目標(biāo)的檢測精度提升了1.0AP,小目標(biāo)的檢測效果較好,提升了3.7AP。這說明位置加權(quán)模塊能夠有效解決融合過程中的高級語義信息被稀釋與低級空間信息局限訪問的問題。金字塔池化模塊對FPN的主要改善之處在于小目標(biāo)檢測,增長了4.5AP,但對于其它類型的目標(biāo),檢測效果有一定的降低,這是因?yàn)閭鹘y(tǒng)特征金字塔網(wǎng)絡(luò)的融合方式?jīng)]有對所提取的多尺度特征進(jìn)行有效的引導(dǎo)利用,導(dǎo)致嚴(yán)重的混疊效應(yīng)使得檢測效果不佳。當(dāng)同時(shí)添加位置加權(quán)模塊與金字塔池化模塊構(gòu)成本文的位置加權(quán)特征金字塔網(wǎng)絡(luò)后,可以看到AP50、AP75分別提升了1.6AP,0.8AP,小中大目標(biāo)的檢測精度分別提升了5.4AP,0.6AP,1.3AP。這說明本文提出的位置加權(quán)特征金字塔網(wǎng)絡(luò)相比傳統(tǒng)特征金字塔網(wǎng)絡(luò)能有效地利用金字塔池化模塊所提取的多尺度特征,再一次證明了位置加權(quán)模塊所生成的位置權(quán)重的引導(dǎo)效果,可以有效解決傳統(tǒng)特征金字塔網(wǎng)絡(luò)的融合方式所引發(fā)的問題,從而使得檢測網(wǎng)絡(luò)能夠更準(zhǔn)確地識別不同尺度的目標(biāo)。圖3顯示了與PWFPN相結(jié)合的RetinaNet在測試集上的部分結(jié)果。
表2 各模塊性能對比
圖3 與位置加權(quán)特征金字塔網(wǎng)絡(luò)相結(jié)合的RetinaNet在測試集上的部分檢測結(jié)果
本文提出一種新的位置加權(quán)特征金字塔網(wǎng)絡(luò)用于目標(biāo)檢測。所包含的位置加權(quán)模塊從不同等級的特征圖的所有通道中為每個(gè)等級的特征圖學(xué)習(xí)得到相應(yīng)的位置權(quán)重以對融合過程進(jìn)行引導(dǎo),從而解決混疊效應(yīng)與高級語義信息被稀釋以及低級空間信息局限訪問的問題;所包含的金字塔池化模塊能夠提取包含特征圖不同大小區(qū)域的上下文信息的多尺度特征,與位置加權(quán)模塊相結(jié)合可以生成更具有鑒別性的特征。實(shí)驗(yàn)表明,所提出的位置加權(quán)特征金字塔網(wǎng)絡(luò)能夠提升不同類型的檢測網(wǎng)絡(luò)對不同尺度的目標(biāo)的識別效果,尤其是單階段目標(biāo)檢測網(wǎng)絡(luò)對于小目標(biāo)的檢測。