楊治佩,丁勝,張莉,張新宇
無(wú)錨點(diǎn)的遙感圖像任意角度密集目標(biāo)檢測(cè)方法
楊治佩1,2,3,丁勝1,2,張莉3*,張新宇1,2
(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430065; 2.智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室(武漢科技大學(xué)),武漢 430065; 3.武漢晴川學(xué)院 計(jì)算機(jī)學(xué)院,武漢 430204)(*通信作者電子郵箱zhangly02@qq.com)
針對(duì)基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測(cè)方法密集目標(biāo)漏檢率高、分類不準(zhǔn)確的問(wèn)題,建立了一種基于深度學(xué)習(xí)的無(wú)錨點(diǎn)的遙感圖像任意角度的密集目標(biāo)檢測(cè)方法。首先采用CenterNet作為基線模型,經(jīng)過(guò)主干網(wǎng)絡(luò)提取特征,并改造原有檢測(cè)器結(jié)構(gòu),即加入角度回歸分支進(jìn)行目標(biāo)角度回歸;然后提出一種基于非對(duì)稱卷積的特征增強(qiáng)模塊,并將主干網(wǎng)絡(luò)提取到的特征圖輸入特征增強(qiáng)模塊,從而增強(qiáng)目標(biāo)的旋轉(zhuǎn)不變性特征,消除由于目標(biāo)的旋轉(zhuǎn)、翻轉(zhuǎn)帶來(lái)的影響,進(jìn)一步提升目標(biāo)中心點(diǎn)、尺寸信息的回歸精度。采用HourGlass-101作為主干網(wǎng)絡(luò)時(shí),該方法在DOTA數(shù)據(jù)集上的平均精度均值(mAP)比旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(RRPN)提升了7.80個(gè)百分點(diǎn),每秒處理幀數(shù)(FPS)提升了7.5;在自建數(shù)據(jù)集Ship3上,該方法的mAP比RRPN提升了8.68個(gè)百分點(diǎn),F(xiàn)PS提升了6.5。結(jié)果表明,所提方法能獲得檢測(cè)精度和速度的平衡。
深度學(xué)習(xí);遙感圖像;目標(biāo)檢測(cè);非對(duì)稱卷積;無(wú)錨點(diǎn)目標(biāo)檢測(cè)
遙感圖像檢測(cè)問(wèn)題是計(jì)算機(jī)視覺(jué)[1]和模式識(shí)別[2]領(lǐng)域的熱門話題,在軍用與民用領(lǐng)域都有著廣泛的應(yīng)用前景。近年來(lái),基于深度學(xué)習(xí)的目標(biāo)檢測(cè)[3-4]方法愈加廣泛地應(yīng)用于該領(lǐng)域,為國(guó)防、海事、自然資源管理等領(lǐng)域提供了新的解決方案,能提升資源利用率,加強(qiáng)國(guó)防預(yù)警能力。
目標(biāo)檢測(cè)方法按照預(yù)測(cè)框生成的方式可以分為基于錨點(diǎn)的目標(biāo)檢測(cè)方法[3]和無(wú)錨點(diǎn)(anchor-free)的目標(biāo)檢測(cè)[4]方法。
基于錨點(diǎn)的目標(biāo)檢測(cè)方法以許多不同大小比例的錨框(Anchor Box)作為物體定位的參考點(diǎn),在此基礎(chǔ)上生成候選框,檢測(cè)精度一定程度上取決于錨框設(shè)計(jì)的好壞程度?;阱^點(diǎn)的方法根據(jù)分類回歸方法可以分為單階段檢測(cè)方法[5]和兩階段檢測(cè)方法[6]:兩階段檢測(cè)方法首先通過(guò)區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network, RPN)[7]生成區(qū)域候選框,然后對(duì)其進(jìn)行進(jìn)一步的分類和回歸操作,典型的方法有Fast R-CNN(Fast Region-based Convolutional Neural Network)[8]、Faster R-CNN(RPN+Fast R-CNN)[9]以及加入分割任務(wù)的Mask R-CNN(FCN+Faster R-CNN)[10];單階段檢測(cè)方法則跳過(guò)區(qū)域建議階段,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)生成特征圖一次性得到最終的定位和分類預(yù)測(cè),典型的方法有單階多層檢測(cè)器(Single Shot multibox Detector, SSD)[11]和YOLO(You Only Look Once)系列[12-14]方法。
通常認(rèn)為兩階段方法相當(dāng)于對(duì)目標(biāo)做了兩次位置預(yù)測(cè),具有更高的精度但速度較慢,而單階段方法速度較快但精度略顯遜色。
無(wú)錨點(diǎn)的檢測(cè)方法可以分為錨點(diǎn)預(yù)測(cè)算法[15]和關(guān)鍵點(diǎn)預(yù)測(cè)算法[3]:錨點(diǎn)預(yù)測(cè)算法是通過(guò)預(yù)測(cè)目標(biāo)的中心點(diǎn)位置及邊框與中心點(diǎn)的距離或目標(biāo)尺寸(寬和高)來(lái)得到預(yù)測(cè)框;而關(guān)鍵點(diǎn)預(yù)測(cè)算法則是通過(guò)檢測(cè)目標(biāo)的關(guān)鍵點(diǎn)(如角點(diǎn)),再由這些關(guān)鍵點(diǎn)組合成目標(biāo)的邊界框。由于舍棄了手動(dòng)設(shè)計(jì)的錨框,無(wú)錨點(diǎn)的檢測(cè)方法具有更快的速度,可以更好地檢測(cè)具有較大寬高比的目標(biāo)。
文獻(xiàn)[16]中提出了基于角點(diǎn)檢測(cè)的CornerNet,舍棄了傳統(tǒng)的錨框思路,將目標(biāo)建模為目標(biāo)邊界框的左上角和右下角的一對(duì)頂點(diǎn),即使用單一卷積模型生成熱圖和連接矢量:所有目標(biāo)的左上角和所有目標(biāo)的右下角熱圖,每個(gè)頂點(diǎn)的連接矢量。自CornerNet誕生以來(lái),無(wú)錨點(diǎn)的方法開(kāi)始出現(xiàn)井噴式增長(zhǎng),目標(biāo)檢測(cè)方法步入了無(wú)錨點(diǎn)時(shí)代。
在文獻(xiàn)[16]的工作基礎(chǔ)上,文獻(xiàn)[15]中進(jìn)一步將檢測(cè)建模為對(duì)目標(biāo)的中心點(diǎn)進(jìn)行檢測(cè),并在此基礎(chǔ)上回歸出物體的尺寸信息的方法,其檢測(cè)精度和速度相較于主流的基于錨點(diǎn)的檢測(cè)方法均有提升。也因其簡(jiǎn)單的結(jié)構(gòu)和可以用于人體姿態(tài)估計(jì)和3D目標(biāo)檢測(cè)的強(qiáng)大功能,該方法迅速在目標(biāo)檢測(cè)領(lǐng)域引起廣泛討論。
文獻(xiàn)[17]在文獻(xiàn)[9]的基礎(chǔ)上提出了旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(Rotation Region Proposal Network, RRPN),它在RPN中加入旋轉(zhuǎn)的錨框生成帶有方向參數(shù)的候選區(qū)域(Rotation Region of Interest, RRoI),并提出RRoI池化層,將具有角度的候選區(qū)域映射到特征圖上,實(shí)現(xiàn)了一個(gè)能夠輸出旋轉(zhuǎn)候選框的目標(biāo)邊界框架。
文獻(xiàn)[18]中提出了旋轉(zhuǎn)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Rotational Region CNN, R2CNN),在RRPN的基礎(chǔ)上修改了角度參數(shù)的表示方法,舍去旋轉(zhuǎn)錨框以精簡(jiǎn)網(wǎng)絡(luò),并在池化層根據(jù)待檢測(cè)目標(biāo)橫縱比較大的特性,額外添加了3×11和11×3兩種池化尺寸,最后在全連接層中保留水平邊界框的預(yù)測(cè)支路,進(jìn)一步提升了網(wǎng)絡(luò)性能。
文獻(xiàn)[5-7]中的方法在自然視角的目標(biāo)檢測(cè)任務(wù)中取得了良好的效果,但在更具挑戰(zhàn)性的遙感圖像目標(biāo)檢測(cè)任務(wù)中,這些常規(guī)檢測(cè)器往往不具有良好的泛化性。原因在于傳統(tǒng)的目標(biāo)檢測(cè)任務(wù)中的目標(biāo)通常因重力而有著向上的朝向,而在遙感圖像檢測(cè)任務(wù)中,目標(biāo)通常因?yàn)榕臄z平臺(tái)的運(yùn)行方向及相機(jī)角度等因素而展現(xiàn)出方向任意性;而且遙感圖像中存在大量密集分布的目標(biāo),使用水平方向的檢測(cè)器對(duì)具有方向任意性的目標(biāo)進(jìn)行邊界框回歸時(shí),會(huì)同時(shí)將大量的背景信息包含在邊界框中,這些額外的背景信息可能會(huì)影響分類器的精度;并且當(dāng)邊界框之間的重疊部分較大時(shí),在密集分布的目標(biāo)檢測(cè)任務(wù)中,水平方向的檢測(cè)器無(wú)法很好地將不同的目標(biāo)分離開(kāi)來(lái)。
文獻(xiàn)[17-18]中的方法可以減少邊界框中包圍的具有方向任意性的目標(biāo)和背景之間的重疊部分,更加緊密地包圍目標(biāo),從而更好地對(duì)旋轉(zhuǎn)和密集分布的目標(biāo)進(jìn)行檢測(cè)和分類。但由于基于錨點(diǎn)的兩階段旋轉(zhuǎn)邊界框檢測(cè)網(wǎng)絡(luò)自身的參數(shù)量巨大,并且為了使網(wǎng)絡(luò)適應(yīng)旋轉(zhuǎn)目標(biāo)的檢測(cè)再次引入了大量的參數(shù),使網(wǎng)絡(luò)結(jié)構(gòu)更加臃腫,在檢測(cè)速度上始終無(wú)法得到較大提升。
為解決上述問(wèn)題,本文提出了一種基于CenterNet改進(jìn)的遙感圖像密集目標(biāo)檢測(cè)方法,在原有的模型結(jié)構(gòu)上加入角度預(yù)測(cè)支線和一個(gè)基于非對(duì)稱卷積的特征增強(qiáng)模塊,增強(qiáng)目標(biāo)的旋轉(zhuǎn)不變形特征,消除由于目標(biāo)旋轉(zhuǎn)和翻轉(zhuǎn)帶來(lái)的噪聲,從而提升目標(biāo)檢測(cè)模型的分類和回歸精度,更好地回歸目標(biāo)的位置和尺寸信息。實(shí)驗(yàn)表明,本文設(shè)計(jì)的模型能夠克服密集目標(biāo)檢測(cè)精度低的缺點(diǎn),有效提升模型精度和速度。
本文提出的基于CenterNet改進(jìn)的目標(biāo)檢測(cè)模型整體可以分為特征提取網(wǎng)絡(luò)、特征增強(qiáng)網(wǎng)絡(luò)和檢測(cè)頭三部分。特征提取網(wǎng)絡(luò)主要有殘差網(wǎng)絡(luò)(Residual network)、深度聚合網(wǎng)絡(luò)(Deep Layer Aggregation network, DLA)[19]和沙漏網(wǎng)絡(luò)(HourGlass network, HG)[20]等。其中HG可以獲得最高的精度但預(yù)測(cè)速度較慢,而DLA可以取得速度和精度的平衡。
模型總體結(jié)構(gòu)如圖1所示。本文利用DLA和HG作為主干網(wǎng)絡(luò)。為了保證密集目標(biāo)的檢測(cè)正確率,將輸入模型的圖片通過(guò)主干網(wǎng)絡(luò)降采樣4倍,得到128×128的特征圖,在此基礎(chǔ)上進(jìn)行目標(biāo)的定位和分類,最終模型輸出為128×128×(+5)的熱圖,其中代表目標(biāo)總類別個(gè)數(shù),剩余5個(gè)通道分別代表中心點(diǎn)偏移(2通道)、目標(biāo)尺寸(2通道)和目標(biāo)角度(1通道)。
為了提取目標(biāo)的角度信息,在檢測(cè)器中加入了一個(gè)角度預(yù)測(cè)分支。輸入經(jīng)過(guò)主干網(wǎng)絡(luò)后,將得到的特征圖輸入角度分支得到角度熱圖,而為節(jié)省計(jì)算資源,所有類別的目標(biāo)共用同一個(gè)角度熱圖通道。
原有的中心點(diǎn)熱圖、偏移熱圖和尺寸熱圖則經(jīng)過(guò)本文提出的特征增強(qiáng)模塊,增強(qiáng)旋轉(zhuǎn)不變性特征,消除由于目標(biāo)的旋轉(zhuǎn)翻轉(zhuǎn)帶來(lái)的影響,最終輸入檢測(cè)器相應(yīng)分支得到檢測(cè)結(jié)果。
圖1 本文模型總體結(jié)構(gòu)
根據(jù)角度信息定義旋轉(zhuǎn)矩陣為:
根據(jù)上述信息,可以得到帶角度的邊界框的頂點(diǎn)定義:
其中:lt、rt、lb、rb分別表示目標(biāo)邊界框的左上角、右上角、左下角及右下角坐標(biāo)。
圖2 邊界框角度定義
Fig. 2 Definition of bounding box’s angle
本文參照CenterNet的處理方法,將標(biāo)簽信息映射到與模型輸出熱圖相同尺寸和維度的矩陣中。
2.3.1 關(guān)鍵點(diǎn)損失與中心偏移損失
中心點(diǎn)和偏移損失采用CenterNet的處理方式,分別為改進(jìn)的焦點(diǎn)損失(Focal Loss)[21]和最小化絕對(duì)誤差損失(L1 Loss)[22]:
2.3.2 尺寸損失
2.3.3 角度損失
2.3.4 總體損失
模型的總體損失函數(shù)定義為:
文獻(xiàn)[23]中證明了可以將傳統(tǒng)的方形2D卷積核(×)轉(zhuǎn)換為并行的三個(gè)互相兼容的2D卷積核(1×,×1,×),可以增強(qiáng)方形2D卷積核骨架位置上的特征信息和對(duì)旋轉(zhuǎn)翻轉(zhuǎn)畸變的魯棒性。
本文提出一種基于非對(duì)稱卷積的特征增強(qiáng)模塊(Feature Enhancement Module, FEM)以增強(qiáng)目標(biāo)的旋轉(zhuǎn)不變性特征,消除目標(biāo)的旋轉(zhuǎn)和翻轉(zhuǎn)所帶來(lái)的分類和尺寸回歸精度問(wèn)題,進(jìn)一步提升網(wǎng)絡(luò)精度。特征增強(qiáng)模塊是一個(gè)可拓展的模塊,可以很容易拓展到任意分支個(gè)數(shù)和任意卷積核大小,本文以3個(gè)分支為例。
特征增強(qiáng)模塊位于主干網(wǎng)絡(luò)和檢測(cè)頭之間,為了準(zhǔn)確預(yù)測(cè)目標(biāo)角度信息,直接將主干網(wǎng)絡(luò)的輸出特征圖輸入到角度回歸分支;其他分支則輸入特征增強(qiáng)網(wǎng)絡(luò),對(duì)目標(biāo)的旋轉(zhuǎn)不變性特征進(jìn)行增強(qiáng),得到的特征圖再輸入檢測(cè)頭進(jìn)行目標(biāo)的分類、定位以及尺寸信息的回歸。
模塊主要由三個(gè)分支構(gòu)成,分別是兩個(gè)非對(duì)稱卷積分支和一個(gè)方形卷積分支。將兩個(gè)非對(duì)稱卷積分支得到的特征圖與常規(guī)方形卷積分支得到的特征圖進(jìn)行融合可以增強(qiáng)方形卷積核骨架位置的特征,增強(qiáng)目標(biāo)的旋轉(zhuǎn)不變性特征,從而消除目標(biāo)由于旋轉(zhuǎn)和翻轉(zhuǎn)帶來(lái)的回歸和分類精度問(wèn)題。特征增強(qiáng)模塊的每一個(gè)卷積層后都緊接一個(gè)非線性激活函數(shù)——線性整流函數(shù)(Rectified Linear Unit,ReLU)和一個(gè)批標(biāo)準(zhǔn)化(Batch Normalization, BN)層。
圖3 特征增強(qiáng)模塊結(jié)構(gòu)
圖4為輸入經(jīng)過(guò)主干網(wǎng)絡(luò)和特征增強(qiáng)模塊后的特征進(jìn)行可視化疊加到原圖的效果。
從圖4中可以觀察到,主干網(wǎng)絡(luò)特征圖經(jīng)過(guò)特征增強(qiáng)模塊后,目標(biāo)主體的旋轉(zhuǎn)不變性特征更加突出,消除了由于旋轉(zhuǎn)和翻轉(zhuǎn)帶來(lái)的噪聲,這有助于提升目標(biāo)的定位和分類精度。
圖4 特征增強(qiáng)模塊效果
實(shí)驗(yàn)設(shè)備為搭載Ubuntu 18.04 LTS操作系統(tǒng)的GPU服務(wù)器,CPU型號(hào)為Intel Xeon E5-2683 v3,GPU型號(hào)為Nvidia GeForce RTX2080Ti,顯存11 GB,系統(tǒng)內(nèi)存64 GB;環(huán)境配置為Cuda10.2,Cudnn 7.6.5;深度學(xué)習(xí)框架為Pytorch 1.3.1,Python 3.7.9。
DOTA數(shù)據(jù)集中的圖像為太空衛(wèi)星拍攝的遙感圖像,分辨率范圍為從800×800到4 000×4 000,包含2 806張圖片,15個(gè)分類,主要用于具有旋轉(zhuǎn)角度標(biāo)簽的遙感圖像目標(biāo)檢測(cè)任務(wù),其中包含的目標(biāo)具有大量不同的寬高比和角度,如圖5所示。在訓(xùn)練時(shí)將所有圖片用滑窗的方式以256像素的重疊切割為512×512的切片,不使用數(shù)據(jù)增強(qiáng)。處理后的訓(xùn)練集包含176 235張圖片,驗(yàn)證集包含44 936張圖片,測(cè)試集包含91 007張圖片。
圖5 目標(biāo)角度和寬高比分布
為了驗(yàn)證模型在其他遙感圖像目標(biāo)檢測(cè)任務(wù)中的泛化性能,本文對(duì)BDCI數(shù)據(jù)集中的包含船只的圖片進(jìn)行重新標(biāo)記,生成新的數(shù)據(jù)集Ship3,其視角為低空拍攝,包含游艇、郵輪和貨船三個(gè)主要分類,目標(biāo)寬高比均值為3.0,分辨率為1 024×1 024,經(jīng)過(guò)處理后數(shù)據(jù)集包含8 965張圖片,按照8∶1∶1的比例劃分訓(xùn)練集驗(yàn)證集和測(cè)試集,數(shù)據(jù)集保持和DOTA數(shù)據(jù)集一樣的標(biāo)簽格式。數(shù)據(jù)預(yù)處理時(shí)保持和DOTA數(shù)據(jù)集相同的方式,區(qū)別是不對(duì)圖片進(jìn)行切片或縮放,直接使用1 024×1 024的原分辨率輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
本文采用平均精度均值(mean Average Precision, mAP)作為評(píng)價(jià)指標(biāo),對(duì)模型進(jìn)行精度的定量評(píng)價(jià),mAP值的大小與網(wǎng)絡(luò)性能的好壞呈正相關(guān)關(guān)系。mAP由所有類別的準(zhǔn)確率平均精度(Average Precision, AP)求均值得到,計(jì)算公式為:
其中:表示總類別數(shù),AP表示第個(gè)類別的AP值。
如圖6所示:在DOTA數(shù)據(jù)集上,當(dāng)訓(xùn)練輪數(shù)達(dá)到44 epochs時(shí),模型平均損失穩(wěn)定在0.1附近,之后平均損失函數(shù)值基本無(wú)降低,表明訓(xùn)練過(guò)程收斂;在Ship3數(shù)據(jù)集上,當(dāng)訓(xùn)練輪數(shù)達(dá)到35 epochs時(shí),模型平均損失在0.1附近,訓(xùn)練收斂。
圖6 訓(xùn)練損失圖
圖7、8分別是在DOTA數(shù)據(jù)集和Ship3數(shù)據(jù)集上的PR(Precision-Recall)曲線,其中橫坐標(biāo)為召回率,縱坐標(biāo)為準(zhǔn)確率。
圖7 DOTA數(shù)據(jù)集上的PR曲線
圖8 Ship3數(shù)據(jù)集上的PR曲線
通過(guò)Ship3數(shù)據(jù)集的PR曲線可以看到,模型在目標(biāo)稀疏且寬高比較大的低空遙感圖像檢測(cè)任務(wù)中同樣可以達(dá)到較好的效果。
為驗(yàn)證本文方法的效果,與其他常用的基于深度學(xué)習(xí)的檢測(cè)方法進(jìn)行橫向?qū)Ρ龋谙嗤瑢?shí)驗(yàn)條件下,約定交并比大于0.5即表示檢測(cè)正確,以mAP和每秒處理幀數(shù)(Frames Per Second, FPS)作為評(píng)價(jià)指標(biāo)。
表1、2分別展示了本文方法和一些主流方法在DOTA數(shù)據(jù)集和Ship3數(shù)據(jù)集上的檢測(cè)結(jié)果,加粗表示最優(yōu)結(jié)果,加下劃線表示次優(yōu)結(jié)果。
從表1可以看出,在DOTA數(shù)據(jù)集上,相較于兩階段模型RRPN,本文方法采用HourGlass-101(HG-101)作為主干網(wǎng)絡(luò)時(shí)的mAP提升了7.8個(gè)百分點(diǎn),F(xiàn)PS提升了7.5;采用DLA-34作為主干網(wǎng)絡(luò)時(shí)的mAP提升了5.13個(gè)百分點(diǎn),F(xiàn)PS提升了23.5。相較于單階段模型YOLO V4,本文方法采用DLA-34作為主干網(wǎng)絡(luò)時(shí)的FPS降低3,但精度提升了6.83個(gè)百分點(diǎn)。
表1 DOTA數(shù)據(jù)集上不同檢測(cè)方法性能對(duì)比
從表2可以看出,在Ship3數(shù)據(jù)集上,相較于兩階段模型RRPN,本文方法采用HG-101作為主干網(wǎng)絡(luò)時(shí)的mAP提升了8.68個(gè)百分點(diǎn),F(xiàn)PS提升了6.5;采用DLA-34作為主干網(wǎng)絡(luò)時(shí)的mAP提升了7.94個(gè)百分點(diǎn),F(xiàn)PS提升了21。相較于單階段模型YOLO V4,本文方法采用DLA-34作為主干網(wǎng)絡(luò)時(shí)的FPS降低2.5,但精度提升8.87個(gè)百分點(diǎn)
表2 Ship3數(shù)據(jù)集上不同檢測(cè)方法性能對(duì)比
上述實(shí)驗(yàn)表明,在DOTA數(shù)據(jù)集上加入角度回歸分支的CenterNet(HG101)相較于基于錨點(diǎn)的兩階段模型RRPN,F(xiàn)PS提升明顯,約17.5,mAP提升約0.3個(gè)百分點(diǎn);加入特征增強(qiáng)模塊后,模型的mAP得到了較大提升,相較于沒(méi)有加入特征增強(qiáng)模塊的CenterNet(HG-101)提升約4.83,F(xiàn)PS下降約10,但相較于RRPN仍具有較大優(yōu)勢(shì)。在推理速度要求較高的場(chǎng)景下,可以使用CenterNet(DLA-34)加入角度回歸分支和特征增強(qiáng)模塊的版本,該版本在保證mAP相較于RRPN提升約5.13個(gè)百分點(diǎn)的同時(shí)FPS達(dá)到了約27,接近YOLO V4的推理速度。
特征增強(qiáng)模塊在推理階段造成了一定的速度損失,使FPS相較于僅添加了角度回歸的基線版本有所下降,這是因?yàn)樵谔卣髟鰪?qiáng)模塊中具有3個(gè)不同的卷積分支,造成了一定的計(jì)算量增加,但也使模型的mAP有了較大提升,且加入特征增強(qiáng)模塊的模型相較于傳統(tǒng)方法仍具有較大速度優(yōu)勢(shì)。綜上所述,相較于RRPN,本文方法做到了速度與檢測(cè)精度的平衡。
為了驗(yàn)證本文提出的特征增強(qiáng)模塊的有效性,實(shí)驗(yàn)并記錄了使用不同的基線網(wǎng)絡(luò)(DLA-34和HG-101)的情況下在DOTA數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。
本文對(duì)所有模型進(jìn)行相同的訓(xùn)練輪數(shù)(50輪),每3輪在驗(yàn)證集上進(jìn)行一次評(píng)估,使用評(píng)估損失最低的模型權(quán)重在測(cè)試集上進(jìn)行消融實(shí)驗(yàn)數(shù)據(jù)的記錄。由表3可知,在加入特征增強(qiáng)模塊后,網(wǎng)絡(luò)預(yù)測(cè)mAP在不同的主干網(wǎng)絡(luò)下均提升約7個(gè)百分點(diǎn)。
表3 DOTA數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果
在DOTA數(shù)據(jù)集和Ship3數(shù)據(jù)集上的檢測(cè)效果示例如圖9所示,矩形框標(biāo)注了兩種方法的檢測(cè)差異??梢钥吹剑疚姆椒ㄔ诓煌暯菙?shù)據(jù)集上相較于RRPN可以更好地檢測(cè)出密集分布和大寬高比的目標(biāo),具有良好的魯棒性。
圖9 實(shí)驗(yàn)效果示例
本文提出了一個(gè)基于CenterNet改進(jìn)的無(wú)錨點(diǎn)的遙感圖像任意角度目標(biāo)檢測(cè)方法,并加入一個(gè)基于非對(duì)稱卷積的特征增強(qiáng)模塊,以增強(qiáng)目標(biāo)的旋轉(zhuǎn)不變性特征,進(jìn)一步提升模型精度,最后通過(guò)實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。模型結(jié)構(gòu)簡(jiǎn)潔,便于部署;但由于對(duì)角度信息的回歸僅采用數(shù)值回歸的方法,預(yù)測(cè)框未與真實(shí)邊界框建立強(qiáng)聯(lián)系,今后可在本文模型基礎(chǔ)上加入帶旋轉(zhuǎn)的交并比損失作為網(wǎng)絡(luò)總體損失的一部分,進(jìn)一步提高目標(biāo)檢測(cè)精度;另外,隨著無(wú)錨點(diǎn)目標(biāo)檢測(cè)算法的升級(jí),將繼續(xù)深入研究相應(yīng)方法在遙感圖像中具有任意角度的目標(biāo)檢測(cè)的應(yīng)用問(wèn)題。
)
[1] XU S Y, WANG J, SHOU W C, et al. Computer vision techniques in construction: a critical review[J]. Archives of Computational Methods in Engineering, 2021, 28(5): 3383-3397.
[2] LINDBERG A. Developing theory through integrating human and machine pattern recognition[J]. Journal of the Association for Information Systems, 2020, 21(1): No.7.
[3] TIAN Z, SHEN C H, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]/ /Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 9626-9635.
[4] ZHU C C, HE Y H, SAVVIDES M. Feature selective anchor-free module for single-shot object detection[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 840-849.
[5] CHEN Y T, HAN C X,WANG N Y, et al. Revisiting feature alignment for one-stage object detection[EB/OL]. (2019-08-05)[2021-05-01].https://arxiv.org/pdf/1908.01570.pdf.
[6] LI Z M, PENG C, YU G, et al. Light-head R-CNN: in defense of two-stage object detector[EB/OL]. (2017-11-23)[2021-05-01].https://arxiv.org/pdf/1711.07264.pdf.
[7] LI B, YAN J J, WU W, et al. High performance visual tracking with Siamese region proposal network[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8971-8980.
[8] GIRSHICK R. Fast R-CNN[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1440-1448.
[9] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.
[10] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.
[11] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[12] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.
[13] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08)[2021-05-01].https://arxiv.org/pdf/1804.02767.pdf.
[14] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2021-05-01].https://arxiv.org/pdf/2004.10934.pdf.
[15] ZHOU X Y, WANG D Q, KR?HENBüHL P. Objects as points[EB/OL]. (2019-04-25)[2021-05-01].https://arxiv.org/pdf/1904.07850.pdf.
[16] LAW H, DENG J. CornerNet: detecting objects as paired keypoints[C]// Proceedings of the 2018 European Conference on Computer Vision, LNIP 11218. Cham: Springer, 2018: 765-781
[17] MA J Q, SHAO W Y, YE H, et al. Arbitrary-oriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11):3111-3122.
[18] JIANG Y Y, ZHU X Y, WANG X B, et al. R2CNN: rotational region CNN for orientation robust scene text detection[EB/OL]. (2017-06-30)[2021-05-01].https://arxiv.org/pdf/1706.09579.pdf.
[19] YU F, WANG D Q, SHELHAMER E, et al. Deep layer aggregation[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2403-2412.
[20] NEWELL A, YANG K Y, DENG J. Stacked hourglass networks for human pose estimation[C]// Proceedings of the 2016 European Conference on Computer Vision, LNIP 9912. Cham: Springer, 2016: 483-499.
[21] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2999-3007.
[22] PESME S, FLAMMARION N. Online robust regression via SGD on thelloss[C/OL]// Proceedings of the 34h Conference on Neural Information Processing Systems. [2021-05-01].https://proceedings.neurips.cc/paper/2020/file/1ae6464c6b5d51b363d7d96f97132c75-Paper.pdf.
[23] YANG X, SUN H, FU K, et al. Automatic ship detection in remote sensing images from Google Earth of complex scenes based on multiscale rotation dense feature pyramid networks[J]. Remote Sensing, 2018, 10(1): No.132.
[24] ZHANG S F, WEN L Y, BIAN X, et al. Single-shot refinement neural network for object detection[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 4203-4212.
Anchor-free remote sensing image detection method for dense objects with rotation
YANG Zhipei1,2,3, DING Sheng1,2, ZHANG Li3*, ZHANG Xinyu1,2
(1,,430065,;2-(),430065,;3,,,430204,)
Aiming at the problems of high missed rate and inaccurate classification of dense objects in remote sensing image detection methods based on deep learning, an anchor-free deep learning-based detection method for dense objects with rotation was established. Firstly, CenterNet was used as the baseline network, features were extracted through the backbone network, and the original detector structure was improved, which means an angle regression branch was added to perform object angle regression. Then, a feature enhancement module based on asymmetric convolution was proposed, and the feature map extracted by the backbone network was put into the feature enhancement module to enhance the rotation invariant feature of the object, reduce the influence caused by the rotation and turnover of the object, and improve the regression precision of the center point and size information of the object. When using HourGlass-101 as the backbone network, compared with Rotation Region Proposal Network (RRPN), the proposed method achieved a 7.80 percentage point improvement in Mean Average Precision (mAP) and 7.50 improvement in Frames Per Second (FPS) on DOTA dataset. On the self-built dataset Ship3, the proposed method achieved a 8.68 percentage point improvement in mAP and 6.5 improvement vin FPS. The results show that the proposed method can obtain a balance between detection precision and speed.
deep learning; remote sensing image; object detection; asymmetric convolution; anchor-free object detection
This work is partially supported by Natural Science Foundation of Hubei Province (2018CFB195).
YANG Zhipei, born in 1996, M. S. candidate, His research interests include computer vision, deep learning.
DING Sheng, born in 1975, Ph. D., associate professor. His research interests include computer vision.
ZHANG Li, born in 1978, M. S., associate professor. Her research interests include computer simulation, computer vision.
ZHANG Xinyu, born in 1996, M. S. candidate. His research interests include computer vision, deep learning.
TP751.1
A
1001-9081(2022)06-1965-07
10.11772/j.issn.1001-9081.2021060890
2021?06?01;
2021?08?12;
2021?08?18。
湖北省自然科學(xué)基金資助項(xiàng)目(2018CFB195)。
楊治佩(1996—),男,甘肅慶陽(yáng)人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí);丁勝(1975—),男,湖北武漢人,副教授,博士,主要研究方向:計(jì)算機(jī)視覺(jué);張莉(1978—),女,湖北武漢人,副教授,碩士,主要研究方向:計(jì)算機(jī)仿真、計(jì)算機(jī)視覺(jué);張新宇(1996—),男,河南焦作人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)。