孟曦婷,計璐艷,趙永超,楊煒暾
(中國科學(xué)院空天信息創(chuàng)新研究院 中國科學(xué)院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點實驗室,北京 100094; 中國科學(xué)院大學(xué),北京 100049)
遙感圖像目標(biāo)檢測是遙感領(lǐng)域研究的熱點問題之一,在軍事偵察、地質(zhì)勘探、城市建設(shè)等多個領(lǐng)域發(fā)揮著重要作用。軍事目標(biāo)檢測是遙感圖像目標(biāo)檢測的一個重要分支。在軍事目標(biāo)中,導(dǎo)彈發(fā)射井[1-3]作為導(dǎo)彈發(fā)射陣地的主要樣式,是重要的軍事目標(biāo)之一。發(fā)射井目標(biāo)檢測的研究可以在軍事偵察和戰(zhàn)略部署等方面為國防項目提供幫助與支持。發(fā)射井目標(biāo)檢測任務(wù)具有以下2個特點:1)樣本數(shù)量少,沒有已標(biāo)注的可用于研究的數(shù)據(jù)集;2)發(fā)射井在不同分辨率的遙感圖像中呈現(xiàn)多尺度的特性。目前針對發(fā)射井目標(biāo)檢測方面的相關(guān)研究甚少,研究如何針對導(dǎo)彈發(fā)射井進(jìn)行檢測具有重要意義。
針對上述問題,本文提出導(dǎo)彈發(fā)射井目標(biāo)檢測研究方法。首先,構(gòu)建首個發(fā)射井目標(biāo)檢測數(shù)據(jù)集,實現(xiàn)從無到有的突破,可以為后續(xù)相關(guān)領(lǐng)域的研究提供支持。其次,設(shè)計一個適用于多尺度發(fā)射井目標(biāo)檢測任務(wù)的檢測模型,有效解決了導(dǎo)彈發(fā)射井目標(biāo)檢測問題,檢測效果良好。最后,在公開遙感數(shù)據(jù)集上對模型進(jìn)行測試,證明該方法在其他遙感圖像場景同樣適用。
傳統(tǒng)的目標(biāo)檢測算法是通過滑動窗口遍歷整幅圖像,從而獲取目標(biāo)可能存在的區(qū)域,然后對這些區(qū)域進(jìn)行特征提取,常見的圖像手工設(shè)計特征有尺度不變特征變換(scale-invariant feature transform,SIFT)[4]、方向梯度直方圖(histogram of oriented gradient,HOG)[5]、局部二值模式(local binary pattern,LBP)[6]和Haar-like[7]等特征,最后使用分類器對這些提取的窗口特征進(jìn)行分類,判斷是否含有目標(biāo)并得到目標(biāo)的類別,常見的分類器有支持向量機(support vector machine,SVM)[8]、Adaboost[9]等。目前隨著遙感技術(shù)的發(fā)展,不同場景下的高分辨率遙感圖像不斷涌現(xiàn),傳統(tǒng)目標(biāo)檢測算法受限于其對先驗知識和數(shù)據(jù)本身特征的依賴,并不適用于該場景下的目標(biāo)檢測任務(wù)。
深度神經(jīng)網(wǎng)絡(luò)能夠從海量的數(shù)據(jù)中自動學(xué)習(xí)特征,在自然場景目標(biāo)檢測任務(wù)中,典型的基于深度學(xué)習(xí)的算法[10-16]取得了優(yōu)異的檢測效果。R-CNN(region-convolutional neural networks)[10]提出雙階段檢測網(wǎng)絡(luò)并取得了突破性進(jìn)展,此后雙階段檢測模型成為目標(biāo)檢測任務(wù)的重要方法。在R-CNN的基礎(chǔ)上,F(xiàn)ast R-CNN[12]、Faster R-CNN[17]和R-FCN(region-based fully convolutional networks)[15]等基于區(qū)域生成的雙階段檢測模型不斷涌現(xiàn),這些算法在降低網(wǎng)絡(luò)計算復(fù)雜度的同時提升了檢測精度。為了提升多尺度目標(biāo)檢測的效果,特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)[18]在Faster R-CNN模型的基礎(chǔ)上提出融合多尺度特征圖的思想,充分利用各個分辨率下的特征信息。SSD(single shot multibox detector)[13]和YOLO(you only look once)[19]是典型的單階段目標(biāo)檢測算法,其思想是基于回歸的檢測方法,極大地提高了算法的檢測速度。Cascade R-CNN[20]是典型的多階段檢測模型,它采用多階段迭代回歸的思想逐步提高候選區(qū)域的質(zhì)量,有效地提升了檢測效果。
由于深度神經(jīng)網(wǎng)絡(luò)在自然場景目標(biāo)檢測任務(wù)中的出色表現(xiàn),學(xué)者們開始將其應(yīng)用于遙感圖像目標(biāo)檢測任務(wù)中。R-P-Faster R-CNN[21]在小數(shù)據(jù)集上實現(xiàn)了令人滿意的檢測效果。Xu等[22]將可變形卷積層[23]與R-FCN結(jié)合進(jìn)一步提高了檢測精度。Ren等[24]采用自頂向下和橫向連接的方式生成一張高分辨率高質(zhì)量的特征圖,進(jìn)一步提高了可變形Faster R-CNN模型的性能。
在目前已經(jīng)發(fā)表的論文中,還沒有學(xué)者針對導(dǎo)彈發(fā)射井目標(biāo)檢測進(jìn)行研究,因此本文的研究方向新穎且具有重要意義。
本文研究的目標(biāo)是導(dǎo)彈發(fā)射井,研究區(qū)域為北美中部,用于構(gòu)建數(shù)據(jù)集的發(fā)射井目標(biāo)均位于此區(qū)域內(nèi),目標(biāo)圖像來自于Google Earth。由于Google Earth中的圖像是不同分辨率下的遙感圖像,所以發(fā)射井目標(biāo)在圖像中呈現(xiàn)多尺度特性。
由于發(fā)射井目標(biāo)的數(shù)量較少,目前沒有可用于研究的數(shù)據(jù)集,因此在設(shè)計檢測算法之前,構(gòu)建有效的能夠用于發(fā)射井目標(biāo)檢測的數(shù)據(jù)集至關(guān)重要。本文以來自Google Earth公開遙感圖像平臺的數(shù)據(jù)為基礎(chǔ)進(jìn)行數(shù)據(jù)集的構(gòu)建。原始數(shù)據(jù)共有178個發(fā)射井目標(biāo),原始圖像大小為1 280像素×720像素,具有RGB 3個通道,發(fā)射井形態(tài)主要有2種:突顯和半淹沒。在構(gòu)建數(shù)據(jù)集的過程中,本文充分滿足了數(shù)據(jù)集的多樣性、充分性和魯棒性3個條件。主要構(gòu)建步驟如下:
步驟1針對目標(biāo)的尺度多樣性,獲取數(shù)據(jù)集原始圖像。對于相同的區(qū)域,在不同分辨率條件下,Google Earth中獲取的圖像有所不同,這導(dǎo)致發(fā)射井目標(biāo)在圖像中尺度大小存在差異。為了適應(yīng)不同分辨率下的發(fā)射井檢測任務(wù),本文分別在Google Earth上獲取5個不同分辨率下的發(fā)射井目標(biāo)圖像。發(fā)射井的實際尺寸約為24.5 m×21 m(由于發(fā)射井形狀不規(guī)則,這里采用的是建筑體外接矩形的尺寸),如圖1(a)分別展示了原始數(shù)據(jù)集中5個尺度下的圖像樣例,表1中對每個尺度下發(fā)射井的大小及圖像分辨率做了詳細(xì)說明,其中尺度6的圖像僅在預(yù)測時使用。隨著圖像分辨率的降低,發(fā)射井目標(biāo)的尺寸逐漸減小,Google Earth不同分辨率下的圖像中,發(fā)射井目標(biāo)呈現(xiàn)多尺度特性。本文通過采集不同分辨率下的發(fā)射井目標(biāo)圖像,保證了數(shù)據(jù)集中目標(biāo)的尺度多樣性。
圖1 數(shù)據(jù)集典型樣本Fig.1 Typical samples of the dataset
步驟2數(shù)據(jù)集預(yù)處理。獲取178個發(fā)射井目標(biāo)在5個不同分辨率下的圖像后,從中隨機選取150個發(fā)射井作為訓(xùn)練樣本,其余樣本用于最終評估算法的有效性。然后,對訓(xùn)練樣本的所有圖像進(jìn)行人工標(biāo)注,這里采用的標(biāo)注策略與VOC2007數(shù)據(jù)集[25]的標(biāo)注方式相同。同時,為了降低檢測網(wǎng)絡(luò)的計算復(fù)雜度,將原始圖像統(tǒng)一裁剪為800×800,重疊率為200像素。
表1 各尺度發(fā)射井尺寸及圖像分辨率說明Table 1 The wells’ scale and the images’ resolution
步驟3為保證數(shù)據(jù)集目標(biāo)的形態(tài)多樣性,本文進(jìn)行一系列數(shù)據(jù)增強操作。在實際采集遙感圖像時,傳感器成像時的角度和方位有所變化,因此導(dǎo)彈發(fā)射井在圖像中的方向和角度會存在差異。在構(gòu)建數(shù)據(jù)集的過程中,需要充分考慮到目標(biāo)角度和方位的多樣性。針對目標(biāo)的形態(tài)多樣性,本文主要對原始數(shù)據(jù)集進(jìn)行了一系列數(shù)據(jù)增強操作,增強方式包括水平翻轉(zhuǎn)、上下翻轉(zhuǎn)、順時針旋轉(zhuǎn)45°/135°和逆時針旋轉(zhuǎn)45°/135°,圖1(b)展示了部分增強后樣本。通過以上數(shù)據(jù)增強操作,數(shù)據(jù)集中發(fā)射井目標(biāo)的形態(tài)多樣性得到保證。
步驟4通過目標(biāo)填充的方法保證數(shù)據(jù)集的背景復(fù)雜性。眾所周知,背景紛繁復(fù)雜是遙感圖像的重要特點之一。從Google Earth上獲取的發(fā)射井目標(biāo)圖像背景較為單一,在實際檢測過程中遙感圖像的背景較復(fù)雜,而且可能存在一些相似的負(fù)樣本。為了使算法能夠在復(fù)雜背景下檢測發(fā)射井,并且有效區(qū)分出相似的負(fù)樣本,需要增加數(shù)據(jù)集背景的復(fù)雜性和多樣性。為了增加數(shù)據(jù)集的魯棒性,采用一種叫做目標(biāo)填充的方式。這種方法的主要思想是將發(fā)射井目標(biāo)裁剪下來,填充到目標(biāo)較多背景較復(fù)雜的遙感圖像中去,通過對這樣的數(shù)據(jù)集進(jìn)行訓(xùn)練,提高網(wǎng)絡(luò)在復(fù)雜背景下的魯棒性,降低網(wǎng)絡(luò)在復(fù)雜場景下將非目標(biāo)檢測為發(fā)射井目標(biāo)的概率,即降低虛警率,圖1(b)展示了目標(biāo)填充后的圖像。
最終,本文構(gòu)建出完整的用于發(fā)射井目標(biāo)檢測任務(wù)的數(shù)據(jù)集,數(shù)據(jù)集中共10 000張圖像,該數(shù)據(jù)集滿足多樣性、充分性和魯棒性3個條件。
本文在Cascade R-CNN[20]模型的基礎(chǔ)上進(jìn)行改進(jìn),提出改進(jìn)的多階段檢測算法,圖2展示了該算法的整體結(jié)構(gòu)。在生成候選區(qū)域階段,通過改變FPN中特征圖的融合方式,使得網(wǎng)絡(luò)能夠在訓(xùn)練中根據(jù)發(fā)射井目標(biāo)特性,自動學(xué)習(xí)出特征融合的方式。在精檢測階段,模型通過特征圖的堆疊充分利用上下文信息,并采用級聯(lián)多階段檢測的方法降低發(fā)射井目標(biāo)檢測的虛警率。
圖2 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The structure of the proposed network
在不同分辨率的遙感圖像中,導(dǎo)彈發(fā)射井目標(biāo)的尺度差異較大,在檢測發(fā)射井的過程中,需要充分考慮到各個尺度發(fā)射井的檢測效果。
特征融合 在神經(jīng)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層次的加深,特征圖的分辨率逐漸降低、語義信息不斷增強。淺層特征圖包含更準(zhǔn)確的位置信息,深層特征圖包含更豐富的語義信息。同時,高分辨率的特征圖感受野較小,適合小尺寸目標(biāo)檢測,低分辨率的特征圖感受野較大,適合大尺寸目標(biāo)的檢測。FPN采用將淺層特征圖和深層特征圖結(jié)合的思想,它通過特征融合的方式提升了多尺度目標(biāo)檢測的效果。
融合方式 FPN通過橫向連接,將自下而上和自上而下網(wǎng)絡(luò)中相同尺度的特征圖進(jìn)行融合。深層的特征圖經(jīng)過最近鄰上采樣后得到分辨率較高的特征圖,隨后該特征圖通過逐像素相加的方式與自下而上網(wǎng)絡(luò)中相同分辨率的特征圖進(jìn)行融合。我們都知道,深層特征圖中包含的位置信息較弱,采用最近鄰上采樣的方式得到的特征圖中位置信息仍然存在較大偏差。FPN采用逐像素相加的方式,并沒有根據(jù)自下而上網(wǎng)絡(luò)中特征圖中的目標(biāo)特征進(jìn)行位置信息的矯正。同時,這種融合方式的普適性較差,網(wǎng)絡(luò)無法根據(jù)不同目標(biāo)特征學(xué)習(xí)到最好的融合方法。以上因素均會導(dǎo)致檢測結(jié)果中的位置信息不準(zhǔn)確。
基于以上分析,本文在FPN的基礎(chǔ)上改進(jìn)特征融合方式,設(shè)計了特征融合模塊(feature fusion module,F(xiàn)FM),圖2詳細(xì)展示了FFM的特征融合方式。首先,自下而上網(wǎng)絡(luò)中的特征圖經(jīng)過一個1×1卷積層后,與經(jīng)過上采樣后相同分辨率的特征圖堆疊。然后,堆疊得到的特征圖通過一個3×3卷積層進(jìn)行特征融合,得到一個包含多尺度目標(biāo)信息的特征圖。FFM采用3×3卷積層完成特征融合操作,由于卷積層的權(quán)重可在網(wǎng)絡(luò)訓(xùn)練過程中自動學(xué)習(xí)得到,所以這種融合方式可以根據(jù)目標(biāo)特征學(xué)習(xí)到最好的融合方式。相比于逐像素相加的方式,本文設(shè)計的FFM更具有可優(yōu)化性和普適性。
遙感圖像中存在許多形狀大小與發(fā)射井較為相似的目標(biāo),除改進(jìn)特征融合方式,本文也重新調(diào)整了錨框的設(shè)置方式。在圖2的網(wǎng)絡(luò)中,為充分覆蓋不同狀態(tài)下的導(dǎo)彈發(fā)射井目標(biāo),在{F2,F3,F4,F5,F6}上預(yù)定義尺寸為{32×32,64×64,128×128,256×256,512×512}的錨框,每個錨框長寬比設(shè)置為{1/6,1/4,1/2,1,2/1,4,6}。實際檢測時,由于傳感器的方位角度會有所不同,圖像中發(fā)射井的形狀大小可能會有變化,本文的錨框設(shè)置方式可以盡可能保證更多的真實目標(biāo)邊框被分類為正樣本。在生成候選區(qū)域階段,本文采用與FPN相同的錨框分類策略,即當(dāng)IoU>0.7時,將候選區(qū)域判定為正樣本,當(dāng)IoU<0.3時,將候選區(qū)域判定為背景。
在生成候選區(qū)域階段,本文通過特征融合的方式得到各個尺度下的特征圖。在精檢測階段,需要在特征圖上剪裁對應(yīng)的候選區(qū)域進(jìn)行更精細(xì)的分類和回歸。FPN網(wǎng)絡(luò)是將候選區(qū)域通過某種策略分配到各個尺度的特征圖中,然后分別在{F2,F3,F4,F5}裁剪相應(yīng)尺度下的候選區(qū)域。FPN剪裁候選區(qū)域的方式只利用了單個分辨率的特征圖信息,然而特征圖中的上下文信息對于目標(biāo)的定位至關(guān)重要,充分利用多尺度特征圖的目標(biāo)信息可以使定位更準(zhǔn)確。正如3.1節(jié)中分析的,深層特征圖具有較大的感受野,能夠提供粗略的信息來確定目標(biāo)是否在視野中,淺層特征圖則有更小的感受野以及更加細(xì)節(jié)的特征,使得神經(jīng)網(wǎng)絡(luò)能夠更加細(xì)致地定位目標(biāo),這與人眼在定位圖像中物體時的原理相同。
基于以上討論,本文在精檢測階段結(jié)合各個分辨率下的特征圖,充分利用目標(biāo)的上下文信息,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2中檢測網(wǎng)絡(luò)部分所示。具體地,先將{F3,F4,F5}上采樣至F2大小(F2的尺寸為200×200,相對于輸入圖像的步長為4),然后將{F2,F3,F4,F5}堆疊成特征圖Dconcat,Dconcat中富含豐富的上下文信息,所有的候選區(qū)域都在Dconcat中裁剪特征(Dconcat尺寸為200×200)。為了保證檢測網(wǎng)絡(luò)的計算速度,在訓(xùn)練階段非極大抑制(non-maximum suppression,NMS)選取分?jǐn)?shù)高的12 000個回歸框,保留2 000個作為候選區(qū)域,在測試階段NMS選取分?jǐn)?shù)最高的10 000個回歸框并保留300個。在精檢測階段,多階段級聯(lián)檢測網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)及IoU閾值的設(shè)置方法均采用與Cascade R-CNN相同的方式。
通過級聯(lián)檢測的方式,復(fù)雜的檢測任務(wù)可以分解為一系列更簡單的檢測階段,前一個階段的輸出被視為下一階段的輸入。通俗地講,第i階段的損失函數(shù)可以表示為
(1)
(2)
其中調(diào)和參數(shù)α1,…,αN均設(shè)置為1。本文中采用與Cascade R-CNN相同的三階段級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),所以N=3。
本文在深度學(xué)習(xí)框架Pytorch上展開實驗,并使用預(yù)訓(xùn)練模型ResNet-50[27]初始化網(wǎng)絡(luò)。共訓(xùn)練70 000次迭代,初始學(xué)習(xí)率設(shè)為0.001,經(jīng)過25 000次迭代后學(xué)習(xí)率下降為0.000 1,經(jīng)過65 000次迭代后學(xué)習(xí)率下降為0.000 01。訓(xùn)練時網(wǎng)絡(luò)使用隨機梯度下降法對參數(shù)進(jìn)行優(yōu)化,動量設(shè)置為0.9,權(quán)重衰減率設(shè)置為0.001。訓(xùn)練集、驗證集和測試集的分割比例為60%、20%和20%。
4.1.1 模型
(二)有助于提高課堂教學(xué)效率。心理學(xué)研究表明,根據(jù)學(xué)習(xí)者的學(xué)習(xí)狀態(tài),學(xué)習(xí)可分為“被動學(xué)習(xí)”與“主動學(xué)習(xí)”兩類。在被動學(xué)習(xí)的狀態(tài)下,學(xué)習(xí)者往往缺乏學(xué)習(xí)的興趣、意義、效率和效果,他們只有學(xué)習(xí)的壓力而沒有學(xué)習(xí)的動力,只有學(xué)習(xí)的苦惱而沒有學(xué)習(xí)的快樂,而學(xué)生在主動學(xué)習(xí)狀態(tài)下所產(chǎn)生的學(xué)習(xí)效率則截然不同。面對同樣的“學(xué)習(xí)量”,主動學(xué)習(xí)者的學(xué)習(xí)時間短,學(xué)習(xí)質(zhì)量高,精神面貌也好。
基準(zhǔn)模型 本文針對發(fā)射井的目標(biāo)檢測模型是在Cascade R-CNN的基礎(chǔ)上改進(jìn)得到的,因此選擇Cascade R-CNN作為消融實驗的基準(zhǔn)模型,為保證實驗的公平性和準(zhǔn)確性,實驗參數(shù)設(shè)置保持嚴(yán)格一致。本文衡量模型性能的評價指標(biāo)為平均準(zhǔn)確率(mAP)。
FFM的作用 正如本文在3.1節(jié)中討論的,F(xiàn)FM使得網(wǎng)絡(luò)可以在訓(xùn)練過程中自動學(xué)習(xí)特征圖的融合方式,根據(jù)發(fā)射井的目標(biāo)特征信息學(xué)習(xí)到最佳的融合方式。本文將FFM的融合方式與逐像素相加的融合方式做了對比實驗,結(jié)果如表2所示。采用FFM模塊的融合方式后,檢測算法整體的mAP提升0.004% mAP,結(jié)果為96.029% mAP。雖然采用FFM模塊后整體檢測的mAP提升不明顯,但其仍在一定程度上發(fā)揮了積極的作用,這得益于它可優(yōu)化可學(xué)習(xí)的特點。
表2 算法消融實驗結(jié)果Table 2 Results of ablation experiments of algorithms
融合上下文信息的作用 在精檢測階段,為了充分利用特征圖中上下文信息,將多個分辨率的特征圖進(jìn)行堆疊,然后進(jìn)行后續(xù)檢測階段的操作。為了驗證堆疊特征圖的作用,將算法與FPN的策略做了對比實驗。實驗結(jié)果表明,相比于從各尺度特征圖中分別剪裁候選區(qū)域的策略,添加特征圖堆疊操作后,檢測算法mAP提升1.320% mAP,這得益于對上下文信息的充分利用。
4.1.2 數(shù)據(jù)集
本文構(gòu)建了首個用于導(dǎo)彈發(fā)射井目標(biāo)檢測的數(shù)據(jù)集,主要采用數(shù)據(jù)增強的方式來滿足數(shù)據(jù)集的多樣性、充分性和魯棒性。數(shù)據(jù)增強方式主要包括常規(guī)增強方式(翻轉(zhuǎn)、旋轉(zhuǎn))和目標(biāo)填充方式2種,本文對數(shù)據(jù)增強過程做了對比實驗。原始數(shù)據(jù)集經(jīng)過預(yù)處理后的大小為1 526張圖像,進(jìn)行常規(guī)增強方式后數(shù)據(jù)集大小為6 289張圖像,目標(biāo)填充后數(shù)據(jù)集大小為10 000張圖像。為保證實驗公平性,每次實驗采用的訓(xùn)練模型及參數(shù)設(shè)置均相同,訓(xùn)練集、驗證集和測試集的分割比例為60%、20%和20%。
表3中展示了數(shù)據(jù)集消融實驗的對比實驗結(jié)果,從表中結(jié)果可以看出在未進(jìn)行數(shù)據(jù)增強操作時,檢測的mAP較低,原因是深度學(xué)習(xí)模型需要在大量標(biāo)簽數(shù)據(jù)下進(jìn)行訓(xùn)練,未進(jìn)行擴充的數(shù)據(jù)集無法訓(xùn)練出性能好的模型。當(dāng)在進(jìn)行常規(guī)增強操作后的數(shù)據(jù)集上訓(xùn)練模型時,算法檢測性能明顯提升,整體提升41.93% mAP,這得益于數(shù)據(jù)集多樣性的提高。
表3 數(shù)據(jù)集消融實驗結(jié)果Table 3 Results of ablation experiments of dataset
從對比實驗結(jié)果看出,添加了目標(biāo)填充的增強方式后,在發(fā)射井目標(biāo)檢測任務(wù)中,檢測性能有所下降。這是因為添加了目標(biāo)填充的圖像后,數(shù)據(jù)集復(fù)雜性更高,算法在復(fù)雜場景下檢測出發(fā)射井的難度更大。但是本文采用目標(biāo)填充的方式,目的是要在模型訓(xùn)練過程中使得算法更加魯棒,以便提高在實際復(fù)雜場景中檢測時的性能,在構(gòu)建數(shù)據(jù)集的過程中,這一操作是十分必要的。
表4 多尺度檢測召回率結(jié)果Table 4 The results of multi-scale detection recall
圖3展示了本文提出的算法和Cascade R-CNN的漏檢情況對比樣例。圖3(a)和3(b)分別是本文的算法在尺度5和尺度6下的檢測結(jié)果與Cascade R-CNN在相應(yīng)尺度下檢測結(jié)果的對比,可以看出對于相同的目標(biāo),Cascade R-CNN存在漏檢,本文的算法可以檢測出來。同時發(fā)現(xiàn),對于小尺度半淹沒的發(fā)射井目標(biāo),本文的算法也存在漏檢,如圖3(c),推測這是因為數(shù)據(jù)集中半淹沒形態(tài)的發(fā)射井樣本較少,未得到充分的訓(xùn)練。在Google Earth中不同分辨率下的圖像代表了發(fā)射井的不同尺度,實驗表明,當(dāng)分辨率高于1.20 m時,本文的算法可以較準(zhǔn)確地檢測出發(fā)射井目標(biāo)。
圖3 多尺度檢測結(jié)果對比圖Fig.3 Comparison of multi-scale detection results
多狀態(tài) 對不同狀態(tài)下的發(fā)射井進(jìn)行檢測實驗,結(jié)果如圖4。發(fā)射井有突顯和半淹沒2種常見形態(tài),在一定尺度下,本文模型可以有效地檢測出這2種形態(tài)的發(fā)射井目標(biāo)。同時,在某些情況下只有部分發(fā)射井結(jié)構(gòu)存在于圖片中,對于這種截斷的情況,本文的算法也可以有效地檢測出來,這為算法的實際可落地性提供了佐證。
圖4 多狀態(tài)發(fā)射井檢測結(jié)果Fig.4 Multi-state well buildings detection results
魯棒性 實驗對算法的魯棒性進(jìn)行了測試。將發(fā)射井目標(biāo)截取出來,填充到復(fù)雜背景的遙感圖像中,本文的算法能夠?qū)?fù)雜背景下的發(fā)射井目標(biāo)檢測出來,并且不存在將非目標(biāo)誤檢為發(fā)射井的情況,這表明本文的算法適用于復(fù)雜背景下的檢測任務(wù),可以有效應(yīng)用于實際檢測任務(wù)中。
4.3.1 算法對比
本文將算法與幾種主流的目標(biāo)檢測算法進(jìn)行了對比實驗,表5展示各個算法的檢測精度和速度,實驗時輸入圖像分辨率均為800×800。除主流的自然場景目標(biāo)檢測方法外,還與ICN[28]算法進(jìn)行對比,ICN是針對遙感圖像提出的多尺度目標(biāo)檢測算法。從實驗結(jié)果看出,本文算法的檢測結(jié)果超過ICN 0.14% mAP。在檢測精度方面超出Cascade R-CNN 1.32% mAP,最終檢測結(jié)果為97.35% mAP。在檢測速度方面,雖然比其他典型的目標(biāo)檢測算法速度慢,但與Cascade R-CNN的檢測速度幾乎相同。因此,本文的算法在保證檢測速度的同時,提高了Cascade R-CNN的檢測效果,并超過目前大部分主流算法,有效解決了發(fā)射井目標(biāo)檢測問題。
表5 檢測算法對比結(jié)果Table 5 The results of different algorithms
4.3.2 多類別檢測性能評估
為測試算法的魯棒性,在DOTA[29]遙感數(shù)據(jù)集上測試了算法的性能。DOTA遙感數(shù)據(jù)集是一個大型公開的遙感數(shù)據(jù)集,包含2 806張航拍圖像,這些圖像來自于不同的傳感器和平臺,主要來自于Google Earth,還有一些來自于高分二號等衛(wèi)星的數(shù)據(jù)。DOTA數(shù)據(jù)集的目標(biāo)包含各種各樣的規(guī)模、位置、形狀,共15個類別,188 282個實例。
在實驗過程中,分別將圖3網(wǎng)絡(luò)中的特征圖C2、F2和Dconcat提取出來,進(jìn)行可視化分析,結(jié)果在圖9(b)~9(d)中展示出來。本文采用特征圖的熱力圖進(jìn)行可視化分析,熱力圖反映了特征圖中像素值的大小,由于不同的特征圖數(shù)據(jù)分布情況不同,熱力圖的響應(yīng)度大小會有所差異。同時,由于F2和Dconcat是多個特征圖加和所得,其熱力圖存在負(fù)值情況。觀察圖5中不同特征圖中的響應(yīng)差異,可以發(fā)現(xiàn)相比于C2和F2,多尺度特征圖堆疊后得到的特征圖Dconcat中具有更突出的特征信息,語義信息更強。這也進(jìn)一步證明了,充分利用上下文信息,有助于突出目標(biāo)特征信息。
圖5 特征圖可視化Fig.5 Feature map visualization
本文在DOTA數(shù)據(jù)集上測試算法性能,主要目的是檢驗算法在多類別目標(biāo)和復(fù)雜場景下的魯棒性,不希望其將非發(fā)射井目標(biāo)誤判為發(fā)射井。同時,為了展現(xiàn)算法的優(yōu)越性,我們也對Cascade R-CNN算法做了相同的實驗。本文在推理預(yù)測時在DOTA數(shù)據(jù)集上進(jìn)行實驗。Cascade R-CNN算法進(jìn)行推理時,存在誤檢的情況,圖6展示出其誤檢的目標(biāo)情況,而本文提出的模型不存在任何誤檢的情況。究其原因,是因為Cascade R-CNN算法在提取候選區(qū)域時沒有融合上下文目標(biāo)的信息,對于目標(biāo)特征的提取不夠充分,導(dǎo)致存在誤檢的情況。本文的算法具有較高的魯棒性,不僅在構(gòu)建的發(fā)射井?dāng)?shù)據(jù)集上實現(xiàn)了較高的準(zhǔn)確率,而且在復(fù)雜場景下也表現(xiàn)良好。
本文針對多尺度導(dǎo)彈發(fā)射井目標(biāo)檢測問題提出有效的解決方法。在數(shù)據(jù)層面,建立了首個用于導(dǎo)彈發(fā)射井目標(biāo)檢測任務(wù)的數(shù)據(jù)集,在該數(shù)據(jù)集上可進(jìn)行檢測模型的有效訓(xùn)練。同時,該數(shù)據(jù)集可為后續(xù)相關(guān)領(lǐng)域的研究提供支持。在算法層面,設(shè)計了適用于多尺度發(fā)射井目標(biāo)檢測的模型,有效地解決了發(fā)射井檢測問題,檢測結(jié)果超過目前經(jīng)典算法。