王智睿 康玉卓 曾 璇 汪越雷 張 汀 孫 顯*④
①(中國(guó)科學(xué)院空天信息創(chuàng)新研究院 北京 100094)
②(中國(guó)科學(xué)院大學(xué) 北京 100049)
③(中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院 北京 100049)
④(中國(guó)科學(xué)院網(wǎng)絡(luò)信息體系技術(shù)科技創(chuàng)新重點(diǎn)實(shí)驗(yàn)室 北京 100190)
合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)是一種主動(dòng)式的微波成像系統(tǒng),它不受光照、云霧和氣候等自然條件影響,具備全天時(shí)、全天候?qū)Φ赜^測(cè)的能力,已成為遙感領(lǐng)域重要的信息獲取平臺(tái)[1]。近年來(lái),隨著遙感成像技術(shù)的蓬勃發(fā)展和SAR衛(wèi)星在軌數(shù)量的不斷增加,SAR系統(tǒng)獲取數(shù)據(jù)的數(shù)量和質(zhì)量得到顯著提升,促進(jìn)了SAR在相關(guān)領(lǐng)域的發(fā)展和應(yīng)用[2]。海量的高分辨率數(shù)據(jù)為SAR圖像精細(xì)化理解提供了豐富的數(shù)據(jù)基礎(chǔ)與支撐[3,4]。
目標(biāo)檢測(cè)和識(shí)別是SAR圖像智能化解譯的重要一環(huán)。飛機(jī)作為SAR圖像中的典型目標(biāo),數(shù)量較多、種類豐富,具有較大的觀測(cè)價(jià)值[5]?;赟AR圖像的飛機(jī)檢測(cè)識(shí)別能獲取飛機(jī)目標(biāo)的型號(hào)、種類、位置、狀態(tài)等信息,可有效輔助重點(diǎn)區(qū)域動(dòng)態(tài)監(jiān)視、態(tài)勢(shì)分析、緊急救援等應(yīng)用。因此,利用高分辨率SAR圖像對(duì)飛機(jī)目標(biāo)進(jìn)行檢測(cè)識(shí)別具有重要的研究意義[6]。
近年來(lái),隨著深度學(xué)習(xí)理論和技術(shù)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的方法在SAR圖像目標(biāo)檢測(cè)識(shí)別領(lǐng)域取得了較大進(jìn)展[7,8]。在SAR飛機(jī)檢測(cè)識(shí)別方面,Zhao等人[9]提出一種多分支空洞卷積特征金字塔方法,通過(guò)建立密集連接來(lái)減少冗余信息并突出飛機(jī)的重要特征。文獻(xiàn)[10]設(shè)計(jì)了一個(gè)注意力模塊來(lái)融合細(xì)化低層紋理特征和高層語(yǔ)義特征,進(jìn)一步提高飛機(jī)檢測(cè)率。在SAR艦船檢測(cè)識(shí)別任務(wù)中,文獻(xiàn)[11,12]通過(guò)直接學(xué)習(xí)回歸框的位置,來(lái)減少對(duì)預(yù)定義框超參數(shù)的依賴,并且進(jìn)一步實(shí)現(xiàn)艦船目標(biāo)的細(xì)粒度識(shí)別。海上艦船容易與海面形成強(qiáng)反射的二面角,在SAR圖像中通常呈現(xiàn)為輪廓完整、連通性強(qiáng)的強(qiáng)散射點(diǎn)集合。相比海上艦船,陸地飛機(jī)目標(biāo)尺寸較小,特征不容易提取,散射點(diǎn)之間較為離散[13,14],準(zhǔn)確定位和識(shí)別的難度較大。
在實(shí)際場(chǎng)景中,SAR飛機(jī)檢測(cè)識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。首先,如圖1(a)所示,目標(biāo)容易受到航站樓和停機(jī)坪等周圍背景的干擾,使得具有相似散射視覺(jué)屬性的物體被識(shí)別為飛機(jī)目標(biāo),導(dǎo)致出現(xiàn)虛警和漏警的現(xiàn)象[15]。其次,如圖1(b)所示,SAR圖像中飛機(jī)由一系列離散的不規(guī)則散射中心亮斑組成,呈現(xiàn)出散射強(qiáng)弱不一致的情況,目標(biāo)容易被分割成多個(gè)離散的部件[16],導(dǎo)致SAR飛機(jī)檢測(cè)結(jié)果的不完整。此外,如圖1(c)所示,在不同的成像角度下,同一目標(biāo)會(huì)呈現(xiàn)出不同的視覺(jué)特征,類內(nèi)差異大,增加了飛機(jī)識(shí)別的難度[17]。
圖1 SAR飛機(jī)檢測(cè)識(shí)別中的挑戰(zhàn)Fig.1 The challenges in SAR aircraft detection and recognition
針對(duì)SAR圖像中背景干擾嚴(yán)重和飛機(jī)散射點(diǎn)離散問(wèn)題,本文提出了一種散射感知網(wǎng)絡(luò)(Scattering-Aware Network,SA-Net)用于復(fù)雜SAR圖像中飛機(jī)目標(biāo)的檢測(cè)和識(shí)別。一方面,通過(guò)上下文引導(dǎo)的特征金字塔模塊來(lái)增強(qiáng)全局信息,抑制復(fù)雜場(chǎng)景中的強(qiáng)干擾,增強(qiáng)目標(biāo)的可辨別特征,提高檢測(cè)識(shí)別的準(zhǔn)確率。另一方面,利用散射關(guān)鍵點(diǎn)對(duì)目標(biāo)進(jìn)行定位,設(shè)計(jì)散射感知檢測(cè)模塊將關(guān)鍵點(diǎn)的分布特性與神經(jīng)網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)對(duì)回歸框的細(xì)化校正,提高目標(biāo)定位的準(zhǔn)確性。為了驗(yàn)證SA-Net的有效性,本文構(gòu)建了一個(gè)面向大規(guī)模復(fù)雜場(chǎng)景的SAR飛機(jī)數(shù)據(jù)集,命名為SAR-AIRcraft-1.0?;谠摂?shù)據(jù)集,本文將幾種常用的深度神經(jīng)網(wǎng)絡(luò)模型和SA-Net進(jìn)行了一系列檢測(cè)識(shí)別對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,SANet方法的mAP0.5指標(biāo)達(dá)到了77.7%,相比其他方法有較大的提升,證明了散射感知方法的優(yōu)異性能。SAR-AIRcraft-1.0數(shù)據(jù)集已公開(kāi)發(fā)布在《雷達(dá)學(xué)報(bào)》官網(wǎng)中(https://radars.ac.cn/web/data/getData?newsColumnId=f896637b-af23-4209-8bcc-9320 fceaba19),為SAR飛機(jī)檢測(cè)、細(xì)粒度識(shí)別、檢測(cè)識(shí)別一體化等不同任務(wù)研究提供了數(shù)據(jù)基礎(chǔ)。
目前公開(kāi)的SAR檢測(cè)識(shí)別數(shù)據(jù)集多數(shù)以艦船目標(biāo)為主,如表1所示,其中包含了MSTAR (The Moving and Stationary Target Acquisition and Recognition)[18],OpenSARShip[19],SSDD (SAR Ship Detection Dataset)[20],SAR-Ship-Dataset[21],AIR-SARShip-1.0[22],HRSID (High-Resolution SAR Images Dataset)[23],FUSAR-Ship[24]。相比之下,SAR飛機(jī)目標(biāo)檢測(cè)識(shí)別數(shù)據(jù)集較為有限,公開(kāi)報(bào)道的數(shù)據(jù)集有SADD (SAR Aircraft Detection Dataset)[25]和MSAR-1.0 (large-scale Multi-class SAR image target detection dataset-1.0)[26]。SADD是SAR飛機(jī)檢測(cè)數(shù)據(jù)集,采集自TerraSARX衛(wèi)星,包含2,966張圖像切片。MSAR-1.0是大規(guī)模多類SAR目標(biāo)檢測(cè)數(shù)據(jù)集,包括飛機(jī)、油罐、橋梁和艦船4類目標(biāo)。這些數(shù)據(jù)促進(jìn)了神經(jīng)網(wǎng)絡(luò)在SAR飛機(jī)目標(biāo)檢測(cè)領(lǐng)域的發(fā)展。然而,SADD和MSAR-1.0數(shù)據(jù)集僅包含飛機(jī)目標(biāo)的位置信息,缺少飛機(jī)細(xì)粒度類別的標(biāo)注信息,限制了SAR飛機(jī)識(shí)別領(lǐng)域的進(jìn)一步發(fā)展。
表1 SAR-AIRcraft-1.0數(shù)據(jù)集與其他SAR目標(biāo)檢測(cè)識(shí)別數(shù)據(jù)集的比較Tab.1 Comparison between the SAR-AIRcraft-1.0 dataset and other SAR object detection datasets
為了驗(yàn)證SA-Net方法的有效性、同時(shí)促進(jìn)SAR飛機(jī)目標(biāo)檢測(cè)與識(shí)別研究的發(fā)展,本文構(gòu)建了一個(gè)面向大規(guī)模復(fù)雜場(chǎng)景的SAR飛機(jī)目標(biāo)公開(kāi)數(shù)據(jù)集,命名為SAR-AIRcraft-1.0。該數(shù)據(jù)集分辨率為1 m,包含4,368張飛機(jī)切片,涉及7種細(xì)粒度飛機(jī)類型,具有場(chǎng)景復(fù)雜、類別豐富、目標(biāo)密集、噪聲干擾、任務(wù)多樣、多尺度性的特點(diǎn),已公開(kāi)發(fā)布在《雷達(dá)學(xué)報(bào)》官網(wǎng)中(數(shù)據(jù)集下載鏈接,供更多學(xué)者免費(fèi)下載使用,開(kāi)展進(jìn)一步的研究。
SAR-AIRcraft-1.0數(shù)據(jù)集中所有圖像采集自高分三號(hào)衛(wèi)星,極化方式為單極化,空間分辨率為1 m,成像模式為聚束式。綜合考慮機(jī)場(chǎng)規(guī)模和停放飛機(jī)的數(shù)量,數(shù)據(jù)集主要選用上海虹橋機(jī)場(chǎng)、北京首都機(jī)場(chǎng)、臺(tái)灣桃園機(jī)場(chǎng)3 個(gè)民用機(jī)場(chǎng)的影像數(shù)據(jù),包含800×800,1000×1000,1200×1200和1500×1500共4種不同尺寸,共有4,368張圖片和16,463個(gè)飛機(jī)目標(biāo)實(shí)例。飛機(jī)的具體類別包含了A220,A320/321,A330,ARJ21,Boeing737,Boeing787,other,各個(gè)類別的實(shí)例以及數(shù)量如圖2和圖3所示,其中other表示不屬于其余6個(gè)類別的飛機(jī)實(shí)例。此外,該數(shù)據(jù)集具有以下特點(diǎn):
圖2 不同類別SAR飛機(jī)和光學(xué)飛機(jī)樣本示例Fig.2 SAR and optical aircrafts of different categories
圖3 各個(gè)類別的實(shí)例數(shù)量Fig.3 The quantity of each type of instances
(1) 場(chǎng)景復(fù)雜:數(shù)據(jù)集包含多個(gè)民用機(jī)場(chǎng)不同時(shí)相的圖像,這些圖像覆蓋面積大,背景中包含了航站樓、車輛、建筑物等設(shè)施,增加了數(shù)據(jù)集場(chǎng)景的復(fù)雜性。
(2) 類別豐富:不同于一般的SAR飛機(jī)數(shù)據(jù)集,SAR-AIRcraft-1.0數(shù)據(jù)集包含了飛機(jī)目標(biāo)的細(xì)粒度類別信息。此外,不同類別之間相似的散射表征增加了飛機(jī)識(shí)別的難度。
(3) 目標(biāo)密集:一張切片圖像中包含多個(gè)飛機(jī)目標(biāo),如圖1(a),多個(gè)飛機(jī)目標(biāo)停靠在航站樓附近,分布較為密集,目標(biāo)之間存在互相干擾,影響檢測(cè)識(shí)別的準(zhǔn)確率。
(4) 噪聲干擾:由于SAR的成像特性,圖像中存在著一些相干斑噪聲的干擾,給飛機(jī)目標(biāo)準(zhǔn)確檢測(cè)和識(shí)別帶來(lái)一定的挑戰(zhàn)。
(5) 任務(wù)多樣:該數(shù)據(jù)集不僅支持檢測(cè)任務(wù),同時(shí)包含了類別信息,通過(guò)對(duì)數(shù)據(jù)集中飛機(jī)目標(biāo)進(jìn)行裁剪,得到多類別的目標(biāo)切片,進(jìn)而可以實(shí)現(xiàn)飛機(jī)的細(xì)粒度識(shí)別。此外,位置和類別信息的存在,使其可以應(yīng)用在檢測(cè)識(shí)別一體化任務(wù)中。
(6) 多尺度性:該數(shù)據(jù)集中飛機(jī)目標(biāo)切片的尺寸分布跨度廣。如圖4所示,有一部分目標(biāo)尺寸在50×50以下,也有一部分飛機(jī)目標(biāo)尺寸在100×100以上,整體呈現(xiàn)出目標(biāo)多尺度的特點(diǎn)。
圖4 飛機(jī)目標(biāo)的尺寸分布Fig.4 The size distribution of aircraft targets
在實(shí)例的標(biāo)注方面,SAR-AIRcraft-1.0數(shù)據(jù)集中所有實(shí)例目標(biāo)均使用水平矩形框進(jìn)行標(biāo)注,與Pascal VOC格式保持一致。圖5(a)展示了帶標(biāo)注的目標(biāo)示例,其中橘色矩形表示標(biāo)注框,每個(gè)矩形左上角名稱表示該目標(biāo)的類別。每張圖像都有對(duì)應(yīng)的XML文件,如圖5(b)所示,其中每個(gè)XML文件包括圖像尺寸大小和實(shí)例的詳細(xì)信息,如類別和標(biāo)注框的坐標(biāo)等。“size”表示切片的長(zhǎng)度和寬度,“name”表示飛機(jī)類別,“bndbox”表示每個(gè)矩形標(biāo)注框的坐標(biāo)信息。以圖像的左上角為原點(diǎn),“xmin”和“xmax”分別表示X坐標(biāo)的最小和最大位置,“ymin”和“ymax”分別表示Y坐標(biāo)的最小和最大位置。
圖5 數(shù)據(jù)集標(biāo)注示意圖Fig.5 The annotated results in the dataset
在實(shí)際訓(xùn)練過(guò)程中,將SAR-AIRcraft-1.0數(shù)據(jù)集中的圖像按照7∶1∶2比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)集包含不同機(jī)場(chǎng)的多時(shí)相圖像,覆蓋面積大、背景復(fù)雜。此外,由于SAR的成像機(jī)理,同一場(chǎng)景不同成像角度獲得的圖像也有明顯的差異,這增加了場(chǎng)景的復(fù)雜性。因此,該數(shù)據(jù)集在檢測(cè)識(shí)別方面具有較大的挑戰(zhàn)性。
針對(duì)背景中存在強(qiáng)散射干擾的問(wèn)題,本文提出了結(jié)合散射感知的SAR圖像飛機(jī)目標(biāo)檢測(cè)識(shí)別一體化的方法??傮w框架如圖6所示,提出的方法基于無(wú)錨框(anchor-free)算法的結(jié)構(gòu),主要由上下文引導(dǎo)的特征金字塔網(wǎng)絡(luò)(Context-Guided Feature Pyramid Network,CG-FPN)和散射感知檢測(cè)頭(Scattering-Aware detection Head,SA-Head)兩個(gè)部分組成。
圖6 提出方法的整體結(jié)構(gòu)Fig.6 The overall structure of the proposed method
在特征提取網(wǎng)絡(luò)中,考慮到背景干擾對(duì)目標(biāo)特征的影響,本文提出了改進(jìn)的特征金字塔模塊用于增強(qiáng)全局信息并減少虛警。通過(guò)自適應(yīng)調(diào)整感受野大小,CG-FPN能夠有效結(jié)合周圍信息并增強(qiáng)目標(biāo)的顯著性。
在定位階段,SA-Head結(jié)合了散射感知檢測(cè)模塊中兩階段級(jí)聯(lián)回歸,以確保預(yù)測(cè)的回歸框更加準(zhǔn)確。首先,在得到目標(biāo)的散射關(guān)鍵點(diǎn)之后,利用它們的位置來(lái)獲得目標(biāo)粗略回歸框。之后利用散射引導(dǎo)的自適應(yīng)檢測(cè)頭模塊,將粗略回歸框進(jìn)一步精細(xì)定位,得到位置更準(zhǔn)確的檢測(cè)框。
上下文引導(dǎo)的特征金字塔模塊整體結(jié)構(gòu)如圖7所示。假設(shè)輸入圖像為I ∈RW×H×3,其中W和H表示輸入圖像的寬度和高度。通過(guò)對(duì)輸入圖像進(jìn)行下采樣,得到不同層的特征Pl,該特征的大小為(W/sl)×(H/sl)×C,其中sl=2l表 示第l(l=3,4,5)層特征的下采樣率,C設(shè)為256。為了獲取最深層的特征,將特征{P3,P4,P5,P6}壓縮調(diào)整(resize)到P7的大小,并通過(guò)通道合并(concat)連接起來(lái)。
圖7 上下文引導(dǎo)的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 The framework of context-guided feature pyramid network
此外,CG-FPN在融合之后的深層特征上采用不同比率(rate=3,6,12,18,24)空洞卷積[11],并通過(guò)每一層特征的密集連接來(lái)聚合多尺度語(yǔ)義信息。如圖7所示,每個(gè)空洞卷積的輸出都被添加到復(fù)制的輸入特征中,與前一層特征整合后輸入到下一層的空洞卷積層。最后,原始特征經(jīng)過(guò)上采樣后與空洞卷積的輸出特征進(jìn)行融合,保持原始特征有助于幫助網(wǎng)絡(luò)記憶之前的功能,進(jìn)而得到包含了淺層細(xì)節(jié)和深層語(yǔ)義信息的特征圖。
除了不同層特征之間的融合,CG-FPN希望引入不同通道特征的交互融合。借鑒SENet通道注意力思想[27],首先使用全局平均池化[28]來(lái)壓縮空間維度以獲得全局信息;之后將每個(gè)特征通道的權(quán)重經(jīng)過(guò)自適應(yīng)調(diào)整,用以反映不同通道之間的相關(guān)性;最后將不同的權(quán)重系數(shù)與對(duì)應(yīng)原始特征進(jìn)行相乘,得到修正的特征。
為了獲得更多的語(yǔ)義和全局信息,CG-FPN將注意力特征圖A與特征P7連接起來(lái)。在此基礎(chǔ)上,將低分辨率特征與上一層對(duì)應(yīng)的特征融合,生成信息豐富的特征。最后,通過(guò)一個(gè)3×3卷積層輸出最終的特征圖Tl ∈R(W/sl)×(H/sl)×256,該過(guò)程計(jì)算如下:
3.3.1 粗略定位
本文提出了一種散射感知檢測(cè)頭模塊,它結(jié)合散射點(diǎn)的分布關(guān)系來(lái)解決離散性問(wèn)題。該模塊包含定位分支和分類分支,如圖8所示,這兩個(gè)分支的卷積層是沒(méi)有共享的。將特征提取網(wǎng)絡(luò)的l(l=3,4,5,6,7)層 輸出特征作為兩個(gè)分支的輸入特征。
圖8 散射感知檢測(cè)頭的結(jié)構(gòu)Fig.8 The structure of scattering-aware detection head
在定位分支中,Tl首先經(jīng)過(guò)3個(gè)3×3的卷積層來(lái)獲得同樣尺寸大小的中間特征。然后該特征通過(guò)一個(gè)256維3×3卷積層和一個(gè)18維1×1卷積層來(lái)生成偏移域
受DenseBox[29]的啟發(fā),使用中心點(diǎn)的偏移量來(lái)得到第1次預(yù)測(cè)的散射關(guān)鍵點(diǎn)S1,其位置為
為了反映飛機(jī)散射點(diǎn)之間的位置關(guān)系,采用監(jiān)督學(xué)習(xí)的方式對(duì)飛機(jī)目標(biāo)散射關(guān)鍵點(diǎn)的空間位置分布進(jìn)行回歸更新。散射關(guān)鍵點(diǎn)的真值坐標(biāo)獲取如下[17]:首先利用Harris角點(diǎn)檢測(cè)器[30]提取散射強(qiáng)度高的點(diǎn)來(lái)反映結(jié)構(gòu)輪廓。之后使用K-Means算法[31]將提取的點(diǎn)分成9個(gè)簇,并得到9個(gè)聚類關(guān)鍵點(diǎn)相對(duì)于飛機(jī)切片中心點(diǎn)的位置偏移。這個(gè)過(guò)程可以去除冗余點(diǎn)進(jìn)而得到規(guī)則的結(jié)構(gòu)。其中,本文的飛機(jī)切片是根據(jù)如圖5所示的真值框(橙色框)進(jìn)行裁切,對(duì)應(yīng)的XML中包含了真值框的坐標(biāo)。因此,飛機(jī)切片的坐標(biāo)信息可以通過(guò)XML得到,聚類關(guān)鍵點(diǎn)的坐標(biāo)信息可通過(guò)XML和位置偏移得到。本文將最終得到的9個(gè)聚類中心作為散射關(guān)鍵點(diǎn)的真值坐標(biāo)。這些點(diǎn)體現(xiàn)了飛機(jī)的散射強(qiáng)度和結(jié)構(gòu)特征分布,可以為目標(biāo)的判別提供有效信息。
3.3.2 精細(xì)定位
在檢測(cè)過(guò)程中,本文首先獲取目標(biāo)的關(guān)鍵點(diǎn)坐標(biāo),得到其粗略位置。然而,由于散射機(jī)制的影響,目標(biāo)中散射密度較低的組件容易被粗略回歸框遺漏,導(dǎo)致檢測(cè)框不夠準(zhǔn)確。因此,SA-Head通過(guò)精細(xì)定位來(lái)進(jìn)一步得到更精確的回歸框。
在分類分支中,特征Tl首先通過(guò)3個(gè)3×3卷積層以提取原始特征的高層類別語(yǔ)義信息,和定位分支類似,接下來(lái)經(jīng)過(guò)一個(gè)偏移量為 OF1的可變形卷積層和一個(gè)1×1卷積層對(duì)目標(biāo)的類別表征信息進(jìn)行優(yōu)化與修正,使得更加關(guān)注SAR飛機(jī)目標(biāo)的重要散射部分,提高飛機(jī)的顯著性,從而增強(qiáng)分類分支的識(shí)別能力。總體而言,散射感知的檢測(cè)頭模塊結(jié)合了anchor-free框架的特點(diǎn),利用關(guān)鍵點(diǎn)解碼得到目標(biāo)框。
總的訓(xùn)練損失函數(shù)可以分為4部分:
其中,Lloc1和Lloc2分別是第1個(gè)和第2個(gè)預(yù)測(cè)框與目標(biāo)框真值的損失。Lloc計(jì)算如下:
其中,n代表目標(biāo)Q的真值關(guān)鍵點(diǎn),m代表目標(biāo)Q的預(yù)測(cè)關(guān)鍵點(diǎn)。在損失函數(shù)不斷收斂后,模型將得到很好的訓(xùn)練精度。
Lcls為分類損失,采用Focal Loss[34]函數(shù),通過(guò)調(diào)整正負(fù)樣本的權(quán)重,以緩解樣本不平衡。
其中,μt=0.25和γ=2 為式(10)的參數(shù),(1-ct)γ為調(diào)節(jié)因子,ct為對(duì)應(yīng)的分類得分。
在第4節(jié)中,首先在SAR飛機(jī)檢測(cè)、細(xì)粒度識(shí)別、檢測(cè)識(shí)別一體化等不同任務(wù)中,將提出方法與先進(jìn)方法進(jìn)行比較,驗(yàn)證SA-Net有效性,同時(shí)為提供數(shù)據(jù)集的指標(biāo)基準(zhǔn)。之后,對(duì)提出的方法進(jìn)行消融實(shí)驗(yàn)對(duì)比,并詳細(xì)地分析了實(shí)驗(yàn)效果,對(duì)未來(lái)工作進(jìn)行展望。
4.1.1 實(shí)驗(yàn)細(xì)節(jié)
本文選取在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的Res-Net-50[35]來(lái)初始化模型。單次訓(xùn)練的樣本個(gè)數(shù)設(shè)置為8,采用隨機(jī)梯度下降算法訓(xùn)練模型。初始學(xué)習(xí)率被設(shè)置為0.001,在訓(xùn)練40輪次后下降到0.0001以加快模型的收斂速度。所有實(shí)驗(yàn)均在16 GB NVIDIA Tesla P100 GPU環(huán)境下進(jìn)行。為了進(jìn)行公平的比較,本文在后續(xù)檢測(cè)實(shí)驗(yàn)中保持相同的設(shè)置。
4.1.2 目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)
為了定量評(píng)價(jià)算法的性能,本文指標(biāo)包含準(zhǔn)確率P和召回率R,其計(jì)算式如式(11)和式(12)所示:
其中,NTP表示正確檢測(cè)到的目標(biāo)數(shù)量,NFP表示檢測(cè)結(jié)果為真,但是真實(shí)標(biāo)簽為負(fù)例的虛警。NFN表示檢測(cè)結(jié)果為假,但是真實(shí)標(biāo)簽為正例的漏警。本文采用 F1值來(lái)更完善評(píng)估算法的性能,其公式定義如下:
此外,本文采用了準(zhǔn)確率召回率曲線(Precision-Recall Curve,PRC)和平均準(zhǔn)確率(Average Precision,AP)。通過(guò)按照置信度的降序?qū)︻A(yù)測(cè)進(jìn)行排序,在不同的步驟計(jì)算準(zhǔn)確率召回率對(duì),可以繪制PRC。AP反映了PRC的形狀,可以綜合評(píng)價(jià)算法的性能。AP指在一組召回率S={0,0.01,0.02,···,1.00}下,最大準(zhǔn)確率的平均值,具體計(jì)算如式(14)所示:
4.1.3 實(shí)驗(yàn)對(duì)比
目標(biāo)檢測(cè)是SAR影像領(lǐng)域的一項(xiàng)基本任務(wù),本文利用SAR-AIRcraft-1.0數(shù)據(jù)集對(duì)幾種通用的基準(zhǔn)檢測(cè)方法進(jìn)行了訓(xùn)練和測(cè)試,包括Faster R-CNN(Faster Region Convolutional Neural Networks)[36]、Cascade R-CNN[37]雙階段卷積神經(jīng)網(wǎng)絡(luò)。近年來(lái),一些無(wú)錨框單階段檢測(cè)方法的設(shè)計(jì)能夠大大降低網(wǎng)絡(luò)對(duì)錨框的參數(shù)敏感性,因此本文對(duì)比了Reppoints[38]經(jīng)典無(wú)錨框方法和一種SAR目標(biāo)檢測(cè)方法SKG-Net[1]。數(shù)據(jù)利用方面,將所有飛機(jī)目標(biāo)作為正樣本,背景作為負(fù)樣本,將所有的飛機(jī)目標(biāo)視為一類。表2展示了不同檢測(cè)器下飛機(jī)目標(biāo)的準(zhǔn)確率、召回率、F1值、AP0.5和AP0.75指標(biāo),從中可以看出,SA-Net在不同閾值下的精度均取得了最高值,體現(xiàn)了方法的有效性。
表2 不同方法的檢測(cè)結(jié)果(%)Tab.2 The detection results of different methods (%)
在上述檢測(cè)方法中,考慮到SAR飛機(jī)目標(biāo)的稀疏性,大多數(shù)錨框都是冗余的,無(wú)錨框檢測(cè)算法在AP0.5上取得了較優(yōu)異的效果,Reppoints與SKGNet分別達(dá)到了80.3%和79.8%。其原因可能在于無(wú)錨框方法減少了矩形框內(nèi)背景雜波的干擾,使得目標(biāo)語(yǔ)義信息變得更加明確。然而,Reppoints與SKG-Net檢測(cè)器結(jié)果中的假陽(yáng)性樣本(虛警)數(shù)量相對(duì)有錨框方法變得更多,導(dǎo)致檢測(cè)準(zhǔn)確率下降。在雙階段檢測(cè)方法中,具有級(jí)聯(lián)結(jié)構(gòu)的Cascade RCNN相對(duì)于Faster R-CNN進(jìn)一步提升了平均精度以及各項(xiàng)指標(biāo)。圖9展示了本文方法和先進(jìn)方法對(duì)比的測(cè)試結(jié)果可視化,從圖中可以看出,F(xiàn)aster R-CNN、Reppoints和Cascade R-CNN均存在虛警(黃色)和漏警(藍(lán)色框)的情形,而SA-Net有效地減少了漏警和虛警的情況,驗(yàn)證了本文方法較好的檢測(cè)性能。
圖9 可視化結(jié)果展示Fig.9 The visualization results
4.2.1 數(shù)據(jù)描述
本文按照SAR-AIRcraft-1.0數(shù)據(jù)集中的標(biāo)注框?qū)?shí)例目標(biāo)進(jìn)行了裁剪,得到一系列的實(shí)例樣本,對(duì)應(yīng)的具體數(shù)量如表3所示。并選擇7類不同的飛機(jī)標(biāo)簽,包括A330,A320/321,A220,ARJ21,Boeing737,Boeing787和other,來(lái)進(jìn)行細(xì)粒度識(shí)別實(shí)驗(yàn)。
表3 不同類別實(shí)例目標(biāo)的數(shù)量Tab.3 The number of instance targets of different categories
4.2.2 細(xì)粒度識(shí)別評(píng)價(jià)指標(biāo)
為了量化細(xì)粒度識(shí)別任務(wù)的性能,本文使用識(shí)別準(zhǔn)確率作為評(píng)估指標(biāo)。其對(duì)應(yīng)的計(jì)算公式如式(15)所示:
其中,NCi和Nall分別代表Ci類別識(shí)別正確的樣本數(shù)量和樣本總數(shù)。
4.2.3 實(shí)驗(yàn)對(duì)比
本文采用ResNet-50,ResNet-101,ResNeXt-50,ResNeXt-101[39]和Swin Transformer[40]在SARAIRcraft-1.0數(shù)據(jù)集上開(kāi)展了相關(guān)實(shí)驗(yàn)。本文選取了訓(xùn)練集中50%的數(shù)據(jù)用于模型訓(xùn)練,對(duì)應(yīng)的細(xì)粒度識(shí)別結(jié)果展示在表4中,從中可以看出ResNet-101的效果優(yōu)于ResNet-50。ResNeXt系列模型在top-1的識(shí)別準(zhǔn)確率上均達(dá)到了很好的性能。Swin Transformer不僅在top-3上性能最高,而且在大部分類別上達(dá)到了最好的識(shí)別能力,具有優(yōu)異的特征學(xué)習(xí)能力。
表4 細(xì)粒度識(shí)別結(jié)果(%)Tab.4 Fine-grained recognition results (%)
為了進(jìn)一步定量評(píng)估模型性能和顯示識(shí)別結(jié)果的更多細(xì)節(jié),本文繪制了算法模型的混淆矩陣,以顯示不同網(wǎng)絡(luò)結(jié)構(gòu)的性能。如圖10所示,對(duì)角線上的概率為每個(gè)類別正確預(yù)測(cè)的識(shí)別準(zhǔn)確率。其中A330,ARJ21和Boeing737的飛機(jī)目標(biāo)識(shí)別難度較大,其對(duì)應(yīng)的識(shí)別準(zhǔn)確率相對(duì)較低。此外,Boeing737和Boeing787的圖像較為相似,識(shí)別結(jié)果中出現(xiàn)了混淆的情況,一定程度上體現(xiàn)了SAR-AIRcraft-1.0數(shù)據(jù)集的挑戰(zhàn)性。
圖10 混淆矩陣示意圖Fig.10 The confusion matrices for the methods
為了驗(yàn)證不同深度學(xué)習(xí)算法的性能,本文選取4種不同方法進(jìn)行檢測(cè)識(shí)別一體化的對(duì)比實(shí)驗(yàn),即Faster R-CNN,Cascade R-CNN,Reppoints和SKG-Net,這些方法涵蓋了anchor-based和anchorfree方法。
在實(shí)驗(yàn)過(guò)程中,將不同類別的飛機(jī)各自視作一類。為了保持?jǐn)?shù)據(jù)的原始特征,本文沒(méi)有使用任何數(shù)據(jù)增強(qiáng),各個(gè)算法的檢測(cè)性能展示在表5中。在Faster R-CNN方法中,各個(gè)類別的mAP0.5為76.1%,mAP0.75為62.2%。這在一定程度上表明,SARAIRcraft-1.0數(shù)據(jù)集具有一定的檢測(cè)難度。首先,不同類別的SAR飛機(jī)目標(biāo)具有相似的結(jié)構(gòu)和大小,目標(biāo)類別難以區(qū)分。另外,由于SAR圖像的散射特性和成像條件差異,同一類別目標(biāo)可能會(huì)產(chǎn)生不同的成像結(jié)果,進(jìn)一步增加了識(shí)別的難度。
表5 基于深度學(xué)習(xí)算法的檢測(cè)結(jié)果(IoU=0.5)Tab.5 The performance of the algorithms based on deep learning (IoU=0.5)
此外,本文還選擇分割交并比(Intersection over Union,IoU)閾值為0.75的更嚴(yán)格指標(biāo)AP0.75來(lái)評(píng)價(jià)模型,如表6所示。由于融合了全局上下文特征和散射信息,本文提出的SA-Net在mAP0.75上達(dá)到了62.8%。此外,每個(gè)類別的檢測(cè)精度都有一定的差異。例如,與其他類別相比,A320/321在不同算法中的AP0.5和AP0.75性能最好。這主要是因?yàn)锳320/321的尺寸特殊,機(jī)身長(zhǎng)度有40多米,很容易區(qū)分。對(duì)于某些類型的目標(biāo),如ARJ21和A220,由于體積較小,獲取的細(xì)節(jié)特征不夠充分,導(dǎo)致檢測(cè)精度較低。
表6 基于深度學(xué)習(xí)算法的檢測(cè)結(jié)果(IoU=0.75)Tab.6 The performance of the algorithms based on deep learning (IoU=0.75)
為了直觀地比較各種方法,本文繪制了不同閾值下各種方法的F1曲線,如圖11所示。從圖中可以看出,相比其他先進(jìn)方法,SA-Net的F1分?jǐn)?shù)在不同置信度下均取得最高值。這表明提出的方法魯棒性較好,在檢測(cè)率和召回率之間達(dá)到一個(gè)很好的平衡。
圖11 不同先進(jìn)方法的F1曲線Fig.11 F1 curves of different advanced methods
本文將結(jié)合了可形變卷積的FCOS[41]作為基本網(wǎng)絡(luò)(Baseline)。并結(jié)合不同模塊在SAR-AIRcraft-1.0數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。從中發(fā)現(xiàn),提出的不同模塊對(duì)檢測(cè)效果帶來(lái)不同程度的提升。與Baseline相比,CG-FPN模塊在AP0.5指標(biāo)上提升了0.8%。SA-Net網(wǎng)絡(luò)的AP0.5和AP0.75比Baseline分別高出0.8%和0.7%,目標(biāo)可以實(shí)現(xiàn)更精準(zhǔn)的定位。
表7 所提方法中各個(gè)模塊的影響(%)Tab.7 Influence of each component in the proposed method (%)
為了直觀地對(duì)不同模塊進(jìn)行比較,圖12和圖13展示了對(duì)應(yīng)的F1曲線和PR曲線。從圖12可以看出,SA-Net在AP0.5和AP0.75上取得了最優(yōu)的結(jié)果,且在F1曲線的高置信度區(qū)間上達(dá)到了最好的性能。本文通過(guò)引入SA-Head來(lái)對(duì)檢測(cè)框進(jìn)行更精準(zhǔn)的定位,從圖13可以看出,相比Baseline(藍(lán)色曲線),添加SA-Head模塊的PR曲線(橙色曲線)在AP0.5和AP0.75上均得到了有效提升,表明散射感知檢測(cè)模塊能夠提高網(wǎng)絡(luò)的檢測(cè)性能。此外,本文通過(guò)引入CG-FPN來(lái)增強(qiáng)全局特征以抑制背景中的散射干擾。圖14展示了一些檢測(cè)結(jié)果和可視化效果,其中綠色矩形框和黃色圓圈分別表示檢測(cè)到的目標(biāo)和虛警。如圖14(a)所示,受背景中相似建筑物的影響,Baseline中產(chǎn)生了一些虛警。針對(duì)這個(gè)問(wèn)題,CG-FPN通過(guò)對(duì)通道層賦予不同權(quán)重來(lái)增強(qiáng)特征的上下文連接。為了進(jìn)行直觀的比較,將分類分支的最后一層特征圖進(jìn)行可視化。從圖14(c)和圖14(d)可以看出,添加該模塊之后,飛機(jī)目標(biāo)獲取到更多的注意力,實(shí)驗(yàn)結(jié)果證明CG-FPN能夠有效地增強(qiáng)目標(biāo)的顯著性,減少?gòu)?fù)雜背景下的虛警情況。
圖12 不同模塊的F1曲線Fig.12 F1 curves of different improvements in the proposed method
圖13 不同模塊的PR曲線Fig.13 PR curves of different improvements in the proposed method
圖14 檢測(cè)結(jié)果和可視化Fig.14 Detection results and visualization
本文利用不同的檢測(cè)算法在SAR-AIRcraft-1.0數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明提出的SA-Net方法具有優(yōu)越的性能。部分檢測(cè)結(jié)果如圖15所示,其中綠色矩形框、黃色圓圈、藍(lán)色圓圈、紅色圓圈分別表示檢測(cè)結(jié)果、虛警、漏警、識(shí)別錯(cuò)誤的目標(biāo)。SA-Net方法中大部分目標(biāo)都能被準(zhǔn)確檢測(cè)出來(lái),但是結(jié)果中仍然存在一些虛警和漏警的目標(biāo)。虛警情況主要是由于復(fù)雜背景下航站樓附近出現(xiàn)了與飛機(jī)相似的散射表征。此外,由于散射條件的變化,飛機(jī)一些部件的散射較弱,影響了目標(biāo)特征的語(yǔ)義完整性,造成了漏警的問(wèn)題。
圖15 SA-Net的檢測(cè)結(jié)果Fig.15 Detection results of SA-Net
除了這些問(wèn)題之外,圖15還存在一些錯(cuò)誤識(shí)別的實(shí)例,這些實(shí)例用紅色圓圈顯示標(biāo)出。由于目標(biāo)尺寸較小和語(yǔ)義特征的缺乏,一些飛機(jī)被錯(cuò)誤地識(shí)別為其他類別。一些先驗(yàn)信息的缺乏,例如飛機(jī)長(zhǎng)度,導(dǎo)致不同類別之間的正確區(qū)分更加困難,總體而言,在SAR-AIRcraft-1.0數(shù)據(jù)集上進(jìn)行檢測(cè)識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。當(dāng)前算法的檢測(cè)識(shí)別性能還存在一些不理想的情況,性能有待進(jìn)一步提升。在后續(xù)工作中,可以將SAR成像機(jī)制和散射特征引入深度卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)一步提高算法對(duì)SAR-AIRcraft-1.0數(shù)據(jù)集的檢測(cè)識(shí)別性能。
本文提出了一種結(jié)合散射感知的SAR飛機(jī)檢測(cè)識(shí)別方法,通過(guò)上下文引導(dǎo)的特征金字塔模塊來(lái)增強(qiáng)全局信息,抑制復(fù)雜場(chǎng)景中的強(qiáng)干擾,實(shí)現(xiàn)特征的有效融合,減少虛警漏警的情況。另外,文中利用散射關(guān)鍵點(diǎn)對(duì)目標(biāo)檢測(cè)框進(jìn)行細(xì)化校正,有利于提高定位的準(zhǔn)確性。為了驗(yàn)證方法有效性,本文公開(kāi)了一個(gè)高分辨率的SAR-AIRcraft-1.0數(shù)據(jù)集。該數(shù)據(jù)集包含了不同類別的飛機(jī)目標(biāo),具有場(chǎng)景復(fù)雜、類別豐富、目標(biāo)密集、噪聲干擾、任務(wù)多樣、多尺度性的特點(diǎn),可以為模型訓(xùn)練提供豐富的數(shù)據(jù),有利于SAR飛機(jī)檢測(cè)識(shí)別方面的研究。本文將提出的方法和其他深度學(xué)習(xí)算法在構(gòu)建的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明所提出方法的有效性。在后續(xù)工作中,可以將散射特征信息引入深度卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)一步提高檢測(cè)識(shí)別性能。
附錄
SAR-AIRcraft-1.0:高分辨率SAR飛機(jī)檢測(cè)識(shí)別數(shù)據(jù)集依托《雷達(dá)學(xué)報(bào)》官方網(wǎng)站發(fā)布,數(shù)據(jù)及使用說(shuō)明已上傳至學(xué)報(bào)網(wǎng)站“SAR-AIRcraft-1.0:高分辨率SAR飛機(jī)檢測(cè)識(shí)別數(shù)據(jù)集”頁(yè)面(附圖1),網(wǎng)址:https://radars.ac.cn/web/data/getData?newsColumnId=f896637b-af23-4209-8bcc-9320fceaba19。
附圖1 SAR-AIRcraft-1.0:高分辨率SAR飛機(jī)檢測(cè)識(shí)別數(shù)據(jù)集發(fā)布網(wǎng)頁(yè)App.Fig.1 Release webpage of SAR-AIRcraft-1.0: High-resolution SAR aircraft detection and recognition dataset