曾祥書,黃一飛,蔣忠進(jìn)
(東南大學(xué)毫米波國家重點(diǎn)實(shí)驗(yàn)室, 江蘇 南京 210096)
合成孔徑雷達(dá)(SAR)是一種主動式微波遙感系統(tǒng),可以全天候全天時地進(jìn)行SAR成像,已廣泛用于農(nóng)林監(jiān)測、地質(zhì)調(diào)查、災(zāi)害監(jiān)測、海洋監(jiān)測以及國防建設(shè)等諸多方面。不論是民用還是軍用,對SAR圖像中陸地和海洋目標(biāo)的檢測與識別都具有重要意義[1-5]。
傳統(tǒng)的SAR圖像目標(biāo)識別主要包含預(yù)處理、目標(biāo)檢測、特征提取和特征分類等4個步驟,其識別效果很大程度上取決于人工設(shè)計(jì)的特征提取,步驟復(fù)雜,泛化能力差[6]。隨著以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表的深度學(xué)習(xí)的不斷發(fā)展,深度學(xué)習(xí)在SAR圖像目標(biāo)識別中也得到廣泛應(yīng)用[7-8]。通過CNN可以完成SAR圖像的高維特征提取,減少人為干預(yù),實(shí)現(xiàn)“端到端”的處理流程[9-11]。
目前基于CNN的SAR圖像目標(biāo)檢測與識別算法,按照模型結(jié)構(gòu)可以大致分為雙階段算法和單階段算法。雙階段算法通常具有較高的識別精度,但相當(dāng)耗時且具有較大的計(jì)算開銷,常用的模型結(jié)構(gòu)主要包括R-CNN[12]、Fast-RCNN[13]、Faster-RCNN[14]等。單階段算法大幅提高了識別速度,常用的模型結(jié)構(gòu)主要包括SSD[15]、YOLO[16]等。早期單階段算法的精度不如雙階段算法,但YOLOv3[17]的出現(xiàn)改變了這一局面,其在保證計(jì)算速度的前提下,進(jìn)一步提高了識別精度,使單階段算法在速度和精度上均超過雙階段算法。2020年6月,Ultralytics公司發(fā)布了YOLOv5模型,這是在YOLOv3的基礎(chǔ)上進(jìn)行了大幅改進(jìn)的新一代單階段模型,它不僅提高了模型的性能,還實(shí)現(xiàn)了模型的輕量化設(shè)計(jì)。
基于CNN的SAR圖像目標(biāo)識別經(jīng)過國內(nèi)外大量科研人員的實(shí)驗(yàn)驗(yàn)證,已經(jīng)取得了大量的成果[18-20]。文獻(xiàn)[21]針對SAR圖像中相干斑噪聲的影響,提出了一種像素級去噪和語義增強(qiáng)的檢測模型,并在SSDD數(shù)據(jù)集上驗(yàn)證了該模型的有效性和泛化性能。文獻(xiàn)[22]提出一種基于監(jiān)督對比學(xué)習(xí)正則化的SAR圖像建筑物提取方法,通過增強(qiáng)特征空間中相同類像素的相似性和不同類像素的差異性,提高了建筑物的識別精度。文獻(xiàn)[23]提出了一種基于改進(jìn)Faster-RCNN的SAR圖像運(yùn)動目標(biāo)檢測方法,提高了檢測準(zhǔn)確率,降低了虛警率,并在自制的Mini-SAR系統(tǒng)中驗(yàn)證了該方法的有效性。
針對SAR圖像中目標(biāo)分布密集、背景復(fù)雜等問題,本文提出一種改進(jìn)YOLOv5網(wǎng)絡(luò)模型,并將其用于SAR圖像目標(biāo)識別。該方法根據(jù)訓(xùn)練數(shù)據(jù)中的標(biāo)注框尺寸信息,使用寬度比和高度比作為距離度量,利用k-means聚類方法生成先驗(yàn)錨點(diǎn)框,作為預(yù)測框優(yōu)化時的框尺寸初始值。引入SIoU[24]來代替競爭性交并比 (CIoU),以得到更加合理的框回歸損失函數(shù),提高在密集分布情況下的目標(biāo)定位精度。使用Focal Loss[25]來替代二元交叉熵,以得到更加合理的置信度損失函數(shù),提高在復(fù)雜背景下的目標(biāo)識別精度。本文基于大規(guī)模多類SAR目標(biāo)數(shù)據(jù)集MSAR進(jìn)行了大量的實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,相比于所選用的幾種對比網(wǎng)絡(luò),本文的改進(jìn)YOLOv5網(wǎng)絡(luò)模型具有更好的目標(biāo)識別性能。
本文使用的改進(jìn)YOLOv5網(wǎng)絡(luò)模型如圖1所示,由輸入、主干特征提取網(wǎng)絡(luò)、加強(qiáng)特征提取網(wǎng)絡(luò)、解耦頭、預(yù)測框優(yōu)化及損失計(jì)算、輸出等六個部分組成。
圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
主干特征提取網(wǎng)絡(luò)選用CSP-Darknet網(wǎng)絡(luò),用于基礎(chǔ)特征提取,該網(wǎng)絡(luò)包含1個Focus結(jié)構(gòu)、4個卷積塊、4個CSP結(jié)構(gòu)、1個SPP 結(jié)構(gòu)。其中Focus結(jié)構(gòu)對原始SAR圖像在橫坐標(biāo)和縱坐標(biāo)方向各做二倍間隔采樣,減少層數(shù)和參數(shù)量,以提升推理速度和梯度反傳速度。卷積塊包含卷積(Convolution)、批量歸一化(BN)和SiLU激活函數(shù)三部分。SiLU激活函數(shù)表示為
f(x)=x·sigmoid(x)
(1)
SiLU激活函數(shù)可以視為平滑的ReLU函數(shù),具有平滑、無上界有下界、非單調(diào)的特性。CSP結(jié)構(gòu)具有兩種不同的設(shè)計(jì),如圖1中CSP1_n和CSP2_n,CSP結(jié)構(gòu)可以在保證準(zhǔn)確性的情況下減少網(wǎng)絡(luò)參數(shù),提高計(jì)算速度和對設(shè)備的要求。SPP結(jié)構(gòu)能通過池化核大小不同的最大池化處理進(jìn)行特征提取,以提高網(wǎng)絡(luò)的感受野。
通過主干特征提取網(wǎng)絡(luò),可以得到輸入SAR圖像的三種層次的特征圖,其中淺層特征圖具有較強(qiáng)的位置信息和較弱的語義特征,而深層特征圖具有較強(qiáng)的語義特征和較弱的位置信息。這些特征圖被輸送給后續(xù)的加強(qiáng)特征提取網(wǎng)絡(luò),做進(jìn)一步的特征提取和融合。
加強(qiáng)特征提取網(wǎng)絡(luò)由特征金字塔網(wǎng)絡(luò)(FPN)和路徑聚合網(wǎng)絡(luò)(PAN)組成,用于多尺度特征提取與融合,FPN和PAN的結(jié)構(gòu)如圖1所示。FPN把深層的語義特征通過上采樣與淺層融合,從而增強(qiáng)多個尺度上的語義表達(dá)。PAN則相反,把淺層的定位信息通過卷積塊實(shí)現(xiàn)下采樣與深層融合,增強(qiáng)多個尺度上的定位能力。經(jīng)過加強(qiáng)特征提取網(wǎng)絡(luò)后,特征圖將同時具有豐富的語義信息和位置信息。
網(wǎng)絡(luò)訓(xùn)練階段,YOLOv5首先將輸入SAR圖像的大小調(diào)整為256×256;然后輸入圖像經(jīng)過主干特征提取網(wǎng)絡(luò)和加強(qiáng)特征提取網(wǎng)絡(luò),得到大小分別為32×32、16×16、8×8的三個不同層次的特征圖;這些特征圖分別經(jīng)過三個不同的解耦頭,獲得針對小、中、大目標(biāo)的三組邊框回歸與目標(biāo)分類參數(shù);最后將這些參數(shù)與訓(xùn)練數(shù)據(jù)的標(biāo)簽信息進(jìn)行比較,計(jì)算損失函數(shù),并反向傳播更新網(wǎng)絡(luò)參數(shù)。
網(wǎng)絡(luò)測試階段,在測試集上利用訓(xùn)練好的網(wǎng)絡(luò)模型生成大量預(yù)測框,通過非極大值抑制(NMS)算法,刪除冗余預(yù)測框,得到和不同目標(biāo)一對一匹配的多個檢測框。將測試集標(biāo)簽信息與檢測框參數(shù)進(jìn)行對比,統(tǒng)計(jì)準(zhǔn)確率和召回率等各項(xiàng)技術(shù)指標(biāo)。
在常規(guī)YOLOv5網(wǎng)絡(luò)中,通常會引入錨點(diǎn)框(anchor),作為后續(xù)參數(shù)優(yōu)化中預(yù)測框的初始尺寸值。默認(rèn)的錨點(diǎn)框是基于COCO和VOC數(shù)據(jù)集進(jìn)行訓(xùn)練得出的,總共包含9組,分別覆蓋大、中、小三種尺寸,每種尺寸都包含三組不同的寬高比。
本文針對大規(guī)模多類SAR目標(biāo)數(shù)據(jù)集MSAR,使用k-means聚類算法對訓(xùn)練數(shù)據(jù)集標(biāo)簽信息中的邊界框尺寸進(jìn)行聚類,進(jìn)而重新生成了9組最適用于MSAR數(shù)據(jù)集的錨點(diǎn)框。
此處構(gòu)建任意兩個邊界框之間的距離度量d為
(2)
式中:w1和w2分別表示邊界框1和邊界框2的寬度;h1和h2分別表示邊界框1和邊界框2的高度。
通過計(jì)算兩個邊界框之間的寬度比和高度比,以描述它們之間的相似程度。此時需要同時計(jì)算w1/w2、h1/h2、w2/w1和h2/h1,并在這四個比值中選擇最大值作為距離度量d。當(dāng)兩個邊界框之間的相似程度越高時,它們之間的距離度量就會越小,匹配效果就會越好。
錨點(diǎn)框的聚類結(jié)果如圖2所示,圖中橫軸表示邊界框的寬度,縱軸表示邊界框的高度。本實(shí)驗(yàn)從數(shù)據(jù)庫標(biāo)簽信息中一共摘取49 386個邊界框,根據(jù)每個邊界框的寬度和高度來確定其坐標(biāo),成為圖中的一個圓點(diǎn)。
圖2 k-means聚類所得錨點(diǎn)框
通過k-means聚類,將距離度量d接近的邊界框聚為一類,并表示成同一種顏色,每種顏色的圓點(diǎn)群的質(zhì)心用×點(diǎn)表示。每個×點(diǎn)就是一個錨點(diǎn)框,本實(shí)驗(yàn)一共構(gòu)建了9個錨點(diǎn)框,其坐標(biāo)分別為[4, 4]、[10, 11]、[25, 10]、[11, 28]、[21, 19]、[31, 29]、[26, 57]、[62, 32]、[70, 90]。
YOLOv5目標(biāo)識別可以歸結(jié)為目標(biāo)邊框參數(shù)和目標(biāo)類別參數(shù)的回歸問題,其所使用的損失函數(shù)包括框回歸損失lreg、置信度損失lobj、分類損失lcls三部分。損失函數(shù)表示為
l=lreg+lobj+lcls
(3)
常規(guī)的框回歸損失lreg由預(yù)測框和真實(shí)框之間的CIoU損失構(gòu)成[23]。本文使用SIoU指標(biāo)替代CIoU指標(biāo),以衡量預(yù)測框和真實(shí)框之間的相似度。SIoU值越大,說明它們的匹配度越高,相應(yīng)的損失函數(shù)值就越小。
為了更好的說明SIOU值的計(jì)算,給出預(yù)測框A和真實(shí)框B的示意圖如圖3所示。
圖3 預(yù)測框和真實(shí)框示意圖
式中:σ表示A和B中心點(diǎn)之間的距離;cw和ch分別表示以σ為對角線的矩形框的寬和高;dw和dh分別表示能包圍A和B的最小方框的寬和高。
SIoU值計(jì)算如下:
(4)
式中:rIoU(A,B)表示預(yù)測框A和真實(shí)框B之間的交并比,計(jì)算如下。
(5)
Δ代表距離成本函數(shù),計(jì)算為
Δ=(1-e-γρx)+(1-e-γρy)
(6)
Ω代表尺寸成本函數(shù),計(jì)算為
Ω=(1-e-ωw)θ+(1-e-ωh)θ
(7)
可以看出,相較于CIoU,SIoU除了考慮預(yù)測框和真實(shí)框之間的重疊區(qū)域、距離和長寬,還考慮了兩個框之間的角度關(guān)系。SIoU指標(biāo)可以使預(yù)測框更快、更準(zhǔn)確地朝著與真實(shí)框重疊度更高、對齊程度更好的方向優(yōu)化。
由此改進(jìn)的框回歸損失lreg計(jì)算為
(8)
在置信度損失lobj中,本文采用Focal loss代替二元交叉熵,以優(yōu)化置信度損失函數(shù)。相對于二元交叉熵,Focal loss具有更好的類別平衡性和針對性,能夠提高網(wǎng)絡(luò)訓(xùn)練效率和目標(biāo)識別精度。改進(jìn)的置信度損失lobj計(jì)算為
(9)
關(guān)于分類損失lcls,本文的計(jì)算方法與常規(guī)YOLOv5網(wǎng)絡(luò)一致,計(jì)算如下
(10)
實(shí)驗(yàn)選用了YOLOv3、常規(guī)YOLOv5以及改進(jìn)YOLOv5三種網(wǎng)絡(luò),進(jìn)行訓(xùn)練和測試,以進(jìn)行SAR圖像目標(biāo)識別性能的比較。
實(shí)驗(yàn)所使用的數(shù)據(jù)集來自文獻(xiàn)[25]中所提出的大規(guī)模多類SAR目標(biāo)數(shù)據(jù)集MSAR,該數(shù)據(jù)集包括HH、HV、VH和VV四種極化方式,由28 449張尺寸為256×256像素的SAR圖像切片構(gòu)成,涵蓋機(jī)場、港口、近岸、島嶼、遠(yuǎn)海、城區(qū)等復(fù)雜場景,類型有艦船、油罐、橋梁和飛機(jī)四類目標(biāo),共計(jì)39 858艘艦船,12 319個油罐,1 851架橋梁和6 368架飛機(jī)。本實(shí)驗(yàn)將數(shù)據(jù)集按9:1的比例,劃分為訓(xùn)練集和測試集。
本文在MSAR數(shù)據(jù)集上,使用三種網(wǎng)絡(luò)進(jìn)行了SAR圖像目標(biāo)識別實(shí)驗(yàn),部分實(shí)驗(yàn)結(jié)果如圖4~圖7所示。其中紫色方框標(biāo)示檢出艦船目標(biāo),藍(lán)色方框標(biāo)示檢出橋梁目標(biāo),綠色方框標(biāo)示檢出油罐目標(biāo),紅色方框標(biāo)示檢出飛機(jī)目標(biāo),紅色橢圓框標(biāo)示漏檢目標(biāo),紅色三角形標(biāo)示虛檢目標(biāo)。
圖4 艦船目標(biāo)識別效果
試驗(yàn)中,YOLOv3、常規(guī)YOLOv5以及改進(jìn)YOLOv5三種網(wǎng)絡(luò)模型給出的SAR圖像艦船目標(biāo)識別結(jié)果如圖4所示,圖中有一個靠岸停泊的艦船目標(biāo)。
從圖4中可以看出, YOLOv3網(wǎng)絡(luò)的識別結(jié)果中存在一處虛檢和一處漏檢,常規(guī)YOLOv5網(wǎng)絡(luò)的識別結(jié)果中存在二處虛檢,而改進(jìn)YOLOv5網(wǎng)絡(luò)不存在虛檢和漏檢。
三種網(wǎng)絡(luò)模型給出的SAR圖像橋梁目標(biāo)識別結(jié)果如圖5所示,圖中有一個小島,通過一座橋梁與陸地相連,小島對面有一個艦船目標(biāo)停靠。
圖5 橋梁目標(biāo)識別效果
從圖5中可以看出,三種網(wǎng)絡(luò)均正確識別出??康呐灤繕?biāo)。YOLOv3網(wǎng)絡(luò)未能識別出橋梁目標(biāo),常規(guī)YOLOv5網(wǎng)絡(luò)和改進(jìn)YOLOv5網(wǎng)絡(luò)均正確識別出橋梁目標(biāo),但常規(guī)YOLOv5網(wǎng)絡(luò)的結(jié)果中存在一處艦船目標(biāo)的虛檢。
三種網(wǎng)絡(luò)模型給出的SAR圖像油罐目標(biāo)識別結(jié)果如圖6所示,圖中存在密集分布的油罐目標(biāo)群。
圖6 油罐目標(biāo)識別效果
從圖6中可以看出,YOLOv3網(wǎng)絡(luò)的識別結(jié)果中存在11處漏檢,常規(guī)YOLOv5網(wǎng)絡(luò)和改進(jìn)YOLOv5網(wǎng)絡(luò)不存在虛檢和漏檢。
三種網(wǎng)絡(luò)模型給出的SAR圖像飛機(jī)目標(biāo)識別結(jié)果如圖7所示,圖中存在8個飛機(jī)目標(biāo),其背景為一個機(jī)場。
圖7 飛行目標(biāo)識別效果
從圖7中可以看出,YOLOv3網(wǎng)絡(luò)未能識別出所有8個飛機(jī)目標(biāo),常規(guī)YOLOv5網(wǎng)絡(luò)的識別結(jié)果中存在3處漏檢,而改進(jìn)YOLOv5網(wǎng)絡(luò)不存在虛檢和漏檢。
此外,本文還針對密集型小目標(biāo)進(jìn)行了目標(biāo)識別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖8所示,圖中存在機(jī)場背景下密集分布的多個飛機(jī)小目標(biāo)。
圖8 密集型小目標(biāo)識別效果
從圖8中可以看出,YOLOv3網(wǎng)絡(luò)和常規(guī)YOLOv5網(wǎng)絡(luò)的識別結(jié)果中存在較多的漏檢和虛檢,而改進(jìn)YOLOv5網(wǎng)絡(luò)基本不存在虛檢和漏檢。由于SAR圖像分辨率較低,目標(biāo)眾多,識別結(jié)果中沒有標(biāo)示虛檢和漏檢,僅僅標(biāo)示了檢出的飛機(jī)目標(biāo)。
本文采用的SAR圖像目標(biāo)識別性能指標(biāo)包括:準(zhǔn)確率rP=NTP/(NTP+NFP),指正確檢出目標(biāo)占檢出目標(biāo)總數(shù)的比例;召回率rR=NTP/(NTP+NFN),指正確檢出目標(biāo)占真實(shí)目標(biāo)總數(shù)的比例;以及二者的調(diào)和平均數(shù)F1=2×rP×rR/(rP+rR)。其中,參數(shù)NTP為正確檢出目標(biāo)個數(shù),NFP為虛檢目標(biāo)個數(shù),NFN為漏檢目標(biāo)個數(shù)。
本文基于MSAR數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn),統(tǒng)計(jì)了YOLOv3網(wǎng)絡(luò)、常規(guī)YOLOv5網(wǎng)絡(luò)以及改進(jìn)YOLOv5網(wǎng)絡(luò)在目標(biāo)識別方面的性能指標(biāo),具體數(shù)據(jù)如表1所示。
表1 三種網(wǎng)絡(luò)的性能指標(biāo)比較
由表1可以看出,在艦船目標(biāo)識別中,相較于YOLOv3網(wǎng)絡(luò),常規(guī)YOLOv5網(wǎng)絡(luò)的識別準(zhǔn)確率rP略有降低,但召回率rR和調(diào)和平均數(shù)F1值明顯提高,漏檢更少。并且,對于橋梁、飛機(jī)、油罐三類目標(biāo),常規(guī)YOLOv5網(wǎng)絡(luò)的準(zhǔn)確率rP、召回率rR和調(diào)和平均數(shù)F1值均明顯高于YOLOv3網(wǎng)絡(luò)。
相比于前兩種網(wǎng)絡(luò),改進(jìn)YOLOv5網(wǎng)絡(luò)對全部四類目標(biāo),在召回率rR、準(zhǔn)確率rP、調(diào)和平均數(shù)F1值三方面均有明顯提升。
除此之外,本文還統(tǒng)計(jì)了三種網(wǎng)絡(luò)對四類目標(biāo)的識別平均精度(AP),并計(jì)算其平均精度均值(mAP),統(tǒng)計(jì)結(jié)果如表2所示。
表2 三種網(wǎng)絡(luò)的AP值和mAP值對比
由表2可知,相比于YOLOv3網(wǎng)絡(luò),常規(guī)YOLOv5網(wǎng)絡(luò)對飛機(jī)目標(biāo)的識別AP值略有降低,但對艦船、橋梁、油罐三類目標(biāo)的識別AP值均有明顯提升,由此其識別mAP值提高了19.47%。相比于常規(guī)YOLOv5網(wǎng)絡(luò),改進(jìn)YOLOv5網(wǎng)絡(luò)對全部四類目標(biāo)的識別AP值均有明顯提升,導(dǎo)致其識別mAP值提高了7.62%。
此外,本文還利用YOLOv3網(wǎng)絡(luò)、常規(guī)YOLOv5網(wǎng)絡(luò)和改進(jìn)YOLOv5網(wǎng)絡(luò)對同一組尺寸為256×256的SAR圖像進(jìn)行目標(biāo)識別,并測量計(jì)算時間和處理速度。結(jié)果顯示,YOLOv3網(wǎng)絡(luò)的計(jì)算時間為0.010 s,處理速度為99FPS;常規(guī)YOLOv5網(wǎng)絡(luò)的計(jì)算時間為0.011 s,處理速度為93FPS;改進(jìn)YOLOv5網(wǎng)絡(luò)的計(jì)算時間為0.011 s,處理速度為90FPS??梢钥闯?相對于YOLOv3網(wǎng)絡(luò),常規(guī)YOLOv5網(wǎng)絡(luò)和改進(jìn)YOLOv5網(wǎng)絡(luò)的計(jì)算時間略有增加。這是因?yàn)閅OLOv5網(wǎng)絡(luò)所采用的結(jié)構(gòu)比YOLOv3網(wǎng)絡(luò)更加復(fù)雜,且本文的改進(jìn)YOLOv5網(wǎng)絡(luò)中,采用SIoU來衡量預(yù)測框和真實(shí)框之間的相似度,以計(jì)算框回歸損失,這都會導(dǎo)致計(jì)算量增加。
本文提出一種改進(jìn)YOLOv5卷積神經(jīng)網(wǎng)絡(luò),并將其用于SAR圖像目標(biāo)識別。在該網(wǎng)絡(luò)中,改進(jìn)了先驗(yàn)錨點(diǎn)框的生成方法、框回歸損失函數(shù)和置信度損失函數(shù),以提高在復(fù)雜背景下對密集分布目標(biāo)的識別精度。
本文基于MSAR數(shù)據(jù)集,選擇了YOLOv3、常規(guī)YOLOv5作為對比網(wǎng)絡(luò),分別對艦船目標(biāo)、橋梁目標(biāo)、油罐目標(biāo)、飛機(jī)目標(biāo)以及密集分布小目標(biāo)進(jìn)行了大量的SAR圖像目標(biāo)識別實(shí)驗(yàn),以驗(yàn)證改進(jìn)YOLOv5網(wǎng)絡(luò)的有效性。
實(shí)驗(yàn)結(jié)果表明,相比兩種對比網(wǎng)絡(luò),改進(jìn)YOLOv5網(wǎng)絡(luò)對四類目標(biāo)均具有更高的識別準(zhǔn)確率、召回率和F1值。在AP值和mAP值綜合指標(biāo)方面,改進(jìn)YOLOv5網(wǎng)絡(luò)亦優(yōu)于另外兩個對比網(wǎng)絡(luò)。在計(jì)算時間方面,改進(jìn)YOLOv5網(wǎng)絡(luò)與常規(guī)YOLOv5網(wǎng)絡(luò)相當(dāng),且二者的計(jì)算時間均略長于YOLOv3網(wǎng)絡(luò)。