張 陽,劉小芳,周鵬成
(四川輕化工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,四川 宜賓 643000)
在海洋資源管理、領(lǐng)域安全、船上作業(yè)和海上救援等方面,海上船舶檢測(cè)有著非常重要的意義,但是在自然因素不可控的條件下,采取指派海警船或基于可見光的船舶目標(biāo)監(jiān)測(cè)等方式難以取得成效。衛(wèi)星合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)是一種在能見度極低的惡劣天氣條件下高分辨率成像雷達(dá),具有全天時(shí)、全天候和多維度獲取信息等優(yōu)點(diǎn)[1],為海洋上全域的船舶檢測(cè)解決數(shù)據(jù)和技術(shù)提供等問題。由于SAR圖像復(fù)雜背景、強(qiáng)散射雜波的干擾、目標(biāo)密集等問題,SAR圖像船舶目標(biāo)檢測(cè)難度很大。
目前SAR圖像船舶檢測(cè)方法[2-3]主要有3類:傳統(tǒng)類目標(biāo)檢測(cè)算法、基于機(jī)器學(xué)習(xí)的目標(biāo)檢測(cè)算法[4]和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法。其中,基于深度學(xué)習(xí)的檢測(cè)算法憑借高效率、高準(zhǔn)確率和強(qiáng)泛化能力等優(yōu)勢(shì),在SAR圖像目標(biāo)檢測(cè)領(lǐng)域中已經(jīng)得到廣泛應(yīng)用。文獻(xiàn)[5]針對(duì)復(fù)雜大場(chǎng)景設(shè)計(jì)了一種基于級(jí)聯(lián)網(wǎng)絡(luò)的艦船目標(biāo)檢測(cè)框架,進(jìn)行SAR圖像海陸分割和塊區(qū)域篩選,采用CP-FCOS網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)。文獻(xiàn)[6]針對(duì)SAR圖像艦船目標(biāo)誤檢或漏檢情況,提出了一種基于融合注意力機(jī)制與改進(jìn)的SSD算法的目標(biāo)檢測(cè)方法,引入ResNet網(wǎng)絡(luò)并改進(jìn)提供更多的語義和細(xì)節(jié)信息,融合通道和空間注意力抑制海雜波干擾,改進(jìn)損失函數(shù)解決漏檢問題。文獻(xiàn)[7]針對(duì)數(shù)據(jù)集不充分和模型魯棒性差等問題,提出了一種改進(jìn)YOLOv3的SAR圖像艦船目標(biāo)檢測(cè)算法,引入ATSS正負(fù)樣本分配方法提高正負(fù)樣本選擇的質(zhì)量,設(shè)計(jì)基于特征層的錨框超參數(shù)優(yōu)化方法,使錨框更接近數(shù)據(jù)集樣本分布。文獻(xiàn)[8]提出了一種基于YOLO框架的無錨框SAR圖像艦船目標(biāo)檢測(cè)方法,采用anchor free方法解決YOLOv3需要預(yù)設(shè)錨框的弊端,特征提取網(wǎng)絡(luò)CSPDarknet53中引入注意力機(jī)制和改進(jìn)FPN網(wǎng)絡(luò)增大感受野。文獻(xiàn)[9]針對(duì)艦船方向任意和密集排列造成的漏檢問題,提出了多尺度特征增強(qiáng)的艦船目標(biāo)檢測(cè)算法。文獻(xiàn)[10]提出了一種SAR圖像旋轉(zhuǎn)檢測(cè)方法,基于YOLOv4-CSP改進(jìn)先驗(yàn)框設(shè)計(jì)和邊框回歸公式,提出基于旋轉(zhuǎn)邊界框外接圓和交并比的損失函數(shù),引入轉(zhuǎn)移注意力模塊。文獻(xiàn)[11]提出了基于語義分割實(shí)現(xiàn)的檢測(cè)、分割一體化SAR圖像艦船無錨框目標(biāo)檢測(cè)方法,通過語義分割實(shí)現(xiàn)的目標(biāo)檢測(cè)可以避免檢測(cè)網(wǎng)絡(luò)的復(fù)雜解碼過程。文獻(xiàn)[12]針對(duì)艦船目標(biāo)檢測(cè)框高長(zhǎng)寬比和密集排列問題,提出了一種基于改進(jìn)YOLOv5的目標(biāo)檢測(cè)方法,優(yōu)化損失函數(shù)抑制高長(zhǎng)寬比和引入坐標(biāo)注意力機(jī)制。
以上方法基本都是使用一階段的目標(biāo)檢測(cè)算法,一階段目標(biāo)檢測(cè)算法檢測(cè)速度快,但是檢測(cè)精度比較低。本文基于二階段的Faster R-CNN算法進(jìn)一步研究,卷積層特征提取網(wǎng)絡(luò)采用新網(wǎng)絡(luò)架構(gòu)——Swin Transform,同時(shí)引入了多尺度融合結(jié)構(gòu);生成的區(qū)域建議特征圖使用新的池化操作讓目標(biāo)定位更準(zhǔn)確;在骨干網(wǎng)絡(luò)最后引入可變形卷積為區(qū)域建議特征圖融入全局特征信息;引入Focal Loss損失函數(shù)作為分類損失函數(shù)降低損失。
Faster R-CNN算法[13]分為2個(gè)階段:第1階段在圖像中生成檢測(cè)目標(biāo)的錨框;第2階段對(duì)錨框內(nèi)的目標(biāo)進(jìn)行分類。原始圖像輸入卷積層(骨干網(wǎng)絡(luò))進(jìn)行特征提取生成特征圖,通過區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)結(jié)構(gòu)生成區(qū)域建議;Fast R-CNN把區(qū)域建議特征映射到特征圖中;最后由全連接層進(jìn)行邊框回歸和分類得到檢測(cè)結(jié)果,具體目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 Faster R-CNN目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Faster R-CNN object detection network structure
Faster R-CNN摒棄了傳統(tǒng)耗時(shí)長(zhǎng)的滑動(dòng)窗口和R-CNN使用的Select Search產(chǎn)生候選框的方法,提出了一種快速準(zhǔn)確生成候選框的RPN算法。卷積層提取的特征圖通過3×3卷積的滑動(dòng)窗口進(jìn)行滑動(dòng),生成一個(gè)256維的特征向量,把該特征向量分別送入分類層和回歸層進(jìn)行背景、目標(biāo)二分類和區(qū)域建議準(zhǔn)確定位?;瑒?dòng)窗口有k個(gè)錨框,分類層有2k個(gè)參數(shù)包含目標(biāo)和背景的得分,回歸層有4k個(gè)參數(shù)包含候選框左上和右下的橫縱坐標(biāo)信息。Faster R-CNN中按照1∶1,1∶2和2∶1共3種長(zhǎng)寬比和3種面積大小產(chǎn)生9個(gè)預(yù)設(shè)大小錨框,RNP生成候選區(qū)域過程如圖2所示。
圖2 RPN結(jié)構(gòu)示意Fig.2 RPN structure diagram
Faster R-CNN通過邊框回歸實(shí)現(xiàn)錨框近似真實(shí)框,回歸過程如圖3所示。
圖3 邊框回歸示意Fig.3 Box regression diagram
若預(yù)設(shè)錨框A=(Ax,Ay,Aw,Ah)和真實(shí)框G=(Gx,Gy,Gw,Gh),邊框回歸試圖找到一種變換使得F(Ax,Ay,Aw,Ah)=(G′x,G′y,G′w,G′h),其中(G′x,G′y,G′w,G′h)≈(Gx,Gy,Gw,Gh)。若A映射到預(yù)測(cè)框G′,則有先平移Ax和Ay,后縮放Aw和Ah:
G′x=Aw·dx(A)+Ax,
(1)
G′y=Ah·dy(A)+Ay,
(2)
G′w=Aw·edw(A),
(3)
G′h=Ah·edh(A),
(4)
(5)
(6)
式中,x,y,w,h代表預(yù)測(cè)框的中心橫縱坐標(biāo)和寬高;下標(biāo)a代表預(yù)設(shè)錨框;上標(biāo)*代表真實(shí)錨框。當(dāng)需要回歸的邊框位置接近真實(shí)框時(shí),上述的變換F近似認(rèn)為是線性變換,否則就是復(fù)雜的非線性變換。
本文在Faster R-CNN算法基礎(chǔ)上進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn),主要有以下4點(diǎn)改進(jìn):骨干網(wǎng)絡(luò)不再使用卷積神經(jīng)網(wǎng)絡(luò),而是使用Swin Tansformer作為骨干網(wǎng)絡(luò)提取特征,同時(shí)對(duì)Swin Tansformer四個(gè)階段生成的特征圖進(jìn)行多尺度融合;采用更加準(zhǔn)確的定位操作ROI Align替換了原來的ROI Pooling操作;在骨干網(wǎng)絡(luò)后引入可變形卷積(Deformable Convolution,DC)生成的特征圖,與RPN生成的區(qū)域建議特征圖相融合;分類損失函數(shù)由交叉熵?fù)p失函數(shù)改用為Focal Loss損失函數(shù)。改進(jìn)Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 改進(jìn)Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Improved Faster R-CNN network structure
2.1.1 骨干網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)
Faster R-CNN卷積層一般選取常用的卷積網(wǎng)絡(luò)VGG16,ResNet50和ResNet101等作為骨干網(wǎng)絡(luò)提取特征,本文引入一種新的架構(gòu)——Swin Transformer與特征金字塔(Feature Pyramid Network,F(xiàn)PN)[14]融合的網(wǎng)絡(luò)結(jié)構(gòu)作為骨干網(wǎng)絡(luò)。Swin Transformer共有4種不同大小的模型,本文選擇最輕量的模型Swin-T;FPN結(jié)構(gòu)中低層位置信息和高層語義信息結(jié)構(gòu)可以加強(qiáng)特征表達(dá),增強(qiáng)小目標(biāo)特征映射分辨率,可以改善SAR圖像中的小目標(biāo)檢測(cè)效果;Swin-T共有4個(gè)階段,每個(gè)階段生成的特征圖進(jìn)行1×1卷積,然后進(jìn)行上采樣多尺度融合,最后把融合生成不同大小的特征圖進(jìn)行3×3卷積輸出,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 Swin-T與FPN多尺度融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Swin-T and FPN multi-scale fusion network structure
Swin Transformer[15]是在ViT的基礎(chǔ)上提出,該架構(gòu)先驗(yàn)引入層次性、局部性和平移不變性等優(yōu)良特性,其采用移動(dòng)窗口的操作使相鄰的2個(gè)窗口能相互交互從而達(dá)到具有全局信息建模的能力,且計(jì)算量大幅度降低。Swin Transformer Blocks結(jié)構(gòu)如圖6所示。
圖6 2個(gè)連續(xù)的Swin Transformer Blocks結(jié)構(gòu)Fig.6 Two successive Swin Transformer Blocks structure
第一部分由2個(gè)層歸一化(Layer Normalization,LN)、1個(gè)窗口多頭自注意力機(jī)制(Window based Multi-head Self-Attention,W-MSA)和1個(gè)多層感知機(jī)(Multilayer Perceptron,MLP)組成,其中W-MSA模塊將圖像劃分為不重合的窗口,能降低模型的計(jì)算量。第二部為了解決不重合的窗口造成的信息交流問題,將第一部分的W-MSA改為了滑動(dòng)窗口多頭自注意力機(jī)制(Shift Window based Multi-head Self-Attention,SW-MSA),剩余部分仍然使用LN,MLP進(jìn)行殘差連接。輸入特征Z從第l-1層到第l+1層計(jì)算過程如下:
(7)
(8)
(9)
(10)
2.1.2 ROI Align池化
Fast R-CNN結(jié)構(gòu)采用ROI Pooling操作提取區(qū)域建議特征生成固定大小的特征圖,送入到全連接層進(jìn)行分類、邊框回歸完成目標(biāo)檢測(cè)。RPN結(jié)構(gòu)生成的區(qū)域建議大小不一樣,通過ROI Pooling操作分塊池化固定成7×7大小的特征圖會(huì)破壞原始圖像的結(jié)構(gòu)信息,造成目標(biāo)定位不精確問題[16]。本文采用多尺度融合FPN結(jié)構(gòu)生成的特征圖大小不一致會(huì)造成極端長(zhǎng)寬比,映射結(jié)果偏差很大導(dǎo)致特征丟失。在SAR圖像中有許多小目標(biāo)船舶,ROI Pooling的偏差會(huì)對(duì)小目標(biāo)的定位造成更大的誤差。本文采用ROI Align操作[17]很好地減小量化誤差,使用雙線性插值法計(jì)算中心位置的像素,圖像上坐標(biāo)像素點(diǎn)是浮點(diǎn)數(shù),不需要去做量化操作取整[18]。具體過程:遍歷每一個(gè)候選區(qū)域,保持浮點(diǎn)數(shù)邊界不做量化;將候選區(qū)域按輸出要求大小平均劃分,單元邊界也不做量化;若采樣帶點(diǎn)數(shù)是4,在每個(gè)單元中計(jì)算采用雙線性插值法計(jì)算均分成4個(gè)區(qū)域的幾何中心值,然后進(jìn)行最大池化操作[19]。ROI Align池化過程如圖7所示。
圖7 ROI Align池化過程Fig.7 ROI Align pooling process
2.1.3 引入可變形卷積
由于SAR圖像中的船舶形狀不規(guī)則,本文在骨干網(wǎng)絡(luò)后加入一個(gè)可變形卷積可以更好地學(xué)習(xí)特征提取的位置,能夠讓卷積的區(qū)域集中在船舶上??勺冃尉矸e生成的特征圖按順序經(jīng)過3×3卷積、ROI Align操作后與RPN經(jīng)過ROI Align操作生成的區(qū)域建議特征圖按位相加,區(qū)域建議特征引入全局信息,可以緩解船舶目標(biāo)檢測(cè)受復(fù)雜背景和雜波干擾等問題??勺冃尉矸e[20]通過一個(gè)標(biāo)準(zhǔn)的卷積生成偏差特征,偏差特征與輸入特征圖尺寸保持一致,輸入特征與偏移特征疊加后通道數(shù)是2N,這2個(gè)特征卷積核參數(shù)通過雙線性插值之后反向傳播法學(xué)習(xí)得到,可變形卷積過程如圖8所示。
圖8 可變行卷積過程示意Fig.8 Deformable convolution process
卷積核定義為:
R={(-1,-1),(-1,0),…,(0,1),(1,1)},
(11)
標(biāo)準(zhǔn)卷積得到特征矩陣:
(12)
可變形卷積核得到矩陣:
(13)
式中,pn是對(duì)R中所有位置的枚舉;Δpn代表偏移矩陣。
Faster R-CNN算法總損失包括回歸損失和分類損失2部分。分類損失采用交叉熵?fù)p失函數(shù)L作為分類損失函數(shù):
(14)
Lcls=-[y·ln(pi)+(1-y)·ln(1-pi)],
(15)
式中,N代表樣本數(shù)量;pi表示第i個(gè)anchor預(yù)測(cè)為真實(shí)標(biāo)簽的概率;y代表真實(shí)標(biāo)簽(正樣本時(shí)為1,負(fù)樣本時(shí)為0)。RPN算法生成的候選框正樣本數(shù)量是低于負(fù)樣本的,產(chǎn)生訓(xùn)練樣本類間不平衡的問題。樣本分布失衡,當(dāng)負(fù)樣本遠(yuǎn)遠(yuǎn)大于正樣本時(shí),負(fù)樣本在損失函數(shù)中處于絕對(duì)優(yōu)勢(shì)方,模型學(xué)習(xí)到的樣本特征有限,泛化能力差。針對(duì)正負(fù)樣本不平衡的問題,引入Focal Loss損失函數(shù)[21]計(jì)算分類損失:
(16)
式中,α∈[0,1]代表正負(fù)樣本權(quán)重參數(shù);γ>0代表可調(diào)節(jié)因子。Focal Loss損失函數(shù)α和γ兩個(gè)參數(shù)可以很好地平衡正負(fù)樣本以及讓模型減少易分類的損失。本文設(shè)置α為0.25,γ為2。
本文實(shí)驗(yàn)基于paddlepaddle2.2.0框架,Tesla V100顯卡(32 GB),RAM(32 GB),CUDA10.1環(huán)境完成。Faster R-CNN采用ResNet50作為骨干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),加載COCO2017數(shù)據(jù)集預(yù)訓(xùn)練權(quán)重,使用Momentum方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行迭代更新,初始動(dòng)量參數(shù)設(shè)為0.9,初始學(xué)習(xí)率0.01,批次大小設(shè)為6,訓(xùn)練50個(gè)epoch。在此基礎(chǔ)上進(jìn)行改進(jìn),與原始網(wǎng)絡(luò)進(jìn)行對(duì)比。
本文實(shí)驗(yàn)采用的數(shù)據(jù)集為中國(guó)資源衛(wèi)星應(yīng)用中心提供的102景GF-3衛(wèi)星數(shù)據(jù)及歐洲航天局提供的108景哨兵1號(hào)衛(wèi)星數(shù)據(jù),標(biāo)注數(shù)據(jù)由中國(guó)科學(xué)院空天信息創(chuàng)新研究院王超研究員團(tuán)隊(duì)制作和提供。該數(shù)據(jù)集尺寸為256 pixel×256 pixel,共21 504張圖片,按照7∶3的比例把數(shù)據(jù)集隨機(jī)劃分成訓(xùn)練集和測(cè)試集,訓(xùn)練集15 053張,測(cè)試集6 451張。
本文使用平均準(zhǔn)確率(Average Precision,AP)作為實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)。AP綜合考慮到準(zhǔn)確率和召回率2個(gè)指標(biāo),計(jì)算公式為:
(17)
式中,P為準(zhǔn)確率;R為召回率。P和R計(jì)算公式為:
(18)
式中,TP代表模型預(yù)測(cè)為正樣本的正樣本;FP代表模型預(yù)測(cè)為正樣本的負(fù)樣本;FN代表模型預(yù)測(cè)為負(fù)樣本的正樣本。
為了驗(yàn)證本文Faster R-CNN網(wǎng)絡(luò)改進(jìn)的有效性,在102景GF-3衛(wèi)星及108景哨兵1號(hào)衛(wèi)星融合的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。策略1使用Swin-T與FPN融合的網(wǎng)絡(luò)結(jié)構(gòu)作為骨干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn);策略2使用ROI Align操作替換了ROI Pooling操作;策略3在骨干網(wǎng)絡(luò)最后引入可變形卷積生成的特征圖,經(jīng)過ROI Align操作與RPN結(jié)構(gòu)生成的特征圖經(jīng)過ROI Align操作按位相加。這些改進(jìn)策略相對(duì)于原始Faster R-CNN算法檢測(cè)精度對(duì)比如表1所示。
表1 不同改進(jìn)策略實(shí)驗(yàn)結(jié)果對(duì)比Tab.1 Comparison of experimental results in different improvement strategies
AP[0.5∶0.95](Box AP)表示IOU閾值大于[0.5∶0.95]([0.5∶0.95]表示0.5~0.95以0.05的步長(zhǎng))的平均檢測(cè)精度。由表1可知,采用骨干網(wǎng)絡(luò)Swin-T與多尺度網(wǎng)絡(luò)FPN融合的網(wǎng)絡(luò)結(jié)構(gòu)作為骨干網(wǎng)絡(luò)之后(改進(jìn)2),與原始Faster R-CNN相比Box AP提高3.2%。原始Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)用ROI Align替換ROI Pooling之后(改進(jìn)1),Box AP提高0.6%;在采用骨干網(wǎng)絡(luò)Swin-T與FPN融合的網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上用ROI Align替換ROI Pooling之后(改進(jìn)3),與原始Faster R-CNN相比Box AP提高4%;ROI Pooling操作2次量化操作有偏差導(dǎo)致小目標(biāo)的船舶定位誤差很大,ROI Align在一定程度上解決了該問題。在改進(jìn)3的基礎(chǔ)上引入可變形卷積,為RPN生成的候選區(qū)域特征引入全局信息,Box AP提高了5.7%,改善了近岸復(fù)雜場(chǎng)景和雜波干擾情況下的船舶檢測(cè)。本文改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)與原始Faster R-CNN算法AP曲線對(duì)比如圖9所示,本文算法在整個(gè)訓(xùn)練過程AP基本都高于Faster R-CNN,算法收斂后大幅度領(lǐng)先Faster R-CNN算法。
圖9 AP曲線對(duì)比Fig.9 Comparison of AP curves
為了驗(yàn)證分類損失引入Focal Loss損失函數(shù)的有效性,在原始Faster R-CNN算法基礎(chǔ)上使用Focal Loss損失函數(shù)作為分類損失函數(shù),檢測(cè)結(jié)果對(duì)比如表2所示。由表2可知,Box AP提高了0.7%,在本文改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上使用Focal Loss損失函數(shù)作為分類損失函數(shù),Box AP提高了0.5%。分類損失曲線對(duì)比如圖10所示,總損失曲線對(duì)比如圖11所示。由圖10和圖11可知,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)后的Faster R-CNN算法引入Focal Loss損失函數(shù)后,在訓(xùn)練過程分類損失更低且收斂更快,總損失也降低。Focal Loss損失函數(shù)可以很好地抑制正負(fù)樣本分布失衡導(dǎo)致負(fù)樣本分類損失變大的問題,提高模型的泛化能力。
表2 引入Focal Loss損失函數(shù)檢測(cè)結(jié)果對(duì)比Tab.2 Comparison of detection results by introducing Focal Loss function
圖10 分類損失曲線對(duì)比Fig.10 Comparison of classification loss curves
圖11 總損失曲線對(duì)比Fig.11 Comparison of total loss curves
為了說明本文算法的優(yōu)越性,部分有代表性的SAR圖像船舶檢測(cè)結(jié)果如圖12所示。其中,近岸港口和近島嶼的情況下檢測(cè)結(jié)果如圖12(a)和(b)所示,可以看出原始Faster R-CNN算法在面對(duì)復(fù)雜的近岸港口和近島嶼情況時(shí)會(huì)出現(xiàn)很多誤檢的目標(biāo);在圖12(c)所示的目標(biāo)密集較小情況下,原始Faster R-CNN算法檢測(cè)時(shí)也會(huì)出現(xiàn)誤檢的情況;在圖12(d)和(e)所示的面對(duì)背景雜波干擾和臨近目標(biāo)影響的情況下,給檢測(cè)帶來了很大的難度,特別是圖12(e)中出現(xiàn)大量誤檢的目標(biāo),檢測(cè)效果并不理想。在面對(duì)近岸和近島嶼復(fù)雜的背景、目標(biāo)密集且小以及背景雜波干擾等情況下,本文算法泛化能力更強(qiáng),發(fā)生誤檢的情況更少。本文算法引入多尺度融合和可變形卷積,提升了SAR圖像中復(fù)雜背景、目標(biāo)密集和小目標(biāo)情況下的船舶檢測(cè)效果。
(a) 近岸
(b) 近島嶼
(c) 密集目標(biāo)
(d) 背景雜波
(e) 臨近物體干擾圖12 檢測(cè)結(jié)果對(duì)比Fig.12 Comparison chart of detection results
不同算法在102景GF-3衛(wèi)星及108景哨兵1號(hào)衛(wèi)星的數(shù)據(jù)集上的檢測(cè)精度對(duì)比如表3所示。
表3 不同算法檢測(cè)精度和速度結(jié)果對(duì)比Tab.3 Comparison of detection average precision and speed results of different algorithms
可以看出,本文算法在該數(shù)據(jù)集上精度最高,充分說明本文算法在檢測(cè)精度方面的優(yōu)越性,相對(duì)于原始Faster R-CNN算法檢測(cè)速度也有大幅度提升。FCOS屬于anchor free類型的算法,其余算法都屬于anchor類型的算法;FCOS算法檢測(cè)精度低于anchor類型的算法,檢測(cè)速度也低于一階段算法。SSD和YOLO系列算法都屬于一階段算法,在檢測(cè)速度方面有很大優(yōu)勢(shì),但是檢測(cè)精度偏低。本文算法與Mask R-CNN和Cascade R-CNN相比,檢測(cè)精度仍有5.7%和4.9%的領(lǐng)先。
在SAR圖像的船舶檢測(cè)中,本文提出了一種改進(jìn)Faster R-CNN算法。Swin Transformer架構(gòu)中的多頭注意力機(jī)制可以關(guān)注更多上下文信息,對(duì)復(fù)雜環(huán)境下的船舶特征更好地提取;ROI Align操作可以改善小目標(biāo)定位偏差較大的情況;船舶的形狀不規(guī)則,可變形卷積提取特征圖為區(qū)域建議生成的特征圖引入全局信息;Focal Loss損失函數(shù)作為分類損失可以有效平衡正負(fù)樣本的損失,降低分類損失以及總損失。實(shí)驗(yàn)結(jié)果表明,本文算法在原始算法基礎(chǔ)上檢測(cè)精度有很大提升,AP[0.5∶0.95]達(dá)到61.3%;同時(shí)也優(yōu)于目前的主流目標(biāo)檢測(cè)算法。本文算法基于二階段的目標(biāo)檢測(cè)算法在檢測(cè)精度上有很大優(yōu)勢(shì),但是檢測(cè)速度較慢。在未來的研究中仍需對(duì)模型進(jìn)一步優(yōu)化,例如,優(yōu)化RPN算法、嘗試使用輕量級(jí)的骨干網(wǎng)絡(luò)提升檢測(cè)速度或使用輕量級(jí)的多尺度融合網(wǎng)絡(luò)結(jié)構(gòu)等。