李丹陽,馮海兵,聶孝亮,袁 路,陳冬冬
(解放軍63892部隊,河南 洛陽 471003)
合成孔徑雷達(SAR)具有成像分辨力高、工作不受天氣與時間影響等特點,在海洋艦船目標監(jiān)控、偵察等方面發(fā)揮著重要的作用。其中SAR圖像艦船目標檢測,特別是噪聲條件下的艦船目標檢測具有重要的應(yīng)用價值。
目前,基于深度學習的目標檢測方法由于具有目標特征提取能力強、檢測識別效果較好等優(yōu)點,已成為SAR圖像目標檢測識別研究中的熱點?;谏疃葘W習的目標檢測識別方法可大致分為基于候選區(qū)域的方法[1-4]和基于回歸的方法[5-9]。其中基于候選區(qū)域的方法,如R-CNN、Fast RCNN、Faster RCNN等,基本思路是將檢測識別過程分為2個階段:首先生成候選框,然后再進行目標識別。在基于回歸的方法中,最具有代表性的是YOLO(you only look once)系列算法。2016年,YOLO算法由Joseph Redmon等人提出,與上述基于候選區(qū)域的二階段算法不同,YOLO采用回歸的思想將目標檢測識別在1個階段完成,提出了一種新的思路。與其他深度學習方法相比,YOLO最大的優(yōu)點是檢測速度快,因此具有很高的應(yīng)用價值。目前,YOLO已經(jīng)經(jīng)過YOLO V1,YOLO V2[5]、YOLO V3[6-7]、YOLO V4[8]發(fā)展到第5代YOLO V5[9],通過不斷的改進,其性能和網(wǎng)絡(luò)規(guī)模得到了不斷的優(yōu)化。
雖然YOLO的檢測速度快,效率高,但是當檢測目標中含有一定程度的噪聲時,其檢測能力將受到較大的影響,難以有效地檢測和定位目標。因此,為了解決噪聲條件下SAR圖像艦船目標檢測問題[10],本文研究了YOLO V5在噪聲條件下的檢測識別性能,提出了一種改進的Focus結(jié)構(gòu),通過添加最大池化層、最小池化層、平均池化層、圖像抽樣層等結(jié)構(gòu),將圖像切分過程改進為特征提取過程,通過構(gòu)建混合樣本集,訓(xùn)練得到目標檢測模型,提高了YOLO V5的目標檢測能力。
YOLO V5根據(jù)模型規(guī)模不同,分為YOLO V5x、YOLO V5l、YOLO V5m、YOLO V5s 4個版本。其中,YOLO V5s是輕量化版本,模型規(guī)模最小,檢測速度最快。YOLO V5s模型主要由Backbone和Head兩部分組成[9]。其中Backbone主要對輸入的圖像進行特征提取,Head利用Backbone提取的特征進行預(yù)測,輸出結(jié)果。YOLO V5s基本網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 YOLO V5s基本網(wǎng)絡(luò)結(jié)構(gòu)
其中輸入“-1”表示輸入來自前一級。例如,輸入“[-1,6]”表示輸入來自前一級和編號為6的模型。Backbone主要由Focus、Conv、C3、SPP等組件構(gòu)成。Focus組件的主要功能是對輸入的圖像進行切分操作。Conv組件是標準卷積層,主要實現(xiàn)將輸入特征進行卷積,經(jīng)過激活函數(shù),歸一化等得到輸出層。C3(CSP Bottleneck with 3 convolution)主要由Bottleneck構(gòu)成,Bottleneck為經(jīng)典的殘差結(jié)構(gòu)??臻g金字塔池化(SPP)結(jié)構(gòu)組件的主要功能是實現(xiàn)多尺度特征的融合,提升特征提取能力。Head主要由Detect組件構(gòu)成,Detect組件的主要功能是實現(xiàn)目標檢測。
YOLO V5中Focus組件的結(jié)構(gòu)如圖1所示。Focus組件首先對輸入的圖像進行圖像切分操作,實現(xiàn)對圖像的下采樣,生成4個特征圖,然后將這些特征圖進行圖像拼接,實現(xiàn)圖像數(shù)據(jù)維度的轉(zhuǎn)換。
圖1 Focus組件結(jié)構(gòu)
將輸入圖像記為G,4個特征圖分別記為F1,F(xiàn)2,F(xiàn)3,F(xiàn)4。假設(shè)輸入圖像數(shù)據(jù)由2n行、2n列共4n2個像素組成,則每個特征圖由n行、n列各n2個像素組成。記g(i,j)表示G中i行、j列的像素值,且變量i,j取值范圍滿足1≤i,j≤2n。f1(r,c)表示特征圖F1中r行c列的像素值,且變量r,c取值范圍滿足1≤r,c≤n。同理,分別用f2(r,c),f3(r,c),f4(r,c)表示特征圖F2,F(xiàn)3,F(xiàn)4中的元素值,則特征圖與輸入圖像的關(guān)系如下:
(1)
圖像切分操作主要是在保留圖像原始信息和較少改變像素間空間位置關(guān)系的情況下,對輸入圖像數(shù)據(jù)的維度進行轉(zhuǎn)換。這種設(shè)計對于高斯噪聲的適應(yīng)能力有限,雖然保留了圖像的原始信息,但是對于圖像中的高斯噪聲難以有效處理。因此,針對高斯噪聲,提出一種改進的Focus結(jié)構(gòu),如圖2所示。在改進的Focus結(jié)構(gòu)中去除了圖像切分操作,同時加入最大池化層、最小池化層、平均池化層和圖像抽樣層等4個特征提取層,分別生成最大池化特征圖、最小池化特征圖、平均池化特征圖和圖像抽樣特征圖,分別記為Fmax,F(xiàn)min,F(xiàn)mean,F(xiàn)sample,然后對4個特征圖進行圖像拼接,輸入卷積層進行下一步的卷積處理。改進的Focus結(jié)構(gòu)將簡單的圖像切分操作改進為特征提取操作,提高了YOLO V5模型對含高斯噪聲圖像的適應(yīng)和處理能力。
圖2 改進的Focus組件結(jié)構(gòu)
其中最大池化層的卷積核尺寸為2×2,步進為2。用fmax(r,c)表示Fmax中r行、c列的像素值,則最大池化層的具體操作為:
fmax(r,c)=max(g(2r-1,2c-1),
g(2r,2c-1),g(2r-1,2c),g(2r,2c))
(2)
最小池化層的卷積核尺寸為2×2,步進為2。用fmin(r,c)表示Fmin中r行、c列的像素值,則最小池化層的具體操作為:
fmin(r,c)=min(g(2r-1,2c-1),
g(2r,2c-1),g(2r-1,2c),g(2r,2c))
(3)
平均池化層的卷積核尺寸為2×2,步進為2。用fmean(r,c)表示Fmean中r行、c列的像素值,則平均池化層的具體操作為:
fmean(r,c)=mean(g(2r-1,2c-1),
g(2r,2c-1),g(2r-1,2c),g(2r,2c))
(4)
圖像抽樣層在輸入圖像數(shù)據(jù)中抽取指定位置的像素,具體操作為:
fsample(r,c)∈{g(2r-1,2c-1),g(2r,2c-1),
g(2r-1,2c),g(2r,2c)}
(5)
在實際使用中,fsample(r,c)的值可根據(jù)需要從g(2r-1,2c-1),g(2r,2c-1),g(2r-1,2c),g(2r,2c)中選擇。在此指定fsample(r,c)的值如下:
fsample(r,c)=g(2r-1,2c)
(6)
通過已知原始樣本集和噪聲類型,生成一定數(shù)量的含噪聲樣本,并將生成的樣本和一定數(shù)量的原始樣本集混合,構(gòu)造混合樣本集,然后采用混合樣本集訓(xùn)練YOLO V5模型,實現(xiàn)含噪聲圖像目標的有效檢測,其基本思路如圖3所示。
圖3 基于含噪聲樣本生成的模型訓(xùn)練
其中含噪聲樣本生成方法主要包括基于回波仿真的生成方法和基于圖像處理的生成方法?;诨夭ǚ抡娴纳煞椒ㄊ抢肧AR仿真系統(tǒng),根據(jù)SAR圖像生成相應(yīng)的射頻回波信號,利用噪聲產(chǎn)生設(shè)備產(chǎn)生相應(yīng)的噪聲射頻信號,然后將SAR射頻回波信號與噪聲射頻信號混合,由SAR仿真系統(tǒng)對混合信號成像,生成含噪聲圖像樣本。這種方法可以較好地仿真模擬噪聲的效果,但是實現(xiàn)成本較高,且回波仿真過程中的參數(shù)獲取較為困難。基于圖像處理的生成方法主要是根據(jù)噪聲類型不同,在樣本圖像上直接添加噪聲,生成含噪聲樣本。這種方法易于實現(xiàn),效率較高。本文為了方便研究,采用圖像處理的方法生成含噪聲圖像樣本。
采用NVIDIA GEFORCE RTX 2060 顯卡,在PyCharm Community 2021.1環(huán)境下進行仿真試驗,仿真圖像數(shù)據(jù)集采用SSDD數(shù)據(jù)集[11]。對數(shù)據(jù)集中的艦船目標進行統(tǒng)計分析,其中目標大小的分布如圖4所示。
圖4 目標大小分布
目標在圖像中的寬、高占比分布情況如圖5所示。其中水平軸表示目標像素寬度與圖像像素寬度之比,縱軸表示目標像素高度與圖像像素高度之比。
圖5 目標寬高占比
仿真過程中,將數(shù)據(jù)集隨機分為訓(xùn)練集、驗證集和測試集3部分,其中訓(xùn)練集記為Train,共含有696張圖片;驗證集記為Val,共含有232張圖片;測試集記為Test,共含有232張圖片。
YOLO V5分別對特征圖像進行了32倍、16倍、8倍的下采樣,每次下采樣采用3個類型錨框,因此,采用K-means聚類算法將訓(xùn)練集的錨框(Anchor Box)分為9類,對應(yīng)3種不同的預(yù)測層級,運算得到的錨框尺寸如表2所示。
表2 錨框尺寸表
仿真過程假設(shè)圖像受到3種不同程度噪聲(均值為0.3、方差為0.01的高斯噪聲,均值為0.5、方差為0.01的高斯噪聲,均值為0.7、方差為0.01的高斯噪聲)影響,分析在不同程度噪聲下,YOLO V5模型對圖像目標的檢測性能。
一般用PR(Precision Recall)曲線下方的面積,即平均精度(AP)值衡量檢測模型的檢測能力。在訓(xùn)練集Train中,隨機選擇30%數(shù)量的圖片,對這些圖片施加均值為0.3、方差為0.01的高斯噪聲,將這些含噪聲圖片放入訓(xùn)練集Train中,構(gòu)成混合訓(xùn)練集,記為T1,共含有904張圖片。采用T1作為訓(xùn)練集,經(jīng)過50次訓(xùn)練,取其中AP值最大的模型作為最終的檢測模型,記為M1。對測試集施加不同程度的高斯噪聲,其中含均值為0.3、方差為0.01的高斯噪聲的測試集記為Test1,含均值為0.5、方差為0.01的高斯噪聲的測試集記為Test2,含均值為0.7、方差為0.01的高斯噪聲的測試集記為Test3,用M1分別對這些測試集進行目標檢測,結(jié)果如圖6所示。
圖6 M1在3個測試集中的PR曲線
在訓(xùn)練集Train中,隨機選擇30%數(shù)量的圖片,對這些圖片施加均值為0.5、方差為0.01的高斯噪聲,將這些含噪聲圖片放入訓(xùn)練集Train中,構(gòu)成混合訓(xùn)練集,記為T2。采用T2作為訓(xùn)練集,經(jīng)過50次訓(xùn)練,取其中AP值最大的模型作為最終的檢測模型,記為M2,分別對Test1、Test2、Test3的檢測結(jié)果如圖7所示。
圖7 M2在3個測試集中的PR曲線
由圖6、圖7可知,在Test1、Test2、Test3測試集中,M1的AP值分別為0.894、0.664、0.003,M2的AP值分別為0.912、0.883、0.574。隨著測試集中高斯噪聲強度的增加,M1和M2的AP值均顯著降低,其中M1幾乎無法對Test3進行檢測。在3個測試集中M2的AP值均高于M1,說明由不同程度噪聲樣本構(gòu)成的混合訓(xùn)練集對于檢測模型的檢測能力有一定的影響,T2訓(xùn)練得到的檢測模型M2的檢測性能優(yōu)于T1訓(xùn)練得到的檢測模型M1。
選擇T1作為訓(xùn)練集,采用改進Focus結(jié)構(gòu)的YOLO V5模型經(jīng)過50次訓(xùn)練,取其中AP值最大的模型作為最終的檢測模型,記為IM1,分別對Test1、Test2、Test3進行檢測,結(jié)果如圖8所示。
圖8 IM1在3個測試集中的PR曲線
選擇T2作為訓(xùn)練集,采用改進Focus結(jié)構(gòu)的YOLO V5模型經(jīng)過50次訓(xùn)練,取其中AP值最大的模型作為最終的檢測模型,記為IM2,分別對Test1、Test2、Test3進行檢測,結(jié)果如圖9所示。
圖9 IM2在3個測試集中的PR曲線
由圖8、圖9可知,在Test1、Test2、Test3測試集中,IM1的AP值分別為0.917、0.832、0.226,與M1相比,AP值分別提升2.6%、25.3%、7 433.3%;IM2的AP值分別為0.925、0.899、0.712,與M2相比,AP值分別提升1.4%、1.8%、24.0%。檢測效果提升明顯,證明了基于改進Focus結(jié)構(gòu)的YOLO V5模型對于含有高斯噪聲的圖像具有更好的目標檢測能力。
針對YOLO V5模型在檢測含高斯噪聲圖像目標時檢測能力有限的問題,提出了一種改進的Focus結(jié)構(gòu),通過對已知訓(xùn)練樣本集采用含噪聲樣本生成,構(gòu)建含不同程度高斯噪聲的混合訓(xùn)練集,分別訓(xùn)練得到目標檢測模型。采用SSDD數(shù)據(jù)集進行仿真驗證,仿真結(jié)果表明,在含均值為0.3、方差為0.01的高斯噪聲的測試集,含均值為0.5、方差為0.01的高斯噪聲的測試集和含均值為0.7、方差為0.01的高斯噪聲的測試集等3種含有不同程度高斯噪聲的測試集中,基于改進Focus結(jié)構(gòu)的YOLO V5模型的AP值均高于經(jīng)典的YOLO V5模型,檢測效果提升明顯,驗證了所提方法的有效性。