崔亞楠,吳建平,2,3,朱辰龍,閆相如
(1.云南大學(xué) 信息學(xué)院,云南 昆明 650504;2.云南省電子計(jì)算中心,云南 昆明 650223;3.云南省高校數(shù)字媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650223)
合成孔徑雷達(dá)(synthetic aperture radar,SAR)是一種與紅外光、可見光等傳統(tǒng)光學(xué)成像系統(tǒng)截然不同的主動(dòng)微波成像雷達(dá)系統(tǒng)?;诙嗥脚_(tái)協(xié)同工作的SAR具有全天候,全天時(shí),不受環(huán)境因素影響等諸多獨(dú)特優(yōu)勢。目前,隨著SAR系統(tǒng)成像技術(shù)的發(fā)展,在情報(bào)搜集、目標(biāo)偵察等方面具有重大意義。高效、準(zhǔn)確的SAR圖像目標(biāo)自動(dòng)識別成為當(dāng)前研究熱點(diǎn)。
早期對SAR圖像目標(biāo)識別分類的研究重心在于特征的提取和分類器的設(shè)計(jì)。如汪洪橋等人[1]運(yùn)用多鄰域正交基實(shí)現(xiàn)對SAR圖像的多級濾波采樣,獲取SAR多級Gauss差分圖像的空間尺度并應(yīng)用于SAR圖像特征的提取。然后運(yùn)用多尺度核的支持向量機(jī)(SVM)模型對不同層級的圖像特征進(jìn)行多尺度核函數(shù)映射,最后進(jìn)行合成,實(shí)現(xiàn)SAR圖像目標(biāo)的識別分類;Liu Haicang等人[2]提出一種基于稀疏表示融合支持向量機(jī)決策的方法。利用FSR-C分類器對圖像進(jìn)行分類檢測,并通過檢測SR系數(shù)中非零元素的位置對SAR圖像目標(biāo)進(jìn)行識別分類。利用SVM-C提取圖像的PCA特征。最后融合FSR-C和SVM-C提取的特征實(shí)現(xiàn)SAR圖像目標(biāo)的分類;吳天寶等人[3]基于SVM和稀疏表示分類(SRC)級聯(lián)決策融合的方法,首先運(yùn)用SVM對圖像進(jìn)行分類,獲取圖像的后驗(yàn)概率,然后通過門限判決方法得到置信度較高的類別圖像,最后利用SRC對SAR圖像進(jìn)行分類,并結(jié)合SVM和SRC的決策值實(shí)現(xiàn)SAR圖像目標(biāo)識別分類。近幾年,深度學(xué)習(xí)[4]的出現(xiàn)使得圖像識別研究取得突破性的進(jìn)展。AlexNet[5]、VGG[6]、GoogleNet[7]、ResNet[8]等神經(jīng)網(wǎng)絡(luò)模型相繼出現(xiàn),并在ImageNet大賽中展露鋒芒。因此,深度學(xué)習(xí)的方法必然被引入到SAR圖像目標(biāo)識別分類的研究中。
在深度學(xué)習(xí)研究中,胡顯等人[9]提出一種基于SAR圖像識別的CMNet網(wǎng)絡(luò)模型。該模型運(yùn)用較小的卷積核設(shè)計(jì)四個(gè)卷積池化層完成特征提取,利用Softmax損失與中心損失共同監(jiān)督網(wǎng)絡(luò)訓(xùn)練,以此來提高網(wǎng)絡(luò)模型的泛化能力,提高SAR圖像識別的準(zhǔn)確率。但面對場景復(fù)雜的SAR圖像,淺層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力有限,泛化能力較差,對SAR圖像識別率提高有限。該文前期實(shí)驗(yàn)將遷移學(xué)習(xí)與Inception-Resnet-v2網(wǎng)絡(luò)模型相結(jié)合,通過遷移預(yù)訓(xùn)練仿真SAR圖像的網(wǎng)絡(luò)參數(shù)作為目標(biāo)網(wǎng)絡(luò)的初始參數(shù),然后使用Inception-Resnet-v2目標(biāo)網(wǎng)絡(luò)對SAR圖像進(jìn)行訓(xùn)練,實(shí)現(xiàn)目標(biāo)圖像特征的提取。最后,通過Softmax分類器對SAR圖像進(jìn)行識別分類。該方法選用網(wǎng)絡(luò)層次較深的Inception-Resnet-v2模型對SAR圖像進(jìn)行訓(xùn)練,以便獲取更深層次的圖像特征。并利用遷移學(xué)習(xí)提高模型泛化能力,解決小樣本問題。該方法相比文獻(xiàn)[9],網(wǎng)絡(luò)學(xué)習(xí)能力得到加強(qiáng),對SAR圖像識別率有明顯提高。但深層網(wǎng)絡(luò)訓(xùn)練更加注重圖像的語義信息,訓(xùn)練過程中圖像細(xì)節(jié)特征丟失嚴(yán)重,對提高SAR圖像識別的準(zhǔn)確率有一定的影響。任碩良等人[10]將遷移學(xué)習(xí)與VGG16網(wǎng)絡(luò)模型相結(jié)合,通過遷移VGG16網(wǎng)絡(luò)的預(yù)訓(xùn)練模型完成目標(biāo)圖像特征的提取。該文選用VGG16深層神經(jīng)網(wǎng)絡(luò),訓(xùn)練過程中仍然存在圖像細(xì)節(jié)丟失的問題。
針對以上SAR圖像識別的深度學(xué)習(xí)方法所存在的問題,研究并提出一種基于遷移學(xué)習(xí)改進(jìn)ResNet101下SAR圖像識別研究方法。其思路是:采用ResNet101卷積神經(jīng)網(wǎng)絡(luò)[8]作為網(wǎng)絡(luò)總體框架,并針對小樣本SAR圖像在深層卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中細(xì)節(jié)特征丟失嚴(yán)重的問題,將卷積注意力模塊(CBAM)[11],特征金字塔網(wǎng)絡(luò)(FPN)[12]與ResNet101神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)成RCF(ResNet101-CBAM-FPN)神經(jīng)網(wǎng)絡(luò)模型,以充分提取SAR圖像的特征。針對卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練小樣本數(shù)據(jù)集出現(xiàn)過擬合的問題,利用仿真SAR圖像數(shù)據(jù)集對RCF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練,得到相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。將得到的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)遷移至目標(biāo)RCF網(wǎng)絡(luò)模型上,再對SAR圖像數(shù)據(jù)進(jìn)行訓(xùn)練。該文在前期研究實(shí)驗(yàn)的基礎(chǔ)上,將深層神經(jīng)網(wǎng)絡(luò)與FPN結(jié)合,并在網(wǎng)絡(luò)中引入CBAM,一定程度上增強(qiáng)了網(wǎng)絡(luò)對圖像關(guān)鍵特征的學(xué)習(xí),減少了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練小樣本圖像細(xì)節(jié)特征的丟失。實(shí)驗(yàn)結(jié)果表明,該算法相較以往研究方法具有更佳的識別效果,進(jìn)一步提高了SAR識別的應(yīng)用價(jià)值。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中具有層次模型的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),核心結(jié)構(gòu)包含卷積層、池化層以及全連接層。卷積神經(jīng)網(wǎng)絡(luò)利用卷積層和池化層,實(shí)現(xiàn)特征提取。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中可自動(dòng)提取目標(biāo)特征。同時(shí),模型參數(shù)量很大程度得到減少,模型泛化能力得到提高。
卷積核作為卷積層的核心部分,通過神經(jīng)元進(jìn)行矩陣變換計(jì)算,將特征信息傳遞至下一層,實(shí)現(xiàn)特征提取。通常神經(jīng)網(wǎng)絡(luò)模型中會(huì)存在多種尺度的卷積核,多種尺度的卷積核逐一進(jìn)行特征提取才能充分提取特征信息。其卷積過程如下所示:
(1)
當(dāng)卷積層完成特征提取后,會(huì)將提取的特征信息傳輸?shù)匠鼗瘜樱M(jìn)一步縮減來自卷積層的特征矩陣,優(yōu)化對特征信息的提取。同時(shí)能有效降低特征維度,減少網(wǎng)絡(luò)模型的運(yùn)算量。
全連接層作為卷積神經(jīng)網(wǎng)絡(luò)的核心結(jié)構(gòu),相當(dāng)于神經(jīng)網(wǎng)絡(luò)的“分類器”。全連接層通過對模型學(xué)習(xí)到的特征信息進(jìn)行加權(quán)求和,并與樣本空間中的標(biāo)簽數(shù)據(jù)進(jìn)行映射,進(jìn)而對學(xué)習(xí)到的特征信息加以區(qū)分。
卷積注意力模塊(CBAM)[11]在2018ECCV會(huì)議上被Woo等人提出。CBAM由通道注意力(channel attention)和空間注意力(spatial attention)聯(lián)合構(gòu)成,是一種輕量級模塊。其中,通道注意力模塊注重全局信息,通過分析每條通道之間的相互關(guān)系,確定每個(gè)特征通道的重要程度,再對每個(gè)通道獲取的特征信息進(jìn)行重要程度劃分,以獲取目標(biāo)圖像的顯著特征。
假定F為通道注意力輸入的特征圖,則該模塊權(quán)重系數(shù)MC(F)表達(dá)如下:
MC(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))=
(2)
空間注意力模塊注重局部信息,通過分析上下文信息的相互關(guān)系,確定特征對應(yīng)空間位置信息的重要程度,以獲取目標(biāo)圖像的顯著特征
假定F為通道注意力輸入的特征圖,則該模塊權(quán)重系數(shù)MS(F)表達(dá)如下:
MS(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))=
(3)
CBAM首先將給定的特征圖F∈RC×H×W與通道注意力模塊的權(quán)重MC(F)相乘得到通道優(yōu)化的特征圖F',再將通道特征圖F'作為空間注意力的輸入與空間注意力模塊的權(quán)重MS(F)相乘得到優(yōu)化的空間位置信息特征圖。CBMA實(shí)現(xiàn)過程可表示為:
F'=MC(F)?F
(4)
F''=MS(F')?F'
(5)
對于卷積神經(jīng)網(wǎng)絡(luò),淺層網(wǎng)絡(luò)更注重細(xì)節(jié)特征,深層網(wǎng)絡(luò)更注重語義信息。通過深層語義信息可以更準(zhǔn)確檢測目標(biāo),因此傳統(tǒng)網(wǎng)絡(luò)模型通常利用最后一層卷積特征圖實(shí)現(xiàn)檢測。其缺點(diǎn)是只關(guān)注特征圖的最后一層,而忽略了其他層所包含的細(xì)節(jié)特征。特征金字塔網(wǎng)絡(luò)(FPN)作為一種端到端的網(wǎng)絡(luò)[12],能夠?qū)⒑胸S富語義的高層特征傳遞至底層,實(shí)現(xiàn)低分辨率的高層特征與高分辨率的底層特征相融合,使得網(wǎng)絡(luò)每一層都具有豐富的特征信息。特征金字塔結(jié)構(gòu)以損失少量的運(yùn)算效率為代價(jià),能夠有效提升目標(biāo)識別的準(zhǔn)確率,更有利于小樣本實(shí)現(xiàn)目標(biāo)檢測。
由于SAR成像系統(tǒng)受到相干輻射的影響,導(dǎo)致生成的圖像存在較大的相干斑噪聲,后期對SAR圖像的處理、解釋具有嚴(yán)重干擾,一定程度增加了卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的難度,不利于卷積神經(jīng)網(wǎng)絡(luò)性能的最大化利用。因此,該文預(yù)先采用增強(qiáng)的Lee濾波算法[13]對SAR圖像進(jìn)行濾波去噪,盡可能減少噪聲對神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)過程的影響,確保網(wǎng)絡(luò)性能達(dá)到最佳。
仿真SAR圖像通過電磁散射模型與場景模型獲取SAR圖像掃頻數(shù)據(jù),再結(jié)合時(shí)頻變換與成像算法得到[14]。利用射線追蹤方法獲取地面與目標(biāo)場景的空間幾何關(guān)系,初步建立3D仿真SAR場景模型。利用粗糙面散射理論等技術(shù)實(shí)現(xiàn)真實(shí)場景粗糙特性的建模。利用射線彈跳法等方法建立地面及目標(biāo)場景的電磁散射模型,獲取SAR圖像目標(biāo)的掃頻數(shù)據(jù)。最后通過時(shí)頻變換與成像技術(shù)得到仿真SAR目標(biāo)圖像。
以往的SAR圖像識別研究都采用ImageNet數(shù)據(jù)集進(jìn)行遷移訓(xùn)練,但I(xiàn)mageNet數(shù)據(jù)集中的圖像特征與SAR圖像特征相似度不高,訓(xùn)練出來的網(wǎng)絡(luò)參數(shù)不太適合作為訓(xùn)練SAR圖像網(wǎng)絡(luò)模型的初始化參數(shù)。仿真SAR圖像與MSTAR數(shù)據(jù)集提供的SAR圖像相比,特征相似度高,相干斑噪聲小,相比ImageNet圖像更適合作為預(yù)訓(xùn)練樣本。仿真SAR圖像與真實(shí)SAR圖像對比如圖1所示。
卷積注意力模塊在通道和空間上對圖像重要特征進(jìn)行篩選,使得引入CBAM的網(wǎng)絡(luò)模型能夠更加準(zhǔn)確提取目標(biāo)的主要特征。該文將CBAM應(yīng)用到殘差網(wǎng)絡(luò)中,在ResNet101網(wǎng)絡(luò)的殘差節(jié)點(diǎn)分別加入四個(gè)卷積注意力模塊,對各殘差模塊學(xué)習(xí)到的圖像特征進(jìn)行分析,通過對特征圖分配不同的權(quán)重,引導(dǎo)網(wǎng)絡(luò)在訓(xùn)練過程中有針對性地提取目標(biāo)圖像上關(guān)鍵的特征信息,從而提高網(wǎng)絡(luò)模型對SAR圖像目標(biāo)的特征表達(dá)能力。結(jié)合CBAM的殘差網(wǎng)絡(luò)模型如圖2所示。
圖1 SAR圖像與仿真SAR圖像對比
圖2 融合CBAM的殘差模塊
使用ResNet101網(wǎng)絡(luò)模型作為RCF網(wǎng)絡(luò)的主干部分,網(wǎng)絡(luò)總體框架如圖3所示。與ResNet101網(wǎng)絡(luò)不同,RCF網(wǎng)絡(luò)模型在主干ResNet101網(wǎng)絡(luò)的中間層加入了四個(gè)CBAM模塊,從而提升網(wǎng)絡(luò)對圖像重要特征的學(xué)習(xí)能力。結(jié)合特征金子塔網(wǎng)絡(luò),RCF網(wǎng)絡(luò)在每個(gè)CBAM模塊后,將上一層學(xué)習(xí)到的圖像特征經(jīng)過1×1的卷積塊提取,通過上采樣方法將高層特征傳遞至底層,實(shí)現(xiàn)高層特征與底層特征的融合,最大程度上保留圖像的細(xì)節(jié)特征。最終將融合的特征通過全局平均池化(AVG pooling)操作輸入到全連接層。同時(shí),在全連接層之前加入Dropout層防止過擬合,有利于提升網(wǎng)絡(luò)模型的泛化能力。
圖3 RCF網(wǎng)絡(luò)總體結(jié)構(gòu)
遷移學(xué)習(xí)是一種利用某一領(lǐng)域現(xiàn)存的知識或在該領(lǐng)域?qū)W習(xí)到的經(jīng)驗(yàn)對相關(guān)領(lǐng)域存在的問題進(jìn)行求解的機(jī)器學(xué)習(xí)方法[15]。傳統(tǒng)機(jī)器學(xué)習(xí)需要大量數(shù)據(jù)訓(xùn)練,得到性能良好的模型,遷移學(xué)習(xí)能有效解決神經(jīng)網(wǎng)絡(luò)對訓(xùn)練樣本需求量大的缺陷,對于提升小樣本數(shù)據(jù)圖像分類識別的準(zhǔn)確率有較大貢獻(xiàn)。實(shí)現(xiàn)的模型遷移過程如圖4所示。
選用的MSTAR數(shù)據(jù)集相對完整,并且數(shù)據(jù)集建模時(shí)充分考慮了目標(biāo)形態(tài)變化以及影響目標(biāo)的不確定因素。該數(shù)據(jù)集包含兩種方向角下十種目標(biāo)圖像,共計(jì)5 172張SAR圖像。實(shí)驗(yàn)將兩個(gè)方位角下的同類目標(biāo)圖像打亂,并在每類中隨機(jī)抽取80%作為訓(xùn)練集,剩余的20%作為測試集,具體如表1所示。
圖4 遷移學(xué)習(xí)模型
預(yù)訓(xùn)練過程使用SAR仿真數(shù)據(jù)集[16],該仿真數(shù)據(jù)集包含多個(gè)同場景下的七種SAR目標(biāo)圖像,共計(jì)21 168幅仿真SAR圖像。
訓(xùn)練輸入大小為224×224的圖片;dropout值設(shè)置為0.8;batchsize值設(shè)置為12;學(xué)習(xí)率設(shè)置為0.000 1;訓(xùn)練共計(jì)迭代10 340次。MSTAR十類目標(biāo)圖像識別率如表2混淆矩陣所示。其中,2S1、BTR70、D7、T72、ZIL131、ZSU23這六種類別的SAR目標(biāo)圖像都取得100%的識別率。最終,十類SAR目標(biāo)圖像的平均識別率達(dá)到99.60%。
表1 SAR實(shí)驗(yàn)數(shù)據(jù)
表2 MSTAR十類目標(biāo)圖像識別結(jié)果
為驗(yàn)證該算法的有效性,在原有實(shí)驗(yàn)基礎(chǔ)上預(yù)先設(shè)置兩組對比實(shí)驗(yàn)。
(1)實(shí)驗(yàn)一:ResNet101網(wǎng)絡(luò)模型遷移實(shí)驗(yàn)。
選用ResNet101網(wǎng)絡(luò)替換RCF網(wǎng)絡(luò)模型,并實(shí)現(xiàn)文中遷移學(xué)習(xí)訓(xùn)練。訓(xùn)練集和驗(yàn)證集的獲取方式、輸入圖像的大小、dropout值、batchsize大小、學(xué)習(xí)率與文中實(shí)驗(yàn)相同。最終在MSTAR數(shù)據(jù)集上僅實(shí)現(xiàn)了96.43%的識別率。
該實(shí)驗(yàn)驗(yàn)證了構(gòu)造的RCF網(wǎng)絡(luò)模型能夠更有效地提取圖像的特征。不僅能夠減少圖像細(xì)節(jié)特征的消失,而且能夠使模型更加專注于重要特征的學(xué)習(xí),提高模型的學(xué)習(xí)能力。
(2)實(shí)驗(yàn)二:ImageNet數(shù)據(jù)集預(yù)訓(xùn)練RCF網(wǎng)絡(luò)。
選取ImageNet數(shù)據(jù)集對RCF網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。再利用遷移學(xué)習(xí)方法,將預(yù)訓(xùn)練模型的網(wǎng)絡(luò)參數(shù)作為目標(biāo)訓(xùn)練網(wǎng)絡(luò)初始化參數(shù),并完成目標(biāo)網(wǎng)絡(luò)對MSTAR圖像目標(biāo)的訓(xùn)練。該實(shí)驗(yàn)僅替換掉原預(yù)訓(xùn)練過程使用的數(shù)據(jù)集,實(shí)驗(yàn)參數(shù)與文中實(shí)驗(yàn)選取的參數(shù)保持一致。最終在MSTAR數(shù)據(jù)集圖像識別上獲得98.81%的準(zhǔn)確率,仍低于文中方法。
該實(shí)驗(yàn)證明仿真SAR圖像與SAR圖像具有更高的特征相似度,使用仿真SAR圖像對網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練,在有效抑制網(wǎng)絡(luò)過擬合的同時(shí)很大程度上提升了模型的泛化能力。
SAR圖像識別準(zhǔn)確率以及訓(xùn)練誤差對比如圖5、圖6所示。
圖5 SAR識別準(zhǔn)確率對比
圖6 SAR訓(xùn)練誤差對比
為進(jìn)一步驗(yàn)證文中方法的有效性,將其與其他方法的SAR圖像識別效果進(jìn)行對比,結(jié)果如表3所示。
表3 不同方法下SAR圖像識別率對比
在不擴(kuò)充SAR訓(xùn)練樣本(小樣本)的前提下,提出RCF神經(jīng)網(wǎng)絡(luò)模型。RCF以ResNet101網(wǎng)絡(luò)作為主干網(wǎng),并在主干網(wǎng)的中間層加入了四個(gè)CBAM模塊,增強(qiáng)網(wǎng)絡(luò)模型對SAR圖像關(guān)鍵特征的學(xué)習(xí),從而提升網(wǎng)絡(luò)模型對SAR圖像識別的準(zhǔn)確率。同時(shí),為了解決網(wǎng)絡(luò)過深而導(dǎo)致SAR圖像細(xì)節(jié)特征嚴(yán)重丟失的問題,引入了FPN網(wǎng)絡(luò),實(shí)現(xiàn)圖像高層特征與底層特征融合,豐富圖像特征信息,提升分類器對小樣本識別分類能力。其中,使用了RCF網(wǎng)絡(luò)模型先對仿真SAR圖像進(jìn)行預(yù)訓(xùn)練,將預(yù)訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)作為RCF網(wǎng)絡(luò)模型的初始化參數(shù)訓(xùn)練SAR圖像,有效解決深度網(wǎng)絡(luò)訓(xùn)練小樣本數(shù)據(jù)集易導(dǎo)致過擬合的問題。最終在測試集上獲得99.60%的識別率,驗(yàn)證了該改進(jìn)方法具有較好的有效性及可行性。
該方法相較于現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)方法,有效解決了深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練小樣本SAR圖像細(xì)節(jié)特征丟失嚴(yán)重的技術(shù)問題,為SAR圖像目標(biāo)的識別研究和進(jìn)一步應(yīng)用提供理論和技術(shù)參考。