夏 勇, 田西蘭, 常 沛, 蔡紅軍
(1.中國電子科技集團(tuán)公司第三十八研究所, 安徽合肥 230088;2.孔徑陣列與空間探測(cè)安徽省重點(diǎn)實(shí)驗(yàn)室, 安徽合肥 230088)
合成孔徑雷達(dá)(SAR)是一種微波成像傳感器,能夠獲得地物的二維圖像,是一種重要的對(duì)地觀測(cè)手段。其具有全天時(shí)全天候等多種特點(diǎn),可以在惡劣的戰(zhàn)場(chǎng)條件下完成偵察任務(wù)。它在國民經(jīng)濟(jì)和國防安全等領(lǐng)域有著極其廣泛的應(yīng)用,比如彈道導(dǎo)彈防御系統(tǒng)、災(zāi)情監(jiān)測(cè)和地質(zhì)礦物資源勘探等任務(wù)。隨著雷達(dá)技術(shù)的不斷發(fā)展,目標(biāo)識(shí)別在雷達(dá)應(yīng)用中的需求愈發(fā)強(qiáng)烈。SAR目標(biāo)自動(dòng)檢測(cè)識(shí)別已成為研究熱點(diǎn)。隨著SAR系統(tǒng)分辨率的提高,有助于獲得更加精細(xì)的目標(biāo)信息。但是,圖像分辨率的不斷提高也給SAR目標(biāo)檢測(cè)識(shí)別帶來了新的困難:場(chǎng)景變得更加復(fù)雜,并且數(shù)據(jù)量巨大,尤其是復(fù)雜沙漠背景圖像。
在過去的數(shù)十年間,涌現(xiàn)出很多SAR目標(biāo)自動(dòng)檢測(cè)識(shí)別的算法。傳統(tǒng)方法主要分為兩個(gè)步驟:目標(biāo)檢測(cè)和分類識(shí)別。
檢測(cè)的目的是提取圖像中可能存在的目標(biāo),最常用的是恒虛警率(Constant False Alarm Rate,CFAR)檢測(cè)器[1]。CFAR算法一般含有3個(gè)輸入因素:虛警率、CFAR檢測(cè)器和雜波背景統(tǒng)計(jì)分布模型。該算法在目標(biāo)與背景具有較高的對(duì)比度且場(chǎng)景簡(jiǎn)單的情況下,能較好地從背景中分離出目標(biāo)。但是,當(dāng)面對(duì)種類繁多、散射特性迥異的雜波時(shí),其檢測(cè)性能會(huì)有所下降,得到的往往不僅僅包括真實(shí)目標(biāo),比如坦克、武裝車輛;還有許多誤檢,如樹木、建筑物、橋梁和普通車輛等。虛警過多會(huì)給后續(xù)操作帶來更大的運(yùn)算量,并會(huì)影響最終的識(shí)別結(jié)果;在接下來的分類任務(wù)中,需要提取許多不同的特征[2],訓(xùn)練特定的分類器,用于去除誤檢以實(shí)現(xiàn)對(duì)目標(biāo)的精確識(shí)別。
當(dāng)前SAR目標(biāo)分類主要有兩種方法:基于模板匹配的方法和基于機(jī)器學(xué)習(xí)的方法。其中,基于模板匹配的方法應(yīng)用最為廣泛。該方法對(duì)每一類生成一個(gè)模板分類器,將待識(shí)別目標(biāo)輸入到這些分類器中,以輸出結(jié)果最優(yōu)者為識(shí)別結(jié)果。基于模板匹配算法的計(jì)算效率低下,此外需要大容量存儲(chǔ)設(shè)備,該方法在實(shí)時(shí)應(yīng)用上存在較大挑戰(zhàn)。
隨著人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)和支持向量機(jī)[3](Support Vector Machine,SVM)的出現(xiàn),機(jī)器學(xué)習(xí)的方法已廣泛應(yīng)用于SAR目標(biāo)自動(dòng)檢測(cè)識(shí)別任務(wù)中。不同于模板匹配,分類問題的首要任務(wù)被轉(zhuǎn)化為提取一系列不同的特征去表征目標(biāo)以及利用這些特征向量去訓(xùn)練分類器。通過最小化損失函數(shù),可以找到訓(xùn)練集的最佳決策邊界。這些手工提取的特征需要對(duì)不同種類具有較好的可區(qū)分性,且對(duì)不同場(chǎng)景有較強(qiáng)的魯棒性,如何提取合適的特征成為其主要難點(diǎn)。
當(dāng)前,隨著深度學(xué)習(xí)的火熱發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在雷達(dá)目標(biāo)識(shí)別領(lǐng)域已取得廣泛應(yīng)用。深度學(xué)習(xí)與傳統(tǒng)模式識(shí)別方法的最大不同點(diǎn)是可以自動(dòng)從大量數(shù)據(jù)中學(xué)習(xí)特征,而不再需要設(shè)計(jì)手工特征。王思雨等[4]將CNN引入到SAR飛機(jī)目標(biāo)自動(dòng)檢測(cè)識(shí)別系統(tǒng)中,并使用Terra SAR-X數(shù)據(jù)集對(duì)算法進(jìn)行評(píng)估。Ren等[5]提出Faster-RCNN用于自然場(chǎng)景圖像目標(biāo)檢測(cè)與識(shí)別,并在VOC數(shù)據(jù)集上取得良好的效果。
在上述研究基礎(chǔ)上,提出端對(duì)端沙漠背景SAR圖像目標(biāo)檢測(cè)與識(shí)別,并且在合成沙漠背景圖像數(shù)據(jù)集上取得了很好的效果。該模型的框架如圖1所示。
圖1 沙漠背景SAR目標(biāo)自動(dòng)檢測(cè)識(shí)別框架流程
主要工作如下:
1) 為了提升目標(biāo)檢測(cè)識(shí)別的準(zhǔn)確性,并提升檢測(cè)的檢測(cè)速度,基于深度學(xué)習(xí)提出了端對(duì)端的目標(biāo)檢測(cè)與識(shí)別算法。
2) 為了克服數(shù)據(jù)集的有限性,通過人工合成,得到沙漠背景數(shù)據(jù)集Desert-SAR,用于訓(xùn)練和評(píng)估目標(biāo)檢測(cè)算法。通過將合成目標(biāo)與復(fù)雜沙漠背景SAR圖像融合得到Desert-SAR,實(shí)現(xiàn)數(shù)據(jù)集的擴(kuò)充。
此外,Desert-SAR數(shù)據(jù)集的合成方法在第2節(jié)進(jìn)行了介紹;第3節(jié)闡述了本方法的模型和訓(xùn)練過程;第4節(jié)展示了本方法在Desert-SAR數(shù)據(jù)集上的效果和分析;結(jié)論和未來工作在第5節(jié)進(jìn)行了介紹。
SAR目標(biāo)檢測(cè)識(shí)別在很多場(chǎng)景中已取得廣泛應(yīng)用,但針對(duì)沙漠背景目標(biāo)檢測(cè)存在的問題仍亟待解決。當(dāng)前沙漠背景的SAR圖像規(guī)模較小,為此,通過人工合成的方法生成Desert-SAR數(shù)據(jù)集,用于檢測(cè)識(shí)別網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試。
傳統(tǒng)訓(xùn)練樣本的合成主要將MSTAR數(shù)據(jù)集中的目標(biāo)切片與背景圖片融合,由于受到數(shù)據(jù)集樣本數(shù)量、質(zhì)量的限制,會(huì)導(dǎo)致目標(biāo)數(shù)量不充分。此外,直接貼片會(huì)引入周圍信息,導(dǎo)致融合的圖像失真,如圖2所示。通過對(duì)比發(fā)現(xiàn),本方法更接近真實(shí)情況。
圖2 傳統(tǒng)與融合方法效果對(duì)比
車輛目標(biāo)通過SAR仿真成像軟件合成,目標(biāo)包含方位角、俯仰角、方位向分辨率、距離向分辨率等參數(shù),可以根據(jù)需要生成不同種類和方向的目標(biāo)。圖像為復(fù)圖像,對(duì)應(yīng)每個(gè)像素包含實(shí)部和虛部?jī)刹糠?。示例模擬圖像如圖3所示。
圖3 示例模擬圖像
通過仿真軟件共生成不同方向的坦克目標(biāo)144個(gè),部分目標(biāo)樣本示意圖如圖4所示。圖像塊大小為128×128,目標(biāo)周圍的像素值均為零,不會(huì)引入周邊的信息,從而保證合成圖片有著更好的效果。
圖4 不同角度目標(biāo)樣本示意圖
圖5 沙漠背景樣本圖
圖5展示了從大型沙漠SAR圖像中裁剪的復(fù)雜沙漠圖像作為背景,共剪切10種大小為1 100×1 300的復(fù)雜沙漠背景圖片,其中包含石塊、道路等各種復(fù)雜干擾因素。
隨機(jī)在沙漠背景圖片中放入5~10個(gè)合成目標(biāo),每個(gè)沙漠背景圖生成100個(gè)樣本。如此,共形成1 000張沙漠背景SAR圖像的Desert-SAR數(shù)據(jù)集。如圖6所示,展示了合成圖像及其標(biāo)注效果。
圖6 合成沙漠背景SAR圖像及標(biāo)注
模型訓(xùn)練采用全監(jiān)督訓(xùn)練模式,整個(gè)訓(xùn)練過程分為兩部分:第一部分利用遷移學(xué)習(xí)對(duì)網(wǎng)絡(luò)模型的部分參數(shù)進(jìn)行預(yù)訓(xùn)練;第二部分利用合成的Desert-SAR數(shù)據(jù)集對(duì)模型進(jìn)行再訓(xùn)練,完成對(duì)沙漠背景SAR圖像中對(duì)目標(biāo)的檢測(cè)。
該網(wǎng)絡(luò)模型基于Faster-RCNN,其基本網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。特征提取層通過多次卷積和池化操作,提取輸入圖像的特征圖,特征提取層包含VGG網(wǎng)絡(luò)和ZF網(wǎng)絡(luò)兩種,ZF網(wǎng)絡(luò)是VGG網(wǎng)絡(luò)的簡(jiǎn)化版。候選提取層在特征圖上滑窗,提取候選框,為每個(gè)像素點(diǎn)設(shè)置9個(gè)大小長(zhǎng)寬比不同的錨(anchor),作為基礎(chǔ)候選框,并結(jié)合邊框回歸初步得到目標(biāo)候選框。其中,錨的基礎(chǔ)尺寸分別為[8,16,32],對(duì)應(yīng)長(zhǎng)寬比分別為[1∶1,1∶2,2∶1]。特征圖經(jīng)過多次池化,相對(duì)于原圖縮小了一定比例,Base_size控制縮放比例,將候選框映射到原圖對(duì)應(yīng)的目標(biāo)中。由于目標(biāo)相對(duì)于圖像而言較小,故需要對(duì)Base_size的大小進(jìn)行適當(dāng)修改,提升其對(duì)小目標(biāo)的檢測(cè)能力。后續(xù)的分類識(shí)別層對(duì)候選目標(biāo)進(jìn)行精細(xì)分類識(shí)別,并進(jìn)一步對(duì)邊框位置回歸,最終實(shí)現(xiàn)對(duì)沙漠背景SAR圖像的目標(biāo)檢測(cè)。
圖7 網(wǎng)絡(luò)模型結(jié)構(gòu)圖
遷移學(xué)習(xí)的定義是:運(yùn)用已存在的知識(shí)對(duì)不同但相關(guān)領(lǐng)域問題進(jìn)行求解的一種機(jī)器學(xué)習(xí)方法[6]。對(duì)于卷積神經(jīng)網(wǎng)絡(luò),遷移學(xué)習(xí)就是將在特定數(shù)據(jù)集上學(xué)到的“知識(shí)”應(yīng)用到新的領(lǐng)域中。由于SAR圖像的數(shù)據(jù)相對(duì)較少,無法充分從零開始訓(xùn)練網(wǎng)絡(luò)模型,故引入遷移學(xué)習(xí)。訓(xùn)練過程中,遷移學(xué)習(xí)使用的具體步驟如下:
1) 利用大型數(shù)據(jù)集ILSVRC-2012對(duì)網(wǎng)絡(luò)模型的隨機(jī)初始化參數(shù)進(jìn)行預(yù)訓(xùn)練。
2) 保留訓(xùn)練好的特征提取層參數(shù),利用Desert-SAR數(shù)據(jù)集對(duì)候選提取層和分類識(shí)別層進(jìn)行再訓(xùn)練。
3) 利用再訓(xùn)練好模型完成目標(biāo)檢測(cè)和識(shí)別。
預(yù)訓(xùn)練是光學(xué)圖像,與SAR圖像有差異,但通過大量訓(xùn)練使得模型參數(shù)擬合到可以檢測(cè)識(shí)別目標(biāo),其效果遠(yuǎn)遠(yuǎn)優(yōu)于初始化參數(shù),并能大幅減少網(wǎng)絡(luò)的訓(xùn)練開銷。如圖8所示,采用遷移學(xué)習(xí)的方法(虛線)與直接訓(xùn)練的方法(實(shí)線)相比明顯加快了網(wǎng)絡(luò)的收斂速度,而且收斂后的損失值要小于直接訓(xùn)練值。其次,該方法有效避免了網(wǎng)絡(luò)對(duì)大量訓(xùn)練樣本的需要,大大提升了模型的魯棒性和泛化能力。
圖8 損失函數(shù)對(duì)比圖
本方法在Desert-SAR數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。每種背景圖取80個(gè),共800張圖像作為訓(xùn)練集,剩余的200張圖像作為測(cè)試集。
實(shí)驗(yàn)運(yùn)行環(huán)境為Windows7系統(tǒng),Intel(R) CPU E5,16G RAM,NVIDIA K40 GPU的工作站。采用平均準(zhǔn)度(Average Precision,AP)作為檢測(cè)效果評(píng)價(jià)標(biāo)準(zhǔn),類別AP表示P-R曲線所圍成下面積。AP解決了傳統(tǒng)評(píng)估標(biāo)準(zhǔn)查全率(Recall,R)、查準(zhǔn)率(Precission,P)和F-measure的單點(diǎn)值局限性。因此,AP可以更有效地綜合評(píng)估算法的有效性和準(zhǔn)確性。
對(duì)于目標(biāo)C,查全率P=圖片中目標(biāo)C識(shí)別正確個(gè)數(shù)/C類別的總個(gè)數(shù),公式為
對(duì)于目標(biāo)C,查全率AP=每張圖的P求和/含有類別C的圖片個(gè)數(shù),其公式為
如表1所示,展示了本方法在Desert-SAR數(shù)據(jù)集上,不同參數(shù)對(duì)檢測(cè)效果的影響。
表1 各種參數(shù)對(duì)檢測(cè)效果的影響
通過對(duì)比T1和T2可以發(fā)現(xiàn),采用預(yù)訓(xùn)練模型可極大地提升目標(biāo)檢測(cè)的性能。通過對(duì)比T2和T3,可以發(fā)現(xiàn)錨的Base_size越大反而不利于小目標(biāo)檢測(cè)。通過對(duì)比T2和T4,可以發(fā)現(xiàn)特征提取層采用VGG網(wǎng)絡(luò)的檢測(cè)效果優(yōu)于ZF網(wǎng)絡(luò),但是其檢測(cè)速度大約是ZF網(wǎng)絡(luò)的一半,采取實(shí)驗(yàn)T4的參數(shù)作為最終的檢測(cè)效果。
圖9展示了基于不同特征提取層訓(xùn)練得到的模型對(duì)沙漠背景SAR圖像車輛目標(biāo)的檢測(cè)效果,圖9(a)、圖9(b)、圖9(c)分別表示標(biāo)注圖像、基于ZF網(wǎng)絡(luò)的檢測(cè)效果和基于VGG網(wǎng)絡(luò)的檢測(cè)效果。表2具體統(tǒng)計(jì)了這部分圖片的檢測(cè)效果。通過對(duì)比可以發(fā)現(xiàn),基于VGG網(wǎng)絡(luò)的檢測(cè)效果優(yōu)于基于ZF網(wǎng)絡(luò)的效果,其可以有效降低誤檢的數(shù)量,這是因?yàn)閂GG網(wǎng)絡(luò)具有更好的特征提取能力,進(jìn)而提升了其檢測(cè)識(shí)別效果。
圖9 部分圖片不同模型的檢測(cè)效果對(duì)比
網(wǎng)絡(luò)場(chǎng)景目標(biāo)數(shù)檢測(cè)數(shù)虛警數(shù)漏檢數(shù)ZF場(chǎng)景17720場(chǎng)景251124VGG場(chǎng)景17700場(chǎng)景25184
圖10展示了VGG網(wǎng)絡(luò)Base_size不同時(shí)訓(xùn)練得到的模型對(duì)沙漠背景SAR圖像車輛目標(biāo)的檢測(cè)效果。圖10(a)、圖10(b)、圖10(c)分別表示標(biāo)注圖像、錨Base_size為8的檢測(cè)效果和錨Base_size為16的檢測(cè)效果。表3具體統(tǒng)計(jì)了這部分圖片的檢測(cè)效果。通過對(duì)比可以發(fā)現(xiàn),錨Base_size為8的時(shí)候可以檢測(cè)到更多的真實(shí)目標(biāo),具有更好的檢測(cè)效果。這是因?yàn)镾AR目標(biāo)在圖像中相對(duì)較小,預(yù)設(shè)的錨主要針對(duì)自然場(chǎng)景中的一般目標(biāo),相對(duì)于SAR目標(biāo)尺寸過大。因此,針對(duì)不同檢測(cè)任務(wù),為錨設(shè)置合適尺寸可有效提升檢測(cè)效果。
圖10 不同Base_size的檢測(cè)效果對(duì)比
Base_size場(chǎng)景目標(biāo)數(shù)檢測(cè)數(shù)虛警漏檢8場(chǎng)景17720場(chǎng)景25112416場(chǎng)景17502場(chǎng)景25045
提出了一種基于深度學(xué)習(xí)的端對(duì)端的復(fù)雜沙漠背景SAR目標(biāo)自動(dòng)檢測(cè)識(shí)別系統(tǒng)。此外,提出了一種新的數(shù)據(jù)合成方法,生成沙漠背景SAR圖像數(shù)據(jù)集Desert-SAR用于訓(xùn)練和測(cè)試。大量實(shí)驗(yàn)證明本文的方法不僅能有效提升復(fù)雜沙漠背景SAR目標(biāo)檢測(cè)識(shí)別的準(zhǔn)確率,還能提升檢測(cè)速度。然而,本文方法對(duì)一些特別小的目標(biāo)、特別低的對(duì)比度和類似目標(biāo)物體的檢測(cè)效果較差。下一步研究將優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提升該系統(tǒng)的魯棒性。