王 璐,溫顯斌
(天津理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,天津 300384)
合成孔徑雷達(dá)(synthetic aperture radar,SAR)通過(guò)發(fā)送電磁波、雷達(dá)天線收集、數(shù)字化和存儲(chǔ)反射回波后形成圖像,即SAR圖像[1]。SAR圖像不受時(shí)間、天氣等因素影響,能在不同頻段和不同極化條件下得到高分辨率雷達(dá)圖像,在災(zāi)害預(yù)警、環(huán)境監(jiān)測(cè)、資源勘查、測(cè)繪和軍事等方面具有不可替代的優(yōu)勢(shì)。
近年來(lái)深度學(xué)習(xí)的發(fā)展日新月異,越來(lái)越多的深度學(xué)習(xí)方法被用來(lái)解決SAR圖像自動(dòng)目標(biāo)識(shí)別。MORI[2]利用譜聚類(lèi)方法來(lái)得到超像素分割算法,PEI等[3]提出了多視圖深度學(xué)習(xí)(multiview deep learning framework)方法。
使用卷積網(wǎng)絡(luò)解譯圖像也存在著很多不足:由于卷積網(wǎng)絡(luò)中池化層的采用和標(biāo)量神經(jīng)單元激活的限制,卷積網(wǎng)絡(luò)無(wú)法學(xué)習(xí)圖像數(shù)據(jù)中的空間層級(jí)信息,同時(shí)卷積網(wǎng)絡(luò)在計(jì)算過(guò)程中雖然能保留圖像對(duì)象的不變性,但卻失去了對(duì)象的同變性,這導(dǎo)致卷積網(wǎng)絡(luò)無(wú)法識(shí)別圖像內(nèi)對(duì)象之間的相對(duì)位置關(guān)系,從而影響了網(wǎng)絡(luò)對(duì)圖像的理解能力。SAR圖像由于其成像的特殊性具有很強(qiáng)的結(jié)構(gòu)信息,因此使用卷積網(wǎng)絡(luò)進(jìn)行SAR圖像解譯效果差強(qiáng)人意。
SABOUR等[4]提出了膠囊網(wǎng)絡(luò),一方面,該網(wǎng)絡(luò)使用向量(膠囊)神經(jīng)元作為網(wǎng)絡(luò)的基本數(shù)據(jù)單元,相比于卷積網(wǎng)絡(luò),它表示的信息更加豐富,具有更大的容量。另一方面,膠囊網(wǎng)絡(luò)舍棄了池化層,并由動(dòng)態(tài)路由算法取代。攜帶圖像信息的膠囊從底層向高層通過(guò)路由方法傳導(dǎo),在保持其自身屬性不變(如旋轉(zhuǎn)角度,位移,尺寸等)的同時(shí),還保持空間層級(jí)信息的不變。最后,膠囊網(wǎng)絡(luò)中的解碼網(wǎng)絡(luò)可以使重建的圖像不僅能保留原始圖像的圖形,而且還能保留圖形之間的相對(duì)空間關(guān)系。
當(dāng)前用于研究SAR圖像自動(dòng)目標(biāo)識(shí)別(auto target recognition,ATR)的圖像是美國(guó)國(guó)防高級(jí)研究計(jì)劃署和空軍研究室提供的MSTAR圖像,采集該數(shù)據(jù)集的傳感器為高分辨率的聚束式SAR。MSTAR數(shù) 據(jù) 集 含 有2S1、BMP2、BRDM2、BTR70、BTR60、D7、T62、ZIL131、ZSU234、T72
等10類(lèi)目標(biāo)不同俯仰角的SAR圖像數(shù)據(jù)。本文使用MSTAR數(shù)據(jù)集中標(biāo)準(zhǔn)操作條件(standard operating conditions,SOC)下的數(shù)據(jù)集,SOC數(shù)據(jù)集中將俯仰角為17°的圖像作為訓(xùn)練集,共有2 747張,將俯仰角為15°的目標(biāo)作為測(cè)試集,共有2 426張。MSTAR數(shù)據(jù)集中10類(lèi)光學(xué)圖像與SAR圖像對(duì)比如圖1所示。
圖1 MSTAR數(shù)據(jù)集中10類(lèi)光學(xué)圖像與SAR圖像對(duì)比圖Fig.1 Comparison of optical images and SAR images in the MSTAR data set
MSTAR數(shù)據(jù)集較小,且SAR圖像固有的灰度性和紋理性構(gòu)成其較強(qiáng)的結(jié)構(gòu)信息。膠囊神經(jīng)網(wǎng)絡(luò)使用向量作為基本神經(jīng)元,網(wǎng)絡(luò)層數(shù)淺,能最大限度地保留圖像結(jié)構(gòu)信息和空間層級(jí)信息,保留了圖像的同變性。因此本文選擇膠囊神經(jīng)網(wǎng)絡(luò)作為圖像分類(lèi)的基本框架,完成SAR圖像目標(biāo)識(shí)別。
本文網(wǎng)絡(luò)架構(gòu)較淺,包含2個(gè)卷積層和1個(gè)完全連接層,網(wǎng)絡(luò)模型圖如圖2所示。
圖2 網(wǎng)絡(luò)模型圖Fig.2 Network model diagram
首先,分兩步對(duì)圖像進(jìn)行預(yù)處理,即灰度化和雙線性插值,然后將圖像送入網(wǎng)絡(luò)中。本文網(wǎng)絡(luò)結(jié)構(gòu)中第1層是卷積層,Conv1有256個(gè)卷積核為9×9、步長(zhǎng)為1的卷積單元,使用ReLU激活函數(shù)。這一層將像素強(qiáng)度轉(zhuǎn)換為局部特征探測(cè)器的活動(dòng),然后將其用作初級(jí)膠囊的輸入。通常將實(shí)例化的部分拼湊成熟悉的整體,而在膠囊網(wǎng)絡(luò)中初級(jí)膠囊是多維實(shí)體的最底層,從反圖形的角度來(lái)看,激活初級(jí)膠囊相當(dāng)于反相呈現(xiàn)的過(guò)程。第2層初級(jí)膠囊層(primary capsules layer)是卷積膠囊層,共含有32個(gè)初級(jí)膠囊,初級(jí)膠囊是一個(gè)8維膠囊,即每個(gè)初級(jí)膠囊有32個(gè)卷積通道,每個(gè)通道中都含有一個(gè)8維膠囊(即每個(gè)初級(jí)膠囊含有8個(gè)卷積核為9×9、步長(zhǎng)為2的卷積單元)。每個(gè)初級(jí)膠囊的輸出中包含256×81個(gè)Conv1單元的輸出信息,這些單元的接受野與膠囊中心位置重疊。在整個(gè)初級(jí)膠囊層中共有32×6×6個(gè)膠囊輸出(每個(gè)輸出是一個(gè)8維向量),每個(gè)膠囊在6×6的網(wǎng)格中共享權(quán)重。最后一層是主膠囊層(main layer),共有10個(gè)SAR圖像類(lèi)別,每個(gè)類(lèi)有1個(gè)16維膠囊,這些膠囊接收來(lái)自前面層中所有膠囊的輸入。
主膠囊層中每個(gè)膠囊的活動(dòng)向量的長(zhǎng)度表示每個(gè)類(lèi)的實(shí)例的存在,并用于計(jì)算分類(lèi)損失。在主膠囊層中,重構(gòu)SAR圖像,重構(gòu)譯碼器模型圖如圖3所示。
圖3 重構(gòu)譯碼器模型圖Fig.3 Reconstruction of the decoder model diagram
在訓(xùn)練過(guò)程中,將圖像與信號(hào)層輸入的歐氏距離最小化,使用真實(shí)標(biāo)簽作為重建目標(biāo)。初級(jí)膠囊層中,Wij是每個(gè)ui(膠囊輸出)之間的權(quán)重矩陣,i∈(1,32×6×6),j∈(1,10)。在2個(gè)連續(xù)的膠囊層之間進(jìn)行路由,Conv1與初級(jí)膠囊層之間因輸出維度不同不進(jìn)行路由。所有的路由日志(bij)初始化為零。因此,最初將一個(gè)膠囊輸出(ui)以相等的概率(cij)發(fā)送給所有的父膠囊(v0,…,v9)。
在初級(jí)膠囊層和主膠囊層之間的路由過(guò)程中,使用一個(gè)如式(1)所示的非線性“壓縮”函數(shù)來(lái)確保短向量縮小到幾乎為零的長(zhǎng)度,長(zhǎng)向量縮小到略低于1的長(zhǎng)度,并利用判別式來(lái)充分學(xué)習(xí)它的非線性。這個(gè)函數(shù)的特點(diǎn)是在模長(zhǎng)很接近于0時(shí)起到放大作用,而不像原來(lái)的函數(shù)那樣全局都?jí)嚎s。
式中,vj為膠囊j的向量輸出,sj為其總輸入。sj的計(jì)算公式為:
除了第1層膠囊外,所有膠囊sj的總輸入是所有預(yù)測(cè)向量的加權(quán)和,來(lái)自下面層中的膠囊,是通過(guò)將下面層中的膠囊的輸出ui乘以權(quán)重矩陣Wij產(chǎn)生的,其計(jì)算方法為:
式中,cij為耦合系數(shù),由迭代動(dòng)態(tài)路由過(guò)程確定。
膠囊i與上述主膠囊層中所有膠囊的耦合系數(shù)之和為1,由一個(gè)“路由softmax”確定,bij初始值是膠囊i耦合到膠囊j的對(duì)數(shù)先驗(yàn)概率,cij的計(jì)算公式為:
對(duì)數(shù)先驗(yàn)可以和其他權(quán)值一樣有區(qū)別地學(xué)習(xí),通過(guò)測(cè)量膠囊i和膠囊i預(yù)測(cè)出的膠囊j之間的一致性來(lái)迭代地改進(jìn)初始耦合系數(shù),該一致性用數(shù)積來(lái)表示。在計(jì)算將膠囊i與更高級(jí)別膠囊連接的所有耦合系數(shù)的新值之前,該協(xié)議被視為對(duì)數(shù)似然,并被添加到bij初始值中。動(dòng)態(tài)路由算法表如表1所示。
表1 動(dòng)態(tài)路由算法表Tab.1 Dynamic routing algorithm table
本文使用實(shí)例化向量的長(zhǎng)度來(lái)表示膠囊實(shí)體存在的概率,使用一個(gè)單獨(dú)的邊緣損失函數(shù),其公式為:
式中,Lk為每個(gè)數(shù)字膠囊,正確分類(lèi)時(shí)Tk=1,m+=0.95,m-=0.05,λ=0.5。λ降低了缺少數(shù)字類(lèi)時(shí)停止初始學(xué)習(xí)以縮小所有數(shù)字膠囊的活動(dòng)向量的長(zhǎng)度的損失,總損失是所有數(shù)字膠囊損失的總和。
本文實(shí)驗(yàn)使用SOC數(shù)據(jù)集,標(biāo)準(zhǔn)操作條件且訓(xùn)練集和測(cè)試集中目標(biāo)圖像僅俯仰角和方位角不同,SOC數(shù)據(jù)集目標(biāo)類(lèi)別、型號(hào)與數(shù)量表如表2所示。
表2 SOC數(shù)據(jù)集目標(biāo)類(lèi)別、型號(hào)與數(shù)量表Tab.2 Target category,model and number of SOC data set
SOC數(shù)據(jù)集主要用來(lái)驗(yàn)證識(shí)別網(wǎng)絡(luò)的準(zhǔn)確性,其訓(xùn)練損失圖如圖4所示,測(cè)試損失圖如圖5所示,測(cè)試準(zhǔn)確率圖如圖6所示。
圖4 訓(xùn)練損失圖Fig.4 Training loss diagram
圖5 測(cè)試損失圖Fig.5 training loss diagram
圖6 測(cè)試準(zhǔn)確率圖Fig.6 Test accuracy diagram
SOC數(shù)據(jù)集下識(shí)別結(jié)果混淆矩陣如表3所示。
表3 SOC數(shù)據(jù)集下識(shí)別結(jié)果混淆矩陣表(識(shí)別率:99.38%)Tab.3 Confusion matrix of recognition results in SOC data set(Recognition rate:99.38%)
將本文提出的膠囊-SAR ATR方法與其他7種SAR ATR算法進(jìn)行比較,這些方法分別是支持向量機(jī)(support vector machine,SVM)[5]、自適應(yīng)升力(adaptive boosting,AdaBoost)[6]、條 件 高 斯 模 型(conditional gaussian models,CGM)[7]、迭代圖增厚(iterative graph thickening,IGT)[8],以及最近發(fā)布的3種基于卷積神經(jīng)網(wǎng)絡(luò)的方法:全卷積神經(jīng)網(wǎng)絡(luò)(all-convolutional neural network,A-ConvNet[9]、基于高速單元深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional highway unit network,DCHUN)[10]、基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(transfer learning with convolutional neural network,CNN-TL)[11],SOC下不同方法的比較表如表4所示。
由表4可知,對(duì)于傳統(tǒng)方法SVM、AdaBoost、IGT和CGM進(jìn)行SAR圖像識(shí)別,由于無(wú)法完整提取圖像特征,從而導(dǎo)致識(shí)別精度較低。基于卷積神經(jīng)網(wǎng)絡(luò)的方法A-ConvNet、DCHUN和CNN-TL通過(guò)訓(xùn)練圖像大幅提升了識(shí)別精度,但是網(wǎng)絡(luò)結(jié)構(gòu)一般較為復(fù)雜,參數(shù)量大。而本文提出的基于膠囊神經(jīng)網(wǎng)絡(luò)的識(shí)別方法通過(guò)訓(xùn)練同一個(gè)數(shù)據(jù)集,得到了更高的準(zhǔn)確率。膠囊神經(jīng)網(wǎng)絡(luò)對(duì)于小樣本數(shù)據(jù)集具有更加明顯的優(yōu)勢(shì),保證參數(shù)量在合理的范圍內(nèi),更加充分地提取圖像信息,尤其適合SAR圖像這種對(duì)結(jié)構(gòu)信息敏感的圖像,因此膠囊在提取特征方面的魯棒性和路由算法的有效性使得識(shí)別精度有了提升。
表4 SOC下不同方法的比較表Tab.4 Comparison table of different methods in SOC
本文采用膠囊神經(jīng)網(wǎng)絡(luò)作為目標(biāo)識(shí)別的基本網(wǎng)絡(luò)架構(gòu),有效保留了SAR圖像的同變性和結(jié)構(gòu)信息,充分學(xué)習(xí)了SAR圖像的圖像特征并準(zhǔn)確識(shí)別。通過(guò)理論分析與實(shí)驗(yàn)驗(yàn)證發(fā)現(xiàn),該方法與其他方法相比,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、參數(shù)量小、準(zhǔn)確率高。由于本文的訓(xùn)練集過(guò)少,訓(xùn)練效果仍有提升的空間,今后希望可以借助生成對(duì)抗網(wǎng)絡(luò)等方式生成更多可供訓(xùn)練的樣本,進(jìn)一步提升SAR圖像目標(biāo)識(shí)別的準(zhǔn)確性。同時(shí),對(duì)于擴(kuò)展操作條件下的SAR數(shù)據(jù)集,本文提出的方法的識(shí)別精度并不理想,希望在后續(xù)的科研工作中能夠提出一種泛化能力更強(qiáng)的方法,以便在不同的SAR圖像數(shù)據(jù)集中均能取得較高的識(shí)別精度。