李貞 任明武
(南京理工大學(xué)計算機科學(xué)與工程學(xué)院 南京 210094)
軍用迷彩服在作戰(zhàn)中可以成功打亂目標(biāo)在觀察者視野中的輪廓線,使對方難以察覺和分辨。軍用迷彩服最新研發(fā)包括更高級別的防火、防彈、防紅外輻射、防熱輻射和反雷達探測等功能[1]。我軍新式迷彩服“星空迷彩”劃分為叢地、荒漠、叢林、城市、沙漠五個品種,而且根據(jù)實際情況選擇相應(yīng)的服裝、根據(jù)作戰(zhàn)地形進行發(fā)放[2],使穿著者更能“融入”隱蔽處不易被察覺,可見光范圍內(nèi)偽裝目標(biāo)越來越難以識別。軍事偽裝正朝著多波段、多元化、智能化的方向發(fā)展[3],這無疑為迷彩偽裝目標(biāo)檢測帶來了更大的挑戰(zhàn)。
對于偽裝目標(biāo)的檢測,許多傳統(tǒng)的方法基于可見光圖像下迷彩目標(biāo)特征提?。?~6]。武國晶等[7]利用目標(biāo)特有的三維凸面形狀特征表現(xiàn)出的灰度差異檢測迷彩偽裝目標(biāo)。鄧小桐等[8]將空間注意力機制引入目標(biāo)檢測框架中,在擴展后的數(shù)據(jù)集上將檢測精度提升了8.7%。近年來語義分割網(wǎng)絡(luò)也被應(yīng)用于迷彩目標(biāo)識別當(dāng)中[9]。Fang 等[10]構(gòu)建強語義膨脹網(wǎng)絡(luò),對淺層特征圖的語義信息進行加強,進一步提升了檢測效果。卓劉等[11]使用一個并行的多采樣率的空洞卷積識別不同大小的迷彩目標(biāo)。多光譜圖像在多個波段上形成影像,將光譜技術(shù)和成像技術(shù)結(jié)合,不僅可以獲取目標(biāo)的二維空間信息,還可以獲得各個目標(biāo)的光譜信息,形成“數(shù)據(jù)立方體”[12]。通過對不同波段的圖像特征和光譜特性進行分析,可以極大提高檢測迷彩偽裝目標(biāo)的能力。嚴陽等[13]分析迷彩偽裝的光譜特性,利用不同地物之間的光譜曲線的差異識別偽裝。但由于“同物異譜”現(xiàn)象和“同譜異物”現(xiàn)象,需要將目標(biāo)的空間特征和光譜特征聯(lián)合以實現(xiàn)更精準(zhǔn)的目標(biāo)識別。本文基于U-Net[14]語義分割網(wǎng)絡(luò)進行改進,將得到的多光譜圖像進行數(shù)據(jù)預(yù)處理,利用目標(biāo)的深層光譜特征和局部空間特征實現(xiàn)端到端的偽裝目標(biāo)識別。
U-Net 網(wǎng)絡(luò)結(jié)構(gòu)整個網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)U 型對稱結(jié)構(gòu),是經(jīng)典的編碼-解碼結(jié)構(gòu)。解碼過程將編碼過程中同尺寸級別的特征圖進行堆疊,利用編碼結(jié)構(gòu)中的特征對于解碼過程中的特征進行細節(jié)補充,實現(xiàn)不同層級的特征融合。將相同尺寸級別的淺層和深層特征圖進行拼接,通過兩者的結(jié)合在卷積過程中學(xué)習(xí)到更豐富的信息。
作用于網(wǎng)絡(luò)輸入層的卷積層可以用不同尺度的卷積核提取特征[15],卷積核的尺寸分別為1×1×B,3×3×B和5×5×B,其中B 為輸入多光譜圖像的波段數(shù)。1×1 的卷積核提取輸入圖像的光譜相關(guān)性特征。3×3和5×5卷積核可以提取輸入多光譜圖像的空間相關(guān)性特征。將不同尺度的卷積核提取到的特征圖在通道維度上進行堆疊,形成聯(lián)合的光譜-空間特征圖。
批標(biāo)準(zhǔn)化[16](Batchnormalization,BN)是一個深度神經(jīng)網(wǎng)絡(luò)常用的訓(xùn)練技巧。批標(biāo)準(zhǔn)化把每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元這個輸入值的分布符合標(biāo)準(zhǔn)正態(tài)分布,把越來越偏的分布拉回標(biāo)準(zhǔn)的分布,這樣使得激活輸入值落在非線性函數(shù)對輸入比較敏感的區(qū)域,避免梯度消失問題產(chǎn)生,同時梯度變大意味著學(xué)習(xí)收斂速度快,能大大加快訓(xùn)練速度。
殘差模塊[17]在加深網(wǎng)絡(luò)深度方面有明顯優(yōu)勢。一個具體的殘差模塊如圖1 所示。殘差模塊的引入很好地解決了加深網(wǎng)絡(luò)深度帶來的訓(xùn)練困難問題。用x 和y 分別代表殘差模塊的輸入和輸出,則可用式(1)表示殘差模塊:
圖1 殘差模塊
F(x,{Wi})表示待學(xué)習(xí)的殘差映射。當(dāng)殘差為F(x)=0 時,此時堆積層僅僅做了恒等映射,至少網(wǎng)絡(luò)性能不會下降,而當(dāng)殘差不為0 時,堆積層在輸入特征基礎(chǔ)上學(xué)習(xí)到新的特征,從而擁有更好的性能。
改進的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示?;赨-Net的改進網(wǎng)絡(luò)模型(multiWind-ows Resnet U-Net,MS-UNet)保持原有對稱的編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu)。MS-UNet 左側(cè)部分為編碼結(jié)構(gòu)。對網(wǎng)絡(luò)的輸入層采用多尺度窗口,得到不同尺度上的特征圖進行拼接提取輸入圖像的空譜聯(lián)合特征。用步長stride=2 的卷積實現(xiàn)特征圖的壓縮。每經(jīng)過兩個殘差模塊,特征圖的寬高縮減1/2,每個殘差模塊之后使用批標(biāo)準(zhǔn)化和RELU 激活函數(shù)。網(wǎng)絡(luò)中對較深層的特征圖進行上采樣并與淺層特征圖相加這樣加強了不同層之間的連接,并將增強淺層特征圖中的語義信息,如圖2中虛線框所示。
圖2 MS-UNet網(wǎng)絡(luò)結(jié)構(gòu)模型
右側(cè)部分為解碼結(jié)構(gòu)。解碼結(jié)構(gòu)對得到編碼得到的特征圖進行上采樣并和相同寬高的特征圖進行拼接,利用編碼結(jié)中的特征對于解碼過程中的特征進行細節(jié)補充,實現(xiàn)跳躍連接。
本實驗所用迷彩服飾包括87 式老款迷彩服,荒漠迷彩以及07 式新款迷彩服。采集樣本過程中,采集的多光譜圖像數(shù)據(jù)應(yīng)當(dāng)包含陰影遮擋、順光、逆光、正常光線等光照條件,采集時間應(yīng)當(dāng)覆蓋一天之內(nèi)的多個時間段。采集的多光譜圖像數(shù)據(jù)應(yīng)當(dāng)包括晴朗、多云、陰天等多種天氣情況。模特身穿各式迷彩服呈現(xiàn)出多種不同的姿態(tài),如躺、趴、蹲、站立、臥等,圖像數(shù)據(jù)中迷彩目標(biāo)出現(xiàn)的位置、目標(biāo)數(shù)盡可能多樣。
實驗采用CGT GVN-2S 光譜設(shè)備進行迷彩人員多光譜數(shù)據(jù)集的采集,整個采集系統(tǒng)包括電源箱、電腦工作站、標(biāo)準(zhǔn)白板等,搭建可移動的圖像采集裝置。該設(shè)備直接通過網(wǎng)絡(luò)連接和USB 串口進行數(shù)據(jù)的傳輸,采集的圖像寬高尺寸為1920×1000。采集的原始圖像波段覆蓋范圍為400nm~1000nm,包含1080個波段,本實驗選用的迷彩服飾的特征波段分別為455nm、589nm、612nm、681nm、698nm、710nm。將6 個波段合成mat 文件作為網(wǎng)絡(luò)的輸入。
訓(xùn)練集樣本數(shù)據(jù)共3550 幅多光譜圖像,其中按照該8∶2 的比例對訓(xùn)練集進行劃分,80%用于訓(xùn)練,20%用于驗證。測試集數(shù)據(jù)223 幅多光譜圖像。
實驗分為訓(xùn)練和測試兩個部分,網(wǎng)絡(luò)基于keras 架構(gòu),訓(xùn)練部分在服務(wù)器中進行,硬件環(huán)境為Titan V 顯卡、Intel(R)Xeon(R)Silver 4116 CPU、128GB 內(nèi)存等,軟件環(huán)境為Ubuntu18.04,Python3.6,TensorFlow1.9,Keras2.2.4。
測試部分在本地的筆記本上,其中硬件環(huán)境為1050 顯卡、Inter(R)Core(TM)i5-9300H CPU、8GB 內(nèi)存,軟件環(huán)境Windows10,PyCharm。訓(xùn)練參數(shù)設(shè)置如表1 所示。
表1 訓(xùn)練參數(shù)設(shè)置
本實驗評價指標(biāo)為語義分割領(lǐng)域常用的評價指標(biāo):準(zhǔn)確率Accuracy,精確率Precision,召回率Recall,F(xiàn)1-Score。測試集上各個指標(biāo)的結(jié)果如表2 所示。
表2 MS-UNet識別結(jié)果
3 通道U-Net 為原始U-Net 網(wǎng)絡(luò)結(jié)構(gòu)模型,6通道U-Net只是將3通道U-Net的輸入層通道數(shù)改為6。6 通道U-Net 和MS-UNet 所用數(shù)據(jù)集完全相同,數(shù)據(jù)集均包含6 個波段。而3 通道U-Net 使用數(shù)據(jù)集為可見光圖像,僅僅包含3 個波段。設(shè)置訓(xùn)練多次求平均值,結(jié)果如表3所示。
從表3可知,6通道U-Net 和3通道U-Net 相比,Recall明顯增大。在網(wǎng)絡(luò)結(jié)構(gòu)的對比上,3 通道U-Net 和6 通道U-Net 只有輸入層的通道維度不同,6 通道數(shù)據(jù)集能提供更多的迷彩目標(biāo)信息,使得誤檢明顯減少,說明包含更多波段的數(shù)據(jù)集能提供更多的目標(biāo)信息,證明了采用多光譜識別迷彩目標(biāo)的顯著優(yōu)勢。
表3 不同語義分割網(wǎng)絡(luò)識別結(jié)果對比
6 通道U-Net 和MS-UNet 在網(wǎng)絡(luò)結(jié)構(gòu)上有較大的不同。MS-UNet 仍采用編碼解碼結(jié)構(gòu),輸入層使用多尺度窗口,使用殘差學(xué)習(xí)加深了網(wǎng)絡(luò)的深度,解碼部分實現(xiàn)跳躍連接融合不同尺度信息,使誤檢進一步減少,Recall 進一步增大。MS-UNet 相較于6通道U-Net而言,Precision稍有下降但Recall增大了3.42%,F(xiàn)1-Score 增大了1.62%。造成這一現(xiàn)象的原因是MS-UNet 在學(xué)習(xí)到更深層特征的同時對于特征的描述也更加具體,漏檢減少的同時也檢測到一部分不相關(guān)的“目標(biāo)”,使得Precision有所下降。
各模型識別效果對比圖如圖3 所示。
圖3 各模型識別效果對比圖
本文提出了一種基于U-Net 語義分割網(wǎng)絡(luò)的多光譜迷彩目標(biāo)識別方法,從兩個角度改進迷彩目標(biāo)識別效果。第一,采用包含更多波段的多光譜數(shù)據(jù)集。多光譜數(shù)據(jù)集相比于可見光數(shù)據(jù)集包含更多地波段,能提供更多關(guān)于迷彩目標(biāo)的信息,能極大地改善目標(biāo)漏檢情況。第二,網(wǎng)絡(luò)輸入層采用多尺度窗口提取目標(biāo)的光譜-空間聯(lián)合信息,引入殘差模塊加深網(wǎng)絡(luò)深度,更進一步融合不同尺度信息,可以進一步減少誤檢。本文提出的MS-UNet相比于6 通道U-Net 而言Recall 有明顯增大,但是Precision 有所減少,后續(xù)改進可考慮如何更進一步提高Precision和Recall。