陳 兵,查宇飛,張勝杰,李運(yùn)強(qiáng),張園強(qiáng)
(空軍工程大學(xué)航空航天工程學(xué)院,西安 710038)
當(dāng)前,各種各樣的空中作戰(zhàn)目標(biāo)層出不窮,大規(guī)模的航空器協(xié)同作戰(zhàn),造成了空中情報(bào)信息的復(fù)雜度極大地增加,這對(duì)作戰(zhàn)員的判斷與決策和作戰(zhàn)方案的制定造成了很大的困難和干擾。精確識(shí)別空中航空器目標(biāo)[1]是實(shí)現(xiàn)作戰(zhàn)方案制定的重要環(huán)節(jié)。
如何高效地實(shí)現(xiàn)圖像的分類,國(guó)內(nèi)外學(xué)者提出過許多方法[2-3]。文獻(xiàn)[4]提出使用詞袋BOW模型來進(jìn)行圖片分類,該算法利用視覺詞袋量化圖像特征,但BOW模型對(duì)圖像空間信息的表達(dá)不足。文獻(xiàn)[5]提出用方向梯度直方圖(HOG)特征來表示圖像中物體形狀邊緣的特征算子,其與支撐向量機(jī)(SVM)[6]分類器結(jié)合被廣泛地應(yīng)用于圖像分類領(lǐng)域。但這種手工設(shè)計(jì)的特征只能表示圖像的淺層信息,對(duì)于圖像的深層語(yǔ)義信息還表達(dá)不夠。近年來隨著深度神經(jīng)網(wǎng)絡(luò)[6-9]成為機(jī)器學(xué)習(xí)新的熱點(diǎn),基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[10]的圖像分類算法因其較強(qiáng)的魯棒性和突出的性能被廣泛使用。文獻(xiàn)[8,10]采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行自然圖像分類,取得了很好的分類效果,但卷積神經(jīng)網(wǎng)絡(luò)需要大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練樣本進(jìn)行訓(xùn)練,否則會(huì)造成網(wǎng)絡(luò)參數(shù)過擬合。目前,航空器圖像分類方面還存在很大問題,一方面由于航空器圖像在拍攝過程中會(huì)出現(xiàn)旋轉(zhuǎn)、位移,航空器圖像存在背景復(fù)雜、尺度不一、目標(biāo)會(huì)被云層遮擋、航空器表面涂層顏色各異等問題,邊緣、顏色等特征對(duì)于航空器圖像的表達(dá)不佳。另一方面目前關(guān)于航空器圖像分類的研究少之甚少,且沒有相關(guān)方面的數(shù)據(jù)庫(kù),因此,這些自然圖像分類的方法并不適用于航空器圖像分類。
針對(duì)航空器圖像分類方面存在的問題,本文組建了航空器數(shù)據(jù)庫(kù)并提出了一種基于遷移學(xué)習(xí)和特征融合的航空器圖像分類算法。本文算法的基本思想是采用遷移學(xué)習(xí)的思想,用在大數(shù)據(jù)集上訓(xùn)練得到的網(wǎng)絡(luò)模型在本文數(shù)據(jù)集上精調(diào)參數(shù)來減輕參數(shù)過擬合。在此基礎(chǔ)上,把網(wǎng)絡(luò)提取的深度特征和手工設(shè)計(jì)的淺層特征(灰度、HOG)結(jié)合起來,然后使用融合后的特征去訓(xùn)練一個(gè)多分類的SVM分類器,從而實(shí)現(xiàn)航空器圖像的分類。根據(jù)本文遷移學(xué)習(xí)的算法訓(xùn)練網(wǎng)絡(luò)參數(shù)較之直接隨機(jī)初始化網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練得到的分類準(zhǔn)確率有很大的提高,按照本文特征融合的算法進(jìn)行圖像分類較之使用單一特征進(jìn)行圖像分類的準(zhǔn)確率均有所提升。
在網(wǎng)絡(luò)的訓(xùn)練中,本文采用遷移學(xué)習(xí)中模型遷移的思想,將在ImageNet數(shù)據(jù)庫(kù)上訓(xùn)練得到的預(yù)訓(xùn)練網(wǎng)絡(luò)模型遷移至航空器圖像分類任務(wù)上,以減輕參數(shù)過擬合。
遷移學(xué)習(xí),就是將源領(lǐng)域中學(xué)到的模型應(yīng)用到目標(biāo)領(lǐng)域。如何利用現(xiàn)有的模型在一個(gè)新的領(lǐng)域發(fā)揮作用,這就是遷移學(xué)習(xí)要解決的問題。在目標(biāo)領(lǐng)域存在數(shù)據(jù)量小的情況下,可以通過有效的方式,把在源領(lǐng)域的數(shù)據(jù)上訓(xùn)練得到的模型遷移至目標(biāo)領(lǐng)域,從而在目標(biāo)領(lǐng)域中訓(xùn)練出更好的模型。
深層的卷積神經(jīng)網(wǎng)絡(luò)中含有大量的網(wǎng)絡(luò)參數(shù),訓(xùn)練這些參數(shù)需要大量的訓(xùn)練數(shù)據(jù),由于本文組建的數(shù)據(jù)庫(kù)數(shù)據(jù)量小,在訓(xùn)練網(wǎng)絡(luò)時(shí)網(wǎng)絡(luò)參數(shù)容易過擬合。而在大數(shù)據(jù)集上訓(xùn)練好的模型相當(dāng)于學(xué)習(xí)到了圖像一般性特征的提取方法,故而本文把ImageNet上訓(xùn)練好的模型遷移到本文的任務(wù)上來減輕模型過擬合。
本文采用有監(jiān)督學(xué)習(xí)的方式,首先在ImageNet數(shù)據(jù)庫(kù)上對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行預(yù)訓(xùn)練,然后在本文數(shù)據(jù)庫(kù)上對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行精調(diào),對(duì)于輸入樣本(x,y),y為輸入樣本的類別,網(wǎng)絡(luò)首先經(jīng)過前向計(jì)算得到fc8層特征f,輸出特征維度為1×1×4 096,則fc8層的輸出為 Z=[z1,z2,…,zk]∈Rk,則網(wǎng)絡(luò)預(yù)測(cè)的類別 k∈1,2,…,K 由式(1)計(jì)算:
本文網(wǎng)絡(luò)用交叉熵函數(shù)來作為損失函數(shù),其公式如下:
其中,當(dāng) k=y 時(shí) q(k)=1,當(dāng) k≠y 時(shí) q(k)=0,在本文中最小化交叉熵?fù)p失函數(shù)就等同于使網(wǎng)絡(luò)預(yù)出正確標(biāo)簽的概率最大化。
然后采用梯度下降算法通過調(diào)整網(wǎng)絡(luò)參數(shù)對(duì)目標(biāo)函數(shù)J(f,y)進(jìn)行優(yōu)化。參數(shù)的梯度下降公式如下:
式中,琢為學(xué)習(xí)速率,采用反向傳播算法對(duì)式(3),式(4)中后兩項(xiàng)的偏導(dǎo)數(shù)進(jìn)行計(jì)算,多次迭代更新直到參數(shù)收斂網(wǎng)絡(luò)訓(xùn)練結(jié)束,得到最優(yōu)的網(wǎng)絡(luò)參數(shù)W,b。
預(yù)訓(xùn)練的目的是得到初始值較好的參數(shù)集合,解決因?yàn)楸疚臄?shù)據(jù)庫(kù)數(shù)據(jù)量小而容易引起網(wǎng)絡(luò)參數(shù)過擬合的問題。然后用預(yù)訓(xùn)練模型來初始化本文的網(wǎng)絡(luò),按照同樣的算法流程對(duì)網(wǎng)絡(luò)的參數(shù)進(jìn)行微調(diào),得到符合本文數(shù)據(jù)庫(kù)統(tǒng)計(jì)特性的參數(shù)集。具體算法細(xì)節(jié)如下:
圖1 基于遷移學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練示意圖
在把預(yù)訓(xùn)練模型遷移到本文的任務(wù)上時(shí),把網(wǎng)絡(luò)結(jié)構(gòu)修改成符合任務(wù)的網(wǎng)絡(luò)。因?yàn)镮mageNet數(shù)據(jù)庫(kù)有1 000類,所以網(wǎng)絡(luò)的預(yù)訓(xùn)練模型fc8的維度為1*1*4 096*1 000維,而數(shù)據(jù)庫(kù)有10類,則要把預(yù)訓(xùn)練模型的fc8層的維數(shù)改成1*1*4 096*10維,并對(duì)這一層的參數(shù)進(jìn)行隨機(jī)初始化,再使用預(yù)訓(xùn)練模型來初始化網(wǎng)絡(luò)其他層的參數(shù)。本文把航空器圖像調(diào)整成適合網(wǎng)絡(luò)的大小,并對(duì)圖像進(jìn)行白化、歸一化、減去均值等操作來提高分類的準(zhǔn)確性和收斂速度。其中圖1為以AlexNet實(shí)現(xiàn)算法的網(wǎng)絡(luò)結(jié)構(gòu)圖,圖1所示的網(wǎng)絡(luò)有5個(gè)全連接層和3個(gè)卷積層,其中網(wǎng)絡(luò)的大部分參數(shù)都在全連接層。在訓(xùn)練時(shí)固定所有的卷積層和前兩個(gè)全連接層參數(shù),在本文數(shù)據(jù)庫(kù)上精調(diào)fc8層的參數(shù),然后再使用softmax分類器進(jìn)行分類。
本算法首先采用遷移學(xué)習(xí)的思想訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),然后融合卷積神經(jīng)網(wǎng)絡(luò)提取的深度特征和手工設(shè)計(jì)的淺層特征,在本文組建的航空器數(shù)據(jù)庫(kù)上進(jìn)行圖像分類研究。針對(duì)航空器圖像數(shù)據(jù)庫(kù)缺乏的問題,本文自己搜集和組建了航空器圖像數(shù)據(jù)庫(kù);針對(duì)手工設(shè)計(jì)特征缺乏對(duì)圖像予以信息的表達(dá)能力的問題,利用卷積神經(jīng)網(wǎng)絡(luò)來提取圖像的深度特征;對(duì)于小數(shù)據(jù)庫(kù)難以訓(xùn)練深層的網(wǎng)絡(luò)問題,本文算法提出遷移學(xué)習(xí)的方法來訓(xùn)練網(wǎng)絡(luò),然后再進(jìn)行航空器圖像分類。針對(duì)單一特征對(duì)圖像信息表達(dá)不足的問題,提出了特征融合的分類算法。
圖像分類的關(guān)鍵在于特征的提取,提取出能充分表達(dá)圖像信息的特征,對(duì)于分類任務(wù)性能的提高有著重要的意義。HOG特征和灰度特征分別表示了物體邊緣、能量分布信息,但不能充分表達(dá)圖像的深層語(yǔ)義特征,而深度特征能充分表達(dá)圖像的語(yǔ)義信息,但欠缺對(duì)一些淺層特征的表達(dá)。針對(duì)這3種特征和本文數(shù)據(jù)庫(kù)的特點(diǎn),提出特征融合算法來進(jìn)行航空器圖像的分類,融合深度特征和淺層特征,實(shí)現(xiàn)特征的優(yōu)勢(shì)互補(bǔ),不論是從形狀、邊緣,還是從語(yǔ)義上都能很好地表達(dá)圖像的特征。
本文通過融合深度特征與手工設(shè)計(jì)特征(包括HOG特征、灰度特征),來構(gòu)建一個(gè)多特征融合的分類算法。使用遷移學(xué)習(xí)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型,去掉網(wǎng)絡(luò)最后的損失函數(shù)層,把這個(gè)模型當(dāng)作一個(gè)特征提取器來提取圖像的深度特征。在訓(xùn)練時(shí),首先把訓(xùn)練集的圖片輸進(jìn)網(wǎng)絡(luò),經(jīng)過前向計(jì)算,得到圖片的深度特征,同時(shí)提取訓(xùn)練集圖片的淺層特征,然后再把圖片的深度特征與淺層特征進(jìn)行融合,用融合后的特征去訓(xùn)練分類器,如圖2所示。
圖2中,把航空器圖像輸入遷移學(xué)習(xí)訓(xùn)練好的網(wǎng)絡(luò)里,在網(wǎng)絡(luò)的fc8層得到了一個(gè)4 096維的深度特征。同時(shí)通過相關(guān)計(jì)算提取到圖像的HOG特征和灰度特征,然后按照本文提出的線性組合的方式把深度特征、HOG特征,以及灰度特征3種表示圖像不同屬性信息的特征進(jìn)行融合,融合后的特征既包含語(yǔ)義信息又包含淺層信息,適合于本文數(shù)據(jù)庫(kù)這種類內(nèi)的分類任務(wù)。
特征融合就是將多種特征經(jīng)過一定的方式融合成一個(gè)描述物體的新特征。即
其中,f(x)為特征的組合函數(shù),該函數(shù)根據(jù)自己的組合方式而定,既可以是線性的,也可以是非線性的,根據(jù)具體的任務(wù)而定表示不同的特征,i、j、k表示對(duì)應(yīng)特征的維度,m表示當(dāng)前為第m張圖片,Y表示組合后的特征。本文提出一種線性的函數(shù)來作為組合函數(shù),把所要融合的特征進(jìn)行并集,組成一個(gè)包含這幾種特征的集合,特征融合算法的示意圖如圖3所示,融合公式為:
圖3 特征融合算法示意圖
通過特征融合形成一個(gè)新的特征向量Ym,然后再用融合得到特征向量作為訓(xùn)練樣本去訓(xùn)練一個(gè)多分類的SVM分類器,其目標(biāo)函數(shù)為:
式中:m=1,2,…,n,其中 n 為樣本數(shù)量;i=1,2,…,k,其中,k為類別數(shù)量。
用特征融合后的特征向量作為樣本去訓(xùn)練SVM分類器,通過最小化式(7)中的目標(biāo)函數(shù)得到服從輸入樣本分布的參數(shù)w的最優(yōu)集合,這樣就可以得到?jīng)Q策函數(shù):,判別結(jié)果為第m類,即完成了對(duì)輸入航空器圖像的分類。
本文在自己整理的航空器圖像數(shù)據(jù)庫(kù)上測(cè)試算法的有效性,其中數(shù)據(jù)庫(kù)包含7 000張訓(xùn)練圖片和1 000張測(cè)試圖像。本文的實(shí)驗(yàn)環(huán)境為CPU為Intel Core i5-4460 ,主頻為3.2 GHz、GPU 為GTX1070,內(nèi)存16 G的計(jì)算機(jī),實(shí)現(xiàn)算法的軟件為Matlab(2016a),使用 Matconvnet深度學(xué)習(xí)框架。
目前航空器圖像方面的數(shù)據(jù)庫(kù)很少,為了實(shí)現(xiàn)航空目標(biāo)的分類,收集并整理了相應(yīng)的航空器圖像數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)為可見光航空器圖像,數(shù)據(jù)庫(kù)圖像具有背景復(fù)雜、姿態(tài)萬(wàn)千、尺度不一的特點(diǎn),同類航空器表面的涂層多變、改進(jìn)版本多、掛載武器數(shù)量不同,不同類的飛機(jī)有的外形很接近、且數(shù)據(jù)采集時(shí)也引入了一些帶有運(yùn)動(dòng)模糊和云層遮擋的圖片,使得分類任務(wù)更加困難。該數(shù)據(jù)庫(kù)總共有8 000張圖片,包含10種類別的軍用飛機(jī)目標(biāo),分別是:F15、F16、F18、F22、EP3、P8、殲轟 7、殲 8、蘇 30 以及F35,訓(xùn)練集有圖片7 000張,測(cè)試集有圖片1 000張。圖片在收集后經(jīng)過矯正調(diào)整,使目標(biāo)基本位于圖片的中央且圖片的分辨率不小于400*300。數(shù)據(jù)庫(kù)概圖如圖4所示。
圖4 航空器圖像數(shù)據(jù)庫(kù)
為了驗(yàn)證遷移學(xué)習(xí)算法的有效性,分別使用AlexNet、VGG-F、VGG-VD16 這 3 種結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行試驗(yàn)。在圖片輸入網(wǎng)絡(luò)之前將圖片分別縮放成227*227(AlexNet規(guī)定的輸入尺寸)、224*224(VGG-F和VGG-VD16規(guī)定的輸入尺寸)。并對(duì)圖像數(shù)據(jù)進(jìn)行白化、歸一化、減均值等預(yù)處理來提高分類的準(zhǔn)確性和收斂速度,通過平移、旋轉(zhuǎn)、隨機(jī)裁剪操作來擴(kuò)充數(shù)據(jù)。把這3種網(wǎng)絡(luò)在ImageNet上預(yù)訓(xùn)練得到的預(yù)訓(xùn)練模型遷移到本航空器圖像分類任務(wù)上,在訓(xùn)練時(shí)只更新fc8層的參數(shù)并固定其他層的網(wǎng)絡(luò)參數(shù),將其他層的學(xué)習(xí)速率設(shè)置為0,將最后一個(gè)全連接層的學(xué)習(xí)速率在前60個(gè)迭代周期設(shè)置為0.01,后40個(gè)周期迭代的速率設(shè)為0.001。
圖5 采用遷移學(xué)習(xí)與不遷移學(xué)習(xí)的性能對(duì)比
圖5中綠色的線為本文算法的準(zhǔn)確率曲線,藍(lán)色的線為直接訓(xùn)練網(wǎng)絡(luò)參數(shù)的準(zhǔn)確率曲線。表1給出了直觀的分類準(zhǔn)確率對(duì)比。實(shí)驗(yàn)表明在本文的航空器數(shù)據(jù)庫(kù)上采用遷移學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)參數(shù)的方法,要比直接訓(xùn)練網(wǎng)絡(luò)參數(shù)的方法分類準(zhǔn)確率在AlexNet、VGG-F 上分別提高 3.19%、7.01%、8.8%,數(shù)據(jù)表明在小數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)時(shí),不使用遷移學(xué)習(xí)直接進(jìn)行訓(xùn)練的效果遠(yuǎn)差于使用遷移學(xué)習(xí)的效果,這是因?yàn)榫W(wǎng)絡(luò)的層數(shù)越深、參數(shù)多,使用少量的數(shù)據(jù)就越容易產(chǎn)生過擬合。以上結(jié)果說明直接在本文數(shù)據(jù)庫(kù)這樣的小數(shù)據(jù)庫(kù)上訓(xùn)練網(wǎng)絡(luò),一方面會(huì)收斂的很慢,另一方面訓(xùn)練得到的分類準(zhǔn)確率也遠(yuǎn)不如采用遷移學(xué)習(xí)的分類準(zhǔn)確率。
表1 采用遷移學(xué)習(xí)與不遷移學(xué)習(xí)的最佳準(zhǔn)確率對(duì)比
為了驗(yàn)證特征融合算法在不同網(wǎng)絡(luò)結(jié)構(gòu)上的有效性,使用前邊遷移學(xué)習(xí)得到的AlexNet、VGG-F、VGG-VD16 3種網(wǎng)絡(luò)模型在本文數(shù)據(jù)庫(kù)上進(jìn)行廣泛實(shí)驗(yàn)。使用訓(xùn)練集數(shù)據(jù)融合后的特征訓(xùn)練一個(gè)多分類的SVM分類器,然后提取測(cè)試集圖片的特征,直接用訓(xùn)練得到的SVM分類器進(jìn)行測(cè)試實(shí)驗(yàn)。在試驗(yàn)中把深度特征、HOG特征和灰度特征3種特征分別融合進(jìn)行實(shí)驗(yàn),如表2所示:
表2 不同特征組合的分類性能
實(shí)驗(yàn)數(shù)據(jù)表明:在本文數(shù)據(jù)庫(kù)上本算法要比使用單一的深度特征、HOG特征、灰度特征進(jìn)行航空器圖像分類的精確率高,使用遷移學(xué)習(xí)得到的AlexNet、VGG-F、VGG-VD16 3 種不同結(jié)構(gòu)的網(wǎng)絡(luò)模型提取深度特征,把提取到的深度特征、HOG特征、灰度特征3種特征融合后進(jìn)行試驗(yàn),分類精確率比使用單一的深度特征分別提升了1.24%、1.08%、1.12%,比使用單一的HOG特征分別提高了26.63%、27.58%、28.67%,比使用單一的灰度特征分別提高了35.21%、37.53%、38.63%。這說明特征融合后的特征向量含有圖像更多的信息,表征圖像信息的能力也比單一特征表征圖像的能力要強(qiáng)??梢姳疚牡奶卣魅诤纤惴M足對(duì)航空器圖像的分類任務(wù)。
本文提出基于遷移學(xué)習(xí)和特征融合的航空器圖像分類算法,該算法利用遷移學(xué)習(xí)的思想減輕了模型過擬合,并通過融合圖像的淺層和深度特征,彌補(bǔ)了因?yàn)閱我惶卣鲗?duì)圖像中的信息表達(dá)能力不足的問題。實(shí)驗(yàn)證明本文算法能有效地區(qū)分航空器圖像,與經(jīng)典的算法相比本文算法具有更高的準(zhǔn)確率。