王楠 李曉賓
(北京航空航天大學(xué)計算機學(xué)院 北京市 100191)
在深度學(xué)習(xí)中,許多任務(wù)都是基于數(shù)據(jù)驅(qū)動的,數(shù)據(jù)的規(guī)模和質(zhì)量決定了模型的最終效果。但是,當(dāng)面臨新的領(lǐng)域、新的任務(wù)中(如遙感、醫(yī)學(xué)等特定領(lǐng)域圖像),高質(zhì)量的數(shù)據(jù)往往是相當(dāng)匱乏的。在實際應(yīng)用領(lǐng)域中,紅外遙感在紅外制導(dǎo)、武器裝備等方面具有廣泛的應(yīng)用。但是,在這些領(lǐng)域中,紅外數(shù)據(jù)的獲取卻受到限制,而紅外衛(wèi)星遙感分辨率較低,很難獲取有效圖像。在數(shù)據(jù)較少的情況下,深度學(xué)習(xí)的應(yīng)用和效果都受到了影響。為了應(yīng)對以上挑戰(zhàn),本文將易獲取的可見光圖像作為紅外數(shù)據(jù)生成的來源,通過對CycleGAN網(wǎng)絡(luò)添加特征重構(gòu)損失,使得可見光數(shù)據(jù)在風(fēng)格、內(nèi)容、特征等方面生成近似符合紅外數(shù)據(jù)特性的圖像,解決了深度學(xué)習(xí)中紅外典型軍事目標(biāo)數(shù)據(jù)少,難以尋找批量數(shù)據(jù)進行訓(xùn)練的難題。
本文的主要貢獻有:
(1)本文設(shè)計了高效的紅外遙感圖像自動生成算法,擴大紅外遙感圖像的數(shù)據(jù)集規(guī)模,推動深度學(xué)習(xí)算法在紅外遙感圖像識別領(lǐng)域的應(yīng)用;
(2)本文在基于CycleGAN風(fēng)格遷移的基礎(chǔ)上,添加特征重構(gòu)損失,使得生成的紅外圖像與真實的紅外圖像在特征方面更具有相似性。
紅外遙感領(lǐng)域?qū)Φ湫蛙娛履繕?biāo)(如飛機、艦船等)機密性的嚴(yán)格要求,采集數(shù)據(jù)難度大。構(gòu)建大規(guī)模、高質(zhì)量的此類數(shù)據(jù)集非常困難,因此,利用一種紅外仿真數(shù)據(jù)模擬紅外真實數(shù)據(jù)是亟需的一項任務(wù)。在基于傳統(tǒng)方法的圖像生成時,一般從圖像的灰度、對比度、飽和度、色調(diào)等方面進行處理。在遙感圖像的紅外軍事目標(biāo)數(shù)據(jù)生成中,由于自然圖像與紅外遙感圖像相差較大,不宜采用?;谏疃葘W(xué)習(xí)生成圖像的技術(shù)中,生成對抗網(wǎng)絡(luò)(GAN)[1]在計算機視覺中有許多如圖像繪畫、標(biāo)注、生成等方面有著廣發(fā)應(yīng)用。Stackgan[2]是一種具有兩層生成器的迭代方法。第一個生成器接收噪聲輸入并輸出模糊圖像,這些圖像顯示圖像中目標(biāo)對象的模糊細(xì)節(jié)和形狀。第二個生成器生成更逼真的圖像細(xì)節(jié)。InfoGAN[3]通過非監(jiān)督學(xué)習(xí)得到可分解的特征表示。PPGN[4]使用激活最大化生成圖像,這些圖像采用去噪自編碼器(DAE)來訓(xùn)練圖像特征。CoGAN[5]利用權(quán)重共享和編碼器VAE實現(xiàn)無監(jiān)督圖像之間的轉(zhuǎn)換。這些基于生成對抗網(wǎng)絡(luò)的技術(shù)解決了計算機視覺領(lǐng)域中數(shù)據(jù)量不足問題。雖然這些方法在圖像生成方面比較有效,但它的訓(xùn)練過程非常不穩(wěn)定,需要很多技巧才能獲得良好的結(jié)果。
在一般的數(shù)據(jù)生成過程中,生成圖像的數(shù)據(jù)分布、內(nèi)容、特征難以與原始圖像保持一致,即生成圖像的真實性難以保證。圖像生成的質(zhì)量一般受風(fēng)格、內(nèi)容、特征等方面的影響。相同數(shù)據(jù)的分布可能有不同的表觀特征,而相同的內(nèi)容可能局部特征也不一樣。在數(shù)據(jù)生成過程中,由于網(wǎng)絡(luò)訓(xùn)練時的不穩(wěn)定性,會出現(xiàn)生成的數(shù)據(jù)不理想的情況。圖1展現(xiàn)了在基于生成對抗網(wǎng)絡(luò)技術(shù)的生成圖像過程中,出現(xiàn)的圖像失真變形的示意圖,從而在圖像特征上不能保證生成數(shù)據(jù)的真實性。因此,生成器生成的圖像在數(shù)據(jù)分布、特征等方面與原圖能否保持近似一致受到了極大的挑戰(zhàn)。
圖1:基于GAN網(wǎng)絡(luò)生成的圖像失真示意圖
圖2:可見光生成紅外圖像中的生成器與判別器流程圖
針對以上問題,本文在基于CycleGAN風(fēng)格遷移的基礎(chǔ)上,添加特征重構(gòu)損失,使得生成的紅外圖像與真實的紅外圖像在特征方面具有相似性。為了使得生成的紅外圖像更加符合真實紅外圖像的特性,本章對CycleGAN[6]網(wǎng)絡(luò)添加特征重構(gòu)損失,使得生成圖像與原始紅外圖像具有特征相似性。最重要的是,將特征重構(gòu)損失與原始的生成對抗損失以及循環(huán)一致?lián)p失相結(jié)合,使得可見光數(shù)據(jù)在風(fēng)格、內(nèi)容、特征方面生成更符合紅外數(shù)據(jù)特性的圖像。生成對抗損失保證輸出圖像的分布,循環(huán)一致性損失保證輸入和輸出圖像之間的內(nèi)容相似性,特征重構(gòu)損失保證生成圖像與真實圖像的特征相似性。
本節(jié)主要對CycleGAN網(wǎng)絡(luò)進行改進,添加特征重構(gòu)損失,以對紅外目標(biāo)與背景的生成進行詳細(xì)分析。在CycleGAN中,有兩個分布不同的圖像域以及生成器和判別器。在訓(xùn)練過程中,利用對抗損失來衡量這兩個域分布的差異。CycleGAN可以訓(xùn)練兩個數(shù)據(jù)集而無需配對以學(xué)習(xí)輸入圖像和輸出圖像之間的映射。通過訓(xùn)練來創(chuàng)建這個映射,以得到輸入圖像和生成圖像之間共享某些關(guān)聯(lián)的特征。生成模型主要用于衡量數(shù)據(jù)分布,判別模型主要用于估計輸入樣本來自真實數(shù)據(jù)而非生成樣本的概率。生成模型構(gòu)造一個從先驗分布到數(shù)據(jù)空間的映射以更好的學(xué)習(xí)數(shù)據(jù)的生成分布特性。也即,生成器擬合數(shù)據(jù)分布,判別器衡量分布的差異。
圖3:可見光圖像生成紅外圖像數(shù)據(jù)展示
圖4:云霧場景下可見光圖像生成紅外圖像實驗結(jié)果
上述的對抗損失和循環(huán)一致?lián)p失只是保證生成的圖像在數(shù)據(jù)分布與風(fēng)格方面與原始圖像盡量保持一致,而忽略了圖像中的特征一致性。一般地,可以通過優(yōu)化損失函數(shù)來生成高質(zhì)量的圖像。在基于CycleGAN網(wǎng)絡(luò)將可見光圖像對紅外圖像進行生成時,為了保證生成的紅外圖像內(nèi)容更逼真,本節(jié)結(jié)合圖像變換中的感知損失(Perceptual Loss)[7][8]中的特征重構(gòu)損失函數(shù),使得生成的紅外圖像更接近于真實紅外圖像。
圖2是可見光圖像生成紅外圖像中的生成器與判別器的結(jié)構(gòu)圖展示。其中,生成器由編碼器、轉(zhuǎn)換器和解碼器構(gòu)成。首先輸入圖像經(jīng)過編碼器中的卷積神經(jīng)網(wǎng)絡(luò)對輸入圖象中提取特征,將具有高維信息的圖像壓縮為低維特征向量。然后轉(zhuǎn)換器通過組合兩類訓(xùn)練集圖像域中的不相近特征,將可見光域中的特征向量分布轉(zhuǎn)換為紅外域中的特征向量分布。在本節(jié)中,轉(zhuǎn)換器中使用了多層殘差網(wǎng)絡(luò)ResNet模塊。每個ResNet模塊都是一個由兩個卷積層組成的神經(jīng)網(wǎng)絡(luò)層,可以實現(xiàn)在轉(zhuǎn)換特征的同時保留原始域中圖像數(shù)據(jù)集的特征的目的。解碼器利用多層反卷積層實現(xiàn)從特征向量中還原出低級特征的功能,最后得到變換后的近似符合目標(biāo)域數(shù)據(jù)分布的圖像。即通過反卷積模塊把這些特征重構(gòu)成圖像。與生成器相對應(yīng)的是判別器模塊,它是將生成的紅外圖像和真實的紅外圖像作為輸入,對輸入圖像判斷其為原始真實圖像還是生成的虛假圖像。
圖5:爆炸場景下可見光圖像生成紅外圖像
本節(jié)使用判別網(wǎng)絡(luò)的隱藏層來評估生成的紅外圖像和真實紅外圖像之間的特征重構(gòu)損失。該特征重構(gòu)損失使用預(yù)訓(xùn)練的網(wǎng)絡(luò)提供的高層特征。預(yù)訓(xùn)練好的骨干網(wǎng)絡(luò)模型可以將圖像從像素空間映射到高級特征空間。對圖2中判別器隱含層中構(gòu)造特征差異,并利用最小絕對誤差計算判別器中的隱含層特征表示之間的差異。特征重構(gòu)損失定義如下:
其中,j代表隱含層的層號,N代表樣本數(shù)量,xi代表輸入的第i個可見光圖像,T代表生成器中的圖像轉(zhuǎn)換功能,T(xi)代表輸入圖像經(jīng)過生成器變換后生成的紅外圖像,yi代表第i真實的紅外圖像,F(xiàn)j代表第j個隱含層上的圖像特征表示,F(xiàn)j(yi)代表真實紅外圖像在判別器中第j個隱含層的特征表示,F(xiàn)j(T(xi))代表輸入的生成的紅外圖像在判別器中第j個隱含層的特征表示。Lfeature值越小,說明生成的紅外圖像與真實的紅外圖像特征相似性越接近,也即生成的圖像越逼真。
在實驗的訓(xùn)練過程中,特征重構(gòu)損失衡量了生成圖像與真實圖像之間的特征相似性。這樣做保證了可見光圖像在生成紅外圖像的過程中,能夠?qū)⑤斎氲目梢姽鈭D像轉(zhuǎn)換為與真實的紅外圖像具有相似高級特征的紅外圖像。生成器與判別器的訓(xùn)練交替進行,一方面使得判別器能持續(xù)尋找輸出圖像與真實圖像的高維特征的差異,以此作為生成器的反饋調(diào)節(jié),使得生成器生成的圖像與真實的圖像之間的差異越來越小,即兩者越來越逼真。另一方面訓(xùn)練生成器,使得判別器對生成器生成的圖像難以辨別是真實的還是生成的。
其中,LFeature_all為總的特征重構(gòu)損失,它包括生成器損失LG和判別器損失LD。當(dāng)訓(xùn)練時,只要存在生成圖像與真實的紅外圖像有差異,判別器就會持續(xù)自動的輸出差異。實驗中制定了衡量生成圖像與真實圖像相似度的重要指標(biāo)的參數(shù)。簡而言之,該參數(shù)值越小,LD損失越接近0,這時判別器很難區(qū)分相似的圖像。該參數(shù)值越大,損失值接近0的難度就越大,這甚至?xí)?dǎo)致網(wǎng)絡(luò)無法收斂,但是可以更確定地分辨出更多相似的圖像。
基于CycleGAN圖像生成的損失為對抗損失和循環(huán)一致性損失以及特征重構(gòu)損失的總和:
其中 λ和β為循環(huán)一致?lián)p失和特征重構(gòu)損失的權(quán)重系數(shù),也即控制兩者的相對重要性。Ladv、Lcyc分別代表對抗損失和循環(huán)一致?lián)p失。在實驗訓(xùn)練過程中,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)輪流交替進行。通過對抗訓(xùn)練過程,學(xué)習(xí)兩種數(shù)據(jù)集之間的某種映射關(guān)系。
本文中的可見光遙感圖像數(shù)據(jù)來自GF1和GF2衛(wèi)星。全色圖像的分辨率與紅外圖像的分辨率不同是一個重要的事實。為了得到批量的滿足紅外數(shù)據(jù)分布的不同場景的紅外數(shù)據(jù)集,本節(jié)驗證了本文提出的CycleGAN網(wǎng)絡(luò)生成的紅外數(shù)據(jù)集的分布以及質(zhì)量。同時,為了生成更多的干擾復(fù)雜場景的紅外圖像,實驗中本文將可見光圖像的厚云厚霧等干擾場景經(jīng)過CycleGAN網(wǎng)絡(luò)進行遷移,然后將遷移后的干擾場景圖像與所需的艦船目標(biāo)進行不同位置、不用視角、不同尺度的泊松編輯融合,從而得到批量的紅外樣本庫。圖3展示了可見光全色圖像生成紅外圖像的部分結(jié)果圖。從實驗結(jié)果可以看出,生成的紅外圖像在風(fēng)格、內(nèi)容等方面能夠保持較好的特性。
圖4中的第一列是多光譜與全色圖像在不同場景下的云霧圖像。第二列是經(jīng)過本文提出的CycleGAN生成的紅外云霧圖像。其中,第一行和第二行為多光譜圖像中的平靜海面背景下的薄云、碎片云場景。第三行為全色圖像中黑云存在的場景。從上表可以看出,從全色圖像經(jīng)過風(fēng)格遷移的紅外圖像比較自然,表觀特征與真實紅外圖像比較相似。
圖5中展現(xiàn)了多光譜圖像在不同爆炸火光場景下艦船的遷移效果圖。第一行為爆炸火光處于前期時的狀態(tài),第二行為爆炸火光為處于中后期火光落下的狀態(tài),第三行為煙霧處于漂移的狀態(tài),第四行為厚煙霧處于爆發(fā)的狀態(tài)??梢钥闯觯疚乃惴ㄔ诿鎸Ρɑ鸸獾陌l(fā)生的不同時期,均能遷移出較自然的效果。
基于GAN網(wǎng)絡(luò)等生成模型的評價是深度學(xué)習(xí)研究的重要組成部分。為了更好的評估基于CycleGAN生成的圖像質(zhì)量,本文采用FID指標(biāo)來衡量CycleGAN生成的圖像質(zhì)量。FID值越低,說明生成的圖像質(zhì)量越高。Inception V3是一個特征提取的深層網(wǎng)絡(luò),最后一層是池化層,網(wǎng)絡(luò)輸出圖像的類別。在計算FID時,得到的是個具有較高維度的n維特征。假設(shè)原始樣本集得到的此n維向量是服從高斯分布的,則對于基于CycleGAN生成的圖像經(jīng)過特征提取網(wǎng)絡(luò)后,得到的n維向量也近似看作符合某種分布。為更好的評估本章CycleGAN生成的圖像數(shù)據(jù)分布與原始圖像的分布差異,本文采用FID來度量這兩種多維特征分布的距離。FID計算公式如下:
其中, Tr表示矩陣對角線上元素的總和,矩陣論中俗稱“跡”。均值為u,協(xié)方差為∑。此外 x表示真實的圖片,g代表生成的圖片。上式(ux,ug)和(∑x,∑g)分別是來自真實數(shù)據(jù)分布和生成樣本的均值和協(xié)方差。通過本章算法對可見光圖像中的部分艦船數(shù)據(jù)集生成紅外遙感圖像艦船的部分?jǐn)?shù)據(jù)集FID值可以達到30.26。
本文提出一種基于特征重構(gòu)CycleGAN紅外數(shù)據(jù)生成算法,解決了紅外圖像中的目標(biāo)樣本量受限的問題。該方法可以通過可見光圖像與紅外圖像的互相遷移的生成學(xué)習(xí),達到一種以可見光圖像輔助生成海量且高質(zhì)量的紅外圖像數(shù)據(jù)的作用,有效解決紅外遙感領(lǐng)域的樣本不足的問題。本文對CycleGAN網(wǎng)絡(luò)添加特征重構(gòu)損失,使得可見光數(shù)據(jù)在風(fēng)格、內(nèi)容、特征方面生成更符合紅外數(shù)據(jù)特性的圖像。實驗結(jié)果表明,本文提出的方法可以高效實現(xiàn)紅外遙感圖像的自動化生成,圖像能夠保持較好的特性。