付涵,嚴(yán)華
(四川大學(xué)電子信息學(xué)院,成都 610065)
圖像融合的目的是將不同源圖像中的重要信息整合到同一張融合圖像。近年來,紅外與可見光圖像的融合問題已經(jīng)成為圖像融合領(lǐng)域一個重要的分支。紅外圖像由紅外傳感器獲得,反映了圖像中物體的溫度差異,但細(xì)節(jié)信息較少、對比度低;可見光圖像由可見光傳感器獲得,保存了目標(biāo)的顏色、亮度等信息。將紅外與可見光圖像進(jìn)行融合,可以提高圖像的分辨率,并獲得更為豐富、全面的信息。
基于多尺度變換的融合方法是解決紅外與可見光圖像融合問題的經(jīng)典方法,如拉普拉斯金字塔(LP)[1]、低通金字塔(RP)[2]、梯度金字塔(GP)[3]、離散小波變換(DWT)[4]、平穩(wěn)小波變換(SWT)[5]、雙樹復(fù)小波變換(DTCWT)[6]和非下采樣輪廓波變換(NSCT)[7]等。這些方法一般是先將源圖像進(jìn)行多尺度分解,然后執(zhí)行特定的融合規(guī)則處理變換后的系數(shù),最后再進(jìn)行多尺度逆變換。上述經(jīng)典方法雖然很好地保留了紅外與可見光圖像的細(xì)節(jié),但是卻存在顏色失真、對比度損失等潛在問題?;趦?yōu)化的融合方法在很大程度上解決了多尺度變換的局限性,如基于廣義隨機(jī)行走[8]和馬爾可夫隨機(jī)場[9]的方法。這些方法大多先求解能量函數(shù),進(jìn)而估計空間平滑和邊緣對齊的權(quán)重,再將像素值進(jìn)行加權(quán)平均,以獲得融合圖像,但是由于多次迭代,效率十分低下。Li Shutao等人[10]提出了一種基于引導(dǎo)濾波的融合方法,該方法使用了快速的兩尺度分解,引導(dǎo)濾波的方法被用于圖像的局部濾波。但大量的實踐證明,該方法存在著可能出現(xiàn)偽影等問題。Liu Yu等人[11]提出了一種圖像融合框架,該方法首先將源圖像進(jìn)行多尺度分解成高通和低通部分,低通部分與基于稀疏表示的融合方法進(jìn)行結(jié)合,高通部分則使用流行的最大絕對值融合規(guī)則。近年來,隨著深度學(xué)習(xí)的興起,許多深度學(xué)習(xí)的方法被應(yīng)用到圖像融合領(lǐng)域中。Liu Yu等人[12]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的融合方法,他們將源圖像灰度化后輸送到訓(xùn)練好的CNN模型中,經(jīng)過小區(qū)域去除和引導(dǎo)濾波后,獲得決策圖。然而,該方法只提取了后面幾層的結(jié)果,丟失了中間層的重要信息。Li Hui等人[13]提出了一種基于深度學(xué)習(xí)框架的方法,他們將圖像進(jìn)行兩尺度分解,細(xì)節(jié)內(nèi)容被輸送到VGG-19網(wǎng)絡(luò)中以提取特征,基礎(chǔ)部分使用了加權(quán)平均方法,使圖像丟失掉很多亮度信息。
本文將深度學(xué)習(xí)框架與多尺度變換進(jìn)行結(jié)合,提出了一種有效的紅外與可見光圖像融合方法。首先,將紅外與可見光圖像進(jìn)行拉普拉斯變換分解,獲得圖像的高通和低通部分。對于圖像的高通部分,我們將其輸入到預(yù)訓(xùn)練的VGG-19網(wǎng)絡(luò)模型中,獲取圖像的深層特征,通過L1范數(shù)和加權(quán)平均的融合策略,得到初始的特征圖,對于每個relu層執(zhí)行相同的操作,再通過平均策略,得到高通部分的融合圖像。對于圖像的低通部分,我們使用最大選擇策略,以獲取更多的亮度信息。將融合后的低通部分和高通合并后進(jìn)行拉普拉斯逆變換,就可以獲得最終的融合圖像。
提出的融合方法如圖1所示,大致分為以下幾個部分:
圖1 本文提出的融合框架
(1)LP分解:將獲得的一對紅外與可見光圖像通過拉普拉斯變換分解成低通和高通部分。
(2)低通部分的融合:采用最大融合策略。
(3)高通部分的融合:利用VGG-19深度學(xué)習(xí)網(wǎng)絡(luò)獲取高通部分的深層特征,再通過L1范數(shù)和平均策略獲得融合后的細(xì)節(jié)部分。
(4)圖像重構(gòu):將融合后的低通與高通部分先進(jìn)行重構(gòu),再經(jīng)過拉普拉斯逆變換,得到最終的融合圖像。
假定有兩張預(yù)先配準(zhǔn)的紅外與可見光圖像,我們通過拉普拉斯變換將這兩張源圖像分解成低通部分{s1_1,s2_1}和高通部分{s1_h,s2_h}。
為了獲得更多的亮度信息,增強(qiáng)融合圖像的對比度,我們在低通部分采用最大選擇融合策略,如等式(1)所示。
S_1=max{s1_1,s2_1}
(1)
(1)讓表示第k張源圖像的高通部分所提取的第i層細(xì)節(jié)特征,則:
(2)
其中,sk_h表示第k張源圖像通過拉普拉斯變換分解獲得的高通部分,Φi(·)表示VGG-19網(wǎng)絡(luò),i是我們從VGG-19網(wǎng)絡(luò)中提取的relu層,此處i∈{1,2,…,16}分別代表relu1-5中所有的relu層,共16層。
(2)讓表示第k張源圖像的高通部分所提取的第i層細(xì)節(jié)特征,則:
(3)
其中,sk_h表示第k張源圖像通過拉普拉斯變換分解獲得的高通部分,Φi(·)表示VGG-19網(wǎng)絡(luò),i是我們從VGG-19網(wǎng)絡(luò)中提取的relu層,此處i∈{1,2,…,16}分別代表relu1-5中所有的relu層,共16層。
(4)
在本文中,k∈(1,2)。
(5)
為了保留更多細(xì)節(jié),我們使r=1。
(6)
此處,我們令K=2。
(6)通過上采樣,將權(quán)重圖調(diào)整到和輸入圖像相同的大小:
(7)
p,q∈{0,1,…,(2i-1-1)}
(8)
此處K=2。
(8)最后,為了保證所有的細(xì)節(jié)內(nèi)容都不被丟失,我們對高通部分每個位置的初始融合圖像取平均值:
(9)
首先,將獲得的低通部分和高通部分的融合圖像進(jìn)行重構(gòu),如(10)式所示:
F=S_1+S_h
(10)
然后,再進(jìn)行LP逆變換,以獲得最終的融合圖像。
為了驗證所提出的方法的有效性和可靠性,我們在47對紅外與可見光圖像上進(jìn)行了實驗,它們分別來自不同的場景和細(xì)節(jié)。在本文中,我們選取了其中的4對源圖像。我們將9種先進(jìn)的圖像融合方法作為對比,包括基于ResNet的圖像融合[21]、自適應(yīng)稀疏表示(ASR)[16]、梯度傳遞融合(GTF)[17]、低通金字塔(RP)[2]、曲波變換(CVT)[18]、雙樹復(fù)小波變換(DTCWT)[6]、離散小波變換(DWT)[4]、拉普拉斯金字塔(LP)[1]和使用深度學(xué)習(xí)框架的圖像融合方法(DL)[13]。
由于篇幅限制,我們以兩組圖像為例,對我們的圖像進(jìn)行主觀評價。
第一對紅外與可見光圖像如圖2(a)(b)所示,(c)-(k)為不同方法生成的融合圖像,(l)為本文提出的方法生成的融合圖像??梢钥闯?,本文提出的方法獲得的融合圖像在紅框內(nèi)具有更多的細(xì)節(jié)信息。在行人處,(e)(f)(g)(h)存在一些偽影,而本文提出的方法生成的融合圖像在保留細(xì)節(jié)的前提下做到了過渡自然,明顯優(yōu)于其他競爭方法。
圖2 第一組實驗圖像,(a)-(l)依次為紅外圖像和可見光圖像,ResNet、ASR、GTF、RP、CVT、DTCWT、DWT、LP、DL、OUR。
第二對紅外與可見光圖像如圖3(a)(b)所示,這是夜間植物的場景。(c)-(k)為不同方法生成的融合圖像,(l)為本文提出的方法生成的融合圖像。對于紅框內(nèi)的部分,通過所提出的方法獲得的融合圖像包含較少的噪聲,而圖(f)(g)(h)(j)則存在較為嚴(yán)重的噪聲。從圖片的整體上看,本文生成的融合圖像具有更多的亮度信息,且邊緣清晰,視覺效果更佳。
圖3 第二組實驗圖像,(a)-(l)依次為紅外圖像和可見光圖像,ResNet、ASR、GTF、RP、CVT、DTCWT、DWT、LP、DL、OUR。
為了更好體現(xiàn)出不同融合方法的性能差異,本文采用了四種常用的圖像融合評價指標(biāo),分別是熵(EN)、互信息(MI)、標(biāo)準(zhǔn)差(SD)和非線性相關(guān)信息熵(NCIE)。評價指標(biāo)的值越高,證明融合圖像的質(zhì)量越好。四個指標(biāo)的定義如下。
3.3.1 熵(EN)
根據(jù)香農(nóng)信息論,熵值大小反映了圖像包含信息量的多少,熵值越大,圖像融合的效果越好。熵定義如下:
(11)
其中,pi是圖像中第i個灰度級的概率,L表示圖像灰度級別,在我們的實驗中,將L設(shè)置為256。若圖像存在嚴(yán)重的偽影或噪聲,會使EN的值增大,因此,EN的值并不能完全代表融合圖像的質(zhì)量。
3.3.2 互信息(MI)
互信息反映了融合圖像與源圖像的相似性,它描述融合圖像保留源圖像的信息量的多少。MI的值越大,表示從源圖像到融合圖像的信息量越大。根據(jù)文獻(xiàn)[19],定義如下:
(12)
其中PABF(i,j,k)表示源圖像A、B與融合圖像。
F的歸一化聯(lián)合灰度直方圖分布,PAB(i,j)是圖像A與B的歸一化聯(lián)合灰度直方圖分布,PF(k)是融合圖像F的歸一化邊緣灰度直方圖分布。L為灰度級數(shù),(i,j,k)分別代表源圖像A、B與融合圖像F的像素值。
3.3.3 標(biāo)準(zhǔn)差(SD)
圖像的標(biāo)準(zhǔn)差表示圖像中單個像素的值相對于圖像像素均值的偏移程度。在數(shù)學(xué)上,定義如下:
(13)
其中x是M×N維的融合圖像,xi,j表示在(i,j)處的像素值,μ是融合圖像的平均像素值。標(biāo)準(zhǔn)差越大,灰度越分散,也就說明圖像具有較高的對比度,視覺效果更佳。
3.3.4 非線性相關(guān)信息熵(NCIE)
根據(jù)文獻(xiàn)[20],非線性相關(guān)信息熵(NCIE)定義為:
(14)
3.3.5 實驗數(shù)據(jù)分析
進(jìn)一步地,我們通過圖像的評價指標(biāo)來驗證所提出的方法的有效性。
表1第一行列出了第一對圖像的所有融合方法的評價指標(biāo)。不難看出,本文提出的方法的EN和NCIE值略高于其他方法,MI和SD值則明顯高于其他方法。從評價指標(biāo)的數(shù)據(jù)上來看,我們的方法保留了大量源圖像的有用信息,且具有較高的對比度。
表1 四組圖片的評價指標(biāo)對比
表1第二行列出了第二對圖像的所有融合方法的評價指標(biāo)。對于指標(biāo)EN和NCIE,所有方法的值都非常接近,我們的方法略有優(yōu)勢。DWT、DL和我們的方法的MI值明顯高于其他的方法,進(jìn)一步地,我們的方法相比DWT和DL又具有更大的優(yōu)勢。而對于指標(biāo)SD,我們的方法明顯優(yōu)于其他方法。通過以上分析可以得出結(jié)論,我們的方法具有更大的價值。
表1第三行列出了第三對圖像的所有融合方法的評價指標(biāo)。從數(shù)據(jù)上來看,對于第三對圖像,我們的四項評價指標(biāo)值雖然沒有與其他方法拉開明顯的差距,但是都會稍高與其他的方法,結(jié)合主觀視覺效果分析,我們的方法是優(yōu)于其他方法的。
表1第四行列出了第四對圖像的所有融合方法的評價指標(biāo)。從EN、MI和SD三項指標(biāo)值來看,我們的方法均與其他方法拉開明顯差距,具有非常大的潛力。而NCIE值也略高于其他方法,綜上分析,我們的方法總體上優(yōu)于其他方法,在紅外與可見光的圖像融合方面具有一定優(yōu)勢。
本文提出了一種有效的基于VGG-19深度學(xué)習(xí)框架的圖像融合方法。首先,通過拉普拉斯變換將源圖像分解為低通部分和高通部分。低通部分包含圖像更多的基礎(chǔ)信息,高通部分則含有更多的細(xì)節(jié)內(nèi)容。對于低通部分,我們采用最大融合策略。對于高通部分,我們利用預(yù)訓(xùn)練的VGG-19深度學(xué)習(xí)網(wǎng)絡(luò)來獲取深層特征,然后通過L1范數(shù)和平均操作進(jìn)行優(yōu)化,再經(jīng)過Softmax和上采樣,獲得最終的權(quán)重圖,將所有relu層的權(quán)重圖進(jìn)行平均,就得到高通部分的融合圖像。最后,我們將融合后的高通和低通部分進(jìn)行重構(gòu),通過拉普拉斯逆變換,獲得最終的融合圖像。為了驗證提出的方法的可靠性,我們在47對紅外與可見光圖像上進(jìn)行了實驗,在4個指標(biāo)的基礎(chǔ)上與9種先進(jìn)的圖像融合方法進(jìn)行了對比。實驗結(jié)果表明,我們的方法無論是從主觀視覺效果還是客觀評價指標(biāo)上來看,都具有先進(jìn)的性能。