劉 博, 韓廣良, 羅惠元
(1. 中國科學(xué)院 長春光學(xué)精密機(jī)械與物理研究所, 吉林 長春 130033;2. 中國科學(xué)院大學(xué), 北京 100049)
圖像融合將同一場景下兩幅或多幅源圖像的相關(guān)聯(lián)有效信息整合成一幅綜合圖像,實(shí)現(xiàn)了不同模態(tài)圖像的信息互補(bǔ)。經(jīng)融合處理得到的圖像能夠彌補(bǔ)單一圖像信息量不足問題,更符合人眼視覺感知和工業(yè)視覺領(lǐng)域需求,因此圖像融合在許多領(lǐng)域都有廣泛的應(yīng)用。
近些年,圖像融合技術(shù)發(fā)展迅速,相關(guān)學(xué)者針對像素級(jí)圖像融合進(jìn)行了深入研究。其中基于多尺度的融合方法因有著魯棒性強(qiáng)、具有局部時(shí)頻特性等特點(diǎn),一直是一個(gè)熱門的研究課題。經(jīng)典融合方法包括基于塔形分解的變化融合方法、基于小波變換的融合方法、基于輪廓波變換方法[1]等?;谒畏纸獾淖儞Q方法包括:基于拉普拉斯金字塔變換(LP)[2]、基于對比度金字塔變換[3]以及基于梯度金字塔變換[4]等?;谛〔ㄗ儞Q方法包括:基于方向小波變換[5]以及雙樹復(fù)小波變換(DTCWT)[6]等。然而以上方法在方向性上存在較大限制,且不具備平移不變性,融合結(jié)果中易出現(xiàn)邊緣特征捕獲不足和邊緣圓暈效應(yīng)問題。而非下采樣輪廓波(NSCT)[7]和非下采樣剪切波(NSST)[8]具有較好的方向性和平移性,能夠在一定程度上解決上述問題,但融合過程中沒有充分考慮空間一致性,對全局結(jié)構(gòu)的邊緣輪廓特征提取能力不強(qiáng)。邊緣保留濾波具有平移不變性和邊緣保留性,能夠在平滑圖像的同時(shí)保持邊緣清晰。因此,很多方法將邊緣保留濾波引入到圖像融合中,以克服上述缺陷。文獻(xiàn)[9]構(gòu)造了一種多尺度方向雙邊濾波器,結(jié)合雙邊濾波器和非采樣方向?yàn)V波器組進(jìn)行圖像融合。文獻(xiàn)[10]采用基于L0光滑濾波的多尺度邊緣保持分解,提出了一種增強(qiáng)融合結(jié)果細(xì)節(jié)的融合策略。文獻(xiàn)[11]提出了基于滾動(dòng)引導(dǎo)濾波和混合多尺度分解的圖像融合方法,其利用滾動(dòng)引導(dǎo)濾波將圖像分解到基本層、小尺度層和大尺度層,通過對不同層級(jí)進(jìn)行融合使融合圖像具有更好的紋理邊緣特征。滾動(dòng)引導(dǎo)濾波作為保邊濾波器的一種,不僅能夠平滑細(xì)節(jié),而且能夠保留圖像的邊緣特征,避免邊緣位置出現(xiàn)圓暈現(xiàn)象,這對保證融合圖像質(zhì)量具有重要意義。
此外,隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,一些基于學(xué)習(xí)的融合方法也被相繼提出。文獻(xiàn)[12]設(shè)計(jì)一種基于編碼和解碼體系結(jié)構(gòu)的網(wǎng)絡(luò)框架,通過無監(jiān)督訓(xùn)練實(shí)現(xiàn)端到端圖像融合。文獻(xiàn)[13]結(jié)合多尺度模塊設(shè)計(jì)融合網(wǎng)絡(luò),通過對不同尺度的特征進(jìn)行提取提高融合效果。文獻(xiàn)[14]結(jié)合圖像塊融合思想,通過設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來指導(dǎo)源圖像塊進(jìn)行融合。神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征提取能力,其可以捕捉圖像中最顯著物體的內(nèi)部特征。但隨著網(wǎng)絡(luò)層數(shù)增多,不斷進(jìn)行池化的操作,可能會(huì)使特征圖損失很多細(xì)節(jié)信息,導(dǎo)致在邊緣部分的信息丟失。
基于邊緣濾波的多尺度分解具有較好的細(xì)節(jié)信息與邊緣輪廓信息提取能力,而神經(jīng)網(wǎng)絡(luò)則對物體的內(nèi)部區(qū)域具有較強(qiáng)的特征提取能力。本文中將這兩個(gè)模塊結(jié)合起來使用,并提出了一種基于多尺度細(xì)節(jié)的卷積神經(jīng)網(wǎng)絡(luò)圖像融合方法。通過將神經(jīng)網(wǎng)絡(luò)與改進(jìn)的滾動(dòng)引導(dǎo)濾波相結(jié)合,以多尺度的方式結(jié)合神經(jīng)網(wǎng)絡(luò)得到的權(quán)值圖共同處理信息,使融合圖像更好地滿足人類視覺效果。滾動(dòng)引導(dǎo)濾波的聯(lián)合濾波采用聯(lián)合雙邊濾波器來實(shí)現(xiàn),并采用前次迭代圖像作為濾波器引導(dǎo)圖像。通過結(jié)合信息熵原理對空間平滑參數(shù)與灰度權(quán)重參數(shù)進(jìn)行改進(jìn),使其實(shí)現(xiàn)針對不同源圖像的參數(shù)自適應(yīng)化。這種方法能夠保留邊緣信息的同時(shí)使多尺度圖像充分提取細(xì)節(jié)信息。另外,通過非線性映射變換對構(gòu)建的多尺度圖像細(xì)節(jié)進(jìn)行非線性映射,從而豐富突出細(xì)節(jié)層內(nèi)細(xì)節(jié)紋理信息。
本文融合框架主要分為3部分,如圖1所示。首先,兩張?jiān)磮D像被送入孿生卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過網(wǎng)絡(luò)特征提取后,得到與源圖像特征相關(guān)的權(quán)值映射圖。其次,對源圖像進(jìn)行滾動(dòng)引導(dǎo)濾波,并對相鄰迭代的細(xì)節(jié)層圖像進(jìn)行差值,獲得多級(jí)差分細(xì)節(jié)圖像。然后對多級(jí)差分圖像進(jìn)行函數(shù)映射變換,使圖像細(xì)節(jié)得到增強(qiáng)。最后,通過局部能量與權(quán)值圖相結(jié)合,自適應(yīng)調(diào)整融合模式對多尺度圖像進(jìn)行融合,從而得到融合圖像。
圖1 多聚焦圖像融合框架Fig.1 Multi-focus image fusion framework
孿生網(wǎng)絡(luò)是由兩個(gè)完全相同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)組成,兩個(gè)CNN能夠?qū)⑤斎雸D像映射到新的空間中進(jìn)行表示,然后通過損失函數(shù)計(jì)算評(píng)價(jià)兩者之間的相似度。Sumit 等[15]提出了孿生網(wǎng)絡(luò),通過從數(shù)據(jù)中學(xué)習(xí)相似性度量來對不同類別樣本加以區(qū)分,從而實(shí)現(xiàn)多分類任務(wù)。本文以孿生網(wǎng)絡(luò)作為神經(jīng)網(wǎng)絡(luò)框架提取融合圖像的權(quán)值圖W,如圖2所示。源圖像通過滑窗的方式得到16×16的patch作為網(wǎng)絡(luò)的輸入圖像輸入到訓(xùn)練好的網(wǎng)絡(luò)中。網(wǎng)絡(luò)對圖像進(jìn)行特征提取,然后將特征圖像連接起來組成特征向量。特征向量經(jīng)過兩個(gè)全連接層,得到一個(gè)二分類的特征向量,該向量代表清晰度分類的得分情況。將該二維向量經(jīng)softmax層進(jìn)行歸一化后可得到所屬類別的概率值,它可表示為圖像的清晰度度量值,依據(jù)此值來組成權(quán)值圖。該CNN結(jié)構(gòu)主要由3個(gè)卷積層、一個(gè)池化層、兩個(gè)全連接層以及softmax層組成。具體參數(shù)如表1所示,3個(gè)卷積層的卷積核大小為3×3,步長設(shè)定為1,最大池化層采用2×2大小的內(nèi)核,步長設(shè)定為2。
圖2 孿生網(wǎng)絡(luò)框架Fig.2 Architecture of siamese network
表1 CNN網(wǎng)絡(luò)參數(shù)Tab.1 CNN network parameters
輸入網(wǎng)絡(luò)的patch的大小影響著算法的速度與精度,為保證兩者之間的平衡,本文中patch采用16×16的尺寸。源圖像通過滑窗得到16×16的patch,由于網(wǎng)絡(luò)結(jié)構(gòu)中存在一個(gè)pooling層,因此滑窗的步長為2。將取得的patch對送入網(wǎng)絡(luò)后會(huì)得到與清晰度特征信息相關(guān)的二分類概率值,將此值作為融合系數(shù)用來指導(dǎo)源圖像融合。為得到與源圖像大小尺寸相對應(yīng)的權(quán)值圖,需要對其進(jìn)行填充。如圖3所示,將1×1的權(quán)值進(jìn)行填充使其與patch的尺寸相同,對于滑窗相鄰的patch,其權(quán)值圖在其相對應(yīng)的重疊部分采用均值法來得到對應(yīng)權(quán)值。通過這種方式可以重組出與源圖像大小相對應(yīng)的權(quán)值圖。
圖3 權(quán)值圖生成機(jī)制Fig.3 Mechanism for generating the weight map
傳統(tǒng)金字塔分解多尺度的過程中對邊緣細(xì)節(jié)信息并不敏感,對細(xì)節(jié)的捕捉能力差,因此,利用保邊濾波器進(jìn)行多尺度圖像構(gòu)建能夠更好地保護(hù)圖像的邊緣信息。其中滾動(dòng)引導(dǎo)濾波[16]能夠在平滑細(xì)節(jié)紋理等信息的同時(shí),通過不斷迭代的方式實(shí)現(xiàn)邊緣信息的恢復(fù)。
滾動(dòng)引導(dǎo)濾波過程主要可分為小結(jié)構(gòu)消除和邊緣恢復(fù)兩部分。小結(jié)構(gòu)消除過程主要通過高斯濾波來實(shí)現(xiàn),如式(1)所示。
(1)
(2)
式中:
同樣作為歸一化系數(shù);Jt(m)、Jt(n)是第t次迭代得到的引導(dǎo)圖像在空間索引m、n處的像素值,σr是灰度域的權(quán)重,它決定圖像邊緣恢復(fù)的強(qiáng)度。該過程采用聯(lián)合雙邊濾波的形式將第t次迭代的輸出圖像Jt作為引導(dǎo)圖像,在濾波過程中它能夠在梯度變化處起主導(dǎo)作用,提高濾波器處理邊緣特征信息的強(qiáng)度,經(jīng)濾波后得到輸出圖像Jt+1。通過迭代使輸出圖像不斷更新,圖像的邊緣特征也被不斷恢復(fù)。
參數(shù)σs和σr是表征滾動(dòng)引導(dǎo)濾波性能的重要參數(shù),它們決定著圖像濾波的最終效果。采用固定值作為σs和σr的輸入往往需要大量實(shí)驗(yàn)和經(jīng)驗(yàn)總結(jié),并且隨著濾波迭代更替圖像對參數(shù)的要求也會(huì)發(fā)生變化,不具備自適應(yīng)性。圖像的信息熵能夠反映圖像內(nèi)信息的豐富程度,熵的本質(zhì)體現(xiàn)了一個(gè)系統(tǒng)的混亂程度,而圖像的濾波正是對圖像混亂程度進(jìn)行改變的過程。因此,圖像的信息熵與參數(shù)σs和σr存在聯(lián)系,通過圖像的信息熵來決定參數(shù)σs和σr可以使?jié)L動(dòng)引導(dǎo)濾波具備較強(qiáng)的自適應(yīng)性。
參數(shù)σs主要用于控制濾波的尺度,通過式(3)、式(4)和式(5)對各層濾波參數(shù)進(jìn)行設(shè)置。
(3)
(4)
(5)
圖像的每次迭代會(huì)在聯(lián)合濾波的作用下進(jìn)行不同程度的保邊濾波,對相鄰迭代圖像進(jìn)行差值處理可以得到差分圖像。圖4展示了相鄰兩次迭代圖像間被模糊掉的細(xì)節(jié)信息。σs的每次迭代更新都采取公式(3)進(jìn)行更新,這使得圖像的紋理平滑程度將隨之變化,不同尺度的細(xì)節(jié)層包含的紋理信息也將由細(xì)到粗變化,從而實(shí)現(xiàn)細(xì)節(jié)輪廓特征的多尺度自適應(yīng)提取。
圖4 滾動(dòng)引導(dǎo)濾波多尺度構(gòu)建Fig.4 Multi-scale construction of rolling guided filtering
參數(shù)σr主要用于濾波的邊緣恢復(fù)與保留,其設(shè)置如式(6)、式(7)和式(8)所示:
(6)
(7)
(8)
局部拉普拉斯濾波[17]是一種邊緣保護(hù)濾波。它通過對圖像進(jìn)行逐個(gè)像素點(diǎn)的像素映射變換使圖像的細(xì)節(jié)信息得到增強(qiáng)。本文參考其原理對滾動(dòng)引導(dǎo)濾波分解的細(xì)節(jié)層圖像進(jìn)行非線性映射變換,實(shí)現(xiàn)圖像細(xì)節(jié)增強(qiáng),圖5大致展示了其變換過程。本文首先對多尺度細(xì)節(jié)層圖像進(jìn)行函數(shù)映射變換,以t作為閾值用于界定細(xì)節(jié)特征像素與邊緣特征像素。對于t范圍內(nèi)的細(xì)節(jié)像素,通過映射變換對其進(jìn)行非線性增強(qiáng),而對邊緣像素保持線性不變。
圖5顯示了細(xì)節(jié)增強(qiáng)的效果圖,圖5(a)和圖5(b)是一組多聚焦源圖像,圖5(c)和圖5(e)經(jīng)滾動(dòng)引導(dǎo)濾波分解的多尺度細(xì)節(jié)層圖像,圖5(d)和圖5(f)是與之對應(yīng)的映射增強(qiáng)后細(xì)節(jié)層圖像。具體映射變換如式(9)、式(10)所示。
(9)
(10)
圖5 非線性映射增強(qiáng)。(a),(b)一組多聚焦源圖像;(c),(e)多尺度分解后的細(xì)節(jié)層圖像;(d),(f)映射增強(qiáng)后細(xì)節(jié)層圖像。Fig.5 Nonlinear mapping enhancement. (a), (b) a group of multi-focus source images; (c), (e) detail layer images after multi-scale decomposition, (d), (f) detail layer images after mapping enhancement.
源圖像經(jīng)多尺度分解以及細(xì)節(jié)層增強(qiáng)后與基礎(chǔ)層共同組成多尺度圖像。圖像的融合主要針對各層之間進(jìn)行融合然后逐層疊加。左、右聚焦多尺度圖像分別記作Dl{L}、Dl{R},其中l(wèi)代表第l層多尺度圖像,并將基礎(chǔ)層記作D0{L}、D0{R}。各層之間采用局部能量與權(quán)值圖W相結(jié)合的方式進(jìn)行融合。局部能量特征的定義是
E(x,y)=∑m∑nS(m,n)·
F(x+m,y+n)2,
(11)
式中,S(m,n)是局部區(qū)域的加權(quán)系數(shù),其核大小為3×3。E(x,y)代表點(diǎn)(x,y)在m,n區(qū)域像素值的能量值。反映到圖像特征上,E(x,y)值高代表該區(qū)域的特征更加明顯,即此區(qū)域?qū)?yīng)的不同尺度圖像細(xì)節(jié)信息更豐富或是低頻亮度特征更充分。所以,對Dl{L}、Dl{R}求區(qū)域能量,即:
(12)
(13)
(14)
(15)
當(dāng)Ml≥th時(shí),此時(shí)認(rèn)定兩圖像的相似度較高,都存在重要特征信息,故采用基于權(quán)值圖W進(jìn)行融合。計(jì)算如下:
Dl{F}=W(x,y)·Dl{L}(x,y)+
(1-W(x,y))·Dl{R}(x,y).
(16)
通過這種融合規(guī)則對各層多尺度圖像進(jìn)行融合,最后對各層的融合圖像進(jìn)行疊加,得到源圖像的融合圖像。
為驗(yàn)證算法的有效性,本部分將通過主觀評(píng)價(jià)和客觀評(píng)價(jià)相結(jié)合的方式對算法進(jìn)行比較分析。所對比方法分別為拉普拉斯變換融合方法(LP)[2],基于稀疏表示與輪廓波的融合方法(CVT_SR)[18],雙樹復(fù)小波變換融合方法(DTCWT)[6],基于稀疏表示與非下采樣輪廓波的融合方法(NSCT_SR)[19]以及滾動(dòng)引導(dǎo)濾波(GFF)[11]的融合方法。主觀評(píng)價(jià)由人眼的視覺效果作為評(píng)價(jià)指標(biāo),具有直觀、簡單等優(yōu)點(diǎn)。圖6是采用lytro數(shù)據(jù)集中的一組多聚焦圖像,通過不同融合算法進(jìn)行的實(shí)驗(yàn)效果對比圖。左上部分為圖中黃色框內(nèi)的局部放大圖像用于對比各種算法的細(xì)節(jié)紋理效果。圖6(f)為本文算法融合結(jié)果,可以看到相比其他算法,黃色框內(nèi)的衣物對比度更高,紋理特征更加清晰。為便于分辨與觀測,本文將圖6(d),圖6(e)和圖6(f)分別與源圖像進(jìn)行差值處理,通過歸一化后取圖中黃色框區(qū)域的差分圖像進(jìn)行對比,如圖7所示。
圖6 采用lytro數(shù)據(jù)集中多聚焦圖像“小孩”進(jìn)行融合對比實(shí)驗(yàn)。(a)~(f)所采用方法依次是:CVT_SR、DTCWT、GFF、LP、NSCT_SR以及本文方法。Fig.6 Multi-focus image “child” in inlytro data set were used for the fusion comparison experiment. The methods used in (a) ~ (f) are CVT_SR, DTCWT, GFF, LP, NSCT_SR and Ours.
圖7 “小孩”的細(xì)節(jié)放大效果對比圖Fig.7 “Child” local details effect comprison diagram
圖8 采用lytro數(shù)據(jù)集中多聚焦圖像“雕塑”進(jìn)行融合對比實(shí)驗(yàn)。(a)~(f)所采用方法依次是:CVT_SR、DTCWT、GFF、LP、NSCT_SR以及本文方法。Fig.8 Multi-focus image “sculpture” in inlytro data set were used for the fusion comparison experiment. The methods used in (a) ~ (f) are CVT_SR, DTCWT, GFF, LP, NSCT_SR and Ours.
可以看到,圖7(c)的紋理更加清晰,邊緣部分沒有模糊現(xiàn)象。圖8也是采用lytro數(shù)據(jù)集中的一組多聚焦圖像進(jìn)行對比實(shí)驗(yàn),圖9是圖8(d),圖8(e)和圖8(f)中黃色框內(nèi)的局部放大效果。經(jīng)對比可以看到,圖9(c)中雕像頭部與手臂的輪廓邊緣清晰完整,細(xì)節(jié)特征更加豐富。
圖9 “雕塑”的細(xì)節(jié)放大效果對比圖Fig.9 “Sculpture” local details effect comprison diagram
圖10是TNO數(shù)據(jù)集中一組紅外可見圖像的各算法實(shí)驗(yàn)結(jié)果。
圖10 各算法全局效果對比圖Fig.10 Comparison of the global effect of each algorithm
類似地,本文在圖11中展示了融合圖像的局部放大圖??梢钥吹?,相較與其他算法效果圖,圖11(c)人物目標(biāo)顯著,坡地草坪、樹枝紋理以及木樁輪廓可分辨度更高,具有更好的視覺效果。
圖11 融合圖像的細(xì)節(jié)放大效果對比圖Fig.11 Comparision of details enlarged of the fusion images
由于人的視覺感知存在差異,對評(píng)價(jià)結(jié)果存在一定的影響,因此需要通過構(gòu)建與人眼視覺效果相近的客觀評(píng)價(jià)指標(biāo)模型對融合圖像進(jìn)行更進(jìn)一步的客觀評(píng)價(jià)。
本文采用6種重要的評(píng)價(jià)指標(biāo)對算法進(jìn)行測試。這6種評(píng)價(jià)指標(biāo)分別是:平均梯度(AG)、QAB/F度量(QAB/F)、空間頻率(SF)、信息熵(EN)、結(jié)構(gòu)相似性(SSIM)以及視覺信息保真度(VIFF)。其中AG也稱作圖像銳度值,能夠衡量圖像細(xì)節(jié)紋理特征清晰度,其值越高代表圖像細(xì)節(jié)紋理越清晰。QAB/F利用局部度量來估計(jì)輸入圖像的顯著信息在融合圖像中的表現(xiàn)程度,能夠反映融合圖像從輸入圖像中獲得的視覺信息的質(zhì)量。SF能夠度量圖像空間域的總體活躍度,可反映圖像對微小細(xì)節(jié)反差表達(dá)的能力。EN是用于測量融合圖像中所包含信息量的重要指標(biāo)。SSIM通過計(jì)算融合圖像與參考圖像之間的結(jié)構(gòu)相關(guān)信息來判斷結(jié)構(gòu)的相似度。VIFF通過模擬人類視覺系統(tǒng)原理從通信和信息共享的角度評(píng)判圖像質(zhì)量,具有圖像視覺效果的判定能力,其值越大,圖像的保真度越高。
表2、表3分別是多聚焦圖像集和紅外圖像集在各種算法下所得客觀指標(biāo)的均值表。表2采用 lytro數(shù)據(jù)集中的17對多聚焦圖像作為源圖像數(shù)據(jù)進(jìn)行測試,而表3采用TNO數(shù)據(jù)集和紅外圖像數(shù)據(jù)集中的29對紅外可見光圖像作為源圖像數(shù)據(jù)進(jìn)行測試。由表2和表3可見,本文算法在MG、SF、IE和VIFF上具有明顯優(yōu)勢,代表著本文算法在細(xì)節(jié)紋理分辨度和視覺效果保真度方面效果更佳。但在SSIM上略低于其他算法,究其原因在于進(jìn)行多尺度非線性增強(qiáng)使圖像的照明度、對比度以及圖像結(jié)構(gòu)部分得到一定增強(qiáng)。用源圖像作為參考圖像時(shí),由于結(jié)構(gòu)發(fā)生一定變化,使得此項(xiàng)指標(biāo)低于其他算法結(jié)果。綜合主觀評(píng)價(jià)與客觀評(píng)價(jià),本文算法在細(xì)節(jié)紋理、輪廓清晰以及視覺保真效果上具有明顯優(yōu)勢。
表2 多聚焦融合圖像客觀指標(biāo)比較Tab.2 Objective index comparison of multi-focus fusion images
表3 紅外可見光融合圖像客觀指標(biāo)比較Tab.3 Comparison of objective indexes of infrared visible light fusion images
本文提出一種基于多尺度細(xì)節(jié)的卷積神經(jīng)網(wǎng)絡(luò)圖像融合算法。通過孿生網(wǎng)絡(luò)提取圖像特征構(gòu)建權(quán)值圖,并通過改進(jìn)的滾動(dòng)引導(dǎo)濾波對源圖像進(jìn)行自適應(yīng)多尺度分解,并進(jìn)一步使用映射函數(shù)增強(qiáng)了圖像細(xì)節(jié),最后基于局部能量原理與權(quán)值圖,設(shè)計(jì)自適應(yīng)調(diào)整融合模式,將多尺度特征圖進(jìn)行融合。該方法能夠更好地突出細(xì)節(jié)紋理特征,提高視覺感知特性。實(shí)驗(yàn)結(jié)果表明,所提方法融合結(jié)果具有更加豐富的細(xì)節(jié)特征,避免了圖像出現(xiàn)圓暈效應(yīng),更符合人類的視覺感知系統(tǒng)。