李 威,田時舜,劉廣麗,鄒文斌
M-SWF域紅外與可見光圖像結構相似性融合
李 威,田時舜,劉廣麗,鄒文斌
(深圳大學 電子與信息工程學院,廣東 深圳 518060)
為了解決常規(guī)濾波器組在紅外與可見光圖像融合領域中存在提取結構信息不充分和融合視覺效果不佳的問題,本文提出了一種基于多尺度滑動窗口濾波器(Multi-scale Sliding Window Filter,M-SWF)圖像融合方法。首先,提出一種基于SWF的多尺度圖像分解方法實現(xiàn)對源圖像的結構細節(jié)層和基礎層提?。黄浯?,采用L1范數(shù)融合規(guī)則(L1-Fusion, L1F)整合結構細節(jié)層,提取圖像的結構信息;然后,利用一種圖像能量貢獻融合規(guī)則(Energy Attribute-Fusion, EAF)整合基礎層,突出顯著性目標;最后,融合圖像通過疊加整合后的多尺度結構細節(jié)層和基礎層得到。實驗首先通過分析能量貢獻系數(shù),從主客觀方面得到M-SWF域內(nèi)紅外與可見光圖像融合較為適宜的能量貢獻系數(shù);其次,在該取值下,本文提出的M-SWF融合模型與其他的融合方法相比,不僅提高了對源圖像結構信息的提取能力,而且通過整合圖像的能量屬性,改善了融合效果不佳問題,有效地突出了顯著性目標。
紅外圖像;可見光圖像;圖像融合;滑動窗口濾波器;結構相似性
紅外成像傳感器根據(jù)熱輻射機理實現(xiàn)對目標物體的捕獲,然而缺乏對場景的細節(jié)呈現(xiàn);相反,可見光成像傳感器通過光學反射機制能夠細膩地顯示同一場景下的目標紋理和細節(jié)信息。多源圖像融合領域內(nèi)的紅外與可見光圖像融合能夠生成單幅具有魯棒性的圖像,提供給后臺決策者更全面的場景信息,方便決策者做出最佳的決定,因此被應用于目標跟蹤、遙感遙測和物聯(lián)網(wǎng)系統(tǒng)等領域[1-9]。
近年來,為了滿足不同圖像平滑和銳化的需求,具有邊緣保持特性的濾波器組被應用于圖像融合領域,如:高斯濾波器和導向濾波器。2013年,Li等人基于導向濾波器提出了一種快速有效的圖像融合模型(Guided Filtering Fusion,GFF[10]),該方法利用導向濾波的加權技術保障了源圖像與融合結果之間的空間一致性,但細節(jié)信息存在局部丟失;為了保留更多的邊緣信息,2015年,Kumar等人提出了一種基于交叉雙邊濾波器的融合方法(Cross Bilateral Filtering,CBF[11]),CBF考慮了相鄰像素之間的相似性,有效地提高了細節(jié)信息的提??;雖然基于CBF的融合方法對圖像邊緣紋理提取有較好的表現(xiàn),但是融合過程將圖像噪音和圖像信息混淆,導致融合結果不佳;而為了避免噪音的生成,Kun等人在2017年基于結構濾波器提出了一種快速濾波圖像融合方法(Fast Filtering Image Fusion,F(xiàn)FIF[12]),F(xiàn)FIF通過圖像的均值和方差有效地避免了噪音的生成,但無法突出目標信息。
隨著機器學習研究的深入,神經(jīng)網(wǎng)絡逐漸成為圖像融合方向較為熱門的研究工具。2019年,Wu等人提出了一種殘差網(wǎng)絡(Residual Network, Resnet[13])新穎融合框架。該方法首先將Resnet用于從源圖像中提取深度特征;其次利用ZCA和l1-norm對深度特征進行歸一化并獲得初始權重圖;最后通過加權平均融合策略重構融合圖像;該方法能夠較好地提高圖像視覺效果,但是由于算法過于復雜,融合結果存在一定的人為影響。為了實現(xiàn)深度次的特征提取,Tan等人在2021年基于加權平均曲率濾波器和脈沖耦合神經(jīng)網(wǎng)絡(Pulse Coupled Neural Network,PCNN)提出了一種多模態(tài)融合方法(Multi-Level Edge Preserving Filtering,MLEPF)[14],該方法雖然通過加權平均曲率濾波器實現(xiàn)了源圖像多級特征信息提取,但受限于源圖像曝光度,容易使得融合結果存在斑塊。
基于上述的分析可知,當前紅外與可見光圖像融合的研究目的主要有兩方面:①加大提取源圖像的特征信息量,使得融合圖像與源圖像之間具有較為完整的相似契合度;②在實現(xiàn)源圖像結構相似度融合的同時,一方面減少或抑制噪斑及人造偽影的產(chǎn)生,另一方面顯著性地突出目標物體,以便能夠滿足人體的視覺感知系統(tǒng)。為了達成上述目的,本文基于多尺度滑動窗口濾波器(Multi-scale Sliding Window Filter,M-SWF)提出了一種紅外與可見光圖像結構相似性融合方法,該方法利用滑動窗口濾波器(Sliding Window Filter,SWF[15])對源圖像實現(xiàn)多尺度水平分解,得到源圖像的多層級結構細節(jié)層和基礎層;該方法簡練,避免了因算法復雜性帶來的人為干擾,同時為了保留結構細節(jié)信息,L1范數(shù)融合規(guī)則(L1-Fusion,L1F)被應用于整合結構信息;另外,一種基于圖像能量貢獻融合規(guī)則(Energy Attribute-Fusion,EAF)被用于突出目標,以提高視覺效果。
圖1為本文在M-SWF域內(nèi)提出的紅外與可見光圖像融合框架。M-SWF融合模型主要分為四步:
1)M-SWF域內(nèi)源圖像分解
利用M-SWF實現(xiàn)源圖像的多尺度分解,得到對應的多尺度結構細節(jié)層和基礎層。
2)多尺度結構細節(jié)層融合
利用L1-fusion融合規(guī)則實現(xiàn)多尺度結構信息融合,以保留較完整的細節(jié)信息。
3)基礎層融合
利用EAF融合規(guī)則實現(xiàn)基礎層融合,以顯著地突出目標。
4)源圖像重構
采用疊加求和的融合方法實現(xiàn)源圖像的重構,得到融合圖像。
SWF是一種強邊緣結構保持濾波器,SWF利用不同尺寸窗口()在單個像素中心實現(xiàn)8鄰域圖像結構信息的保留。圖2為可見光圖像“Road”在不同尺寸窗口下的處理結果,從圖2可以看出,值越小對圖像的邊緣信息保留越多,圖像更加清晰立體。基于SWF對圖像邊緣結構信息的敏感性,一種用于圖像多尺度水平分解方法M-SWF被提出并且用于對源圖像多尺度成分的提取。圖3為可見光圖像“Road”的分解實例,其中VI為“Road”圖像,SWF為SWF圖像處理過程,VI1,VI2和VI分別是經(jīng)過SWF處理后的圖像;VID1,VID2和VID分別是分解后利用對數(shù)放大后的多尺度結構細節(jié);VIB為基礎層。通過M-SWF多尺度分解得到源圖像的多尺度結構細節(jié)層和基礎層,詳細的M-SWF多尺度水平分解過程用公式表示如下:
VID1=VI-VI1(1)
VID=(VID-1)-VID(2)
VIB=SWF(VID-1) (3)
圖1 M-SWF圖像融合框架
從圖3 M-SWF的分解框架可以看出隨著分解層數(shù)的變大,VI圖像變得更加清晰和立體,圖像當中的保留的能量信息和邊緣信息越來越明顯。在自然圖像處理過程,如果圖像當中某點的像素較大,反映在圖像上是人體視覺感知最為明顯的一個區(qū)域或者一個位置,這也是圖像當中較為重要的一個信息點。而L1范數(shù)融合規(guī)則[16]主要是把圖像中每個像素的絕對值作為圖像活動水平測量值來評估該點的重要性。因此為了最大程度地保留細節(jié)信息,通過L1范數(shù)對圖像處理取最大值,以保證融合結果存在較為明顯和重要的圖像信息點;融合后的多尺度結構細節(jié)層FD1:n通過公式(4)得到:
圖3 M-SWF圖像分解
在M-SWF圖像分解過程中,基礎層圖像是不斷地經(jīng)過SWF進行保邊處理,層層篩選出多尺度結構細節(jié)信息的同時得到一個包含源圖像最粗糙的近似圖像,其中以能量強度信息較為明顯。為了實現(xiàn)融合結果不模糊,并且融合目標突出以達到契合人體視覺系統(tǒng)的效果,一種基于圖像能量貢獻的融合規(guī)則被引入整合基礎層圖像,從而得到融合后的基礎層圖像FB。EAF的融合過程如下:
1)分別利用均值濾波器和中值濾波器得到基礎層圖像的均值和中值圖像屬性,進而構造基礎層圖像的能量屬性值;
A=1I+2I(5)
式中:(∈IRB,VIB)為待處理的源圖像基礎層;1和2分別為均值濾波處理和中值濾波處理;A表示為基礎層的能量屬性值。
2)利用能量屬性值構建能量貢獻函數(shù),從而提取基礎層的能量強度信息;
I=exp(|-A|) (6)
式中:exp為指數(shù)函數(shù);為能量屬性參數(shù)量。
3)重構融合后的基礎層;
式中:IRB和VIB分別為IRB和VIB的能量強度信息。
融合圖像通過公式(8)疊加求和得到:
實驗的數(shù)據(jù)圖像集全都來自于文獻[17]中的TNO[18]數(shù)據(jù)集(包含21組數(shù)據(jù)組),本節(jié)選取了3對圖像組進行主客觀分析。實驗仿真軟件為MATLAB R2018b,電腦是搭載3.6GHz AMD Ryzen 5 2600X六核處理器的Win10系統(tǒng)。5種圖像融合算法被用于對比評價M-SWF,分別為GFF、CBF、FFIF、Resnet和MLEPF;其中GFF、CBF、FFIF和MLEPF都是以常規(guī)濾波器進行融合,另外GFF、CBF和MLEPF也為多尺度圖像融合,F(xiàn)FIF為以結構信息為重心的融合方法,而Resnet和MLEPF都是最近與神經(jīng)網(wǎng)絡相結合的融合算法。為了綜合評價M-SWF,首先對M-SWF融合過程中能量屬性變量進行分析,得到M-SWF融合模型下的較佳值;其次,在該取值下,對融合結果進行主客觀兩個方面進行分析,其中客觀定量分析方面,選取了6種融合評價指標進行定量分析,分別為基于梯度信息指標(Gradient-based Fusion Performance,abf[19])、基于像素的互信息量(Mutual information based on Pixel, MIP[13])、差異相關性的總和(Sum of the Correlations of Differences, SCD[20])、基于結構相似性的度量(Structural Similarity, SSIM[1])、多層次結構相似性度量(Multilevel structural similarity, MSSIM[1])和視覺保真度(Visual Information Fildelity for Fusion, VIFF[1]),以上評價指標數(shù)值越大融合效果越好;此外,通過計算融合方法的運行時間(RT)來分析算法的時效性,越小越好。
能量屬性變量用于整合源圖像的基礎層信息,以實現(xiàn)突出目標的目的。實驗仿真過程通過調(diào)節(jié)變量,得到融合結果圖4;其中紅色方框標記的是人,藍色標記的是路面。由圖4能夠較為清楚地發(fā)現(xiàn),隨著值增大行人越加突出,能量強度越大;但是,路面的紋理越來越不清楚,丟失了VI圖像當中的紋理成分。因此為了獲得M-SWF最佳的融合效果,對圖4當中的融合結果進行了定量分析,得到的客觀數(shù)據(jù)如表1所示,其中粗體字標記的為最佳數(shù)據(jù)。從表1能夠觀察到圖4(d)(=2)的數(shù)據(jù)值在abf、SSIM較好,但是隨著值增大,abf和SSIM評價指標減小,這主要源于引入的紅外光譜信息過多,掩蓋了可見光細節(jié)層信息,導致融合圖像紋理細節(jié)不清晰;而另一方面SCD和VIFF定量值卻不斷增大,這表明融合結果保留了大量的紅外顯著性能量信息,能夠突出主要目標;其次RT運行時間保持在0.510s左右不會對整體算法的時效性形成太大的影響;而由于融合指標MIP和MSSIM的最優(yōu)值分別位于=6和=8,因此為了使得M-SWF的融合結果一方面能夠減少或抑制噪斑及人造偽影的產(chǎn)生,另一方面能夠突出顯著性目標,從整體綜合的角度考慮,將能量屬性參數(shù)值取為各個評價參數(shù)較為適中的數(shù)值,不會使得某個參數(shù)過低或過高影響融合效果,因此令=4進行后續(xù)的主客觀分析。
圖4 不同參數(shù)P的M-SWF融合結果
表1 不同P值下的融合定量數(shù)據(jù)
實驗首先選取了3對圖像數(shù)據(jù)組進行主觀分析,分別為“Camp_1811”、“Trees_4917”和“Kaptein_1123”,融合結果如圖5~圖7所示。
圖5源圖像數(shù)據(jù)組呈現(xiàn)的是一個從高往低處看的屋頂視角,選取分析的是紅色方框標記的人;與GFF、Resnet和MLEPF的融合結果相對比,M-SWF得到的融合結果當中“人”更加地突出,能量強度更為明顯;CBF得到的融合結果中被標記的人存在一個黑色小斑點,另外FFIF的融合結果中人物目標附近存在光暈;而M-SWF表現(xiàn)良好。圖6源圖像數(shù)據(jù)組描述一幅樹下行人的場景,選取分析的是樹下的人;整體上看,GFF、CBF和MLEPF得到的融合結果存在噪音或者人造偽影現(xiàn)象,另外與FFIF和Resnet相比,M-SWF在融合“人”有不錯的表現(xiàn)。圖7源圖像數(shù)據(jù)組是一幅行人路過涼亭的畫面,選取分析的是行人的后背;從被標記的區(qū)域觀察到,M-SWF具有良好的融合效果,并且無人造偽影等不佳現(xiàn)象。
客觀分析指的是從實際出發(fā),對結果進行客觀公正的定量評價。表2為圖5~圖7中各個融合結果的客觀定量數(shù)據(jù),其中粗體字標記的為最佳數(shù)據(jù)。從“Camp_1811”客觀數(shù)據(jù)可以發(fā)現(xiàn):M-SWF在abf、SCD、MSSIM和VIFF指標上表現(xiàn)最佳,這表明M-SWF能較好地規(guī)避人造偽影現(xiàn)象,并且融合效果較好;其次從“Trees_4917”定量數(shù)據(jù)觀察到:M-SWF在abf、SCD、SSIM和MSSIM上排名第一,這說明M-SWF能夠很好地整合源圖像的結構信息,并且融合結果不含或存在較少的人為影響;而從“Kaptein_1123”的數(shù)據(jù)可以看出:除了SSIM和運行時間表現(xiàn)略差,其他的數(shù)據(jù)都是最佳,這表征M-SWF對Kaptein_1123融合有很好的融合效果;而在運行時間上,M-SWF的略高于GFF和FFIF,低于CBF常規(guī)濾波器組融合方法和Resnet、MLEPF神經(jīng)網(wǎng)絡的融合方法;針對個別評價指標略差的情況,這主要受到能量屬性參數(shù)影響,從表1可以看出,值在MIP、SSIM和MSSIM指標上,具有小范圍的峰值,因此合適值的選取,會對M-SWF有小尺度的影響。表3為TNO數(shù)據(jù)集21組數(shù)據(jù)圖像的平均客觀定量數(shù)據(jù),從表3能夠看出M-SWF在MIP、SCD、SSIM、MSSIM和VIFF評價指標上略優(yōu)于其他對比的融合方法,而在運行時間上僅高于GFF,這表明提出的融合方法M-SWF能夠較快地提取源圖像的結構細節(jié)信息,在保證融合效果的同時,能夠顯著性地突出目標;在abf評價指標略低于CBF,這主要來源基礎層EAF融合引入了過多的顯著性能量,使得紅外光譜信息過多而掩蓋了可見光細節(jié)信息;而在運行時間上略低于GFF,這主要在于GFF僅通過簡便的濾波圖像處理和加權疊加融合,減少了融合過程中的計算參數(shù)量。整體而言,M-SWF在實現(xiàn)多源圖像融合方面具有一定的優(yōu)勢,能夠?qū)崿F(xiàn)多源圖像之間時效的結構相似性融合。
圖5 不同方法在“Camp_1811”圖像下的融合結果
圖7 不同方法在“Kaptein_1123”圖像下的融合結果
表2 客觀評價數(shù)據(jù)
表3 TNO數(shù)據(jù)集上的平均客觀評價數(shù)據(jù)
針對圖像融合過程中提取結構信息不充分和融合效果不佳的問題,本文基于SWF提出了一種多尺度水平圖像融合方法M-SWF。利用SWF對圖像邊緣結構信息的敏感性,對源圖像進行了多尺度水平特征信息提取,得到多尺度結構細節(jié)層和基礎層;采用L1F融合規(guī)則實現(xiàn)了多尺度結構信息層的融合;采用EAF圖像能量貢獻融合規(guī)則實現(xiàn)了基礎層融合;最后疊加求和重構源圖像。實驗首先分析了M-SWF下較為合適的能量屬性參數(shù)取值;其次對融合圖像進行主客觀分析,結果表明M-SWF與常規(guī)的濾波器組融合相比具有一定的優(yōu)勢,能夠保留結構細節(jié)信息的同時不產(chǎn)生人造偽影現(xiàn)象,并且融合結果能夠突出目標,符合人體的視覺系統(tǒng)。
[1] MA Jiayi, MA Yong, LI Chang. Infrared and visible image fusion methods and applications: a survey [J]., 2019, 45: 153-178. DOI: 0.1016/j.inffus.2018.02.004。
[2] ZHAO Z, XU S, ZHANG C, et al. Bayesian fusion for infrared and visible images[J]., 2020, 177: 165-168. DOI: 10.1016/ j.sigpro.2020.107734
[3] HUAN Kewei, LI Xiangyang, CAO Yutong, et al. Infrared and visible image fusion of convolutional neural network and NSST[J]., 2022, 51(3): 20210139. DOI: 10.3788/IRLA20210139.
[4] CHENG Boyang, LI Ting, WANG Yulin. Fusion of infrared and visible light images based on visual saliency weighting and maximum gradient singular value[J]., 2022, 15(4): 675-688. DOI: 10.37188/CO.2022-0124
[5] 李威, 李忠民. 一種基于EASSF的紅外與可見光圖像視覺保真度融合[J]. 紅外技術, 2022, 44(7): 686-692. LI Wei, LI Zhongmin. Visual fidelity fusion of infrared and visible image using edge-aware smoothing-sharpening filter[J]., 2022, 44(7): 686-692.
[6] 李永萍, 楊艷春, 黨建武, 等. 基于變換域VGGNet19的紅外與可見光圖像融合[J]. 紅外技術, 2022, 44(12): 1293-1300. LI Yongping, YANG Yanchun, DANG Jianwu, et al. Infrared and visible image fusion based on transform domain VGGNet19[J]., 2022, 44(12): 1293-1300.
[7] 雷大江, 杜加浩, 張莉萍, 等. 聯(lián)合多流融合和多尺度學習的卷積神經(jīng)網(wǎng)絡遙感圖像融合方法[J]. 電子與信息學報, 2022, 44(1): 237-244. Doi: 10.11999/JEIT200792. LEI Dajiang, DU Jiahao, ZHANG Liping, et al. Multi-stream architecture and multi-scale convolutional neural network for remote sensing image fusion [J]., 2022, 44(1): 237-244. Doi: 10.11999/JEIT200792.
[8] 馬梁, 茍于濤, 雷濤, 等. 基于多尺度特征融合的遙感圖像小目標檢測[J]. 光電工程, 2022, 49(4): 49-65. MA Liang, GOU Yutao, LEI Tao, et al. Small object detection based on multi-scale feature fusion using remote sensing images[J], 2022, 49(4): 49-65.
[9] 錢金卓, 馬駿, 李峰, 等. 面向CMOS遙感相機的多曝光圖像融合方法[J]. 遙感信息, 2022, 37(4): 51-57. QIAN Jinzhuo, MA Jun, LI Feng, et al. Multi-exposure image fusion method for CMOS remote sensing camera [J]., 2022, 37(4): 51-57.
[10] LI Shutao, KANG Xudong, HU Jianwen. Image fusion with guided filtering[J]., 2013, 22(7): 2864-2875. Doi: 10.1109/TIP.2013.2244222.
[11] Shreyamsha Kumar B K. Image fusion based on pixel significance using cross bilateral filter[J]., 2015, 9(5): 1193-1204. Doi:10.1007/s11760-013-0556-9.
[12] ZHAN K, XIE Yuange, MIN Yufang. Fast filtering image fusion[J]., 2017, 26(6): 063004. Doi: 10.1117/1.JEI.26.6.063004.
[13] LI Hui, WU Xiaojun, Tariq S Durrani. Infrared and visible image fusion with ResNet and zero-phase component analysis[J]., 2019, 102: 1030390. Doi: 10.1016/j.infrared.2019.-103039.
[14] TAN Wei, Thitn W, XIANG P, et al. Multi-modal brain image fusion based on multi-level edge-preserving filtering[J]., 2021, 64: 102280. Doi: 10.1016/j. bspc.2020.102280.
[15] YIN Hui, GONG Yuanhao, QIU Guoping. Side window guided filtering[J]., 2019, 165: 315-330. Doi: 10.1016/j.sigpro. 2019.07.026.
[16] LI Xiaosong, ZHOU Fuqiang, TAN Haishu, et al. Multimodal medical image fusion based on joint bilateral filter and local gradient energy[J]., 2021, 569: 302-325.
[17] LI Hui, WU Xiaojun. DenseFuse: a fusion approach to infrared and visible images [J].2019, 28(5): 2614-2623. Doi: 10.1109/TIP.2018.2887342.
[18] Toet A. TNO Image Fusion Dataset[EB/OL]. [2022-10-30]. http://figshare.com/articles/-TNO_Image_ Fusion_Dataset/1008029.
[19] Xydeas C S, Petrovic V. Objective image fusion performance measure [J]., 2000, 36(4): 308-309. Doi: 10.1109/ICCV.2005.175.
[20] Aslantas V, Bendes E. A new image quality metric for image fusion: the sum of the correlations of differences[J]., 2015, 69(12): 1890-1896. Doi: 10.1016/j.aeue.2015.09.004.
Structural Similarity Fusion of Infrared and Visible Image in the M-SWF Domain
LI Wei,TIAN Shishun,LIU Guangli,ZOU Wenbin
(College of Electronics and Information Engineering, Shenzhen University, Shenzhen 518060, China)
This study introduces a multiscale sliding window filter (M-SWF) image fusion method to address issues with traditional filter banks in infrared and visible image fusion. First, a multiscale image decomposition method based on SWF is proposed to extract the structural detail layers and base layers of the source image. Second, the L1 norm fusion rule (L1-Fusion, L1F) is used to integrate the structural detail layers, which can extract the structure of the image. Then, to highlight the salient objects, energy attribute fusion (EAF), which is a rule for fusing image energy contributions, is used to integrate the base layers, and the fusion results are obtained by stacking the integrated multiscale structure detail layers and base layers. The energy contribution coefficient was analyzed, and a suitable energy contribution coefficient was obtained for the fusion of infrared and visible images in the M-SWF domain from subjective and objective perspectives. Compared with other fusion methods, the M-SWF not only improves the ability to extract the structural information of the source image but also improves the poor fusion effect and effectively highlights salient targets by integrating the energy attributes of the image.
infrared image, visible image, image fusion, side window filter, structural similarity
A
1001-8891(2024)03-0280-08
2022-11-14;
2023-03-08.
李威(1997-),男,博士研究生,主要從事圖像處理的研究,E-mail:lv2881314@163.com。
鄒文斌(1981-),男,博士,副教授,主要從事圖像處理的研究,E-mail:wzou@szu.edu.cn。
國家自然科學基金項目(62171294,62101344),廣東省自然科學基金(2022A1515010159),深圳自然科學基金(JCYJ20200109105832261, JCYJ20190808122409660),深圳市科技計劃重點項目(20220810180617001)。