馮 鑫, 方 超, 龔海峰, 婁熙承, 彭 燁
1. 重慶工商大學機械工程學院制造裝備機構(gòu)設(shè)計與控制重慶市重點實驗室, 重慶 400067 2. 重慶工商大學廢油資源化技術(shù)與裝備教育部工程研究中心, 重慶 400067
紅外與可見光圖像融合是一項重要且應(yīng)用很廣泛的圖像增強技術(shù)。 圖像融合的關(guān)鍵問題是如何從源圖像中提取突出的特征, 以及如何結(jié)合這些特征來生成融合后的圖像。 可見光圖像的空間分辨率較高并且細節(jié)明暗對比鮮明, 但比較容易受到周圍環(huán)境和氣候等因素的影響; 紅外圖像通過熱輻射來描繪物體, 能夠抵抗環(huán)境和氣候等因素干擾, 但紅外圖像分辨率較低和紋理信息比較差。 紅外與可見光圖像共享互補特性, 從而可以產(chǎn)生穩(wěn)健且信息豐富的融合圖像[1-2]。 近年來, 人們提出了許多圖像融合方法, 將源圖像中的特征結(jié)合到單一圖像中[3]。 這些方法被廣泛應(yīng)用于視頻監(jiān)督, 目標識別和圖像增強[4-5]。 最典型的圖像融合方法是基于多尺度變換和基于表示學習的方法。
在多尺度變換領(lǐng)域, 比較常見的有雙樹復(fù)小波變換(dual-tree complex wavelet transform, DTCWT)[6]、 曲波變換(curvelet transform, CVT)[7]、 Tetrolet變換[8]、 脈沖耦合神經(jīng)網(wǎng)絡(luò)(pulse coupled neural network, PCNN)[9]和四階偏微分方程(fourth order partial differential equations, FPDE)[10]等。 這些方法將源圖像投影到頻率域, 增加了計算的復(fù)雜性; 并且通過預(yù)先定義好的基函數(shù)來處理圖像, 源圖像中的細節(jié)紋理信息不能夠得到很好的提取。 因此, 研究者在變換域方法的基礎(chǔ)上, 提出基于表示學習的圖像融合方法。
在表示學習領(lǐng)域, 最常見的紅外與可見光圖像融合方法是基于字典學習和稀疏表示。 比如基于壓縮感知(compressive sensing, CS)[11]、 潛在低秩分解(latent low-rank representation, LatLRR)[12]、 稀疏表示(sparse representation, SR)[13]等方法。 其中, LatLRR方法可以將源圖像進行分解, 得到噪音分量、 低秩分量和顯著分量三部分。 在融合的時候可以分離出噪音分量, 達到減噪效果。 SR方法通過滑動窗口將源圖像進行分塊, 從而減少偽影和提高誤配準魯棒性。 盡管基于表示學習的方法在紅外與可見光圖像融合質(zhì)量方面已具有較好表現(xiàn), 但是該類方法相對比較復(fù)雜且字典學習過程需要耗費大量時間。 這些因素促進了圖像融合中深度學習方法的發(fā)展, 以機器學習取代了稀疏表示的字典學習。
基于深度學習的圖像融合方法利用源圖像中的深層特征來產(chǎn)生融合圖像。 比如預(yù)訓練網(wǎng)絡(luò)VGG-19[14]和Resnet50[15]來提取源圖像中的深層特征, 使得融合圖像中包含更多源圖像的細節(jié)信息和結(jié)構(gòu)信息。 隨著網(wǎng)絡(luò)層加深, 信息損失減少, 但參數(shù)選擇會愈加復(fù)雜。
基于以上分析, 提出一種基于二尺度分解和顯著性提取的紅外與可見光圖像融合方法。 首先, 為避免高頻分量和低頻分量混合減少光暈效應(yīng), 采用二尺度分解對源紅外與可見光圖像進行分解, 分別獲得源圖像相應(yīng)的基本層和細節(jié)層; 然后對基本層融合采用基于視覺顯著圖(visual saliency map, VSM)的加權(quán)平均融合規(guī)則, 該規(guī)則能很好提取圖像中顯著結(jié)構(gòu)和目標; 針對細節(jié)層融合采用Kirsch算子對源圖像分別提取得到顯著圖, Kirsch算子能在八個方向上快速提取圖像邊緣特征, 使顯著圖包含更多特征信息且減少噪聲; 然后通過VGG-19網(wǎng)絡(luò)對顯著圖進行特征提取, 獲取權(quán)值圖, 并與細節(jié)層融合; 最后將融合的基本層和細節(jié)層進行融合, 得到最終融合結(jié)果。
融合方法結(jié)構(gòu)圖如圖1所示。 在此以兩張待融合源圖像的情況為例, 多張源圖像的融合策略類似。 融合方法步驟如下:
圖1 本融合方法結(jié)構(gòu)圖Fig.1 Schematic diagram of the fusion method in this paper
(4)將融合后的基本層和細節(jié)層疊加重構(gòu), 獲得最終融合結(jié)果If。
(1)
源圖像減基本層圖像獲取最終細節(jié)層圖像
(2)
二尺度分解方法處理源圖像結(jié)果如圖2所示。
圖2 二尺度分解結(jié)果(a): 源紅外圖像; (b): 紅外圖像基本層; (c): 紅外圖像細節(jié)層; (d): 源可見光圖像; (e): 可見光圖像基本層; (f): 可見光圖像細節(jié)層Fig.2 Two scale decomposition results(a): Source infrared image; (b): Infrared image base layer; (c): Infrared image detail layer; (d): Source visible image; (e): Visible image base layer; (f): Visible image detail layer
可以看出, 基本層中主要包括紅外與可見光圖像的亮度和輪廓信息; 而細節(jié)層中主要包括紅外與可見光圖像的細節(jié)顯著特征信息以及邊緣信息。
基于二尺度分解的方法能有效分離高頻信息和低頻信息, 其中高頻信息對應(yīng)二尺度分解的細節(jié)層, 而低頻信息對應(yīng)二尺度分解的基本層。 基本層中包含的低頻信息控制著融合圖像的整體輪廓和對比度, 如果僅僅采用加權(quán)平均的方法, 將無法充分整合這些低頻信息, 甚至還會導(dǎo)致融合圖像對比度損失。
本工作提出基于VSM的加權(quán)平均融合規(guī)則來融合基本層圖像。 VSM能夠清楚感知到圖片中顯著的視覺結(jié)構(gòu)、 區(qū)域和突出目標。 將VSM方法引入基本層融合, 能夠有效避免對比度損失。
VSM將一個像素與其他像素進行對比來定義像素級顯著性。 像素點p的顯著值S(p)定義如式(3)[17]
S(p)=|Ip-I1|+|Ip-I2|+…+|Ip-IM|
(3)
式(3)中,Ip為在源圖像I中某個像素點p的像素值,M為源圖像I中總像素數(shù)。 如果在源圖像中兩個像素有相同的像素值, 那它們的顯著值也是相同的。 則式(3)可表示為
(4)
式(4)中,i為像素強度,Ni為強度值與i相同的像素值,L為灰度值, 設(shè)置為256。 然后, 將S(p)歸一化到[0, 1]。 VSM方法對源圖像的處理結(jié)果如圖3所示。
圖3 VSM方法處理的結(jié)果(a): 紅外圖像; (b): VSM處理(a); (c): 可見光圖像; (d): VSM處理(c)Fig.3 The result of VSM method processing(a): Infrared image; (b): VSM of image (a); (c): Visible image; (d): VSM of image (c)
經(jīng)VSM處理后的紅外與可見光圖像分別表示為S1和S2。 可以通過如式(5)加權(quán)平均策略獲得融合的基本層
(5)
式(5)中, 權(quán)值Wb定義為
(6)
3.2.1 Kirsch算子構(gòu)建顯著圖
采用Kirsch算子來生成顯著圖, 該方法能在八個方向上快速提取圖像的邊緣特征, 在保留細節(jié)邊緣和抵制噪聲方面表現(xiàn)更優(yōu)。
Kirsch算子獲取源圖像顯著圖可表示為
(7)
圖4 Kirsch算子處理結(jié)果(a): 紅外圖像; (b): 紅外顯著圖; (c): 可見光圖像; (d): 可見光顯著圖Fig.4 Kirsch operator processing results(a): Infrared image; (b): Saliency map of infrared iamge; (c): Visible image; (d): Saliency map of visible image
3.2.2 基于VGG-19網(wǎng)絡(luò)的細節(jié)層融合
VGG-19網(wǎng)絡(luò)共有19層, 包含16個卷積層和3個全連接層。 其結(jié)構(gòu)相對較簡單, 使用3×3的卷積層和2×2的池化層, 網(wǎng)絡(luò)表現(xiàn)隨著網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)增加而提升[14]。 在VGG網(wǎng)絡(luò)中, 使用多個3×3卷積核來代替較大卷積核(11×11, 7×7, 5×5), 這樣在具有相同感知野的條件下, 提升了網(wǎng)絡(luò)深度和網(wǎng)絡(luò)的效果。 VGG-19網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 VGG-19網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 VGG-19 network structure diagram
圖6 VGG-19網(wǎng)絡(luò)處理過程圖Fig.6 Diagram of the VGG-19 network processing procedure
多層融合策略的詳細步驟如下。
首先, 基于VGG-19網(wǎng)絡(luò)提取深層特征圖, 可表示為
(8)
然后, 將VGG-19網(wǎng)絡(luò)提取深層特征圖轉(zhuǎn)變成活動水平圖, 可表示為
(9)
(10)
(11)
(12)
3.2.3 最終融合結(jié)果重構(gòu)
將融合的基本層和細節(jié)層重構(gòu), 得到最終融合圖像為
(13)
方法的實驗平臺為: AMD(R) Ryzen(R)5 3500X 6核6線程CPU、 Geforce RTX 2070 SUPER 8G顯卡、 16G 3200MHz內(nèi)存, 仿真平臺軟件為Matlab2020a, 在win10專業(yè)版的64位操作系統(tǒng)上實驗。 實驗測試數(shù)據(jù)選擇四組典型的紅外與可見光圖像Kaptein_1123、 Lake、 Jeep_in_front_of_house和Man_in_doorway。 實驗對比方法為DTCWT方法[6]、 CVT方法[7]、 FPDE方法[10]、 LatLRR方法[12]、 VGG-19方法[14]和Resnet50方法[15]。 其中, DTCWT、 CVT和LatLRR是基于多尺度分解的方法; FPDE是基于子空間的方法; VGG-19和Resnet50是基于深度學習的方法, 主要通過深度學習網(wǎng)絡(luò)獲得相應(yīng)圖像權(quán)值圖, 然后將圖像與權(quán)值圖進行融合。 對比方法代表了目前紅外與可見光圖像融合的主流方法, 用它們與本方法對比能很好驗證其有效性。
為了對實驗結(jié)果進行定量評價, 采用信息熵(Entropy, EN)、 互信息(mutual information, MI)、 多尺度結(jié)構(gòu)相似度測量(multiscale structural similarity measure, MS-SSIM)、 差異相關(guān)和(sum of correlations of differences, SCD) 和標準差(standard deviation, SD)等典型融合指標對結(jié)果分析。 其中, EN是基于信息論來衡量融合圖像中包含源圖像的信息量, EN越大, 則表明包含源圖像的信息越多, 但它會受到噪聲的影響, 噪聲越多, 信息熵也會越大; MI表示融合圖像與源圖像之間的相關(guān)程度, 用于衡量從源圖像傳輸?shù)侥繕藞D像的信息量, MI越大, 目標圖像包含源圖像信息量越多, 其融合效果越好; MS-SSIM用來衡量結(jié)構(gòu)信息, 其值越大, 表明融合圖像結(jié)構(gòu)與源圖像更接近; SCD根據(jù)融合圖像與源圖像差異相關(guān)性之和來評價融合效果, 其值越大, 融合效果越好; SD是基于融合圖像的分布和對比度來衡量融合效果, 其值越大, 表明融合圖像視覺效果比較好。
圖7為已經(jīng)預(yù)配準的四組典型的紅外與可見光圖像融合結(jié)果對比圖。 圖7第一列為Kaptein_1123紅外與可見光圖像融合結(jié)果。 第一行和第二行表示待融合源圖像, 第三行到第九行分別為DTCWT方法、 CVT方法、 FPDE方法、 LatLRR方法、 VGG-19方法、 Resnet50方法以及本方法融合結(jié)果。 可以看出, DTCWT方法和CVT方法融合結(jié)果紅框內(nèi)的目標對比度較差, 綠框內(nèi)的樹出現(xiàn)了偽影現(xiàn)象。 FPDE方法引入較多噪聲。 LatLRR方法融合結(jié)果綠框中樹的細節(jié)顯示非常模糊。 VGG-19方法、 Resnet50方法以及本方法的融合結(jié)果, 目標信息保留較為完整, 引入噪聲和偽影較少, 但本方法在對比度、 突出目標方面優(yōu)于其他兩種方法。 所以, 本方法在突出目標信息、 邊緣保持和對比度方面具有很好的優(yōu)勢。
圖7 四組典型的紅外與可見光圖像融合結(jié)果Fig.7 Four sets of typical infrared and visible image fusion results
圖7第二列為Lake紅外與可見光圖像融合結(jié)果。 可以看出, FPDE方法在紅色框內(nèi)的目標受可見光圖像的影響, 沒有很好的突出目標信息。 DTCWT方法CVT方法融合結(jié)果在綠框內(nèi)草中引入了噪聲。 LatLRR融合結(jié)果在綠框內(nèi)的植物難以辨認, 只保留了輪廓特征。 VGG-19方法、 Resnet50方法以及本方法的融合結(jié)果相對較好, 但本方法更好的保持了源圖像目標信息, 地面上的草地清晰度較高, 更好的保留目標的邊緣信息, 視覺效果好。
圖7第三列和第四列分別表示Jeep_in_front_of_house和Man_in_doorway紅外與可見光圖像融合結(jié)果。 可以看出, 上述融合方法均取得較好融合結(jié)果, 但相比較而言, 本方法融合結(jié)果具有很高的辨識度, 保留較多源圖像中的細節(jié)信息, 目標比較突出邊緣特征信息完整和對比度較高。
表1為最典型一組實驗(第三列圖像)的五個客觀評價指標值。 表2為四組實驗圖像的五個客觀評價指標平均值。 從表中可以看出, 與其他六種方法相比, 本方法在評價指標EN, MI, MS-SSIM, SCD和SD上都有不同程度的領(lǐng)先。 從方法運行時間上看, 本方法耗時雖然相對較高, 但是低于基于LatLRR的復(fù)雜多尺度方法, 略高于基于深度學習的VGG-19與Resnet50方法。
表1 典型圖像的客觀評價結(jié)果(第三列圖像)Table 1 Objective evaluation results of typical images (Third column images)
表2 圖像評價結(jié)果的指標平均值Table 2 Average value of indicators for image evaluation results
提出一種基于二尺度分解和顯著性提取的紅外與可見光圖像融合方法。 用二尺度分解方法將源圖像分解為基本層和細節(jié)層, 針對基本層融合采用基于VSM的加權(quán)平均融合規(guī)則, 該規(guī)則有效克服直接使用加權(quán)平均策略的對比度損失問題; 針對細節(jié)層融合采用Kirsch算子獲取顯著圖, 很好保留了源圖像細節(jié)邊緣信息和抵制噪聲, 引入VGG-19網(wǎng)絡(luò)獲取權(quán)值圖, 使融合圖像中包含更多顯著細節(jié)信息。 與目前主流的紅外與可見光融合方法對比, 本融合方法結(jié)果具有高對比度、 目標突出、 細節(jié)信息豐富和圖像邊緣特征保持較好等優(yōu)勢。