基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合

2024-04-11 12:31:38馬路遙羅曉清張戰(zhàn)成

紅外技術(shù) 2024年3期

馬路遙，羅曉清，張戰(zhàn)成

馬路遙1,2,3，羅曉清1,2,3，張戰(zhàn)成4

（1. 江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院，江蘇無(wú)錫 214122；2. 江南大學(xué) 先進(jìn)技術(shù)研究院，江蘇無(wú)錫 214122；3. 江蘇省模式識(shí)別與計(jì)算智能工程實(shí)驗(yàn)室，江蘇無(wú)錫 214122；4. 蘇州科技大學(xué) 電子與信息工程學(xué)院，江蘇蘇州 215000）

紅外與可見(jiàn)光圖像融合方法中存在信息提取和特征解耦不充分、可解釋性較低等問(wèn)題，為了充分提取并融合源圖像有效信息，本文提出了一種基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合方法（DIBF：Double Information Bottleneck Fusion）。該方法通過(guò)在孿生分支上構(gòu)建信息瓶頸模塊實(shí)現(xiàn)互補(bǔ)特征與冗余特征的解耦，進(jìn)而將互補(bǔ)信息的表達(dá)過(guò)程對(duì)應(yīng)于信息瓶頸前半部分的特征擬合過(guò)程，將冗余特征的壓縮過(guò)程對(duì)應(yīng)于信息瓶頸后半部分的特征壓縮過(guò)程，巧妙地將圖像融合中信息提取與融合表述為信息瓶頸權(quán)衡問(wèn)題，通過(guò)尋找信息最優(yōu)表達(dá)來(lái)實(shí)現(xiàn)融合。在信息瓶頸模塊中，網(wǎng)絡(luò)通過(guò)訓(xùn)練得到特征的信息權(quán)重圖，并依據(jù)信息權(quán)重圖，使用均值特征對(duì)冗余特征進(jìn)行壓縮，同時(shí)通過(guò)損失函數(shù)促進(jìn)互補(bǔ)信息的表達(dá)，壓縮與表達(dá)兩部分權(quán)衡優(yōu)化同步進(jìn)行，冗余信息和互補(bǔ)信息也在此過(guò)程中得到解耦。在融合階段，將信息權(quán)重圖應(yīng)用在融合規(guī)則中，提高了融合圖像的信息豐富性。通過(guò)在標(biāo)準(zhǔn)圖像TNO數(shù)據(jù)集上進(jìn)行主客觀實(shí)驗(yàn)，與傳統(tǒng)和近來(lái)融合方法進(jìn)行比較分析，結(jié)果顯示本文方法能有效融合紅外與可見(jiàn)光圖像中的有用信息，在視覺(jué)感知和定量指標(biāo)上均取得較好的效果。

信息瓶頸；孿生自編碼；解耦表征；紅外與可見(jiàn)光；圖像融合

0 引言

圖像融合是一種圖像增強(qiáng)技術(shù)，旨在將由不同傳感器獲得的圖像合并為一幅圖像，從而增強(qiáng)對(duì)場(chǎng)景的解釋[1]。紅外與可見(jiàn)光圖像融合作為圖像融合分支，受到許多研究人員的關(guān)注[2-4]。

紅外圖像由紅外傳感器采集，含有顯著的熱輻射目標(biāo)，成像不受時(shí)間、空間影響，但不能很好地采集到場(chǎng)景中的紋理細(xì)節(jié)；相反，由可見(jiàn)光傳感器采集的可見(jiàn)光圖像雖然包含豐富的紋理細(xì)節(jié)，但在天氣惡劣、有遮擋物的情況下容易丟失目標(biāo)[5]。紅外與可見(jiàn)光圖像融合技術(shù)能夠改善單一圖像成像的不足，將多傳感器圖像中的有用信息綜合，形成融合圖像，為軍事安全和夜視監(jiān)控等提供重要指導(dǎo)[6]。

在過(guò)去幾年中，深度學(xué)習(xí)模型由于其學(xué)習(xí)能力強(qiáng)、魯棒性高等優(yōu)點(diǎn)在圖像融合任務(wù)中展現(xiàn)了巨大的潛能[7-9]。自編碼網(wǎng)絡(luò)作為典型的深度無(wú)監(jiān)督學(xué)習(xí)模型，能夠從無(wú)標(biāo)簽樣本中自動(dòng)學(xué)習(xí)樣本的有效特征[10]，其分支孿生自編碼網(wǎng)絡(luò)由于其在類別不平衡數(shù)據(jù)上的良好表現(xiàn)吸引了眾多學(xué)者[11-12]。目前，自編碼網(wǎng)絡(luò)已大量應(yīng)用于圖像融合領(lǐng)域，并取得一系列成果，例如：Li等提出的Densefuse[13]首次引入自編碼網(wǎng)絡(luò)進(jìn)行圖像分解和圖像重構(gòu)，隨后提出的NestFuse[14]在DenseFuse的基礎(chǔ)上使用了空間/通道注意力機(jī)制，進(jìn)一步提升了融合效果。但它們都只是簡(jiǎn)單使用編碼器生成紅外與可見(jiàn)光特征圖，未對(duì)特征做進(jìn)一步分解，對(duì)不同傳感器模態(tài)之間的互補(bǔ)冗余信息未單獨(dú)關(guān)注。

圖像融合技術(shù)的本質(zhì)是綜合多傳感器圖像的互補(bǔ)信息，因此通過(guò)解耦表征方法探索圖像特征內(nèi)部的互補(bǔ)冗余關(guān)系，對(duì)互補(bǔ)信息和冗余信息采用不同的融合規(guī)則進(jìn)行融合是一條值得探索的途徑。近年來(lái)，研究者開(kāi)始將解耦表征應(yīng)用于紅外與可見(jiàn)光圖像融合[15-17]。Zhao等提出DIDFuse（Deep Image Decomposition based IVIF）[18]，通過(guò)將源圖像分解為具有高低頻信息的背景特征和細(xì)節(jié)特征來(lái)實(shí)現(xiàn)解耦，解耦后特征串聯(lián)送入解碼器獲得融合圖像。該方法的網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單，并未充分解耦卷積神經(jīng)網(wǎng)絡(luò)提取的特征信息，生成的融合圖像清晰度不高?；诩t外與可見(jiàn)光圖像是在同一場(chǎng)景下由不同傳感器拍攝的背景，Xu等提出DRF（Disentangled Representation for Visible and Infrared Fusion）[19]方法，將源圖像解耦為相似的場(chǎng)景特征和獨(dú)特的傳感器特征，在融合階段進(jìn)行了交叉融合，并設(shè)計(jì)相應(yīng)的損失函數(shù)促進(jìn)解耦。此方法在大部分圖像上獲得了較好的解耦效果，但部分耦合度較高的圖像不適用于此網(wǎng)絡(luò)，網(wǎng)絡(luò)魯棒性不高。雖然作者設(shè)置了紅外與可見(jiàn)光參數(shù)的不同配比來(lái)解決此問(wèn)題，但需要依據(jù)具體圖像設(shè)置，因而不具備通用性。Xu等提出CUFD（Common and Unique Feature Decomposition）[20]，此方法的新穎之處在于使用雙層自編碼網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)特征解耦，其中一個(gè)編碼器將圖像映射為淺層特征和深層特征，另一個(gè)編碼器將淺層特征和深層特征又分別映射為共用信息和唯一信息，使得編碼階段特征解耦充分。以上基于解耦表征的圖像融合方法都是通過(guò)設(shè)置復(fù)雜的損失函數(shù)這種隱式約束方法來(lái)促進(jìn)解耦，并沒(méi)有進(jìn)行顯示監(jiān)督，這導(dǎo)致網(wǎng)絡(luò)的可解釋不高，對(duì)部分圖像會(huì)出現(xiàn)解耦不足、解耦過(guò)度等問(wèn)題，融合算法魯棒性不強(qiáng)。

基于上述分析，本文提出一種基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合方法。信息瓶頸理論認(rèn)為，網(wǎng)絡(luò)像把信息從一個(gè)瓶頸中擠壓出去，去除掉那些含有無(wú)關(guān)細(xì)節(jié)的噪聲輸入數(shù)據(jù)，只保留與預(yù)測(cè)目標(biāo)最相關(guān)的特征。對(duì)于自編碼圖像融合網(wǎng)絡(luò)，其結(jié)構(gòu)含有編碼層、融合層、解碼層，其網(wǎng)絡(luò)訓(xùn)練過(guò)程可以理解為訓(xùn)練一個(gè)權(quán)重組合，使得與最終融合圖像相關(guān)的信息從網(wǎng)絡(luò)輸入（紅外與可見(jiàn)光圖像）傳播至網(wǎng)絡(luò)輸出（融合圖像），而與最終融合圖像無(wú)關(guān)的信息在編碼過(guò)程中壓縮掉。當(dāng)在網(wǎng)絡(luò)中引入信息瓶頸的權(quán)衡優(yōu)化時(shí)，融合網(wǎng)絡(luò)能夠逐層擠壓出與輸入源圖像有關(guān)但與融合圖像無(wú)關(guān)的信息，從而實(shí)現(xiàn)對(duì)冗余信息的壓縮和對(duì)互補(bǔ)信息的表達(dá)，得到融合結(jié)果。因此，本文在編碼階段孿生分支上構(gòu)建信息瓶頸模塊，訓(xùn)練出最優(yōu)的信息權(quán)重圖，結(jié)合信息瓶頸思想實(shí)施對(duì)互補(bǔ)特征的表達(dá)和對(duì)冗余特征的壓縮，實(shí)現(xiàn)了特征圖信息顯式解耦，具有較好的可解釋性。在融合階段，進(jìn)一步采用信息權(quán)重實(shí)現(xiàn)了對(duì)互補(bǔ)信息的充分融合。

1 信息瓶頸理論

2020年，Naftali Tishby在“The information bottleneck method”一文[21]中率先提出了信息瓶頸理論。他從信息論中關(guān)于數(shù)據(jù)壓縮的經(jīng)典率失真定律出發(fā)，拓展出信息瓶頸理論，并從信息瓶頸理論角度認(rèn)為深度學(xué)習(xí)訓(xùn)練過(guò)程包含“特征擬合”和“特征壓縮”兩個(gè)階段，將深度學(xué)習(xí)的訓(xùn)練問(wèn)題表述為特征擬合和特征壓縮兩個(gè)階段之間的平衡問(wèn)題[22-23]。

使用信息瓶頸理論的關(guān)鍵在于找到信息瓶頸理論的權(quán)衡問(wèn)題以及如何使用信息瓶頸理論來(lái)設(shè)計(jì)一個(gè)強(qiáng)大的分離函數(shù)[24]。在深度網(wǎng)絡(luò)中，假設(shè)輸入數(shù)據(jù)記為，期望輸出數(shù)據(jù)為，深度學(xué)習(xí)的訓(xùn)練目標(biāo)可以解釋為尋求輸入源的最優(yōu)表示，即為網(wǎng)絡(luò)的信息瓶頸，整個(gè)過(guò)程包含兩個(gè)部分：①盡可能多地捕獲關(guān)于目標(biāo)的相關(guān)信息，即最大化(;)；②通過(guò)丟棄不相關(guān)的部分即對(duì)沒(méi)有貢獻(xiàn)的信息來(lái)最大限度地壓縮，即最小化(;)，兩個(gè)部分的優(yōu)化同時(shí)進(jìn)行。具體表示為以下的拉格朗日目標(biāo)[25]：

式中：(;)表示無(wú)關(guān)信息的壓縮程度，(;)表示相關(guān)信息的預(yù)測(cè)能力；為兩者之間的權(quán)衡參數(shù)。

2 基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合方法（DIBF）

2.1 DIBF融合方法流程

本文方法是一個(gè)端到端的圖像融合網(wǎng)絡(luò)，由編碼器、融合網(wǎng)絡(luò)和解碼器組成，融合框架如圖1所示。網(wǎng)絡(luò)的輸入為已配準(zhǔn)的紅外圖像（IR）與可見(jiàn)光圖像（VIS），輸出為融合圖像（F）。基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合流程如下：

圖1 DIBF流程圖

3）融合與解碼：在融合階段對(duì)編碼得到的兩類特征與分別融合。對(duì)特征采用基于信息權(quán)重圖加權(quán)平均的融合方法，對(duì)特征采用取最大值的方法融合，融合結(jié)果分別為f和f，融合過(guò)程詳見(jiàn)2.3節(jié)。最后，f和f都包含了經(jīng)過(guò)編碼階段的權(quán)衡優(yōu)化后保留的有效信息，為保證融合圖像信息充分，將和的融合結(jié)果取均值得到融合特征。然后將送入解碼器獲得融合圖像，解碼器包含4個(gè)卷積層，卷積核為3×3，通道數(shù)分別為64，32，32，3。

2.2 信息瓶頸（Information bottleneck，IB）模塊

在編碼階段，為了將紅外和可見(jiàn)光特征圖中的互補(bǔ)信息和冗余信息解耦，并通過(guò)信息瓶頸理論對(duì)特征的表達(dá)與壓縮進(jìn)行權(quán)衡優(yōu)化，本文在前兩層孿生分支上構(gòu)建了IB模塊。

由信息瓶頸思想可知，本文IB模塊的權(quán)衡包含兩個(gè)部分：第一部分是將互補(bǔ)信息表達(dá)，并通過(guò)后續(xù)融合與解碼獲得融合圖像。第二部分是將冗余壓縮，防止其影響融合圖像質(zhì)量，兩部分的權(quán)衡優(yōu)化同步進(jìn)行。

為實(shí)現(xiàn)特征的顯式解耦以及互補(bǔ)特征的表達(dá)與冗余特征的充分壓縮，每個(gè)IB模塊訓(xùn)練得到一個(gè)信息權(quán)重圖，的大小與特征圖的大小一致，值在0～1之間。以IR為例，IB模塊流程為：

①通過(guò)IB網(wǎng)絡(luò)訓(xùn)練獲得一個(gè)信息權(quán)重圖。

②使用均值特征對(duì)紅外圖像的特征進(jìn)行壓縮，得到壓縮后特征：

式中：權(quán)重表示紅外圖像中互補(bǔ)信息的權(quán)重；1－表示紅外圖像中冗余信息的權(quán)重；使用像素平均圖特征avg對(duì)紅外圖像中的冗余信息進(jìn)行抑制?？梢钥闯?，實(shí)現(xiàn)了對(duì)互補(bǔ)特征與冗余特征的顯式化解耦，更利于后續(xù)的融合操作。

圖2 信息權(quán)重圖示意圖

2.3 融合規(guī)則

本文融合規(guī)則包含兩部分，分別為對(duì)特征（ir3,vis3）和特征（ir3,vis3）的融合：

①由于信息權(quán)重圖代表了各層次特征對(duì)最終融合圖像的貢獻(xiàn)程度，同時(shí)它經(jīng)過(guò)網(wǎng)絡(luò)訓(xùn)練獲得，因此能夠自適應(yīng)地用于紅外和可見(jiàn)光圖像中互補(bǔ)信息的融合，彌補(bǔ)了人工設(shè)計(jì)融合權(quán)重的不足，因此本文采用基于的加權(quán)平均的方法實(shí)現(xiàn)特征的融合：

②為保證融合方法不引入現(xiàn)有圖像對(duì)之外的信息，本文使用均值圖像作為噪聲圖像對(duì)IR與VIS的特征進(jìn)行壓縮，最終ir3和vis3為經(jīng)過(guò)編碼階段信息瓶頸權(quán)衡優(yōu)化后得到的特征圖，是紅外與可見(jiàn)光圖像互補(bǔ)信息充分提取、冗余信息充分壓縮的結(jié)果，因此直接采用取最大值的方法對(duì)壓縮特征ir3,vis3進(jìn)行融合：

式中：ir3和vis3分別為紅外與可見(jiàn)光圖像的特征經(jīng)過(guò)IB模塊權(quán)衡優(yōu)化后的第三層特征圖；f為ir3和vis3的融合特征圖。

為了更充分地獲取信息，最后將f和f取平均得到總體融合特征圖：

2.4 損失函數(shù)設(shè)計(jì)

本文損失函數(shù)包含兩部分：第一部分為信息瓶頸損失IB，第二部分為編碼器重建損失rec，總損失函數(shù)表示如下：

train＝IB＋rec(7)

式中：為IB和rec之間的權(quán)衡參數(shù)。

2.4.1 信息瓶頸損失函數(shù)

信息瓶頸損失IB用來(lái)優(yōu)化信息瓶頸權(quán)衡過(guò)程，包含壓縮損失cut和預(yù)測(cè)損失pre兩部分，第一部分cut控制冗余信息的壓縮程度，第二部分pre控制互補(bǔ)信息的表達(dá)預(yù)測(cè)能力，IB表示如下：

IB＝cut＋pre(8)

式中：為兩者之間的權(quán)衡參數(shù)。

cut為和之間的內(nèi)積，cut越小，對(duì)冗余信息的壓縮程度越高。

pre包含gen和reg兩部分，表示如下：

pre＝gen＋reg(10)

gen為生成損失，控制編碼網(wǎng)絡(luò)同分支下第三層生成的特征和之間的一致性，gen越小，兩個(gè)特征越相似，使用兩個(gè)特征之間的余弦距離來(lái)表示：

reg為回歸損失，對(duì)融合圖像輸入編碼網(wǎng)絡(luò)孿生分支生成的特征進(jìn)行約束，包含pos和neg兩部分：

reg＝pos＋neg(12)

融合圖像經(jīng)過(guò)編碼網(wǎng)絡(luò)得到的特征分別為fir、fvis，紅外與可見(jiàn)光圖像經(jīng)過(guò)編碼網(wǎng)絡(luò)得到的特征分別為ir3、vis3，pos則約束由編碼網(wǎng)絡(luò)中同一分支得到的兩個(gè)特征接近，用余弦距離表示；neg約束由不同分支得到的兩個(gè)特征遠(yuǎn)離，并且遠(yuǎn)離程度保持一致（如圖3所示），圖3(a)中fvis應(yīng)在橫軸vis3附近，同時(shí)遠(yuǎn)離縱軸ir3，圖3(b)中fir應(yīng)在橫軸ir3附近，同時(shí)遠(yuǎn)離縱軸vis3。pos和neg具體定義如下：

2.4.2 訓(xùn)練重建損失函數(shù)

重建損失rec包含了融合圖像和源圖像之間的像素距離和梯度距離，分別使用像素和梯度之間的二范數(shù)來(lái)表示：

3 實(shí)驗(yàn)結(jié)果與分析

在訓(xùn)練階段，選擇Zhang等人提出的IFCNN數(shù)據(jù)集[26]作為訓(xùn)練集，它包含1400多對(duì)灰度多聚焦圖像，網(wǎng)絡(luò)模型在TensorFlow上的Keras中實(shí)現(xiàn)，優(yōu)化器設(shè)置為Adam，批處理大小為2，迭代次數(shù)為200，學(xué)習(xí)率為0.0003。測(cè)試階段選擇源自TNO數(shù)據(jù)集的40對(duì)已配準(zhǔn)的紅外與可見(jiàn)光圖像進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境為ubuntu16，CPU Intel(R) Core i7-6850k，內(nèi)存為64G，實(shí)驗(yàn)參數(shù)設(shè)置為＝1,＝1.2,＝1,＝1。

為驗(yàn)證本文算法的有效性和優(yōu)越性，將本文方法與6種經(jīng)典的圖像融合算法進(jìn)行定性和定量的比較分析，其中包含兩種傳統(tǒng)方法和4種基于深度學(xué)習(xí)的圖像融合方法，分別為GTF（Fusion via Gradient Transfer）[27]、Densefuse[13]、DRF[19]、DIDFuse[18]、SDNet（Squeeze-and-decomposition network）[28]、LPSR（Laplacian Pyramid and Sparse Representation）[29]。

本文從主客觀兩方面進(jìn)行對(duì)比分析：主觀上比較融合圖像的視覺(jué)效果；客觀上，選擇SSIM、EN、cv、CC、s和nice六種客觀指標(biāo)對(duì)融合結(jié)果進(jìn)行評(píng)價(jià)。其中，SSIM為相似度，衡量圖像結(jié)構(gòu)化信息丟失程度，SSIM的值越大，融合圖像與源圖像的相似度越大，融合質(zhì)量越好；EN為信息熵，用來(lái)衡量圖像中信息量的多少，EN的值越大，融合效果越好。cv是一種人類啟發(fā)感知的圖像融合質(zhì)量評(píng)價(jià)指標(biāo)，cv的值越小，圖像質(zhì)量越高，保留的原始兩幅圖像的信息也就越多。CC為相關(guān)系數(shù)，用來(lái)衡量源圖像和融合圖像之間的線性關(guān)系，CC的值越大，代表融合圖像與源圖像越相似。nice通過(guò)計(jì)算源圖像與融合圖像間的非線性相關(guān)信息熵來(lái)衡量圖像間的相似度，nice的值越大，圖像融合效果越好。

3.1 TNO數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

圖4為各方法在“soldier behind smoke”圖像上獲得的融合結(jié)果。紅外圖像（圖4(a)）的互補(bǔ)信息是目標(biāo)人物和背景森林，可見(jiàn)光圖像（圖4(b)）顯示此區(qū)域有煙霧，這是一種在軍事戰(zhàn)場(chǎng)環(huán)境下極容易出現(xiàn)的情況，即在可見(jiàn)光圖像中目標(biāo)人物被遮擋，而在紅外圖像中看不到可見(jiàn)光圖像中的煙霧的位置及大小情況，不利于軍事判斷。對(duì)融合圖像的要求是能夠同時(shí)顯示紅外圖像中的士兵信息和背景森林信息以及區(qū)域的煙霧性。

由圖4可知，GTF方法是一種使用VIS圖像中豐富的紋理來(lái)增強(qiáng)IR圖像的方法，但對(duì)于圖4中VIS圖像有濃厚煙霧的情況，此方法有明顯劣勢(shì)，從圖4(c)可以看出，融合圖像包含大量偽影，細(xì)節(jié)信息丟失嚴(yán)重；Densefuse方法是一種基于殘差網(wǎng)絡(luò)的獲得的融合圖像算法，能夠?qū)D像特征傳入更深層次的網(wǎng)絡(luò)中，避免過(guò)快出現(xiàn)梯度爆炸，從圖4(d)可以看出，煙霧、背景樹(shù)干和目標(biāo)人物信息融合較好，但由于沒(méi)有進(jìn)行解耦操作，相較于本文方法，圖像對(duì)比度和目標(biāo)人物的清晰度不高。DRF、DIDFuse都對(duì)圖像特征進(jìn)行了解耦，但解耦和重建過(guò)程都通過(guò)損失函數(shù)隱式約束，可解釋性不高，從圖4(e)～(f)可以看出，獲得的融合圖像中煙霧幾乎遮擋了人物信息，視覺(jué)效果較差。SDNet是一種復(fù)雜度較高的壓縮分解網(wǎng)絡(luò)模型，因此存在著在數(shù)據(jù)量不充足情況下的訓(xùn)練不充分問(wèn)題，從圖4(g)可知，所得圖像存在大量偽影，煙霧區(qū)域不夠明顯。LPSR是一種結(jié)合了多尺度變換和稀疏表示的傳統(tǒng)方法，其中人工設(shè)計(jì)的復(fù)雜特征提取方法沒(méi)能有效保留源圖像的重要信息，從圖4(h)可以看出，其融合結(jié)果中煙霧信息提取過(guò)多，遮擋了目標(biāo)人物。對(duì)比可得，本文方法獲得的融合圖像目標(biāo)人物突出、背景信息豐富、煙霧輪廓清晰，具有較好的視覺(jué)效果。

表1為各方法在“soldier behind smoke”圖像上的客觀評(píng)價(jià)值，表中加粗?jǐn)?shù)據(jù)為該指標(biāo)的最優(yōu)值。

由表1可知，客觀指標(biāo)中本文方法在SSIM、s、nice上獲得最優(yōu)值，在EN和CC指標(biāo)上排名也相對(duì)靠前，進(jìn)一步驗(yàn)證了本文方法融合效果較好，融合圖像信息豐富，較好地綜合了紅外與可見(jiàn)光圖像的有效信息，與定性分析結(jié)果保持一致。

圖5為各方法在“Kaptein”圖像上獲得的融合圖像，其中紅外圖像（圖5(a)）包含突出的目標(biāo)人物信息和左上角的煙霧信息等，可見(jiàn)光圖像（圖5(b)）包含樹(shù)葉、樹(shù)枝細(xì)節(jié)和地磚紋理等。結(jié)果融合圖像應(yīng)該充分融合到紅外圖像中突出的目標(biāo)人物信息和煙霧信息以及可見(jiàn)光圖像中樹(shù)枝、門(mén)框、花叢、小路、路燈等信息。

圖4 “soldier behind smoke”圖像的融合結(jié)果

表1 各融合方法在“soldier behind smoke”圖像上的客觀評(píng)價(jià)

圖5 “Kaptein”圖像的融合結(jié)果

由圖5可知，GTF、Densefuse、DIDFuse、SDNet（圖5(c)～(d),(f)～(g)）獲得的融合圖像樹(shù)枝信息模糊，有大量偽影。DRF（圖5(e)）獲得的融合圖像左上角的濃煙信息全部丟失。LPSR方法（圖5(g)）獲得的融合圖像整體效果較好，但與本文方法相比，門(mén)前樹(shù)木的枝葉的紋理細(xì)節(jié)信息不夠清晰，對(duì)比度不高。本文方法獲得的融合圖像樹(shù)枝細(xì)節(jié)豐富、目標(biāo)人物清晰，很好地融合了紅外和可見(jiàn)光圖像中的有效信息。

表2為各方法在“soldier at the door”圖像上的客觀評(píng)價(jià)值，表中加粗?jǐn)?shù)據(jù)為該指標(biāo)的最優(yōu)值。

由表2可知，本文方法在SSIM、CV、s、nice上獲得了最優(yōu)值，在EN和CC指標(biāo)上的排名也相對(duì)靠前，客觀檢驗(yàn)了本文方法優(yōu)越性，與定性分析的結(jié)論保持一致。

為驗(yàn)證本文方法有效性，將各方法在TNO數(shù)據(jù)集上進(jìn)行客觀評(píng)價(jià)分析，從表3分析結(jié)果可以看出，本文算法在5個(gè)指標(biāo)上保持最優(yōu)值，在一個(gè)指標(biāo)上為次優(yōu)值。

3.2 消融實(shí)驗(yàn)

為了驗(yàn)證本文方法中融合策略的有效性，進(jìn)行消融實(shí)驗(yàn)，包括：（1）融合階段僅對(duì)特征做融合；（2）融合階段僅對(duì)特征做融合；（3）對(duì)特征融合時(shí)僅使用第一層信息權(quán)重圖；（4）對(duì)特征融合時(shí)僅使用第二層信息權(quán)重圖。

表2 7種融合方法在“Kaptein”圖像上的客觀評(píng)價(jià)

表3 各方法在TNO數(shù)據(jù)集上的客觀評(píng)價(jià)

由圖6(a)～(c)可知，融合階段僅對(duì)特征或做融合得到的融合圖像背景森林信息嚴(yán)重丟失，人物信息不夠突出，煙霧區(qū)域不夠明顯。由圖6(d)～(f)可知，在特征融合過(guò)程中，僅采用第一層信息權(quán)重圖和僅采用第二層信息權(quán)重圖得到的融合結(jié)果視覺(jué)效果較差，圖像亮度較暗，并且圖片細(xì)節(jié)信息丟失嚴(yán)重。綜合分析本文所采用的將兩種融合結(jié)果求平均的方法和將前兩層信息權(quán)重圖求平均的方法取得較好的效果。

為更加客觀地檢驗(yàn)本文設(shè)計(jì)融合規(guī)則的有效性與優(yōu)越性，在TNO數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)，對(duì)40對(duì)圖像客觀指標(biāo)的平均值進(jìn)行對(duì)比分析。從表4可以看出，本文設(shè)計(jì)的融合規(guī)則獲得的融合圖像在所有指標(biāo)上均達(dá)到最優(yōu)。

圖6 “soldier behind smoke”圖像上的消融實(shí)驗(yàn)

表4 40對(duì)圖像消融實(shí)驗(yàn)客觀指標(biāo)

4 結(jié)束語(yǔ)

針對(duì)當(dāng)前圖像融合方法中存在的信息提取和特征解耦不充分等問(wèn)題，本文提出了一種基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合方法（DIBF）。本文方法整體采用自編碼網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)基礎(chǔ)編碼網(wǎng)絡(luò)能夠獲得紅外與可見(jiàn)光圖像特征。同時(shí)，在編碼階段孿生分支上構(gòu)建信息瓶頸（IB）模塊用于實(shí)現(xiàn)特征解耦，結(jié)合信息瓶頸權(quán)衡思想訓(xùn)練網(wǎng)絡(luò)。IB模塊經(jīng)訓(xùn)練后得到信息權(quán)重圖，表示了特征圖中逐像素的信息權(quán)重，然后使用均值特征對(duì)紅外與可見(jiàn)光特征進(jìn)行壓縮，得到壓縮后特征為。融合階段將編碼獲得的兩類特征和分別融合，對(duì)特征采用基于信息權(quán)重圖加權(quán)平均的策略進(jìn)行融合，對(duì)特征采用取最大值的策略進(jìn)行融合，對(duì)兩種融合結(jié)果取均值得到融合特征，再將其送入解碼網(wǎng)絡(luò)得到融合圖像。由于信息權(quán)重圖是依據(jù)相應(yīng)源圖像的特征信息經(jīng)訓(xùn)練獲得，并將其用于融合階段，因此融合網(wǎng)絡(luò)具有較好的自適應(yīng)能力?？傊疚姆椒▽D像融合中特征表達(dá)與信息融合巧妙地表述成了信息瓶頸權(quán)衡問(wèn)題，促進(jìn)了信息的有效表達(dá)，是一種有效的紅外與可見(jiàn)光圖像融合方法。實(shí)驗(yàn)結(jié)果表明，本文方法采用的信息瓶頸權(quán)衡優(yōu)化的思路促進(jìn)了圖像特征的顯式解耦，有效融合多傳感器圖像的有效信息，在視覺(jué)感知和定量指標(biāo)方面均取得較好的效果，與傳統(tǒng)及近來(lái)融合算法相比具有一定優(yōu)越性。

[1] 張冬冬, 王春平, 付強(qiáng). 深度學(xué)習(xí)框架下的紅外與可見(jiàn)光圖像融合算法綜述[J]. 激光與紅外, 2022, 52(9): 1288-1298. ZHANG D D, WANG C P, FU Q. Overview of infrared and visible image fusion algorithms based on deep learning framework[J]., 2022, 52(9): 1288-1298.

[2] MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]., 2019, 45: 153-178.

[3] 陳永, 張嬌嬌, 王鎮(zhèn). 多尺度密集連接注意力的紅外與可見(jiàn)光圖像融合[J]. 光學(xué)精密工程, 2022, 30(18): 2253-2266. CHEN Y, ZHANG J J, WANG Z. Infrared and visible image fusion based on multi-scale dense attention connection network[J]., 2022, 30(18): 2253-2266.

[4] 孫彬, 諸葛吳為, 高云翔, 等. 基于潛在低秩表示的紅外和可見(jiàn)光圖像融合[J]. 紅外技術(shù), 2022, 44(8): 853-862. SUN B, ZHUGE W W, GAO Y X, et al. Infrared and visible lmage fusion based on latent low-rank representation[J]., 2022, 44(8): 853-862.

[5] 楊孫運(yùn), 奚崢皓, 王漢東, 等. 基于 NSCT 和最小化-局部平均梯度的圖像融合[J]. 紅外技術(shù), 2021, 43(1): 13-20. YANG S Y, XI Z H, WANG H D, et al. Image fusion based on NSCT and minimum-local mean gradient [J]., 2021, 43(1): 13-20.

[6] 劉智嘉, 賈鵬, 夏寅輝. 基于紅外與可見(jiàn)光圖像融合技術(shù)發(fā)展與性能評(píng)價(jià)[J]. 激光與紅外, 2019, 49(5): 123-130. LIU Z J, JIA P, XIA Y H, et al. Development and performance evaluation of infrared and visual image fusion technology[J]., 2019, 49(5): 123-130.

[7] Lee H Y, Tseng H Y, Mao Q, et al. Drit++: Diverse image-to-image translation via disentangled representations[J]., 2020, 128(10): 2402-2417.

[8] 馬梁, 茍于濤, 雷濤, 等. 基于多尺度特征融合的遙感圖像小目標(biāo)檢測(cè)[J]. 光電工程, 2022, 49(4): 49-65. MA L, GOU Y T, LEI T, et al. Small object detection based on multi-scale feature fusion using remote sensing images[J]., 2022, 49(4): 49-65.

[9] 雷大江, 杜加浩, 張莉萍, 等. 聯(lián)合多流融合和多尺度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)遙感圖像融合方法[J]. 電子與信息學(xué)報(bào), 2022, 44(1): 237-244. LEI D J, DU J H, ZHANG L P, et al. Multi-stream architecture and multi-scale convolutional neural network for remote sensing image fusion[J]., 2022, 44(1): 237-244.

[10] 李明, 劉帆, 李婧芝. 結(jié)合卷積注意模塊與卷積自編碼器的細(xì)節(jié)注入遙感圖像融合[J]. 光子學(xué)報(bào), 2022, 51(6): 406-418. LI M, LIU F, LI J Z.Combining convolutional attention module and convolutional autoencoder for detail injection remote sensing image fusion[J]., 2022, 51(6): 406-418.

[11] 劉博, 韓廣良, 羅惠元. 基于多尺度細(xì)節(jié)的孿生卷積神經(jīng)網(wǎng)絡(luò)圖像融合算法[J]. 液晶與顯示, 2021, 36(9): 1283-1293. LIU B, HAN G L, LUO H Y.Image fusion algorithm based on multi-scale detail siamese convolutional neural network[J]., 2021, 36(9): 1283-1293.

[12] Krishna V A, Reddy A A, Nagajyothi D. Signature recognition using siamese neural networks[C]//(ICMNWC), 2021: 1-4.

[13] LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]., 2018, 28(5): 2614-2623.

[14] LI H, WU X J, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J], 2020, 69(12): 9645-9656.

[15] LU B, CHEN J C, Chellappa R. Unsupervised domain-specific deblurring via disentangled representations[C]//, 2019: 10225-10234.

[16] WANG G, HAN H, SHAN S, et al. Cross-domain face presentation attack detection via multi-domain disentangled representation learning[C]//, 2020: 6678-6687.

[17] 文載道, 王佳蕊, 王小旭, 等. 解耦表征學(xué)習(xí)綜述[J]. 自動(dòng)化學(xué)報(bào), 2022, 48(2): 351-374. WEN Z D, WANG J R, WANG X X, et al. A review of disentangled representation learning[J]., 2022, 48(2): 351-374.

[18] ZHAO Z, XU S, ZHANG C, et al. DIDFuse: Deep image decomposition for infrared and visible image fusion[J]. arXiv preprint arXiv:2003.09210, 2020.

[19] XU H, WANG X, MA J. DRF: Disentangled representation for visible and infrared image fusion[J]., 2021, 70: 1-13.

[20] XU H, GONG M, TIAN X, et al. CUFD: An encoder–decoder network for visible and infrared image fusion based on common and unique feature decomposition[J]., 2022, 218: 103407.

[21] Tishby N, Pereira F C, Bialek W. The information bottleneck method[J]. arXiv preprint physics/0004057, 2000.

[22] Tishby N, Zaslavsky N. Deep learning and the information bottleneck principle[C]//(ITW)., 2015: 1-5.

[23] Shwartz-Ziv R, Tishby N. Opening the black box of deep neural networks via information[J]. arXiv preprint arXiv:1703.00810, 2017.

[24] Alemi A A, Fischer I, Dillon J V, et al. Deep variational information bottleneck[J]. arXiv preprint arXiv:1612.00410, 2016.

[25] Tishby N, Zaslavsky N. Deep learning and the information bottleneck principle[C]//(ITW). IEEE, 2015: 1-5.

[26] ZHANG Y, LIU Y, SUN P, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]., 2020, 54: 99-118.

[27] MA J, CHEN C, LI C, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]., 2016, 31: 100-109.

[28] ZHANG H, MA J. SDNet: A versatile squeeze-and-decomposition network for real-time image fusion[J]., 2021, 129(10): 2761-2785.

[29] LIU Y, LIU S, WANG Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]., 2015, 24: 147-164.

Infrared and Visible Image Fusion Based on Information Bottleneck Siamese Autoencoder Network

MA Luyao1,2,3，LUO Xiaoqing1,2,3，ZHANG Zhancheng4

(1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China;2. Institute of Advanced Technology, Jiangnan University, Wuxi 214122, China;3. Jiangsu Laboratory of Pattern Recognition and Computational Intelligence, Wuxi 214122, China;4. School of Electronics and Information Engineering, Suzhou University of Science and Technology, Suzhou 215000, China)

Infrared and visible image fusion methods have problems such as insufficient information extraction, feature decoupling, and low interpretability. In order to fully extract and fuse the effective information of the source image, this paper proposes an infrared and visible image fusion method based on information bottleneck siamese autoencoder network (DIBF: Double Information Bottleneck Fusion). This method realizes the disentanglement of complementary features and redundant features by constructing an information bottleneck module on the twin branch. The expression process of complementary information corresponds to the feature fitting process of the first half of the information bottleneck. The compression process of redundant features corresponds to the feature compression process in the second half of the information bottleneck. This method cleverly expresses information extraction and fusion in image fusion as an information bottleneck trade-off problem, and achieves fusion by finding the optimal expression of information. In the information bottleneck module, the network obtains the information weight map of the feature through training, and uses the mean feature to compress the redundant features according to the information weight map. This method promotes the expression of complementary information through the loss function, and the two parts of compression and expression are balanced and optimized simultaneously. In this process, redundant information and complementary information are also decoupled. In the fusion stage, the information weight map is applied in the fusion rules, which improves the information richness of the fused images. Through subjective and objective experiments on the standard TNO dataset, compared with traditional and recent fusion methods, the results show that the method in this paper can effectively fuse useful information in infrared and visible images, and achieved good results on both visual perception and quantitative indicators.

information bottleneck, Siamese, disentangled representations, infrared and visible, image fusion

TP391.4

1001-8891(2024)03-0314-11

2022-11-24；

2022-12-30.

馬路遙（1998-）女，河南鄭州人，碩士研究生，研究方向：模式識(shí)別與圖像處理。

羅曉清（1980-）女，江西南昌人，博士，副教授，研究方向：模式識(shí)別與圖像處理。E-mail: xqluo@jiangnan.edu.cn。

國(guó)家自然科學(xué)基金（61772237）；江蘇省六大人才高峰項(xiàng)目（XYDXX-030）。

基于信息瓶頸孿生自編 碼網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合

0 引言

1 信息瓶頸理論

2 基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合方法（DIBF）

2.1 DIBF融合方法流程

2.2 信息瓶頸（Information bottleneck，IB）模塊

2.3 融合規(guī)則

2.4 損失函數(shù)設(shè)計(jì)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 TNO數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

3.2 消融實(shí)驗(yàn)

4 結(jié)束語(yǔ)

基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合

2.2 信息瓶頸（Information bottleneck，IB）模塊