郝帥,李嘉豪,馬旭,何田,孫思雅,李彤
(西安科技大學 電氣與控制工程學院,西安 710054)
圖像融合作為一種重要的圖像增強方法,旨在從同一場景不同模態(tài)傳感器捕獲的圖像中提取互補信息并進行融合,從而增強視覺效果,輔助人們對場景進行理解[1-2]。紅外熱成像和可見光成像作為兩種最常用的探測手段已有廣泛應用。紅外傳感器主要通過目標場景的熱輻射信息成像,能夠捕獲物體的熱顯著目標,具有不易受外界天氣、光照強度等環(huán)境因素影響的優(yōu)點,但其圖像分辨率往往較低,紋理細節(jié)信息相對較少??梢姽鈧鞲衅饕罁?jù)物體的反射光線成像,能夠捕獲豐富的細節(jié)及背景信息,其圖像細節(jié)分辨能力強,但易受外界光照強度變化、異物遮擋等因素干擾[3-4]。因此,結(jié)合兩類圖像各自優(yōu)勢,將其進行融合,可以得到紋理細節(jié)豐富、目標顯著及視覺效果好的圖像。目前,該方法已在目標檢測[5]、目標跟蹤[6]、偵察[7]和醫(yī)學圖像分析[8]等領(lǐng)域展開廣泛研究和應用。
根據(jù)特征信息提取方式不同,紅外與可見光圖像融合算法可以分為兩類:傳統(tǒng)融合算法和基于深度學習的融合算法。傳統(tǒng)融合算法主要通過相關(guān)數(shù)學模型來獲取原始圖像不同層次信息,再通過手工設(shè)計合適的規(guī)則對信息進行融合,主要包括基于多尺度變換和基于表示學習的融合算法?;诙喑叨茸儞Q的融合算法主要將原始圖像在頻域中分解為不同分辨率、不同尺度的若干層子圖像,然后根據(jù)設(shè)定的融合規(guī)則對分解的子圖像進行組合,最后通過多尺度逆變換得到融合圖像。常見的多尺度變換方法有金字塔變換、小波變換、輪廓波變換等。CHEN Jun 等[9]利用拉普拉斯金字塔變換將原始圖像分別分解為低頻帶和高頻帶,對高頻帶使用最大絕對值融合規(guī)則,低頻帶由分解的紅外低頻信息來確定融合權(quán)重,最后使用拉普拉斯逆變換來重建融合圖像?;诒硎緦W習的融合算法是直接在空間域上處理圖像像素,常用的主要包含稀疏表示和低秩表示。LU Xiaoqi 等[10]利用核密度估計聚類和奇異值分解數(shù)學模型提取出目標區(qū)域,并對背景信息進行稀疏表示,從而實現(xiàn)紅外與可見光圖像融合。然而,這些傳統(tǒng)融合算法通常需要手工設(shè)計融合規(guī)則,計算過程較為復雜。
近年來,由于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)具有較強的特征提取能力,基于深度學習的融合算法被相繼提出。LI Hui 等[11]提出了用于紅外和可見光圖像融合的DenseFuse,該算法通過設(shè)計編碼器和解碼器網(wǎng)絡(luò)來分別提高特征提取能力和重建能力。LIU Yu 等[12]基于CNN 構(gòu)建了圖像融合模型,通過活動水平測量和權(quán)重分配來實現(xiàn)圖像融合。JIAN Lihua 等[13]結(jié)合殘差網(wǎng)絡(luò)構(gòu)建了一種對稱編碼器-解碼器結(jié)構(gòu),該結(jié)構(gòu)可以有效保留每層卷積提取的特征信息。然而,由于紅外與可見光圖像融合任務難以定義融合效果標準,且沒有Ground Truth 指導網(wǎng)絡(luò)訓練,導致該類方法在訓練過程中無法有效估計原始圖像特征分布,易產(chǎn)生特征分布不均衡的融合結(jié)果。
MA Jiayi 等[14]提出了一種基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[15]的融合算法,生成器負責提取紅外與可見光圖像特征并生成融合圖像,而判別器用于將融合圖像與可見光圖像進行區(qū)分,使融合圖像在對抗博弈中能夠保留足夠的梯度信息。在此基礎(chǔ)上,MA Jiayi 等[16]又構(gòu)建了雙判別器生成對抗網(wǎng)絡(luò)模型,通過設(shè)計紅外和可見光雙判別器網(wǎng)絡(luò)來區(qū)分融合圖像與原始圖像之間的結(jié)構(gòu)差異,從而使融合結(jié)果能夠同時保留原始圖像特征信息。
基于GAN 的融合算法在一定程度上解決了傳統(tǒng)融合算法的不足,可以更高效地提取圖像特征信息,且通過網(wǎng)絡(luò)模型對抗訓練有效地平衡了原始圖像特征分布,但依然存在不足:1)現(xiàn)有的融合算法主要集中在融合模型的構(gòu)建,并未考慮原始圖像質(zhì)量對最終融合效果的影響;2)生成器中大都采用單一尺度卷積提取圖像特征,易造成圖像特征提取不充分,進而導致融合圖像無法全面保留原始特征信息;3)由于沒有考慮原始圖像局部特征的全局依賴性,使得局部特征沒有得到細化和增強,從而導致融合圖像丟失重要目標特征信息。
針對上述問題,本文提出一種基于特征優(yōu)化和GAN 的紅外與可見光圖像融合算法??紤]到原始圖像質(zhì)量對融合結(jié)果的影響,設(shè)計了一種基于變色龍算法(Chameleon Swarm Algorithm,CSA)[17]的目標函數(shù)自適應特征優(yōu)化模塊以增強可見光圖像的紋理細節(jié)和紅外圖像的對比度。為解決生成器中采用單一尺度卷積層提取特征造成特征提取不充分的問題,構(gòu)造了一種多尺度密集連接模塊(Feature extraction module based on Multi-Scale Dense Connection,MSDC-Fem),從而增大網(wǎng)絡(luò)感受野特征提取范圍,以全面提取圖像的深層語義特征和淺層紋理特征。為減小融合過程中重要目標特征信息損失,在特征融合層設(shè)計了基于空間和通道的并聯(lián)型注意力模型。通過將紅外與可見光圖像特征信息分別同時送入空間和通道注意力模型中,捕捉不同模態(tài)特征之間的相關(guān)性和依賴關(guān)系,提高網(wǎng)絡(luò)對關(guān)鍵信息的表達能力,從而更好地聚焦紅外圖像中的熱顯著目標和可見光圖像中的紋理細節(jié)。
低秩表示(Low Rank Representation,LRR)[18]是在確定學習字典情況下,將原始數(shù)據(jù)矩陣表示為字典矩陣下的線性組合且表示系數(shù)矩陣低秩,以實現(xiàn)數(shù)據(jù)的空間分割與特征提取。但LRR 無法保留圖像局部結(jié)構(gòu)信息,在LRR 基礎(chǔ)上,潛在低秩表示(Latent Low Rank Representation,LatLRR)[19]通過考慮隱藏數(shù)據(jù)信息對學習字典的影響來提取數(shù)據(jù)全局結(jié)構(gòu)信息和局部結(jié)構(gòu)信息,其相較于LRR 具有更強的特征提取能力。LatLRR 的數(shù)學模型可表示為
式中,B為原始數(shù)據(jù)最優(yōu)的LRR 系數(shù)矩陣,D為顯著系數(shù)矩陣,N為稀疏噪聲矩陣,‖ ? ‖*為核范數(shù),‖ ? ‖1為L1范數(shù),X為原始數(shù)據(jù)矩陣,λ為正則化平衡參數(shù)且大于0。
將式(1)通過增廣拉格朗日乘子法求解,得到系數(shù)B和D。以紅外圖像為例,假設(shè)紅外圖像為XI,經(jīng)過LatLRR 分解后可表示為
式中,BXI表示低秩分量,DXI表示顯著分量。
GAN 是使用對抗性模型來估計樣本分布并生成新數(shù)據(jù)的無監(jiān)督網(wǎng)絡(luò)模型,它主要由生成器(Generator,G)和判別器(Discriminator,D)兩部分構(gòu)成。生成器學習訓練集數(shù)據(jù)特征,并在判別器指導下,將隨機噪聲分布盡量擬合為訓練數(shù)據(jù)的真實分布,從而生成具有訓練集特征的相似數(shù)據(jù)。判別器負責區(qū)分輸入是真實數(shù)據(jù)或生成器生成的假數(shù)據(jù),并將判斷結(jié)果反饋給生成器。兩個網(wǎng)絡(luò)交替訓練,直到生成器生成的數(shù)據(jù)能夠以假亂真,并與判別器的能力達到一種納什均衡狀態(tài)。G 與D 的對抗關(guān)系為
式中,x表示輸入樣本,z表示輸入到生成器的噪聲,Pdata(x)表示真實數(shù)據(jù)分布,Pz(z)表示噪聲分布,D(x)表示判別器判斷真實數(shù)據(jù)是否真實的概率,D(G(z))表示判別器判斷生成數(shù)據(jù)是否真實的概率。
由于GAN 具有在無監(jiān)督情況下學習真實數(shù)據(jù)分布的能力,故利用生成器生成融合圖像,并通過判別器以期使融合圖像在對抗學習中能夠盡可能地保留原始圖像的豐富信息。
本文所提算法框圖如圖1 所示,主要由三部分構(gòu)成:特征優(yōu)化模塊、生成器和判別器。特征優(yōu)化模塊旨在對原始紅外和可見光圖像進行增強,提高其特征表達能力;生成器的主要任務是對輸入圖像的特征進行提取、融合及重構(gòu),生成融合圖像;判別器由可見光判別器(Discriminator-VIS)和紅外判別器(Discriminator-IR)兩部分構(gòu)成,分別與生成器進行對抗學習,從而保證融合圖像中既保留紅外圖像的對比度信息又具有可見光圖像的梯度信息。
圖1 本文算法框圖Fig.1 Block diagram of the proposed algorithm
由于受外界環(huán)境影響,可見光圖像會因光照強度變化導致紋理細節(jié)不清晰,而紅外圖像受熱輻射成像機理影響,易出現(xiàn)目標對比度低等問題,會影響最終的圖像融合效果。為此,設(shè)計了一種自適應特征優(yōu)化模塊,以增強原始圖像特征表達能力。首先,利用LatLRR 對原始圖像進行分解;然后,構(gòu)建目標函數(shù)并設(shè)計優(yōu)化模型對其進行迭代尋優(yōu);最后,得出優(yōu)化因子y,進而獲得優(yōu)化圖像,為后續(xù)圖像融合奠定基礎(chǔ)。優(yōu)化圖像可表示為
式中,Io為優(yōu)化后的圖像,y為優(yōu)化因子,IB為圖像低秩層,ID為圖像顯著層。
2.1.1 基于LatLRR 的圖像分解
由于LatLRR 充分考慮了圖像數(shù)據(jù)的全局結(jié)構(gòu)、局部結(jié)構(gòu)和稀疏噪聲等方面,不僅能夠從源圖像中提取全局結(jié)構(gòu)信息和局部結(jié)構(gòu)信息,還可以在一定程度上分離圖像中的噪聲分量,減小視覺偽影。因此利用LatLRR 分別對原始紅外與可見光圖像進行分解,并得到各自對應的低秩層和顯著層,如圖2 所示。從圖中可以看出,低秩層主要包含目標整體及背景細節(jié)信息,顯著層則主要體現(xiàn)局部顯著區(qū)域及邊緣信息。
圖2 LatLRR 分解結(jié)果Fig.2 LatLRR decomposition results
2.1.2 目標函數(shù)構(gòu)建
為了較好地增強原始圖像紋理細節(jié),突出顯著目標,選取梯度變化、對比度變化和內(nèi)容損失作為約束條件,構(gòu)造目標函數(shù)F為
式中,LAG為平均梯度函數(shù),LSD為標準差函數(shù),LCON為內(nèi)容損失函數(shù),λ表示保持兩項平衡的正則化參數(shù),取λ=1/300。
平均梯度(Average Gradient,AG)用來度量圖像梯度信息,且可以在一定程度上反映圖像的細節(jié)紋理[20]。AG 值越大,圖像包含的梯度信息越多,LAG定義為
式中,?Iox(i,j)=Io(i,j)-Io(i+1,j),?Ioy(i,j)=Io(i,j)-Io(i,j+1),M和N為圖像寬和高,(i,j)為圖像橫、縱坐標。
標準差(Standard Deviation,SD)主要用來反映圖像對比度信息[21],SD 值越大,圖像的對比度越高,視覺效果越好,LSD定義為
式中,?表示圖像的平均值。
為了衡量優(yōu)化過程中的目標信息損失程度,設(shè)計了內(nèi)容損失函數(shù)LCON,定義為
式中,I表示原始圖像。
2.1.3 基于CSA 的目標函數(shù)自適應優(yōu)化
為得到優(yōu)化因子y,采用變色龍優(yōu)化算法(CSA)進行求解。CSA 主要模擬了變色龍在樹木、沙漠和沼澤附近尋找食物時動態(tài)行為。該算法具有尋優(yōu)能力強、收斂速度快、精度高等特點。為此,針對設(shè)計的目標函數(shù)F,即式(5),將CSA 引入到優(yōu)化機制中,利用CSA 進行尋優(yōu),從而求解優(yōu)化因子y。CSA 步驟為:
1)初始化。初始種群是根據(jù)搜索空間中均勻隨機初始化的變色龍數(shù)量和空間的維數(shù)創(chuàng)建的,即
式中,yi為第i個變色龍的初始位置,uj和lj分別表示搜索區(qū)域在第j維的下界和上界,r為[0,1]范圍內(nèi)均勻生成的隨機數(shù)。
2)搜索獵物。變色龍覓食過程中的運動行為可以采用以下位置更新策略進行建模。
式中,T為最大迭代次數(shù),t為當前迭代次數(shù),γ、α、β用于控制搜索和發(fā)現(xiàn)的能力,分別設(shè)置為1、3.5、3。
3)眼睛旋轉(zhuǎn)發(fā)現(xiàn)獵物。變色龍的眼睛能360°旋轉(zhuǎn)進行獵物搜索,并根據(jù)獵物的位置來更新自己的位置,位置更新數(shù)學描述為
4)捕獲獵物。當獵物離變色龍較近時,變色龍便利用舌頭攻擊并捕獲獵物。位置更新數(shù)學描述為
綜上,通過搜索獵物、眼睛旋轉(zhuǎn)發(fā)現(xiàn)獵物和捕獲獵物三階段的位置迭代更新可求得最佳位置y。在迭代尋優(yōu)過程中,針對變色龍的位置解,利用目標函數(shù)F計算其適應度值,變色龍個體根據(jù)當前的位置和適應度值,采取一定的策略進行移動,并尋找更優(yōu)的位置。根據(jù)新位置再次計算更新后的適應度值,進而更新全局最優(yōu)解。如果達到最大迭代次數(shù)或滿足目標函數(shù)F的要求,則優(yōu)化結(jié)束,輸出最優(yōu)解y,否則繼續(xù)進行迭代更新尋找最優(yōu)解,進而得到優(yōu)化因子。偽代碼如表1 所示,原始圖像優(yōu)化前后效果如圖3 所示。
表1 基于CSA 的目標函數(shù)自適應優(yōu)化Table 1 Adaptive optimization of objective function based on CSA
圖3 優(yōu)化前后對比Fig.3 Comparison chart before and after optimization
從圖3 紅色框標注區(qū)域可以看出,相較于原始圖像,經(jīng)過特征優(yōu)化模塊后,可見光圖像的紋理細節(jié)和目標輪廓更清晰,紅外圖像的對比度和清晰度也更加明顯,為后續(xù)圖像融合奠定了良好基礎(chǔ)。
2.2.1 生成器
生成器網(wǎng)絡(luò)主要由特征提取、特征融合以及特征重構(gòu)三部分構(gòu)成。
2.2.1.1 基于多尺度密集連接的特征提取模塊
紅外和可見光圖像具有不同的成像機理,其特征表現(xiàn)形式往往有所差異。為此,設(shè)計了雙支路特征提取網(wǎng)絡(luò),分別提取可見光圖像的梯度信息和紅外圖像的對比度信息,如圖1 所示。兩條支路結(jié)構(gòu)相同、參數(shù)獨立,能夠有效降低模型復雜度。同時,為解決單一尺寸卷積核特征提取不全面的問題,構(gòu)造了一種基于多尺度密集連接的特征提取模塊(MSDC-Fem),如圖4 所示。
圖4 MSDC-Fem 結(jié)構(gòu)Fig.4 MSDC-Fem structure diagram
以經(jīng)過特征優(yōu)化后的紅外圖像IR_O 為例,首先,分別使用三個卷積核大小為3×3、5×5、7×7 的卷積層對輸入圖像進行多尺度特征提取。然后,為避免特征提取時中間層信息丟失問題,在每個不同尺度的卷積分支后分別接入密集連接網(wǎng)絡(luò)(Densely Connected Convolutional Network,DenseNet)[22]進行更深層次特征提取,增強特征傳遞及重用,使生成器能夠更有效地利用原始圖像特征信息,同時還可以減輕網(wǎng)絡(luò)梯度消失。該密集連接網(wǎng)絡(luò)模塊由3 個密集連接的卷積層組成,各卷積層的卷積核大小均為3×3。最后,將提取的多尺度深層特征進行融合得到局部融合特征。因為在特征計算時所采用的補0 策略都是“SAME”,所以不同尺度卷積得到的特征圖尺度一樣,可以直接進行相加。圖4中,利用MSDC-Fem 對輸入圖像進行特征提取時,可以表示為
式中,F(xiàn)a3、Fa5、Fa7分別表示不同尺度的特征圖,F(xiàn)in為輸入圖像,*表示卷積操作,f3×3、f5×5、f7×7分別表示3 個不同尺寸的卷積核。
x0、x1和x2分別為三個卷積層的輸入,x3為密集塊的末端輸出,以3×3 卷積支路為例,x0~x3分別表示為
式中,?表示通道連接,Φa3為3×3 支路得到的深層特征。同上,可分別得到另外兩條支路的深層特征Φa5和Φa7。最終,紅外圖像局部融合特征可表示為
同理,經(jīng)過MSDC-Fem 模塊可獲得可見光圖像局部融合特征ΦV。
2.2.1.2 基于雙通道注意力特征融合網(wǎng)絡(luò)
在融合層設(shè)計雙通道注意力模型,以使網(wǎng)絡(luò)從空間和通道兩個方向同時聚焦重要目標特征信息,且通過并聯(lián)連接,網(wǎng)絡(luò)可以將不同層次的特征信息進行整合,更好地強化重要的空間位置信息和通道特征信息,從而提高網(wǎng)絡(luò)對關(guān)鍵信息的表達能力。同時,相比于串聯(lián)方式,并聯(lián)的雙通道注意力機制可以在不同的輸入之間進行自由的信息交互,能夠更好地捕捉輸入特征之間的相關(guān)性和依賴關(guān)系。具體過程為:將可見光和紅外圖像對應的局部融合特征ΦV和ΦI經(jīng)過空間注意力模型,可得到空間區(qū)域信息加強后的注意力融合特征圖ΦsaF,經(jīng)過通道注意力模型,可對局部融合特征的通道信息進行增強,得到通道注意力融合特征圖ΦcaF。最后,采用加權(quán)平均融合規(guī)則將兩種注意力融合特征圖進行融合,得到全局融合特征圖ΦF,如圖5 所示。
圖5 注意力融合過程Fig.5 Attention fusion process
1)空間注意力模型
對ΦV∈RH×W×C和ΦI∈RH×W×C分別通過計算像素向量沿通道維數(shù)方向的LP范數(shù)得到其初始注意力圖[23],即
將空間加權(quán)圖與局部融合特征圖進行相乘,分別得到紅外和可見光圖像的通道注意力圖,即
最后,將兩者進行線性疊加得到空間注意力特征圖,即
2)通道注意力模型
首先,計算每個通道上特征映射的LP范數(shù),得到初始通道注意向量,即
將通道加權(quán)圖與局部融合特征圖進行相乘,分別得到對應的紅外和可見光圖像空間注意力圖,即
最后,將兩者線性疊加得到通道注意力特征圖為
3)加權(quán)融合
2.2.1.3 特征重構(gòu)模塊
在特征重構(gòu)部分,通過4 層卷積的解碼網(wǎng)絡(luò)對全局融合注意力特征圖ΦF進行重構(gòu),進而得到融合圖像,如圖6 所示。在解碼網(wǎng)絡(luò)中,各卷積層均采用(Conv3×3)+BN+ReLU 結(jié)構(gòu),濾波器數(shù)分別設(shè)置為128、64、32 和1。
圖6 特征重構(gòu)模塊Fig.6 Feature reconstruction module
2.2.2 雙判別器
判別器網(wǎng)絡(luò)主要用于判斷生成器生成的圖像是否服從真實樣本分布。為了同時保留可見光的紋理細節(jié)信息和紅外圖像的顯著目標信息,構(gòu)造了雙判別器結(jié)構(gòu),如圖7 所示。Discriminator-VIS 用于區(qū)分融合圖像和可見光圖像,Discriminator-IR 用于區(qū)分融合圖像和紅外圖像。考慮到兩個判別器之間的平衡,使其具有相同的網(wǎng)絡(luò)結(jié)構(gòu),均由4 個卷積層和1 個線性層組成,4 個卷積層均使用3×3 卷積核和ReLU 激活函數(shù),每個卷積層的步長設(shè)置為2,濾波器組參數(shù)分別為32、64、128 和256。線性層將輸入與前4 個卷積層提取的特征進行區(qū)分,并輸出分類概率。此外,卷積層C1~C3 加入批歸一化以緩解網(wǎng)絡(luò)梯度消失問題。
損失函數(shù)由生成器損失LG和判別器損失LD兩部分構(gòu)成,生成器損失LG包括對抗損失Ladv和內(nèi)容損失Lcontent,即
式中,λ1為權(quán)重系數(shù),用于兩者之間的平衡。
式中,N表示融合圖像的數(shù)量,表示生成的融合圖像,D(?)表示判別器分類結(jié)果,a1和a2分別表示兩個判別器的輸出概率。對于生成器,不期望判別器能夠區(qū)分融合圖像和真實圖像,故取a1=a2=0.7~1.2 之間隨機。
內(nèi)容損失由對比度損失Lcon和梯度損失Lgrad構(gòu)成,Lcon約束目標物體與背景的對比度,Lgrad約束融合圖像的紋理細節(jié)信息,即
式中,ξ1和ξ2是平衡兩者的正則化參數(shù)。Lcon和Lgrad分別表示為
式中,Ifused表示融合圖像,Iir表示原始紅外圖像,Ivis表示原始可見光圖像,‖ · ‖F(xiàn)表示Frobenius 范數(shù),?表示梯度計算。
通過判別器損失函數(shù)可以平衡判定融合圖像與原始圖像的真假性,進而與生成網(wǎng)絡(luò)模型對抗博弈,使生成的融合圖像更趨向于原始圖像真實數(shù)據(jù)分布。判別器損失由紅外判別器損失和可見光判別器損失兩部分構(gòu)成,即
式中,air為輸入的紅外優(yōu)化圖像,bvis為輸入的可見光優(yōu)化圖像,d表示融合圖像標簽,在0~0.3 之間隨機選取。
實驗所使用的硬件平臺配置:CPU 為AMD Ryzen 5 5600X 6-Core Processor,主頻3.70 GHz;GPU 為NVIDIA GeForce RTX 3070 8GB。訓練和測試在Windows10 系統(tǒng)上,并采用Pytorch 框架完成。
采用TNO image fusion 公開數(shù)據(jù)集[24]進行實驗,從中任選32 組已配準的不同場景下的紅外和可見光圖像,先經(jīng)過特征優(yōu)化模塊得到優(yōu)化后的圖像,再將此圖像作為訓練數(shù)據(jù)集。為了訓練一個良好的模型,增強模型的魯棒性,需對數(shù)據(jù)集進行擴充。采用滑窗方式對32 組優(yōu)化后的圖像進行裁剪,裁剪步長設(shè)為12,裁剪圖像塊尺寸為120×120,獲取24 200 組紅外與可見光圖像對,并將其灰度值范圍轉(zhuǎn)換為[0,1]。
生成器和判別器采用迭代訓練方式,兩者訓練次數(shù)之比為p。同時,batchsize 大小為b,總的訓練epochs為M。實驗中,取p=1/2、b=16、M=300。采用Adam 優(yōu)化器對網(wǎng)絡(luò)模型參數(shù)進行優(yōu)化,學習率設(shè)為1×10-4。損失函數(shù)參數(shù)設(shè)置為λ1=0.1、ξ1=2、ξ2=5,具體訓練過程見表2。
表2 網(wǎng)絡(luò)模型的訓練過程Table 2 Training process of network model
3.2.1 主觀評價
為驗證本文算法優(yōu)勢,從TNO 數(shù)據(jù)集中任選6 組紅外和可見光圖像進行主觀評價。將本文算法與DenseFuse[11]、FusionGAN[14]、ResNet-ZCA[25]、MDLatLRR[26]、PMGI[27]以及RFN-Nest[28]進行對比,實驗結(jié)果如圖8 所示。為了便于觀察和分析,對融合結(jié)果局部細節(jié)用紅框進行標注。
圖8 主觀實驗結(jié)果對比Fig.8 Subjective experimental results comparison
從圖8 可以看出:DenseFuse 算法由于采用卷積網(wǎng)絡(luò)作為特征提取和重建模塊,融合圖像中較好地保留了紋理細節(jié),但其對紅外圖像的特征提取能力有一定的限制,所以紅外目標信息存在一定的損失,如第4 組圖像中人物目標信息不突出;FusionGAN 算法一定程度上保留了紅外顯著目標,但由于其采用單一判別器結(jié)構(gòu),造成可見光紋理細節(jié)信息的部分丟失,如第1 組圖像中樹枝和第6 組圖像中飛機底支架的紋理細節(jié)不豐富、邊緣輪廓較為模糊;MDLatLRR 算法采用多級分解并使用不同的融合策略,能夠較好地保留原始圖像的細節(jié)信息,圖像的輪廓信息也較為清晰,但紅外目標不突出,如第3 組圖像中汽車前端紅外信息損失嚴重;RFN-Nest 算法采用兩階段訓練,使用自動編碼器更注重于紋理細節(jié)的保留,而忽略了紅外目標特征的保留,如第2 組和第4 組圖像中人物熱目標不突出、邊緣較為模糊;PMGI 算法基于均方誤差構(gòu)建了像素強度和梯度約束,可以生成較清晰的融合圖像,但一些局部紋理細節(jié)信息不能有效保存,如第5 組圖像中路燈邊緣較模糊;ResNet-ZCA 算法通過計算權(quán)值圖并與原始圖像結(jié)合獲得融合圖像,取得了較好的融合效果,但目標區(qū)域沒有突出顯示,如第5 組圖像中人物背部紅外信息不明顯;而本文算法通過構(gòu)造特征優(yōu)化模塊增強圖像特征表達能力,并設(shè)計融合注意力模型的GAN 網(wǎng)絡(luò),使得融合結(jié)果紋理細節(jié)信息豐富、紅外目標突出、目標邊緣清晰及視覺效果好,相比于其他對比算法具有明顯優(yōu)勢。
3.2.2 客觀評價
為了客觀評價本文算法優(yōu)勢,從TNO 數(shù)據(jù)集中隨機選取21 組圖像進行定量分析。選取的客觀評價指標[29]包括:信息熵(Entropy,EN)、空間頻率(Spatial Frequency,SF)、相關(guān)熵(Joint Entropy,JE)、視覺保真度(Visual Information Fidelity,VIF)、結(jié)構(gòu)相似性(Structure Similarity Index Measure,SSIM)和梯度信息指標(Gradient-based fusion performance,QAB/F)。上述評價指標的數(shù)值越大,圖像的融合效果越好,對比實驗得到的客觀評價指標如圖9 所示。
圖9 客觀實驗結(jié)果對比Fig.9 Objective experimental result comparison
從圖9 可以看出,本文所提算法在EN、SF、JE、VIF 和QAB/F5 項指標中取得最優(yōu)平均值,且相比于DenseFuse 算法,客觀指標分別提高了16.11%、65.46%、7.96%、42.67%和33.24%。SF、JE 和VIF 較高表明融合圖像不僅具有較強的細節(jié)表達能力,而且符合人類視覺感知。QAB/F和EN 較高表明融合圖像信息量更豐富。對于SSIM,其反映了融合圖像與原始圖像的結(jié)構(gòu)相似性。由于所提算法引入了注意力融合模塊,要同時保留紅外圖像的顯著度信息和可見光圖像的紋理細節(jié)信息,而融合過程通過優(yōu)化平衡原始特征映射,會導致融合圖像中的某些結(jié)構(gòu)和邊緣弱化,進而使SSIM 相對較低。
3.2.3 算法運行時間比較
為了進一步評估算法的復雜性和運行效率,在測試集上對比了各算法的平均運行時間,比較結(jié)果如表3所示。實驗結(jié)果表明,本文算法的平均運行時間低于DenseFuse 和RFN-Nest,這是因為本文算法引入了多尺度密集連接模塊和注意力融合模塊,增加了模型的計算量。
表3 不同算法平均運行時間(單位:秒)Table 3 Average running time of different algorithms (units: s)
3.2.4 算法收斂性分析
本文算法訓練過程中的loss 下降曲線如圖10 所示,可以看出,網(wǎng)絡(luò)僅訓練30 輪損失值即下降至0.05,約在100 輪之后達到平衡且最終穩(wěn)定在0.024 2 左右,表明本文算法取得了較好的訓練效果,即損失函數(shù)收斂快,穩(wěn)定數(shù)值小,網(wǎng)絡(luò)訓練穩(wěn)定,圖像融合精度高。
圖10 損失函數(shù)曲線Fig.10 Loss function curve
所提算法主要包括特征優(yōu)化模塊、MSDC-Fem 模塊及注意力融合模塊。為驗證各模塊的有效性,通過加入不同模塊對TNO 數(shù)據(jù)集21 組圖像和6 個評價指標進行消融實驗,所有實驗均使用相同的數(shù)據(jù)集和參數(shù)設(shè)置。為了描述方便,將3 個模塊分別簡記為模塊A、模塊B 和模塊C。其中,在未使用特征優(yōu)化模塊時,網(wǎng)絡(luò)的輸入是原始可見光和紅外圖像;在未使用MSDC-Fem 模塊時,網(wǎng)絡(luò)改用普通單一尺度卷積提取特征;在未使用注意力融合模塊時,網(wǎng)絡(luò)采用線性疊加的融合規(guī)則。21 組圖像消融實驗客觀指標平均值的對比結(jié)果如表4 所示,最優(yōu)值用粗體標注。
表4 消融實驗客觀結(jié)果對比Table 4 Ablation experiments objectively results comparison
從表4 可以看出,相比于原始融合網(wǎng)絡(luò)(3 個模塊均不加入),引入特征優(yōu)化模塊,SF 和QAB/F分別提升了10.30%和14.29%,表明特征優(yōu)化模塊可使得融合結(jié)果在感知上更加清晰,細節(jié)更加豐富。引入MSDCFem 特征提取模塊,SF 提升了21.59%,表明在特征提取過程中多尺度模塊增大了網(wǎng)絡(luò)感受野特征提取范圍,密集連接模塊加強了特征的有效傳遞和重用,進而增強了融合結(jié)果的細節(jié)和結(jié)構(gòu)。引入注意力融合模塊,SF 和VIF 分別提升了6.68%和3.85%,表明注意力模型使得紅外與可見光圖像的關(guān)鍵特征得到更好的保留和強化。不同模塊協(xié)同訓練的結(jié)果表明:模塊A+模塊B,EN、SF 和SSIM 分別提升了7.10%、35.67%和6.18%;模塊A+模塊C,VIF 和QAB/F分別提升了6.71%和22.44%;模塊B+模塊C,SF、JE 和VIF 分別提升了45.91%、4.22%和25.49%。本文算法通過融合3 個設(shè)計模塊,在EN、SF、JE、VIF 和QAB/F5 個指標取得最優(yōu)值,且分別提升了12.20%、70.64%、5.81%、30.77%和48.99%,驗證了算法各模塊的優(yōu)勢。
本文提出了一種基于特征優(yōu)化和GAN 的紅外與可見光圖像融合算法。通過設(shè)計基于CSA 的自適應特征優(yōu)化模塊,解決了原始圖像紋理細節(jié)不清晰、目標對比度差等問題。在生成器中,構(gòu)造了多尺度密集連接模塊,可以使提取的特征更全面豐富;同時,在特征融合網(wǎng)絡(luò)中設(shè)計并聯(lián)式雙通道注意力模型,有效地避免了原始重要信息的丟失。在判別器中,設(shè)計雙判別器網(wǎng)絡(luò)結(jié)構(gòu),既保留了可見光紋理細節(jié)信息又保留了紅外熱顯著度信息。實驗結(jié)果表明,與其他6 種融合方法相比,本文方法不僅具有更好的主觀效果,且在客觀評價指標EN、SF、JE、VIF 和QAB/F中取得最優(yōu)值。相比于DenseFuse,客觀評價指標分別提高了16.11%、65.46%、7.96%、42.67%和33.24%,表明本文方法具有較好的融合效果。