• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于相鄰特征融合的紅外與可見光圖像自適應(yīng)融合網(wǎng)絡(luò)

      2023-01-30 10:05:58徐少平陳曉軍程曉慧
      模式識(shí)別與人工智能 2022年12期
      關(guān)鍵詞:特征提取紅外損失

      徐少平 陳曉軍 羅 潔 程曉慧 肖 楠

      紅外與可見光圖像的融合技術(shù)在智能監(jiān)控、目標(biāo)監(jiān)視、視頻分析等領(lǐng)域具有廣泛的應(yīng)用前景,有利于后續(xù)圖像處理任務(wù)的執(zhí)行,能輔助人們更全面和直觀地進(jìn)行分析或決策.根據(jù)發(fā)展歷程,現(xiàn)有紅外與可見光圖像融合方法可劃分為傳統(tǒng)融合方法和基于深度學(xué)習(xí)的融合方法兩類.

      傳統(tǒng)融合方法的執(zhí)行流程大致可分為特征提取、特征融合和圖像重構(gòu)3個(gè)階段[1-3].具體地,此類融合方法通常首先利用某種圖像變換方法將圖像從空域轉(zhuǎn)換到某個(gè)容易提取特征的轉(zhuǎn)換域表示,并提取相應(yīng)特征,然后利用某種融合規(guī)則將分別在源圖像(紅外圖像和可見光圖像)上提取的特征進(jìn)行融合,最后將融合后的特征逆變換回空域表示,從而完成圖像融合.Jin等[4]首先利用離散平穩(wěn)小波變換(Discrete Stationary Wavelet Transform,DSWT)將源圖像中的重要特征分解為一系列不同層次和空間分辨率的子圖集合;再利用離散余弦變換(Discrete Cosine Transform,DCT)根據(jù)不同頻率的能量分離子圖集合中的顯著細(xì)節(jié);然后利用局部空間頻率(Local Spatial Frequency,LSF)增強(qiáng)DCT系數(shù)的區(qū)域特征,為了融合源圖像中顯著特征,基于LSF預(yù)設(shè)閾值,采用分段策略完成DCT系數(shù)融合;最后,依次執(zhí)行DCT和DSWT的逆變換重構(gòu)融合圖像.任亞飛等[5]提出基于非下采樣剪切波(Non-subsampled Shearlet Transform,NSST)多尺度熵的紅外與可見光圖像融合方法,首先將源圖像進(jìn)行NSST多尺度分解,得到高頻信息與低頻信息;然后在不同尺度分別融合高頻信息和低頻信息,融合時(shí)的權(quán)重值由多尺度熵確定;最后將不同尺度的融合結(jié)果通過逆NSST變換獲得融合圖像.由此可見:在傳統(tǒng)融合方法的框架下,解決融合問題的關(guān)鍵在于如何有效地將紅外與可見光圖像場景內(nèi)容表示為特征及設(shè)計(jì)合理的融合規(guī)則,最大限度地在融合圖像中保留兩者之間互補(bǔ)性的內(nèi)容,而這些工作很大程度上依靠算法設(shè)計(jì)者積累的經(jīng)驗(yàn),因此融合效果具有很大的局限性,不能適應(yīng)復(fù)雜的場景變化.

      隨著近年來深度學(xué)習(xí)技術(shù)的興起及其在底層視覺(Low-level Vision)處理領(lǐng)域的成功應(yīng)用,研究者不斷提出各類用于紅外與可見光圖像融合的網(wǎng)絡(luò)并取得一系列的成果[6-10].根據(jù)紅外和可見光圖像特征融合階段不同,基于深度學(xué)習(xí)的融合方法可劃分為如下3種.

      1)早期融合.Ma等[6]提出Infrared and Visible Image Fusion via Detail Preserving Adversarial Lear-ning,實(shí)現(xiàn)圖像融合的網(wǎng)絡(luò)架構(gòu)僅是將網(wǎng)絡(luò)輸入改為可接受紅外圖像和可見光圖像的雙通道模式,故對原骨干網(wǎng)絡(luò)的改動(dòng)較小,實(shí)現(xiàn)簡單.然而,由于網(wǎng)絡(luò)結(jié)構(gòu)上幾乎沒有相應(yīng)實(shí)現(xiàn)圖像特征融合的機(jī)制,不能較好地分別提取紅外圖像與可見光圖像互補(bǔ)的有效信息,故這類方法獲得的融合效果較一般.

      2)中期融合[7].Li等[8]提出DenseFuse用于紅外和可見光圖像融合,網(wǎng)絡(luò)由編碼器、融合層和解碼器組成.其中,編碼器由1個(gè)卷積核大小為3×3的卷積層和稠密塊(Dense Block)組成,稠密塊中每層的輸出都連接到其它網(wǎng)絡(luò)層.相比文獻(xiàn)[6]的網(wǎng)絡(luò)結(jié)構(gòu),使用稠密塊能利用不同網(wǎng)絡(luò)層上的特征信息,有利于提取深度特征.然而任意層之間均建立連接關(guān)系并不能確保一定有利于提升特征融合的質(zhì)量.融合層能實(shí)現(xiàn)若干不同類型的融合規(guī)則操作,但融合層的網(wǎng)絡(luò)結(jié)構(gòu)還是相對簡單.解碼器由普通的連續(xù)4個(gè)卷積核大小為3×3的卷積層組成,對融合后的特征進(jìn)行調(diào)制并重構(gòu)為融合圖像.在損失函數(shù)方面,DenseFuse使用均方誤差(Mean Squared Error,MSE)和結(jié)構(gòu)相似性(Structure Similarity,SSIM)兩種類型的損失函數(shù),在融合后圖像與源圖像之間進(jìn)行約束.

      3)后期融合[9].Li等[10]將多尺度注意機(jī)制集成到生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)中,提出AttentionFGAN(Infrared and Visible Image Fusion Using Attention-Based GAN).加入多尺度注意力機(jī)制的目的在于捕獲更全面的空間信息,使生成器聚焦于紅外圖像的前景目標(biāo)信息和可見光圖像中的背景細(xì)節(jié)信息,而判別器更多地聚焦于注意區(qū)域而不是整個(gè)輸入圖像.在構(gòu)建網(wǎng)絡(luò)時(shí),將2個(gè)多尺度注意網(wǎng)絡(luò)和1個(gè)融合網(wǎng)絡(luò)共同組成AttentionFGAN的生成器.其中,2個(gè)多尺度注意網(wǎng)絡(luò)分別用于捕獲紅外圖像與可見光圖像的注意映射圖,隨后通過融合網(wǎng)絡(luò)將得到的注意映射圖重構(gòu)為最終的融合圖像.雖然AttentionFGAN通過多尺度注意機(jī)制提取更多的重要信息,但在并行的2個(gè)注意網(wǎng)絡(luò)之間無任何約束,而是通過融合網(wǎng)絡(luò)獲得融合圖像.這并不能有效引導(dǎo)注意網(wǎng)絡(luò)生成高質(zhì)量的映射,從而影響后繼的融合效果,這也是多數(shù)后期融合模型的弊端.

      由上述工作可知:基于深度學(xué)習(xí)的融合方法在設(shè)計(jì)使用上都是較方便的.然而,這也同時(shí)決定提升突破基于深度學(xué)習(xí)的融合方法性能的關(guān)鍵環(huán)節(jié)在于網(wǎng)絡(luò)架構(gòu)與損失函數(shù)設(shè)計(jì)兩方面.網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方面決定紅外圖像和可見光圖像特征提取與融合效果,損失函數(shù)設(shè)計(jì)方面決定融合后圖像的質(zhì)量是否能達(dá)到最優(yōu).

      為了最大限度地保留紅外圖像與可見光圖像中的互補(bǔ)信息,獲得在各項(xiàng)客觀評價(jià)指標(biāo)上具有最佳綜合優(yōu)勢的融合圖像,本文提出基于相鄰特征融合的紅外與可見光圖像自適應(yīng)融合網(wǎng)絡(luò)(Adjacent Feature Combination Based Adaptive Fusion Network,AFCAFNet).首先,在深入分析現(xiàn)有網(wǎng)絡(luò)模型實(shí)現(xiàn)特征融合主要策略的基礎(chǔ)上,以網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)簡單的前饋去噪卷積神經(jīng)網(wǎng)絡(luò)(Feed-Forward Denoising Convolutional Neural Networks,DnCNN)[11]骨干網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建融合網(wǎng)絡(luò),提出相鄰特征融合(Adjacent Feature Fusion,AFF)模塊,用于網(wǎng)絡(luò)中段之前各相鄰卷積層上特征信息的融合,減少網(wǎng)絡(luò)在特征提取與融合過程中的信息丟失.然后,組合利用MSE、SSIM和總變分(Total Variation,TV)3種類型損失函數(shù)構(gòu)建總損失函數(shù).為了讓總損失函數(shù)在網(wǎng)絡(luò)訓(xùn)練中發(fā)揮最佳的導(dǎo)引作用,利用內(nèi)容自適應(yīng)權(quán)重分配,根據(jù)紅外圖像和可見光圖像中提取的特征響應(yīng),分別為各類損失函數(shù)自動(dòng)設(shè)置紅外圖像和可見光圖像所占權(quán)重值.該權(quán)重系數(shù)值完全依據(jù)圖像內(nèi)容的特征響應(yīng)以確定(特征響應(yīng)值大小是由VGG16[12]圖像分類網(wǎng)絡(luò)模型提取并計(jì)算),可讓融合網(wǎng)絡(luò)輸出的融合圖像獲得符合人眼視覺感知特點(diǎn)的最優(yōu)融合效果.實(shí)驗(yàn)表明:AFCAFNet在各項(xiàng)普遍采用的客觀評價(jià)指標(biāo)上更具綜合優(yōu)勢,在視覺效果方面也更符合人眼習(xí)慣.

      1 相關(guān)工作

      1.1 卷積神經(jīng)網(wǎng)絡(luò)骨干結(jié)構(gòu)

      由Zhang等[11]提出的DnCNN骨干網(wǎng)絡(luò)原本被設(shè)計(jì)用于圖像復(fù)原任務(wù),是深度網(wǎng)絡(luò)成功應(yīng)用于底層視覺圖像處理的案例.DnCNN充分利用深度網(wǎng)絡(luò)、殘差學(xué)習(xí)和正則化技術(shù).DnCNN骨干網(wǎng)絡(luò)首先利用卷積層(Convolutional Layer,Conv)和修正線性單元(Rectifier Linear Unit,ReLU)處理輸入圖像,再在Conv和ReLU之間加入批歸一化(Batch Norma-lization,BN)操作,減少內(nèi)部協(xié)變量轉(zhuǎn)移(Internal Covariate Shift)對網(wǎng)絡(luò)參數(shù)選取的影響,加快網(wǎng)絡(luò)的收斂速度.通過連續(xù)的15個(gè)Conv+BN+ReLU和1個(gè)Conv卷積操作后,得到殘差估計(jì),輸入圖像和估計(jì)殘差相減可得最后的圖像,其中網(wǎng)絡(luò)中卷積層的卷積核大小為3×3.在網(wǎng)絡(luò)訓(xùn)練階段,最小化殘差圖像和網(wǎng)絡(luò)估計(jì)殘差的均方誤差以調(diào)整網(wǎng)絡(luò)參數(shù).

      DnCNN作為經(jīng)典的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),Conv+BN+ReLU核心模塊在已提出的深度網(wǎng)絡(luò)中占比較高,研究者們在其基礎(chǔ)上設(shè)計(jì)更多適合特定任務(wù)的變體.

      1.2 融合模型的網(wǎng)絡(luò)架構(gòu)

      根據(jù)基于深度學(xué)習(xí)融合方法中圖像特征融合所在階段(即早期、中期和后期)的不同,各選擇1個(gè)典型模型為例進(jìn)行簡要介紹.

      Ma等[13]基于GAN,提出FusionGAN,旨在通過生成器生成一個(gè)具有紅外圖像中主要強(qiáng)度信息和可見光圖像中額外梯度信息的融合圖像,判別器約束融合圖像具有更多可見光圖像的細(xì)節(jié),從而保證最終的融合圖像同時(shí)保持紅外圖像中的熱輻射信息和可見光圖像中的紋理信息.此外,生成器為幾個(gè)簡單的卷積層構(gòu)成,不同卷積層之間也無其它特殊處理.在損失函數(shù)的構(gòu)建中,生成器的損失函數(shù)除對抗損失外還加入信息損失項(xiàng).信息損失由MSE和TV這兩種損失項(xiàng)構(gòu)成.

      Ma等[14]提出STDFusionNet(Infrared and Visi-ble Image Fusion Network Based on Salient Target Detection),首先通過兩個(gè)并行的特征提取網(wǎng)絡(luò),分別選擇性地從紅外圖像和可見光圖像中各自提取顯著目標(biāo)特征和背景紋理特征,上述圖像特征經(jīng)過拼接(Concatenation,Concat)操作,再由重構(gòu)網(wǎng)絡(luò)對提取的特征進(jìn)行有效融合得到融合圖像.具體地,STDFusionNet中的特征提取網(wǎng)絡(luò)分支由1個(gè)Conv+LReLU(卷積核大小為5×5)組成的卷積層和連續(xù)的3個(gè)殘差復(fù)合塊構(gòu)成,LReLU(Leaky ReLU)表示帶泄露的修正線性單元.特征重構(gòu)網(wǎng)絡(luò)為4個(gè)殘差復(fù)合塊連接而成.殘差復(fù)合塊包含上下兩分支,上分支由Conv+LReLU+Conv+LReLU+Conv組成,卷積核大小依次為1×1、3×3和1×1,而下分支只是1個(gè)卷積核大小為1×1的卷積,最后將上下分支得到的特征塊相加后再接一個(gè)LReLU.在損失函數(shù)構(gòu)建方面,STDFusionNet采用1范數(shù)分別約束融合圖像和源圖像之間的像素?fù)p失和梯度損失.

      Zhang等[15]提出PMGI(Unified Image Fusion Net-work Based on Proportional Maintenance of Gradient and Intensity),基于梯度與強(qiáng)度的比例,利用兩個(gè)分支網(wǎng)絡(luò)(梯度路徑和強(qiáng)度路徑)對紅外圖像和可見光圖像進(jìn)行信息提取,還利用PTB(Path-Wise Transfer Block)模塊在兩個(gè)特征提取分支網(wǎng)絡(luò)之間相互交換信息.通過引入的PTB可完成梯度信息與強(qiáng)度信息的預(yù)融合工作,還為后續(xù)的特征提取塊提供額外信息.最終在網(wǎng)絡(luò)末端將不同的特征信息聯(lián)接后實(shí)現(xiàn)融合.通過2范數(shù)構(gòu)建融合圖像與源圖像之間的強(qiáng)度損失和梯度損失,構(gòu)成模型的最終損失函數(shù).

      分析3種典型的融合網(wǎng)絡(luò)結(jié)構(gòu)(FusionGAN、STDFusionNet和PMGI)可知:這些網(wǎng)絡(luò)的骨干核心結(jié)構(gòu)均是基于DnCNN中的Conv+BN+ReLU復(fù)合結(jié)構(gòu),通過設(shè)計(jì)具有不同卷積核大小的卷積層、替換激活層及改變重復(fù)次數(shù)等策略演化而來.

      基于早期特征融合的網(wǎng)絡(luò)架構(gòu)首先將源圖像按照某種融合策略進(jìn)行直接融合,由于圖像沒有專門獨(dú)立的特征提取過程,這一實(shí)現(xiàn)方案會(huì)引入源圖像中大量的冗余信息,導(dǎo)致后期圖像重建任務(wù)復(fù)雜困難.

      基于中期特征融合的網(wǎng)絡(luò)架構(gòu)首先對源圖像分別進(jìn)行特征提取,再將提取到的特征按照設(shè)定的融合策略進(jìn)行融合,最后通過相對較復(fù)雜的特征重建模塊,將融合的特征重建為最終融合圖像.雖然這種結(jié)構(gòu)的融合框架避免早期特征融合結(jié)構(gòu)中冗余信息的引入,但特征融合模塊相對而言還是較簡單(往往就是簡單的Concat操作),導(dǎo)致圖像特征的融合效果不佳,后期重構(gòu)融合圖像的圖像質(zhì)量仍有待改進(jìn).

      基于后期特征融合的網(wǎng)絡(luò)架構(gòu)構(gòu)建相對較復(fù)雜的特征提取網(wǎng)絡(luò),分別對源圖像進(jìn)行充分的特征提取,并直接將提取的特征塊融合并重構(gòu)融合圖像.這種后期融合的網(wǎng)絡(luò)架構(gòu)中圖像重構(gòu)模塊的處理能力相對較弱,導(dǎo)致最終的融合效果仍存在改進(jìn)空間.

      2 基于相鄰特征融合的紅外與可見光圖像自適應(yīng)融合網(wǎng)絡(luò)

      2.1 網(wǎng)絡(luò)架構(gòu)

      本文提出基于相鄰特征融合的紅外與可見光圖像自適應(yīng)融合網(wǎng)絡(luò)(AFCAFNet),框架如圖1所示.

      AFCAFNet同時(shí)接受紅外圖像和可見光圖像,在深度卷積神經(jīng)網(wǎng)絡(luò)海量參數(shù)作用下獲得輸出圖像(即融合后圖像).為了訓(xùn)練AFCAFNet,基于MSE、SSIM和TV這3種類型損失函數(shù)構(gòu)建總損失函數(shù).為了讓各損失函數(shù)自動(dòng)設(shè)置紅外圖像和可見光圖像所占權(quán)重值,設(shè)計(jì)自適應(yīng)損失函數(shù)權(quán)重分配器.該權(quán)重分配器利用VGG16網(wǎng)絡(luò)分別提取紅外圖像和可見光圖像不同網(wǎng)絡(luò)層次上的特征,在計(jì)算特征相應(yīng)值并歸一化處理后,為紅外圖像和可見光圖像分別

      圖1 AFCAFNet框架圖Fig.1 Framework of AFCAFNet

      生成相應(yīng)的權(quán)重值wir和wvis.該權(quán)重值在各損失函數(shù)構(gòu)建中發(fā)揮重要的調(diào)節(jié)作用,能最大限度地將紅外圖像或可見光圖像中顯著的紋理細(xì)節(jié)信息保留在最終的融合圖像中.

      2.2 骨干網(wǎng)絡(luò)

      理論上,主流的U-Net[16]、DenseNet(Dense Convo-lutional Network)[17]、ResNet(Residual Network)[18]等類型的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Net-work,CNN)均可用于構(gòu)建AFCAFNet骨干網(wǎng)絡(luò).現(xiàn)有主流的圖像融合網(wǎng)絡(luò)模型(即早期、中期和后期融合策略)均在特征提取、特征融合和融合圖像重構(gòu)這3個(gè)階段存在不同程度的弱勢,導(dǎo)致最終的融合效果不佳.為此,本文提出融合網(wǎng)絡(luò),將提取的圖像特征充分融合及融合后的特征經(jīng)過相對復(fù)雜的重構(gòu)過程調(diào)制,從而確保最終的融合圖像具有較高的圖像質(zhì)量.

      如圖1虛線框中主干網(wǎng)絡(luò)所示,經(jīng)過大量實(shí)驗(yàn)和篩選,本文選定以DnCNN為基礎(chǔ)構(gòu)建AFCAF-Net.AFCAFNet與DnCNN最大的區(qū)別如下.

      1)輸入端.將網(wǎng)絡(luò)輸入改為雙通道輸入,允許同時(shí)接受紅外圖像和可見光圖像.

      2)新增AFF模塊,加強(qiáng)信息的傳遞能力.由于DnCNN骨干網(wǎng)絡(luò)屬于前饋型網(wǎng)絡(luò),網(wǎng)絡(luò)特征依次由前向后傳遞,隨著網(wǎng)絡(luò)的深度增加,不同卷積層輸出的特征之間并未建立直接聯(lián)系,不利于充分融合特征.為此,本文提出的AFF模塊將上一個(gè)卷積層輸出的特征信息與當(dāng)前卷積層的輸出進(jìn)行融合后再傳遞到下一個(gè)卷積層.網(wǎng)絡(luò)中標(biāo)注的數(shù)字表示特征的通道數(shù),通道數(shù)從開始的2(表示待融合的2幅可見光圖像和紅外圖像)依次遞增到256,然后逐層降低,最終回落到1通道(即融合后圖像).由此可見,在網(wǎng)絡(luò)的前段和中段,圖像特征在不斷的提取和充分融合后再傳遞給下一層.而在網(wǎng)絡(luò)的中后段,融合后的網(wǎng)絡(luò)特征在不斷地逐層重構(gòu)后傳遞給下一層,最終獲得融合圖像.因此,AFCAFNet能保證圖像融合模型中的特征提取、特征融合和融合圖像重構(gòu)三項(xiàng)任務(wù)均得到更有序均衡地執(zhí)行.特別地,就整個(gè)主干網(wǎng)絡(luò)而言,AFCAFNet更容易搭建.

      AFF模塊框架圖如圖2所示.AFF模塊的特征提取與融合過程分為如下兩個(gè)分支執(zhí)行.在第一分支中,首先通過兩個(gè)并行的卷積層分別提取兩個(gè)輸入端的特征信息(每個(gè)卷積層由卷積和激活函數(shù)構(gòu)成),再利用連續(xù)的三個(gè)卷積層對提取的特征信息進(jìn)行再調(diào)制.在第二分支中,將兩個(gè)輸入端直接Concat后共同輸入一個(gè)卷積層中提取特征.最后,將兩個(gè)分支上提取的特征相加,完成融合.

      圖2 AFF模塊框架圖Fig.2 Framework of AFF block

      3)取消BN層.一般地,BN層能在訓(xùn)練時(shí)加快收斂,同時(shí)提高訓(xùn)練效果.然而,考慮到AFCAFNet主要利用通道數(shù)變化實(shí)現(xiàn)圖像特征融合,深度相對較淺而通道數(shù)較大,所以為了節(jié)省計(jì)算開銷未使用BN層.

      4)替換ReLU層.為了解決ReLU層無法處理負(fù)值的問題,替換為LReLU以解決梯度消失問題.

      AFCAFNet執(zhí)行的任務(wù)是圖像融合,其核心問題其實(shí)是在最終融合圖像中調(diào)節(jié)紅外圖像和可見光圖像對應(yīng)像素點(diǎn)所占權(quán)重值.相比DnCNN的圖像復(fù)原任務(wù),AFCAFNet對網(wǎng)絡(luò)的非線性映射能力要求更低,故最終共使用8層卷積層.其中,網(wǎng)絡(luò)中段之前的4層用于特征提取與融合,網(wǎng)絡(luò)后段的4層卷積層用于融合后的特征信息再調(diào)制,所以AFCAFNet采用的網(wǎng)絡(luò)架構(gòu)能確保特征提取、特征融合和融合圖像重構(gòu)3個(gè)子任務(wù)得到均衡的執(zhí)行,從而保證融合后圖像的質(zhì)量.

      總之,相對當(dāng)前主流的融合網(wǎng)絡(luò),AFCAFNet的拓?fù)浣Y(jié)構(gòu)和實(shí)現(xiàn)復(fù)雜度相對較低,但通過合理的網(wǎng)絡(luò)結(jié)構(gòu)與損失函數(shù)設(shè)計(jì),融合效果在各項(xiàng)客觀評價(jià)指標(biāo)上超越當(dāng)前通用的融合網(wǎng)絡(luò).

      2.3 損失函數(shù)

      VGG16最初用于圖像分類,主要提取反映圖像內(nèi)容的各網(wǎng)絡(luò)層次上的特征響應(yīng).本文提出利用上述特征響應(yīng),根據(jù)紅外圖像與可見光圖像在相同特征層上的響應(yīng)大小,自適應(yīng)生成紅外圖像與可見光圖像分別在MSE、SSIM和TV損失函數(shù)中的權(quán)重系數(shù).具體地,共提取VGG16最大池化層前面的5個(gè)卷積層上的特征響應(yīng),計(jì)算各損失函數(shù)中紅外圖像和可見光圖像各自的權(quán)重系數(shù).定義第i個(gè)卷積層上的特征響應(yīng)為Fi(·),這樣紅外圖像與可見光圖像在第i個(gè)卷積層上的特征響應(yīng)分別記為Fi(Iir)和Fi(Ivis).因此,第i個(gè)卷積層上拉普拉斯特征響應(yīng)值為:

      基于上述定義,將紅外圖像和可見光圖像的總體特征響應(yīng)值R(Iir)和R(Ivis)進(jìn)行歸一化處理,得到最終權(quán)重系數(shù):

      歸一化后的權(quán)重系數(shù)wir和wvis的值在[0,1]內(nèi),wir+wvis=1.基于權(quán)重系數(shù)wir和wvis,本文總損失函數(shù)定義為

      LTotal=LSSIM+λ1LMSE+λ2LTV,

      其中,λ1和λ2為超參數(shù),用于調(diào)節(jié)不同距離類型損失函數(shù)的權(quán)重.而MSE、SSIM與TV損失函數(shù)的定義如下:

      LMSE=wirMSE(Iir,Of)+wvisMSE(Ivis,Of),

      LSSIM=wir(1-SSIM(Iir,Of))+

      wvis(1-SSIM(Ivis,Of)),

      LTV=wirTV(Iir,Of)+wvisTV(Ivis,Of).

      具體地,MSE、SSIM與TV函數(shù)的計(jì)算公式如下:

      總之,為了獲得導(dǎo)引能力更強(qiáng)的損失函數(shù),本文綜合采用MSE、SSIM和TV這3種損失函數(shù).這是因?yàn)閷SE引入損失函數(shù),能在像素級(jí)別上約束圖像之間的差異程度,但僅靠MSE作為損失函數(shù)的網(wǎng)絡(luò)融合結(jié)果并不符合人眼視覺習(xí)慣.考慮到SSIM能從亮度(Luminance)、對比度(Contrast)和結(jié)構(gòu)(Stru-cture)度量圖像局部結(jié)構(gòu),于是在損失函數(shù)中加入SSIM,使融合后的圖像視覺效果更佳.此外,在紅外圖像與可見光圖像融合任務(wù)中,融合圖像中物體輪廓清晰與否是評判該圖像質(zhì)量優(yōu)劣的一項(xiàng)重要標(biāo)準(zhǔn).因此在損失函數(shù)中還引入TV損失項(xiàng),這是因?yàn)門V約束圖像的梯度信息,而梯度信息直接反映圖像中物體的輪廓、邊緣信息.特別地,在每種損失函數(shù)的構(gòu)建中,根據(jù)人眼感知特性的不同,為紅外與可見光圖像設(shè)置相應(yīng)的權(quán)重值,分別作用在MSE、SSIM和TV損失函數(shù)中.

      3 實(shí)驗(yàn)及結(jié)果分析

      3.1 實(shí)驗(yàn)設(shè)置

      為了全面對比AFCAFNet性能,選擇如下對比網(wǎng)絡(luò):RFN-Nest(End-to-End Fusion Network Archi-tecture)[7]、DenseFuse[8]、STDFusionNet[14]、PMGI[15]、GTF(Gradient Transfer Fusion)[19]、CSR(Convolu-tional Sparse Representation)[20]、DCHWT(Discrete Cosine Harmonic Wavelet)[21]、DDcGAN(Dual-Dis-criminator Conditional GAN)[22]和U2Fusion(Unified and Unsupervised End-to-End Image Fusion Net-work)[23].

      測試圖像包括RoadScene[23]、TNO[24]、VOT2020-RGBT數(shù)據(jù)集[25].RoadScene數(shù)據(jù)集包含221組紅外與可見光圖像,TNO數(shù)據(jù)集包含21組紅外與可見光圖像,VOT2020-RGBT數(shù)據(jù)集包含40組紅外與可見光圖像.

      測試結(jié)果采用的客觀評價(jià)指標(biāo)分別為:熵(Entropy,En)[26]、標(biāo)準(zhǔn)差(Standard Deviation,SD)[27]、互信息(Mutual Information,MI)[28]、差異相關(guān)性之和(Sum of Correlations of Differences,SCD)[29]、多尺度結(jié)構(gòu)相似性(Multi-scale SSIM,MS-SSIM)[30]、視覺信息保真度(Visual Information Fidelity,VIF)[31]和基于對比度失真的無參考圖像質(zhì)量度量(No-reference Image Quality Metric for Contrast Distortion,NIQMC)[32].指標(biāo)值越高,表明融合效果越優(yōu).此外,融合后圖像還采用人工視覺進(jìn)行主觀評價(jià).

      所有網(wǎng)絡(luò)都在相同硬件平臺(tái)(Intel(R) Xeon(R) CPU E5-1603 v4@2.80 GHz RAM 16 GB)和軟件環(huán)境(Window10操作系統(tǒng))上運(yùn)行.

      3.2 消融實(shí)驗(yàn)

      在本節(jié)中,將對自適應(yīng)權(quán)重分配器的效果、損失函數(shù)中超參數(shù)值的選擇和AFF模塊的效果進(jìn)行實(shí)驗(yàn)驗(yàn)證.所有參數(shù)及各種網(wǎng)絡(luò)結(jié)構(gòu)下的訓(xùn)練結(jié)果均在TNO數(shù)據(jù)集上獲得.

      3.2.1自適應(yīng)權(quán)重分配器

      有無使用自適應(yīng)權(quán)重分配器的融合效果對比如表1所示,表中N表示在損失函數(shù)中將wir和wvis設(shè)為0.5的情況(即不進(jìn)行自適應(yīng)調(diào)整),Y表示使用權(quán)重分配器自適應(yīng)生成權(quán)重系數(shù),黑體數(shù)字表示最優(yōu)值.由表1可知,權(quán)重系數(shù)在Y模式下獲得的各項(xiàng)評價(jià)指標(biāo)均優(yōu)于N模式,這表明權(quán)重分配器能自動(dòng)根據(jù)融合圖像內(nèi)容自適應(yīng)生成權(quán)重系數(shù),優(yōu)化損失函數(shù)對網(wǎng)絡(luò)參數(shù)的導(dǎo)引能力,保證融合圖像獲得更高的圖像質(zhì)量.

      表1 有無使用自適應(yīng)權(quán)重分配器的融合效果對比Table 1 Comparison of fusion results with and without adaptive weight assigner

      3.2.2損失函數(shù)

      為了確定損失函數(shù)的組成項(xiàng)目,對SSIM、MSE和TV這3種損失函數(shù)類型進(jìn)行組合分析,得到如表2所示的7種組合情況,表中黑體數(shù)字表示最優(yōu)值.這里,參與組合的子損失函數(shù)權(quán)重均設(shè)置為1.由表2可看出,以單個(gè)類型的損失函數(shù)作為網(wǎng)絡(luò)損失函數(shù)時(shí),SSIM的指標(biāo)值相對較優(yōu).在此基礎(chǔ)上添加MSE損失函數(shù)能使融合效果在7個(gè)指標(biāo)上均有較大幅度的提升.雖然進(jìn)一步添加TV損失函數(shù)后SD值有所下降,但其它6個(gè)指標(biāo)值均有所上升.因此,確定AFCAFNet損失函數(shù)的組成形式為這3種類型損失函數(shù)的某種加權(quán)組合.

      在確定好損失函數(shù)的組合后,為了最佳融合效果,采用網(wǎng)格搜索法確定損失函數(shù)中超參數(shù)λ1和λ2的最優(yōu)值.分別以步長0.5 和0.1 進(jìn)行粗精兩級(jí)搜索,最終發(fā)現(xiàn)λ1=20,λ2=29.3時(shí)的融合結(jié)果在7個(gè)指標(biāo)中均取得最優(yōu)值.詳細(xì)情況如表3所示,表中黑體數(shù)字表示最優(yōu)值.

      表2 不同損失函數(shù)組合模式下的融合效果對比Table 2 Fusion result comparison of different combinations of loss functions

      表3 λ1=20,λ2不同時(shí)的融合效果對比Table 3 Comparison of fusion results with different values of λ2 and λ1=20

      3.2.3相鄰特征融合模塊

      為了進(jìn)一步驗(yàn)證AFF模塊的有效性,將AFF直接替換成最簡化的Concat操作(即僅完成特征信息的連接而不含特征信息交互機(jī)制),保持其它參數(shù)不變訓(xùn)練替換后的網(wǎng)絡(luò),將訓(xùn)練后的模型與AFCAFNet進(jìn)行對比,結(jié)果如表 4所示.由表4可知,引入AFF模塊后,融合網(wǎng)絡(luò)的性能在7項(xiàng)指標(biāo)上均有提升.

      表4 使用拼接操作和AFF模塊的融合效果對比Table 4 Fusion result comparison of concatenation operation and AFF block

      為了分析AFF模塊兩分支中用于特征信息調(diào)制的卷積個(gè)數(shù)對融合性能的影響,設(shè)置不同的卷積個(gè)數(shù),具體結(jié)果如表5所示,表中第1列卷積個(gè)數(shù)括號(hào)內(nèi)的2個(gè)數(shù)字分別對應(yīng)上、下兩分支的卷積個(gè)數(shù),黑體數(shù)字表示最優(yōu)值.由表5可看出,當(dāng)上、下兩分支的卷積個(gè)數(shù)分別設(shè)置為3和1時(shí),所有指標(biāo)值最高,故在AFF模塊中的卷積層個(gè)數(shù)最終采用這種配置.

      表5 AFF模塊中上下分支卷積個(gè)數(shù)不同時(shí)的融合效果對比Table 5 Comparison of fusion results with different convolution numbers in upper and lower branches of AFF block

      3.2.4主干網(wǎng)絡(luò)結(jié)構(gòu)

      為了驗(yàn)證主干網(wǎng)絡(luò)結(jié)構(gòu)不同時(shí)的效果,設(shè)計(jì)圖3所示的4種網(wǎng)絡(luò)結(jié)構(gòu),(a)、(b)、(c)和(d)網(wǎng)絡(luò)結(jié)構(gòu)中的最大通道數(shù)分別為128、192、256和320.具體地,每個(gè)網(wǎng)絡(luò)的特征提取層數(shù)量與特征重構(gòu)層一致,在相鄰的兩個(gè)特征提取層之間包含一個(gè)AFF模塊,并且在特征重構(gòu)過程中,通道數(shù)每次均減小為上一層的一半,直至為1.

      測試圖3的四種網(wǎng)絡(luò)結(jié)構(gòu),具體融合效果如表6所示.由表可知,圖3(c)的網(wǎng)絡(luò)結(jié)構(gòu)在7個(gè)指標(biāo)中均表現(xiàn)最優(yōu),因此可采用這一網(wǎng)絡(luò)結(jié)構(gòu)作為AFCAFNet最終的網(wǎng)絡(luò)配置.

      (a) (b)

      表6 不同主干網(wǎng)絡(luò)的融合效果對比Table 6 Fusion result comparison of different backbone networks

      3.3 實(shí)驗(yàn)結(jié)果分析

      3.3.1客觀評價(jià)

      為了全面客觀對比AFCAFNet的融合性能,在RoadScene、TNO、VOT2020-RGBT這3個(gè)基準(zhǔn)測試集上進(jìn)行對比實(shí)驗(yàn),結(jié)果分別如表7~表9所示,表中黑體數(shù)字表示最優(yōu)值.由表可見,在3個(gè)數(shù)據(jù)集上,AFCAFNet在各項(xiàng)指標(biāo)上共獲得14次最優(yōu),STDFusionNet獲得5次最優(yōu),RFN-Nest獲得2次最優(yōu),其它網(wǎng)絡(luò)均未獲得最優(yōu).所以,AFCAFNet具有最優(yōu)的綜合性能.需要特別指出的是,即使獲得數(shù)次最優(yōu)的STDFusionNet和RFN-Nest都屬于中期融合方法,但其融合性能仍不如AFCAFNet.

      表7 各網(wǎng)絡(luò)在RoadScene數(shù)據(jù)集上的指標(biāo)值對比Table 7 Index values of different networks on RoadScene dataset

      表8 各網(wǎng)絡(luò)在TNO數(shù)據(jù)集上的指標(biāo)值對比Table 8 Index values of different networks on TNO dataset

      表9 各網(wǎng)絡(luò)在VOT2020數(shù)據(jù)集上的指標(biāo)值對比Table 9 Index values of different networks on VOT2020 dataset

      3.3.2主觀評價(jià)

      為了直觀評價(jià)各對比網(wǎng)絡(luò)獲得融合圖像的融合效果,進(jìn)行人工視覺主觀對比,結(jié)果如圖4所示,重點(diǎn)觀察圖中矩形框內(nèi)圖像.由圖4紅色矩形框所在的區(qū)域可看出,GTF、DCHWT、STDFusionNet、DDc-GAN和U2Fusion的融合結(jié)果存在白化或物體偏暗的現(xiàn)象,DenseFuse、RFN-Nest的人物(藍(lán)框內(nèi))不夠清晰,PMGI不能較好保留可見光圖像中的紋理信息(黃框內(nèi)).盡管CSR取得較優(yōu)效果,但相比AFCAFNet,在視覺效果上仍處于劣勢.綜上所述,AFCAFNet輸出的融合圖像具有目標(biāo)對象輪廓更清晰、細(xì)節(jié)紋理更豐富的優(yōu)勢.

      (a)可見光圖像 (b)紅外圖像 (c)GTF (d)ConvSR(a)Visual image (b)Infrared image

      4 結(jié) 束 語

      本文在DnCNN骨干網(wǎng)絡(luò)的基礎(chǔ)上,全面改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),提出基于相鄰特征融合的紅外與可見光圖像自適應(yīng)融合網(wǎng)絡(luò)(AFCAFNet).在基準(zhǔn)測試數(shù)據(jù)集上的實(shí)驗(yàn)表明,AFCAFNet輸出的融合圖像在主、客觀指標(biāo)上均具有一定優(yōu)勢.今后將進(jìn)一步改進(jìn)網(wǎng)絡(luò)架構(gòu)和損失函數(shù),提高網(wǎng)絡(luò)的泛化能力,以便將該網(wǎng)絡(luò)推廣到諸如多曝光圖像、多模態(tài)醫(yī)學(xué)圖像等其它融合任務(wù)上.

      猜你喜歡
      特征提取紅外損失
      網(wǎng)紅外賣
      少問一句,損失千金
      胖胖損失了多少元
      閃亮的中國紅外『芯』
      金橋(2021年4期)2021-05-21 08:19:20
      TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
      電子制作(2019年7期)2019-04-25 13:17:14
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      Bagging RCSP腦電特征提取算法
      基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
      一般自由碰撞的最大動(dòng)能損失
      城市| 抚顺市| 秦安县| 尚志市| 沈阳市| 全南县| 河北省| 元朗区| 崇州市| 呼图壁县| 霍山县| 吴忠市| 东宁县| 招远市| 闵行区| 循化| 林西县| 怀仁县| 峨眉山市| 长治市| 井研县| 顺义区| 库伦旗| 牙克石市| 叙永县| 甘泉县| 太原市| 龙南县| 百色市| 青海省| 高邑县| 沙雅县| 木里| 五寨县| 当涂县| 团风县| 中西区| 育儿| 阿勒泰市| 辛集市| 长宁县|