姜曉林,王志社
可見光與紅外圖像結(jié)構(gòu)組雙稀疏融合方法研究
姜曉林,王志社
(太原科技大學(xué) 應(yīng)用科學(xué)學(xué)院,山西 太原 030024)
傳統(tǒng)的可見光與紅外稀疏表示融合方法,采用圖像塊構(gòu)造解析字典或者學(xué)習(xí)字典,利用字典的原子表征圖像的顯著特征。這類方法存在兩個(gè)問題,一是沒有考慮圖像塊與塊之間的聯(lián)系,二是字典的適應(yīng)能力不夠并且復(fù)雜度高。針對這兩個(gè)問題,本文提出可見光與紅外圖像結(jié)構(gòu)組雙稀疏融合方法。該方法首先利用圖像的非局部相似性,將圖像塊構(gòu)建成圖像相似結(jié)構(gòu)組,然后對圖像相似結(jié)構(gòu)組進(jìn)行字典訓(xùn)練,采用雙稀疏分解模型,有效結(jié)合解析字典和學(xué)習(xí)字典的優(yōu)勢,降低了字典訓(xùn)練的復(fù)雜度,得到的結(jié)構(gòu)字典更加靈活,適應(yīng)性提高。該方法能夠有效提高紅外與可見光融合圖像的視覺效果,經(jīng)對比實(shí)驗(yàn)分析,在主觀和客觀評價(jià)上都優(yōu)于傳統(tǒng)的稀疏表示融合方法。
圖像融合;非局部相似性;結(jié)構(gòu)組;雙稀疏模型
可見光成像通過捕捉物體反射的可見光信息進(jìn)行成像,得到的可見光圖像目標(biāo)、場景等的細(xì)節(jié)清晰,對比度較高,便于人眼視覺觀察,但是成像過程易受干擾,對成像效果造成一定的影響。紅外成像技術(shù)捕捉物體的熱輻射信號并將其轉(zhuǎn)化為圖像信號,因此對惡劣環(huán)境條件的干擾具有較好的抵抗能力;得到的紅外圖像可以有效區(qū)分目標(biāo)和背景,但通常分辨率較低、紋理信息較差。因此可見光與紅外圖像具有互補(bǔ)性,將兩類圖像的有效信息進(jìn)行融合,能夠得到信息全面、視覺效果較好的圖像,有助于對目標(biāo)的定位、分析、跟蹤等,從而提高紅外探測系統(tǒng)的性能[1-2]。稀疏表示理論為圖像融合提供了新的方法,被應(yīng)用于各類圖像融合[3-6],同時(shí)在紅外與可見光圖像的融合中表現(xiàn)出良好的性能[7-9]。傳統(tǒng)稀疏表示方法通常存在以下不足之處[10]:首先,傳統(tǒng)基于塊的稀疏表示方法將圖像進(jìn)行分塊,在計(jì)算過程中塊與塊之間是相互獨(dú)立的,沒有考慮塊之間的相似性;其次,字典學(xué)習(xí)是一個(gè)大規(guī)模、高度非凸的問題,計(jì)算復(fù)雜度較高。
非局部相似性闡述了圖像中不同位置具有相似的紋理結(jié)構(gòu)信息,它是圖像的一個(gè)重要特征。將這些相似結(jié)構(gòu)中包含的冗余信息運(yùn)用到圖像處理中,能提高圖像處理的效果。因此,非局部相似性在圖像處理的多個(gè)領(lǐng)域都受到了研究者的關(guān)注[11-13]。Zhang等[10]受非局部均值去噪濾波的啟發(fā),提出組稀疏表示模型,利用非局部相似性構(gòu)造結(jié)構(gòu)組矩陣,對結(jié)構(gòu)組矩陣進(jìn)行奇異值分解(singular value decomposition,SVD)及迭代,得到結(jié)構(gòu)組對應(yīng)的子字典。在圖像融合領(lǐng)域,張曉等[14]將組稀疏理論應(yīng)用于遙感圖像融合,通過非局部相似性構(gòu)造結(jié)構(gòu)組,在組內(nèi)通過SVD求解子字典及稀疏系數(shù),之后通過通用分量融合框架進(jìn)行融合,實(shí)驗(yàn)結(jié)果有效地保留了源圖像信息,但是植被的融合效果較不理想。上述方法都是在規(guī)定鄰域內(nèi)匹配相似塊構(gòu)造結(jié)構(gòu)組,對結(jié)構(gòu)組進(jìn)行SVD求解子字典及稀疏系數(shù),結(jié)構(gòu)組與子字典一一對應(yīng),在利用子字典對結(jié)構(gòu)組進(jìn)行稀疏分解時(shí),字典信息只能片面地反映結(jié)構(gòu)組信息。Li等[15]提出非局部稀疏K-SVD字典學(xué)習(xí)圖像融合方法,利用非局部相似性構(gòu)造結(jié)構(gòu)組矩陣,通過結(jié)構(gòu)組矩陣學(xué)習(xí)字典,求解稀疏系數(shù),在多種圖像的融合中均取得了較好的效果,由于結(jié)構(gòu)組向量化得到的矩陣維度較高,導(dǎo)致字典學(xué)習(xí)的復(fù)雜度增加。稀疏表示字典的性能直接影響稀疏表示的效果,字典通常分為兩大類,一個(gè)是解析字典[16],另一個(gè)是學(xué)習(xí)字典[8, 17]。解析字典高度結(jié)構(gòu)化,通過對數(shù)據(jù)建立一種公式化的數(shù)學(xué)模型,可以快速進(jìn)行數(shù)值實(shí)現(xiàn),但是存在適應(yīng)性不足的問題;學(xué)習(xí)字典通過訓(xùn)練樣本進(jìn)行學(xué)習(xí),更具有適應(yīng)性,在實(shí)際應(yīng)用中性能更好,但是模型更加復(fù)雜且計(jì)算復(fù)雜度較高[15]。Rubinstein等[18]提出了雙稀疏模型,是一種將分析字典和訓(xùn)練字典相結(jié)合的參數(shù)化訓(xùn)練方法,該模型結(jié)合了兩種字典的優(yōu)勢,使得字典表示簡單靈活,且具有適應(yīng)性。Elad等[19]在雙稀疏模型的基礎(chǔ)上提出一種在線稀疏字典學(xué)習(xí)方法(online sparse dictionary learning,OSDL),建立新的剪切小波字典作為基字典,采用在線學(xué)習(xí)方法,進(jìn)一步降低了字典學(xué)習(xí)的計(jì)算復(fù)雜度,提高了字典的適應(yīng)性及可處理信號的維度。上述字典學(xué)習(xí)方法在訓(xùn)練樣本的選擇過程中,忽略了圖像的非局部相似性,會造成稀疏編碼不準(zhǔn)確的問題。
本文將圖像的非局部相似性應(yīng)用到可見光與紅外圖像融合,尋找圖像塊對應(yīng)的相似塊,原圖像塊與它的相似塊組成相似組,對相似組采用組向量化方法構(gòu)造結(jié)構(gòu)組向量,進(jìn)而構(gòu)造結(jié)構(gòu)組矩陣;將構(gòu)造的結(jié)構(gòu)組矩陣與雙稀疏模型進(jìn)行結(jié)合,提出可見光與紅外圖像結(jié)構(gòu)組雙稀疏融合方法。該方法訓(xùn)練得到的結(jié)構(gòu)組字典能全面地反映源圖像的結(jié)構(gòu)信息,同時(shí)相似組內(nèi)圖像塊對應(yīng)相同的字典原子,在增強(qiáng)字典適應(yīng)性、提高字典表征源圖像信息的能力、降低字典訓(xùn)練復(fù)雜度的同時(shí),提高了圖像的融合性能。
字典訓(xùn)練樣本選取及結(jié)構(gòu)組構(gòu)造過程如圖1所示,具體的構(gòu)造步驟如下:
1)訓(xùn)練樣本隨機(jī)塊選取:通過滑動窗技術(shù),從源圖像中隨機(jī)選取個(gè)圖像塊X=[1,2, …,x]。
2)訓(xùn)練樣本結(jié)構(gòu)組構(gòu)造
①相似組構(gòu)建:對每一個(gè)初始圖像塊x,在大小為×的鄰域內(nèi),采用歐式距離計(jì)算出與x最相似的個(gè)圖像塊。初始塊與相似塊構(gòu)成一個(gè)相似組g,每個(gè)相似組中共有+1個(gè)圖像塊,共得到個(gè)圖像塊的個(gè)相似組G=[1,2, …,g]。
圖1 訓(xùn)練樣本結(jié)構(gòu)組構(gòu)造
稀疏表示的基本思想是將少數(shù)基本信號進(jìn)行線性組合,對原始信號進(jìn)行表示[20]。也就是,給定一個(gè)冗余的字典∈R×,這個(gè)字典包含個(gè)維的信號,這些信號是由字典矩陣的列構(gòu)成的。在字典上,信號∈R可以用=或者≈進(jìn)行重構(gòu)。向量∈R為信號利用字典表示的系數(shù)。由于字典是冗余的,所以向量并不是唯一的。因此,稀疏模型被作為求解非零分量最少的解向量的一種方法。當(dāng)忽略噪聲時(shí),對信號的求解過程可以用如下的優(yōu)化問題表示:
當(dāng)不精確地考慮噪聲時(shí),求解過程可以用如下的優(yōu)化問題表示:
式中:||||0是0范數(shù),求解向量中非零元素的個(gè)數(shù),∈R×,∈R×(>)是過完備字典;≥0是允許的誤差閾值,預(yù)先設(shè)定。
OSDL算法采用對字典原子進(jìn)行順序更新的字典學(xué)習(xí)方法,字典學(xué)習(xí)過程可以表示為:
本文提出的可見光與紅外結(jié)構(gòu)組雙稀疏融合方法,利用非局部相似性構(gòu)造結(jié)構(gòu)組矩陣,通過結(jié)構(gòu)組進(jìn)行字典訓(xùn)練與稀疏分解。因此在融合前要通過相似組向量化對源圖像矩陣進(jìn)行擴(kuò)展,融合過程結(jié)束后,進(jìn)行逆變換得到相應(yīng)的圖像塊矩陣。融合框架如圖2所示,過程如下:
2)訓(xùn)練樣本選取及字典學(xué)習(xí):對于得到的樣本矩陣,采用OSDL方法訓(xùn)練字典,得到稀疏字典。
5)求解融合稀疏系數(shù):結(jié)構(gòu)組向量V1、V2分別對應(yīng)稀疏系數(shù)向量1、2,對得到的稀疏系數(shù)向量進(jìn)行+1等分,得到1()、2()、=1, 2, …,+1,對稀疏系數(shù)采取絕對值取大的方式得到融合系數(shù),使得融合圖像中能保留更多重要的信息:
為了驗(yàn)證本文方法的性能,將本文方法與3種方法進(jìn)行比較,采用“UNcape”、“Kaptein”、“Trees”、“Road”4組可見光與紅外圖像進(jìn)行對比融合實(shí)驗(yàn)。采用的對比融合方法分別為:基于稀疏表示(Sparse representation,SR)的融合方法、基于自適應(yīng)稀疏表示(Adaptive sparse representation,ASR)的融合方法、基于聯(lián)合稀疏表示(Joint sparse representation,JSR)的融合方法。本文方法的參數(shù)設(shè)置為:①滑動窗大小為15×15像素;②圖像塊的大小為8×8像素;③相鄰塊之間的重疊像素為7;④圖像塊對應(yīng)的相似塊個(gè)數(shù)為3;⑤算法迭代次數(shù)為5。
圖2 融合方法總體框架
為了對實(shí)驗(yàn)結(jié)果準(zhǔn)確評價(jià),采用5種評價(jià)指標(biāo)對算法性能進(jìn)行客觀評價(jià)。0綜合了與人視覺系統(tǒng)相關(guān)的亮度失真度、對比度失真度、相關(guān)性損失3個(gè)因素,對融合圖像的失真度進(jìn)行評價(jià)。W反映了源圖像向融合圖像傳遞了多少顯著信息。PSNR(Peak signal to noise ratio)為峰值信噪比,衡量圖像中的噪聲水平。E和Q/F分別從局部和整體反映了融合圖像對源圖像邊緣細(xì)節(jié)信息的融合效果。以上5個(gè)評價(jià)指標(biāo)的數(shù)值越大,說明融合效果越好。
4組圖像的實(shí)驗(yàn)結(jié)果分別如圖3~6所示,每組圖中:(a)和(b)分別為可見光與紅外圖像,(c)、(d)、(e)、(f)分別為基于SR、ASR、JSR及本文方法得到的融合圖像。
圖3為“UNcape”圖像及實(shí)驗(yàn)結(jié)果,從源圖像中可以觀察到:可見光圖像中,道路、圍欄、房屋及樹木清晰,不能辨別出人的位置;紅外圖像中,可以觀察到人的位置和清晰的輪廓,但道路及樹木的細(xì)節(jié)信息模糊。SR方法的融合圖像邊緣、紋理等細(xì)節(jié)信息模糊,嚴(yán)重失真;ASR方法融合結(jié)果中較好地保留了源圖像中的細(xì)節(jié),但人、圍欄和房屋的邊緣模糊,有偽影;JSR方法融合結(jié)果人的位置及輪廓清晰,圖像對比度較高,產(chǎn)生一定程度的失真,圍欄和房屋的邊緣模糊不清,樹木的細(xì)節(jié)信息融合較差。本文方法圖像中的細(xì)節(jié)信息及邊緣清晰,視覺效果較優(yōu)。
圖4為“Kaptein”圖像及實(shí)驗(yàn)結(jié)果,從源圖像中可以觀察到:可見光圖像中,路燈、樹木、建筑物及地面是清晰的,但人被樹木隱藏,難以辨別輪廓;相比之下,紅外圖像中,人的位置及輪廓清晰,路燈、樹木、建筑物及地面的輪廓可見,但細(xì)節(jié)模糊。SR方法融合結(jié)果較好地保留了源圖像中的輪廓信息,但細(xì)節(jié)信息丟失嚴(yán)重;ASR方法融合結(jié)果樹木及地面的細(xì)節(jié)信息較為清楚,但人和建筑物的輪廓模糊;JSR方法融合結(jié)果中人的位置及輪廓清楚,圖像對比度較高,部分建筑物的細(xì)節(jié)丟失。本文方法融合結(jié)果中人的位置及輪廓清晰,樹木、建筑物及地面的細(xì)節(jié)信息保持較好。
圖5~圖6分別為“Trees”及“Road”源圖像及實(shí)驗(yàn)結(jié)果,與“UNcape”的實(shí)驗(yàn)結(jié)果一致:本文提出的方法可以很好地保留源圖像的細(xì)節(jié)信息,得到的融合圖像邊緣清晰,亮度適中。
表1~表4分別為“UNcape”、“Kaptein”、“Trees”及“Road”融合結(jié)果的客觀評價(jià)指標(biāo),表5為4組圖像融合結(jié)果評價(jià)指標(biāo)的平均值,表中最優(yōu)結(jié)果加粗表示。通過客觀評價(jià)指標(biāo)分析,本文提出的方法在對原圖像顯著信息提取及邊緣信息保留上效果突出,且融合圖像失真度最低,雖然噪聲抑制上表現(xiàn)不突出,但從整體上看,本文提出的方法優(yōu)于另外3種方法。
圖3 “UNcape”圖像及實(shí)驗(yàn)結(jié)果
圖4 “Kaptein”圖像及實(shí)驗(yàn)結(jié)果
Fig.4“Kaptein”image and the fusion results
表2 圖“Kaptein”融合結(jié)果的客觀評價(jià)指標(biāo)
表3 圖“Trees”融合結(jié)果的客觀評價(jià)指標(biāo)
表4 圖“Road”融合結(jié)果的客觀評價(jià)指標(biāo)
表5 不同融合方法評價(jià)指標(biāo)的平均值
本文提出了可見光與紅外圖像結(jié)構(gòu)組雙稀疏融合方法,該方法將圖像非局部相似性與雙稀疏模型的優(yōu)點(diǎn)相結(jié)合:首先利用圖像相似性構(gòu)建圖像相似結(jié)構(gòu)組,然后利用相似結(jié)構(gòu)組進(jìn)行字典訓(xùn)練及圖像融合;在字典訓(xùn)練過程中,采用雙稀疏模型,提高了字典的適應(yīng)性,字典學(xué)習(xí)的復(fù)雜度減小。通過實(shí)驗(yàn)證明,該方法圖像融合性能較傳統(tǒng)稀疏表示圖像融合方法得到了提高,在主觀和客觀評價(jià)上都取得了較好的效果。
[1] MA J Y, MAY, LIC. Infrared and visible image fusion methods and applications: A survey[J]., 2019(45): 153-178.
[2] WANGZ S, YANGF B, PENG Z H, et al. Multi-sensor image enhanced fusion algorithm based on NSST and top-hat transformation[J]., 2015, 126(23): 4184-4190.
[3] Aishwarya N, ThangammalC B. An image fusion framework using novel dictionary based sparse representation[J]., 2017, 76(11): 21869-21888.
[4] CHANGL H, FENG X C, ZHANG R, et al. Image decomposition fusion method based on sparse representation and neural network[J]., 2017, 56(28): 7969-7977.
[5] Kim M, Han D K, Ko H. Joint patch clustering-based dictionary learning for multimodal image fusion[J]., 2016(27): 198-214.
[6] ZHU Z Q, YIN H P, CHAI Y, et al. A Novel Multi-modality Image Fusion Method Based on Image Decomposition and Sparse Representation[J]., 2018(432): 516-529.
[7] WANG R, DU L F. Infrared and visible image fusion based on random projection and sparse representation[J]., 2014, 35(5): 1640-1652.
[8] LIU C H, QI Y, DING W R. Infrared and visible image fusion method based on saliency detection in sparse domain[J]., 2017(83): 94-102.
[9] YIN M, DUAN P H, LIU W, et al. A novel infrared and visible image fusion algorithm based on shift-invariant dual-tree complex shearlet transform and sparse representation[J]., 2016, 226(22): 182-191.
[10] ZHANG J, ZHAO D B, WEN G. Group-based sparse representation for image restoration[J]., 2014, 23(8): 3336-3351.
[11] WU Y, FANG L Y, LI S T, Weighted Tensor Rank-1 Decomposition for Nonlocal Image Denoising[J]., 2019, 28(6): 2719-2730.
[12] Eslahi N, Aghagolzadeh A. Compressive Sensing Image Restoration Using Adaptive Curvelet Thresholding and Nonlocal Sparse Regularization[J]., 2016, 25(7): 3126-3140.
[13] CHEN H,HE X, TENG Q, et al. Single image super resolution using local smoothness and nonlocal self-similarity priors[J]., 2016(43): 68-81.
[14] 張曉, 薛月菊, 涂淑琴, 等. 基于結(jié)構(gòu)組稀疏表示的遙感圖像融合[J]. 中國圖象圖形學(xué)報(bào), 2016, 21(8): 1106-1118.
ZHANG Xiao, XUE Yueju, TU Shuqin, et al. Remote sensing image fusion based on structuralgroup sparse representation[J]., 2016, 21(8): 1106-1118.
[15] LI Y, LI F, BAI B, et al. Image fusion via nonlocal sparse K-SVD dictionary learning[J]., 2016, 55(7): 1814-1823.
[16] BIN Y, CHAO Y, GUO Y H. Efficient image fusion with approximate sparse representation[J]., 2016, 14(4): 1650024- 1650039.
[17] WANG K P, QI G Q, ZHU Z Q, et al. A Novel Geometric Dictionary Construction Approach for Sparse Representation Based Image Fusion[J]., 2017, 19(7): 306-323.
[18] Rubinstein R, Zibulevsky M, Elad M. Double Sparsity: Learning Sparse Dictionaries for Sparse Signal Approximation[J]., 2010, 58(3): 1553-1564.
[19] Sulam J, Ophir B, Zibulevsky M, et al. Trainlets: Dictionary Learning in High Dimensions[J]., 2016, 64(12): 3180-3193.
[20] ZHANG Q, LIU Y, S Blum R, et al. Sparse Representation based Multi-sensor Image Fusion for Multi-focus and Multi-modality Images: A Review[J]., 2017(40): 57-75.
Visible and Infrared Image Fusion Based on Structured Group and Double Sparsity
JIANG Xiaolin,WANG Zhishe
(School of Applied Science, Taiyuan University of Science and Technology, Taiyuan 030024, China)
s:In the traditional visible and infrared image fusion based on sparse representation, the analytical and learning dictionaries are constructed by using image blocks, and the atoms of the dictionaries are used to represent the salient features of the image. This method creates two problems. First, the relationships among the patches are ignored. Second, the dictionaries have poor adaptability and are complicated to learn. Aiming at solving these two problems, a visible and infrared image fusion method based on a structured group and double sparsity is proposed in this study. Image blocks are constructed into similarity structure groups by using the non-local similarity of the image. Then, the dictionary is built based on similarity structure groups and a double sparsity model to reduce the complexity of dictionary training, thereby improving the analytical and learning dictionaries. The obtained training dictionary is more adaptable, and the complexity of dictionary training is reduced. The experimental results demonstrate that compared with the traditional sparse representation fusion method, this method can effectively improve the visual effect of the fused image and is superior in terms of both subjective and objective evaluation.
image fusion, non-local self-similarity, structured group, double sparsity model
TP391.41
A
1001-8891(2020)05-0272-07
2019-07-25;
2019-12-24.
姜曉林(1994-),女,碩士研究生,研究方向?yàn)閳D像融合。E-mail:haoxiaolin2@126.com。
王志社(1982-),男,副教授,博士,研究方向?yàn)榧t外圖像處理、多模態(tài)圖像配準(zhǔn)和圖像融合。E-mail:wangzs@tyust.edu.cn。
山西省高等學(xué)??萍紕?chuàng)新項(xiàng)目(2017162);太原科技大學(xué)博士啟動基金(20162004);山西省“1331”工程重點(diǎn)創(chuàng)新團(tuán)隊(duì)建設(shè)計(jì)劃資助(2019 3-3);山西省面上自然基金項(xiàng)目(201901D111260)