摘要:針對(duì)現(xiàn)有基于深度神經(jīng)網(wǎng)絡(luò)的圖像超分辨率重建,存在未完全考慮層次特征信息的提取和利用問(wèn)題,本文提出了一種漸進(jìn)式逐層密集連接網(wǎng)絡(luò)。通過(guò)設(shè)計(jì)一種逐層密集連接特征融合塊,以挖掘和利用圖像中不同層次的特征信息,并且利用一種漸進(jìn)式特征融合機(jī)制,在全局層次上融合從逐層密集連接特征融合塊中提取到的特征信息,促進(jìn)圖像紋理細(xì)節(jié)的重建。實(shí)驗(yàn)結(jié)果表明,所提方法與其他方法相比,在客觀評(píng)價(jià)指標(biāo)與主觀視覺(jué)效果上有著更加顯著的表現(xiàn)。
關(guān)鍵詞:超分辨率;卷積神經(jīng)網(wǎng)絡(luò);層次特征;逐層密集連接;漸進(jìn)式特征融合
引言
單幅圖像超分辨率重建(SISR)是一種圖像增強(qiáng)技術(shù),致力于從低分辨率圖像(LR)重建出對(duì)應(yīng)的高分辨率圖像(HR),該技術(shù)已被廣泛應(yīng)用于醫(yī)學(xué)成像[1]、安全監(jiān)控[2]、遙感圖像[3]等領(lǐng)域。隨著深度神經(jīng)網(wǎng)絡(luò)(DCNN)的顯著發(fā)展,越來(lái)越多開(kāi)創(chuàng)性的超分辨網(wǎng)絡(luò)被提出,并取得了卓越的成就,深度神經(jīng)網(wǎng)絡(luò)的發(fā)展主導(dǎo)了當(dāng)前學(xué)者們對(duì)SISR的研究。
早期構(gòu)建超分辨網(wǎng)絡(luò)模型的工作主要集中構(gòu)建簡(jiǎn)單模型以實(shí)現(xiàn)優(yōu)越的性能。Dong等人[4]首次將卷積神經(jīng)網(wǎng)絡(luò)(CNN)引入SISR任務(wù)中,稱為超分辨卷積神經(jīng)網(wǎng)絡(luò)(SRCNN),是一種端到端的三層CNN方案。Shi等人[5]又提出了ESPCN,其在網(wǎng)絡(luò)末端包含一個(gè)亞像素卷積層,可以處理不同放大因子的圖像超分辨率重建問(wèn)題,具有較快的處理速度。雖然簡(jiǎn)單的線性模型參數(shù)量很小,但是面對(duì)紋理特征豐富的圖像時(shí),難以滿足性能要求。為解決這些問(wèn)題,學(xué)者們提出了許多深度更深、連接方式更加復(fù)雜的超分辨率重建模型。Simonyan等人[6]在VDSR方法中,通過(guò)拓展網(wǎng)絡(luò)深度來(lái)提高SR性能,從3個(gè)卷積層增加到20個(gè)卷積層,此外,該網(wǎng)絡(luò)還引入全局殘差學(xué)習(xí)來(lái)提升收斂速度。Lim等人[7]堆疊出一個(gè)更深更廣的殘差網(wǎng)絡(luò)稱為EDSR,雖然不斷增加網(wǎng)絡(luò)深度可以提取更加豐富的局部特征,但無(wú)法有效整合這些局部特征。為了使網(wǎng)絡(luò)能夠更好地學(xué)習(xí)和保留圖像的細(xì)節(jié)特征,Kim等人[8]提出在CNN模型中使用多個(gè)遞歸層來(lái)獲得SR圖像,這被稱為深度遞歸卷積網(wǎng)絡(luò)(DRCN)。Tong等人[9]通過(guò)SRDenseNet引入了密集塊,不再線性堆疊卷積層來(lái)獲取更優(yōu)秀的性能,而是允許同一個(gè)密集塊內(nèi)的任意兩個(gè)卷積層直接進(jìn)行連接,有助于增強(qiáng)特征信息的傳遞和共享。
盡管上述模型在圖像重建性能方面表現(xiàn)出色,但這些模型未充分考慮不同層次特征信息的提取及整合問(wèn)題,使得模型重建性能不足。為此,本文提出了一種漸進(jìn)式逐層密集連接網(wǎng)絡(luò),該網(wǎng)絡(luò)充分利用分層特征信息,提高特征表達(dá)能力,增強(qiáng)網(wǎng)絡(luò)的重建性能。
1. 漸進(jìn)式逐層密集連接網(wǎng)絡(luò)
1.1 網(wǎng)絡(luò)框架概述
本文所提網(wǎng)絡(luò)模型框架如圖1所示。漸進(jìn)式逐層密集連接網(wǎng)絡(luò)主要包括三部分,分別為淺層特征提取模塊、深層特征提取模塊、重建模塊。在模型中,淺層特征提取部分負(fù)責(zé)捕捉圖像的初始特征,而深層特征提取部分進(jìn)一步挖掘圖像的高頻特征。最后,重建模塊將這兩個(gè)階段網(wǎng)絡(luò)提取到的特征用于構(gòu)建最終的超分辨圖像。
1.2 漸進(jìn)式逐層密集連接結(jié)構(gòu)
在提取圖像的淺層特征時(shí),本文提出的網(wǎng)絡(luò)采用了直接輸入小尺寸低分辨率圖像的策略。使用兩個(gè)3×3的卷積層作為淺層特征提取模塊,經(jīng)過(guò)卷積操作后,淺層特征被傳輸?shù)缴顚犹卣髂K。則
(1)
式中,F(xiàn)0代表從低分辨率圖像中提取到的淺層特征;HSF(.)表示淺層特征提取模塊;LLR表示輸入的低分辨率圖像;C3×3(.)表示3×3卷積運(yùn)算。
在漸進(jìn)式逐層密集連接網(wǎng)絡(luò)(progressive layer-by-layer dense connection network, PLDCN)中,深層特征提取模塊主要由多個(gè)相同結(jié)構(gòu)的逐層密集連接特征融合塊(layer-by-layer dense connection feature fusion blocks,LDCFFB)通過(guò)漸進(jìn)式特征融合機(jī)制(progressive feature fusion mechanism,PFFM)連接而成,具體來(lái)說(shuō),使用1×1卷積層逐步融合不同層次的特征信息,如圖1虛線框所示。漸進(jìn)式特征融合機(jī)制能夠以全局方式利用不同層次的特征,從而更有效地捕捉和表達(dá)圖像的邊緣、紋理信息。
LDCFFB為網(wǎng)絡(luò)的核心模塊,主要包括逐層密集連接特征提取單元和特征融合單元。逐層密集連接特征提取單元結(jié)構(gòu)如圖2所示,這個(gè)單元由三個(gè)并行分支組成,每個(gè)分支采用相同的結(jié)構(gòu),包括三個(gè)3×3卷積層、兩個(gè)1×1卷積層以及兩個(gè)級(jí)聯(lián)算子。這三個(gè)分支通過(guò)縱向交錯(cuò)連接將各個(gè)分支的路徑相互連接,將前一行提取的特征作為下一行各個(gè)分支的輸入,實(shí)現(xiàn)了特征的分層傳遞。特征融合單元將三個(gè)不同分支處理后的特征信息級(jí)連在一起,然后利用局部殘差學(xué)習(xí)的方法將模塊的輸入和輸出相互連接,從而促使單個(gè)模塊內(nèi)部的信息傳遞和優(yōu)化。
在逐層密集連接特征提取單元提取到不同層次的特征后,通過(guò)特征融合單元來(lái)充分融合這些特征。利用殘差連接獲得最終的輸出特征Fi為
(2)
如圖1所示,重建模塊包含了兩個(gè)3×3普通卷積層和一個(gè)反卷積層,使用殘差模塊連接雙三次插值后的圖像并與卷積輸出的結(jié)果進(jìn)行疊加,獲得最終的重建圖像。最后一個(gè)普通卷積層則用于恢復(fù)通道數(shù),生成RGB三通道圖像。最終生成的高分辨率圖像FSR為
(3)
式中,F(xiàn)rec為重建模塊;HBI為雙三次插值后的圖像。
損失函數(shù)衡量了生成圖像和目標(biāo)高分辨率圖像之間的差異,目的是使生成圖像盡可能接近真實(shí)高分辨率圖像。L1損失函數(shù)對(duì)誤差的絕對(duì)值進(jìn)行懲罰,在一定程度上能夠更好地保留圖像的細(xì)節(jié)和紋理,產(chǎn)生更接近真實(shí)感覺(jué)的高分辨率生成圖像。因此所提方法使用L1損失函數(shù),其定義如下:
(4)
式中,N為網(wǎng)絡(luò)訓(xùn)練圖像數(shù)量;IPLDCN為模型重建后的圖像;IHR為原始真實(shí)圖像。
2. 實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)細(xì)節(jié)設(shè)置
實(shí)驗(yàn)系統(tǒng)為ubuntu20.04服務(wù)器,GPU為NVIDIA corporation GP102,使用PyCharm編譯平臺(tái),利用Python語(yǔ)言、Pytorch框架實(shí)現(xiàn)了模型的構(gòu)建。實(shí)驗(yàn)采用高質(zhì)量的2K圖像數(shù)據(jù)集DIV2K進(jìn)行訓(xùn)練,該數(shù)據(jù)集有800張訓(xùn)練圖像。在訓(xùn)練階段使用水平、垂直、翻轉(zhuǎn)和旋轉(zhuǎn)90°等數(shù)據(jù)增強(qiáng)技術(shù),隨機(jī)裁剪48×48的LR小圖像作為網(wǎng)絡(luò)模型的輸入,以拓展數(shù)據(jù)集的多樣性和數(shù)量。在評(píng)估性能時(shí)采用了五個(gè)基準(zhǔn)數(shù)據(jù)集,包括Set5,Set14,BSD100,Urban100和Manga109。在訓(xùn)練過(guò)程中設(shè)置以下參數(shù),網(wǎng)絡(luò)采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.0002,每經(jīng)過(guò)200個(gè)epoch學(xué)習(xí)率降低一半,訓(xùn)練批次的大小設(shè)置為16。為了客觀評(píng)價(jià)所提方法的性能,采用了圖像處理領(lǐng)域公認(rèn)具有權(quán)威性的指標(biāo):峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)。
2.2 實(shí)驗(yàn)結(jié)果對(duì)比
將本文提出的方法與經(jīng)典的方法在五種基準(zhǔn)數(shù)據(jù)集上進(jìn)行定量對(duì)比,經(jīng)典方法包括SRCNN、FSRCNN、VDSR、LapSRN[10]、IDN[11]、MSRN[12]。表1至表3展示了放大因子分別為×2、×3、×4時(shí),不同方法在五種基準(zhǔn)數(shù)據(jù)集中的PSNR和SSIM值。從表1至表3可以看出,所提算法與一些經(jīng)典的算法相比,在不同放大因子上均有著良好的性能,在大多數(shù)情況下,PSNR和SSIM都明顯優(yōu)于其他方法。放大因子×4時(shí),所提方法與MSRN相比,在Set5、Urban100和Manga109數(shù)據(jù)集上分別增加了0.28dB、0.29dB、0.57dB。綜上,本文提出的模型相比其他方法展現(xiàn)出更加優(yōu)秀的重建性能,尤其在放大因子較大的情況下,性能更加突出。
為了進(jìn)一步證明所提方法的優(yōu)越性,本文展示了圖像的視覺(jué)效果對(duì)比圖,如圖3所示。在“86000”圖像中,本文提出的方法重建出的圖像線條更加清晰,而其他方法重建出的圖像存在模糊和線條變形問(wèn)題。以上視覺(jué)效果對(duì)比證明了提出的PLDCN模型在細(xì)節(jié)恢復(fù)和圖像保真方面的表現(xiàn)非常優(yōu)異。
結(jié)語(yǔ)
針對(duì)部分網(wǎng)絡(luò)提取特征不充分、無(wú)法充分利用分層特征等問(wèn)題,本文提出了一種漸進(jìn)式逐層密集連接網(wǎng)絡(luò)圖像超分辨重建方法。逐層密集連接遞歸塊為主要模塊,采用對(duì)角交錯(cuò)連接的方式,實(shí)現(xiàn)特征的級(jí)聯(lián)傳遞,引入殘差連接將淺層特征與深層特征通過(guò)跨層連接的方式進(jìn)行整合,既減少了淺層特征信息向更深層次傳播過(guò)程中的丟失,又充分利用了各中間層次的特征。漸進(jìn)式特征融合機(jī)制為主干連接方式,益于捕捉高頻特征信息,為高分辨率圖像的重建提供豐富的特征信息。在五種基準(zhǔn)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果證明,本文提出的網(wǎng)絡(luò)模型與其他先進(jìn)的網(wǎng)絡(luò)模型相比具有一定的優(yōu)勢(shì),并且在主觀視覺(jué)效果對(duì)比上,所提方法重建后的圖像更加清晰,保真度更高。
參考文獻(xiàn):
[1]胡芬,林洋,侯夢(mèng)迪,等.基于深度學(xué)習(xí)的細(xì)胞骨架圖像超分辨重建[J].光學(xué)學(xué)報(bào),2020,40(24):54-61.
[2]Zou W W W,Yuen P C.Very low resolution face recognition problem[J].IEEE transactions on image processing:a publication of the IEEE Signal Processing Society,2011,21(1):327-340.
[3]黃碩,胡勇,顧明劍,等.基于深度學(xué)習(xí)的紅外遙感目標(biāo)超分辨率檢測(cè)算法[J].激光與光電子學(xué)進(jìn)展,2021,58(16):288-296.
[4]Dong C,Loy C C,He K,et al.Learning a deep convolutional network for image super-resolution[C]//Computer Vision-ECCV 2014:13th European Conference,Zurich,Switzerland,September 6-12,2014,Proceedings,Part IV 13.Springer International Publishing,2014:184-199.
[5]Shi W,Caballero J,Huszár F,et al.Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:1874-1883.
[6]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv:2014(1):1409.1556.
[7]Lim B,Son S,Kim H,et al.Enhanced deep residual networks for single image super-resolution[C]//Proceedings of the IEEE conference on computer vision and pattern recognition workshops.2017:136-144.
[8]Kim J,Lee J K,Lee K M.Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:1637-1645.
[9]Tong T,Li G,Liu X,et al.Image super-resolution using dense skip connections[C]//Proceedings of the IEEE international conference on computer vision.2017:4799-4807.
[10]Lai W S,Huang J B,Ahuja N,et al.Deep laplacian pyramid networks for fast and accurate super-resolution[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2017:624-632.
[11]Hui Z,Wang X,Gao X.Fast and accurate single image super-resolution via information distillation network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2018:723-731.
[12]Li J,F(xiàn)ang F,Mei K,et al.Multi-scale residual network for image super-resolution[C]//Proceedings of the European conference on computer vision(ECCV).2018:517-532.
作者簡(jiǎn)介:韓小偉,碩士研究生,研究方向:圖像超分辨。