李雪靜 馬帥 孫清清 劉川鄂 熊巍
摘要:基于深度卷積網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力和非線性特征表達(dá)能力,如何充分提取細(xì)節(jié)信息,使重構(gòu)圖像達(dá)到理想水平成為了該領(lǐng)域關(guān)注的熱點(diǎn)?;谀繕?biāo)識別中的金字塔模型,本文提出了一種多尺度特征融合的圖像超分辨方法,以充分提取多尺度特征信息并將其融合。該方法的基本思想是將特征圖像金字塔(FPN)引入RDN網(wǎng)絡(luò),使其充分利用同一放大因數(shù)下不同維度的特征表達(dá)。金字塔模型可以有效賦能常規(guī)RDN模型,進(jìn)而生成表達(dá)能力更強(qiáng)的特征映射。因此,金字塔模型增強(qiáng)了主干網(wǎng)絡(luò)RDN的特征表達(dá),使其得到更好的重構(gòu)效果。
關(guān)鍵詞:單幅圖像超分辨率;深度學(xué)習(xí);多尺度特征融合
1引言
單個(gè)圖像超分辨(SISR)有一個(gè)眾所周知的不適定性問題,因?yàn)橐粋€(gè)特殊的低分辨率(LR)圖像能夠?qū)?yīng)許多可能的高分辨(HR)圖像,并且我們想要從LR映射到的HR空間(在大部分情況下,它一般是自然圖像空間)通常是很難處理的。
因?yàn)樯疃葘W(xué)習(xí)(Deep Learning,DL)可以有效提取連接LR和HR空間的抽象信息,最新的基于深度學(xué)習(xí)的SISR方法已經(jīng)在數(shù)量上和質(zhì)量上取得了重大的突破。SRCNN結(jié)構(gòu)相對簡單,可以看做是用一個(gè)端對端的方法在LR和HR之間近似復(fù)雜映射的卷積神經(jīng)網(wǎng)絡(luò)。Kim等人提出深度網(wǎng)絡(luò)VDSR和DRCN,應(yīng)用了一個(gè)相關(guān)的高初始學(xué)習(xí)率來加速聚合并且用梯度裁剪來避免噪聲梯度爆炸問題。DRCN為了參數(shù)共享第一次在深度網(wǎng)絡(luò)中引入殘差學(xué)習(xí)[1]。這些方法都需要對原始的LR圖像進(jìn)行內(nèi)插處理,使其變成理想的大小。但是這種預(yù)操作不僅增加了計(jì)算的復(fù)雜度,而且一些信息也會(huì)丟失。
為了解決這個(gè)問題,Dong等人直接將原始LR圖像作為輸入,并且引入一個(gè)轉(zhuǎn)置的卷積層(反卷積層)來上采樣得到高分辨率圖像。Shi等人提出ESPCNN,引入一個(gè)有效的亞像素卷積層來上采樣最后的LR特征映射到HR輸出。然而,這些方法沒有充分利用每一個(gè)卷積層的信息,只是從LR空間的最后一個(gè)卷積層提取特征進(jìn)行上采樣。
之后,Huang等人提出了DenseNet,在一些密集塊的任意兩層允許直接連接。通過局部密集連接,在密集模塊中每一層都從前邊所有層中讀取信息。但是,所有的方法都丟失了原始LR圖像的一些有用層級信息,這些信息在圖像恢復(fù)任務(wù)中十分有用。所以Zhang等人提出了RDN[2]網(wǎng)絡(luò),在LR空間上有效提取和自適應(yīng)地融合所有層的特征信息。
基于以上工作,本文結(jié)合特征金子塔(FPN)[3]算法,利用深度神經(jīng)卷積網(wǎng)絡(luò)固有的多尺度金字塔結(jié)構(gòu),以極小的計(jì)算量構(gòu)建特征金字塔的網(wǎng)絡(luò)結(jié)構(gòu),以實(shí)現(xiàn)重構(gòu)圖像的效果優(yōu)化。本文還圍繞如何高效利用特征信息,以極少的樣本數(shù)量獲得最優(yōu)的重構(gòu)效果進(jìn)行研究。大量實(shí)驗(yàn)表明,本文方法重構(gòu)的圖像質(zhì)量在峰值信噪比(PSNR)、結(jié)構(gòu)相似性(SSIM)和視覺效果圖上都有顯著提升。
2提出的方法
本文工作主要有兩部分:一是將特征圖像金字塔(FPN)[3]引入RDN[2]網(wǎng)絡(luò),使其充分利用同一放大因數(shù)下圖片不同維度的特征表達(dá)結(jié)構(gòu),有效賦能常規(guī)RDN模型,從而生成表達(dá)能力更強(qiáng)的特征映射,以供下一階段圖像超分辨任務(wù)來使用。二是運(yùn)用遷移學(xué)習(xí),將已訓(xùn)練好的RDN網(wǎng)絡(luò)模型遷移到現(xiàn)有的FPRDN網(wǎng)絡(luò)中,實(shí)現(xiàn)性能的進(jìn)一步提升。同時(shí),實(shí)現(xiàn)了用較少樣本訓(xùn)練出的FPRDN網(wǎng)絡(luò),重構(gòu)時(shí)間短,內(nèi)存占比小,性能優(yōu),更具普適性和實(shí)用性。
2.1網(wǎng)絡(luò)結(jié)構(gòu)
本文所提算法的總體網(wǎng)絡(luò)結(jié)構(gòu)由四部分組成:淺層特征提取模塊(SFENet),殘差密集模塊(RDBs),密集特征融合模塊(DFF)和上采樣網(wǎng)絡(luò)模塊(UPNet)。
假設(shè)ILR和ISR分別代表RDN[6]網(wǎng)絡(luò)的輸入和輸出。首先對ILR進(jìn)行連續(xù)兩次卷積操作實(shí)現(xiàn)下采樣,然后在每一個(gè)維度上都使用兩個(gè)卷積層來提取淺層特征。第一個(gè)卷積層從LR輸入提取的特征之后會(huì)被用作進(jìn)一步的淺層特征提取和全局殘差學(xué)習(xí)。
在從一系列RDBs中提取等級特征后,進(jìn)一步引入密集特征融合(DFF),包含全局特征融合(GFF)和全局殘差學(xué)習(xí)(GRL)。DFF從之前所有的層中提取特征信息。
在LR空間中提取局部和全局特征后,使用上采樣網(wǎng)絡(luò)(UPNet)映射到HR空間上。運(yùn)用ESPCNN在UPNet中,緊接著一個(gè)卷積層,實(shí)現(xiàn)圖片的放大操作。
2.2子模塊結(jié)構(gòu)
殘差密集模塊
殘差密集塊(RDB)包含密集連接層,局部特征融合(LFF)以及局部殘差學(xué)習(xí),以及一個(gè)連續(xù)記憶(CM)機(jī)制。連續(xù)記憶機(jī)制是延續(xù)前邊RDB的狀態(tài)到每一層的當(dāng)前RDB。
局部特征融合是在當(dāng)前RDB中自適應(yīng)地融合之前RDB和整個(gè)卷積層的情況。用級聯(lián)的方式,將第d-1個(gè)RDB的特征映射直接引入到第d個(gè)RDB中,以減少特征數(shù)量。并且引入一個(gè)1×1的卷積層來自適應(yīng)地控制輸出信息。
局部殘差學(xué)習(xí)(LRL)可以進(jìn)一步提高信息流,因?yàn)橐粋€(gè)RDB中有多個(gè)卷積層。LRL也能夠進(jìn)一步提升網(wǎng)絡(luò)的表達(dá)能力,獲得更好的結(jié)果。
密集特征融合模塊
在一系列RDBs提取局部密集特征后,進(jìn)一步用密集特征融合(DFF)在全局范圍內(nèi)提取分級特征。DFF包含全局特征融合(GFF)和全局殘差學(xué)習(xí)(GRL)。
全局殘差融合(GFF)提取全局特征,它是融合了所有RDBs中的特征。而全局殘差學(xué)習(xí)是為了在上采樣之前獲取特征映射。
值得注意的是,本章提出的網(wǎng)絡(luò)為了提取多維度特征信息,將三個(gè)LR圖片(后邊兩個(gè)圖片是依次下采樣所得)分別進(jìn)入三個(gè)RDN[2]網(wǎng)絡(luò),并在上采樣網(wǎng)絡(luò)前進(jìn)行融合。而淺層特征映射只保留了第一個(gè)維度網(wǎng)絡(luò)中的淺層特征映射,這是為了保留圖片的最大特征,最終得到融合了多維度特征信息的密集特征。
3.實(shí)驗(yàn)
3.1實(shí)驗(yàn)設(shè)置和訓(xùn)練數(shù)據(jù)
數(shù)據(jù)集和矩陣。訓(xùn)練集是DRRN[11]的291幅圖片,和通過旋轉(zhuǎn)90°、180°和水平翻轉(zhuǎn)得到的擴(kuò)增數(shù)據(jù)集。在訓(xùn)練階段,將每幅HR圖像隨機(jī)分割成5張128×128的圖像塊和不同放大因子(×2、×3、和×4)下相應(yīng)的LR圖像塊。在測試階段,用五個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集:Set5,Set14,B100,Urban100和Manga109。超分辨率的結(jié)果用YCbCr顏色空間上Y通道的PSNR和SSIM評價(jià)。
訓(xùn)練運(yùn)用的學(xué)習(xí)框架為Pytorch,硬件為Intel(R)Xeon(R)CPUE5-2683,頻率為2.0GHz,內(nèi)存128GB,兩張12GB的NVIDIA GTX1080 Ti顯卡,操作系統(tǒng)為Ubuntu16.40。在每一個(gè)訓(xùn)練批次里,都隨機(jī)提取16個(gè)大小為128×128的LR彩色圖像塊作為輸入。網(wǎng)絡(luò)通過Adam optimizer進(jìn)行優(yōu)化,所有層的學(xué)習(xí)率初始化均為10-4并且每10個(gè)訓(xùn)練周期進(jìn)行一次減半。
3.2實(shí)驗(yàn)結(jié)果
本文主要做的是定性和定量的實(shí)驗(yàn)。將FPRDN與其他類似的SR方法在同等條件下進(jìn)行比較,包括Bicubic、SRCNN、VDSR、DRRN和RDN[2]。實(shí)驗(yàn)比較了不同放大因子下基準(zhǔn)數(shù)據(jù)集的平均PSNR/SSIM。
從實(shí)驗(yàn)結(jié)果可以看出,通過與目前流行的卷積神經(jīng)網(wǎng)絡(luò)模型相比較,F(xiàn)PRDN在所有放大因數(shù)上的重構(gòu)效果是最好的。這可以表明金字塔模型運(yùn)用在RDN[2]網(wǎng)絡(luò)上的有效性。當(dāng)放大倍數(shù)增加時(shí),F(xiàn)PRDN沒有辦法保持一樣的性能優(yōu)勢,這是因?yàn)檩斎雸D像的大小限制了進(jìn)一步的信息提取。更大的輸入塊能夠適應(yīng)更深的網(wǎng)絡(luò),并且在更大的感受野上提取更多的信息。
4結(jié)語
由于在卷積網(wǎng)絡(luò)設(shè)計(jì)中,網(wǎng)絡(luò)的深度和下采樣圖像之間是一對矛盾體。網(wǎng)絡(luò)較淺,特征提取不充分,網(wǎng)絡(luò)較深,可以提取較大的感受野,但隨之下采樣圖像過大,細(xì)節(jié)重構(gòu)效果顯著降低。所以對于卷積神經(jīng)網(wǎng)絡(luò)而言,不同深度對應(yīng)不同層次的特征信息?;诖耍疚奶岢隽薋PRDN網(wǎng)絡(luò),將不同分辨率特征融合,即每個(gè)分辨率的特征映射和上采樣的低分辨率特征相加,使得不同層次的特征增強(qiáng)。因?yàn)橹辉诰W(wǎng)絡(luò)基礎(chǔ)上做跨層連接和參數(shù)對應(yīng)相加,所以計(jì)算量增加較少的同時(shí)性能得到極大改善。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在重構(gòu)性能、模型參數(shù)和速度方面有較強(qiáng)競爭力,適合于實(shí)際應(yīng)用。
參考文獻(xiàn)
[1]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C].IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[2]Zhang Y,Tian Y,Kong Y,et al.Residual dense network for image super-resolution[C].IEEE Conference on Computer Vision and Pattern Recognition.2018:2472-2481.
[3]T.Y.Lin,P.Dollar,R.B.Girshick,K.He,B.Hariharan,and S.J.Belongie.Feature pyramid networks for object detection.In CVPR,2017.