張曄,劉蓉,劉明,陳明
(1.華中師范大學 物理科學與技術(shù)學院,武漢 430079; 2.華中師范大學 計算機學院,武漢 430079)(?通信作者電子郵箱lium@mail.ccnu.edu.cn)
基于多通道注意力機制的圖像超分辨率重建網(wǎng)絡
張曄1,劉蓉1,劉明2*,陳明1
(1.華中師范大學 物理科學與技術(shù)學院,武漢 430079; 2.華中師范大學 計算機學院,武漢 430079)(?通信作者電子郵箱lium@mail.ccnu.edu.cn)
針對現(xiàn)有的圖像超分辨率重建方法存在生成圖像紋理扭曲、細節(jié)模糊等問題,提出了一種基于多通道注意力機制的圖像超分辨率重建網(wǎng)絡。首先,該網(wǎng)絡中的紋理提取模塊通過設計多通道注意力機制并結(jié)合一維卷積實現(xiàn)跨通道的信息交互,以關注重要特征信息;然后,該網(wǎng)絡中的紋理恢復模塊引入密集殘差塊來盡可能恢復部分高頻紋理細節(jié),從而提升模型性能并產(chǎn)生優(yōu)質(zhì)重建圖像。所提網(wǎng)絡不僅能夠有效提升圖像的視覺效果,而且在基準數(shù)據(jù)集CUFED5上的結(jié)果表明所提網(wǎng)絡與經(jīng)典的基于卷積神經(jīng)網(wǎng)絡的超分辨率重建(SRCNN)方法相比,峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)分別提升了1.76 dB和0.062。實驗結(jié)果表明,所提網(wǎng)絡可提高紋理遷移的準確性,并有效提升生成圖像的質(zhì)量。
圖像超分辨率重建;紋理遷移;注意力機制;一維卷積;密集殘差塊
圖像超分辨率(Super-Resolution, SR)[1]重建是利用一組低質(zhì)量、低分辨率(Low-Resolution, LR)圖像來產(chǎn)生單幅高質(zhì)量、高分辨率(High-Resolution, HR)且擁有自然和逼真紋理的圖像,在監(jiān)控設備、衛(wèi)星圖像和醫(yī)學影像等領域都有著重要的應用價值。圖像SR研究通常以兩種模式進行,包括單圖像超分辨率(Single Image Super-Resolution, SISR)[2]和基于參考的圖像超分辨率(Reference-based image Super-Resolution,RefSR)[3]。隨著深度學習的快速發(fā)展,以卷積神經(jīng)網(wǎng)絡為代表的學習法已經(jīng)被廣泛應用于圖像超分辨中來構(gòu)造高分辨率圖像。Dong等[4]首先將三層卷積神經(jīng)網(wǎng)絡引入到圖像SR中,提出了基于卷積神經(jīng)網(wǎng)絡的超分辨率重建(Super-Resolution using Convolutional Neural Network, SRCNN)方法,該網(wǎng)絡通過非線性映射直接學習低分辨率圖像與高分辨率圖像間的關系,相較傳統(tǒng)方法改進效果顯著。Kim等[5]提出了一種通過遞歸監(jiān)督和跳躍連接的深度遞歸卷積網(wǎng)絡,該網(wǎng)絡模型使用遞歸神經(jīng)網(wǎng)絡,并用更多的卷積層增加網(wǎng)絡感受野。與此同時,由于注意力機制[6]在建模全局依賴關系以及降低無關圖像域特征信息上表現(xiàn)出良好性能,注意力機制逐漸進入大眾視野:Wang等[7]提出了一種殘差注意力網(wǎng)絡,使不同層注意力模塊可以充分學習;Hu等[8]對特征通道間的相關性進行建模來強化重要特征;Lu等[9]通過通道注意機制自適應地調(diào)整通道特征。但傳統(tǒng)SISR方法在HR圖像降級到LR圖像的過程中紋理遭到破壞,從而導致恢復出的圖像模糊。
與傳統(tǒng)SISR不同,RefSR通過提取參考(Reference, Ref)圖像的紋理來補償LR圖像中丟失的細節(jié),從而使生成的HR圖像擁有更詳細和逼真的紋理。例如,Zhang等[10]提出了一種基于神經(jīng)紋理轉(zhuǎn)移的超分辨率(Super-Resolution by Neural Texture Transfer, SRNTT)模型,SRNTT在特征空間中進行局部紋理匹配,然后通過深度模型將匹配的紋理轉(zhuǎn)移到最終輸出;Yang等[11]提出一種用于圖像超分辨率的紋理遷移網(wǎng)絡(Texture Transformer network for image Super-Resolution, TTSR),TTSR鼓勵通過LR圖像和Ref圖像進行聯(lián)合特征學習,通過注意力機制發(fā)現(xiàn)深層特征對應關系,以傳遞準確的紋理特征。然而,這些模型在恢復紋理過程中,會出現(xiàn)人臉扭曲、紋理恢復不真實等問題。
為解決上述問題,受文獻[12]中的ECA(Efficient Channel Attention)注意力機制思想啟發(fā),本文提出了一種基于多通道注意力機制的圖像超分辨網(wǎng)絡(image Super-Resolution network by multi-Channel Attention,SRCA)。與當前大多數(shù)RefSR方法相比,SRCA可以更好地恢復圖像細節(jié)。
本文的主要工作包括:
1)將多通道注意力機制與紋理搜索模塊相結(jié)合,通過一維卷積實現(xiàn)局部跨通道的信息交互,對輸入圖像的每一個特征通道賦予不同的權(quán)重,關注提取更重要的特征信息,以利于特征重用。
2)紋理恢復模塊引入密集殘差塊來提升模型的結(jié)構(gòu),去除密集殘差塊中的批量歸一化層,并使用了殘差縮放來恢復部分高頻細節(jié),產(chǎn)生優(yōu)質(zhì)的重建圖像。
本文SRCA模型的網(wǎng)絡結(jié)構(gòu)如圖1所示,由紋理提取模塊、紋理搜索模塊、紋理遷移模塊、紋理恢復模塊四部分構(gòu)成。F(特征)表示提取特征圖,Q(查詢)、K(鍵)和V(值)表示紋理遷移網(wǎng)絡內(nèi)部注意力機制的三個基本元素,LR為輸入圖像,Ref、Ref↑↓分別為參考圖像以及參考圖像經(jīng)過4倍雙三次插值上下采樣的圖像,LR↑為輸入圖像經(jīng)過4倍雙三次插值上采樣后的圖像。Ref、Ref↑↓、LR↑三種圖像作為輸入,經(jīng)過紋理提取模塊進行特征提?。?3],然后紋理搜索模塊將提取出的圖像特征進行定位,使參考圖像紋理特征可以更精確地轉(zhuǎn)移至輸入圖像中。定位后的紋理、分布位置與輸入圖像特征圖一同輸入至紋理遷移模塊進行紋理整合形成紋理分布圖,最終與紋理恢復模塊的輸出圖像結(jié)合生成高分辨率圖像。
圖1 SRCA模型的網(wǎng)絡結(jié)構(gòu)Fig. 1 Network structure of SRCA model
紋理提取模塊所提取出的特征質(zhì)量對模型泛化能力有至關重要的影響。本文模型在VGG19網(wǎng)絡[14]中加入多通道注意力機制(Efficient Channel Attention, ECA)來提升特征提取的效率與質(zhì)量。在預先訓練VGG19網(wǎng)絡進行特征提取前添加多通道注意力機制,可以對每一個特征通道賦予不同權(quán)重來提升特征提取效果、增強表現(xiàn)力。
圖2 多通道注意力機制結(jié)構(gòu)Fig. 2 Multi-channel attention mechanism structure
VGG19網(wǎng)絡中運用relu1_1、relu2_1和relu3_1作為多個比例的紋理編碼器。為了加快匹配過程,本文僅在relu3_1層上進行匹配并將對應關系投影到relu2_1和relu1_1,這樣可以在減小計算量的同時保證紋理遷移的準確性。K與Q表示僅提取Ref↑↓與LR↑圖像的relu3_1層特征,V表示提取Ref圖像relu1_1、relu2_1和relu3_1三個層上的特征。
紋理搜索模塊通過比對K、Q之間relu3_1層特征來確定輸入圖像與參考圖像之間紋理的相關性。首先,將K、Q的輸出作為輸入,通過歸一化內(nèi)積來計算它們的相似性,如式(1)所示:
紋理遷移模塊將參考圖像的HR紋理特征轉(zhuǎn)換為LR圖像的特征,提高紋理生成過程的準確性。該模塊使用跨尺度集成方式進一步對紋理進行堆疊融合,將relu1_1、relu2_1和relu3_1三個層上對應的三種縮放比例(1×、2×、4×)紋理特征進行跨尺度特征融合,從而改善紋理扭曲等問題。利用為索引,針對提取轉(zhuǎn)移HR紋理特征,如式(3)所示。表示每個位置的已轉(zhuǎn)移紋理特征的置信度,最后將LR圖像的HR紋理特征和LR特征進行合成,并將這些特征進一步按元素分別乘,以獲得紋理遷移模塊的輸出。
圖3 紋理恢復模塊Fig. 3 Texture recovery module
RRDB采用比SRGAN(Super-Resolution Generative Adversarial Network)原始殘差塊更深層和更復雜的結(jié)構(gòu)。RRDB結(jié)構(gòu)如圖4所示,殘余縮放參數(shù)為0.2。紋理恢復模塊通過調(diào)整殘余縮放參數(shù),自適應調(diào)整融合紋理信息,使本文模型在紋理細節(jié)轉(zhuǎn)移與高頻細節(jié)生成方面得到有效改善。
圖4 RRDB模塊Fig. 4 RRDB module
紋理恢復模塊輸出圖像與紋理遷移模塊輸出圖像相加即為本文模型最終輸出圖像,如式(4)所示:
損失函數(shù)可以起到衡量模型性能優(yōu)劣的作用。為了保留LR圖像的空間結(jié)構(gòu)、改善生成圖像的視覺質(zhì)量以及充分利用Ref圖像的豐富紋理,本文用到重建損失、對抗損失與感性損失三種損失函數(shù)。重建損失在大多數(shù)的SR方法中都有用到,對抗損失與感性損失可以提升生成圖像的視覺質(zhì)量。
重建損失通常以均方誤差(Mean Squared Error, MSE)衡量來提高峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)。本文采用L1范數(shù),與L2范數(shù)相比,L1范數(shù)可以使權(quán)值稀疏,方便特征提取,性能更敏銳,收斂快速。重建損失可以用式(5)表示:
其中:(C,H,W)是HR圖像的大??;表示HR圖像;表示生成的SR圖像。
對抗損失可以顯著提高生成圖像的清晰度以及視覺質(zhì)量,本文采用WGAN-GP(Wasserstein Generative Adversarial Network with Gradient Penalty)。WGAN-GP提出了梯度懲罰來解決訓練過程中的梯度消失和梯度爆炸問題,并且比WGAN(Wasserstein Generative Adversarial Network)更快地收斂,能生成更高質(zhì)量樣本。對抗損失可以用式(6)~(7)表示:
感知損失已經(jīng)被證明能夠顯著改善視覺質(zhì)量,它通過比較對原始圖像的卷積輸出和生成圖像的卷積輸出來計算損失。本文的感知損失可以用式(8)表示:
本文所使用的平臺是CentOS 7.4操作系統(tǒng),雙核Intel 2.2 GHz CPU,64 GB內(nèi)存,Tesla V100 GPU,32 GB內(nèi)存和4 TB硬盤,并在基于GPU版本的Pytorch 1.1.0深度學習框架下訓練本文模型。在訓練過程中,的權(quán)重系數(shù)分別設置為1、1E、1E,并采用Adam[15]對網(wǎng)絡進行優(yōu)化,設置批量數(shù)大小是9,設置學習率為1E。首先對網(wǎng)絡進行了兩輪預訓練,其中僅應用了;然后,所有損失都需要再訓練200輪。
為了測試本文模型是否具有可行性,在最近提出的RefSR數(shù)據(jù)集CUFED5[10]上訓練與測試模型,其中:訓練集包含了11 842對圖片,每對分別由一張輸入圖像與一張參考圖像組成;測試集包含126組圖片,每組分別由一張HR圖像和四張參考圖像組成。為了對網(wǎng)絡進行充分訓練,本文用三種方式對訓練數(shù)據(jù)進行增強:1)將圖片旋轉(zhuǎn)90°、180°和270°; 2)將圖片水平、垂直翻轉(zhuǎn);3)將LR圖像處理為像素,將Ref圖像處理為像素。
為了評估SRCA在CUFED5數(shù)據(jù)集上的泛化能力,本文在CUFED5[10]、Sun80[16]、Urban100[17]和Manga109[18]數(shù)據(jù)集上均進行了模型測試。其中:Sun80數(shù)據(jù)集包含80個自然圖像,每個圖像都包含了多個參考圖像與之配對;Urban100數(shù)據(jù)集包含了100張不帶參考的建筑圖像,由于建筑圖像相似度較高,因此設置LR圖像作為參考圖像,以便進行紋理的搜索與轉(zhuǎn)移;Manga109包含109張沒有參考圖像的漫畫圖像,所以在此數(shù)據(jù)集中隨機抽取HR圖像作為參考圖像。
為了評估本文模型的有效性,將本文的SRCA模型與其他最新的SISR和RefSR方法進行比較。SISR方法包括近年來在PSNR和結(jié)構(gòu)相似度(Structural SIMilarity, SSIM)上均取得了最先進性能的SRCNN[4]、MDSR(Multi-scale Deep Super-Resolution system)[19]、RDN (Residual Dense Network)[20]、RCAN(Residual Channel Attention Network)[21]、SRGAN[22]、ENet(Efficient neural Network)[23]、ESRGAN(Enhanced SRGAN)[24]、RSRGAN(RankSRGAN)[25]。RefSR方法采用目前最先進的三種方法:CrossNet[26]、SRNTT[10]、TTSR[11],其性能遠優(yōu)于以前的RefSR方法。所有實驗均按4倍比例放大系數(shù)來對LR和HR圖像進行定量評估。為了公平比較每個模型性能的優(yōu)劣,按照TTSR中的設置來訓練所有方法。在測試過程中,對抗訓練在SR方法中可以獲得更好的視覺質(zhì)量,但是相對來說會減小PSNR和SSIM。針對此問題,本文中訓練了另外一個僅針對重建損耗進行優(yōu)化的模型版本SRCA_rec,以更公平地比較PSNR和SSIM。
對SRCA進行了定量評估與定性評估,結(jié)果如表1所示。通過表1可以看出,SRCA在Urban100和Manga109數(shù)據(jù)集上具有最佳性能,在CUFED5、Sun80上SRCA可實現(xiàn)與最新模型相當?shù)男阅?。在基準?shù)據(jù)集CUFED5上的結(jié)果表明所提網(wǎng)絡與經(jīng)典的SRCNN方法相比,PSNR和SSIM分別提升了1.76 dB和0.062。
表1 在四個不同數(shù)據(jù)集上不同算法的PSNR/SSIM比較Tab. 1 PSNR/SSIM comparison of different algorithms on four different datasets
注:帶“*”表示最高分,帶“**”表示第二高分。
接下來,分別用SRCA、雙三次插值法(Bicubic)、RDN、RCAN、SRNTT和TTSR對實際圖片進行超分辨重建,結(jié)果如圖5~6所示。
由圖5~6可知,大多數(shù)重建方法容易出現(xiàn)偽影,如:圖5(c)、圖5(d)和圖5(e)重建出的人臉圖像很模糊,圖5(f)與圖5(g)重建出的人臉圖像有嚴重偽影,紋理轉(zhuǎn)移時定位不準確,圖5(h)中本文模型重建出的圖像細節(jié)紋理更真實,人臉輪廓更清晰。圖6(d)、圖6(e)和圖6(f)重建出的圖像很模糊,圖6(g)重建出的效果優(yōu)于前三者,但重建出的數(shù)字3邊緣輪廓不清晰,細節(jié)恢復不真實。而本文模型重建圖6(h)在線條細節(jié)上恢復真實度高,邊緣輪廓更清晰自然。
SRCA恢復出的圖片也具有較高的視覺質(zhì)量,在Ref圖像紋理搜索與轉(zhuǎn)移方面可以更加準確,當Ref圖像與LR圖像的相似度不高時,SRCA模型仍然可以搜索出相對應的紋理并轉(zhuǎn)移到SR圖像中,從而使恢復出的圖像更生動,如圖7~8所示。
圖5 在CUFED5:00004圖像上放大4倍后不同模型重建結(jié)果對比Fig. 5 Reconstructed result comparison of different models on CUFED5:00004 image with magnification 4
圖6 在CUFED5:00064圖像上放大4倍后不同模型重建結(jié)果對比Fig. 6 Reconstructed result comparison of different models on CUFED5:00064 image with magnification 4
圖7 在Sun80圖像上放大4倍后不同模型重建結(jié)果對比Fig. 7 Reconstructed result comparison of different models on Sun80 image with magnification 4
圖8 在Manga109圖像上放大4倍后不同模型重建結(jié)果對比Fig. 8 Reconstructed result comparison of different models on Manga109 images with magnification 4
在圖7中,圖7(d)、圖7(f)和圖7(g)重建出的窗戶線條模糊,圖7(e)重建出的圖像在視覺上有提升但是放大后的窗戶玻璃邊緣不清晰;本文模型重建的圖7(h)窗戶玻璃邊緣清晰,觀賞性強。在圖8中,在人臉恢復方面,漫畫中人臉眼睛部分細節(jié)較多,所以針對重建后的人臉圖像右眼部分進行對比,相較于基準圖片如圖8(a)而言,圖8(d)和圖8(f)重建出的視覺效果不好,圖8(e)放大后的眼睛輪廓不清晰,圖8(g)恢復出的人眼中輪廓相較于基準圖片而言不圓潤且多出一塊白斑。本文模型重建的圖8(f)不僅在視覺上比其他模型重建效果好,而且放大后的人眼具有較為清晰的紋理且邊緣銳利。
在模型訓練性能方面將本文模型與TTSR進行了對比,實驗結(jié)果如圖9所示。圖9展示的是兩個網(wǎng)絡訓練200輪期間在的CUFED5驗證集上的PSNR和SSIM比較,可以看出兩個網(wǎng)絡都呈現(xiàn)出增長趨勢,但SRCA整體增長在TTSR之上,SRCA的平均PNSR與平均SSMI相較TTSR大約提升了0.12 dB與0.003 5,表明在訓練次數(shù)相等的情況下SRCA具有更好的性能。
圖9 SRCA與TTSR的訓練結(jié)果對比Fig. 9 Training result comparison of SRCA and TTSR
本文提出了一種新的基于參考的圖像超分辨率重建網(wǎng)絡來生成高質(zhì)量圖像。本文模型中多通道注意力的紋理提取模塊通過對圖像特征多通道關注并進行高頻信息定位,提升模塊對高頻特征信息的選擇能力;紋理遷移模塊通過利用低分辨率圖像與參考圖像之間紋理的相關度,來對紋理進行高質(zhì)量整合與遷移。實驗結(jié)果表明,所提SRCA提高了紋理遷移的準確性與有效性,在定量評價與視覺質(zhì)量上都有所優(yōu)化,性能良好。
[1] FREEMAN W T, PASZTOR E C. Learning low-level vision [C]// Proceedings of the 1999 7th IEEE International Conference on Computer Vision. Piscataway: IEEE, 1999: 1182-1189.
[2] 蘇秉華,金偉其,牛麗紅,等.超分辨率圖像復原及其進展[J].光學技術(shù),2001,27(1):6-9.(SU B H, JIN W Q, NIU L H, et al. Super-resolution image restoration and progress [J]. Optical Technique, 2001, 27(1): 6-9.)
[3] FREEMAN W T, JONES T R, PASZTOR E C. Example-based super-resolution [J]. IEEE Computer Graphics and Applications, 2002, 22(2): 56-65.
[4] DONG C, LOY C C, HE K M, et al. Learning a deep convolutional network for image super-resolution [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8692. Cham: Springer, 2014: 184-199.
[5] KIM J, LEE J K, LEE K M. Deeply-recursive convolutional network for image super-resolution [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1637-1645.
[6] CAO C S, LIU X M, YANG Y, et al. Look and think twice: capturing top-down visual attention with feedback convolutional neural networks [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 2956-2964.
[7] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2017: 6450-6458.
[8] HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.
[9] LU Y, ZHOU Y, JIANG Z Q, et al. Channel attention and multi-level features fusion for single image super-resolution [C]// Proceedings of the 2018 IEEE International Conference on Visual Communications and Image Processing. Piscataway: IEEE, 2018: 1-4.
[10] ZHANG Z F, WANG Z W, LIN Z, et al. Image super-resolution by neural texture transfer [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2019: 7974-7983.
[11] YANG F Z, YANG H, FU J L, et al. Learning texture transformer network for image super-resolution [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 5790-5799.
[12] WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020:11531-11539.
[13] 趙榮椿,趙忠明,趙歆波.數(shù)字圖像處理與分析[M].北京:清華大學出版社,2013:36-40.(ZHAO R C, ZHAO Z M, ZHAO X B. Digital Image Processing and Analysis [M]. Beijing:Tsinghua University Press, 2013: 36-40.)
[14] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2021-02-23].https://arxiv.org/pdf/1409.1556.pdf.
[15] KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2021-02-23]. https://arxiv.org/pdf/1412.6980.pdf.
[16] SUN L B, HAYS J. Super-resolution from internet-scale scene matching [C]// Proceedings of the 2012 IEEE International Conference on Computational Photography. Piscataway: IEEE, 2012: 1-12.
[17] HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 5197-5206.
[18] MATSUI Y, ITO K, ARAMAKI Y, et al. Sketch-based manga retrieval using Manga109 dataset [J]. Multimedia Tools and Applications, 2017, 76(20):21811-21838.
[19] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2017: 1132-1140.
[20] ZHANG Y L, TIAN Y P, KONG Y, et al. Residual dense network for image super-resolution [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2018: 2472-2481.
[21] ZHANG Y L, LI K P, LI K, et al. Image super-resolution using very deep residual channel attention networks [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 294-310.
[22] LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Piscataway: IEEE, 2017:105-114.
[23] PASZKE A, CHAURASIA A, KIM S, et al. ENet:a deep neural network architecture for real-time semantic segmentation [EB/OL]. [2021-02-23]. https://arxiv.org/pdf/1606.02147.pdf.
[24] WANG X T, YU K, WU S X, et al. ESRGAN: enhanced super-resolution generative adversarial networks [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11133. Cham: Springer, 2018:63-79.
[25] ZHANG W L, LIU Y H, DONG C, et al. RankSRGAN: generative adversarial networks with ranker for image super-resolution [C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 3096-3105.
[26] ZHENG H T, JI M Q, WANG H Q, et al. CrossNet: an end-to-end reference-based super resolution network using cross-scale warping [C]// Proceedings of the2018 European Conference on Computer Vision, LNCS 11210. Cham: Springer, 2018: 87-104.
Image super-resolution reconstruction network based on multi-channel attention mechanism
ZHANG Ye1, LIU Rong1, LIU Ming2*, CHEN Ming1
(1.College of Physical Science and Technology,Central China Normal University,Wuhan Hubei430079,China;2.School of Computer Science,Central China Normal University,Wuhan Hubei430079,China)
The existing image super-resolution reconstruction methods are affected by texture distortion and details blurring of generated images. To address these problems, a new image super-resolution reconstruction network based on multi-channel attention mechanism was proposed. Firstly, in the texture extraction module of the proposed network, a multi-channel attention mechanism was designed to realize the cross-channel information interaction by combining one-dimensional convolution, thereby achieving the purpose of paying attention to important feature information. Then, in the texture recovery module of the proposed network, the dense residual blocks were introduced to recover part of high-frequency texture details as many as possible to improve the performance of model and generate high-quality reconstructed images. The proposed network is able to improve visual effects of reconstructed images effectively. Besides, the results on benchmark dataset CUFED5 show that the proposed network has achieved the 1.76 dB and 0.062 higher in Peak Signal-to-Noise Ratio (PSNR) and Structural SIMilarity (SSIM) compared with the classic Super-Resolution using Convolutional Neural Network (SRCNN) method. Experimental results show that the proposed network can increase the accuracy of texture migration, and effectively improve the quality of generated images.
image super-resolution reconstruction; texture transfer; attention mechanism; one-dimensional convolution; dense residual block
TP391.4
A
1001-9081(2022)05-1563-07
10.11772/j.issn.1001-9081.2021030498
2021?04?02;
2021?06?28;
2021?07?01。
國家社會科學基金資助項目(19BTQ005) 。
張曄(1997—),女,河北石家莊人,碩士研究生,主要研究方向:模式識別、智能信息處理; 劉蓉(1969—),女,湖南安化人,副教授,博士,主要研究方向:智能信息處理、模式識別; 劉明(1967—),男,湖北仙桃人,教授,博士,CCF會員,主要研究方向:物聯(lián)網(wǎng)、計算機系統(tǒng)結(jié)構(gòu)、智能信息處理及可視化; 陳明(1995—),男,湖北十堰人,碩士研究生,主要研究方向:模式識別、智能信息處理。
This work is partially supported by National Social Science Fund of China (19BTQ005).
ZHANG Ye, born in 1997, M. S. candidate. Her research interests include pattern recognition, intelligent information processing.
LIU Rong, born in 1969, Ph. D., associate professor. Her research interests include intelligent information processing, pattern recognition.
LIU Ming, born in 1967, Ph. D., professor. His research interests include internet of things, computer system structure, intelligent information processing and visualization.
CHEN Ming, born in 1995, M. S. candidate. His research interests include pattern recognition,intelligent information processing.