程 玉,鄭 華,2,3,4,陳曉文,林爍爍,張明偉
1(福建師范大學(xué) 光電與信息工程學(xué)院,福州 350007)
2(福建師范大學(xué) 醫(yī)學(xué)光電科學(xué)與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,福州 350007)
3(福建師范大學(xué) 福建省光子技術(shù)重點(diǎn)實(shí)驗(yàn)室,福州 350007)
4(福建師范大學(xué) 福建省光電傳感應(yīng)用工程技術(shù)研究中心,福州 350007)
生活水平的提升使得人們對于畫面清晰度的要求日益增高.在手機(jī)中,相機(jī)的拍攝功能直接影響銷量,廠商付出眾多精力提升圖像畫質(zhì),由此圖像超分辨率重建技術(shù)應(yīng)運(yùn)而生.其在醫(yī)學(xué)成像,圖像壓縮,安防監(jiān)控等領(lǐng)域有著重要的研究意義[1].早先提高圖像分辨率的方法是改進(jìn)圖像采集系統(tǒng)中的光學(xué)器件,然而這種方法受到生產(chǎn)成本和制造工藝的限制.近年來,隨著科學(xué)技術(shù)的高速發(fā)展,深度學(xué)習(xí)的蓬勃興起,實(shí)現(xiàn)圖像超分辨率重建成為計(jì)算機(jī)視覺領(lǐng)域一大熱門研究課題.
一直以來,圖像超分辨率重建可以分為3 大類:1)基于插值的方法,例如:最近鄰插值,雙線性插值和雙三次插值[2].2)基于重建的方法,例如:貝葉斯分析法,迭代反投影法等.3)基于學(xué)習(xí)的方法,例如:稀疏表示法,鄰域嵌入法等.傳統(tǒng)的方法對于圖像超分辨率重建的處理速度快但丟失大量高頻信息,細(xì)節(jié)紋理恢復(fù)有限且消耗大量資源.卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用在圖像超分辨率領(lǐng)域是2014年提出的SRCNN[3],該方法開啟了該領(lǐng)域的新面貌.自此,眾多研究者使用各種深度學(xué)習(xí)的方法來研究,成果不斷.
采用深度學(xué)習(xí)的方法進(jìn)行圖像超分辨率重建的優(yōu)勢主要在于卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征捕獲能力.但模型難以快速收斂,消耗大量時(shí)間的問題顯露出來.這也意味著需要消耗更大的內(nèi)存空間,網(wǎng)絡(luò)也面臨著“過擬合”的風(fēng)險(xiǎn).因此,如何在增加網(wǎng)絡(luò)深度的同時(shí)不增加網(wǎng)絡(luò)參數(shù)量且圖像重建精度高,是目前圖像超分辨率重建研究的重要任務(wù)[4].
本文提出的基于密集殘差注意力網(wǎng)絡(luò)的圖像超分辨率算法,可以明顯提升圖像重建視覺效果,網(wǎng)絡(luò)收斂速度快,有效緩解網(wǎng)絡(luò)“過擬合”的問題.該網(wǎng)絡(luò)的深層特征提取部分主要采用密集殘差網(wǎng)絡(luò)(Residual Dense Network,RDN),并且受到SE-Net 的激發(fā),在網(wǎng)絡(luò)中加入通道注意力機(jī)制,區(qū)分高低頻信息,給高頻信息大的權(quán)重.網(wǎng)絡(luò)不需要學(xué)習(xí)低頻無用信息.經(jīng)實(shí)驗(yàn)驗(yàn)證,本文提出的密集殘差注意力網(wǎng)絡(luò)在圖像超分辨率重建技術(shù)上取得了不錯(cuò)的視覺效果.
近幾年來,圖像超分辨率領(lǐng)域迎來大熱潮,研究者廣泛使用深度學(xué)習(xí)的方法.Chao Dong 等人[5]改變了傳統(tǒng)方法復(fù)雜且效果有限的囧境,他們成功將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用于圖像超分辨率.研究者在SRCNN 的基礎(chǔ)上加以改進(jìn),不斷擴(kuò)大網(wǎng)絡(luò)深度,加快模型訓(xùn)練的速度,以獲取深層的圖像信息來實(shí)現(xiàn)超分辨率重建.FSRCNN提出SRCNN 模型的弊端,直接將LR 圖像輸入網(wǎng)絡(luò),無需預(yù)處理操作,采用反卷積(deconvolution)進(jìn)行圖像重建操作,加速網(wǎng)絡(luò)訓(xùn)練,網(wǎng)絡(luò)性能提升一個(gè)臺階;VDSR[6]利用殘差學(xué)習(xí)(residual learning)將網(wǎng)絡(luò)深度擴(kuò)大到20 層,擴(kuò)大感受野,抓取深度特征,重建效果得以提升;DRCN 首次采用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)實(shí)現(xiàn)圖像的超分辨率[7];稠密塊(Dense Block)被應(yīng)用于圖像的超分辨率是在SR-Dense-Net 中,該網(wǎng)絡(luò)最大的優(yōu)勢在于重復(fù)使用特征圖,有效利用了LR 圖像的信息;LapSRN[8]多次擴(kuò)大圖像的分辨率.該網(wǎng)絡(luò)的優(yōu)勢體現(xiàn)在高放大倍數(shù)情況下,例如×4 放大倍數(shù)下,輸出結(jié)果是在×2 放大倍數(shù)下重建的圖像和原LR 圖像上再次重建得到,在一定程度上恢復(fù)出圖像的細(xì)節(jié).
近年來,隨著科學(xué)技術(shù)的高速發(fā)展,深度學(xué)習(xí)的蓬勃興起,實(shí)現(xiàn)圖像超分辨率重建成為計(jì)算機(jī)視覺領(lǐng)域一大熱門研究課題.對于圖像超分辨率任務(wù),圖像恢復(fù)起關(guān)鍵性作用的高頻成分主要是圖像的紋理和邊緣等特征,因此,均等地對待各通道特征是不現(xiàn)實(shí)的.研究者在研究人類視覺特性時(shí),發(fā)現(xiàn)人在觀察事物時(shí)會選擇性地關(guān)注部分信息而忽略其他信息.2017年,SENet[9]中提出將注意力機(jī)制加入深度網(wǎng)絡(luò)中,對特征通道間的相關(guān)性進(jìn)行建模,重點(diǎn)關(guān)注重要特征來提升準(zhǔn)確率,SENet 的網(wǎng)絡(luò)框架如圖1所示.
圖1 注意力機(jī)制
圖1左側(cè)由C 個(gè)特征圖組成的輸入特征圖組為X=[x1,x2,…,xi,…,xC],大小均為H×W.具體操作如下:
(1)Sequeeze 操作
首先使用全局平均池化(global average pooling),將每個(gè)二維的特征通道變成一個(gè)標(biāo)量,該標(biāo)量具有全局感受野,該步驟稱為Sequeeze 操作,公式如下:
其中,Fsq為Sequeeze 操作的函數(shù),第c個(gè)特征圖上位置(i,j)的 值為Xc(i,j).
(2)Excitation 操作
Excitation 利用參數(shù)w為每一個(gè)通道形成權(quán)重.該過程是由兩個(gè)全連接組成.第1 個(gè)全連接層將C個(gè)通道壓縮成C/r個(gè)通道,稱為通道下采樣(channel downscaling):第2 個(gè)全連接層恢復(fù)C個(gè)通道,公式如下:
其中,z是Sequeeze 操作的全局描述,δ表示ReLU 函數(shù),σ為Sigmoid 函數(shù).降采樣的卷積層權(quán)重設(shè)為WD∈,上采樣的卷積層權(quán)重設(shè)為WU∈,r是縮放率[10].
(3)融合操作
在Excitation 操作后獲得特征圖X的各個(gè)通道的權(quán)重,再將輸入特征與通道權(quán)重相乘,公式如下:
其中,Sc是第C個(gè)特征圖通道的權(quán)重,Xc是第C個(gè)特征圖.
如圖2所示,密集殘差注意力網(wǎng)絡(luò)主要包含4 大部分:淺層特征提取,深層特征提取,上采樣,重建.令輸入圖像為ILR,本文的淺層特征提取可用下式表示為:
其中,HSF代表淺層特征提取層的函數(shù).F0代表該層的輸出.深層特征提取模塊即非線性匹配層,包含4 個(gè)密集殘差注意力模塊,具體公式如下:
其中,HRAM表示深層特征提取層的函數(shù),FDF代表該層輸出的深層特征圖.深層特征提取層包含4 個(gè)密集殘差注意力模塊,可以充分獲取深層圖像高頻信息.具體操作將在3.2 節(jié)詳細(xì)討論.
圖2 網(wǎng)絡(luò)框架
接下來進(jìn)行上采樣操作(Upscale).我們將深層特征圖輸入上采樣模塊,具體公式如下:
HUP代表上采樣函數(shù),FUP代表上采樣后的特征圖.
最后將FUP輸入重建模塊,即:
其中,ISR代表最終輸出圖像,HRec代表圖像重建函數(shù).
密集殘差注意力模塊主要包含4 個(gè)相同的殘差注意力塊(RAB)和密集連接(Dense Connection),具體框圖如圖3.
令第l個(gè)殘差注意力塊用公式表示為:
其中,Fl?1,Fl+1分別表示第l?1,l+1個(gè)RAB 模塊,即第l個(gè)RAB 模塊的輸入和輸出,Hl(·)表示第l個(gè)密集殘差注意力塊函數(shù).第l個(gè)RAB 模塊操作細(xì)節(jié)如下:
首先Fl-1經(jīng)過一個(gè)空洞卷積層(dilated convolution)得到Fl′,公式如下:
其中,HD-Conv表示空洞卷積操作的函數(shù).由于網(wǎng)絡(luò)層數(shù)增加容易導(dǎo)致網(wǎng)絡(luò)退化等問題,因此,本文引入殘差塊解決這一問題.殘差塊可用式(10)表示為:
傳統(tǒng)的卷積操作均等對待每一個(gè)特征圖,在圖像超分辨率任務(wù)中,對超分辨率結(jié)果有用的特征和無用的特征被均等對待,極大降低網(wǎng)絡(luò)效率.因此,我們在網(wǎng)絡(luò)中加入通道注意力塊,為每一個(gè)特征通道學(xué)習(xí)一個(gè)權(quán)重,該權(quán)重代表特征圖的重要度.這將使網(wǎng)絡(luò)重點(diǎn)關(guān)注有用的信息.具體公式如下:
其中,是兩層卷積層后的特征圖,Al(·)代表第l個(gè)密集殘差注意力模塊的特征通道注意力函數(shù).
圖3 殘差注意力塊
殘差網(wǎng)絡(luò)通過建立“短路連接”可以極大加深網(wǎng)絡(luò),自問世以來深受研究者熱愛.當(dāng)網(wǎng)絡(luò)深度加深到一定程度的弊端是網(wǎng)絡(luò)收斂速度極慢.密集網(wǎng)絡(luò)(DenseNet)[10]建立前面所有層與當(dāng)前層的密集連接(dense connection),且能特征重用(feature reuse),很好地解決了此問題.具體結(jié)構(gòu)如圖4所示.
圖4 密集連接機(jī)制
本文受到密集卷積神經(jīng)網(wǎng)絡(luò)的啟發(fā),在網(wǎng)絡(luò)中加入密集連接機(jī)制,如圖4所示.具體公式表示如下:
密集連接機(jī)制充分利用LR 圖像的特征且深層特征可以利用淺層的特征,增大信息的流動,減少了網(wǎng)絡(luò)訓(xùn)練參數(shù)量.特征重用可以減少卷積操作的同時(shí),增加特征圖的數(shù)量,有效提高網(wǎng)絡(luò)學(xué)習(xí)效率.
目前圖像超分辨率的訓(xùn)練基準(zhǔn)數(shù)據(jù)集主要有:DIV2K,Flichr2K,PixelShift200 等,如表1所示.本次實(shí)驗(yàn),我們采用Flichr2K 數(shù)據(jù)集來訓(xùn)練網(wǎng)絡(luò).主流測試數(shù)據(jù)集主要有:Set5,Set14,BSD100,Urban100,Manga109 等,如表2.深度學(xué)習(xí)模型需要通過大量數(shù)據(jù)進(jìn)行訓(xùn)練,然而現(xiàn)有的訓(xùn)練數(shù)據(jù)集普遍包含的圖片數(shù)量較少.因此本文使用數(shù)據(jù)增強(qiáng)技術(shù)[11],將訓(xùn)練數(shù)據(jù)隨機(jī)旋轉(zhuǎn)90°,180°,270°,平移和翻折,裁剪訓(xùn)練的LR 圖像塊大小為48×48.目前圖像超分辨率網(wǎng)絡(luò)的輸入是LR圖像,獲取方式是由HR 圖像在Matlab 平臺,經(jīng)4 倍的雙三次下采樣(BicubicDownsampling)得到.
表1 訓(xùn)練數(shù)據(jù)集(單位:張)
表2 測試數(shù)據(jù)集(單位:張)
對于圖像超分辨率效果的客觀評價(jià)指標(biāo)主要有PSNR和SSIM[12],圖像超分辨率的效果可以用這兩個(gè)指標(biāo)衡量.
(1)PSNR
給定一個(gè)大小為m×n的HR 圖像X和重建的超分辨率圖像F,均方誤差(MSE)定義為:
PSNR定義為:
由于PSNR與人眼的敏感特性不完全符合,因此由于PSNR與人眼的敏感特性不完全符合,因此根據(jù)PSNR的數(shù)值判斷圖像生成的效果是不合理的.
(2)SSIM
SSIM是衡量圖像間結(jié)構(gòu)相似性的指標(biāo),結(jié)構(gòu)相似度是從圖像組成的角度將結(jié)構(gòu)信息定義為反映場景中物體結(jié)構(gòu)的屬性,并將失真建模為亮度、對比度和結(jié)構(gòu)3 個(gè)不同因素的組合.其值在0 到1 之間,若兩幅圖結(jié)構(gòu)完全相似,則SSIM值為1.
本文的實(shí)驗(yàn)需要在配有NVIDA GeForce 1080Ti的計(jì)算機(jī)上進(jìn)行,并調(diào)用PyTorch 庫.采用Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)為10?4,每反向傳播2×105,學(xué)習(xí)率下降1/2.除了特征圖通道放大或縮小時(shí)卷積核大小設(shè)為1×1 以外,其余卷積操作的卷積核大小均設(shè)為3×3,卷積后使用PReLU 激活.
我們與目前超分辨率效果較好的幾種方法,例如:SRCNN,LapSRN,VDSR,RCAN[13],MCAN[14]等作比較.放大倍數(shù)分別為:×2,×4,×8.在Set5,Set14,BSD100,Urban100,Manga109 測試數(shù)據(jù)集上進(jìn)行測試,得到如表3所示的PSNR和SSIM數(shù)值.從表中可以看出,在放大倍數(shù)為8 倍時(shí),在Set14 測試集上,本文提出的方法的PSNR值達(dá)到25.43.從客觀評價(jià)指標(biāo)上看,本文提出的方法可以將圖像中的細(xì)節(jié)恢復(fù)清晰,性能表現(xiàn)優(yōu)于目前表現(xiàn)較好的RCAN 和MCAN 等方法.并且當(dāng)放大倍數(shù)較高時(shí),本文提出的算法性能越好.
表3 不同超分辨率方法的PSNR 和SSIM 數(shù)值比較
在視覺效果上,我們在圖5中展示了在×4 放大倍數(shù)下的效果,可以看出本文提出的算法恢復(fù)的圖像高頻紋理較其他算法清晰.可見,無論是PSNR和SSIM數(shù)據(jù)值還是人眼的視覺效果,本文提出的基于密集殘差注意力機(jī)制的圖像超分辨率算法細(xì)節(jié)恢復(fù)較好,圖像重建效果優(yōu)于其他算法.
在訓(xùn)練階段,本文提出的方法增加網(wǎng)絡(luò)深度,相對于RCAN,MCAN,參數(shù)量較少.如圖6所示,本文在×4 放大倍數(shù)下的Urban100 數(shù)據(jù)集上進(jìn)行對比試驗(yàn).本文的方法在參數(shù)量和性能上做了較好權(quán)衡,獲得了較高的PSNR值,其參數(shù)量遠(yuǎn)遠(yuǎn)小于MCAN 和RCAN.
由于大部分圖像超分辨率算法的網(wǎng)絡(luò)訓(xùn)練速度慢,生成圖像紋理不清晰,本文提出的基于密集殘差注意力網(wǎng)絡(luò)針對這些問題做出改進(jìn),并取得優(yōu)秀的視覺效果.利用殘差網(wǎng)絡(luò)極強(qiáng)的特征捕獲能力,有效解決梯度消失的問題.注意力機(jī)制可以充分利用LR 圖像的特征,重點(diǎn)關(guān)注對圖像超分辨率有用的特征,忽略無用的特征,有效提高網(wǎng)絡(luò)的收斂速度,降低參數(shù)量.由實(shí)驗(yàn)驗(yàn)證可知,本文提出的基于密集殘差注意力網(wǎng)絡(luò)的圖像超分辨率算法參數(shù)量少,網(wǎng)絡(luò)收斂速度快.因此,基于密集殘差注意力網(wǎng)絡(luò)的圖像超分辨率算法在圖像重建質(zhì)量和網(wǎng)絡(luò)性能上均優(yōu)于其他主流超分辨率算法.
圖5 視覺效果對比
圖6 參數(shù)量分析