利用多尺度卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率算法

2018-07-26 03:17:46陳書貞解小會楊郁池練秋生

信號處理 2018年9期

關(guān)鍵詞：范數(shù)網(wǎng)絡(luò)結(jié)構(gòu)分辨率

陳書貞解小會楊郁池練秋生

(燕山大學(xué)信息科學(xué)與工程學(xué)院, 河北秦皇島 066004)

1 引言

圖像超分辨率算法的目標(biāo)是通過低分辨率圖像來重建高分辨率圖像。圖像超分辨率在圖像處理和計算機(jī)視覺中有著很重要且廣泛的應(yīng)用，在醫(yī)學(xué)診斷[1]、衛(wèi)星遙感[2]等領(lǐng)域都有著非常重要的應(yīng)用。圖像為人們提供了可視化的直觀信息，其質(zhì)量的好壞直接影響識別、檢測及分類等操作[3]。圖像的分辨率是評價圖像質(zhì)量的重要指標(biāo)，主要反映了圖像所含信息量的多少[4]。圖像的分辨率越高，所含信息量就越多，視覺效果也越好，它對于視頻監(jiān)控、醫(yī)學(xué)診斷等有著極其重要的作用。

圖像超分辨率重建由Harris等人在1964年首次提出[5]，之后有許多學(xué)者對其進(jìn)行了深入研究。由于圖像超分辨率重建是由低分辨率圖像來重建高分辨率圖像，所以超分辨率重建是圖像處理中典型的病態(tài)反問題[6]。單幅圖像超分辨率算法大體上可以分為兩大類[7]：一類是基于插值的方法，一類是基于學(xué)習(xí)的方法?；诓逯档某直媛仕惴╗8-9]比較簡單，容易實現(xiàn)，但是對于重建質(zhì)量較高的圖像紋理和細(xì)節(jié)信息存在一定的困難。目前主流的基于學(xué)習(xí)的方法大致有三大類：基于稀疏表示的學(xué)習(xí)算法[10-11]、基于近鄰嵌入的學(xué)習(xí)算法[12-14]和基于深度學(xué)習(xí)的算法[15-20]?；谙∈璞硎镜姆椒ㄊ峭ㄟ^學(xué)習(xí)高、低分辨率圖像塊的過完備字典來重建高分辨率圖像?；诮徢度氲膶W(xué)習(xí)是利用圖像特征空間上的結(jié)構(gòu)相似性，對低分辨率圖像塊及其在特征空間上最近鄰的圖像塊進(jìn)行學(xué)習(xí)，以此來重建對應(yīng)的高分辨率圖像。近年來基于深度學(xué)習(xí)的圖像超分辨率問題受到大家越來越多的關(guān)注和研究，尤其是卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像超分辨率重建取得了很大的成功。卷積神經(jīng)網(wǎng)絡(luò)通過卷積運算能更好的利用一個像素點的周圍像素來獲取此像素點的信息，而且卷積神經(jīng)網(wǎng)絡(luò)可以處理比較復(fù)雜的映射關(guān)系并對數(shù)據(jù)進(jìn)行并行處理。卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)其本質(zhì)是尋找輸入與輸出之間復(fù)雜的非線性映射關(guān)系；其應(yīng)用于圖像超分辨率重建，則是通過學(xué)習(xí)低分辨率圖像塊與高分辨率圖像塊之間端到端的映射關(guān)系來重建高分辨率的圖像。

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率算法發(fā)展比較迅速。最早用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)圖像超分辨率的是Dong Chao等人，其提出了SRCNN[15]的方法。該方法采用三層卷積網(wǎng)絡(luò)來學(xué)習(xí)輸入低分辨率圖像塊和輸出高分辨率圖像塊之間的映射關(guān)系，三層卷積分別用于特征提取、非線性映射和重建。SRCNN的優(yōu)點是結(jié)構(gòu)簡單，相比較于插值、稀疏表示以及近鄰嵌入方法可以取得更好的性能，缺點是由于訓(xùn)練的困難即使加深網(wǎng)絡(luò)也無法提高圖像的重建質(zhì)量[16]。隨后，為了提高訓(xùn)練速度，Dong Chao等人又提出了FSRCNN[17]的方法。FSRCNN重新設(shè)計了SRCNN的結(jié)構(gòu)，該網(wǎng)絡(luò)直接輸入原始的低分辨率圖像，并在網(wǎng)絡(luò)最后使用轉(zhuǎn)置卷積層把圖像放大到需要的大小。FSRCNN算法無需圖像的插值預(yù)處理，大大減少了計算的復(fù)雜度；而且在網(wǎng)絡(luò)的映射部分選用尺寸更小的濾波器以及更多的映射層，為了降低網(wǎng)絡(luò)的計算量在映射前縮小輸入特征維數(shù)，映射后再擴(kuò)大回來，以免影響圖像的重建質(zhì)量。經(jīng)過這樣的修改不僅加快了訓(xùn)練速度而且提高了性能。由于深層網(wǎng)絡(luò)模型在圖像分類問題上取得很大突破，受此啟發(fā)，Kim等人提出了一個深層的卷積神經(jīng)網(wǎng)絡(luò)模型VDSR[18]。VDSR采用20層卷積網(wǎng)絡(luò)，利用殘差訓(xùn)練，不再簡單的學(xué)習(xí)低分辨率圖像與高分辨率圖像之間的映射，而是通過網(wǎng)絡(luò)來學(xué)習(xí)高分辨率圖像和低分辨率圖像的殘差圖像。VDSR方法提出的殘差訓(xùn)練和梯度裁剪方法不僅解決了深層網(wǎng)絡(luò)容易出現(xiàn)的梯度消失和爆炸的問題，而且Kim的實驗[18-19]也表明利用殘差訓(xùn)練可以加快網(wǎng)絡(luò)的收斂速度并提高圖像的重建質(zhì)量。雖然VDSR算法取得了較好的性能，但是其網(wǎng)絡(luò)結(jié)構(gòu)是卷積層的堆疊，網(wǎng)絡(luò)結(jié)構(gòu)越深，梯度消失現(xiàn)象就會越明顯。

在CVPR2017中，Lai等人提出LapSRN算法來快速精確實現(xiàn)超分辨率重建[20]，該算法采用深度拉普拉斯金字塔網(wǎng)絡(luò)來逐級重建高分辨率圖像。Tai等人提出的DRRN算法[21]，用一個深度回歸殘差網(wǎng)絡(luò)來重建高分辨率圖像，可以有效提高算法的重建性能。U-net是一種很好地用于圖像語義分割的網(wǎng)絡(luò)結(jié)構(gòu)，其結(jié)構(gòu)包括一個收縮支路來提取信息和一個對稱的擴(kuò)展支路來重建信息[22]。受此啟發(fā)，為提高超分辨率算法的性能，本文設(shè)計了一種利用多尺度卷積核的收縮--擴(kuò)展殘差網(wǎng)絡(luò)。本文提出的算法有三大優(yōu)點：本文算法利用多尺度卷積核的濾波器并且采用收縮--擴(kuò)展的網(wǎng)絡(luò)結(jié)構(gòu)來提取不同尺度的圖像信息，以此來提高重建圖像的質(zhì)量；利用網(wǎng)絡(luò)結(jié)構(gòu)的跳躍連接更有利地傳播信息以及殘差訓(xùn)練的方法來提高性能；損失函數(shù)不再使用l2范數(shù)損失函數(shù)，而是采用l1范數(shù)損失函數(shù)，使得性能有所提高。實驗結(jié)果表明本文算法不僅可以較好的提高圖像的重建質(zhì)量，而且訓(xùn)練速度也相對較快。

2 網(wǎng)絡(luò)結(jié)構(gòu)

本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，該網(wǎng)絡(luò)在整體上可以看做是一個具有收縮--擴(kuò)展結(jié)構(gòu)的殘差網(wǎng)絡(luò)。前一部分(左側(cè))是網(wǎng)絡(luò)的收縮部分，采用兩次下采樣把訓(xùn)練圖像縮放兩次，即縮減為輸入圖像的四分之一；網(wǎng)絡(luò)的后一部分(右側(cè))是與收縮部分完全對稱的擴(kuò)展部分，對應(yīng)的使用兩次上采樣把縮小的圖像擴(kuò)大回原來的大小。

本文的網(wǎng)絡(luò)結(jié)構(gòu)包含20層卷積層、2層下采樣和2層上采樣。x和y分別是網(wǎng)絡(luò)的輸入和輸出，conv(k,n)中k為卷積核大小，n為卷積核的個數(shù)。輸入層首先連接的是一個多尺度模塊，該網(wǎng)絡(luò)結(jié)構(gòu)中共包含5個多尺度模塊：

(1)

F(xm;θ)=Concat(f1(xm;θ1),f2(xm;θ2))

(2)

i=1,2

(3)

在網(wǎng)絡(luò)的收縮部分，每個多尺度模塊之后都連接一個卷積層和一個下采樣層。卷積層采用的卷積核是3×3，卷積核的個數(shù)為64。下采樣層采用的是最大池化，池化操作的區(qū)域為2×2，步幅為2，最大池化即找出池化區(qū)域中的最大值。

在網(wǎng)絡(luò)的擴(kuò)展部分，則是在轉(zhuǎn)置卷積層之后連接一個多尺度模塊和一個卷積核為3×3的卷積層，這兩個多尺度模塊之后連接的兩個卷積層的卷積核個數(shù)分別是64和1。轉(zhuǎn)置卷積層選用的卷積核為2×2、卷積核個數(shù)為64，該層的作用即為上采樣。

除最后一層卷積層和下采樣層之外，每一層后都使用一個ReLU層。此外，為了使網(wǎng)絡(luò)能更高效的傳遞信息，在每個下采樣層之前的卷積層和上采樣層之間都使用跳躍連接，跳躍連接指的是這兩層作和，而卷積核個數(shù)不變。本文網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點是采用多尺度的卷積核和收縮--擴(kuò)展的網(wǎng)絡(luò)結(jié)構(gòu)來提取圖像多尺度的信息，且采用跳躍連接和殘差訓(xùn)練來提高圖像的重建質(zhì)量。

本文在網(wǎng)絡(luò)的多尺度模塊采用多尺度卷積核的濾波器，即在同一個卷積層上應(yīng)用不同尺寸的濾波器。采用多尺度的卷積核有兩大優(yōu)點，首先，多尺度的卷積核最大的優(yōu)點是不同尺寸的卷積核可以提取圖像不同尺度的特征，以便濾波器提取和學(xué)習(xí)更豐富的圖像信息；其次，卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型時，是通過學(xué)習(xí)濾波器的參數(shù)(權(quán)重和偏置)來實現(xiàn)的，即不斷地學(xué)習(xí)濾波器的參數(shù)，使其達(dá)到一個最貼近標(biāo)簽的最優(yōu)值；本文采用多尺度的卷積核，目的是讓某一卷積層具有多樣性的濾波器，從而使權(quán)重和偏置的學(xué)習(xí)更加多樣性，近而可以充分有效的提取并學(xué)習(xí)圖像的有用信息。

本文采用的是完全對稱的收縮--擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)，即先把圖像縮小，共縮小兩次，圖像大小變?yōu)檩斎雸D像的四分之一，為了便于傳播信息和重建圖像再對稱的擴(kuò)大回原來的大小。收縮--擴(kuò)展的網(wǎng)絡(luò)結(jié)構(gòu)中，網(wǎng)絡(luò)的收縮部分用于學(xué)習(xí)和提取同一圖像不同尺度的特征，可學(xué)習(xí)同一圖像不同分辨率下的信息；擴(kuò)展部分則用來合并和重建圖像信息。利用多尺度的圖像信息，使得訓(xùn)練圖像的信息更加豐富，進(jìn)而促進(jìn)網(wǎng)絡(luò)更高效的學(xué)習(xí)。不僅如此，該網(wǎng)絡(luò)結(jié)構(gòu)因為有對圖像的收縮處理，會降低計算的復(fù)雜度，提高訓(xùn)練和測試的速度。

文中下采樣層和上采樣層分別用于縮小和擴(kuò)大圖像，下采樣層可采用2×2的最大池化，或是步幅為2的卷積。實驗結(jié)果表明采用步幅為2的卷積層與池化效果相差不多，但由于池化運算參數(shù)較少，訓(xùn)練速度更快，所以本文采用最大池化來進(jìn)行下采樣。上采樣采用轉(zhuǎn)置卷積層實現(xiàn)，轉(zhuǎn)置卷積層是通過一系列轉(zhuǎn)置卷積濾波器來上采樣圖像到相應(yīng)的大小。

網(wǎng)絡(luò)的跳躍連接體現(xiàn)在收縮部分每個下采樣層之前的卷積層都會與擴(kuò)展部分相應(yīng)的轉(zhuǎn)置卷積層相連。采用跳躍連接有利于圖像信息在網(wǎng)絡(luò)結(jié)構(gòu)中的傳播，在深層網(wǎng)絡(luò)結(jié)構(gòu)中，由于卷積層數(shù)增多、使用池化層或轉(zhuǎn)置卷積層，會損失或退化圖像的細(xì)節(jié)信息[24]。本文采用對稱的收縮--擴(kuò)展結(jié)構(gòu)，在圖像的收縮(池化)和擴(kuò)展(轉(zhuǎn)置卷積)過程中均會損失一些細(xì)節(jié)信息。在這種情況下使用跳躍連接，連接前面的卷積層和后面對應(yīng)的轉(zhuǎn)置卷積層，可使更多的圖像信息直接傳播到后面的網(wǎng)絡(luò)結(jié)構(gòu)中，以此來彌補(bǔ)這些信息的損失。跳躍連接還有殘差學(xué)習(xí)的作用，可以直接把前面的特征映射到后面，增加網(wǎng)絡(luò)后層的特征輸入，以此便于網(wǎng)絡(luò)高效的學(xué)習(xí)和訓(xùn)練。此外，深層網(wǎng)絡(luò)結(jié)構(gòu)在實際訓(xùn)練過程中常常遇到的一個困難就是梯度消失的問題，而跳躍連接在網(wǎng)絡(luò)的反向傳播過程中可以使梯度更好的向底層傳播，可以有效地解決這一問題，使網(wǎng)絡(luò)訓(xùn)練更容易。

y=x+fres(x)

(4)

其中，fres(x)為網(wǎng)絡(luò)的殘差輸出。使用殘差訓(xùn)練不僅可以很好的避免深層網(wǎng)絡(luò)易出現(xiàn)的梯度消失的問題，而且還可以加快訓(xùn)練的收斂速度并提高重建圖像的質(zhì)量。

在多數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)中，訓(xùn)練的損失函數(shù)為l2范數(shù)損失函數(shù)：

(5)

其中，n為樣本數(shù)，yi是高分辨率圖像，f(xi;Θ)為網(wǎng)絡(luò)的預(yù)測輸出，Θ={w1,w2,…;b1,b2,…}。本文算法訓(xùn)練的損失函數(shù)選用l1范數(shù)損失函數(shù)：

(6)

3 訓(xùn)練和測試

本文的訓(xùn)練實驗是通過Caffe[25]來實現(xiàn)，圖形處理器(GPU)使用的是GTX 1080。訓(xùn)練圖像共291張，這291張圖像與VDSR算法所用的訓(xùn)練圖像完全一致，其中91張圖像源自論文Image super-resolution via sparse representation[15]，其余200張源自Berkeley Segmentation Dataset[26]。實際的訓(xùn)練圖像還進(jìn)行了數(shù)據(jù)增強(qiáng)處理，即把這291張圖像進(jìn)行旋轉(zhuǎn)和縮放，經(jīng)過這一數(shù)據(jù)增強(qiáng)的處理，原來的291張圖像就變?yōu)榱?820張圖像。測試所用數(shù)據(jù)集為‘Set5’和‘Set14’，是兩個用于測試的基準(zhǔn)數(shù)據(jù)集。

使用網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練前，要先對輸入圖像做預(yù)處理，選用的處理方法是與SRCNN方法相同的雙三次插值法。使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型時，為了能高效快速的進(jìn)行訓(xùn)練，一般對圖像進(jìn)行分塊處理，因為批量處理更方便計算而且分塊處理可得到更多數(shù)量的樣本。本文實驗把圖像分成40×40的圖像塊作為訓(xùn)練樣本，取塊步幅為30，訓(xùn)練階段批量處理的大小為64，一共訓(xùn)練30輪，用GTX 1080訓(xùn)練需要270分鐘。訓(xùn)練所采用的優(yōu)化算法是Adam[27]，Adam是一種自適應(yīng)時刻估計，相比較于SGD，Adam優(yōu)化方法更靈活，Adam利用梯度的一階矩估計和二階矩估計來動態(tài)的調(diào)整每個參數(shù)的學(xué)習(xí)率，每一次迭代更新后都會把學(xué)習(xí)率控制在一定范圍內(nèi)，使得參數(shù)的學(xué)習(xí)更加穩(wěn)定。Adam有兩個動量參數(shù)，本文實驗采用的兩個參數(shù)分別是0.9和0.999，學(xué)習(xí)率設(shè)置為0.0001，l2范數(shù)正則化的權(quán)重衰減率設(shè)為0.0001，采用l2范數(shù)正則化的作用主要是為了防止網(wǎng)絡(luò)的過擬合。

4 實驗結(jié)果

4.1 與其他算法比較

為評價本文算法的性能，本文算法分別與SRCNN[15]、FSRCNN[17]、VDSR[18]、LapSRN[20]以及DRRN[21]五種算法進(jìn)行了對比實驗。主要用于評價實驗結(jié)果的指標(biāo)為峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)。

實驗結(jié)果如表1、表2所示。分別給出了SRCNN、FSRCNN、VDSR、LapSRN算法與本文算法在PSNR、SSIM上的實驗結(jié)果對比。本文所有對比實驗的數(shù)據(jù)均來自各個論文中作者給出的代碼和訓(xùn)練模型。如表1所示，通過比較五種算法在兩個不同測試集(Set5和Set14)的平均PSNR可以看出，在不同放大因子(×2、×3、×4)下，本文所提出的算法相比較于SRCNN算法和FSRCNN算法PSNR有明顯的提高。尤其與性能相對較好的VDSR算法相比，在Set5數(shù)據(jù)集上，不同放大因子(×2、×3、×4)下本文算法的平均PSNR分別高出VDSR算法0.27 dB、0.27 dB和0.28 dB，而在含有較多細(xì)節(jié)信息圖像的Set14數(shù)據(jù)集上優(yōu)勢相對較小，不同放大因子(×2、×3、×4)下分別比VDSR算法高0.15 dB、0.02 dB和0.10 dB。由表1也可以看出在放大因子為2和4時，本文算法相比較于LapSRN算法在Set5數(shù)據(jù)集上的平均PSNR分別提高0.34 dB和0.10 dB，在Set14中分別提高0.25 dB和0.04 dB。并且，從表2可以看出，本文提出的算法在結(jié)構(gòu)相似度(SSIM)上也有一定程度的提高。實驗結(jié)果表明，本文所提出的算法在圖像超分辨率重建問題中相比較于SRCNN算法、FSRCNN算法、VDSR算法以及LapSRN算法在性能上取得了較大的提高。

如表3所示，本文算法與VDSR算法在測試時間上進(jìn)行了對比，本文采用與VDSR完全相同的訓(xùn)練集和測試集，測試平臺為GPU GTX1080 Matlab 2015b。VDSR算法采用的是20層卷積網(wǎng)絡(luò)的殘差訓(xùn)練，而本文的網(wǎng)絡(luò)結(jié)構(gòu)一共25層，雖然本文的網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)比VDSR多，由于本文采用的是收縮--擴(kuò)展的網(wǎng)絡(luò)結(jié)構(gòu)，即在測試時先對圖像進(jìn)行收縮，然后再擴(kuò)展，在圖像與卷積核進(jìn)行卷積運算時映射變小，有效減小了計算量，所以在運行時間上與VDSR算法相當(dāng)。如表3所示，在Set5數(shù)據(jù)集上放大因子為2和3時以及Set14數(shù)據(jù)集上放大因子為4時，本文算法比VDSR算法快0.01 s。

表1 五種超分辨率算法在Set5和Set14數(shù)據(jù)集上的PSNR(dB)對比

表2 五種超分辨率算法在Set5和Set14數(shù)據(jù)集上的SSIM對比

本文實驗在Intel Core i5- 4460 CPU和GTX 1080的GPU操作平臺上進(jìn)行，除與上述幾種算法對比外，本文利用Set5數(shù)據(jù)集中的四張測試圖像與DRRN算法對比了圖像的重建結(jié)果。四張圖像如圖2所示，記為Set4數(shù)據(jù)集。本文算法與DRRN算法的對比結(jié)果如表4所示。對比實驗中選用了DRRN算法在1個回歸模塊、9個殘差單元共包含20層卷積情況下的實驗結(jié)果。由表4可知，在放大因子為2和4時，本文算法的性能要高于DRRN算法，但在3倍放大因子下本文算法的性能略低于DRRN算法。DRRN算法中每一個卷積層有128個卷積核，而本文算法的卷積層采用64個卷積核，并且本文在網(wǎng)絡(luò)中采用收縮--擴(kuò)展的網(wǎng)絡(luò)結(jié)構(gòu)，網(wǎng)絡(luò)參數(shù)大大減少，所以從運行時間上來看，本文算法速度較快。由表4可知，本文算法的運行時間是DRRN算法的四分之一。

除了PSNR、SSIM以及測試時間等評價指標(biāo)外，本文還選取了Set5和Set14兩個數(shù)據(jù)集中比較有代表性的三張圖像，將這幾張圖像顯示出來進(jìn)行對比，結(jié)果如圖3、圖4和圖5所示，三張圖像的大小分別為：336×220，380×576，648×520。從圖中可以看出，在放大因子為4時，本文算法的重建圖像細(xì)節(jié)信息更豐富，相比較于其他三種算法圖像明顯更清晰。

表3 兩種超分辨率算法在Set5和Set14數(shù)據(jù)集上的測試時間對比(s)

圖2 Set4數(shù)據(jù)集中的四張圖像Fig.2 Four images in Set4 dataset

DatasetScaleDRRN(B1U9)OURSSet4×2×3×437.39/0.9570/0.1233.56/0.9227/0.1231.06/0.8835/0.1237.53/0.9577/0.0333.52/0.9224/0.0331.14/0.8850/0.03

圖3 Set5中woman_GT圖像在放大因子為4時的視覺對比Fig.3 Visual comparison of the woman_GT image in Set5 with the scale of 4

圖4 Set14中zebra圖像在放大因子為4時的視覺對比Fig.4 Visual comparison of the zebra image in Set14 with the scale of 4

圖5 Set14中ppt3圖像在放大因子為4時的視覺對比Fig.5 Visual comparison of the ppt3 image in Set14 with the scale of 4

除了上述標(biāo)準(zhǔn)測試圖像外，本文還增加了醫(yī)學(xué)圖像和遙感圖像進(jìn)行測試，分別選取了一張醫(yī)學(xué)圖像和一張遙感圖像進(jìn)行了視覺對比，如圖6、圖7所示，圖像大小分別是248×248，248×248。其中，圖7的遙感圖像選自NWPU-RESISC45數(shù)據(jù)庫。從圖6、圖7可以看出本文算法相比較于其他三種算法重構(gòu)圖像的細(xì)節(jié)信息更清晰，并且相比較于SRCNN、FSRCNN及VDSR算法圖6的PSNR分別提高0.98 dB、0.67 dB、0.59 dB，圖7的PSNR分別提高了1.49 dB、0.94 dB和0.86 dB。

圖6 Brain圖像在放大因子為4時的視覺對比Fig.6 Visual comparison of the Brain image with the scale of 4

圖7 runway圖像在放大因子為4時的視覺對比Fig.7 Visual comparison of the runway image with the scale of 4

4.2 不同損失函數(shù)下性能比較

l2范數(shù)損失函數(shù)廣泛應(yīng)用于圖像處理優(yōu)化問題中，在使用時一般假設(shè)噪聲與圖像的局部特性是相互獨立的，但是人類視覺系統(tǒng)對噪聲的靈敏度是依賴于圖像的局部特性的[28]。所以在使用l2范數(shù)時具有一定的局限性。而l1范數(shù)損失函數(shù)所得到的預(yù)測圖像與清晰圖像的誤差是稀疏的，能更直觀地反映實驗結(jié)果。文獻(xiàn)[29]指出從PSNR和SSIM的角度來說，l2范數(shù)損失函數(shù)并不能保證總能優(yōu)于其他類型的損失函數(shù)，文獻(xiàn)[29]提出的EDSR算法也使用了l1范數(shù)損失函數(shù)來代替l2范數(shù)損失函數(shù)，并取得了相對較好的性能。本文通過實驗對比了兩種損失函數(shù)的性能，實驗結(jié)果如表5所示。

在Set5數(shù)據(jù)集上，不同放大因子(×2、×3、×4)下，采用l1范數(shù)損失函數(shù)的平均PSNR分別比l2范數(shù)損失函數(shù)的平均PSNR高0.1 dB、0.13 dB和0.13 dB，而在Set14數(shù)據(jù)集上取得提高比較小，不同放大因子(×2、×3)下分別提高0.06 dB、0.01 dB，在放大因子為4時低了0.01 dB。由表5也可以看出使用l1范數(shù)損失函數(shù)的SSIM也相對較高一些。實驗結(jié)果表明在網(wǎng)絡(luò)訓(xùn)練時選用l1范數(shù)損失函數(shù)比l2范數(shù)損失函數(shù)所得到的重建圖像性能更高。

4.3 兩種下采樣方法的對比實驗

本文網(wǎng)絡(luò)結(jié)構(gòu)的下采樣部分可以采用最大池化和步幅為2的卷積兩種方法，如表6所示，兩種方法在PSNR和SSIM上都相差不多。在Set5數(shù)據(jù)集上，放大因子為2和3時池化方法的PSNR稍稍高了0.03 dB，SSIM相差不多；但是在Set14數(shù)據(jù)集上當(dāng)放大因子為3和4時最大池化方法比步幅為2的卷積方法的SSIM分別低了0.0005和0.0009。雖然在性能上兩種方法相差不多，但是相比較于卷積，池化所需參數(shù)更少，訓(xùn)練速度較快。本文通過實驗記錄了兩種方法在同樣的數(shù)據(jù)集和訓(xùn)練參數(shù)下共訓(xùn)練30輪所需時間，在GPU GTX1080上池化方法所需訓(xùn)練時間比卷積方法少半個小時。所以本文實驗選用池化方法進(jìn)行下采樣。

4.4 不同網(wǎng)絡(luò)層數(shù)的對比實驗

本文通過實驗對比了不同網(wǎng)絡(luò)層數(shù)對實驗性能的影響。本文采用的網(wǎng)絡(luò)結(jié)構(gòu)共25層，在此網(wǎng)絡(luò)基礎(chǔ)上，在網(wǎng)絡(luò)的每一個多尺度模塊后分別減少和增加一個卷積層來進(jìn)行對比實驗。每個多尺度模塊后減少一個卷積層后網(wǎng)絡(luò)共20層，每個多尺度模塊后增加一個卷積層后網(wǎng)絡(luò)共30層。本次對比實驗在放大因子為3的情況下進(jìn)行，實驗結(jié)果如表7所示。當(dāng)網(wǎng)絡(luò)層數(shù)從25層降為20層時，Set5和Set14數(shù)據(jù)集的平均PSNR分別低了0.09 dB和0.01 dB；當(dāng)網(wǎng)絡(luò)層數(shù)由25層增加為30層時，Set14數(shù)據(jù)集的平均PSNR增加了0.03 dB，但Set5數(shù)據(jù)集的平均PSNR反而下降了0.07 dB。由表7實驗結(jié)果可知，當(dāng)網(wǎng)絡(luò)層數(shù)達(dá)到一定數(shù)量后，即使增加網(wǎng)絡(luò)層數(shù)，實驗性能也不會有明顯改善。

表5 在Set5和Set14數(shù)據(jù)集上兩種損失函數(shù)PSNR(dB)/SSIM對比

表6 在Set5和Set14數(shù)據(jù)集上兩種下采樣方法PSNR(dB)/SSIM對比

表7 Set5和Set14數(shù)據(jù)集不同網(wǎng)絡(luò)層數(shù)時PSNR(dB)/SSIM對比

表8 Set5和Set14數(shù)據(jù)集不同卷積核個數(shù)時PSNR(dB)/SSIM對比

4.5 不同卷積核個數(shù)的對比實驗

本文在放大因子為3的情況下對比了不同卷積核個數(shù)對網(wǎng)絡(luò)性能的影響，如表8所示，分別對比了卷積核個數(shù)為48，64，128三種情況下的實驗結(jié)果。從表8可以看出，卷積核個數(shù)為48時，與本文所選用的64個卷積核相比，Set5和Set14數(shù)據(jù)集的平均PSNR分別低了0.09 dB和0.01 dB；卷積核的個數(shù)為128時，相比較于64個卷積核，Set5數(shù)據(jù)集的平均PSNR增加了0.01 dB，Set14數(shù)據(jù)集的平均PSNR下降了0.01 dB。由表8實驗結(jié)果可知，本文算法選取卷積核個數(shù)為64是比較合適的。

4.6 不同訓(xùn)練樣本數(shù)量的對比實驗

本文在291張圖像的基礎(chǔ)上增加了100張圖像作為訓(xùn)練集，經(jīng)過數(shù)據(jù)增強(qiáng)處理后的訓(xùn)練圖像由5820張增加到7820張，實驗結(jié)果如表9所示。增加訓(xùn)練樣本后，在Set5數(shù)據(jù)集上性能并無明顯改善，在Set14數(shù)據(jù)集的平均PSNR增加了0.05 dB。由此可知，當(dāng)訓(xùn)練樣本達(dá)到一定規(guī)模后，再增加樣本，對實驗性能也不會有顯著提高。

表9 Set5和Set14數(shù)據(jù)集不同訓(xùn)練樣本數(shù)量時PSNR(dB)/SSIM對比

5 結(jié)論

本文采用了一個具有多尺度卷積核的收縮--擴(kuò)展殘差網(wǎng)絡(luò)，多尺度的卷積核使得訓(xùn)練時不僅可以提取不同尺度的特征信息還可以增加權(quán)重和偏置的多樣性，以此高效的學(xué)習(xí)圖像的有用信息。采用收縮--擴(kuò)展的網(wǎng)絡(luò)結(jié)構(gòu)來提取多尺度的圖像信息，使得訓(xùn)練更加高效，然而對網(wǎng)絡(luò)進(jìn)行收縮和擴(kuò)展就要使用下采樣和上采樣層，這兩層的使用會丟失圖像的一些細(xì)節(jié)信息，所以本文使用跳躍連接來彌補(bǔ)這些損失的信息，使得信息更好的傳播；并且采用殘差訓(xùn)練的方式來提高重建圖像質(zhì)量。本文的實驗結(jié)果表明，在相同訓(xùn)練集和測試集下，本文提出的網(wǎng)絡(luò)結(jié)構(gòu)用于圖像的超分辨率重建，可以在不以時間為代價的前提下取得更高的性能。