么天舜 馬曉軒
(北京建筑大學(xué)電氣與信息工程學(xué)院 北京 100044)(建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室 北京 100044)
單圖超分辨率重建技術(shù)(Single Image Super-Resolution,SISR)指將一幅低分辨率的圖像通過(guò)相關(guān)算法重建出對(duì)應(yīng)的高分辨率圖像,廣泛用于視頻監(jiān)控[1]、衛(wèi)星圖像[2]、醫(yī)學(xué)成像[3]等領(lǐng)域。圖像超分辨率重構(gòu)是計(jì)算機(jī)視覺(jué)領(lǐng)域重要的研究工作[4]。超分辨率技術(shù)中常用的方法分為基于插值[5]、基于重建、基于學(xué)習(xí)[6]三種。基于插值的方法主要有雙線(xiàn)性插值、雙三次插值等,此類(lèi)方法主要依靠圖像的原始信息,計(jì)算簡(jiǎn)單但生成的圖像高頻信息不足、質(zhì)量不高。基于重建的方法主要有迭代反投影法、凸集投影法和最大后驗(yàn)概率估計(jì)法。此類(lèi)方法將圖像退化后重構(gòu),雖然與插值方法相比提高了計(jì)算的復(fù)雜度,但受限于先驗(yàn)信息,對(duì)于復(fù)雜圖像重建的效果不理想。基于學(xué)習(xí)的方法是目前超分辨率中的主要解決方法。隨著深度學(xué)習(xí)的發(fā)展,以神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)的算法應(yīng)用到了超分辨率問(wèn)題上,通過(guò)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)低分辨率和高分辨率圖像的深層映射關(guān)系,取得了較好的效果。
近年來(lái),基于深度學(xué)習(xí)的方法解決超分辨率問(wèn)題已具有一定的發(fā)展。Dong等[7]提出的SRCNN(Super-Resolution Conventional Neural Network)方法首次利用神經(jīng)網(wǎng)絡(luò)解決超分辨率問(wèn)題。SRCNN僅使用三個(gè)卷積層對(duì)圖像進(jìn)行特征提取、映射后生成高分辨率圖像,在當(dāng)時(shí)重建的效果優(yōu)于傳統(tǒng)方法。在He等[8]提出的殘差網(wǎng)絡(luò)解決了在深度網(wǎng)絡(luò)結(jié)構(gòu)下訓(xùn)練困難的問(wèn)題之后,Kim等[9]提出VDSR使用殘差學(xué)習(xí)并加深網(wǎng)絡(luò)結(jié)構(gòu),與SRCNN相比提高了生成圖片的質(zhì)量。Ledig等[10]提出SRGAN網(wǎng)絡(luò),該方法首次使用生成對(duì)抗網(wǎng)絡(luò)[11](Generative Adversarial Networks,GAN)思想構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),并提出了新的損失函數(shù)解決生成的圖像在放大倍數(shù)較大時(shí)紋理細(xì)節(jié)較少問(wèn)題。但由于引入生成對(duì)抗網(wǎng)絡(luò),目前也存在著網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)在訓(xùn)練中不平衡導(dǎo)致的梯度消失和多樣性不足等問(wèn)題。Wang等[12]提出的ESRGAN中以SRGAN網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),通過(guò)刪除網(wǎng)絡(luò)中批規(guī)范化層以及使用密集殘差塊等方法,減少了生成圖像的偽影現(xiàn)象使圖像更加逼真。Zhang等[13]提出密集殘差塊對(duì)SRGAN中殘差塊進(jìn)行修改,利用圖像的所有分層特征進(jìn)行學(xué)習(xí)提高重建效果。Lim等[14]提出的EDSR去掉了SRResNet多余的模塊并相應(yīng)擴(kuò)大模型規(guī)模,達(dá)到重建圖像效果的提升。
為了進(jìn)一步提高重建后圖像的質(zhì)量,恢復(fù)更多的紋理細(xì)節(jié)并提升網(wǎng)絡(luò)的穩(wěn)定性,本文設(shè)計(jì)一種生成對(duì)抗網(wǎng)絡(luò)下改進(jìn)的單圖超分辨率重建算法。以生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),首先對(duì)生成網(wǎng)絡(luò)中的殘差塊進(jìn)行修改,使用多尺度下的卷積層對(duì)圖像的特征進(jìn)行學(xué)習(xí),前移激活函數(shù)移到權(quán)重層之前形成預(yù)激活并使用GELU作為激活函數(shù)構(gòu)成新的殘差塊,提高網(wǎng)絡(luò)的泛化能力從而生成更加真實(shí)的圖像;然后利用Wasserstein距離對(duì)網(wǎng)絡(luò)中的對(duì)抗損失函數(shù)進(jìn)行修改,增強(qiáng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性;其次引入Huber損失函數(shù)作為內(nèi)容損失;最后減少判別網(wǎng)絡(luò)中的批規(guī)范化層從而優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。
本文以生成對(duì)抗網(wǎng)絡(luò)為基礎(chǔ)結(jié)構(gòu)構(gòu)建單圖超分辨率重建算法,網(wǎng)絡(luò)模型總體結(jié)構(gòu)包括生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò),其中生成器網(wǎng)絡(luò)以低分辨率的圖像作為輸入,通過(guò)神經(jīng)網(wǎng)絡(luò)生成高分辨率圖像去擬合原始的高分辨率圖像;判別器網(wǎng)絡(luò)以生成的圖像和原始的圖像為輸入盡可能將兩者區(qū)分出來(lái)。兩個(gè)網(wǎng)絡(luò)分別以損失函數(shù)為優(yōu)化目標(biāo)訓(xùn)練生成器和判別器,經(jīng)過(guò)一定的迭代次數(shù)最終優(yōu)化網(wǎng)絡(luò)。本文通過(guò)對(duì)生成網(wǎng)絡(luò)中的殘差塊結(jié)構(gòu)、激活函數(shù)、損失函數(shù)、判別器網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改,使模型訓(xùn)練更穩(wěn)定的同時(shí)提高模型的生成能力,從而改進(jìn)圖像重建后的質(zhì)量。
本文中生成網(wǎng)絡(luò)以一幅低分辨率的圖像為輸入,先經(jīng)過(guò)一個(gè)由16個(gè)殘差塊組成的殘差網(wǎng)絡(luò)學(xué)習(xí)圖像的特征,然后再經(jīng)過(guò)兩個(gè)放大比例為2的亞像素卷積層對(duì)圖像進(jìn)行放大,最終生成高分辨率的圖像。
通常來(lái)說(shuō),網(wǎng)絡(luò)深度的增加可以學(xué)習(xí)到圖像更深層次的特征從而提升網(wǎng)絡(luò)的性能,但同時(shí)會(huì)帶來(lái)梯度消失和網(wǎng)絡(luò)退化等問(wèn)題,利用殘差網(wǎng)絡(luò)可以緩解這些問(wèn)題。為進(jìn)一步解決這一問(wèn)題,本文對(duì)殘差塊進(jìn)行修改,首先采用更多尺度的卷積層對(duì)圖像特征進(jìn)行學(xué)習(xí),提高模型精度。然后將激活函數(shù)前移至權(quán)重層之前形成預(yù)激活,在通過(guò)加法合并的殘差網(wǎng)絡(luò)結(jié)構(gòu)中,預(yù)激活能夠使網(wǎng)絡(luò)更容易進(jìn)行優(yōu)化工作,從而緩解深度網(wǎng)絡(luò)中的過(guò)擬合現(xiàn)象提高網(wǎng)絡(luò)的泛化能力。最后在激活函數(shù)上使用高斯誤差線(xiàn)性單元GELU激活函數(shù)代替深度學(xué)習(xí)中一般使用的ReLU(Rectified Linear Unit)等激活函數(shù)。
本文設(shè)計(jì)的殘差網(wǎng)絡(luò)由16個(gè)殘差塊相連組成,其中殘差塊結(jié)構(gòu)如圖1所示。使用兩種維度下的卷積提取不同尺度的特征,每個(gè)通道由兩個(gè)預(yù)激活層(GELU)和兩個(gè)卷積層組成對(duì)圖像特征進(jìn)行學(xué)習(xí)。
圖1 本文殘差塊結(jié)構(gòu)
除了改進(jìn)殘差網(wǎng)絡(luò)以外,本文在生成器網(wǎng)絡(luò)中移除了所有批歸一化(Batch Normalization,BN)層。雖然BN層能夠在一定程度上緩解過(guò)擬合問(wèn)題,但是也使生成后的圖像出現(xiàn)偽影現(xiàn)象,為了提高重建圖像的質(zhì)量,本文在生成網(wǎng)絡(luò)中均不使用BN層。生成網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,生成網(wǎng)絡(luò)卷積層參數(shù)設(shè)置如表1所示。
圖2 生成網(wǎng)絡(luò)結(jié)構(gòu)
表1 生成網(wǎng)絡(luò)卷積層參數(shù)設(shè)置
激活函數(shù)為神經(jīng)網(wǎng)絡(luò)引入非線(xiàn)性特性,ReLU是神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù),其定義如下:
(1)
由式(1)可以看出,當(dāng)輸入x≤0時(shí)輸出為0,這將會(huì)導(dǎo)致部分參數(shù)無(wú)法更新。本文引入Hendrycks等[15]提出的GELU激活函數(shù)以解決這一問(wèn)題,GELU激活函數(shù)定義如下:
GELU(x)=xP(X≤x)=xΦ(x)
(2)
式中:X~N(0,1)是標(biāo)準(zhǔn)正態(tài)分布。為了方便計(jì)算,將式(2)近似為式(3)。
(3)
ReLU與GELU函數(shù)圖像如圖3所示。
(a) ReLU (b) GELU圖3 激活函數(shù)圖像
由圖3和式(3)看出,GELU激活函數(shù)具有非凸、非單調(diào)性的特點(diǎn),在正域內(nèi)是非線(xiàn)性的,并且在所有點(diǎn)處均有曲率。與ReLU不同,當(dāng)輸入為負(fù)數(shù)時(shí)GELU不是將輸出簡(jiǎn)單置0而是仍有相應(yīng)的輸出達(dá)到激活作用。并且GELU在激活中引入隨機(jī)正則的思想,對(duì)輸入x乘以一個(gè)依賴(lài)于整體輸入分布的數(shù)值,保持了輸入x的隨機(jī)性以及對(duì)輸入的依賴(lài)性。
GELU將非線(xiàn)性與依賴(lài)輸入數(shù)據(jù)分布的隨機(jī)正則化結(jié)合在一起,提高了模型的泛化能力,這是ReLU所不具備的。Hendrycks等[15]證明了GELU優(yōu)于ReLU等激活函數(shù)。
判別網(wǎng)絡(luò)主要由連續(xù)的卷積層組成,分別以生成器生成的高分辨率圖像和原始真實(shí)的高分辨率圖像為輸入,在8個(gè)卷積層之后通過(guò)一個(gè)全連接層降低維度以便損失函數(shù)的計(jì)算。在SRGAN中,判別網(wǎng)絡(luò)最后通過(guò)Sigmoid激活函數(shù)解決二分類(lèi)問(wèn)題。本文由于使用Wasserstein距離增強(qiáng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,在判別器網(wǎng)絡(luò)中去除原始SRGAN中最后的Sigmoid激活并減少BN層以?xún)?yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。判別網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,判別網(wǎng)絡(luò)卷積層參數(shù)設(shè)置如表2所示。
圖4 判別網(wǎng)絡(luò)結(jié)構(gòu)
表2 判別網(wǎng)絡(luò)卷積層參數(shù)設(shè)置
(4)
(5)
2.3.1內(nèi)容損失
本文使用Huber Loss函數(shù)而不是MSE損失函數(shù)作為內(nèi)容損失。MSE(Mean Squared Error)屬于L2型損失函數(shù),由于函數(shù)計(jì)算樣本目標(biāo)值與預(yù)測(cè)值之間誤差的平方,當(dāng)兩者差距較大時(shí)誤差會(huì)被放大從而受到更大的懲罰,使得模型對(duì)異常值比較敏感,紋理細(xì)節(jié)等高頻信息不能被恢復(fù)出來(lái),最終生成的圖像過(guò)于平滑和模糊,無(wú)法反映模型輸出和真值圖像之間的感知區(qū)別。因此本文使用Huber Loss函數(shù)作為內(nèi)容損失函數(shù)部分,其結(jié)合了L2型MSE與L1型MAE損失函數(shù)兩者的優(yōu)點(diǎn),以超參數(shù)δ為界,不同的預(yù)測(cè)偏差值對(duì)應(yīng)不同的函數(shù),降低了對(duì)離群點(diǎn)的懲罰程度并增強(qiáng)了魯棒性,函數(shù)定義如式(6)所示。
(6)
式中:δ=0.75;ILR為原始低分辨率圖像;IHR為原始高分辨率圖像;G(ILR)為生成器生成的高分辨率圖像。
2.3.2感知損失
(7)
式中:H、W為圖像的高度和寬度;Φi,j表示在VGG19網(wǎng)絡(luò)中的第i個(gè)最大卷積層之前的第j個(gè)卷積獲得的特征圖,i=5、j=4。先利用VGG網(wǎng)絡(luò)提取特征然后再使用MSE損失計(jì)算,從而解決僅使用MSE損失時(shí)圖片過(guò)渡平滑、紋理細(xì)節(jié)不高的問(wèn)題。
2.3.3對(duì)抗損失
本文引入Arjovsky等[16]提出的Wasserstein距離(Earth-Mover距離)對(duì)對(duì)抗損失函數(shù)進(jìn)行修改,主要解決GAN中訓(xùn)練不穩(wěn)定的問(wèn)題。GAN中目標(biāo)函數(shù)見(jiàn)式(8)。
Ex~Pg(x)[log(1-D(G(x)))]
(8)
(9)
C(G)=-log(4)+2JSD(pr‖pg)
(10)
式中:JSD(pr‖pg)表示pr與pg之間的JS散度,當(dāng)二者分布相同時(shí)JS散度等于0;C(G)為最小值,生成器網(wǎng)絡(luò)完成優(yōu)化。但是當(dāng)pr與pg之間的分布完全沒(méi)有重疊或者重疊的部分可以忽略時(shí),它們之間JS散度的數(shù)值等于log2,此時(shí)梯度為0導(dǎo)致生成器發(fā)生梯度消失,使得生成對(duì)抗網(wǎng)絡(luò)難以訓(xùn)練。因此引入Wasserstein距離修改對(duì)抗損失函數(shù),Wasserstein距離如式(11)所示。
(11)
(12)
L=Ex~Pr[fw(x)]-Ex~Pg[fw(x)]
(13)
(14)
(15)
式中:ILR為原始低分辨率圖像;IHR為原始高分辨率圖像;G(ILR)為生成器生成的高分辨率圖像。
本文實(shí)驗(yàn)設(shè)備如下:顯卡為NVIDIA GeForce 2060 super,顯存為8 GB,處理器為Intel Corei5- 8400 2.80 GHz。使用Anaconda軟件配置和管理程序的運(yùn)行環(huán)境,程序主要基于TensorFlow框架。
本文實(shí)驗(yàn)采用DIV2K數(shù)據(jù)集,此數(shù)據(jù)集包含1 000幅高清圖片(2K分辨率),其中800幅供訓(xùn)練使用,剩下200幅為驗(yàn)證和測(cè)試使用,并且提供了與高清圖片對(duì)應(yīng)的低分辨率圖片。實(shí)驗(yàn)使用DIV2K數(shù)據(jù)集中的800幅圖片進(jìn)行訓(xùn)練,測(cè)試時(shí)使用Set5、Set14、BSD100通用數(shù)據(jù)集。實(shí)驗(yàn)中,高分辨率圖像的大小為低分辨率圖像的4倍,采用RMSprop優(yōu)化器進(jìn)行優(yōu)化,初始學(xué)習(xí)率為10-4,rho為0.9,網(wǎng)絡(luò)訓(xùn)練次數(shù)為100。受硬件設(shè)備所限,batch_size設(shè)置為4,其次將訓(xùn)練數(shù)據(jù)集中的圖片大小裁剪成256×256×3和64×64×3并進(jìn)行左右旋轉(zhuǎn)操作以豐富數(shù)據(jù)集。在開(kāi)始訓(xùn)練前先對(duì)生成器進(jìn)行100次預(yù)訓(xùn)練,這樣在正式訓(xùn)練時(shí)第一次生成的圖像能夠更接近真實(shí)的圖像。訓(xùn)練完成后,在測(cè)試集上將本文方法與Bicubic[17]、SRCNN[7]、SRGAN[10]、ESRGAN[12]這些經(jīng)典算法重建后的圖像進(jìn)行對(duì)比。
本文采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structure Similarity Index,SSIM)作為客觀評(píng)價(jià)指標(biāo)。峰值信噪比(PSNR)是一種目前常用的評(píng)價(jià)圖像質(zhì)量的指標(biāo),計(jì)算簡(jiǎn)單、實(shí)現(xiàn)速度快,峰值信噪比數(shù)值越高代表圖像失真越少、質(zhì)量越好,其定義見(jiàn)式(16)。
(16)
式中:MAXI為圖片最大像素值255;I為原始的圖像;K為重建的圖像。
但由于峰值信噪比基于對(duì)應(yīng)像素點(diǎn)間的差值計(jì)算,與人類(lèi)主觀感覺(jué)并不完全一致。因此本文也使用結(jié)構(gòu)相似性(SSIM)作為評(píng)價(jià)指標(biāo),SSIM從亮度、對(duì)比度、結(jié)構(gòu)這三項(xiàng)對(duì)比兩幅圖像的相似性,更符合人眼的真實(shí)感知,其數(shù)值越大,表示圖像失真越小,質(zhì)量越好,其定義見(jiàn)式(17)。
(17)
本文在生成器網(wǎng)絡(luò)中主要對(duì)殘差塊進(jìn)行了相關(guān)優(yōu)化,為了驗(yàn)證改進(jìn)后的效果,將改進(jìn)后的殘差塊與原始SRGAN中殘差塊進(jìn)行對(duì)比。在相同的訓(xùn)練集條件下,兩個(gè)網(wǎng)絡(luò)模型分別使用不同的殘差塊結(jié)構(gòu)、相同的本文中的損失函數(shù)進(jìn)行訓(xùn)練。訓(xùn)練完成之后分別在Set5和Set14數(shù)據(jù)集下進(jìn)行測(cè)試,其結(jié)果見(jiàn)表3、表4。
表3 不同殘差塊在Set5上的PSNR/SSIM數(shù)值
表4 不同殘差塊在Set14上的PSNR/SSIM數(shù)值
可以看出,在Set5數(shù)據(jù)集上,本文方法與使用改進(jìn)前殘差塊結(jié)構(gòu)的模型相比,PSNR提高了0.17 dB、SSIM提高了0.003 8;在Set14數(shù)據(jù)集上,PSNR提高了0.07 dB、SSIM提高了0.002 2。結(jié)果表明,本文通過(guò)引入GELU激活函數(shù)等方法對(duì)殘差塊進(jìn)行優(yōu)化有一定的提升效果。
本文引入Wasserstein距離改進(jìn)損失函數(shù),為了驗(yàn)證其對(duì)網(wǎng)絡(luò)穩(wěn)定性的影響,將本文算法與SRGAN算法的判別器損失函數(shù)曲線(xiàn)進(jìn)行對(duì)比,結(jié)果見(jiàn)圖5、圖6。
圖5 SRGAN判別器Loss曲線(xiàn)
圖6 本文算法判別器Loss曲線(xiàn)
可以看出,SRGAN算法在訓(xùn)練60輪后判別器Loss數(shù)值逐漸趨于平穩(wěn),但是仍不穩(wěn)定、存在波動(dòng)。而本文算法在訓(xùn)練20輪之后逐漸開(kāi)始收斂,訓(xùn)練60輪后趨于穩(wěn)定且波動(dòng)較小。驗(yàn)證了本文算法通過(guò)引入Wasserstein距離對(duì)損失函數(shù)進(jìn)行優(yōu)化,能夠使模型訓(xùn)練更穩(wěn)定、收斂速度更快。
本文在內(nèi)容損失中引入Huber Loss函數(shù),由于函數(shù)受其超參數(shù)δ影響,超參數(shù)數(shù)值的設(shè)定影響模型的生成能力,因此對(duì)δ分別選取不同數(shù)值并與原始MSE損失進(jìn)行比較,在Set5數(shù)據(jù)集下測(cè)試性能,對(duì)比結(jié)果見(jiàn)圖7、圖8。通過(guò)對(duì)比發(fā)現(xiàn),對(duì)于評(píng)價(jià)指標(biāo)PSNR,Huber損失均優(yōu)于MSE損失。對(duì)于評(píng)價(jià)指標(biāo)SSIM,當(dāng)δ為0.5、0.75時(shí),Huber損失優(yōu)于MSE損失,證明了Huber損失總體表現(xiàn)優(yōu)于MSE損失。其次當(dāng)δ=0.75時(shí),PSNR和SSIM數(shù)值最大,因此本文選取0.75作為超參數(shù)δ的數(shù)值。
圖7 不同δ下PSNR數(shù)值對(duì)比
圖8 不同δ下SSIM數(shù)值對(duì)比
實(shí)驗(yàn)在Set5、Set14和BSD100數(shù)據(jù)集上進(jìn)行測(cè)試,高分辨率和低分辨率圖像之間的放大因子為4倍,本文算法同Bicubic、SRCNN、SRGAN、ESRGAN這些經(jīng)典算法進(jìn)行對(duì)比,分別從Set5、Set14數(shù)據(jù)集中選擇了一幅圖像進(jìn)行重建,各個(gè)算法重建后的效果如圖9、圖10所示。為了進(jìn)一步對(duì)比圖像重建的效果,本文對(duì)相關(guān)算法進(jìn)行PSNR和SSIM客觀數(shù)值上的對(duì)比。其中PSNR數(shù)值的對(duì)比見(jiàn)表5,SSIM數(shù)值的對(duì)比見(jiàn)表6。除了進(jìn)行客觀數(shù)據(jù)對(duì)比,本文將SRGAN、ESRGAN和本文方法這三種基于生成對(duì)抗網(wǎng)絡(luò)模型的算法進(jìn)行訓(xùn)練時(shí)間上的對(duì)比,結(jié)果見(jiàn)表7。
(a) HR (b) Bicubic(c) SRCNN
(d) SRGAN (e) ESRGAN (f) 本文方法圖9 Set5各個(gè)算法重建后的效果
(a) HR (b) Bicubic(c) SRCNN
(d) SRGAN (e) ESRGAN (f) 本文方法圖10 Set14各個(gè)算法重建后的效果
表5 相關(guān)算法在各數(shù)據(jù)集上的PSNR數(shù)值 單位:dB
表6 相關(guān)算法在各數(shù)據(jù)集上的SSIM數(shù)值 單位:dB
表7 網(wǎng)絡(luò)訓(xùn)練的平均時(shí)間對(duì)比
通過(guò)圖9、圖10可以看出,基于學(xué)習(xí)類(lèi)方法(SRCNN、SRGAN、ESRGAN、本文方法)重建的圖像質(zhì)量均高于基于插值(Bicubic)的方法,且基于插值重建的圖像的PSNR和SSIM數(shù)值均不如其他算法,說(shuō)明了在超分辨率問(wèn)題上基于學(xué)習(xí)的方法在性能和效果方面優(yōu)于基于插值的方法,而且基于對(duì)抗網(wǎng)絡(luò)的算法能夠恢復(fù)較為清晰的圖像信息。通過(guò)表5、表6可以看出,在測(cè)試的數(shù)據(jù)集Set5、Set14和BSD100中,對(duì)于評(píng)價(jià)指標(biāo)PSNR,本文方法較SRGAN方法分別提高了0.35 dB、0.38 dB、0.42 dB,對(duì)于評(píng)價(jià)指標(biāo)SSIM,本文方法較SRGAN方法分別提高了0.005 2、0.003 1、0.003 9。與ESRGAN方法相比,本文方法重建后的圖像在PSNR數(shù)值上提高了0.19 dB、0.15 dB、0.15 dB,在SSIM數(shù)值上提高了0.002 3、0.001 8、0.001 4。說(shuō)明了本文算法在一定程度上提高了圖像重建后的質(zhì)量,能夠生成較為高質(zhì)量的圖像。通過(guò)表7可以看出,本文方法通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,在平均訓(xùn)練時(shí)間上要少于SRGAN以及ESRGAN的訓(xùn)練時(shí)間,本文方法訓(xùn)練時(shí)迭代一次的時(shí)間為0.874 s,與SRGAN相比減少了0.031 s,與ESRGAN相比減少了0.247 s,因此說(shuō)明了本文方法在訓(xùn)練時(shí)效率更高。
本文主要以生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),首先引入多尺度卷積層以及GELU激活函數(shù)對(duì)殘差塊進(jìn)行改進(jìn)以增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,提高生成圖片的質(zhì)量;其次,引入Wasserstein距離改進(jìn)對(duì)抗損失函數(shù),增強(qiáng)網(wǎng)絡(luò)的穩(wěn)定性;最后減少判別網(wǎng)絡(luò)中大量批規(guī)范化層從而對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,減少模型的冗余部分。實(shí)驗(yàn)采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為客觀評(píng)價(jià)指標(biāo),與其他基于學(xué)習(xí)的經(jīng)典方法進(jìn)行主觀視覺(jué)效果以及客觀評(píng)價(jià)指標(biāo)對(duì)比。實(shí)驗(yàn)結(jié)果表明與其他經(jīng)典算法相比,本文算法生成的圖像紋理細(xì)節(jié)清晰,PSNR及SSIM數(shù)值較高,訓(xùn)練時(shí)間更短,說(shuō)明了本文算法在單圖超分辨率重建中有一定的提升。下一步將深入研究網(wǎng)絡(luò)中卷積核的改進(jìn),以達(dá)到進(jìn)一步提升圖像重建質(zhì)量的目的。