強(qiáng)保華,龐遠(yuǎn)超,楊明浩,曾 坤,鄭 虹,謝 武,莫 燁
(1.桂林電子科技大學(xué)廣西圖像圖形與智能處理重點(diǎn)實(shí)驗(yàn)室,廣西桂林 541004;2.桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西桂林 541004;3.桂林電子科技大學(xué) 廣西云計(jì)算與大數(shù)據(jù)協(xié)同創(chuàng)新中心,廣西桂林 541004;4.閩江大學(xué) 福建省信息處理與智能控制重點(diǎn)實(shí)驗(yàn)室,福州 350108)
圖像超分辨率(Super-Resolution,SR)重建任務(wù)是由一幅或多幅低分辨(Low-Resolution,LR)圖像重建出一幅具有高質(zhì)量的高分辨率(High-Resolution,HR)輸出圖像。圖像超分辨率重建是目前提高圖像分辨率的主要手段,被廣泛應(yīng)用于視覺成像、監(jiān)控設(shè)備、衛(wèi)星圖像和醫(yī)學(xué)影像等領(lǐng)域,也可作為許多圖像算法的前置輸入部分。
圖像超分辨率重建最早的研究工作是由TSAI和HUANG 在1984 年進(jìn)行的,他們提出了在頻域內(nèi)提高圖像分辨率的方法,這為推動(dòng)超分辨率重建算法的研究具有重要作用。之后,很多相關(guān)的研究成果也陸續(xù)被提出來,圖像超分辨率重建算法得到了快速的發(fā)展,但隨著圖像重建的放大倍數(shù)越來越高,在傳統(tǒng)方法下重建的圖像質(zhì)量效果不是很理想,滿足不了人們的要求。近年來,基于深度學(xué)習(xí)的超分辨率重建方法成為超分辨率算法研究中的熱點(diǎn)。SRCNN[1]是首個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)結(jié)構(gòu)的超分辨率算法,運(yùn)用三層網(wǎng)絡(luò)結(jié)構(gòu)能夠獲得比其他超分辨率重建算法更好的重建效果,這說明CNN 結(jié)構(gòu)可以用于端到端的訓(xùn)練方式來建立一個(gè)從LR 到HR 的映射圖。在此基礎(chǔ)上,更多的基于深度學(xué)習(xí)的超分辨率重建算法得到快速發(fā)展,超分辨率網(wǎng)絡(luò)也由相對(duì)較淺的SRCNN、FSRCNN[2]和ESPCN[3]網(wǎng)絡(luò)逐步發(fā)展為較深的VDSR[4]、SRGAN[5]和EDSR[6]網(wǎng)絡(luò)。深度學(xué)習(xí)逐步領(lǐng)先于早期的插值、鄰域嵌入和稀疏編碼等方法,確定了其在超分辨率重建領(lǐng)域的領(lǐng)先地位,并獲得了較大的成就。
隨著人們對(duì)圖像超分辨率重建任務(wù)的要求的增加,比如放大倍數(shù)的增大,使得采用模型的深度越來越深,這帶來了參數(shù)劇增、模型的穩(wěn)定性不足和難以收斂等問題。研究者針對(duì)上述問題對(duì)算法進(jìn)行了改進(jìn)。如在EDSR 中,通過移除Residual block 中的BN(Batch Normalization,BN)層,并添加層間的放大因子來降低模型整體參數(shù)的數(shù)量,加快模型的收斂速度,這使得EDSR 得以擴(kuò)展到了更深的深度。SRDenseNet[7]借鑒DenseNet[8]中稠密跳躍連接思想,將不同層提取出的特征信息直接作為后續(xù)層的輸入部分,同時(shí)間接壓縮塊之間的特征映射數(shù)量,提高模型收斂速度。而EEDS[9]嘗試從另一個(gè)角度解決這些問題,提出一個(gè)深層和淺層子網(wǎng)絡(luò)同步工作的算法,可以使得深層子網(wǎng)絡(luò)部分的超分辨率網(wǎng)絡(luò)模型更加容易收斂,并且可以達(dá)到更好的重建效果。之后,WDSR[10]也采用了類似的深層和淺層子網(wǎng)絡(luò)并行工作的框架,通過提高ReLU 層間的特征映射數(shù)量和壓縮Residual block 層間的特征映射數(shù)量來提高模型的性能與收斂速度。
本文研究深層和淺層子網(wǎng)絡(luò)結(jié)構(gòu)的可嵌入性,設(shè)計(jì)一種可嵌入式的并行網(wǎng)絡(luò)結(jié)構(gòu)框架(Embeddable Parallel Network Framework,EPNF)。EPNF 可用于提升當(dāng)前圖像超分辨率重建算法的性能,而其他超分辨率網(wǎng)絡(luò)模型作為框架的深層結(jié)構(gòu)部分嵌入到EPNF 中與淺層結(jié)構(gòu)并行工作,此外,在EPNF 框架的基礎(chǔ)上,構(gòu)建一種EPNF_DCSR 網(wǎng)絡(luò)模型。
超分辨率重建任務(wù)需要獲取圖像的高層和淺層特征,然后對(duì)圖像進(jìn)行重建。而提取高層特征的最好方法是使用更深層次的網(wǎng)絡(luò)結(jié)構(gòu),因此重建圖像的卷積神經(jīng)網(wǎng)絡(luò),向更深層次的網(wǎng)絡(luò)結(jié)構(gòu)發(fā)展。從LeNet[11]最初的5 層到AlexNet[12]的8 層,再到VGGNet[13],都使得網(wǎng)絡(luò)越來越深。但是網(wǎng)絡(luò)越深,計(jì)算開銷會(huì)越大。2014 年,Google 提出了Inception結(jié)構(gòu)[14],在層數(shù)增加的同時(shí)參數(shù)數(shù)量變少,大幅提高了網(wǎng)絡(luò)的性能。隨著神經(jīng)網(wǎng)絡(luò)越來越深,人們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn)不是越深的網(wǎng)絡(luò)效果就越好,當(dāng)網(wǎng)絡(luò)到達(dá)一定深度之后會(huì)產(chǎn)生梯度消失的現(xiàn)象,這會(huì)導(dǎo)致模型的退化,從而影響網(wǎng)絡(luò)的性能。2015 年,ResNet[15]引入了跳躍連接結(jié)構(gòu)來防止梯度消失的問題,并且加速了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,模型的準(zhǔn)確率也有了很大的提升。2017 年,DenseNet 運(yùn)用稠密連接的思想,把每一層的特征連接起來,進(jìn)一步減輕了梯度消失問題。在圖像超分辨率任務(wù)中,跳躍連接具有更深層次的意義。由于圖像超分辨率本質(zhì)上是一個(gè)圖像重建任務(wù),網(wǎng)絡(luò)需要提取圖像的高層和低層特征,使得超分辨率重建模型更加容易產(chǎn)生梯度消失,因此目前主流的超分辨率重建算法都運(yùn)用了跳躍連接的思想。
為解決超分辨率重建問題,早期方法使用頻域法和空域法進(jìn)行插值,但是這種傳統(tǒng)算法的模型表達(dá)能力非常有限,之后人們引入由學(xué)習(xí)模型獲得的先驗(yàn)知識(shí),以得到圖像的高頻細(xì)節(jié),獲得了較好的圖像重建效果。SRCNN 是將深度學(xué)習(xí)首先使用在超分辨率重建任務(wù)上的模型,其僅使用三層卷積就獲得了當(dāng)時(shí)最先進(jìn)的圖像重建質(zhì)量;ESPCN 提出了子像素卷積,直接在低分辨率圖像尺寸上提取特征,計(jì)算得到高分辨率圖像;VDSR 引入了殘差結(jié)構(gòu),加深了網(wǎng)絡(luò)結(jié)構(gòu),并且使網(wǎng)絡(luò)的收斂速度加快,它還將不同倍數(shù)的圖像混合在一起訓(xùn)練,解決了用一個(gè)模型生成不同倍數(shù)的超分辨率圖像的問題;DRRN[16]提出了遞歸殘差模塊,構(gòu)造了更深層的網(wǎng)絡(luò),獲得了更好的生成效果;SRDenseNet 利用DenseNet 的稠密塊思想,將每一層的特征都輸入到之后的所有層,使所有層的特征都串聯(lián)起來,得到的重建網(wǎng)絡(luò)性能有了進(jìn)一步提升;SRGAN 運(yùn)用生成對(duì)抗網(wǎng)絡(luò)的思想來解決超分辨率重建的問題,發(fā)現(xiàn)用均方差作為損失函數(shù)生成圖像容易丟失高頻細(xì)節(jié),因此采用感知損失和對(duì)抗損失作為損失函數(shù),從而重建出了更為逼真的圖像;EDSR 算法去掉了SRGAN 中多余的BN 層,并且用L1 范式作為網(wǎng)絡(luò)的損失函數(shù),得到了更好的生成結(jié)果。
目前許多超分辨率重建算法都是由圖像分類網(wǎng)絡(luò)進(jìn)行改進(jìn)而來。圖像分類網(wǎng)絡(luò)中的卷積神經(jīng)網(wǎng)絡(luò)主要承擔(dān)高層特征的提取任務(wù),并通過分類層對(duì)圖像進(jìn)行分類,而圖像超分辨率網(wǎng)絡(luò)中卷積神經(jīng)網(wǎng)絡(luò)不僅要提取圖形的高層特征,也要提取低層特征,并最終通過上采樣對(duì)圖像進(jìn)行重建。
上采樣結(jié)構(gòu)主要承擔(dān)超分辨網(wǎng)絡(luò)的放大任務(wù)。早期的超分辨率網(wǎng)絡(luò)SRCNN、VDSR 直接使用bicubic[17]對(duì)LR 圖像進(jìn)行放大作為輸入,但這被證明是十分低效的。因?yàn)橹苯邮褂梅糯蠛蟮膱D像作為輸入,將會(huì)為重建網(wǎng)絡(luò)帶來成倍的計(jì)算開銷。FSRCNN 以原始LR 圖像作為輸入,在網(wǎng)絡(luò)末端添加反卷積層,在不損失精度的情況下減少了網(wǎng)絡(luò)的參數(shù),加快了模型的運(yùn)行速度。因此,當(dāng)前算法大多采用了網(wǎng)絡(luò)末端的上采樣結(jié)構(gòu)作為放大層。然而,上采樣使用反卷積在后來被證明會(huì)產(chǎn)生棋盤偽像[18],嚴(yán)重影響網(wǎng)絡(luò)的性能,而用子像素卷積進(jìn)行上采樣操作不但不會(huì)產(chǎn)生棋盤偽像,還會(huì)加快網(wǎng)絡(luò)的運(yùn)行速度。
本節(jié)描述所提出的模型EPNF_DCSR,模型結(jié)構(gòu)如圖1 所示。
圖1 EPNF_DCSR 模型架構(gòu)Fig.1 Architecture of EPNF_DCSR model
EPNF_DCSR 由重建圖像主體部分的EPNF 框架和重建圖像細(xì)節(jié)部分的深層嵌入結(jié)構(gòu)組成。其中,EPNF 是一個(gè)通用型的網(wǎng)絡(luò)框架,可以和其他傳統(tǒng)的端到端結(jié)構(gòu)的網(wǎng)絡(luò)模型相結(jié)合,從而獲得比原模型更好的性能。改進(jìn)后的模型僅需要花費(fèi)極少的參數(shù)代價(jià),即可提高模型的穩(wěn)定性,使模型更加容易收斂。
超分辨率重建任務(wù)需要重建出放大尺寸的原圖,即需要高級(jí)特征也需要低級(jí)特征。在SRDenseNet中,把輸入圖像與提取到的深層特征進(jìn)行短接,這樣可以同時(shí)使用圖像的高級(jí)特征和低級(jí)特征進(jìn)行重建,而且有助于網(wǎng)絡(luò)傳遞信息,使其易于訓(xùn)練,但是這種短接的方式相當(dāng)于把輸入原圖當(dāng)成低級(jí)特征與高級(jí)特征進(jìn)行融合,影響最終的重建效果。為此,本文提出EPNF 框架,該框架的淺層結(jié)構(gòu)與深層結(jié)構(gòu)分別提取圖像的底層特征和高層特征,再把特征映射放大為輸出圖像的尺寸,最后將特征映射相加生成HR 圖像,這種深淺層特征分開提取的設(shè)計(jì)思路可以有效提取并且利用輸入圖像的底層特征,使得網(wǎng)絡(luò)更容易傳遞信息,使其易于訓(xùn)練。
EPNF 框架結(jié)構(gòu)見圖1(a),輸入圖像經(jīng)過一個(gè)5×5 的單層卷積提取圖像底層特征,然后經(jīng)過上采樣將特征映射尺寸放大成與輸出圖像尺寸一致,最后與深層嵌入結(jié)構(gòu)的輸入相加。在上采樣層的選擇上,反卷積層雖然也可以作為模型的上采樣層放大特征映射,但最新研究表示,使用反卷積作為上采樣容易產(chǎn)生棋盤偽像,因此,本文使用子像素卷積作為模型的上采樣結(jié)構(gòu)。淺層結(jié)構(gòu)的單層卷積使用零填充方法控制生成的特征映射與原圖尺寸一致,再通過子像素卷積層把特征映射放大成HR 圖像大小。而深層嵌入結(jié)構(gòu)的結(jié)果,可以看成是對(duì)HR 圖像的高頻成分輸出。深淺層網(wǎng)絡(luò)結(jié)構(gòu)并行的工作方式,使得框架能夠在付出很小參數(shù)代價(jià)的條件下,加快所嵌入的超分辨率模型的收斂速度,并在一定程度上提高了模型的準(zhǔn)確率。
深層、淺層結(jié)構(gòu)的輸出結(jié)果相加產(chǎn)生最終重建的結(jié)果,所以要求兩種網(wǎng)絡(luò)子結(jié)構(gòu)的輸出尺寸和HR圖像的尺寸一致。EPNF 的卷積層中使用零填充方法控制生成的特征映射與原圖尺寸一致,再通過子像素卷積層把特征映射放大成HR 圖像大小。深層嵌入結(jié)構(gòu)也使用同樣的放大方法把特征映射放大成HR 圖像大小。EPNF 框架的淺層和深層嵌入結(jié)構(gòu)具有各自的獨(dú)立性,只要輸出尺寸相同然后相加,就可以完成超分辨重建任務(wù)。
此外,本文對(duì)EPNF 框架進(jìn)行可視化分析,將訓(xùn)練好的EPNF_DCSR 模型用圖像進(jìn)行測試,并且將其結(jié)果可視化,結(jié)果如圖2 所示。
圖2 HR 圖像減去淺層結(jié)構(gòu)生成的高頻細(xì)節(jié)特征Fig.2 HR image minus high-frequency detail features generated by shallow structure
從圖2 可以看出,將HR 圖像減去EPNF 提取圖像的底層特征生成的圖,得到HR 圖像高頻的細(xì)節(jié)特征,與可視化深層嵌入結(jié)構(gòu)生成的圖很相似,從而可以得出訓(xùn)練好的模型的EPNF 框架能生成HR 圖像的低頻圖??梢暬P偷牧硗庖粋€(gè)優(yōu)點(diǎn)是:在與EPNF 框架和深層嵌入結(jié)構(gòu)生成的特征相加時(shí),可以根據(jù)可視化結(jié)果添加權(quán)重以適應(yīng)不同的應(yīng)用場景。
許多超分辨率重建算法的特征提取模塊都是由圖像分類網(wǎng)絡(luò)進(jìn)行改進(jìn)得到。在DenseNet 中,Dense block 通過稠密跳躍連接使層與層之間短接,確保塊間最大的信息流通,能進(jìn)行特征重用,使網(wǎng)絡(luò)易于訓(xùn)練。但從中可以發(fā)現(xiàn),在圖像超分辨領(lǐng)域中,使用Dense block 的SRDenseNet 和同期使用了Residual block 作為基礎(chǔ)層結(jié)構(gòu)的EDSR[14]相比,SRDenseNet 網(wǎng)絡(luò)雖然更深,但在評(píng)價(jià)指標(biāo)上卻遜色于EDSR[14],這主要是因?yàn)镈ense block 的入口通道數(shù)突變導(dǎo)致的。
在Dense block 結(jié)構(gòu)中,第i層接收前面所有層的特征來作為它的輸入,如式(1)所示:
其中,[X1,X2,…,Xi-1]表示在前面的卷積層1,2,…,i-1中輸出的特征,這會(huì)導(dǎo)致Dense block 內(nèi)的卷積輸出特征的通道數(shù)成倍增長,最后Dense block 輸出特征的通道數(shù)非常大。特征輸入到下一個(gè)Dense block之前需要經(jīng)過卷積處理,把特征的通道數(shù)壓縮到非常小,這樣的通道數(shù)突變會(huì)導(dǎo)致特征損失嚴(yán)重。本文的深層網(wǎng)絡(luò)結(jié)構(gòu)將稠密跳躍連接使用在了塊之間,這樣既能繼承DenseNet 的優(yōu)點(diǎn),又能避免因?yàn)樘卣鞯耐ǖ罃?shù)突變而造成特征損失。
深層結(jié)構(gòu)使用刪除了shortcut connection 之后的Residual block 作為基礎(chǔ)塊結(jié)構(gòu),并稱這樣的塊結(jié)構(gòu)為Basic bock,如圖3 所示。Residual block 的原理是塊的輸入和塊的輸出短路連接在一起,連接方式是通過元素級(jí)相加,所以塊的輸出通道數(shù)需要與輸入通道數(shù)一致。DenseNet 每個(gè)層都會(huì)與前面所有層在通道維度上連接在一起并作為下一層的輸入。在深層結(jié)構(gòu)中,稠密跳躍連接不是使用在塊內(nèi),而是使用在塊間,如果稠密跳躍連接和shortcut connection 同時(shí)存在,則shortcut connection 會(huì)使每個(gè)塊的輸出通道等于輸出通道,疊加之后會(huì)造成通道數(shù)成指數(shù)增長,網(wǎng)絡(luò)參數(shù)也會(huì)成指數(shù)增長,而且shortcut connection主要是為了防止模型過擬合,稠密跳躍連接也能達(dá)到防止過擬合的效果,所以將Residual block 中的shortcut connection 刪除,而用Basic bock 代替。
圖3 Basic bock 示意圖Fig.3 Schematic diagram of Basic bock
深層結(jié)構(gòu)如圖1(b)所示,輸入圖像首先經(jīng)過一個(gè)3×3 的卷積,然后經(jīng)過塊間使用稠密跳躍連接的16 個(gè)Basic bock 的結(jié)構(gòu),最后是3×3 卷積和sub-pixel convolutional 上采樣結(jié)構(gòu)。Basic bock 中的卷積層都使用3×3 的卷積,在第2 個(gè)卷積層中,使用64 個(gè)卷積核生成通道數(shù)為64 的特征映射。
更深的模型意味著更好的非線性表達(dá)能力,在沒有產(chǎn)生模型退化的條件下,越深的模型性能會(huì)越好。本文深層結(jié)構(gòu)的參數(shù)量主要在16 個(gè)Basic bock中,并且Basic bock 相比于當(dāng)前流行的超分辨率算法中的基礎(chǔ)塊結(jié)構(gòu)要簡單得多,可以在有限的計(jì)算資源下構(gòu)建一個(gè)更深的模型,而且通過EPNF 框架的淺層結(jié)構(gòu)和深層嵌入結(jié)構(gòu)分別提取圖像的淺層特征和深層特征,能使模型不容易產(chǎn)生退化。另外,在塊間使用稠密跳躍連接,既能解決卷積通道數(shù)驟然變小損失特征信息的問題,又能增加特征重用,并且能很好地抑制過擬合問題的產(chǎn)生。
本文實(shí)驗(yàn)選擇Ubuntu 16.04 操作系統(tǒng),訓(xùn)練使用一張NVIDIA Tesla P100 顯卡。
實(shí)驗(yàn)采用DIV2K 數(shù)據(jù)集[19]。該數(shù)據(jù)集是用于圖像恢復(fù)任務(wù)的一個(gè)高質(zhì)量數(shù)據(jù)集,由800 張訓(xùn)練圖像、100 張驗(yàn)證圖像和100 張測試圖像組成。其中,訓(xùn)練集圖像編號(hào)為0001~0800,驗(yàn)證集圖像編號(hào)為0801~0900。DIV2K 數(shù)據(jù)集最初被用于NTIRE比賽,數(shù)據(jù)集內(nèi)的測試圖像的原圖并沒公開發(fā)布。因此,在評(píng)估各組模型的過程中,使用的測試圖像是DIV2K 編號(hào)為0801~0900 的驗(yàn)證圖像。此外,除了DIV2K 數(shù)據(jù)集外,還使用了Set5[20]、Set14[21]、B100[22]和Urban100[23]等不同數(shù)據(jù)集驗(yàn)證各個(gè)模型的性能。
本文評(píng)估模型的客觀性能指標(biāo)采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)。實(shí)驗(yàn)先將圖像轉(zhuǎn)換為YCbCr 色域,然后使用PSNR 值對(duì)Y 通道進(jìn)行評(píng)估。
在訓(xùn)練過程中,將尺寸為96×96 的LR 圖像塊作為輸入,并使用與其對(duì)應(yīng)的96r×96r的HR 圖像塊作為目標(biāo)圖像,其中r為放大因子。另外,使用均方誤差(Mean Squared Error,MSE)作為模型的損失函數(shù),并采用Adam 優(yōu)化器優(yōu)化所有的網(wǎng)絡(luò)。其中,Adam 優(yōu)化器的初始參數(shù)使用默認(rèn)值:β1=0.9,β2=0.999,ε=10-8。Batch size 的大小設(shè)置為16。
第1 組實(shí)驗(yàn)主要用于驗(yàn)證單層卷積是否可以有效提取低級(jí)特征。本文分別使用Bicubic、單層CNN將VDSR 嵌入新框架,對(duì)所得到的EPNF_VDSR 模型進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)分別比較了不同卷積核大小對(duì)基于可嵌入式并行網(wǎng)絡(luò)框架的影響。訓(xùn)練集為DIV2K(0001~0800),測試集為DIV2K(0801~0900)。單層CNN 使用H×W×c大小的LR 圖像作為輸入,輸出為H×W×r2c,其中,H為LR 圖像的高,W為圖像的寬,c為圖像的通道數(shù)。最后經(jīng)由子像素卷積層重建為rH×rW×c大小的HR 圖像,其中放大因子r=2。
第2 組實(shí)驗(yàn)主要用于驗(yàn)證EPNF 框架的性能。實(shí)驗(yàn)分別對(duì)比了兩組不同的模型在DIV2K 訓(xùn)練集上的模型收斂時(shí)間和訓(xùn)練效果,每組分為原模型(VDSR,EDSR)以及和EPNF 相結(jié)合的改進(jìn)之后的新模型(EPNF_VDSR,EPNF_EDSR),放大因子r=2。這些改良模型在對(duì)圖像細(xì)節(jié)實(shí)行修復(fù)時(shí),均使用大小為H×W×c的LR 圖像作為輸入,輸出維度為2×2×c,并經(jīng)子像素混洗層放大為2H×2W×c的HR 圖像。
第3 組實(shí)驗(yàn)是用EPNF_DCSR 和當(dāng)前主流模型的性能對(duì)比。實(shí)驗(yàn)分別對(duì)比了傳統(tǒng)算法Bicubic、A+[24]以及基礎(chǔ)深度學(xué)習(xí)超分辨率算法模型SRCNN、VDSR,最后比較了SRDenseNet 算法和最新的冠軍算法WDSR。其中,SRDenseNet 算法尚無以DIV2K 數(shù)據(jù)集為訓(xùn)練樣本的版本,因此本文對(duì)其進(jìn)行了復(fù)現(xiàn)。由于SRDenseNet 原模型為×4 放大模型,通過尾部的兩層反卷積層達(dá)到放大效果,因此復(fù)現(xiàn)×2 模型使用一層反卷積達(dá)到放大效果,復(fù)現(xiàn)×3 模型不使用反卷積層轉(zhuǎn)而使用子像素卷積放大3 倍達(dá)到復(fù)現(xiàn)效果。實(shí)驗(yàn)結(jié)果中×4 模型的重建結(jié)果在基準(zhǔn)數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)均高于對(duì)比方法中的結(jié)果,因此完成了復(fù)現(xiàn)。由于WDSR 中只使用了16 層Residual block 和通道數(shù)為64 的塊內(nèi)特征映射。為了公平起見,本文模型只使用了稠密跳躍連接的16 個(gè)Basic block 作為基礎(chǔ)層結(jié)構(gòu),并且塊內(nèi)特征映射的通道數(shù)也為64,使模型保持相同量級(jí)的參數(shù)規(guī)模進(jìn)行比較。
對(duì)于第1 組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1 所示。通過實(shí)驗(yàn)可以發(fā)現(xiàn),即使是單層CNN 結(jié)構(gòu)也具備較強(qiáng)的重建能力。對(duì)比Bicubic 算法模型,單層CNN 結(jié)構(gòu)可以通過簡單的訓(xùn)練后獲得更高的性能,具備可學(xué)習(xí)能力的單層CNN 結(jié)構(gòu)也更為靈活。
表1 采用單層CNN 重建的評(píng)估結(jié)果Table 1 Evaluation results with single-layer CNN reconstruction dB
單層卷積的卷積核越大,感受野也越大,提取到的淺層特征用于后續(xù)的相加效果就越好。從表1 可以看出,如果僅僅采用單層卷積進(jìn)行重建,當(dāng)卷積核大于7×7 時(shí),進(jìn)一步提升卷積核的大小將不會(huì)再帶來重建效果上的明顯提升。而采用EPNF 框架進(jìn)行圖像重建,將網(wǎng)絡(luò)模型嵌入EPNF 框架之后,單層卷積的卷積核為5×5 時(shí),進(jìn)一步提升卷積核的大小將不會(huì)帶來模型效果上的明顯提升。考慮到卷積核增大的同時(shí)會(huì)帶來模型參數(shù)和計(jì)算量的提升,因此對(duì)于基于EPNF 框架的重建模型,本文統(tǒng)一采用的卷積核大小為5×5。
對(duì)于第2 組實(shí)驗(yàn),網(wǎng)絡(luò)的收斂曲線如圖4 所示,最終的訓(xùn)練結(jié)果如表2 所示,其中,訓(xùn)練集為DIV2K,放大倍數(shù)為2,粗體為最優(yōu)值。
圖4 兩種算法的EPNF 性能曲線Fig.4 EPNF performance curves of the two algorithm
表2 兩種模型及其嵌入EPNF 模型的平均PSNRTable 2 Average PSNR of the two models and its embeddable EPNF model dB
從表2 可以看出,在與EDSR 的對(duì)比實(shí)驗(yàn)中,由于EDSR 出于性能上的考慮,移除了普通殘差塊內(nèi)用于加快收斂及提高模型穩(wěn)定性的批標(biāo)準(zhǔn)化層,在訓(xùn)練過程中表現(xiàn)為更欠缺穩(wěn)定性。在使用嵌入式并行結(jié)構(gòu)后,改進(jìn)后的EPNF_EDSR 模型表現(xiàn)出了極強(qiáng)的收斂性能。同時(shí),在VDSR 的對(duì)比實(shí)驗(yàn)中,由于VDSR 只使用了簡單的堆疊式CNN 結(jié)構(gòu)和全局殘差連接,在訓(xùn)練過程中表現(xiàn)為模型退化問題嚴(yán)重,在運(yùn)用嵌入式并行結(jié)構(gòu)后,改進(jìn)后的EPNF_VDSR 帶來了性能上的突破。這意味著主體修復(fù)結(jié)構(gòu)可以適用于不同類型的超分辨率網(wǎng)絡(luò),并一定程度上為其帶來效率以及性能上的提升。從實(shí)驗(yàn)結(jié)果可以看出,與原模型相比,和EPNF 相結(jié)合的改進(jìn)后的新模型在收斂速度上更具優(yōu)勢,且訓(xùn)練中的數(shù)值波動(dòng)更小,并且一定程度上提高了模型的準(zhǔn)確率。
對(duì)于第3 組實(shí)驗(yàn),各模型的性能對(duì)比結(jié)果如表3 所示(粗體為最優(yōu)值)。第3 組實(shí)驗(yàn)用本文模型EPNF_DCSR 和當(dāng)前主流的模型做對(duì)比,EPNF_DCSR模型的實(shí)驗(yàn)結(jié)果達(dá)到了當(dāng)前較高的水準(zhǔn)。與WDSR 對(duì)比,本文的網(wǎng)絡(luò)并沒有使用額外的層與更寬的通道,而是運(yùn)用了全局的稠密跳躍連接提高了每層的輸入特征數(shù)量。這使得本文模型在保持較小的層間特征流動(dòng)的情況下,加強(qiáng)了層內(nèi)的特征交互。圖5 為EPNF_DCSR模型與其他模型的對(duì)比結(jié)果,可以看出,本文模型能夠更準(zhǔn)確地重建出圖像的邊緣細(xì)節(jié)信息。
表3 不同模型在多個(gè)數(shù)據(jù)集上的平均PSNRTable 3 Average PSNR of different models on multiple datasets dB
圖5 不同模型生成效果對(duì)比Fig.5 Comparison of generation effect between different models
本文研究了基于嵌入式的深層結(jié)構(gòu)和淺層結(jié)構(gòu)并行工作的SR 框架EPNF,將該模型框架與基于深度學(xué)習(xí)的圖像超分辨率網(wǎng)絡(luò)相結(jié)合,使得改進(jìn)的網(wǎng)絡(luò)模型在具有相同級(jí)別的參數(shù)和復(fù)雜度的條件下更加穩(wěn)定,訓(xùn)練更容易收斂,且測試的準(zhǔn)確率更高。在此基礎(chǔ)上提出了一種基于EPNF 框架的圖像超分辨率算法EPNF_DCSR。實(shí)驗(yàn)結(jié)果表明,該算法在多個(gè)數(shù)據(jù)集中具有較高的準(zhǔn)確率。下一步將以小尺寸圖像作為輸入驗(yàn)證模型的生成效果,并將模型應(yīng)用到小目標(biāo)識(shí)別領(lǐng)域。