秦 玉,謝超宇,王曉明
(西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院,四川成都 610039)
近幾年來(lái),對(duì)深度學(xué)習(xí)的研究越來(lái)越深入,在各個(gè)領(lǐng)域也都獲得了不少突破性的進(jìn)展。其中,將視覺注意力(attention)機(jī)制與深度學(xué)習(xí)相結(jié)合的研究工作,是近年來(lái)深度學(xué)習(xí)研究的一個(gè)熱點(diǎn)。例如:1)將注意力機(jī)制用在分類問(wèn)題上,在2017ILSVR競(jìng)賽取得冠軍的SENet 網(wǎng)絡(luò)(squeeze-and-excitation networks)就是此類典型應(yīng)用,Hu 等[1]還將其子結(jié)構(gòu)SENet block 插入到現(xiàn)有多種分類網(wǎng)絡(luò)中,都取得了比較好的效果;2)將注意力機(jī)制用于改進(jìn)激活函數(shù),Zhao 等[2]提出了“自適應(yīng)參數(shù)化修正線性單元”(adaptively parametric rectifier linear unit),也叫APReLU 激活函數(shù),該激活函數(shù)借鑒SENet block中通過(guò)注意機(jī)制對(duì)特征進(jìn)行調(diào)整的思想,通過(guò)注意力機(jī)制對(duì)PReLU 激活函數(shù)的斜率進(jìn)行調(diào)整,使得固定的非線性變換能夠自動(dòng)學(xué)習(xí)[3]。在計(jì)算機(jī)視覺(computer vision)中,注意力機(jī)制的基本思想是讓模型學(xué)會(huì)注意力,能夠忽略無(wú)關(guān)信息而關(guān)注重點(diǎn)信息。
在當(dāng)前的單幀圖像超分辨率(SISR)算法研究中,注意力機(jī)制也被廣泛引入,例如在SEnet 基礎(chǔ)上Zhang 等[4]提出了RCAN 網(wǎng)絡(luò)(image superresoulution using very deep residual channel attention networks),它在更深層的網(wǎng)絡(luò)中加入殘差思想,并考慮到特征通道之間的相互依賴性,提出通道注意機(jī)制,進(jìn)行通道上的特征自適應(yīng)學(xué)習(xí)。還有基于視覺應(yīng)用的自注意機(jī)制的非局部注意力機(jī)制用于SISR,例如Dai 等[5]提出的SAN(second-order attention network for single image super-resolution),其不再探索更深更寬的網(wǎng)絡(luò),而是在網(wǎng)絡(luò)中加入非局部模塊同源殘差的思想來(lái)對(duì)網(wǎng)絡(luò)的中間特征進(jìn)行探索。Mei 等[6]提出了CSNLN(image super-resolution with cross-scale non-local attention and exhaustive self-exemplars mining),其將遠(yuǎn)距離特征相似性考慮進(jìn)網(wǎng)絡(luò)模型中,探索不同尺度特征之間的關(guān)系。
他們都取得了比較好的結(jié)果,但是也有一些不足。例如RCAN 注意了通道之間的關(guān)系,但是沒有注意到空間尺度上空間區(qū)域的關(guān)系,而且在統(tǒng)計(jì)全局信息時(shí),由于捕獲長(zhǎng)范圍特征依賴需要累積很多層的網(wǎng)絡(luò),所以學(xué)習(xí)效率太低,此外,網(wǎng)絡(luò)累計(jì)過(guò)深,需要小心地設(shè)計(jì)模塊和梯度。CSNLN 的非局部注意力模塊雖然考慮到了長(zhǎng)范圍特征依賴,但是在非局部注意力的計(jì)算中,存在計(jì)算量偏大等問(wèn)題,而且只涉及到了位置。注意力模塊沒有涉及通道注意力機(jī)制。為了更好地解決上述問(wèn)題,本文提出一個(gè)端到端的可訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu),即基于空間特征變換(spatial feature transform,SFT)層的空間通道注意力機(jī)制重構(gòu)的漸進(jìn)式網(wǎng)絡(luò)算法。其主要工作總結(jié)如下。
1)引入空間特征變換的思想,對(duì)提取的中間層特征進(jìn)行仿射變換自適應(yīng)調(diào)整,為圖像重建階段提供更多的空間不同且相似的特征信息。
2)利用空間特征變換的思想,對(duì)通道注意力模塊進(jìn)行改進(jìn),提出基于空間特征變換的空間通道注意力機(jī)制,使注意力分配更加合理,從而使得網(wǎng)絡(luò)在重構(gòu)時(shí)更合理地利用中間特征進(jìn)行超分率圖像重建。
3)引入反投影的思想,在對(duì)特征進(jìn)行融合時(shí),讓融合特征更加注重差異性,使網(wǎng)絡(luò)在重構(gòu)時(shí),融合特征不至于過(guò)于冗余。
SENet block[1]的核心思想是讓網(wǎng)絡(luò)根據(jù)損失函數(shù)去學(xué)習(xí)特征權(quán)重的分布,然后將學(xué)習(xí)出的權(quán)重施加在特征上,即SENet block 是采用有效特征的權(quán)重更大,無(wú)效或者效果小的特征權(quán)重更小的方式去訓(xùn)練模型,以達(dá)到更好的重建結(jié)果。
如圖1 所示,它在只用卷積網(wǎng)絡(luò)連接的經(jīng)典網(wǎng)絡(luò)中,加入Squeeze 和Excitation 結(jié)構(gòu)。Squeeze 過(guò)程是對(duì)提取的特征進(jìn)行全局平局池化,將W×H×C的特征擠壓成1×1×C,即圖中的Fsq操作。然后經(jīng)過(guò)Excitation 過(guò)程,即圖中Fex操作。Fex由2 個(gè)全連接層組成,它融合了各通道的特征信息,學(xué)習(xí)出C個(gè)權(quán)重。最后通過(guò)Fscale操作將權(quán)重重新分配到各個(gè)通道。
圖1 通道注意力機(jī)制模塊
Wang 等[7]在SFTGAN(recovering realistic texture in image super-resolution by deep spatial feature transform)中引入語(yǔ)義分割概率,用其對(duì)特征進(jìn)行指導(dǎo)學(xué)習(xí)。受到SFTGAN 的啟發(fā),Gu 等[8]提出SFTMD(blind super-resolution with iterative kernel correction),它利用SFT 模塊引入多個(gè)模糊核,模擬多種下采樣情況讓模型進(jìn)行學(xué)習(xí)。前者將語(yǔ)義分割概率用空間特征變換(SFT)層進(jìn)行傳遞,用語(yǔ)義指導(dǎo)特征學(xué)習(xí)和重建,后者將多種模糊核用SFT 層進(jìn)行傳遞,讓網(wǎng)絡(luò)學(xué)習(xí)出兼容多種模糊核的模型。在SFTGAN 中SFT 學(xué)習(xí)一個(gè)映射M,輸出一對(duì)調(diào)制參數(shù) β 和 γ,然后用得到的調(diào)制參數(shù)對(duì),對(duì)輸入特征進(jìn)行仿射變換。其模型可以表示為:
式中:ψ定義為語(yǔ)義分割后的概率;F為提取的特征;⊙代表像素之間的乘積。引入這樣一個(gè)設(shè)計(jì),使輸出至少能夠回到輸入狀態(tài),不至于降低模型的表現(xiàn)(當(dāng)γ=1,β=0時(shí))。
RCAN 雖然成功引入通道注意機(jī)制,讓全局特征信息在通道間進(jìn)行自適應(yīng)調(diào)整,并最終取得了比較好的效果,但是忽略了中間特征圖在圖像重構(gòu)時(shí)的作用。D-DBPN[9]雖然使用了稠密連接的思想防止梯度彌撒的問(wèn)題,并且在最后將中間特征圖進(jìn)行級(jí)聯(lián)以增強(qiáng)特征,但是忽略了不同中間特征圖在圖像重構(gòu)時(shí)貢獻(xiàn)力度不同的問(wèn)題。CSNLN 雖然使用跨尺度非局部注意模塊提取特征,并且在最后使用級(jí)聯(lián)的方式來(lái)重構(gòu)圖像,但是非局部注意模塊存在計(jì)算量偏大的問(wèn)題,且只考慮了長(zhǎng)范圍特征依賴。
為此,受到SFTGAN[7]和SFTMD[8]思想的啟發(fā),本文對(duì)RCAN[4]中的通道注意模塊進(jìn)行改進(jìn),提出了一種新的注意力機(jī)制,即基于SFT 的空間通道注意力機(jī)制。它可以使網(wǎng)絡(luò)在重構(gòu)階段,對(duì)聚合的中間特征在通道和空間上進(jìn)行全局信息自適應(yīng)調(diào)整,解決了RCAN 只注意通道的問(wèn)題,解決了D-DBPN 忽略了不同特征層在重構(gòu)時(shí)貢獻(xiàn)力度不同的問(wèn)題,與CSNLN 的跨尺度非局部注意模塊相比計(jì)算量也相對(duì)偏小。此外,本文還結(jié)合LapSRN[10]的漸進(jìn)式思想和SFTGAN、SFTMD 的特征變換的思想提出了基于SFT 的空間通道注意力機(jī)制重構(gòu)的漸進(jìn)式網(wǎng)絡(luò)。本文算法網(wǎng)絡(luò)主要分為3 個(gè)階段:圖像輸入階段、特征提取階段、圖像重構(gòu)階段。其中,特征提取階段包含淺層特征提取單元、漸進(jìn)式特征提取單元、偽仿射特征提取單元、SFT 單元,如圖2 所示。
圖2 本文算法網(wǎng)絡(luò)結(jié)構(gòu)
為了對(duì)指定放大倍數(shù)的SR(super resolution)進(jìn)行更好地重建,在特征提取階段,本文借鑒漸進(jìn)式逐步放大至目標(biāo)尺寸的策略,這不僅降低了預(yù)處理方法引入的噪聲,還減少了放大過(guò)程中高頻信息的丟失,減小了在圖像重建時(shí)造成可見重構(gòu)偽影的可能[11]。同時(shí),為了在重構(gòu)階段重建出紋理細(xì)節(jié)更加豐富的圖像,使用SFT 層在特征層之間進(jìn)行自適應(yīng)調(diào)整空間特征。最后采用本文提出的SFT 空間通道注意力模塊(SFTCA 模塊)進(jìn)行圖像重構(gòu),使網(wǎng)絡(luò)可以在通道和空間尺度上利用各層中間特征值進(jìn)行超分辨圖像重建。
在本網(wǎng)絡(luò)結(jié)構(gòu)中,使用漸進(jìn)式放大的思想進(jìn)行特征提取。首先對(duì)輸入的LR 圖像進(jìn)行淺層特征提取,然后經(jīng)過(guò)一個(gè)級(jí)聯(lián)的卷積操作挖掘更深層次的特征信息,最后通過(guò)一個(gè)反卷積層,將其放大2 倍。
假設(shè)輸入圖片ILR大小為(H,W),輸出圖片為ISR,大小為(sH,sW),s為尺度因子,這里可以取2,4,8。漸進(jìn)式上采樣模型可以表示為:
式中:F0定義為提取的淺層特征;Conv(·)定義為卷積操作;FC表示級(jí)聯(lián)卷積后的特征;D econv(·)表示反卷積操作;FP表示最后得到的漸進(jìn)式特征。
在進(jìn)行反卷積操作時(shí),加入殘差連接的思想來(lái)增強(qiáng)特征學(xué)習(xí),如圖3 所示。
圖3 漸進(jìn)式特征提取單元
漸進(jìn)式上采樣單元最后的輸出連接到2 個(gè)不同的層:一是將漸進(jìn)式特征FP輸入到下一級(jí)漸進(jìn)式上采樣單元中;二是將漸進(jìn)式特征FP,作為SFT 層的一個(gè)輸入特征FP輸入到SFT 層。
文獻(xiàn)[12]提出的U-net 網(wǎng)絡(luò)(convolutional network for biomedical image segmentation),對(duì)壓縮路徑的特征進(jìn)行裁剪,并將其加入到擴(kuò)展路徑進(jìn)行歸一化操作,來(lái)增強(qiáng)網(wǎng)絡(luò)特征細(xì)節(jié)。本文用空間特征變換單元,代替特征壓縮進(jìn)行裁剪來(lái)實(shí)現(xiàn)空間多尺度的紋理細(xì)節(jié)增強(qiáng)。
對(duì)于SFT 層的輸入,本文與SFTGAN 和SFTMD 采用的SFT 又有所不同,這里不再輸入語(yǔ)義分割概率 ψ或者模糊核H。受到U-Net 思想的啟發(fā),本文先將LR 圖像送入類似于U-net 的壓縮路徑,將得到的特征再輸入到SFT 單元,進(jìn)行空間特征相似性自適應(yīng),以此來(lái)加強(qiáng)特征。
空間特征變換單元(SFT 層),可以減少進(jìn)行裁邊操作的開銷,這不僅減少了壓縮路徑和擴(kuò)展路徑一一對(duì)稱對(duì)應(yīng)操作的開銷,也降低了由不能完美裁剪和對(duì)應(yīng)關(guān)系造成的特征累加或抵消的可能[13]??臻g特征變換單元在不直接處理輸入圖片的情況下,利用仿射變換對(duì)中間特征層進(jìn)行變換,最后影響輸出結(jié)果??臻g特征變換單元如圖4 所示。
圖4 空間特征變換單元
在本網(wǎng)絡(luò)中作為特征提取階段時(shí)的空間特征變換模型可以表示為:
式中:γ為縮放因子;β為平移因子;⊙代表像素之間的乘法。
空間特征變換單元的另一個(gè)輸入,本文暫時(shí)稱為偽仿射特征Fω,其結(jié)構(gòu)如圖5 所示。獲取它的操作可以看作VGG 網(wǎng)絡(luò)的語(yǔ)義提取[14]和自編碼解碼結(jié)構(gòu)[15]對(duì)其降噪的結(jié)果。
圖5 偽仿射性特征提取單元
多數(shù)超分辨方法,在圖像重構(gòu)階段,使用一個(gè)卷積或者反卷操作。D-DBPN[9]、CSNLN[6]等網(wǎng)絡(luò)使用級(jí)聯(lián)操作,對(duì)中間特征進(jìn)行融合。本文網(wǎng)絡(luò)結(jié)構(gòu)會(huì)產(chǎn)生2 個(gè)分支,4 種特征。為了更好地融合中間特征,受到SFTGAN 和SFTMD的思想啟發(fā),本文采用基于SFT 改進(jìn)RCAN 后的通道注意力機(jī)制,即基于SFT 的空間通道注意力機(jī)制,來(lái)對(duì)中間特征層進(jìn)行融合。這個(gè)新的注意力機(jī)制重構(gòu)模塊,稱之為SFT空間通道注意力模塊(SFTCA 模塊),如圖6 所示。
圖6 SFTCA 模塊
首先,將網(wǎng)絡(luò)模型的中間特征進(jìn)行級(jí)聯(lián),對(duì)其進(jìn)行Squeeze 操作,提取全局特征信息;然后使用SFT 結(jié)構(gòu)代替Excitation 操作和注意力分配操作。這樣不僅在通道上進(jìn)行注意力自適應(yīng),而且還在空間上進(jìn)行特征自適應(yīng),以求得一種空間依賴關(guān)系。其過(guò)程可以表示為:
式中:FU定義為級(jí)聯(lián)的中間特征;ZC是全局平均池化后C個(gè)通道的全局信息的描述;γ為縮放因子,β為平移因子,是一對(duì)調(diào)制參數(shù)對(duì);⊕代表矩陣加法;⊙代表像素之間的乘法;δ代表sigmoid 門控函數(shù);H′是經(jīng)過(guò)SFTCA 模塊后得到的重新分配注意力的特征;HR表示最后重建出的圖像。
在基于SFT 的空間通道注意力重構(gòu)單元中,為了更好將模型的中間特征進(jìn)行融合,重構(gòu)單元不是簡(jiǎn)單地將3 個(gè)特征進(jìn)行級(jí)聯(lián)后送入SFTCA 模塊,而是采用部分迭代反投影的思想,對(duì)3 種特征進(jìn)行進(jìn)一步處理,讓級(jí)聯(lián)的特征不至于冗余。重構(gòu)單元的結(jié)構(gòu)如圖7 所示。
圖7 基于SFT 的空間通道注意力重構(gòu)單元結(jié)構(gòu)示意圖
文獻(xiàn)[16]指出,融合特征層數(shù)并不是越多越好。為此,本文在進(jìn)行級(jí)聯(lián)特征時(shí)也做了簡(jiǎn)單的特征層篩選。
在多數(shù)深度學(xué)習(xí)超分辨重構(gòu)模塊中,大多使用單一卷積操作,忽略了不同特征層之間關(guān)系,或者將不同特征層之間的特征進(jìn)行簡(jiǎn)單級(jí)聯(lián),這樣不僅忽略了不同特征層在重建時(shí),其貢獻(xiàn)力度不同的特性,還忽略了空間特征層之間的自相似性?;赟FT 的空間通道注意力重構(gòu)單元不僅學(xué)習(xí)不同特征層之間的在通道和空間上的依賴和差異性,還利用不同特征源進(jìn)行殘差學(xué)習(xí),從而使得特征更加具有鑒別性。
大多數(shù)基于深度學(xué)習(xí)的超分辨重建算法使用的是L2損失函數(shù)或者L1損失函數(shù)作為網(wǎng)絡(luò)模型訓(xùn)練時(shí)的損失函數(shù)。文獻(xiàn)[17]指出:L2損失函數(shù)忽略了圖像內(nèi)容本身的影響,不可避免地產(chǎn)生模糊預(yù)測(cè),恢復(fù)出的高分辨圖像往往過(guò)于平滑;L1損失函數(shù)可以忍受異常值,相較前者而言,沒有那么平滑且收斂效果也比較好。本文網(wǎng)絡(luò)大體結(jié)構(gòu)類似于LapSRN,但是又有所不同。本文網(wǎng)絡(luò)中間結(jié)構(gòu)加深,特征提取類型變多。為了選取更加適合本文模型的損失函數(shù),本文4.1 節(jié)對(duì)3 種不同損失函數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)。其結(jié)果表明,LapSRN損失函數(shù)比L1損失函數(shù)和L2損失函數(shù)的重建效果更好。LapSRN損失函數(shù)[10]的表達(dá)式為
式中:x是 輸入的低分辨圖像;y是真實(shí)圖像;是預(yù)測(cè)圖像;L是 放大級(jí)數(shù);S為對(duì)應(yīng)級(jí)數(shù)的因子(例如放大因子為2、4、8,對(duì)應(yīng)級(jí)數(shù)為1、2、3);N是輸入圖片的數(shù)量;ρ是懲罰函數(shù),,這里設(shè)置ε=1×10?3。
實(shí)驗(yàn)使用含800 張圖片的DIV2K 數(shù)據(jù)集[18]進(jìn)行模型訓(xùn)練,不做數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)測(cè)試集采用Set5[19]、Set14[20]、BSDS100[21]以及Urban100[22]。在進(jìn)行測(cè)試時(shí),首先將模型輸出的結(jié)果,轉(zhuǎn)成YCbCr 格式,然后只計(jì)算Y通道上的2 個(gè)客觀評(píng)價(jià)指標(biāo):指標(biāo)峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)[23]。同時(shí),使用He等[24]提出的方法初始化網(wǎng)絡(luò)權(quán)重,batchsize 設(shè)置為20,訓(xùn)練圖片裁剪大小為32×32。初始學(xué)習(xí)率為1×10?4,實(shí)驗(yàn)一共迭代106次,并且在迭代訓(xùn)練的過(guò)程中做學(xué)習(xí)率衰減以優(yōu)化模型訓(xùn)練,令每5×105次,學(xué)習(xí)率衰減10 倍[13]。實(shí)驗(yàn)使用動(dòng)量為0.9 的Adam 優(yōu)化器[25],使用L1損失函數(shù)驗(yàn)證SFTCA 模塊的有效性,使用LapSRN損失函數(shù)驗(yàn)證本文算法的有效性。實(shí)驗(yàn)部署在Nvidia TITAN X(Pascal)GPU 以及Inter(R)Xeon(R)W-2125CPU 下。
在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型中,損失函數(shù)的選取往往對(duì)模型結(jié)果影響較大。在SISR 任務(wù)中,大多使用的是L1損失函數(shù)和L2損失函數(shù)作為網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)。由于本文模型結(jié)構(gòu)和LapSRN 相類似,同時(shí)為了選取更加適合本文模型的損失函數(shù),因此,將LapSRN損失函數(shù)納入比較范疇,對(duì)3 種不同損失函數(shù)進(jìn)行對(duì)比。
實(shí)驗(yàn)將3 種損失函數(shù)分別作為本文所提網(wǎng)絡(luò)的損失函數(shù)進(jìn)行模型訓(xùn)練。為了方便展示效果,實(shí)驗(yàn)選取了3 種損失函數(shù)訓(xùn)練出的模型的中間結(jié)果,每隔5×104取樣1 次,共取樣8 次,并將取樣出的模型在Set5 與Set14 測(cè)試集上做測(cè)試,進(jìn)行結(jié)果對(duì)比。實(shí)驗(yàn)結(jié)果如圖8 所示,可以明顯地看出,L2損失函數(shù)相比L1損失函數(shù)、LapSRN損失函數(shù)而言,總體收斂效果比較差,而且訓(xùn)練的模型也不穩(wěn)定。就L1損失函數(shù)、LapSRN損失函數(shù)而言,2 種損失函數(shù)在Set5 上表現(xiàn)得差不多,但是在Set14 上,以LapSRN損失函數(shù)作為損失函數(shù),模型在PSNR 上有一定提升,且穩(wěn)定提升。因此,文本采用了LapSRN損失函數(shù)作為損失函數(shù)。究其原因,漸進(jìn)式網(wǎng)絡(luò)將每層的梯度用于網(wǎng)絡(luò)更新權(quán)重,更加適合漸進(jìn)式網(wǎng)絡(luò)的層次型結(jié)構(gòu)。
圖8 不同損失函數(shù)在Set5,Set14 上的表現(xiàn)
為了驗(yàn)證2.3 節(jié)所提模塊的有效性,本文做了2 組對(duì)比實(shí)驗(yàn)。由于D-DBPN 在重構(gòu)時(shí),對(duì)中間特征進(jìn)行融合比較簡(jiǎn)單明了,在此基礎(chǔ)上實(shí)驗(yàn),能更好體現(xiàn)SFTCA 模型的有效性和模型層數(shù)對(duì)網(wǎng)絡(luò)的影響,所以選擇了D-DBPN 來(lái)測(cè)試SFTCA 模塊的功能而不是CSNLN。第1 組實(shí)驗(yàn)用于驗(yàn)證SFTCA模塊的有效性,設(shè)置了3 個(gè)模型,即模型Ⅰ、模型Ⅱ與模型Ⅲ。模型Ⅰ是D-DBPN 的原文模型;模型Ⅱ是在模型Ⅰ的基礎(chǔ)上,在網(wǎng)絡(luò)最后進(jìn)行圖像重構(gòu)時(shí)加入一個(gè)RCAN 網(wǎng)絡(luò)使用的通道注意模塊[4](channel attention,CA);模型Ⅲ是在模型Ⅰ的基礎(chǔ)上,在網(wǎng)絡(luò)最后進(jìn)行圖像重構(gòu)階段加入一個(gè)SFTCA 模塊。構(gòu)建這3 個(gè)對(duì)照模型,是為了驗(yàn)證2.3 節(jié)所提模塊的功能:SFTCA 模塊不僅在通道上對(duì)特征信息進(jìn)行自適應(yīng)學(xué)習(xí),還在空間尺度上也學(xué)習(xí)到了特征信息。
實(shí)驗(yàn)數(shù)據(jù)集是對(duì)DIV2K 數(shù)據(jù)集進(jìn)行隨機(jī)裁剪13 次構(gòu)成的集合,不做數(shù)據(jù)增強(qiáng),每張大小為32×32,共1 萬(wàn)400 張。所有模型縮放因子為4,損失函數(shù)采用的是L1損失函數(shù),這是因?yàn)橥ㄟ^(guò)4.1 節(jié)對(duì)3 種損失函數(shù)的對(duì)比實(shí)驗(yàn),可以看出就重構(gòu)后的PSNR 而言,LapSRN 損失函數(shù)最好,但是L1損失函數(shù)也比較相近,同時(shí)使用L1損失函數(shù),計(jì)算量小,便于快速驗(yàn)證SFTCA 模塊的有效性。實(shí)驗(yàn)結(jié)果如表1 所示。
表1 不同注意機(jī)制模型在Set5,Set14 上的表現(xiàn)
從實(shí)驗(yàn)結(jié)果看,在D-DBPN 后面接入一個(gè)CA 模塊(即模型Ⅱ),雖然在Set5 數(shù)據(jù)集上PSNR 值有一定的提高,但是在Set14 數(shù)據(jù)集上卻沒有提高。模型Ⅲ,無(wú)論是在Set5 還是Set14 上,PSNR 值都有所提升,分別提升了0.06dB 和0.02 dB。這驗(yàn)證了本文提出的SFTCA 模塊的確有效,它學(xué)習(xí)到了中間特征在空間和通道上的依賴關(guān)系。但是其效果在SSIM 上似乎沒有明顯改進(jìn)。
此外,對(duì)于中間特征的融合,本文做了進(jìn)一步研究,即第2 組對(duì)比實(shí)驗(yàn)。在重構(gòu)階段,增加融合特征模塊數(shù)量的時(shí)候,模型參數(shù)會(huì)增大。文獻(xiàn)[16]指出融合的特征層數(shù)和重構(gòu)效果并不成正比。為此,本文做了進(jìn)一步實(shí)驗(yàn),驗(yàn)證所提重構(gòu)模塊是否滿足這一結(jié)論。實(shí)驗(yàn)條件和第1 組實(shí)驗(yàn)一致。實(shí)驗(yàn)結(jié)果如圖9 所示。
圖9 不同特征層數(shù)Set5,Set14 上的表現(xiàn)
通過(guò)對(duì)特征層融合數(shù)量的調(diào)整實(shí)驗(yàn)可以發(fā)現(xiàn):在D-DBPN 實(shí)驗(yàn)?zāi)P蛠?lái)看,對(duì)于Set5 而言,層數(shù)越多,效果越好,但是在Set14 上效果變化不是很明顯;在將本文提出的SFTCA 模塊加上時(shí),在融合特征層數(shù)為5 層和6 層時(shí),效果基本一致,實(shí)驗(yàn)結(jié)果印證了文獻(xiàn)[16]的推論。為此在2.3 節(jié)中,本文選擇了網(wǎng)絡(luò)中能使重構(gòu)效果達(dá)到最好的3 種特征,來(lái)重建圖像。這樣既可以減少級(jí)聯(lián)冗余特征,又可以減少網(wǎng)絡(luò)模型的參數(shù)量,并同時(shí)加速網(wǎng)絡(luò)收斂。
將本文提出的算法與部分主流深度學(xué)習(xí)算法進(jìn)行比較,并且給出綜合評(píng)價(jià)。所有算法采用的測(cè)試集是Set5、Set14、BSDS100 和Urban100。其中Set5、Set14和BSDS100數(shù)據(jù)集中包含了人物、動(dòng)物、植物等多個(gè)自然場(chǎng)景,Urban100包含了不同角度、不同場(chǎng)景等城市場(chǎng)景。實(shí)驗(yàn)結(jié)果對(duì)比算法有SRCNN[26],F(xiàn)SRCNN[27]、VDSR[28]、EDSR[29]、Lap-SRN[10]、DBPN[9]、RDN[30]、RCAN[4]、SAN[5]、CSNLN[6]。采用公開代碼實(shí)驗(yàn),并且對(duì)這些算法的PSNR 和SSIM 指標(biāo)在放大不同倍數(shù)時(shí)進(jìn)行對(duì)比分析[31]。為了使實(shí)驗(yàn)具有可比性,在訓(xùn)練的時(shí)候,都采用同樣的數(shù)據(jù)集進(jìn)行訓(xùn)練,并且在測(cè)試集上對(duì)結(jié)果取平均值。
表2、表3 分別示出各個(gè)算法在放大倍數(shù)為4、8 倍時(shí)的結(jié)果。從表中實(shí)驗(yàn)結(jié)果來(lái)看,本文算法比多數(shù)算法取得的重建效果好。從D-DBPN 與DDBPN+SFTCA的對(duì)比實(shí)驗(yàn)結(jié)果來(lái)看,當(dāng)放大4 倍時(shí),在4 種測(cè)試 數(shù)據(jù)上,D-DBPN+SFTCA 的PSNR 值分別提高0.04、0.02、0.02、0.09dB;當(dāng)放大8 倍時(shí),PSNR 值分別提高0.02、0.04、0.00、0.06dB??梢?,無(wú)論是在放大因子為4、還是8 時(shí),SFTCA 模塊的確有效。該模塊在通道和空間尺度上學(xué)到了一定東西。此外,本文算法在放大4 倍時(shí),在Set5、Set14 以及BSDS100 上,相比SAN 來(lái)說(shuō),2 個(gè)指標(biāo)不相上下,但在Urban100 上有所提升,在放大8 倍時(shí),有顯著提升。相比目前比較優(yōu)秀CSNLN 而言,在放大因子為4 時(shí),本文算法的2 個(gè)指標(biāo)卻不及。
表2 各SISR 算法的x4 模型在不同數(shù)據(jù)集上的表現(xiàn)
表3 各SISR 算法的x8 模型在不同數(shù)據(jù)集上的表現(xiàn)
針對(duì)不同算法模型在測(cè)試數(shù)據(jù)下的表現(xiàn),圖10 至圖13 展示了其中部分算法在縮放因子為4 時(shí)的實(shí)際預(yù)測(cè)結(jié)果。它們分別選自不同的測(cè)試數(shù)據(jù)集:Set5 中的“baby”、Set14 中的“foreman”、BSDS100 中 的“ 210088”以 及 Urban100 中 的“img_018”。觀測(cè)各種算法下重建圖像的局部放大圖,可以發(fā)現(xiàn),從視覺角度主觀感受而言,各種算法(Bicubic 除外)在Set5 和Set14 上的重構(gòu)結(jié)果基本沒有太大區(qū)別。在BSDS100 的“210088”(如圖12所示)的局部放大圖上可以明顯感覺到,本文算法的“發(fā)光觸手”的邊緣相比LapSRN、D-DBPN 等算法更加銳利,色澤也更加飽滿。在Urban100 測(cè)試數(shù)據(jù)集的“img_005”中,如圖13 所示,本文算法預(yù)測(cè)出的“磚頭之間的溝壑”也更加清晰,顯得有層次感。
圖10 測(cè)試集Set5 中的“baby”重建效果對(duì)比
圖11 測(cè)試集Set14 中的“foreman”重建效果對(duì)比
圖12 測(cè)試集BSDS 中的“210088”重建效果對(duì)比
圖13 測(cè)試集Urban100 中的“img_018”重建效果對(duì)比
從上面的客觀指標(biāo)分析和主觀視覺效果分析來(lái)看,由本文算法重建出的結(jié)果,表現(xiàn)出了一定優(yōu)越性,證明了網(wǎng)絡(luò)中所提結(jié)構(gòu)模塊的有效性。本文算法在特征提取階段,利用經(jīng)偽仿射性特征單元后得到的特征指導(dǎo)中間特征學(xué)習(xí),在重構(gòu)階段,利用空間變換的思想,使得重構(gòu)模塊在空間和通道2 個(gè)維度對(duì)中間特征進(jìn)行重構(gòu),從而使重構(gòu)出的結(jié)果包含多角度的特征信息,效果更好。
本文首先利用SFT 思想對(duì)RCAN 中的CA 模塊進(jìn)行改進(jìn),提出SFTCA 模塊,并在D-DBPN 上驗(yàn)證了其有效性;然后將SFT 思想和漸進(jìn)式思想融合與SFTCA 模塊進(jìn)行結(jié)合,提出基于SFT 的空間通道注意力機(jī)制重構(gòu)的漸進(jìn)式網(wǎng)絡(luò)。網(wǎng)絡(luò)總體效果相對(duì)于基于通道注意機(jī)制的RCAN 網(wǎng)絡(luò)和基于非局部注意機(jī)制的SAN 有一定提升,但是相比CSNLN 有待提高。本文算法結(jié)構(gòu),相對(duì)于CSNLN而言卻比較簡(jiǎn)單,且計(jì)算量偏低。此外,為了使得整個(gè)模型計(jì)算量最小,在空間變換單元使用SFT層的數(shù)量為1,這可以作為下一個(gè)研究方向進(jìn)一步探索。