申 藝 錢小燕 張 峰 楊鎮(zhèn)源
(南京航空航天大學(xué) 南京 210000)
圖像超分辨率(Super Resolution,SR)重建旨在將已有的低分辨率(Low-Resolution,LR)圖像轉(zhuǎn)換成高分辨率(High Resolution,HR)圖像,使其恢復(fù)高頻紋理細(xì)節(jié)和邊緣。超分辨率重建技術(shù)在許多領(lǐng)域都有廣泛應(yīng)用,例如,在視頻超分辨率領(lǐng)域,可以恢復(fù)珍貴的歷史資料;在醫(yī)學(xué)圖像領(lǐng)域,通過(guò)對(duì)醫(yī)學(xué)圖像的高清重建可以幫助醫(yī)生掌握病人的身體情況。此外,超分辨率重建有助于高級(jí)的計(jì)算機(jī)視覺(jué)任務(wù)研究,如目標(biāo)檢測(cè),圖像分割等。
最近,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法主導(dǎo)了SR 的研究。Dong等[1]提出了第一個(gè)基于CNN 的超分辨率重建方法(SRCNN),它僅使用三層卷積層的網(wǎng)絡(luò)學(xué)習(xí)LR-HR 圖像對(duì)之間的映射關(guān)系,而且效果超越了傳統(tǒng)方法。EDSR[2]使用去掉了網(wǎng)絡(luò)中不必要的模塊,使用改進(jìn)的殘差模塊作為基礎(chǔ)模塊,并用更寬的網(wǎng)絡(luò)達(dá)到更好的性能。RCAN[3]使用通道注意,殘差中殘差結(jié)構(gòu)和更深的網(wǎng)絡(luò)進(jìn)一步提高性能。但是這些方法都假設(shè)圖像退化是已知且固定的,如雙三次(Bicubic)下采樣。當(dāng)真實(shí)的降解與其假設(shè)不同時(shí),這些方法的性能會(huì)嚴(yán)重下降。
為了處理現(xiàn)實(shí)中圖像的各種退化,如高斯模糊,運(yùn)動(dòng)模糊和噪聲等,研究人員已經(jīng)提出一些方法來(lái)實(shí)現(xiàn)盲SR。SRMD[4]首次使用退化信息作為SR 網(wǎng)絡(luò)的附加輸入,可以在不同的退化下的重建LR 圖像。后來(lái),Zhang等通過(guò)交替解決數(shù)據(jù)子問(wèn)題和先驗(yàn)子問(wèn)題,提出展開的SR 網(wǎng)絡(luò)(USRnet)來(lái)處理不同退化的圖像[5]。MZSR[6]在測(cè)試時(shí)進(jìn)行訓(xùn)練,使用基于優(yōu)化的元學(xué)習(xí),使網(wǎng)絡(luò)只需幾次迭代就可以自適應(yīng)地進(jìn)行特定的退化的重建。最近,DASR[7]使用對(duì)比學(xué)習(xí)從LR圖像中提取具有鑒別力的退化表示,并使用所學(xué)的退化表示動(dòng)態(tài)的調(diào)整SR網(wǎng)絡(luò),該算法取得了很好的重建效果。但是DASR 沒(méi)有利用前層特征,所以它不夠有效。我們提出了新的一種調(diào)制網(wǎng)絡(luò),它在融合多層卷積特征的同時(shí)動(dòng)態(tài)調(diào)制特征,有效地利用了前層信息且具有更廣的調(diào)制范圍,因此具有更好的效果。
經(jīng)典的LR圖像ILR的退化過(guò)程可建模如下:
其中IHR是HR 圖像,k是模糊核,?表示卷積操作,↓s是比例為s的雙三次下采樣操作,n通常是指加性高斯白噪聲。在本文中,為簡(jiǎn)化問(wèn)題,我們使用各向同性高斯核作為模糊核而不考慮噪聲來(lái)研究無(wú)噪聲退化模型。
提出的盲SR 框架包括退化編碼器和特征融合調(diào)制SR 網(wǎng)絡(luò)。首先,將LR 圖像饋送到退化編碼器以獲得退化表示,然后使用該表示動(dòng)態(tài)地調(diào)整SR網(wǎng)絡(luò)以產(chǎn)生精確的SR結(jié)果。
退化表示學(xué)習(xí)旨在從LR圖像中提取具有鑒別性退化的表示。如圖1 所示,我們使用對(duì)比學(xué)習(xí)框架以無(wú)監(jiān)督的方式進(jìn)行退化表示學(xué)習(xí)。
圖1 退化表示學(xué)習(xí)圖示
我們假設(shè)同一幅LR 圖像中的退化是相同的,而不同的LR 圖像的退化不同。從一個(gè)LR 圖像中隨機(jī)剪裁兩個(gè)圖像塊,相同的LR 圖像中提取的圖像塊互為正樣本,而來(lái)自不同LR 圖像的圖像塊互為負(fù)樣本。然后,使用六層的卷積網(wǎng)絡(luò)作為編碼器對(duì)圖像塊提取退化表示,所得到的表示進(jìn)一步送入兩層全連接層投影以獲得x,x+和x-。為使相同的退化靠近,不同的退化遠(yuǎn)離,即x與x+相似,同時(shí)與x-不同,使用損失函數(shù)如下:
其中N是負(fù)樣本的數(shù)量,τ是溫度超參數(shù),設(shè)為0.07,?表示兩個(gè)向量之間的點(diǎn)乘。
現(xiàn)有的退化估計(jì)方法都是在像素水平精確估計(jì)模糊核,然而精確估計(jì)十分困難,因此精度有限。與這些方法不同,對(duì)比學(xué)習(xí)可以學(xué)習(xí)退化的抽象表示,而不是明確估計(jì)退化,而且它不需要監(jiān)督標(biāo)簽,實(shí)驗(yàn)表明這種表示學(xué)習(xí)方案是有效的。
調(diào)制網(wǎng)絡(luò)總體框架如圖2 所示。首先,退化編碼器使用六個(gè)卷積層和全局平均池化得到256 維向量作為退化表示,所得退化表示經(jīng)過(guò)一個(gè)全連接(Fully Connected,F(xiàn)C)層壓縮為64 維向量D后送入SR 網(wǎng)絡(luò)。特征融合調(diào)制SR 網(wǎng)絡(luò)由初始特征提取層,精細(xì)特征提取塊和尾部的上采樣模塊組成。初始特征提取層為一個(gè)3×3 卷積,精細(xì)特征提取塊是4個(gè)鏈?zhǔn)蕉询B的模塊(圖2中的Block),上采樣模塊(圖2 中的Upscaler)使用一個(gè)亞像素卷積層[8]實(shí)現(xiàn)。網(wǎng)絡(luò)使用全局殘差學(xué)習(xí)將初始特征提取層的輸出和精細(xì)特征提取塊的輸出相加,使精細(xì)特征提取塊專注于恢復(fù)LR圖像缺失的高頻信息。
圖2 特征融合調(diào)制SR網(wǎng)絡(luò)總體框架
如圖3 所示,每個(gè)Block 由3 個(gè)融合調(diào)制模塊(Fusion Modulation Block,F(xiàn)MB)和一個(gè)局部殘差連接組成。每個(gè)FMB 一方面經(jīng)過(guò)3 個(gè)級(jí)聯(lián)的64 通道的3×3 卷積,然后將它們的輸出沿通道維度拼接形成融合特征;另一方面,D經(jīng)過(guò)兩個(gè)全連接層進(jìn)行通道維度的擠壓和擴(kuò)張,然后經(jīng)過(guò)Hard sigmoid 激活函數(shù)形成數(shù)值在0~1 的調(diào)制向量。接著,調(diào)制向量與融合特征相乘來(lái)自適應(yīng)的調(diào)整融合特征,然后送入1×1 卷積聚合并恢復(fù)通道維度,最后增強(qiáng)的空間注意[9](Enhanced Spatial Attention,ESA)模塊強(qiáng)化網(wǎng)絡(luò)感興趣區(qū)域的特征。與DASR 對(duì)單個(gè)卷積層的輸出調(diào)制不同,融合調(diào)制模塊同時(shí)調(diào)整多個(gè)不同層次的卷積輸出,并將調(diào)制后的特征進(jìn)行聚合,不僅可以對(duì)不同層次的特征進(jìn)行相對(duì)應(yīng)的調(diào)制,而且充分利用了前層特征,因此所提特征融合調(diào)制SR 網(wǎng)絡(luò)具有更好的效果。另外,使用Hard sigmoid激活函數(shù)代替sigmoid 激活函數(shù),它具有更大的梯度,可以使訓(xùn)練更快收斂。
圖3 Block和FMB細(xì)節(jié)圖示
所有實(shí)驗(yàn)根據(jù)式(1)合成用于訓(xùn)練和測(cè)試LR圖像。使用DIV2K[10]和Flickr2K[11]作為訓(xùn)練集的HR 圖像,他們分別包含800 張和2650 張高質(zhì)量圖像,并使用四個(gè)基準(zhǔn)數(shù)據(jù)集(Set5[12],Set14[13],B100[14]和Urban100[15])進(jìn)行評(píng)估,評(píng)估指標(biāo)為Y 通道的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)。我們訓(xùn)練了放大兩倍的特征融合調(diào)制SR網(wǎng)絡(luò)(Feature Fusion Modulation Super-Resolution Network,F(xiàn)FMnet),退化設(shè)置為各向同性高斯核和無(wú)噪聲退化,遵循文獻(xiàn)[7]的設(shè)置,高斯核的大小固定為21×21,核寬度σ的范圍設(shè)置為[0.2,2.0]。在訓(xùn)練期間,隨機(jī)選擇32 個(gè)HR 圖像,通過(guò)隨機(jī)旋轉(zhuǎn)和翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。然后,隨機(jī)選擇32 個(gè)范圍內(nèi)的高斯核模糊HR 圖像并雙三次下采樣兩倍以產(chǎn)生LR圖像。接下來(lái),每個(gè)LR圖像的隨機(jī)剪裁兩個(gè)尺寸為48×48 的圖像塊,同樣HR 圖像剪裁對(duì)應(yīng)位置尺寸為96×96 的圖像塊以此構(gòu)成訓(xùn)練對(duì)。使用β1=0.9 和β2=0.999 的Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)為1×10-4,每訓(xùn)練50 個(gè)周期學(xué)習(xí)率減半,一共訓(xùn)練了200 個(gè)周期。損失函授為L(zhǎng)=LSR+Ld,其中LSR是SR圖像和HR圖像的L1損失。
為探究所提特征融合調(diào)制方法的有效性,我們訓(xùn)練了兩個(gè)模型,一個(gè)是完整的特征融合調(diào)制網(wǎng)絡(luò),記為FFMnet,另一個(gè)是不含退化編碼器和調(diào)制操作的網(wǎng)絡(luò),記為FFMnet1。為節(jié)省時(shí)間,兩個(gè)模型都訓(xùn)練了20 個(gè)周期,學(xué)習(xí)率每5 個(gè)周期減半,其它設(shè)置與3.1節(jié)相同。表1顯示了兩個(gè)模型在B100測(cè)試集上不同核寬的PSNR 結(jié)果。可以看出,F(xiàn)FMnet 的PSNR 全面超越FFMnet1,尤其是核寬為1.8時(shí)PSNR 提高達(dá)0.62dB,這表明所提出的特征融合調(diào)制方法對(duì)多種退化的圖像超分辨率重建非常有效,而不使用調(diào)制的靜態(tài)網(wǎng)絡(luò)具有較差效果。另外,F(xiàn)FMnet在核寬為0.6時(shí)的PSNR超過(guò)了核寬為0時(shí)的PSNR,這是因?yàn)橛?xùn)練時(shí)核寬分布為[0.2,2.0],核寬0超出了訓(xùn)練分布范圍。
表1 B100測(cè)試集上的PSNR結(jié)果
表2給出了本文模型與一些現(xiàn)有的代表性模型在四個(gè)基準(zhǔn)測(cè)試集上PSNR 的比較,包括RCAN[3]、SRMD[4]、MZSR[6]和DASR[7]。最佳的結(jié)果由黑色加粗顯示,次優(yōu)結(jié)果使用下劃線標(biāo)識(shí)。可以看出RCAN 在核寬為0 時(shí)取得最優(yōu)結(jié)果,這是因?yàn)榇藭r(shí)退化僅為雙三次下采樣,這符合RCAN 的退化假設(shè),而在核寬增大時(shí)退化不再符合假設(shè),此時(shí)RCAN 的效果大幅下降。FFMnet 在大多情況下取得與DASR 相當(dāng)?shù)慕Y(jié)果。而且FFMnet 只訓(xùn)練了200個(gè)周期,DASR訓(xùn)練了600個(gè)周期。另外,DASR具有5.8M 參數(shù),而FFMnet 只有3.8M 參數(shù),參數(shù)量減少34%;在輸入128×128 RGB圖像時(shí),DASR需要52.7G 浮點(diǎn)運(yùn)算(Floating Point Operations,F(xiàn)LOPs),F(xiàn)FMnet 只需37.5G 浮點(diǎn)運(yùn)算,計(jì)算量減少28.8%。因此,F(xiàn)FMnet使用更少的計(jì)算量實(shí)現(xiàn)了與DASR相當(dāng)?shù)男Ч?。圖4 給出了幾種方法的兩倍超分辨率重建結(jié)果的視覺(jué)效果對(duì)比,可以看出FFMnet 可以重建出清晰的細(xì)節(jié),而RCAN 和MZSR 重建結(jié)果較為模糊。
表2 FFMnet與其他模型在基準(zhǔn)測(cè)試集集上的平均PSNR結(jié)果
圖4 超分辨率重建結(jié)果的視覺(jué)對(duì)比
本文設(shè)計(jì)了一種新的可應(yīng)對(duì)多種退化的特征融合調(diào)制網(wǎng)絡(luò),采用對(duì)比學(xué)習(xí)提取有鑒別性的退化表示,結(jié)合特征融合網(wǎng)絡(luò)和調(diào)制網(wǎng)絡(luò)的優(yōu)點(diǎn),將特征融合的同時(shí)用退化表示動(dòng)態(tài)調(diào)制SR 網(wǎng)絡(luò),不僅充分利用前層輸出,而且實(shí)現(xiàn)了更大范圍調(diào)制。在四個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該網(wǎng)絡(luò)取得了與現(xiàn)有代表性方法DASR相當(dāng)?shù)慕Y(jié)果而具有更少計(jì)算量。