陳洪剛 李自強(qiáng) 張永飛 王正勇 卿粼波 何小海
(四川大學(xué)電子信息學(xué)院 成都 610065)
單幅圖像超分辨率(Single Image Super-Resolution, SISR)重建,旨在從低分辨率(Low-Resolution, LR)觀測圖像中恢復(fù)出更高分辨率(High-Resolution, HR)的圖像[1],使得重建圖像更加清晰。現(xiàn)有圖像超分辨率算法總體上可以分為3類:基于插值的方法[2]、基于重建的方法[3]和基于學(xué)習(xí)的方法[4–17]。近年來,由于出色的性能,基于深度學(xué)習(xí)的圖像超分辨率方法逐漸成為主流。Dong 等人[4]首次將卷積神經(jīng)網(wǎng)絡(luò)引入到圖像超分辨率領(lǐng)域。在此基礎(chǔ)上,研究者不斷提出性能更優(yōu)的超分辨率網(wǎng)絡(luò),如IPT[5]和SwinIR[6]等,重建性能有了顯著提升[18]。然而,其中較多算法都假設(shè)低分辨率圖像的降質(zhì)是已知的,如雙3次下采樣。在此理想條件下建立的超分辨率模型在處理降質(zhì)未知的圖像時,如真實(shí)場景圖像,性能會明顯下降[19]。為了解決上述問題,研究者針對降質(zhì)未知圖像的超分辨率重建開展了一系列工作,通常被稱為盲超分辨率重建(Blind Image Super-Resolution)[20]??傮w而言,現(xiàn)有盲超分辨率重建方法主要包括以下3類。
對于基于深度學(xué)習(xí)的超分辨率模型而言,訓(xùn)練圖像與測試圖像之間的降質(zhì)差異會嚴(yán)重影響重建性能。常用的雙3次下采樣降質(zhì)模型較為理想化,覆蓋的降質(zhì)類型、程度都十分有限。為了更好地重建存在復(fù)雜、未知降質(zhì)的低分辨率圖像,研究者提出了更完善、更貼近真實(shí)場景的降質(zhì)模型,以人工合成“高分辨率—低分辨率”圖像對和大規(guī)模訓(xùn)練圖像集。例如,Zhang等人[7]提出隨機(jī)組合不同類型和程度的模糊、下采樣和噪聲,以對高分辨率圖像進(jìn)行多樣化的降質(zhì),使得合成的訓(xùn)練圖像對覆蓋更多、更復(fù)雜的降質(zhì)情況。Wang等人[8]進(jìn)一步構(gòu)建了一個高階的降質(zhì)模型,即允許不同參數(shù)設(shè)置下的模糊及加噪等降質(zhì)操作進(jìn)行多次。得益于更豐富的降質(zhì)設(shè)置,這些方法能夠更好地處理降質(zhì)未知的圖像,取得了較好的重建效果。不足的是,這些方法并沒有考慮不同圖像之間的降質(zhì)差異,對所有圖像都采用相同的處理。
為了能夠適應(yīng)于不同降質(zhì)條件下的低分辨率圖像,一些研究者提出對降質(zhì)過程進(jìn)行估計,進(jìn)而輔助圖像重建處理。如Bell-Kligler 等人[9]提出的KernelGAN,首先利用低分辨率圖像自身信息學(xué)習(xí)圖像自適應(yīng)的降質(zhì)模型,從而將低分辨率圖像進(jìn)一步降質(zhì)后構(gòu)建“高分辨率—低分辨率”圖像對;然后,基于生成的圖像對訓(xùn)練圖像自適應(yīng)的超分辨率模型,進(jìn)而對輸入低分辨率圖像進(jìn)行重建。KernelGAN對于存在未知降質(zhì)的低分辨率圖像有較好的適應(yīng)性,但是處理速度較慢。Liang等人[10]提出一種新的核先驗(yàn)(Flow-based Kernel Prior, FKP),通過學(xué)習(xí)核空間與隱空間之間的可逆映射,實(shí)現(xiàn)更高效準(zhǔn)確的模糊核估計,其與KernelGAN等結(jié)合時能進(jìn)一步提高盲超分辨率重建的性能。Tao等人[11]提出了基于低分辨率圖像頻譜結(jié)構(gòu)的模糊核估計網(wǎng)絡(luò)S2K,降低了核估計誤差。通過將S2K與現(xiàn)有非盲超分辨率方法結(jié)合,Tao等人在降質(zhì)未知圖像上取得了出色的重建性能。考慮到真實(shí)場景圖像的模糊核可能是空間變化的,Liang等人[12]提出了針對空間變化模糊核的估計網(wǎng)絡(luò)MANet,其主要特點(diǎn)是具有合適的感受野,可以保持降質(zhì)的局部性。聯(lián)合非盲超分辨率方法,MANet能夠?qū)崿F(xiàn)空間變化及空間不變模糊核圖像的重建??傮w而言,這類方法中的模糊核估計與圖像重建是相對獨(dú)立的,模糊核估計的誤差對重建效果有著十分顯著的影響。同時,他們更多關(guān)注的是模糊核,而較少考慮圖像中廣泛存在的噪聲。
為了降低降質(zhì)估計誤差對重建效果的影響,研究者進(jìn)一步提出了對它們進(jìn)行聯(lián)合優(yōu)化的方案。類似于KernelGAN,Kim等人[13]提出的DBPI也是利用待重建的低分辨率圖像學(xué)習(xí)圖像自適應(yīng)的降質(zhì)及重建網(wǎng)絡(luò)。不同的是,DBPI中的降質(zhì)及重建網(wǎng)絡(luò)是在雙向反投影損失的引導(dǎo)下進(jìn)行聯(lián)合優(yōu)化的。鑒于精確估計降質(zhì)參數(shù)十分困難,DASR[14]通過對比學(xué)習(xí)獲取圖像的非精確降質(zhì)表示,并用其輔助超分辨率重建,以適應(yīng)于不同降質(zhì)條件下的低分辨率圖像。為了提高降質(zhì)估計的準(zhǔn)確性及重建圖像的質(zhì)量,Gu等人[15]及Luo等人[16, 17]分別提出了迭代優(yōu)化的方案IKC和DAN。其核心思想是模糊核等降質(zhì)參數(shù)的準(zhǔn)確性直接影響重建圖像的質(zhì)量,因此反過來可以利用重建圖像來輔助降質(zhì)參數(shù)的估計。通過降質(zhì)估計及圖像重建的迭代聯(lián)合優(yōu)化,估計的降質(zhì)參數(shù)及重建的高分辨率圖像都更為可靠。但是,IKC和DAN都沒有直接考慮低分辨率圖像中的噪聲。真實(shí)場景圖像中往往存在不同程度的噪聲,其會降低模糊核估計的準(zhǔn)確性,影響重建性能。因此,聯(lián)合優(yōu)化模糊核/噪聲估計和圖像重建是十分必要的。受迭代優(yōu)化思路的啟發(fā),本文構(gòu)建了模糊核/噪聲估計和圖像重建網(wǎng)絡(luò),提出一種基于迭代交替優(yōu)化的圖像盲超分辨率重建算法。
圖像的采集過程受多種因素的影響,通常假設(shè)低分辨率圖像的觀測過程如式(1)所示
其中,y和x分別表示低分辨率圖像和高分辨率圖像,k是模糊核,n為加性高斯噪聲, *和↓s分別是卷積和尺度為s的下采樣操作。圖像盲超分辨率重建的目的是,在k和n未知的情況下,由給定的低分辨率圖像y重建出高分辨率圖像x的估計x?。較多圖像盲超分辨率算法僅僅考慮模糊核的估計。然而,噪聲會影響模糊核的估計,而獨(dú)立的去噪預(yù)處理會造成圖像細(xì)節(jié)信息的丟失,也不利于模糊核估計及圖像重建。
為了解決上述問題,本文提出聯(lián)合估計高分辨率圖像x、模糊核k和噪聲n,如式(2)所示
其中,F(xiàn)d(x,y,k,n)用于度量x,k和n的估計與低分辨率觀測圖像y之間的一致性;?(x),ψ(k)和γ(n)分別表示針對x,k和n的先驗(yàn)信息。在對先驗(yàn)信息進(jìn)行顯式刻畫和建模后,式(2)的求解通??梢酝ㄟ^對x,k和n的交替優(yōu)化實(shí)現(xiàn)。然而,對先驗(yàn)信息的顯式建模是十分困難的,且通常只能對部分特性進(jìn)行刻畫。
針對以上問題,本文將上述x,k和n的交替優(yōu)化過程展開,并利用深度卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)每個未知量的估計及端對端的迭代聯(lián)合優(yōu)化,提出算法的整體框圖如圖1所示。如前文所述,降質(zhì)估計的準(zhǔn)確性對于重建圖像的質(zhì)量有著顯著的影響。因此,降質(zhì)參數(shù)是圖像重建的關(guān)鍵輔助信息,而重建圖像反過來也可作為評價降質(zhì)參數(shù)估計準(zhǔn)確性的重要參考。具體地,對于基于深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的高分辨率圖像重建器Rx(·)、模糊核估計器Ek(·)和噪聲水平估計器En(·),其迭代交替優(yōu)化過程如式(3)所示
本文所提出的圖像重建器如圖2(a)所示,其利用估計的模糊核和噪聲水平作為輔助信息,由輸入的低分辨率圖像重建高分辨率圖像。圖像重建器主要由3部分組成,包括低分辨率圖像特征提取、動態(tài)特征調(diào)制及上采樣。其中,低分辨率圖像的特征提取基于單個卷積層(Convolutional Layer, Conv)實(shí)現(xiàn);動態(tài)特征調(diào)制由級聯(lián)的動態(tài)調(diào)制殘差模塊(Dynamic Modulation Residual Block, DMRB)構(gòu)成,以利用降質(zhì)信息影響網(wǎng)絡(luò)中間特征;上采樣模塊實(shí)現(xiàn)分辨率提升和圖像重建,其核心是基于亞像素卷積的上采樣層。
如圖2(b)所示,圖像重建器中的DMRB的作用是利用作為條件輸入的降質(zhì)信息向量d對圖像特征進(jìn)行調(diào)制及變換,其內(nèi)部主要包含1個動態(tài)調(diào)制層(Dynamic Modulation Layer, DML)[21]和4個動態(tài)注意力模塊(Dynamic Attention Block, DAB)[22]。在DMRB中,基于降質(zhì)信息的動態(tài)特征調(diào)制主要由DML實(shí)現(xiàn),而其后的DAB基于動態(tài)注意力模型對調(diào)制后的特征進(jìn)行變換和提煉,以獲取更有利于高分辨率圖像重建的特征。DMRB采用的是殘差結(jié)構(gòu),有助于提升深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性及整體性能。DML和DAB的結(jié)構(gòu)分別如圖3(a)及圖4所示,下面將具體說明其作用和實(shí)現(xiàn)原理。
如圖3(a)所示,DML以降質(zhì)參數(shù)d為條件信息對輸入特征fLR進(jìn)行調(diào)制,以使得特征受d的影響且隨其調(diào)整,進(jìn)而自適應(yīng)于不同的降質(zhì)。具體地,在如圖3(a)所示的DML中,d經(jīng)過全連接層(Fully Connected layer, FC)變換后作為引導(dǎo)信息分別與fLR的均值m(fLR)和標(biāo)準(zhǔn)差s(fLR)結(jié)合,進(jìn)一步通過全連接層學(xué)習(xí)自適應(yīng)動態(tài)調(diào)制參數(shù)ξ和υ對fLR進(jìn)行動態(tài)調(diào)制,該過程如式(4)所示:
其中,N(fLR)表示fLR經(jīng)過規(guī)范化處理的結(jié)果[21]。如圖3(a)所示,式(4)中自適應(yīng)動態(tài)調(diào)制參數(shù)υ和ξ是基于全連接層從d和fLR中學(xué)習(xí)到的,其計算過程表示為
如圖2(d)所示,噪聲水平估計器的結(jié)構(gòu)與模糊核估計器相似,其以重建的高分辨率圖像x?i為參考,從低分辨率圖像y中估計噪聲水平σ?i。不同的是,由于噪聲水平與模糊核的差異,噪聲水平估計器的末端并未使用Softmax層。為了避免重復(fù)冗余,此處省去對噪聲水平估計器網(wǎng)絡(luò)結(jié)構(gòu)的詳細(xì)介紹。對于噪聲水平估計器,如果估計的噪聲水平值小于實(shí)際值,可能會導(dǎo)致重建的高分辨率圖像中存在殘留噪聲;而當(dāng)估計的噪聲水平略大于實(shí)際值時,噪聲能夠得到較好的抑制,有利于提升重建圖像的質(zhì)量。因此,對于噪聲水平估計器的損失函數(shù),本文采用Guo等人[23]提出的非對稱損失函數(shù),對噪聲水平估計值過低的情況施加更大的懲罰力度,以使得估計的噪聲水平更有利于圖像重建。
對于提出的基于迭代交替優(yōu)化的盲超分辨率算法,總的損失函數(shù)為重建器損失、模糊核估計器損失及噪聲水平估計器損失之和,以實(shí)現(xiàn)對三者的端對端聯(lián)合優(yōu)化,保證模塊之間的兼容性并使其相互促進(jìn)。
網(wǎng)絡(luò)參數(shù):圖像重建網(wǎng)絡(luò)、模糊核估計網(wǎng)絡(luò)及噪聲水平估計網(wǎng)絡(luò)中的DMRB模塊數(shù)量分別設(shè)置為6,1和1。迭代交替優(yōu)化次數(shù)設(shè)為4。
模型測試:使用4個公開測試集(Set5[27],Set14[28], B100[29]和Urban100[30])對算法性能進(jìn)行比較。對于2倍重建,是利用在[0.8,1.6]范圍內(nèi)均勻抽樣的8個模糊核對高分辨率圖像進(jìn)行模糊;對于4倍重建,8個模糊核是在[1.8,3.2]內(nèi)均勻采樣的。對于兩種重建尺度,噪聲水平都設(shè)置了兩種情況,即5 和10。
為了驗(yàn)證本文所提方法的有效性,選取了雙3次插值(Bicubic),MANet[12], DASR[14], IKC[15]和DAN[17]共5種主流算法進(jìn)行測試和比較。由于使用的IKC[15]模型沒有考慮噪聲,因此先用DnCNN[31]對測試圖像進(jìn)行去噪處理,再利用IKC[15]對去噪結(jié)果進(jìn)行重建,該方法表示為DnCNN[31]+IKC[15]。表1和表2分別列出了不同算法在2倍和4倍重建時取得的PSNR(dB)及SSIM值。
從表1和表2可以看出,在2倍及4倍重建中,本文算法在兩種噪聲水平下的PSNR和SSIM都優(yōu)于其他對比算法,說明了提出算法的有效性和優(yōu)越性。同時可以看到,組合方法DnCNN[31]+IKC[15]的性能明顯低于DASR[14]和DAN[17]等盲超分辨率算法。其主要原因在于去噪預(yù)處理在去除噪聲的同時,也會造成圖像信息的丟失,影響模糊核的估計及圖像細(xì)節(jié)信息的恢復(fù)。在5種對比方法中,DAN[17]整體上取得了更好的性能,顯示了迭代優(yōu)化方案的優(yōu)勢。得益于對圖像重建、模糊核估計及噪聲水平估計網(wǎng)絡(luò)的迭代交替優(yōu)化,本文算法整體上取得了最高的客觀參數(shù)。如對于噪聲水平為5時的4倍重建,相對于DAN[17],提出方法在Set5, Set14, B100及Urban100上的PSNR/SSIM提升值分別為0.31 dB/0.0062, 0.20 dB/0.0080, 0.14 dB/0.0077及0.27 dB/0.0133。整體而言,在迭代交替優(yōu)化框架下,噪聲水平的估計及利用,能夠提升模糊核估計的準(zhǔn)確性及重建圖像的質(zhì)量。
表1 2倍重建結(jié)果的客觀參數(shù)PSNR(dB)/SSIM比較
表2 4倍重建結(jié)果的客觀參數(shù)PSNR(dB)/SSIM比較
為了更直觀地比較重建效果,圖5展示了在模糊核標(biāo)準(zhǔn)差為1.8及噪聲水平為10時,不同算法在Urban100中“image097”圖像上取得的4倍重建結(jié)果??梢钥闯?,雙3次插值結(jié)果中存在嚴(yán)重的噪聲,且圖像十分模糊。MANet[12], DASR[14],DnCNN[31]+IKC[15]和DAN[17]都抑制了噪聲及模糊效應(yīng),但是重建圖像較為平滑,細(xì)節(jié)不夠清晰和完整。相比較而言,如圖5(g)所示,本文提出算法較好地抑制了噪聲,同時更好地恢復(fù)了圖像局部結(jié)構(gòu),改善了重建圖像的質(zhì)量??傮w上看,在所有算法中,提出算法的重建結(jié)果具有最好的視覺效果。
為了進(jìn)一步測試和比較不同方法在真實(shí)場景中的表現(xiàn),圖6展示了不同算法對真實(shí)場景圖像“chip”的重建結(jié)果,重建尺度為4。相比于雙3次插值,MANet[12]等其他4種對比方法重建的圖像都更為清晰,這也顯示了超分辨率重建處理相對于傳統(tǒng)插值的明顯優(yōu)勢。對比本文提出算法與其他算法的重建結(jié)果可以看出,提出方法恢復(fù)了更清晰的邊緣等結(jié)構(gòu),如芯片上的數(shù)字及字母等,并且對噪聲的去除更為充分。以上在合成圖像及真實(shí)場景圖像上的實(shí)驗(yàn)結(jié)果表明,本文提出算法能夠較好地對模糊核、噪聲水平等降質(zhì)未知的圖像進(jìn)行重建,重建圖像的主客觀質(zhì)量整體優(yōu)于同類算法。
為了分析迭代過程中重建的高分辨率圖像及估計的模糊核/噪聲水平的動態(tài)變化過程,圖7給出了不同迭代次數(shù)下得到的重建圖像的PSNR值、模糊核估計的PSNR值及噪聲水平估計值。需要說明的是,圖7是在Set5中不同圖像上取得的平均結(jié)果,重建尺度為4,噪聲水平為10。進(jìn)一步地,圖8以“baby”圖像為例,對不同迭代次數(shù)下的重建圖像進(jìn)行了可視化和對比。從圖7及圖8可以看出,在一定范圍內(nèi),隨著迭代次數(shù)的增加,重建圖像的主客觀質(zhì)量和降質(zhì)參數(shù)估計的準(zhǔn)確性呈上升趨勢,這說明了提出的迭代交替優(yōu)化方案的有效性;當(dāng)?shù)螖?shù)大于4時,整體趨于平穩(wěn),顯示了提出方法具有較好的收斂性。
為了更充分地比較不同算法,圖9給出了不同算法的參數(shù)量及運(yùn)行時間。其中,運(yùn)行時間是在RTX 3090顯卡上處理Set14數(shù)據(jù)集時,平均每幅圖像的時間消耗。本實(shí)驗(yàn)中重建倍數(shù)為4,噪聲水平為5。從圖9可以看出,本文方法在參數(shù)量上,和DAN[17]較為接近,優(yōu)于MANet[12]及DASR[14]等其他方法。而在處理效率上,和MANet[12], DAN[17]等相當(dāng)。因此,相比于DAN[17],提出方法在基本保持參數(shù)量和處理效率的同時,提升了重建效果??傮w而言,提出方法在參數(shù)量、處理效率及重建性能上都有一定的優(yōu)勢。
針對存在未知模糊、噪聲等降質(zhì)的圖像,本文提出了一種基于迭代交替優(yōu)化的盲超分辨率重建方法。首先,構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)的高分辨率圖像重建器、模糊核及噪聲水平估計器。其中,圖像重建器的作用是利用估計的模糊核及噪聲水平作為輔助信息,由低分辨率圖像重建高分辨率圖像;聯(lián)合低分辨率圖像和重建圖像,模糊核及噪聲水平估計器對降質(zhì)參數(shù)進(jìn)行估計。其次,設(shè)計了迭代交替優(yōu)化策略,對圖像重建器、模糊核及噪聲水平估計器進(jìn)行端對端的聯(lián)合優(yōu)化,以使得圖像重建與降質(zhì)估計模塊相互兼容并互相促進(jìn)。得益于構(gòu)建的網(wǎng)絡(luò)及迭代交替優(yōu)化策略,提出方法在保持參數(shù)量和處理效率的同時,在多個公開測試集上都取得了出色的重建效果。后續(xù)研究將嘗試把本文方法拓展到其他圖像/視頻復(fù)原任務(wù)中。