劉微容,米彥春,楊帆,張彥,郭宏林,劉仲民
圖像修復(fù)是根據(jù)破損圖像的已知信息,利用計(jì)算機(jī)技術(shù)推斷出缺損區(qū)域像素的計(jì)算機(jī)視覺任務(wù),也稱為圖像補(bǔ)全. 圖像修復(fù)的總體目標(biāo)是重建語(yǔ)義上合理、視覺上逼真的完整圖像,其在遮擋區(qū)域去除、特定對(duì)象移除和珍貴歷史資料修復(fù)等方面均有重要的應(yīng)用價(jià)值[1].
在深度學(xué)習(xí)方法提出之前,圖像修復(fù)理論研究主要集中在基于擴(kuò)散的方法[2,3]和基于塊匹配的方法[4,7]. 基于擴(kuò)散的方法利用距離場(chǎng)機(jī)制將相鄰像素的外觀信息傳播到目標(biāo)區(qū)域,這種方法僅依賴于缺損區(qū)域周圍的像素值,因此只能修復(fù)小型破損;對(duì)于大面積受損圖像,會(huì)產(chǎn)生偽影及中心區(qū)域模糊的現(xiàn)象. 基于塊匹配的圖像修復(fù)方法,假設(shè)修復(fù)區(qū)域內(nèi)容可以從周圍已知區(qū)域找到,以迭代的方式從未缺損區(qū)域搜索相關(guān)塊復(fù)制到缺損區(qū)域. 但是,搜索過程往往伴隨大量的計(jì)算消耗,匹配速度緩慢. 為減少運(yùn)行時(shí)間,提高內(nèi)存效率,Barnes 等人[4]提出了隨機(jī)化搜索方法PatchMatch,可有效加快搜索速度、提升修復(fù)質(zhì)量.PatchMatch 方法憑借其優(yōu)越的背景修復(fù)能力被應(yīng)用于許多應(yīng)用程序中,例如經(jīng)典的Photoshop 商業(yè)軟件. 基于塊匹配的方法雖然在背景修復(fù)和重復(fù)性結(jié)構(gòu)修復(fù)任務(wù)中表現(xiàn)出優(yōu)越性能,但因其未借助高級(jí)語(yǔ)義信息來引導(dǎo)搜索過程,故難以應(yīng)用至人臉等高度模式化圖像的修復(fù)任務(wù)[8,10].
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Net?works,CNN)[11]和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[12]等深度學(xué)習(xí)方法的快速發(fā)展,基于CNN和GAN的編解碼網(wǎng)絡(luò)[11,13,16]從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)圖像的語(yǔ)義特征,捕獲缺損區(qū)域并利用已有特征重建完整圖像,實(shí)現(xiàn)了語(yǔ)義層面的合理修復(fù). 但是,基于編解碼的圖像修復(fù)方法在壓縮編碼過程中不可避免地存在信息丟失現(xiàn)象,單一的解碼網(wǎng)絡(luò)難以從壓縮后的少量信息中準(zhǔn)確重建出期望的結(jié)果,從而導(dǎo)致修復(fù)結(jié)果出現(xiàn)模糊或邊緣響應(yīng)等視覺偽影,嚴(yán)重影響視覺觀測(cè)效果(如圖1 所示). 因此,嚴(yán)重的信息丟失問題已成為制約編解碼圖像修復(fù)方法性能提升的技術(shù)瓶頸.
圖1 是否充分利用編碼部分信息修復(fù)結(jié)果對(duì)比
現(xiàn)有編解碼方法[11,13,16]對(duì)缺損區(qū)域的修復(fù)僅僅依賴于小尺度下的高級(jí)語(yǔ)義特征,忽略了在圖像編碼過程中可以產(chǎn)生豐富不同尺度特征的事實(shí),而大尺度下存在的邊緣信息在圖像紋理和細(xì)節(jié)的重建過程中可以起到至關(guān)重要的作用. 因此,針對(duì)信息利用不完備的問題,本文對(duì)編碼部分不同尺度特征施加多級(jí)解碼,并將其結(jié)果與主解碼器聚合以指導(dǎo)下一級(jí)特征的重建. 此外,進(jìn)一步利用注意力機(jī)制來增強(qiáng)對(duì)關(guān)鍵區(qū)域的關(guān)注度,以產(chǎn)生更真實(shí)的細(xì)節(jié)信息.
本文提出的多級(jí)解碼網(wǎng)絡(luò)(Multi-Stage Decoding Network,MSDN)基于不同尺度特征增強(qiáng)的機(jī)理,可有效解決圖像修復(fù)過程出現(xiàn)的模糊、邊緣響應(yīng)嚴(yán)重等影響視覺效果的問題.
本文的主要貢獻(xiàn)如下:
(1)提出了多級(jí)解碼網(wǎng)絡(luò)MSDN,設(shè)計(jì)了主、副解碼器,充分利用編碼部分不同尺度下的高低級(jí)特征,共同指導(dǎo)合成主解碼網(wǎng)絡(luò)的各尺度特征;
(2)提出了并行連接機(jī)制,將注意力轉(zhuǎn)移網(wǎng)絡(luò)以并聯(lián)的方式引入主解碼網(wǎng)絡(luò). 注意力轉(zhuǎn)移網(wǎng)絡(luò)從上一層特征中匹配復(fù)制到相似塊后,所得特征與上一層特征相結(jié)合,共同作用填充下一層特征缺損區(qū)域.
近幾年,基于深度學(xué)習(xí)的圖像修復(fù)方法逐漸被眾多科研工作者所關(guān)注,其修復(fù)目標(biāo)是:在已知待修復(fù)圖像ym的條件下,基于深度網(wǎng)絡(luò)具有的映射關(guān)系f(?),重建完整的圖像y?,如式(1)所示:
y?=f(ym;β) (1)
式中,β指網(wǎng)絡(luò)參數(shù).
圖像修復(fù)是一個(gè)不適定問題[17],即修復(fù)結(jié)果并不連續(xù)地依賴于已知輸入,一張缺損圖像可能對(duì)應(yīng)多個(gè)修復(fù)結(jié)果. 為了降低不適定性,需要在網(wǎng)絡(luò)訓(xùn)練時(shí)對(duì)待修復(fù)圖像施加一定先驗(yàn),利用先驗(yàn)知識(shí)來重建缺失內(nèi)容. 期望預(yù)訓(xùn)練網(wǎng)絡(luò)重建的完整圖像y?盡可能與原始圖像y相似,即損失函數(shù)最小,從而得到如式(2)所示優(yōu)化目標(biāo)函數(shù):
式中,β*指網(wǎng)絡(luò)修復(fù)性能最佳時(shí)的參數(shù)值,?k(?)指損失函數(shù),λk為各項(xiàng)損失函數(shù)的權(quán)衡參數(shù).
基于深度學(xué)習(xí)的圖像修復(fù)方法大多采用主流的編解碼網(wǎng)絡(luò)架構(gòu),其機(jī)理為對(duì)稱神經(jīng)網(wǎng)絡(luò)壓縮重構(gòu)待修復(fù)圖像[18],如圖2所示. 編碼器將一張破損的圖像ym映射到低維的特征空間,再通過解碼器重建出完整圖像,實(shí)現(xiàn)了從缺損圖像到完整圖像的端到端映射[19].
圖2 帶有跳轉(zhuǎn)連接的編解碼網(wǎng)絡(luò)
上下文解碼(Context Encoder,CE)[13]網(wǎng)絡(luò)是首個(gè)采用自動(dòng)編解碼結(jié)構(gòu)的圖像修復(fù)方法,其通過卷積神經(jīng)網(wǎng)絡(luò)來填充64×64 的中心缺損,并使用L2像素級(jí)重建損失和對(duì)抗性損失訓(xùn)練網(wǎng)絡(luò)模型,取得了語(yǔ)義上可信的修復(fù)結(jié)果,然而CE[13]在生成精細(xì)紋理方面效果并不理想. 之后,Iizuka 等人[14]提出使用全局和局部判別器來生成全局圖像和局部圖像,并提出用擴(kuò)張卷積替換CE 中使用的通道級(jí)全連接層,有效提高了修復(fù)質(zhì)量,但是,該方法需要添加后處理步驟以加強(qiáng)邊界顏色的一致性.Yu等人[15]提出上下文注意力(Context Atten?tion,CA)機(jī)制,并將其應(yīng)用在細(xì)粒度網(wǎng)絡(luò),以搜索匹配與粗粒度網(wǎng)絡(luò)預(yù)測(cè)結(jié)果相似度最高的背景塊. 然而,注意力機(jī)制和細(xì)粒度網(wǎng)絡(luò)的串聯(lián)形式可能會(huì)使前一級(jí)匹配到的錯(cuò)誤信息向后傳遞,難以保證鄰域信息一致性[20].Liu 等人[21]將部分卷積引入圖像修復(fù)任務(wù),用部分卷積層更新掩碼,重新對(duì)卷積計(jì)算后的特征映射進(jìn)行歸一化,確保卷積濾波器將注意力集中在已知區(qū)域的有效信息,以處理不規(guī)則缺損區(qū)域.Wang 等人[22]提出一種生成式多列神經(jīng)網(wǎng)絡(luò)(Generative Multi-Column Convolutional Neural Network,GMCNN)架構(gòu),將三個(gè)編解碼器相并聯(lián),在訓(xùn)練階段采用隱式多樣化馬爾可夫隨機(jī)場(chǎng)正則化方案,提出用置信值驅(qū)動(dòng)的重建損失,根據(jù)空間位置施加不同約束,該方法在矩形掩碼和不規(guī)則掩碼下均表現(xiàn)出較好的修復(fù)性能.
以上所述方法均用到編碼-解碼的思想,但是多個(gè)編解碼器并聯(lián)或串聯(lián)的方式并不能從根本上解決信息丟失后重建的問題,模糊和明顯的邊緣響應(yīng)依舊是制約圖像修復(fù)效果的關(guān)鍵因素.
基于編解碼網(wǎng)絡(luò)的深度學(xué)習(xí)修復(fù)方法,提取自編碼階段的不同尺度特征必然包含由淺層到深層、由低級(jí)到高級(jí)的特征信息,但是單一的解碼器無法實(shí)現(xiàn)對(duì)編碼階段多尺度特征信息的綜合利用. 因此本文提出多級(jí)解碼網(wǎng)絡(luò),其在傳統(tǒng)編解碼網(wǎng)絡(luò)中引入多個(gè)副解碼器,將主流方法中被忽略的編碼階段信息遷移應(yīng)用至主解碼器中,實(shí)現(xiàn)對(duì)不同尺度特征信息的完整利用. 此外,本文以并聯(lián)的方式引入注意力轉(zhuǎn)移網(wǎng)絡(luò)(Attention Transfer Network,ATN),通過加權(quán)的方式消除一部分錯(cuò)誤,保證向后傳遞信息的正確性,以克服傳統(tǒng)串聯(lián)方式在搜索未缺損區(qū)域過程中匹配到錯(cuò)誤信息時(shí),不可避免地將錯(cuò)誤直接向后傳播的問題.
如圖3 所示,多級(jí)解碼網(wǎng)絡(luò)MSDN 由不可或缺的生成器G和判別器D共同構(gòu)成,其中生成器G將缺損圖像ym映射為完整圖像y?,判別器D用來判別完整圖像y?的真假. 基于經(jīng)典的生成對(duì)抗原理,G和D兩個(gè)網(wǎng)絡(luò)通過連續(xù)的“零和博弈”,最終達(dá)到納什平衡,得到最佳的網(wǎng)絡(luò)修復(fù)結(jié)果.
圖3 多級(jí)解碼網(wǎng)絡(luò)的生成器和判別器體系架構(gòu).
生成器G包含四個(gè)網(wǎng)絡(luò)模塊,分別為編碼器、主解碼器、副解碼器和注意力轉(zhuǎn)移網(wǎng)絡(luò). 編碼器和主解碼器組成基本的編解碼網(wǎng)絡(luò)架構(gòu). 副解碼器提取編碼階段不同尺度下所包含的語(yǔ)義及細(xì)節(jié)層面特征,并與主解碼器對(duì)應(yīng)尺度的特征相聚合. 此外,考慮到接近網(wǎng)絡(luò)末端的特征映射已恢復(fù)出大部分缺損內(nèi)容,包含更多細(xì)節(jié)信息,因此將ATN 并行連接到主解碼器的后三層,進(jìn)一步將相似塊從未缺損區(qū)域匹配復(fù)制到缺損區(qū)域.
判別器D是一個(gè)K層的全卷積網(wǎng)絡(luò),即譜歸一化馬爾科夫判別器(Spectral Normalized Markovian Discrimina?tor,SN-PatchGAN)[23].D映射輸出一個(gè)形狀為Rh*w*c的三維特征,其中h,w,c分別表示高度、寬度和數(shù)量,相當(dāng)于有h*w*c個(gè)小判別器同時(shí)工作,判別結(jié)果的可靠性增加.
本文提出的自動(dòng)編解碼網(wǎng)絡(luò)同樣包括編碼器和解碼器兩部分,但是不同于常見的編碼、解碼架構(gòu),此處將解碼器劃分為主解碼器和副解碼器,并且稱之為多級(jí)解碼器.
3.2.1 編碼器
如圖3 中生成器G所示,編碼器是一個(gè)L層的全卷積網(wǎng)絡(luò),通過連續(xù)的卷積操作對(duì)輸入圖像ym進(jìn)行逐級(jí)空間壓縮,提取到特征映射在壓縮編碼過程中,編碼器不僅能逐步提取到不同尺度的上下文信息,還可依據(jù)缺損區(qū)域周圍的信息初步填充缺損內(nèi)容.從依次提取到包含更多語(yǔ)義信息的高級(jí)特征,但同時(shí)也丟失了大量細(xì)節(jié)信息.
3.2.2 多級(jí)解碼器
多級(jí)解碼器主要包括一個(gè)主解碼器和多個(gè)副解碼器,均為反卷積網(wǎng)絡(luò)的疊加. 主解碼器網(wǎng)絡(luò)層數(shù)和編碼器保持一致,也為L(zhǎng),主要作用是逐層恢復(fù)出各尺度對(duì)應(yīng)的特征映射. 對(duì)于一個(gè)L層的主解碼器,各層的特征映射與編碼部分相對(duì)應(yīng),分別表示為主的形成僅依賴于編碼器中最后一層解碼器第一層特征映射
對(duì)于主解碼器中間第j(4 ≤j<L)層的特征,其聚合過程如圖4 所示. 首先由副解碼器將編碼部分不同尺度的特征在當(dāng)前尺度下解碼至與目標(biāo)大小相同,將所解碼的特征跟主解碼器解碼的特征相聚合,綜合考慮主副解碼器得到最終聚合后的目標(biāo),公式化如式(4).
圖4 不同尺度特征匯聚示意圖,其中黑色箭頭表示主解碼過程,紅色箭頭表示副解碼過程
其中,i?[4,L),呈遞增趨勢(shì),表示編碼器中間層索引;j?(L,4],呈遞減趨勢(shì),為主解碼器中間層索引.⊕表示通道維疊加操作,fd(?)表示對(duì)不同尺度特征進(jìn)行的反卷積操作,即解碼過程.
其中,fa(?)表示注意力模塊ATN對(duì)應(yīng)的操作.
已有方法引入注意力機(jī)制時(shí),都是將其串聯(lián)在網(wǎng)絡(luò)層間,如CA[15]和Pen-Net[24],然而串聯(lián)方式存在固有的弊端. 如圖5(a)所示,若紅色區(qū)域表示匹配到的錯(cuò)誤信息,串聯(lián)方式會(huì)導(dǎo)致網(wǎng)絡(luò)將錯(cuò)誤信息逐層向后傳遞,進(jìn)而產(chǎn)生錯(cuò)誤的修復(fù)結(jié)果. 因此,本文以并聯(lián)方式將注意力機(jī)制引入MSDN 中. 如圖5(b)所示,并聯(lián)模式的ATN 既能充分利用注意力轉(zhuǎn)移網(wǎng)絡(luò)強(qiáng)大的匹配復(fù)制能力,又能保證所傳遞信息的準(zhǔn)確性.
注意力轉(zhuǎn)移網(wǎng)絡(luò)[24,25]:注意力轉(zhuǎn)移網(wǎng)絡(luò)ATN 如圖6 所示,通過匹配計(jì)算缺損區(qū)域內(nèi)外塊之間的相關(guān)性,可將未缺損區(qū)域的內(nèi)容加權(quán)復(fù)制到缺損區(qū)域.
圖5 ATN的連接形式
圖6 注意力轉(zhuǎn)移網(wǎng)絡(luò)(ATN)
通常,缺損區(qū)域內(nèi)外的相關(guān)性用余弦相似性si,j來衡量:
獲得l層的注意力得分Cj,i后,便可用注意力得分加權(quán)的上下文指導(dǎo)填充l+1層特征圖中的漏洞:
其中,pl+1j是提取自第l+1 層缺損區(qū)域的第j個(gè)前景塊,缺損區(qū)域總共被劃分為N個(gè)小塊.
損失函數(shù)作為訓(xùn)練過程中非常關(guān)鍵的約束條件,主要目的是最小化原始圖像和重建圖像之間的差異.為了完成訓(xùn)練,首先組織訓(xùn)練樣本,給定n個(gè)真實(shí)樣本集合通過生成網(wǎng)絡(luò)G生成的樣本集合為依據(jù)Y和Y?之間不同類型的差異來定義損失函數(shù). 本文所提MSDN 中,損失函數(shù)包括三部分,如圖3 中灰色框所示,分別為生成對(duì)抗損失?GAN、重建損失?rec和特征匹配損失?FM,各項(xiàng)損失函數(shù)采用加權(quán)相加的形式:
其中λ1、λ2分別為重建損失、特征匹配損失的權(quán)衡參數(shù).
3.4.1 生成對(duì)抗損失
GAN 網(wǎng)絡(luò)在生成器G和判別器D相互博弈中進(jìn)行迭代優(yōu)化,生成對(duì)抗損失?GAN反映出生成網(wǎng)絡(luò)G生成的圖像與真實(shí)圖像之間的相似程度. 對(duì)抗損失懲罰并促使生成網(wǎng)絡(luò)G生成細(xì)節(jié)更為豐富的圖像,可以表示為:
?GAN=Eyi~pdata[logD(yi)]+Ey?i~pG[log(1-D(y?i))](10)其中,pdata和pG分別表示真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布,E為數(shù)學(xué)期望.
3.4.2 重建損失
為了保證圖像重建前后的一致性,本文引入重建損失?rec,主要包括像素級(jí)損失?1和VGG 損失?vgg.?1損失通過計(jì)算像素值的相似性保證像素級(jí)別的精確重建,?vgg約束語(yǔ)義信息實(shí)現(xiàn)高頻信息的精確表達(dá):
其中VGG 是一 個(gè)預(yù) 訓(xùn)練CNN 網(wǎng)絡(luò),VGGl(·)則為VGG16 網(wǎng)絡(luò)每個(gè)最大池化層之后第l個(gè)卷積層得到的特征映射.
3.4.3 特征匹配損失
為能有效解決生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)的梯度消失問題,本文引入特征匹配損失?FM. 特征匹配損失函數(shù)要求生成圖像和真實(shí)圖像在判別網(wǎng)絡(luò)中的特征中心靠近,通過比較判別器中間層的激活映射,迫使生成器生成與真實(shí)圖像相似的特征表示,從而穩(wěn)定訓(xùn)練過程[9,26,27]. 特征匹配損失?FM公式化表述如下:
其中K為判別器的卷積層數(shù),Dk為判別器D第k層的激活結(jié)果,Nk表示判別器D第k個(gè)卷積層激活后的元素個(gè)數(shù).
4.1.1 實(shí)驗(yàn)平臺(tái)及實(shí)驗(yàn)參數(shù)
本文所提方法MSDN在訓(xùn)練及測(cè)試中,使用的硬件平臺(tái)為Intel(R)Core(TM)i7-8700 CPU(3.2 GHz)和單個(gè)的NVIDIA TITAN Xp GPU(12 GB),軟件平臺(tái)為Ten?sorFlow 1.10.0.
在訓(xùn)練過程中,使用Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為1×10-4,后期再將其調(diào)整為1×10-5,用于對(duì)模型進(jìn)行微調(diào). 一階動(dòng)量和二階動(dòng)量分別被設(shè)為β1=0.5,β2=0.9. 對(duì)于損失函數(shù)的平衡參數(shù),經(jīng)多次調(diào)參后確定為λ1=1.2、λ2=0.01. 網(wǎng)絡(luò)設(shè)計(jì)時(shí),編碼器和主解碼器的卷積層均為L(zhǎng)=6;判別器中全卷積層數(shù)K也為6.
4.1.2 實(shí)驗(yàn)數(shù)據(jù)集及對(duì)比方法
在上述軟硬件平臺(tái)及參數(shù)設(shè)置下,分別在人臉數(shù)據(jù)集Celeba-HQ[28]、立體墻面數(shù)據(jù)集Facade[29]、場(chǎng)景圖像數(shù)據(jù)集Places2[30]以及自行組織的壁畫數(shù)據(jù)集Mural 上進(jìn)行訓(xùn)練及測(cè)試. 分批將各數(shù)據(jù)集下的圖像送入網(wǎng)絡(luò),每批次送6 張,訓(xùn)練和測(cè)試所用圖片大小均為256×256. 訓(xùn)練集及測(cè)試集的樣本量劃分如表1所示.
表1 訓(xùn)練集、測(cè)試集劃分
本文采用以下四種主流的圖像修復(fù)方法跟所提出的MSDN方法進(jìn)行對(duì)比:
PatchMatch[4]:一個(gè)典型的基于塊的方法,從周圍已知環(huán)境中尋找相似塊復(fù)制到缺損區(qū)域,被應(yīng)用于常見的圖像處理軟件中.
CA[15]:一種分為粗細(xì)精度兩階段訓(xùn)練的模型,采用兩個(gè)編解碼器串聯(lián)的形式,在細(xì)精度網(wǎng)絡(luò)中使用上下文注意力機(jī)制.
GMCNN[22]:一種生成式多列神經(jīng)網(wǎng)絡(luò)架構(gòu),采用三個(gè)編解碼器并聯(lián)的形式.
Pen-Net[24]:一種基于U-Net[31]架構(gòu)的金字塔式圖像修復(fù)方法,采用“由深到淺,多次補(bǔ)全”的策略修復(fù)受損圖像.
4.1.3 評(píng)價(jià)指標(biāo)
為了客觀評(píng)價(jià)先進(jìn)方法CA[15],GMCNN[22]以及本文提出的MSDN 方法的修復(fù)效果,在相同的實(shí)驗(yàn)條件下,采用以下幾種客觀指標(biāo)來評(píng)價(jià)重建質(zhì)量:
(1)峰值 信噪 比(Peak Signal-to-Noise Ratio,PSNR)[32]通過圖像之間最大可能像素值Z和均方誤差MSE來定義:
其中,Z取值255,PSNR 的值通常在20 到40 之間,越高表示重建圖像質(zhì)量越好.
(2)結(jié)構(gòu)相似度(Structural SIMilarity,SSIM)[33]是在比較圖像亮度、對(duì)比度特性的基礎(chǔ)上,衡量圖像之間的結(jié)構(gòu)相似度.
其中,μ和σ分別表示圖像像素強(qiáng)度的均值和方差;C1=(k1Z)2,C2=(k2Z)2為保持穩(wěn)定的常數(shù),k1?1且k2?1,Z是可能的最大像素值,通常情況下取值為255.
(3)弗雷切特起始距離(Frechet Inception Distance,F(xiàn)ID)[34]是計(jì)算真實(shí)圖像與修復(fù)圖像特征向量之間距離的性能指標(biāo).FID分?jǐn)?shù)越低,生成圖像質(zhì)量越好,與原圖相似性越高.
(4)L1損失[35]通過計(jì)算重建圖像與原始圖像絕對(duì)差值的總和,來評(píng)判兩張圖像在像素層面的相似性.
該小節(jié)針對(duì)不同修復(fù)方法所得修復(fù)結(jié)果,從主觀、客觀以及用戶研究三方面來對(duì)比分析各方法的優(yōu)劣.由于MSDN 在多級(jí)解碼過程中實(shí)現(xiàn)了高級(jí)語(yǔ)義特征指導(dǎo)下對(duì)低級(jí)紋理細(xì)節(jié)特征的重建,因此得到了較為滿意的評(píng)價(jià)結(jié)果.
4.2.1 定性評(píng)價(jià)
4.2.1.1 不規(guī)則缺損下修復(fù)結(jié)果分析
以下分別在Celeba-HQ、Fa?ade、Places2 三個(gè)數(shù)據(jù)集上討論各算法的修復(fù)性能.
在人臉數(shù)據(jù)集Celeba-HQ[25]上,使用不同算法得到的修復(fù)結(jié)果如圖7 所示. 相對(duì)于PatchMatch[4]修復(fù)方法,MSDN 生成的圖像語(yǔ)義上更加合理,避免了Patch?Match 因匹配錯(cuò)誤而產(chǎn)生錯(cuò)誤結(jié)果的情況. 與CA[15]生成的結(jié)果相比,MSDN 基本消除了修復(fù)區(qū)域模糊和扭曲的現(xiàn)象,生成結(jié)果更加平滑、實(shí)現(xiàn)了從破損區(qū)域到未破損區(qū)域的完美過渡.GMCNN[22]在待修復(fù)區(qū)域面積較小的情況下,修復(fù)性能優(yōu)越,但對(duì)于較大面積的缺損,其表現(xiàn)出水波紋狀的視覺模糊,影響圖像整體觀測(cè)效果.
在立體墻面數(shù)據(jù)集Facade[29]上的修復(fù)效果對(duì)比如圖8 所示. 塊匹配方法PatchMatch[4]在某些內(nèi)容重復(fù)性較強(qiáng)的圖像修復(fù)任務(wù)中表現(xiàn)出很好的性能,如圖8(b)上圖,但由于缺乏對(duì)圖像整體語(yǔ)義的理解,會(huì)出現(xiàn)信息匹配 錯(cuò)誤 的情 況,如圖8(b)下圖 所示. CA[15]和GMCNN[22]在小面積缺損時(shí)均能重建出完整的缺失內(nèi)容,待修復(fù)區(qū)域面積較大時(shí),仍然會(huì)出現(xiàn)修復(fù)錯(cuò)誤和模糊的情況,如圖8(c)、(d)所示. 本文所提方法MSDN 整體性能較為穩(wěn)定,不會(huì)因待修復(fù)圖像結(jié)構(gòu)、缺損面積大小而影響到修復(fù)效果.
圖7 不同方法在CelebA-HQ數(shù)據(jù)集上的重建效果圖
圖8 不同方法在Facade數(shù)據(jù)集上的重建效果圖,放大觀察效果更佳
不同算法在自然場(chǎng)景圖像數(shù)據(jù)集Place2[30]上的修復(fù)效果如圖9 所示,對(duì)于背景重復(fù)性自然場(chǎng)景圖像,PatchMatch[4]和MSDN 修復(fù)效果基本持平,如圖9(b)、(e)的上圖. 但對(duì)于內(nèi)容復(fù)雜的缺損圖像而言,Patch?Match 修復(fù)性能驟減,如圖9(b)下圖所示,而MSDN 依然可以修復(fù)出連續(xù)性較強(qiáng)的缺失內(nèi)容,如圖9(e)下圖所示. CA[15]修復(fù)區(qū)域內(nèi)外一致性差的問題在Places2數(shù)據(jù)集中表現(xiàn)的依舊很明顯,嚴(yán)重影響到圖像的觀測(cè)效果. 同樣,GMCNN[22]修復(fù)大面積缺損時(shí)出現(xiàn)的水波紋狀模糊現(xiàn)象在此并未得以改善,如圖9(c)所示.
除了在公認(rèn)數(shù)據(jù)集Celeba-HQ[28]、Facade[29]、Plac?es2[30]上進(jìn)行的性能驗(yàn)證外,我們還將所提方法MSDN擴(kuò)展應(yīng)用到壁畫圖像修復(fù)任務(wù)中. 在自行組織的壁畫數(shù)據(jù)集Mural上觀測(cè)其重建效果,視覺展示如圖10所示. 從圖中可知,MSDN在修復(fù)壁畫圖像時(shí),基本實(shí)現(xiàn)了對(duì)缺損區(qū)域細(xì)節(jié)的重現(xiàn),得到了視覺上完整、語(yǔ)義上合理的修復(fù)結(jié)果.
圖9 不同方法在Places2數(shù)據(jù)集上的重建效果圖
圖10 MSDN在Mural數(shù)據(jù)集上的重建效果圖
4.2.1.2 矩形缺損時(shí)修復(fù)結(jié)果分析
為了進(jìn)一步驗(yàn)證本文所提方法MSDN 在矩形缺損下的修復(fù)效果,在人臉數(shù)據(jù)集Celeba-HQ[28]上重新訓(xùn)練網(wǎng)絡(luò)并進(jìn)行相應(yīng)測(cè)試,并與2019 年CVPR 中Zeng 等人所提方法Pen-Net[24]進(jìn)行矩形掩碼下的修復(fù)效果對(duì)比.如圖11 所示,圖11(a)~(d)依次表示待修復(fù)圖像、Pen-Net[24]修復(fù)結(jié)果、MSDN 修復(fù)結(jié)果和原圖. 由圖可知,Pen-Net[24]修復(fù)出的人臉圖像趨于模糊,修復(fù)區(qū)域邊緣出現(xiàn)色差、過度不連續(xù)等問題,主要表現(xiàn)在嘴唇部分.而MSDN 修復(fù)的人臉圖像五官清晰,色彩一致性較好,僅通過肉眼已難以分辨出原圖還是修復(fù)后的圖像.
4.2.2 定量評(píng)價(jià)
對(duì)于測(cè)試集中的每一張圖片,我們?cè)O(shè)置了大小不同的缺損區(qū)域,即不同比例的掩碼面積,并使用三種不同的圖像修復(fù)方法得到對(duì)應(yīng)的修復(fù)結(jié)果. 為了量化模型性能,表2 列出了用不同方法修復(fù)破損圖像的客觀評(píng)價(jià)分值,分別使用標(biāo)準(zhǔn)度量指標(biāo)PSNR,SSIM,F(xiàn)ID,L1-loss來計(jì)算修復(fù)后的圖像與原圖之間的相似性及差異. 總體而言,本文提出的MSDN 在四個(gè)度量指標(biāo)下均優(yōu)于CA[15]和GMCNN[22]. 該結(jié)果說明MSDN 相對(duì)于主流的編解碼網(wǎng)絡(luò),修復(fù)效果有明顯提升,尤其是在人臉圖像的修復(fù)中,這是因?yàn)镸SDN加強(qiáng)了對(duì)結(jié)構(gòu)化信息的關(guān)注度.
圖11 Pen-Net(b)及MSDN(c)在Celeba-HQ數(shù)據(jù)集上的重建效果圖
4.2.3 用戶研究
對(duì)圖像修復(fù)效果的評(píng)價(jià)一般以主觀為主,因此本文進(jìn)行了用戶研究以量化主觀評(píng)價(jià). 我們從每個(gè)測(cè)試集隨機(jī)選取出100張圖像,在不同范圍的掩碼下獲得三種方法(CA[15],GMCNN[22],MDSN)的修復(fù)結(jié)果. 按照掩碼大小將900 張圖像分三批展示給實(shí)驗(yàn)小組中的24個(gè)成員(有10個(gè)成員從事圖像方面的研究,14個(gè)不曾接觸過),每次展示三張由不同方法得到的順序混亂的圖像,在不限制時(shí)間的前提下讓評(píng)分員對(duì)每張圖片打分,分值范圍0~10.
最后分批求出24個(gè)評(píng)分員對(duì)不同方法所得圖像打分的均值,并列出圖12 所示的分值統(tǒng)計(jì)圖. 由圖可知,在不同比例的缺損面積下,本文提出的MSDN所得結(jié)果用戶認(rèn)可度高.
表2 各種方法的定量評(píng)價(jià)結(jié)果(不規(guī)則掩碼).
↑表示越大越好,↓表示越小越好.每組實(shí)驗(yàn)最好的評(píng)價(jià)結(jié)果已在表中用粗體標(biāo)出.
圖12 用戶研究結(jié)果統(tǒng)計(jì)圖
為了進(jìn)一步說明并行連接ATN 的有效性,分別組織實(shí)驗(yàn)驗(yàn)證去除ATN 以及串行連接ATN 時(shí)的修復(fù)效果,并與本文中的并行連接方式所得結(jié)果進(jìn)行對(duì)比,如圖13 所示. 其中,圖13(a)為輸入的待修復(fù)圖像,圖13(b)~(d)分別表示無ATN 時(shí)的修復(fù)結(jié)果及串行、并行連接ATN 后的修復(fù)結(jié)果,e列為原始圖像. 由圖13(b)可知,無ATN 時(shí),修復(fù)結(jié)果雖然具備較好的內(nèi)外一致性,但在缺損嚴(yán)重的區(qū)域會(huì)出現(xiàn)模糊現(xiàn)象,如圖13(b)上圖的修復(fù)結(jié)果,在修復(fù)內(nèi)容較為復(fù)雜時(shí),甚至?xí)憩F(xiàn)出修復(fù)結(jié)果錯(cuò)誤、扭曲的現(xiàn)象,如圖13(b)下圖的修復(fù)結(jié)果.串行連接ATN 后,網(wǎng)絡(luò)整體性能有一定提升,但模糊和結(jié)果錯(cuò)誤的問題并未得到徹底解決,如圖13(c)所示.ATN 的并聯(lián)方式通過抵消一部分匹配到的錯(cuò)誤信息,有效解決了無ATN 及串聯(lián)ATN 時(shí)出現(xiàn)的修復(fù)區(qū)域模糊、匹配信息錯(cuò)誤的問題,如圖13(d)所示.
圖13 注意力轉(zhuǎn)移網(wǎng)絡(luò)消融對(duì)比實(shí)驗(yàn)效果圖
本文提出了一種多級(jí)解碼網(wǎng)絡(luò)MSDN,由副解碼器對(duì)編碼階段各尺度特征進(jìn)行解碼,獲得不同尺度的特征表示,并將其聚合至主解碼器,共同指導(dǎo)下一級(jí)特征的重建. 此外,本文以并聯(lián)的方式將注意力機(jī)制引入主解碼器,重建出更精確、視覺效果更佳的預(yù)測(cè)結(jié)果. 通過大量實(shí)驗(yàn)證明,MSDN 可有效生成細(xì)節(jié)豐富、邊緣過渡平滑、視覺上逼真的完整圖像.