楊紅菊,李麗琴,王鼎
1. 山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006; 2. 山西大學(xué)計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原 030006
近年來,圖像修復(fù)已成為計(jì)算機(jī)視覺中的一項(xiàng)重要任務(wù),在圖像編輯、文物保護(hù)和老照片修復(fù)(Zhang和Chang,2021;Wan等,2020)等工作中有著廣泛應(yīng)用。成功修復(fù)的圖像在缺失區(qū)域應(yīng)該與其他區(qū)域表現(xiàn)出結(jié)構(gòu)和紋理的一致性,然而當(dāng)缺失區(qū)域較大時(shí),現(xiàn)有方法通常難以產(chǎn)生看起來自然且與其他區(qū)域一致的圖像結(jié)構(gòu)(強(qiáng)振平 等,2019;Elharrouss等,2020)。
圖像修復(fù)方法可分為傳統(tǒng)方法和深度學(xué)習(xí)方法兩類。傳統(tǒng)方法使用低級(jí)特征修復(fù)圖像,包括基于擴(kuò)散和基于補(bǔ)丁的技術(shù)?;跀U(kuò)散的方法通過求解偏微分方程,將梯度等關(guān)鍵信息從已知區(qū)域傳播到未知區(qū)域(Ballester等,2001;Bertalmio等,2000;張桂梅和李艷兵,2019);基于補(bǔ)丁的方法從鄰域中搜索相似的補(bǔ)丁,然后將這些補(bǔ)丁復(fù)制到缺失區(qū)域并融合(Kwatra等,2005)?;谘a(bǔ)丁的方法在計(jì)算補(bǔ)丁之間的相似度時(shí)通常消耗大量計(jì)算資源,因此,Barnes等人(2009)提出一種快速最近鄰搜索算法PatchMatch,以降低計(jì)算成本。傳統(tǒng)方法雖然可以生成逼真的紋理,但由于無法理解圖像的高級(jí)語義,面對(duì)復(fù)雜修復(fù)任務(wù)時(shí),往往不能產(chǎn)生合理的結(jié)果?;谏疃葘W(xué)習(xí)的圖像修復(fù)方法可以從大量數(shù)據(jù)中學(xué)習(xí)到圖像的高級(jí)語義信息,這是傳統(tǒng)修復(fù)方法難以做到的。Pathak等人(2016)首次將生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)(Goodfellow等,2014)應(yīng)用于圖像修復(fù)任務(wù),使用一個(gè)編解碼器網(wǎng)絡(luò)作為生成器,從原始圖像中提取特征填充缺失區(qū)域。該方法能夠利用高級(jí)語義信息產(chǎn)生有意義的結(jié)構(gòu)與內(nèi)容,但是修復(fù)結(jié)果包含視覺偽影。Iizuka等人(2017)提出使用聯(lián)合的全局和局部鑒別器提高圖像修復(fù)結(jié)果的一致性,通過添加膨脹卷積層增加感受野,并使用泊松融合細(xì)化圖像,從而產(chǎn)生更清晰的結(jié)果。然而,這種方法嚴(yán)重依賴后期的泊松融合,且訓(xùn)練比較耗時(shí)。Liu等人(2018)和Yu等人(2019)設(shè)計(jì)了特殊的卷積層,使網(wǎng)絡(luò)能夠修復(fù)不規(guī)則掩膜遮擋的圖像。Wadhwa等人(2021)將超圖卷積引入空間特征,學(xué)習(xí)數(shù)據(jù)之間的復(fù)雜關(guān)系。包括上述方法在內(nèi)的很多基于端到端的深度學(xué)習(xí)圖像修復(fù)方法直接預(yù)測(cè)完整的圖像,在面對(duì)復(fù)雜的結(jié)構(gòu)缺失時(shí),由于缺乏足夠的約束信息,往往會(huì)產(chǎn)生邊界模糊和結(jié)構(gòu)扭曲的圖像,無法獲得令人滿意的修復(fù)結(jié)果。
圖像邊緣包含豐富的結(jié)構(gòu)信息。對(duì)此,人們提出了多種利用邊緣信息改善圖像修復(fù)質(zhì)量的方法。Nazeri等人(2019)提出以邊緣預(yù)測(cè)信息為先驗(yàn),指導(dǎo)生成最終的圖像。Li等人(2019)提出通過漸進(jìn)方式不斷修復(fù)缺失區(qū)域的邊緣信息,提高邊緣預(yù)測(cè)的準(zhǔn)確性。然而,邊緣結(jié)構(gòu)丟失了大量的區(qū)域信息,且邊緣與語義結(jié)構(gòu)之間不明確的從屬關(guān)系往往導(dǎo)致生成錯(cuò)誤的邊緣結(jié)構(gòu),從而誤導(dǎo)圖像的最終修復(fù)。
針對(duì)這個(gè)問題,本文提出利用語義分割信息指導(dǎo)邊緣重建,從而減少邊緣重建錯(cuò)誤,并利用語義分割結(jié)構(gòu)與邊緣結(jié)構(gòu)聯(lián)合指導(dǎo)圖像紋理細(xì)節(jié)的修復(fù),進(jìn)一步提高圖像修復(fù)質(zhì)量。具體地,將圖像修復(fù)分解為語義分割重建、邊緣重建和內(nèi)容補(bǔ)全3個(gè)階段,這與繪畫時(shí)先繪制輪廓,然后繪制更細(xì)致的邊緣,最后補(bǔ)全紋理和色彩的思路是一致的。在CelebAMask-HQ(celebfaces attributes mask high quality)(Liu等,2015)和Cityscapes數(shù)據(jù)集(Cordts等,2016)上將本文方法與其他先進(jìn)方法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明,當(dāng)修復(fù)任務(wù)涉及復(fù)雜的結(jié)構(gòu)缺失時(shí),本文方法具有更高的修復(fù)質(zhì)量。
圖像修復(fù)是指輸入受損圖像Iin,其受損區(qū)域表示為二值掩膜M(1表示缺失區(qū)域,0表示非缺失區(qū)域),目的是預(yù)測(cè)完整的圖像Ip,使其與真實(shí)圖像Igt盡可能相似。本文設(shè)計(jì)了一個(gè)3階段生成對(duì)抗網(wǎng)絡(luò)來實(shí)現(xiàn)受損圖像的修復(fù),模型整體框架如圖1所示。模型包含語義分割重建模塊、邊緣重建模塊和內(nèi)容補(bǔ)全模塊,每個(gè)模塊都由一對(duì)生成器和鑒別器組成,其中GS、GE和GI分別為3個(gè)模塊的生成器,DS、DE和DI分別為3個(gè)模塊的鑒別器。首先,語義分割重建模塊預(yù)測(cè)受損圖像的完整語義分割結(jié)構(gòu)。然后,邊緣重建模塊在重建的語義分割結(jié)構(gòu)指導(dǎo)下,預(yù)測(cè)受損圖像的完整邊緣結(jié)構(gòu)。最后,前兩階段重建的語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)聯(lián)合指導(dǎo)內(nèi)容補(bǔ)全模塊,修復(fù)缺失區(qū)域的紋理與色彩。
語義分割可以使圖像簡(jiǎn)化,其結(jié)果能夠很好地表示圖像全局語義結(jié)構(gòu)?,F(xiàn)有的很多基于深度生成模型的修復(fù)方法由于沒有利用語義分割結(jié)構(gòu)來約束對(duì)象形狀,通常導(dǎo)致邊界上的模糊結(jié)果。語義分割重建模塊通過重建缺失區(qū)域的語義分割信息來指導(dǎo)后續(xù)的圖像修復(fù),有助于語義不同的區(qū)域之間生成更清晰的恢復(fù)邊界。
圖2為語義分割重建模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖,邊緣重建模塊和內(nèi)容補(bǔ)全模塊的網(wǎng)絡(luò)結(jié)構(gòu)與之類似。如圖2所示,語義分割重建模塊的網(wǎng)絡(luò)結(jié)構(gòu)基于生成式對(duì)抗網(wǎng)絡(luò),包括生成器和鑒別器兩部分。其中生成器網(wǎng)絡(luò)使用編解碼器結(jié)構(gòu),從左到右依次為兩次下采樣的編碼器、8個(gè)殘差塊(He等,2016)和將圖像上采樣回原始大小的解碼器。在殘差層中,使用膨脹系數(shù)為2的膨脹卷積代替普通卷積,從而在最終殘差塊處產(chǎn)生205×205像素的感受野。鑒別器網(wǎng)絡(luò)使用70×70像素的PatchGAN(patch generative adversarial networks)結(jié)構(gòu)(Isola等,2017;Zhu等,2017),它決定了70×70像素的重疊圖像補(bǔ)丁是否真實(shí)。譜歸一化(Miyato等,2018)通過將權(quán)重矩陣按其最大奇異值進(jìn)行縮放來進(jìn)一步穩(wěn)定訓(xùn)練,有效地將網(wǎng)絡(luò)的Lipschitz常數(shù)限制為1。雖然譜歸一化最初提出時(shí)僅用于鑒別器,但Odena等人(2018)的研究表明,生成器也可以通過抑制參數(shù)和梯度值的突然變化從譜歸一化中獲益,因此本文將譜歸一化應(yīng)用于生成器和鑒別器。
圖2 語義分割重建模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of the semantic segmentation reconstruction module
真實(shí)圖像Igt對(duì)應(yīng)語義分割結(jié)構(gòu)為Sgt,語義分割生成器GS輸入受損圖像Iin=Igt⊙(1-M)、受損圖像的語義分割結(jié)構(gòu)Sin=Sgt⊙(1-M)和不規(guī)則掩膜M,輸出預(yù)測(cè)語義分割結(jié)構(gòu)Sp,⊙表示哈達(dá)瑪乘積。生成器GS的預(yù)測(cè)過程具體為
Sp=GS(Iin,Sin,M)
(1)
(2)
(3)
(4)
邊緣是圖像發(fā)生變化最顯著的部分,邊緣兩側(cè)灰度、亮度、顏色和紋理等特征會(huì)發(fā)生突變,因此邊緣包含豐富的結(jié)構(gòu)信息。正確的邊緣結(jié)構(gòu)可以有效指導(dǎo)圖像修復(fù),然而現(xiàn)有模型直接預(yù)測(cè)缺失區(qū)域的邊緣信息,往往會(huì)生成錯(cuò)誤的邊緣結(jié)構(gòu),最終誤導(dǎo)圖像修復(fù)。邊緣重建模塊通過引入語義分割結(jié)構(gòu)來指導(dǎo)邊緣結(jié)構(gòu)重建,可以提高邊緣重建的準(zhǔn)確性。
真實(shí)圖像Igt對(duì)應(yīng)邊緣結(jié)構(gòu)為Egt,邊緣生成器GE輸入受損圖像Iin、第1階段預(yù)測(cè)的語義分割結(jié)構(gòu)Sp、受損圖像的邊緣結(jié)構(gòu)Ein=Egt⊙(1-M)和不規(guī)則掩膜M,輸出預(yù)測(cè)邊緣結(jié)構(gòu)Ep。生成器GE的預(yù)測(cè)過程為
Ep=GE(Iin,Sp,Ein,M)
(5)
(6)
(7)
(8)
前兩個(gè)階段重建的語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)作為全局結(jié)構(gòu)信息,可以有效指導(dǎo)圖像缺失區(qū)域的補(bǔ)全。結(jié)構(gòu)與內(nèi)容分階段修復(fù),使內(nèi)容補(bǔ)全模塊只需要專注顏色紋理等細(xì)節(jié)信息的補(bǔ)全。
生成器GI輸入受損圖像Iin、預(yù)測(cè)的語義分割結(jié)構(gòu)Sp和邊緣結(jié)構(gòu)Ep以及不規(guī)則掩膜M,輸出預(yù)測(cè)圖像Ip。生成器GI預(yù)測(cè)過程可以表示為
Ip=GI(Iin,Sp,Ep,M)
(9)
(10)
重建損失表示為
(11)
生成對(duì)抗損失表示為
(12)
感知損失通過定義預(yù)先訓(xùn)練的網(wǎng)絡(luò)特征圖之間的距離度量,對(duì)感覺上與標(biāo)簽不相似的結(jié)果進(jìn)行懲罰。感知損失定義為
(13)
式中,Φi(I)表示圖像I在預(yù)訓(xùn)練網(wǎng)絡(luò)第i層的輸出特征圖,在本文中對(duì)應(yīng)于在ImageNet數(shù)據(jù)集(Russakovsky等,2015)上預(yù)訓(xùn)練的VGG-19網(wǎng)絡(luò)relu1_1、relu2_1、relu3_1、relu4_1和relu5_1層的輸出特征圖。這些特征圖也用于計(jì)算風(fēng)格損失,風(fēng)格損失測(cè)量特征圖協(xié)方差之間的差異。給定大小為Cj×Hj×Wj的特征圖,風(fēng)格損失定義為
(14)
實(shí)驗(yàn)采用的圖像數(shù)據(jù)集為帶語義分割標(biāo)簽的CelebAMask-HQ和Cityscapes數(shù)據(jù)集。CelebAMask-HQ數(shù)據(jù)集是從CelebA(celebfaces attributes)數(shù)據(jù)集中選擇了30 000幅高分辨率面部圖像進(jìn)行像素級(jí)標(biāo)注,共19個(gè)類別,包括背景、眼睛、帽子、眼鏡、耳環(huán)等。本文將30 000幅圖像隨機(jī)劃分為27 000幅訓(xùn)練圖像和3 000幅測(cè)試圖像。Cityscapes數(shù)據(jù)集是交通視圖的語義分割圖像數(shù)據(jù)集,包含50個(gè)城市的街道場(chǎng)景中駕駛視角的高質(zhì)量像素級(jí)標(biāo)注圖像,共35個(gè)類別,包括道路、建筑、天空、人、車輛等,實(shí)驗(yàn)使用其中2 975幅訓(xùn)練圖像進(jìn)行訓(xùn)練,500幅驗(yàn)證圖像進(jìn)行測(cè)試。
本文使用從Liu等人(2018)工作中獲得的不規(guī)則掩膜數(shù)據(jù)集,部分掩膜如圖3所示。掩膜根據(jù)其相對(duì)于整個(gè)圖像大小的面積比(例如0-10%、10%-20%)進(jìn)行分類,共包含55 116幅訓(xùn)練圖像和12 000幅測(cè)試圖像。
圖3 掩膜數(shù)據(jù)集示例樣本Fig.3 Samples of irregular mask dataset
圖4為數(shù)據(jù)集的預(yù)處理結(jié)果,從左到右依次是原始圖像、受損圖像以及受損圖像的語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)。如圖4所示,將不規(guī)則掩膜遮擋在原始真實(shí)圖像及其語義分割圖像上,獲得待修復(fù)受損圖像和受損語義分割圖像,使用Canny邊緣檢測(cè)器獲得受損圖像的邊緣結(jié)構(gòu)圖像。Canny邊緣檢測(cè)器的靈敏度由高斯平滑濾波器σ的標(biāo)準(zhǔn)差控制,從Nazeri等人(2019)的研究可知,σ≈2可以產(chǎn)生較好的結(jié)果。
圖4 數(shù)據(jù)集預(yù)處理Fig.4 Dataset preprocessing
實(shí)驗(yàn)基于深度學(xué)習(xí)框架pytorch實(shí)現(xiàn),GPU為NVIDIA1080Ti顯卡,批處理大小為8,使用Adam優(yōu)化器優(yōu)化目標(biāo)函數(shù)。為了與現(xiàn)有的先進(jìn)方法進(jìn)行公平比較,采用256×256像素的圖像。3個(gè)模塊單獨(dú)進(jìn)行訓(xùn)練,首先設(shè)置生成器的學(xué)習(xí)率為10-4,鑒別器的學(xué)習(xí)率為10-5,使用圖像的語義分割標(biāo)簽訓(xùn)練語義分割重建模塊,使用Canny算子生成的邊緣標(biāo)簽訓(xùn)練邊緣重建模塊,使用真實(shí)圖像標(biāo)簽訓(xùn)練內(nèi)容補(bǔ)全模塊,直至損失平穩(wěn)。然后調(diào)整生成器的學(xué)習(xí)率為10-5,鑒別器的學(xué)習(xí)率為10-6,繼續(xù)微調(diào)模型直至損失平穩(wěn)。
3.1.1 語義分割重建結(jié)果定量分析
使用語義分割中常用的像素精度(pixel accuracy,PA)和平均交并比(mean intersection over union,MIoU)來評(píng)估語義分割重建模塊的性能。其中,PA為標(biāo)記正確的像素占總像素的百分比,MIoU為真實(shí)語義分割與預(yù)測(cè)語義分割結(jié)果之間的交并比,兩個(gè)指標(biāo)值越高,表示重建的語義分割結(jié)構(gòu)與真實(shí)語義分割結(jié)構(gòu)越相似。
表1是語義分割重建模塊在兩個(gè)數(shù)據(jù)集上重建語義分割結(jié)構(gòu)的定量結(jié)果??梢钥闯?,在兩個(gè)數(shù)據(jù)集上,隨著掩膜比例的增大,重建結(jié)構(gòu)的PA和MIoU均呈下降趨勢(shì),但依然保持較高的預(yù)測(cè)性能。該實(shí)驗(yàn)的目的不是為了獲得最佳的指標(biāo)性能,而是為了展示語義分割重建模塊的重建結(jié)果與真實(shí)語義分割結(jié)構(gòu)的相似程度。需要注意的是,與一般語義分割解決識(shí)別分類任務(wù)不同,語義分割重建模塊是預(yù)測(cè)缺失區(qū)域的像素級(jí)語義分割,因此二者的指標(biāo)性能之間不具有可比性。
表1 語義分割重建的定量結(jié)果Table 1 Quantitative results of semantic segmentation reconstruction
3.1.2 邊緣重建結(jié)果定量分析
通過實(shí)驗(yàn)驗(yàn)證本文關(guān)鍵假設(shè):語義分割結(jié)構(gòu)有助于提高邊緣結(jié)構(gòu)重建的準(zhǔn)確性。
表2為有、無語義分割結(jié)構(gòu)指導(dǎo)情況下,重建的邊緣結(jié)構(gòu)在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率和召回率比較??梢钥闯?,有語義分割指導(dǎo)的邊緣重建性能明顯優(yōu)于無語義分割指導(dǎo),說明相較于直接預(yù)測(cè)邊緣結(jié)構(gòu)的方法,本文方法在語義分割結(jié)構(gòu)的指導(dǎo)下預(yù)測(cè)邊緣結(jié)構(gòu),可以有效減少邊緣重建錯(cuò)誤。
表2 邊緣重建結(jié)果定量比較Table 2 Quantitative comparison of edge reconstruction results
本文設(shè)計(jì)的3階段生成對(duì)抗網(wǎng)絡(luò)的3個(gè)階段層層遞進(jìn),前一階段的修復(fù)結(jié)果會(huì)直接影響后續(xù)階段的修復(fù)效果,所以3個(gè)階段都必須能夠完成各階段設(shè)計(jì)的相應(yīng)任務(wù),本文模型的各階段修復(fù)效果如圖5所示。
圖5(a)為模型第1階段修復(fù)效果,從左到右依次是受損語義分割結(jié)構(gòu)、重建語義分割結(jié)構(gòu)和真實(shí)語義分割結(jié)構(gòu)??梢钥闯?,對(duì)于結(jié)構(gòu)簡(jiǎn)單的人臉圖像,眼睛、鼻子和嘴巴等部位在絕大部分遮擋情況下,重建的結(jié)構(gòu)在視覺上依然合理。在結(jié)構(gòu)復(fù)雜的街景語義圖像上也成功重建出缺失的道路、行人和汽車等語義分割結(jié)構(gòu)。語義分割重建模塊可以重建圖像缺失區(qū)域的合理語義分割結(jié)構(gòu),重建的語義分割結(jié)構(gòu)在視覺上都較為合理,且與真實(shí)語義分割結(jié)構(gòu)相似。
圖5(b)為模型第2階段修復(fù)效果,從左到右依次是受損邊緣結(jié)構(gòu)、重建邊緣結(jié)構(gòu)和真實(shí)邊緣結(jié)構(gòu)??梢钥闯?,對(duì)于人臉圖像,邊緣重建模塊可以重建出遮擋區(qū)域較為合理的人臉邊緣、眼睛邊緣和頭發(fā)邊緣等信息,并且在第1階段重建語義分割結(jié)構(gòu)指導(dǎo)下,生成了與圖5(a)中語義分割結(jié)構(gòu)相一致的邊緣結(jié)構(gòu)(如臉的輪廓、耳環(huán)和牙齒等)。在邊緣結(jié)構(gòu)復(fù)雜的城市景觀邊緣缺失圖像上也重建出了合理的街道、汽車和樹等的邊緣結(jié)構(gòu)。邊緣重建模塊可以重建出較為真實(shí)合理的邊緣結(jié)構(gòu),指導(dǎo)第3階段的內(nèi)容補(bǔ)全。
圖5(c)為模型第3階段修復(fù)效果,從左到右依次是受損圖像、最終修復(fù)結(jié)果和原始圖像??梢钥闯?,對(duì)于人臉圖像,在語義分割結(jié)構(gòu)與邊緣結(jié)構(gòu)的指導(dǎo)下,內(nèi)容補(bǔ)全模塊生成的圖像與第1、2階段的修復(fù)結(jié)果結(jié)構(gòu)上保持一致,并且較為真實(shí)地補(bǔ)全了缺失的圖像內(nèi)容(如眼睛、鼻子和人臉皮膚等)。補(bǔ)全的圖像與原始圖像相比,眼袋消失、增加了沒有露出的牙齒,但在視覺上仍然自然合理。對(duì)于復(fù)雜的城市景觀圖像,內(nèi)容補(bǔ)全模塊同樣生成了真實(shí)合理的汽車、影子和建筑等內(nèi)容,沒有產(chǎn)生結(jié)構(gòu)缺失和過于模糊的結(jié)果。在語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)的聯(lián)合指導(dǎo)下,內(nèi)容補(bǔ)全模塊能夠?qū)θ笔^(qū)域的紋理色彩等細(xì)節(jié)做出合理預(yù)測(cè),產(chǎn)生視覺上真實(shí)的修復(fù)結(jié)果。
圖5 各階段的修復(fù)效果Fig.5 Inpainting effects of each stage ((a) the first stage;(b) the second stage;(c) the third stage)
由上述分析可知,本文設(shè)計(jì)的3個(gè)階段都能夠按照模型設(shè)計(jì)的階段任務(wù),生成相一致且真實(shí)合理的結(jié)果。
將本文模型與PC(partial convolutions)(Liu等,2018)、RFR(recurrent feature reasoning)(Li等,2020)、EC(edge connect)(Nazeri等,2019)和HC(hypergraphs convolutions)(Wadhwa等,2021)等4種先進(jìn)模型進(jìn)行定性比較。
圖6是各模型在CelebAMask-HQ數(shù)據(jù)集上的比較結(jié)果??梢钥闯觯?行中,對(duì)于較小的掩膜,各模型都能完整修復(fù)出缺失區(qū)域的內(nèi)容,但本文模型生成的圖像在眼睛等細(xì)節(jié)上更加自然真實(shí)。第2-5行中,對(duì)于中等或較大的掩膜,PC無法完成合理的修復(fù),生成的圖像結(jié)構(gòu)扭曲、視覺上不真實(shí);RFR生成的圖像邊界模糊、存在偽影;EC生成的圖像視覺上不自然,例如生成的眼睛左右不對(duì)稱;HC生成圖像結(jié)構(gòu)合理,但眼睛、耳朵等內(nèi)部細(xì)節(jié)不真實(shí);本文模型生成的圖像不僅邊界清晰,而且在細(xì)節(jié)上更加真實(shí)自然。
CelebAMask-HQ數(shù)據(jù)集中的人臉大多為正臉,且具有左右對(duì)稱、結(jié)構(gòu)相似的特點(diǎn)。而Cityscapes數(shù)據(jù)集中的街景構(gòu)造復(fù)雜并且差異較大、標(biāo)簽類別多,所以圖像修復(fù)較為困難,具有挑戰(zhàn)性。
圖6 CelebAMask-HQ數(shù)據(jù)集上修復(fù)結(jié)果比較Fig.6 Comparison of inpainting results on CelebAMask-HQ dataset((a) original images; (b) damaged images; (c) PC; (d) RFR; (e) EC; (f) HC; (g)ours)
圖7是各模型在Cityscapes數(shù)據(jù)集上的比較結(jié)果,各列代表的模型與圖6相同??梢钥闯?,本文模型的修復(fù)結(jié)果較其他模型明顯減少了不一致性,視覺上也更加自然真實(shí)。可以看出,在第1行右邊汽車和左邊窗戶等缺失區(qū)域細(xì)節(jié)修復(fù)上,本文模型的結(jié)果更加清晰完整。第2行中,本文模型可以修復(fù)出正確的路肩細(xì)節(jié),而其他模型修復(fù)結(jié)果在語義上不正確。第3、4、5行中,PC和RFR生成的圖像(如第3行的大客車、第4行的行人以及第5行的建筑等)結(jié)構(gòu)缺失且模糊;由于街景圖像邊緣復(fù)雜,不同對(duì)象的邊緣相互交錯(cuò),導(dǎo)致EC生成的圖像結(jié)構(gòu)錯(cuò)誤且邊界模糊;HC的修復(fù)效果較EC有了很大改善,但由于缺少明確的結(jié)構(gòu)指導(dǎo),生成的圖像邊界模糊;相比于HC,本文模型在語義分割結(jié)構(gòu)的指導(dǎo)下進(jìn)行邊緣重建,有效減少了邊緣重建錯(cuò)誤,生成的圖像邊界清晰、結(jié)構(gòu)合理,視覺上更加真實(shí)。
總的來說,在CelebAMask-HQ和Cityscapes數(shù)據(jù)集上,PC和RFR由于缺少有效的結(jié)構(gòu)指導(dǎo),生成的圖像邊界模糊、存在大量偽影且不真實(shí)。EC在邊緣結(jié)構(gòu)的指導(dǎo)下生成的圖像邊界清晰,但由于缺少語義分割結(jié)構(gòu)的指導(dǎo),往往會(huì)生成錯(cuò)誤的邊緣結(jié)構(gòu),最終導(dǎo)致生成的圖像視覺上不自然。HC缺少明確的結(jié)構(gòu)指導(dǎo),雖然語義大致正確,但生成的圖像邊界不清晰。本文模型的修復(fù)結(jié)果明顯優(yōu)于其他模型,生成的圖像結(jié)構(gòu)更加合理,具有較少偽影,紋理細(xì)節(jié)也更加真實(shí)。
使用圖像修復(fù)中常用的平均絕對(duì)誤差(mean absolute error,MAE)、峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似性(structure similarity index measure,SSIM)指標(biāo)(Wang等,2004)評(píng)估各模型的修復(fù)效果。表3和表4分別為PC、RFR、EC、HC以及本文模型在CelebAMask-HQ和Cityscapes數(shù)據(jù)集上不同比例不規(guī)則掩膜的定量比較結(jié)果。
從表3可以看出,在CelebAMask-HQ數(shù)據(jù)集上,各模型的性能均隨掩膜比例的增加逐漸變差。在掩膜比例為10%-20%時(shí),本文模型的結(jié)果略差于HC和RFR。而在掩膜比例較大時(shí),本文模型表現(xiàn)出了最優(yōu)的性能。這可能是因?yàn)槊鎸?duì)較小的掩膜遮擋時(shí),人臉圖像結(jié)構(gòu)相對(duì)簡(jiǎn)單,沒有出現(xiàn)結(jié)構(gòu)缺失現(xiàn)象,所以HC和RFR取得較好的結(jié)果。
圖7 Cityscapes數(shù)據(jù)集上修復(fù)結(jié)果對(duì)比Fig.7 Comparison of inpainting results on Cityscapes dataset((a) original images; (b) damaged images; (c) PC; (d) RFR; (e) EC; (f) HC; (g)ours)
表3 不同方法在CelebAMask-HQ數(shù)據(jù)集上的定量比較Table 3 Comparison of results of different methods on CelebAMask-HQ dataset
從表4可以看出,在Cityscapes數(shù)據(jù)集上的定量比較結(jié)果表現(xiàn)出與CelebAMask-HQ數(shù)據(jù)集相似的趨勢(shì),各模型的性能同樣隨掩膜比例的增加逐漸變差。在Cityscapes數(shù)據(jù)集上,3項(xiàng)指標(biāo)數(shù)據(jù)都較CelebAMask-HQ數(shù)據(jù)集差,這是因?yàn)槌鞘芯坝^圖像結(jié)構(gòu)復(fù)雜,較小的掩膜遮擋就會(huì)導(dǎo)致圖像結(jié)構(gòu)缺失,所以修復(fù)具有挑戰(zhàn)性。本文模型在3項(xiàng)指標(biāo)上均優(yōu)于其他模型,表明面對(duì)復(fù)雜結(jié)構(gòu)的受損,本文的多階段修復(fù)模型展現(xiàn)出了明顯的優(yōu)越性,能夠合理修復(fù)出缺失的結(jié)構(gòu)信息,視覺上更加真實(shí)。
表4 不同方法在Cityscapes數(shù)據(jù)集上的定量比較Table 4 Comparison of results of different methods on Cityscapes dataset
總的來說,本文模型的定量比較結(jié)果整體上優(yōu)于其他對(duì)比模型,這也對(duì)應(yīng)了定性分析中各模型的視覺比較結(jié)果。
本文針對(duì)現(xiàn)有圖像修復(fù)方法存在的生成圖像邊界模糊和結(jié)構(gòu)扭曲問題,提出了一種基于深度生成模型的3階段圖像修復(fù)方法,并在CelebAMask-HQ和Cityscapes數(shù)據(jù)集上與多種先進(jìn)方法進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果表明,本文方法生成的圖像結(jié)構(gòu)更加合理,紋理細(xì)節(jié)更加真實(shí)。本文方法將圖像修復(fù)任務(wù)解耦為語義分割重建、邊緣重建和內(nèi)容補(bǔ)全3個(gè)階段。一方面,首先進(jìn)行語義分割重建可以有效減少后續(xù)結(jié)構(gòu)重建中的錯(cuò)誤;另一方面,在語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)的雙重約束下能夠?qū)崿F(xiàn)圖像紋理細(xì)節(jié)更加精細(xì)的修復(fù)。
本文方法存在以下不足,有待繼續(xù)研究。1)在網(wǎng)絡(luò)模型設(shè)計(jì)上,受限于物理設(shè)備,3個(gè)階段均為結(jié)構(gòu)簡(jiǎn)單的網(wǎng)絡(luò),如果使用更加復(fù)雜的網(wǎng)絡(luò)模型,可以進(jìn)一步提高圖像修復(fù)質(zhì)量。2)本文方法很大程度上依賴于語義分割結(jié)構(gòu)和邊緣結(jié)構(gòu)的預(yù)測(cè)準(zhǔn)確性,如果設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)能夠更好地理解圖像的結(jié)構(gòu)信息,可以進(jìn)一步做出更準(zhǔn)確的結(jié)構(gòu)預(yù)測(cè)。
本文提出的3階段解耦方法使用戶可以與圖像修復(fù)系統(tǒng)交互,能夠很容易地?cái)U(kuò)展到其他圖像任務(wù),包括條件圖像生成、圖像編輯、圖像去噪和圖像超分辨率等,這也是本文方法未來的實(shí)際應(yīng)用方向。