何?凱,劉?坤,李?宸,馬希濤
級(jí)聯(lián)式生成對(duì)抗網(wǎng)絡(luò)圖像修復(fù)模型
何?凱,劉?坤,李?宸,馬希濤
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
為解決現(xiàn)有算法容易產(chǎn)生圖像模糊或紋理失真的問(wèn)題,提出了一種級(jí)聯(lián)式生成對(duì)抗網(wǎng)絡(luò)圖像修復(fù)模型.該模型由粗化和優(yōu)化生成子網(wǎng)絡(luò)串聯(lián)而成.在粗化生成網(wǎng)絡(luò)中設(shè)計(jì)了一種并行卷積模塊,由3層卷積通路和1個(gè)深層卷積通路并聯(lián)組成,當(dāng)網(wǎng)絡(luò)層數(shù)較深時(shí),可解決梯度消失問(wèn)題;在深層卷積通路中提出了一種特征提取模塊,可利用不同大小的卷積核來(lái)獲取更加豐富的圖像信息.此外,在優(yōu)化生成網(wǎng)絡(luò)中提出了一種級(jí)聯(lián)殘差模塊,通過(guò)對(duì)4個(gè)通道的雙層卷積進(jìn)行交叉級(jí)聯(lián),可有效增強(qiáng)特征復(fù)用;將卷積結(jié)果與模塊輸入特征圖的元素對(duì)應(yīng)相加,進(jìn)行局部殘差學(xué)習(xí),可提高網(wǎng)絡(luò)的表達(dá)能力;同時(shí)采用空洞卷積,可以充分利用上下文信息,保留更多的圖像底層細(xì)節(jié),實(shí)現(xiàn)圖像的精細(xì)修復(fù).仿真實(shí)驗(yàn)結(jié)果表明,本文算法修復(fù)圖像視覺(jué)效果好,在3個(gè)數(shù)據(jù)集上峰值信噪比(PSNR)分別為18.4532、18.5496、21.5299;結(jié)構(gòu)相似度(SSIM)為0.8972、0.9683、0.8956,量化結(jié)果在對(duì)比算法中均為最高,實(shí)現(xiàn)復(fù)雜結(jié)構(gòu)和紋理信息的自動(dòng)修復(fù).
圖像修復(fù);生成對(duì)抗網(wǎng)絡(luò);特征提取模塊;殘差模塊
圖像修復(fù)是通過(guò)對(duì)圖像缺損區(qū)域進(jìn)行補(bǔ)全來(lái)恢復(fù)其原有的視覺(jué)效果,它是圖像處理領(lǐng)域的研究熱點(diǎn),具有重要的意義和研究?jī)r(jià)值.當(dāng)前圖像修復(fù)算法大致可以分為2大類:傳統(tǒng)圖像修復(fù)算法和基于深度學(xué)習(xí)的圖像修復(fù)算法.傳統(tǒng)圖像修復(fù)算法通常采用基于偏微分方程的方法[1]來(lái)修復(fù)小區(qū)域圖像,如噪聲、劃痕去除等;當(dāng)破損區(qū)域較大時(shí),則通常采用基于樣本塊的紋理合成算法[2],利用圖像破損區(qū)域周圍的信息對(duì)缺損區(qū)域進(jìn)行填充;在其基礎(chǔ)上,人們提出了許多改進(jìn)算法,如何凱等[3]在傳統(tǒng)SSIM算法的基礎(chǔ)上增加了梯度信息,利用樣本塊亮度、對(duì)比度和結(jié)構(gòu)3個(gè)模塊來(lái)確定最優(yōu)樣本塊大小,可以獲得較好的紋理合成效果.
近年來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[4]和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[5]技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)圖像的圖像修復(fù)算法不斷涌現(xiàn),其中,U-Net網(wǎng)絡(luò)[6]被廣泛用于圖像修復(fù)領(lǐng)域.Pathak等[7]提出了context-encoder方法,利用卷積神經(jīng)網(wǎng)絡(luò)編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)和GAN來(lái)解決圖像修復(fù)問(wèn)題.Iizuka?等[8]在網(wǎng)絡(luò)中采用全局和局部?jī)蓚€(gè)判別器,來(lái)評(píng)估圖像的整體和局部的一致性.Yeh等[9]使用一個(gè)由上下文損失和感知損失組成的損失函數(shù)來(lái)搜索與破損圖像最接近的編碼,再通過(guò)生成模型推斷缺失的內(nèi)容.Liu 等[10]提出了使用部分卷積,通過(guò)掩膜的自動(dòng)更新來(lái)獲得理想的修復(fù)效果.Liao等[11]提出了基于邊緣的上下文解碼器,利用邊緣信息實(shí)現(xiàn)破損圖像的自動(dòng)修復(fù).Zeng等[12]基于U-Net結(jié)構(gòu),提出了金字塔上下文編碼網(wǎng)絡(luò) PEN-Net,并采用注意力機(jī)制進(jìn)行學(xué)習(xí).Xiong等[13]采用一個(gè)由3個(gè)模塊級(jí)聯(lián)而成的網(wǎng)絡(luò),先生成邊緣信息和粗略的圖像內(nèi)容,再得到最終結(jié)果.Yu等[14]提出了門控卷積和頻譜歸一化鑒別器,利用一個(gè)基于補(bǔ)丁的GAN損失函數(shù)來(lái)獲得更高質(zhì)量的修復(fù)效果.Wei等[15]提出了一種前景感知的圖像修復(fù)系統(tǒng),通過(guò)學(xué)習(xí)預(yù)測(cè)前景輪廓來(lái)修補(bǔ)缺失區(qū)域.Liu等[16]基于深度生成模型,提出了一種具有連貫語(yǔ)義注意層的圖像修復(fù)方法.Yu等[17]提出了一種基于深度生成模型,通過(guò)引入上下文注意力機(jī)制,提高圖像修復(fù)的效果.Xie等[18]引入了可學(xué)習(xí)的注意力圖來(lái)用于圖像修復(fù),在卷積的過(guò)程中能夠更有效地傳播;進(jìn)一步提高了圖像的視覺(jué)質(zhì)量.Nazeri等[19]提出一種基于邊緣補(bǔ)全的圖像修復(fù)方法,首先利用啟發(fā)式的生成模型得到了缺失部分的邊緣信息,隨后將邊緣信息作為圖像缺失的先驗(yàn)部分和圖像一起送入修復(fù)網(wǎng)絡(luò)進(jìn)行圖像修復(fù).
上述方法可有效利用圖像的語(yǔ)義信息,提高了圖像修復(fù)質(zhì)量,但當(dāng)圖像缺失區(qū)域較大、圖像內(nèi)容比較豐富時(shí),容易出現(xiàn)諸如圖像模糊、紋理失真、邊界偽影等問(wèn)題.
生成對(duì)抗網(wǎng)絡(luò)是一種深度學(xué)習(xí)模型,近年來(lái),在復(fù)雜分布無(wú)監(jiān)督學(xué)習(xí)上得到了廣泛的應(yīng)用,主要由生成器(generator)和判別器(discriminator)組成,如圖1所示.
圖1?生成對(duì)抗網(wǎng)絡(luò)示意
在圖像修復(fù)領(lǐng)域,生成器輸入為破損圖像,輸出為修復(fù)圖像.生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練處于一種對(duì)抗博弈狀態(tài),可以不斷提升生成器的學(xué)習(xí)樣本分布、生成樣本能力,以及判別器區(qū)分能力;當(dāng)判別器無(wú)法區(qū)分真實(shí)樣本和生成樣本時(shí),即輸出最終結(jié)果.判別器網(wǎng)絡(luò)最后一層使用sigmoid函數(shù)輸出一個(gè)(0,1)范圍內(nèi)的概率值.網(wǎng)絡(luò)采用交叉熵代價(jià)函數(shù)
網(wǎng)絡(luò)生成圖像與輸入背景區(qū)域的關(guān)聯(lián)程度會(huì)對(duì)輸出結(jié)果產(chǎn)生一定的影響,傳統(tǒng)GAN模型感受野較小,卷積核結(jié)構(gòu)單一,對(duì)背景區(qū)域的特征學(xué)習(xí)能力不足,輸出圖像隨機(jī)性較大;此外,由于網(wǎng)絡(luò)模型深度不夠,輸出圖像分辨率較低,容易產(chǎn)生細(xì)節(jié)模糊的?現(xiàn)象.
為解決上述問(wèn)題,在傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種新的由粗到精的級(jí)聯(lián)式生成對(duì)抗網(wǎng)絡(luò)模型(C-GAN).具體作法是:在粗化生成網(wǎng)絡(luò)中設(shè)計(jì)了一個(gè)并行卷積模塊,由3層卷積通路和一個(gè)深層卷積通路并聯(lián)組成,利用提出的特征提取模塊來(lái)提高修復(fù)結(jié)果與背景區(qū)域的相關(guān)性.此外,在優(yōu)化生成網(wǎng)絡(luò)中提出了級(jí)聯(lián)殘差模塊,通過(guò)對(duì)4個(gè)通道的雙層卷積進(jìn)行交叉級(jí)聯(lián),來(lái)豐富通道中的圖像特征,以提高修復(fù)圖像的分辨率.
本文C-GAN網(wǎng)絡(luò)模型采用編碼器和解碼器架構(gòu),利用大量的訓(xùn)練樣本來(lái)學(xué)習(xí)從破損圖像到完整圖像的映射關(guān)系,實(shí)現(xiàn)破損圖像的自動(dòng)修復(fù).
粗化生成網(wǎng)絡(luò)可以產(chǎn)生粗略的修復(fù)結(jié)果,本文粗化生成網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要由提出的并行卷積模塊、普通卷積層和空洞卷積層組成.其中,綠色模塊為本文并行卷積模塊.
圖2?本文粗化生成網(wǎng)絡(luò)結(jié)構(gòu)
輸入圖像數(shù)據(jù)后,該網(wǎng)絡(luò)可將圖像分解為一些基本元素,如邊緣、紋理和形狀等.隨著圖像數(shù)據(jù)在網(wǎng)絡(luò)中傳播,這些元素會(huì)被重新組合,以產(chǎn)生不同的圖像特征;同時(shí),該網(wǎng)絡(luò)會(huì)對(duì)圖像內(nèi)容進(jìn)行預(yù)測(cè),并根據(jù)需要進(jìn)行調(diào)整.為保留更多的圖像特征信息,卷積神經(jīng)網(wǎng)絡(luò)的深度至關(guān)重要,但網(wǎng)絡(luò)層數(shù)的增加會(huì)導(dǎo)致梯度消失、訓(xùn)練進(jìn)程慢等問(wèn)題,為此,本文設(shè)計(jì)了一種并行卷積模塊,如圖3所示.
圖3?本文并行卷積模塊
輸入圖像并行經(jīng)過(guò)一個(gè)深層卷積網(wǎng)絡(luò)和一個(gè)淺層卷積網(wǎng)絡(luò).其中,深層卷積通路由14層卷積層組成,在第4、6、8層各加入一個(gè)特征提取模塊(用紫色模塊表示),最后與空洞卷積相結(jié)合,以提取更加豐富的圖像特征.特征提取模塊具體作法是:首先分別采用1×1和3×3兩種大小的卷積核,對(duì)輸入特征圖進(jìn)行卷積,采用兩層并行卷積來(lái)替代一層卷積,再重新進(jìn)行復(fù)合,以提取不同感受野的多樣化特征信息;復(fù)合之后再對(duì)輸入特征圖做一次卷積,并將卷積結(jié)果與多尺度結(jié)果進(jìn)行整合,實(shí)現(xiàn)了一個(gè)殘差連接,可以防止網(wǎng)絡(luò)退化,降維后得到最終的輸出特征圖.在深層卷積通路進(jìn)行圖像的降維與還原,可以補(bǔ)償修復(fù)圖像的細(xì)節(jié)信息.
并行卷積模塊的淺層網(wǎng)絡(luò)由3層卷積層構(gòu)成,通過(guò)并行一個(gè)淺層網(wǎng)絡(luò),可以保留圖像的主要內(nèi)容,同時(shí)防止梯度消失的現(xiàn)象發(fā)生.特征提取模塊將不同層次的特征在通道內(nèi)進(jìn)行拼接和融合,可以保留更多的圖像特征,實(shí)現(xiàn)信息交互.上述過(guò)程可以表述為
圖4?本文特征提取模塊
圖像修復(fù)需要利用圖像的完整性信息對(duì)破損區(qū)域進(jìn)行預(yù)測(cè),因此,較大的感受野對(duì)修復(fù)結(jié)果至關(guān)重要.為了增強(qiáng)上、下文之間的聯(lián)系,捕獲更豐富的上、下文信息,同時(shí)不增加網(wǎng)絡(luò)計(jì)算量,在網(wǎng)絡(luò)中間層采用4層空洞卷積來(lái)擴(kuò)大感受野的范圍,膨脹系數(shù)分別為2、4、8、16,其中第2層空洞卷積與特征提取模塊結(jié)合,以增加網(wǎng)絡(luò)輸出的表達(dá)能力;為了使得更多的圖像信息能夠在通道中傳遞,在深層卷積通路中對(duì)稱加入兩個(gè)跳躍鏈接,并將兩段網(wǎng)絡(luò)的輸出進(jìn)行了整合;經(jīng)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后,得到最后的粗略輸出.
網(wǎng)絡(luò)選用破損圖像及其二進(jìn)制掩碼圖像作為輸入,其中,0表示破損區(qū)域,1表示完好區(qū)域.訓(xùn)練時(shí),隨機(jī)選取矩形塊作為破損區(qū)域.除最后一層外,每層卷積后采用Elu激活函數(shù)來(lái)保證網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,加快學(xué)習(xí)速度,增強(qiáng)網(wǎng)絡(luò)的非線性表達(dá)能力.
在粗化生成網(wǎng)絡(luò)階段,采用L1重構(gòu)損失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以規(guī)范修復(fù)過(guò)程中網(wǎng)絡(luò)的行為,保持破損區(qū)域的修復(fù)結(jié)果與原圖信息一致,結(jié)構(gòu)更加合理.L1重構(gòu)損失函數(shù)為
優(yōu)化生成網(wǎng)絡(luò)以破損圖像和粗化網(wǎng)絡(luò)輸出的粗略預(yù)測(cè)結(jié)果作為輸入,可進(jìn)一步獲得更加精確的預(yù)測(cè)結(jié)果.為充分保留圖像的紋理信息、提取更多的精細(xì)化的圖像特征,在2層卷積后設(shè)計(jì)了級(jí)聯(lián)殘差模塊,如圖5所示.
圖5?本文級(jí)聯(lián)殘差模塊
卷積層可以將圖像分解成不同的特征,其中每一條神經(jīng)元都可充當(dāng)一組過(guò)濾器,不同的過(guò)濾器關(guān)注不同的特征,負(fù)責(zé)尋找圖像中的不同部位和像素值,以找到最佳映射關(guān)系.
級(jí)聯(lián)殘差模塊通過(guò)對(duì)卷積層進(jìn)行組合級(jí)聯(lián),可以保證圖片信息在網(wǎng)絡(luò)中傳遞時(shí)不丟失.該模塊由4個(gè)通道組成,對(duì)輸入特征圖像分別采取不同尺度的感受野,采用普通卷積和空洞卷積并行的方式來(lái)提取圖像特征,再將兩條支路交叉連接,以獲得更加豐富的圖像信息,增強(qiáng)網(wǎng)絡(luò)的信息傳播能力;最后采用1×1的卷積進(jìn)行降維;將卷積結(jié)果與模塊輸入特征圖的元素對(duì)應(yīng)相加,進(jìn)行局部殘差學(xué)習(xí),以緩解梯度消失問(wèn)題,提高網(wǎng)絡(luò)的表達(dá)能力,使得網(wǎng)絡(luò)訓(xùn)練更加容易.此外,引入注意力機(jī)制[17],并采用2層空洞卷積,以擴(kuò)大感受野.在第2層卷積層之后,加入一個(gè)跳躍連接,與經(jīng)過(guò)第1次上采樣之后的特征向量進(jìn)行整合,以在通道內(nèi)保留更多的圖像信息.本文優(yōu)化生成網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示.
優(yōu)化生成網(wǎng)絡(luò)也采用Elu作為激活函數(shù),利用L1重構(gòu)損失來(lái)實(shí)現(xiàn)缺失區(qū)域與上下文在整體結(jié)構(gòu)上保持一致.此外,引入了對(duì)抗損失函數(shù),以產(chǎn)生更加真實(shí)的圖像信息.
圖6?本文優(yōu)化生成網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)抗損失函數(shù)為
優(yōu)化網(wǎng)絡(luò)的總損失函數(shù)為
本文采用全局和局部?jī)蓚€(gè)判別器網(wǎng)絡(luò),其中,全局判別器用來(lái)關(guān)注整幅圖像的全局特征,由6個(gè)卷積層和LeakyRelu層組成;分別采用步長(zhǎng)為1和2的卷積塊,最后通過(guò)全連接層輸出判別結(jié)果.局部判別器只關(guān)注缺失區(qū)域的信息,其結(jié)構(gòu)與全局判別器相似,通過(guò)增加輸出通道數(shù),可以獲得更細(xì)致的圖像特征.
為了驗(yàn)證本文模型的有效性,分別在3個(gè)國(guó)際圖像修復(fù)數(shù)據(jù)集上,與幾種最新的深度學(xué)習(xí)修復(fù)模型算法進(jìn)行了比較.
實(shí)驗(yàn)選取3個(gè)標(biāo)準(zhǔn)的國(guó)際圖像修復(fù)數(shù)據(jù)集 CelebA、Places2、Pairs StreetView.為保證算法的實(shí)用性,實(shí)驗(yàn)過(guò)程中僅選用相關(guān)圖像,而不采用其標(biāo)簽或注釋.
CelebA是一個(gè)大規(guī)模人臉數(shù)據(jù)庫(kù);隨機(jī)選取其中8萬(wàn)張圖像進(jìn)行訓(xùn)練,2000張用于測(cè)試.
Places2是一個(gè)場(chǎng)景圖像數(shù)據(jù)集,取自400多個(gè)不同的場(chǎng)景環(huán)境;隨機(jī)選取其中20萬(wàn)張圖片進(jìn)行訓(xùn)練,圖像和掩碼均設(shè)為256×256,2000張用于測(cè)試.
Pairs StreetView包含世界上幾個(gè)城市的街景圖片,總共有15000張圖片,選取其中13000張圖片進(jìn)行訓(xùn)練,2000張用于測(cè)試.
選用python語(yǔ)言,計(jì)算機(jī)配置為:CPU處理器Core i9-9900k,主頻3.60GHz,內(nèi)存64.00GB,使用tensorflow實(shí)現(xiàn)算法.實(shí)驗(yàn)選取規(guī)則掩模,在原圖像中隨機(jī)刪除矩形區(qū)域,破損區(qū)域最大尺寸為128×128.訓(xùn)練使用NVIDIA 2080Ti GPU,batchsize設(shè)為16,優(yōu)化算法采用Adam,初始學(xué)習(xí)率設(shè)為0.0001.
3個(gè)數(shù)據(jù)集的中間結(jié)果可視化如圖7~圖9所示.在粗化網(wǎng)絡(luò)中,由于沒(méi)有判別器進(jìn)行判斷和糾正,只能生成大體的圖像結(jié)構(gòu),生成部分分辨率較低,圖像較為模糊;粗化網(wǎng)絡(luò)的輸出經(jīng)過(guò)優(yōu)化網(wǎng)絡(luò)得到最終的輸出,從圖中可以看出,由于對(duì)圖像特征進(jìn)行了進(jìn)一步的提取,同時(shí)加入兩個(gè)判別器網(wǎng)絡(luò)進(jìn)行對(duì)抗博弈,可以生成完整的圖像結(jié)構(gòu)和更加豐富的紋理信息,圖像更加清晰,視覺(jué)效果更為理想.
圖7?CelebA中間結(jié)果可視化
圖8?Places2中間結(jié)果可視化
圖9?Paris StreetView中間結(jié)果可視化
為了證明本文提出的各個(gè)模塊的有效性,進(jìn)行了消融實(shí)驗(yàn),修復(fù)結(jié)果如圖10~圖12所示,其中,GL算法用單一生成網(wǎng)絡(luò)模型,CA算法使用粗化和優(yōu)化兩個(gè)生成模塊,CA+FD代表僅在粗化網(wǎng)絡(luò)中加入特征提取模塊,CA+RM代表僅在優(yōu)化網(wǎng)絡(luò)中加入級(jí)聯(lián)殘差模塊.從圖中可以看出:CA算法由于比GL結(jié)構(gòu)更加合理,修復(fù)效果有所提升,但是依舊存在模糊扭曲等問(wèn)題;CA+FD在一定程度上提升了圖像紋理特征,證明了特征提取模塊的有效性;CA+RM的修復(fù)結(jié)果更加真實(shí),表明了增加級(jí)聯(lián)殘差模塊的有效性;而同時(shí)加入兩個(gè)模塊后(本文模型),可以得到更加合理的結(jié)構(gòu)和更加清晰的紋理信息,修復(fù)結(jié)果更加真實(shí)可信.
此外,分別采取本文模型及5種最新深度學(xué)習(xí)修復(fù)模型算法:globally and locally(GL)[8],contextual attention(CA)[17],gated convolution(GC)[14],learnable bidirectional attention maps(LBAM)[18]和edge connect(EC)[19]進(jìn)行圖像修復(fù),結(jié)果如圖13~圖15所示.從圖中可以看出,GL方法修復(fù)圖像比較模糊,不能產(chǎn)生復(fù)雜的紋理,且存在較嚴(yán)重的局部失真情況,如圖13第1行中,眼睛部位比較模糊,且存在明顯的局部色差.CA方法的修復(fù)效果有所提高,細(xì)化了紋理信息,但仍然存在修復(fù)邊界明顯和紋理細(xì)節(jié)損失嚴(yán)重等問(wèn)題;GC算法進(jìn)一步提高了修復(fù)效果,由于GC算法在粗化網(wǎng)絡(luò)中采用單一的網(wǎng)絡(luò)結(jié)構(gòu),其使用的門控卷積、頻譜歸一化判別器等,主要針對(duì)不規(guī)則的自由掩模,對(duì)于規(guī)則的矩形掩模,容易產(chǎn)生結(jié)構(gòu)不合理、邊界缺失等問(wèn)題;LBAM算法雖然能夠產(chǎn)生平滑的紋理和正確的結(jié)構(gòu)信息,但是仍然存在局部色差和紋理模糊等問(wèn)題;EC算法提高了修復(fù)質(zhì)量,修復(fù)內(nèi)容真實(shí)合理,但在Pairs StreetView數(shù)據(jù)集上產(chǎn)生了紋理模糊現(xiàn)象,且存在明顯的邊界偽影;本文模型在粗化網(wǎng)絡(luò)中增加了特征提取模塊,同時(shí)采用并行卷積,能夠更好地學(xué)習(xí)圖像結(jié)構(gòu),更全面地關(guān)注圖像上、下文信息;在優(yōu)化網(wǎng)絡(luò)中加入了級(jí)聯(lián)殘差模塊,可以提取更加豐富的圖像特征.因此細(xì)化了紋理結(jié)構(gòu),能夠獲得更加豐富的紋理特征,修復(fù)區(qū)域基本沒(méi)有邊界偽影和局部色差,結(jié)構(gòu)一致性較好,視覺(jué)效果最佳,證明了本文算法的有效性.在CelebA數(shù)據(jù)集上,本文算法雖然存在瑕疵,但較之其他方法均有提升,有效修復(fù)了人物面部和背景區(qū)域紋理信息,局部色差問(wèn)題也得到了明顯改善,修復(fù)效果更加自然.
為了對(duì)算法性能進(jìn)行量化評(píng)估,隨機(jī)選取200幅圖像,分別利用不同模型算法進(jìn)行修復(fù),結(jié)果如表1所示.采用峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity,SSIM)作為圖像修復(fù)性能度量指標(biāo).其中,PSNR基于修復(fù)結(jié)果圖像和真實(shí)圖像之間的偏差來(lái)計(jì)算相似度,值越大,代表修復(fù)效果越好;SSIM計(jì)算修復(fù)結(jié)果圖像和真實(shí)圖像亮度、對(duì)比度和結(jié)構(gòu)之間的差值,從3個(gè)方面度量圖像相似性,取值范圍[0,1],值越大,代表圖像相似性越高.從表中可以看出,本文方法在客觀指標(biāo)量化性能上明顯優(yōu)于其他方法,修復(fù)結(jié)果更加準(zhǔn)確.此外,為了提取更多的特征信息,本文算法增加了部分卷積操作,因此,網(wǎng)絡(luò)參數(shù)量略有增加,但本文算法準(zhǔn)確率最高,獲得了最佳的修復(fù)效果.
圖10?CelebA消融實(shí)驗(yàn)結(jié)果
圖11?Places2消融實(shí)驗(yàn)結(jié)果
圖12?Paris StreetView消融實(shí)驗(yàn)結(jié)果
圖13?CelebA數(shù)據(jù)集修復(fù)結(jié)果
圖14?Places2數(shù)據(jù)集修復(fù)結(jié)果
表1?不同算法性能對(duì)比
Tab.1?Comparison of the performances of the different inpainting methods
為了進(jìn)一步驗(yàn)證本文算法的普適性,分別在3個(gè)數(shù)據(jù)集上對(duì)不規(guī)則形狀缺失的圖像進(jìn)行了修復(fù),實(shí)驗(yàn)結(jié)果如圖16~圖18所示,從圖中可以看出,本文算法可以對(duì)不規(guī)則的缺失圖像進(jìn)行修復(fù),對(duì)于缺失區(qū)域較小的不規(guī)則區(qū)域,可以實(shí)現(xiàn)較好的恢復(fù)效果,但當(dāng)破損區(qū)域較大時(shí)容易出現(xiàn)模糊等的現(xiàn)象,這是由于本文算法采用的全卷積神經(jīng)網(wǎng)絡(luò)更適合于規(guī)則破損圖像的修復(fù);同時(shí),在網(wǎng)絡(luò)訓(xùn)練時(shí),也選用了規(guī)則矩形塊破損區(qū)域.綜上所述,本文算法在規(guī)則區(qū)域和不規(guī)則區(qū)域都可以完成圖像修復(fù),但對(duì)于規(guī)則破損區(qū)域效果更好.
圖16?CelebA不規(guī)則缺失修復(fù)結(jié)果
圖17?Places2不規(guī)則缺失修復(fù)結(jié)果
圖18?Paris StreetView不規(guī)則缺失修復(fù)結(jié)果
本文提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)模型C-GAN,分兩個(gè)階段實(shí)現(xiàn)圖像修復(fù),在粗化生成網(wǎng)絡(luò)中設(shè)計(jì)了一種并行卷積模塊,并提出了一種特征提取模塊來(lái)提高網(wǎng)絡(luò)的學(xué)習(xí)能力;在優(yōu)化生成網(wǎng)絡(luò)中提出了級(jí)聯(lián)殘差模塊,通過(guò)對(duì)4個(gè)通道的雙層卷積進(jìn)行交叉級(jí)聯(lián),實(shí)現(xiàn)圖像的精細(xì)修復(fù).
在3個(gè)國(guó)際標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與近年來(lái)經(jīng)典深度學(xué)習(xí)修復(fù)模型方法相比,本文模型能獲得更有效的紋理細(xì)節(jié)信息,對(duì)于復(fù)雜結(jié)構(gòu)和紋理的修復(fù)效果更加真實(shí),準(zhǔn)確度更高.
[1] Bertalmio M,Sapiro G,Caselles V. Image inpainting[C]//Proceedings of ACM SIGGRAPH 2000. New York,USA,2000:417-424.
[2] Criminisi A,Perez P,Toyama K. Region filling and object removal by exemplar-based image inpainting[J]. IEEE Transactions on Image Processing,2004,13 (9):1200-1212.
[3] 何?凱,??』?,沈成南,等. 基于SSIM的自適應(yīng)樣本塊圖像修復(fù)算法[J]. 天津大學(xué)學(xué)報(bào):自然科學(xué)與工程技術(shù)版,2018,51(7):763-767.
He Kai,Niu Junhui,Shen Chengnan,et al. Image inpainting algorithm with adaptive patch using SSIM[J]. Journal of Tianjin University:Science and Technology,2018,51(7):763-767(in Chinese).
[4] Zeiler M D,F(xiàn)ergus R. Visualizing and understanding convolutional networks[C]//Proceedings of the European Conference on Computer Vision. Zurich,Switzerland,2014:818-833.
[5] Goodfellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. Montréal,Canada,2014:2672-2680.
[6] Ronneberger O,F(xiàn)ischer P,Brox T. U-net:Convolu-tional networks for biomedical image segmentation [C]// Proceedings of the International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich,Germany,2015:234-241.
[7] Pathak D,Krahenbuhl P,Donahue J,et al. Context en-coders:Feature learning by inpainting[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:2536-2544.
[8] Iizuka S,Simo-Serra E,Ishikawa H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics,2017,36(4):1-14.
[9] Yeh R A,Chen C,Yian Lim T,et al. Semantic image inpainting with deep generative models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii,USA,2017:5485-5493.
[10] Liu G,Reda F A,Shih K J,et al. Image inpainting for irregular holes using partial convolutions[C]// Proceedings of the European Conference on Computer Vision. Munich,Germany,2018:85-100.
[11] Liao L,Hu R,Xiao J,et al. Edge-aware context encoder for image inpainting[C]//Proceedings of the International Conference on Acoustics,Speech and Signal Processing. Calgary,Alberta,Canada,2018:3156-3160.
[12] Zeng Y,F(xiàn)u J,Chao H,et al. Learning pyramid-context encoder network for high-quality image inpainting[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. California,USA,2019:1486-1494.
[13] Xiong W,Yu J,Lin Z,et al. Foreground-aware image inpainting[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. California,USA,2019:5840-5848.
[14] Yu J,Lin Z,Yang J,et al. Free-form image inpainting with gated convolution[C]//Proceedings of the IEEE International Conference on Computer Vision. Califor-nia,USA,2019:4471-4480.
[15] Wei X,Yu J,Lin Z,et al. Foreground-aware image inpainting[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. California,USA,2019:5833-5841.
[16] Liu H,Jiang B,Xiao Y,et al. Coherent semantic attention for image inpainting[C]//Proceedings of the IEEE International Conference on Computer Vision. Seoul,Korea,2019:4169-4178.
[17] Yu J,Lin Z,Yang J,et al. Generative image inpainting with contextual attention[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:5505-5514.
[18] Xie C,Liu S,Li C,et al. Image inpainting with learnable bidirectional attention maps[C]// Proceedings of the IEEE International Conference on Computer Vision. Seoul,Korea,2019:8858-8867.
[19] Nazeri K,Ng E,Joseph T,et al. EdgeConnect:Structure guided image inpainting using edge prediction[C]// Proceedings of the IEEE International Conference on Computer Vision. Seoul,Korea,2019:3265-3274.
Image Inpainting Model Using Cascaded Generative Adversarial Network
He Kai,Liu Kun,Li Chen,Ma Xitao
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
To solve the problem of image blur or texture distortion in the existing algorithms,this study proposes a new image inpainting model,called the cascaded generative adversarial networks(C-GAN). The model is cascaded by the coarsening and refinement generation of the sub-networks. In the coarsening generation network,a parallel convolution module is designed to solve the gradient disappearance problem of deep network. It is composed of a three-layer convolution path and a deep one in parallel. In the deep convolution path,a feature extraction module is proposed to achieve a richer image information using convolution kernels of different sizes. Additionally,a cascaded residual module is proposed in the refinement generation network to effectively enhance the feature reuse by cross-cascading the double-layer convolution with four channels. Besides,a module input feature map is added to the corresponding elements of the convolution result to improve the expressive ability of the network. Simultaneously,employment of the dilated convolution can fully make use of the context information and retain more rock-bottom image details,which is helpful to achieve a fine restoration. Simulation results demonstrate that the proposed algorithm can achieve better visual effects. For dataset 1,2,and 3,the peak signal-to-noise ratio(PSNR)values are 18.4532,18.5496,and 21.5299 and the structural similarity(SSIM)values are 0.8972,0.9683,and 0.8956 respectively. Highest quantification results are achieved using the comparison algorithm,implying that this algorithm can automatically inpaint some complex structures and texture information.
image inpainting;generative adversarial network;feature extraction module;residual module
TP391.41
A
0493-2137(2021)09-0917-08
10.11784/tdxbz202009074
2020-09-26;
2020-12-21.
何?凱(1972—??),男,博士,副教授.
何?凱,hekai@tju.edu.cn.
天津市自然科學(xué)基金資助項(xiàng)目(14JCQNJC01500).
Supported by the Natural Science Foundation of Tianjin,China(No. 14JCQNJC01500).
(責(zé)任編輯:孫立華)