李權鋒
摘? 要: 圖像修復是指將信息缺失的圖像進行像素填充以達到人類視覺滿意的效果。文章對該領域研究的相關技術進行綜述:首先描述了傳統(tǒng)的圖像修復方法,接著描述了基于深度學習的圖像修復方法,介紹各類方法的適用范圍及優(yōu)缺點,最后對未來的研究方向及重點提出展望。
關鍵詞: 圖像修復; 深度學習; 卷積神經(jīng)網(wǎng)絡; 自編碼網(wǎng)絡; 生成式對抗網(wǎng)絡
中圖分類號:TP391.4? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)12-06-04
Abstract: Image restoration is to fill the missing image with pixels to achieve the satisfactory effect of human vision. This paper reviews the related technologies in this field: firstly, it describes the traditional image restoration methods, and then describes the image restoration methods based on deep learning, introduces the application scope, advantages and disadvantages of various methods, and finally puts forward the prospect of future research direction and focus.
Key words: image restoration; deep learning; convolutional neural network; self-coding network; generative adversarial network
0 引言
生活離不開圖像,圖像作為反映客觀世界的重要載體,是人類接收外界信息的重要來源和手段。現(xiàn)實生活中,我們會遇到一些信息缺失的圖像,此時就需要我們對圖像進行修復。傳統(tǒng)的圖像修復依據(jù)紋理一致性和內容相似性,采用數(shù)學推斷的方法,根據(jù)圖像受損尺度的不同而采取不同的修復方法。傳統(tǒng)的圖像修復雖然可以較好地修復場景圖像,但是它卻不能夠對圖像語義信息進行修復。
近年來,深度學習得到快速的發(fā)展,在許多領域取得了較大的成功。利用深度學習技術可以獲取圖像語義信息,并預測出缺失的語義內容,解決傳統(tǒng)圖像修復方法的不足,使得修復的結果更加符合客觀事實。本文對傳統(tǒng)的圖像修復方法與基于深度學習的圖像修復方法的研究進展做整理和歸納,并對未來研究的方向與發(fā)展趨勢進行探討。
1 傳統(tǒng)圖像修復方法
1.1 基于結構的圖像修復方法
Bertalmio等人[1]提出BSCB模型,采用擴散的原理,沿著等照度線方向從圖像受損區(qū)域的鄰近區(qū)域平滑地傳播信息,對受損區(qū)域進行估計填充。Rudin等人[2]通過最小化估計解的總變差泛數(shù)進行圖像的去噪,提出了ROF模型。該模型將圖像理解為一個分段的平滑函數(shù),在有界變分空間(BV)對函數(shù)進行建模。Chan等人[3]基于變分模型,提出全變分(TV)圖像修復模型。該模型使用梯度下降流對圖像進行平滑處理,能夠很好地保持圖像邊緣特性,但TV模型遇到破損區(qū)域是曲線類時,并不能很好地進行修復,因此無法滿足圖像的連通性原則。Chan等人[4]在TV模型基礎上加入曲率擴散項K,提出了曲率擴散(CDD)修復模型,該模型解決了圖像修復的連通性原則的問題。Tsai等人[5]提出基于Mumford-Shah的修復模型,由于模型修補邊緣得不到平滑的曲線,導致其無法滿足圖像連通性原則。Esedoglu等人引入Euler’s elastic模型[6],提出基于Mumford-Shah-Eulerm模型[7],較為有效地彌補了Mumford-Shah模型的不足之處。
1.2 基于紋理的圖像修復方法
Efros等人[8]提出馬爾科夫隱式場(MRF),該算法可以保持圖像紋理與結構特征的一致性。Criminisi等人[9]提出基于樣本塊的紋理合成算法,該算法依據(jù)填充順序的優(yōu)先級對缺失區(qū)域進行填充,填充時如果置信度為零,則會引起填充次序的錯誤。Jia等人[10]提出一種魯棒的圖像合成方法,通過張量投票的方式自動從二維圖片中推出缺失信息。Simakov等人[11]和Wexler等人[12]提出基于圖像整體的樣本塊填充的圖像補全方法,該方法要求在完好區(qū)域找到與受損區(qū)域較為相似的樣本塊,否則修復的效果不好。Barnes等人[13]提出PatchMatch算法,此算法利用概率的思想進行快匹配,雖然降低了運算速度,但修復結果可能會產生偽影。許剛等人提出一種基于動態(tài)匹配與逐層鏈式優(yōu)化的圖像修復算法[14],該算法在對紋理的填充以及對線性結構的修復方面效果顯著,但當圖像中存在一定深度的物體遮擋關系時,就很難對邊緣信息進行有效地提取。高成英等人[15]提出一種基于稀疏表示的圖像修復算法,該算法可以更好地修復缺失區(qū)域較大以及紋理比較復雜的圖像。傳統(tǒng)的圖像修復方法對比如表1所列。
2 基于深度學習的圖像修復方法
2.1 基于自編碼器的圖像修復
Pathak等人[16]將編碼-解碼網(wǎng)絡結構與卷積神經(jīng)網(wǎng)絡結合,提出基于上下文編碼器的圖像修復方法,該方法首先使用卷積神經(jīng)網(wǎng)絡提取出圖像的高階特征,接著生成器接收壓縮后的向量并生成圖像。雖然該方法能夠較快地預測出相對合理的圖像結構信息,但紋理細節(jié)的處理不夠精細,不能夠很好地修復高分辨率的圖像。
2.2 基于生成式對抗網(wǎng)絡的圖像修復
Goodfellow等人[17]提出生成式對抗網(wǎng)絡(GAN),其結構如圖1所示,GAN由生成器和判
別器兩部分組成。生成式對抗網(wǎng)絡存在一些不足,比如在訓練中出現(xiàn)梯度消失、網(wǎng)絡模型不易被控制等問題。Yeh等人[18]提出基于DCGAN的語義圖像修復方法。與上下文編碼器相比,該方法訓練時不需要掩碼就可以成功的預測出任意大小的缺失區(qū)域信息,且修復后的結果沒有偽影,圖像修復的邊緣比較清晰,但不足之處是該方法對含有不同場景的圖像修復顯得有些乏力。
2.3 基于邊緣性對抗學習的圖像修復方法
Kamyar等人[19]提出基于對抗性邊緣學習的圖像修復方法,該方法受畫家工作方式的影響,先生成受損區(qū)域邊緣的信息,再對其填充顏色。雖然使用該模型圖像修復后的結果不會出現(xiàn)邊緣模糊現(xiàn)象,但對于相對復雜紋理區(qū)域邊緣的描繪不夠準確,并且模型的修復效果也因受損區(qū)域的不同而不同。
2.4 全局-局部一致的圖像修復方法
Satoshi等人[20]提出全局與局部一致的圖像修復方法(GL),該方法可以修復任意不規(guī)則形狀的缺失區(qū)域圖像,修復前與修復后的圖像對比如圖2所示,該方法修復的結果具有較高的分辨率且適用于多元場景圖像修復的任務,但當大面積的結構狀物體存在于受損圖像的掩膜中時,修復效果則不盡如人意。
2.5 多元圖像修復方法
Zheng等人[21]想到圖像修復合理的結果不應該是唯一的,提出了PICNet模型,模型將長短時記憶神經(jīng)網(wǎng)絡(Long Short Term Memory,LSTM)[22]與變分自編碼器(VariationalAuto-Encoders,VAEs)[23]進行結合,該模型可以生成多樣化且高質量的圖片,提出的長短期注意力層可以讓生成的圖像更加真實。
2.6 上下文感知語義修復方法
Jiahui Yu等人[24]引入了一個新的上下文注意層,提出使用語境感知的修復方法。該方法先對受損區(qū)域進行值預估,接著細化網(wǎng)絡并在全局找尋與粗略估計值最為相似的區(qū)域集合,最后使用注意力機制對結果進行銳化。相比于之前的圖像修復方法存在邊緣模糊的問題,該方法的修復結果得到了改善,未來可以應用到高分辨率的圖像修復上。基于深度學習的圖像修復方法與傳統(tǒng)的圖像修復方法對比分析如表2所列。
3 結束語
利用深度學習技術,可以預測出缺失的語義內容,彌補了傳統(tǒng)圖像修復方法的不足,使得修復的結果更加符合客觀事實,顯然該方法已成為主流的圖像修復方法。本文對傳統(tǒng)的圖像修復與基于深度學習的圖像修復方法作了分類總結,我們針對該領域研究中依然存在的技術難點,對今后研究的方向與發(fā)展的趨向做以下展望。
⑴ 圖像修復是用完好區(qū)域的已知信息對待修復區(qū)域進行缺失值預測,如何有效的提取已知信息,并很好地將提取到的信息與缺失內容信息之間建立關聯(lián),是今后研究中值得深入探究的內容之一。
⑵ 現(xiàn)有的圖像修復技術對于低分辨圖像的修復做的很出色,但是對于高分辨圖像的修復技術還需要不斷地改進創(chuàng)新。
⑶ GAN在圖像生成中起到了關鍵的作用,但是不同GAN模型的評價指標不一致,為了更新模型時有章可循,就需要一些相對合理的評估指標,同時GAN模型存在著訓練不穩(wěn)定等問題。這些問題會被不斷地修繕,從而推動GAN模型不斷改進。
參考文獻(References):
[1] Bertalmio M, Sapiro G, Caselles V, et al. Image inpainting[C]//Proceedings of the 27th annual conference on Computer graphics and interactive techniques,2000:417-424
[2] Rudin L I, Osher S. Nonlinear total variation based noise removal algorithms[J].Physica D: nonlinear phenomena,1992.60(1-4):259-268
[3] Shen J, Chan T F. Mathematical models for local nontexture inpaintings[J]. SIAM journal on Applied Mathematics,2002.62(3):1019-1043
[4] Chan T F, Shen J. Nontexture inpainting by curvature-driven diffusions[J]. Journal of visual communication image representation,2001.12(4):436-449
[5] Tsai A, Yezzi A, Willsky A S. Curve evolutionimplementation of the Mumford-Shah functional for image segmentation, denoising, interpolation, and magnification[J].IEEE transactions on Image Processing, 2001.10(8):1169-1186
[6] Shen J, Kang S H, Chan T F. Euler's elastica and? curvature-based inpainting[J]. SIAM journal on Applied Mathematics,2003.63(2):564-592
[7] Esedoglu S, Shen J. Digital inpainting based on the Mumford-Shah-Euler image model[J]. European Journal of Applied Mathematics,2002.13(4):353-370
[8] Efros A A, Leung T K. Texture synthesis by non-parametric sampling[C]// Proceedings of the seventh IEEE international conference on computer vision,IEEE,1999:1033-1038
[9] Criminisi A, Pérez P, Toyama K. Region filling and object removal by exemplar-based image inpainting[J]. IEEE transactions on Image Processing,2004.13(9):1200-1212
[10] Jia J, Tang C-K. Image repairing: Robust image synthesis by adaptive nd tensor voting[C]// 2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2003 Proceedings,IEEE,2003:I-I
[11] Simakov D, Caspi Y, Shechtman E, et al. Summarizing visual data using bidirectional similarity[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2008:1-8
[12] Wexler Y, Shechtman E, Irani M. Space-time completion? of video[J]. IEEE Transactions on pattern analysis and machine intelligence,2007.29(3): 463-476
[13] Barnes C, Shechtman E, Finkelstein A, et al.PatchMatch:A randomized correspondence algorithm for structural image editing[J]. ACM Trans Graph,2009.28(3):24
[14] 許剛,馬爽.動態(tài)尺度塊匹配約束下的鏈式優(yōu)化圖像修復研究[J].電子學報,2015.43(3):529-535
[15] 高成英,徐仙兒,羅燕媚等.基于稀疏表示的物體圖像修復[J].計算機學報,2019.9.
[16] Pathak D, Krahenbuhl P, Donahue J, et al. Context?encoders: Feature learning by inpainting[C]// Proceedings of the IEEE conference on computer vision and pattern recognition,2016:2536-2544
[17] Goodfellow I, Pouget-Abadie J, Mirza M, et al.Generative adversarial networks[J]. Communications of the ACM,2020.63(11):139-144
[18] Yeh R A, Chen C, Yian Lim T, et al. Semantic image inpainting with deep generative models[C]// Proceedings of the IEEE conference on computer vision and pattern recognition,2017:5485-5493
[19] Nazeri K, Ng E, Joseph T, et al. Edgeconnect: Structure guided image inpainting using edge prediction[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops,2019:0-0
[20] Iizuka S, Simo-Serra E, Ishikawa H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics (ToG),2017.36(4):1-14
[21] Zheng C, Cham T-J, Cai J. Pluralistic image completion [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:1438-1447
[22] Hochreiter S, Schmidhuber J. Long short-term memory[J].Neural computation,1997.9(8):1735-1780
[23] Kingma D P, Welling M. Auto-encoding variational bayes[J].arXiv preprint arXiv:13126114, 2013.
[24] Yu J, Lin Z, Yang J, et al. Generative image inpainting with contextual attention[C]// Proceedings of the IEEE conference on computer vision and pattern recognition,2018:5505-5514