劉龍飛,李 勝,賴舜男
?
神經(jīng)網(wǎng)絡(luò)在退化圖像復(fù)原領(lǐng)域的進展綜述
劉龍飛,李 勝,賴舜男
(北京大學(xué)信息科學(xué)技術(shù)學(xué)院,北京 100871)
退化圖像復(fù)原是圖像計算領(lǐng)域中的一個重要的難題。近年來以深度學(xué)習為代表的人工智能(AI)技術(shù)取得了快速的發(fā)展,越來越多的基于神經(jīng)網(wǎng)絡(luò)解決退化圖像復(fù)原的研究工作出現(xiàn)。首先介紹了神經(jīng)網(wǎng)絡(luò)進行退化圖像還原的主要技術(shù)并對圖像復(fù)原的問題進行分類;然后利用神經(jīng)網(wǎng)絡(luò)解決退化圖像復(fù)原問題中細分的多個主要問題,并對每個問題的當前研究現(xiàn)狀與多種基于深度學(xué)習網(wǎng)絡(luò)的解決方法的優(yōu)勢與局限性進行歸納分析,并給出與傳統(tǒng)方法的對比。最后介紹了基于對抗神經(jīng)網(wǎng)絡(luò)的極限退化圖像復(fù)原的新方法,并對未來前景進行展望。
退化圖像復(fù)原;神經(jīng)網(wǎng)絡(luò);對抗網(wǎng)絡(luò);人工智能
近年來,以神經(jīng)網(wǎng)絡(luò)(neural networks)[1]為代表的深度學(xué)習方法為包括退化圖像復(fù)原在內(nèi)的計算機圖像與視覺各個領(lǐng)域帶來了快速的發(fā)展。其可以通過網(wǎng)絡(luò)訓(xùn)練的方式找到退化圖像與原圖像之間的映射關(guān)系,從而進行退化圖像的復(fù)原。由于良好的復(fù)原效果和對不同場景靈活的適應(yīng)能力已經(jīng)吸引了越來越多的學(xué)者從事相關(guān)的研究。在多個退化圖像復(fù)原的相關(guān)細分問題中,基于神經(jīng)網(wǎng)絡(luò)方法的復(fù)原效果超越了傳統(tǒng)方法。神經(jīng)網(wǎng)絡(luò)的快速發(fā)展為退化圖像復(fù)原的發(fā)展做出了巨大的貢獻。
圖像在形成、記錄、處理和傳輸過程中,由于成像系統(tǒng)、記錄設(shè)備、傳輸介質(zhì)和處理方法的不完善,導(dǎo)致圖像質(zhì)量的下降,造成了圖像退化。退化圖像分很多種,本文重點介紹神經(jīng)網(wǎng)絡(luò)對6種退化圖像的復(fù)原問題[2-6],圖1為不同退化圖像的復(fù)原效果圖[7-10]。
退化圖像 復(fù)原圖像 (a) 圖像局部 缺失修復(fù)(b) 插值圖 像復(fù)原(c) 高斯噪聲 圖像復(fù)原(d) 運動模糊 圖像復(fù)原(e) 黑白圖 像著色(f) 低分辨率 圖像復(fù)原
圖2 圖像退化/復(fù)原過程的模型[12]
HINTON等[13]于2006年提出深度學(xué)習的概念。2011年卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)被應(yīng)用在圖像識別領(lǐng)域,取得的成績令人矚目。2015年LECUN等[14]在Nature上刊發(fā)了一篇深度學(xué)習(deep learning)的綜述,標志著深度神經(jīng)網(wǎng)絡(luò)不僅在工業(yè)界獲得了成功,也被學(xué)術(shù)界所接受。而在圖像領(lǐng)域,最出名的無疑是CNN。通常CNN在卷積層之后會接上若干個全連接層,將卷積層產(chǎn)生的特征圖(feature map)映射成一個固定長度的特征向量。以AlexNet[1]為代表的經(jīng)典CNN結(jié)構(gòu)適用于圖像的分類和回歸任務(wù),并期望得到整個輸入圖像的一個數(shù)值描述(概率),當AlexNet網(wǎng)絡(luò)訓(xùn)練ImageNet數(shù)據(jù)集時輸出一個1 000維的向量,其向量表示輸入圖像屬于每一類的概率(經(jīng)softmax歸一化)。在此基礎(chǔ)之上,提出了全卷積網(wǎng)絡(luò)(full convolution network,F(xiàn)CN)[15],自編碼器(autoencoder)[16-17]和生成對抗網(wǎng)絡(luò)(generative adversarial nets,GANs)[18],其是神經(jīng)網(wǎng)絡(luò)能夠進行退化圖像復(fù)原的基礎(chǔ)。FCN實現(xiàn)了通過神經(jīng)網(wǎng)絡(luò)進行圖像生成的愿望。自編碼器最早是用來進行數(shù)據(jù)降維,但之后人們發(fā)現(xiàn)使用自編碼結(jié)構(gòu)的FCN能夠?qū)D像的生成的穩(wěn)定性起到很大的幫助。2014年GOODFELLOW等[18]提出GANs,進一步提高了圖像的生成質(zhì)量。其也是使用神經(jīng)網(wǎng)絡(luò)進行退化圖像復(fù)原的主要技術(shù)。
FCN[15]對圖像進行像素級別的分類,從而解決了語義級別的圖像分割(semantic segmentation)問題。與經(jīng)典的CNN在卷積層之后使用全連接層得到固定長度的特征向量進行分類(全連接層加softmax輸出)不同,F(xiàn)CN可以接受任意尺寸的輸入圖像。首先,將輸入圖像逐層卷積;然后,對最后一個卷積層的特征采用反卷積層進行上采樣,使其恢復(fù)到輸入圖像相同的尺寸;最后,使用損失函數(shù)計算生成圖像的loss值進行反向傳播,結(jié)構(gòu)如圖3所示。需對每個像素均產(chǎn)生了一個預(yù)測,同時保留原始輸入圖像中的空間信息;在上采樣的特征圖上進行逐像素分類并計算其softmax分類的損失,相當于每一個像素對應(yīng)一個訓(xùn)練樣本。該網(wǎng)絡(luò)如UNet[19-20]能實現(xiàn)從一張圖片生成另一張圖片的功能,即FCN技術(shù)是使用神經(jīng)網(wǎng)絡(luò)進行以圖生成圖的基礎(chǔ)技術(shù)。
圖3 全卷積網(wǎng)絡(luò)模型[6]
自編碼器,也稱自動編碼器[16-17](auto-encoder,AE),其是一種人工神經(jīng)網(wǎng)絡(luò)。在無監(jiān)督學(xué)習中用于有效編碼。自編碼器的目的是通過對一組數(shù)據(jù)學(xué)習得出一種表示(也稱表征,編碼),通常用于降維。
自編碼的概念廣泛地用于數(shù)據(jù)的生成模型。如Auto-Encoding Variational Bayes[21]和Generating Faces with Torch[22],其基本原理是輸入和輸出使用不同的圖像。這樣自編碼器可以根據(jù)輸入圖像生成新的圖像。在退化圖像復(fù)原領(lǐng)域,很多網(wǎng)絡(luò)如Context Encoders[23],UNet[19]借鑒了自編碼器的設(shè)計思想并取得了不錯的效果。
圖4 自編碼器網(wǎng)絡(luò)模型結(jié)構(gòu)
GANs與2014年由GOODFELLOW等[18]在深度卷積網(wǎng)絡(luò)的基礎(chǔ)上提出,且在深度學(xué)習領(lǐng)域產(chǎn)生了巨大的轟動。
GANs與普通的CNN相比一個突出的優(yōu)點是在判別網(wǎng)絡(luò)與生成網(wǎng)絡(luò)的博弈下,使生成的圖像更加逼真。GANs的核心思想是從訓(xùn)練樣本中學(xué)習所對應(yīng)的概率分布,以期根據(jù)概率分布函數(shù)獲取更多的“生成”樣本實現(xiàn)數(shù)據(jù)的擴張[24]。GANs由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,且網(wǎng)絡(luò)相互交替學(xué)習?!皩埂笔窃摼W(wǎng)絡(luò)的核心,結(jié)合了博弈論的零和博弈思想。訓(xùn)練判別網(wǎng)絡(luò)讓其更好地區(qū)分真實樣本與生成網(wǎng)絡(luò)生成圖像的差別,而訓(xùn)練生成網(wǎng)絡(luò),是讓生成網(wǎng)絡(luò)更好地生成圖像來“欺騙”判別網(wǎng)絡(luò)。2個網(wǎng)絡(luò)通過不斷的相互博弈,最終達到讓GANs能夠生成更加逼真圖像的目的。
有時除使用隨機噪聲圖像生成類似真實圖像分布的逼真圖像外,還需通過得到原圖像與退化圖像之間的映射關(guān)系來生成某些退化圖像的原圖像,也就是常說的以圖生圖。此時僅給GANs提供大量完整圖像的訓(xùn)練集進行訓(xùn)練顯然是不夠的,還需要將缺損的圖像和對應(yīng)的完整圖像一起提供給網(wǎng)絡(luò),讓網(wǎng)絡(luò)學(xué)習到其間的一一對應(yīng)關(guān)系。條件生成對抗網(wǎng)絡(luò)(conditional generative adversarial nets,cGANs)[25]的出現(xiàn)解決了上述問題。
cGANs是在GANs提出不久后由MIRZA和OSINDERO[25]在GANs的基礎(chǔ)上進行了改進、設(shè)計并提出。條件生成對抗網(wǎng)絡(luò)(如圖5所示為條件生成對抗網(wǎng)絡(luò)的目標函數(shù))的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)都基于下述條件信息,即
其中,為生成網(wǎng)絡(luò);為判別網(wǎng)絡(luò);為損失函數(shù)的縮放系數(shù)。PATHAK等[23]證明,在cGANs的損失函數(shù)中加入傳統(tǒng)1或2范數(shù),會進一步提升網(wǎng)絡(luò)有效性。
在條件生成對抗網(wǎng)絡(luò)提出不久后,人們便意識到其將會給退化圖像復(fù)原領(lǐng)域帶來巨大的影響,對圖像合成和編輯也有廣泛的用途[26]。ISOLA等[9]利用條件生成對抗網(wǎng)絡(luò)技術(shù)開發(fā)了pix2pix①項目,用于實現(xiàn)一類圖像到另一類圖像的生成任務(wù),為圖像領(lǐng)域的應(yīng)用帶來了新的啟發(fā)(如圖5所示),輸入圖像經(jīng)過生成網(wǎng)絡(luò)得到新生成的圖像(),然后分別將()與結(jié)合作為負樣本,將真實圖像與結(jié)合作為正樣本訓(xùn)練判別網(wǎng)絡(luò),讓其學(xué)習鑒別該圖像是否為真實圖像。只有網(wǎng)絡(luò)學(xué)習找到缺損圖像與完整圖像之間的對應(yīng)關(guān)系后,生成網(wǎng)絡(luò)生成的對應(yīng)完整圖像,才能使與()融合在一起的圖像被判別網(wǎng)絡(luò)認可。該方法為退化圖像復(fù)原的很多領(lǐng)域打下了基礎(chǔ)。
圖5 條件生成對抗網(wǎng)絡(luò)pix2pix的網(wǎng)絡(luò)模型結(jié)構(gòu)[9]
自監(jiān)督學(xué)習(self-supervised learning)是一種自主監(jiān)督學(xué)習的方法,能夠消除人們對標注數(shù)據(jù)的依賴。自監(jiān)督學(xué)習方法非常自然的使用了訓(xùn)練數(shù)據(jù)以及上下文之間的關(guān)系或是嵌入元素作為監(jiān)督信號進行網(wǎng)絡(luò)訓(xùn)練。其可以是輸入數(shù)據(jù)即為訓(xùn)練目標的類Auto-Encoder[16-17]網(wǎng)絡(luò)結(jié)構(gòu),也可以是訓(xùn)練目標即為輸入的數(shù)據(jù)的類循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),甚至可以是輸入與輸出數(shù)據(jù)通過某種固定策略相互轉(zhuǎn)換,然后網(wǎng)絡(luò)目標是學(xué)習這種轉(zhuǎn)換規(guī)則的逆運算的網(wǎng)絡(luò)結(jié)構(gòu)等。自監(jiān)督學(xué)習也是目前解決非監(jiān)督學(xué)習難題的有效手段之一。很多神經(jīng)網(wǎng)絡(luò)處理退化圖像還原問題,如文獻[8, 20]等借鑒了自監(jiān)督學(xué)習的思路。神經(jīng)網(wǎng)絡(luò)的學(xué)習目標往往是清晰的圖像,而輸入圖像往往是退化圖像。通常情況采用傳統(tǒng)的策略或手段將清晰圖像轉(zhuǎn)變?yōu)橥嘶瘓D像,而網(wǎng)絡(luò)的學(xué)習目標就是逆向該處理過程,學(xué)習如何將退化圖像轉(zhuǎn)換為清晰圖像。
圖像局部缺失修復(fù)問題[23,27](image inpainting),是指一張圖像中一整片區(qū)域或幾片區(qū)域缺失,而缺失的區(qū)域可以是固定的色彩,也可能是隨機的色彩,缺失區(qū)域的形狀也可能是固定形狀或隨機形狀。這些有局部缺失的圖像作為神經(jīng)網(wǎng)絡(luò)的輸入,而原圖像作為網(wǎng)絡(luò)的目標圖像,從而進行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。需說明的是,此類問題因為缺失的區(qū)域通常很大,所以往往不能通過傳統(tǒng)方法[2,28-30]解決。在計算機圖形學(xué)領(lǐng)域,填充缺失區(qū)域一般使用基于場景計算的方法[31],但該方法通常用于修復(fù)圖像中某個物體缺失的一部分。而使用神經(jīng)網(wǎng)絡(luò)技術(shù)可以根據(jù)整個圖像缺失的內(nèi)容進行復(fù)原。評價處理此類問題的難點為:①缺失區(qū)域的大小及所占原圖的比例;②缺失區(qū)域的個數(shù);③缺失的區(qū)域形狀是否固定;④缺失的區(qū)域呈現(xiàn)固定已知的單一顏色還是未知的多種色彩。
表1為近年主要處理圖像修補問題文獻成果[20,23],文獻[23]方法通過在原有2 loss函數(shù)的基礎(chǔ)上增加Adversarial loss,可以有效地提高圖像的修補效果。文獻[20]提出了多尺度訓(xùn)練的思路,能夠?qū)⒏蟪叽绲膱D像進行復(fù)原并能提高復(fù)原的效果。由于該問題的解決是在原圖中遮蓋或替換較大部分的區(qū)域,所以生成的圖像不一定需要與原圖像內(nèi)容一致。因此判斷圖像復(fù)原的好壞就不能單一通過客觀評價指標(如PSNR值)來衡量,更多的是需要主觀評價來衡量。
表1 主流圖像修補網(wǎng)絡(luò)對退化圖像處理結(jié)果
Context Encoder[23]是最早提出通過合理的參數(shù)化算法解決圖像缺失問題的算法(圖6)。其將缺失圖像作為網(wǎng)絡(luò)的輸入圖像,經(jīng)過特征編碼和特征解碼的過程,生成缺失部分圖像。利用生成圖像和真實缺失圖像計算損失函數(shù),進行網(wǎng)絡(luò)的反向傳播訓(xùn)練。
圖6 Context Encoder的網(wǎng)絡(luò)結(jié)構(gòu)
綜上,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決圖像局部缺失問題的最重要手段,而且已經(jīng)取得了令人興奮的效果。尤其是GANs的出現(xiàn),使復(fù)原效果得到了質(zhì)的飛躍。從某些角度講,圖像局部缺失問題已經(jīng)成為了GANs的“代名詞”。然而,還需面對當圖像缺失面積過大,區(qū)域過多或是缺失后又有一定其他圖片混淆,且神經(jīng)網(wǎng)絡(luò)依舊無法復(fù)原出令人滿意的效果的情況。
像素插值復(fù)原問題[7,32](pixel interpolation),是指原始圖像被其他顏色以像素為單位有規(guī)律或無規(guī)律的插入。神經(jīng)網(wǎng)絡(luò)處理像素差值復(fù)原的過程為:先將原圖像的隨機像素位置替換為固定或隨機顏色,然后將生成的圖像作為神經(jīng)網(wǎng)絡(luò)的輸入圖像,原圖像為神經(jīng)網(wǎng)絡(luò)的目標圖像。該問題的關(guān)鍵是被插入像素占原圖像的比例(通常比例較大)大小,被插入像素的位置是否遵循一定的規(guī)律,以及被插入像素的顏色是固定的單一顏色還是未知的多種顏色等。此類問題在CT圖片復(fù)原等方面有著重要的實用意義,但針對該問題的研究并不很多,只是作為圖像重建方法的附帶功能,更多的研究集中在圖像的去噪問題上。
圖像去噪[33-43](image denoising)是指減少圖像中噪聲像素的過程,也可以被看作是圖像插值復(fù)原問題的一種特例,由于在現(xiàn)實中十分常見,而被單獨提出來,作為一類研究。噪聲概率密度函數(shù)(probability density function,PDF)包括:高斯噪聲、瑞利噪聲、伽馬噪聲、指數(shù)噪聲、均勻噪聲和椒鹽噪聲等。通常處理比較多的是加性高斯白噪聲(additive white Gaussian noise,AWGN)和椒鹽(脈沖)噪聲(salt and pepper noise),AWGN是將符合零均值分布的高斯噪聲添加到原圖像上,噪聲級別根據(jù)高斯分布的方差決定,的取值通常在75以內(nèi)。而椒鹽噪聲,又稱為雙極脈沖噪聲或散粒噪聲、尖峰噪聲;噪聲脈沖可以為正也可以為負。與圖像信號的強度相比,脈沖污染通常較大,所以在一幅圖像中脈沖噪聲通常被數(shù)字化為最大值(純黑或純白)。由于這一結(jié)果,負脈沖以一個黑點(胡椒點)出現(xiàn),而正脈沖則以白點(鹽粒點)出現(xiàn)在圖像中。噪聲級別是根據(jù)插入椒鹽噪聲的像素占圖像整體的百分比決定的,通常情況下噪聲所占比例不會超過75%。
表2對比了幾個比較流行的使用神經(jīng)網(wǎng)絡(luò)在不同數(shù)據(jù)集上進行去噪PSNR值。由表2可以看出,在神經(jīng)網(wǎng)絡(luò)提出之前就有很多學(xué)者從事圖像去噪的相關(guān)工作。而近些年使用神經(jīng)網(wǎng)絡(luò)進行圖像去噪的工作,不斷地取得突破。JAIN和SEUNG[43]建議使用CNN進行圖像去噪,并證明CNN可以達到甚至超越MRF模型且具有更好的復(fù)原能力。此外,文獻[39]成功將多層感知機應(yīng)用于圖像降噪中;文獻[42]還將稀疏自編碼器引到圖像去噪問題中,并取得了與K-SVD相近的效果。文獻[40]使用基于非線性反應(yīng)擴散(TNRD)模型,用前饋神經(jīng)網(wǎng)絡(luò)對使用稀疏編碼的傳統(tǒng)迭代方法進行擴展,然后通過使用固定步數(shù)的梯度下降來加速模型推理的性能。然而,TNRD模型也存在局限性,其采用的先例是基于分析模型,而該模型在捕獲圖像結(jié)構(gòu)的全部特征方面有限,因此限制了TNRD的作用。然而,與BM3D相比,TNRD具有較高的性能優(yōu)勢。而且TNRD與MLP相結(jié)合可達到與BM3D相近的處理效果。
表2 主流圖像去噪網(wǎng)絡(luò)對退化圖像處理結(jié)果
(注:表中數(shù)據(jù)為高斯方差為50的噪聲圖復(fù)原結(jié)果與原圖計算的PSNR值)
綜上所述,神經(jīng)網(wǎng)絡(luò)之所以在圖像去噪領(lǐng)域有著不錯的效果得益于機器學(xué)習的模式,對圖像去噪有較好的泛化能力。神經(jīng)網(wǎng)絡(luò)不但能處理固定噪聲的圖像,經(jīng)過相應(yīng)的訓(xùn)練也可以對不同程度的噪聲產(chǎn)生不錯的復(fù)原效果。然而,神經(jīng)網(wǎng)絡(luò)處理去噪問題時會遇到被去噪圖像的噪聲與訓(xùn)練圖像的噪聲分布相差較大,就根本無法復(fù)原其結(jié)果的情況。而且,當出現(xiàn)復(fù)原效果不理想的時候,神經(jīng)網(wǎng)絡(luò)的可解釋性也比較差。
圖像去模糊[8,32,44-45](image deblurring) 是指經(jīng)過某種模糊處理的圖像通過神經(jīng)網(wǎng)絡(luò)進行清晰圖像復(fù)原的過程。常見的模糊種類包括高斯模糊、運動模糊、中值模糊等,也可能是多種模糊混合生成的一種復(fù)合模糊。神經(jīng)網(wǎng)絡(luò)處理圖像去模糊的過程為:先將原圖像進行模糊處理,得到的圖像為神經(jīng)網(wǎng)絡(luò)的輸入圖像,原圖像為神經(jīng)網(wǎng)絡(luò)的目標圖像。非均勻圖像模糊計算為
其中,I為模糊的圖像;()為由運動場決定的模糊核;I為原圖像;為卷積操作;為加性噪聲。
文獻[44]是早期的工作,主要集中在假設(shè)模糊核()是已知的非盲去模糊。其主要依賴于執(zhí)行反卷積操作獲得和模糊核()的估計值。由于要為每個像素找到一個合適的模糊核是一個無法解決的問題,之前大多數(shù)算法是基于啟發(fā)式,圖像統(tǒng)計和假設(shè)的方法獲得圖像模糊的來源,即假設(shè)模糊來源于相機,那么整幅圖像的模糊是一致的,然后再執(zhí)行反卷積操作去模糊。
之后出現(xiàn)了一些基于CNN的方法進行去模糊操作。SUN等[45]最早利用CNN的方法預(yù)測模糊核進行圖像去模糊操作,圖像的非均勻模糊是由物體或相機的運動造成的,其為原圖像帶來了具有方向性的運動向量,這些非零的運動向量沿著運動軌跡構(gòu)成了模糊核,其在清晰圖像上的卷積操作產(chǎn)生了模糊的圖像。圖7(a)為輸入的模糊圖片,圖7(b)中的線段表示利用神經(jīng)網(wǎng)絡(luò)預(yù)測出的非均勻運動模糊核,圖7(c)為復(fù)原后的效果。文獻[45]并未做全局性的運動參數(shù)假設(shè),而是將圖像分成很多局部的區(qū)域進行分別估計(模糊核),從而實現(xiàn)圖像去模糊操作。而最近,NAH[46]使用多尺寸CNN進行端到端的去模糊,也取得了一定的效果。表3對比了幾個比較流行的網(wǎng)絡(luò)[8,45-48]進行圖像去模糊的實驗效果。由于模糊的情況種類較多,而且程度也有很大區(qū)別,神經(jīng)網(wǎng)絡(luò)在圖像去模糊問題上與傳統(tǒng)算法相比還有一定的距離。
(a) 輸入圖像(b) CNN估計的 運動模糊場(c) 去模糊 后結(jié)果
圖7 文獻[45]去模糊的處理流程
表3 主流圖像去模糊網(wǎng)絡(luò)對退化圖像處理結(jié)果
方法名稱神經(jīng)網(wǎng)絡(luò)損失函數(shù)復(fù)原效果PSNR(dB) Unnatural L0 SR[47]×–較好27.47 Non-uniform Deblurring[48]×–較好27.03 LCNN[45]√L2較差25.22 DMsCNN[46]√L2+adversarial loss較差26.48 DeblurGAN[8]√L1+adversarial loss一般26.10
目前基于神經(jīng)網(wǎng)絡(luò)的圖像去模糊仍未能達到傳統(tǒng)方法所取得效果,主要問題在于模糊的種類和范圍難以估計。在真實環(huán)境中,模糊的種類可能是高斯模糊、運動模糊、中值模糊等,而且模糊所占圖片的范圍也可能不固定,模糊的程度差別很大,此類問題都對使用神經(jīng)網(wǎng)絡(luò)處理圖像去模糊問題產(chǎn)生了限制。
圖像著色[49-50](image colorization)是指將局部或整體顏色缺失的退化圖像通過著色進行圖像復(fù)原處理。使用神經(jīng)網(wǎng)絡(luò)處理圖像著色問題的步驟為:先將原圖片處理為灰度圖像,并做為神經(jīng)網(wǎng)絡(luò)的輸入圖像。原圖像為神經(jīng)網(wǎng)絡(luò)的目標圖像。解決該問題早期使用的是半自動化的方法,如基于圖像示例的方法[51-55],從單幅圖或多幅圖中統(tǒng)圖像的顏色信息[56-57],然后使用類似色彩遷移[58]或圖像類別[59]的技術(shù)輸出到灰度圖像中。當引用圖像與被處理圖像十分相似時,此類方法有很好的處理效果。然而找到相似圖像的工作十分的耗時,尤其是對于那些復(fù)雜的對象或場景。
最近,全自動的圖像著色方法被紛紛提出[9,60-63],通常使用基于全卷積的深度神經(jīng)網(wǎng)絡(luò)技術(shù)來完成。而對于圖像著色問題的另一種思路是給出一定的位置的提示信息,進行圖像著色。圖8展示了文獻[64]使用的半自動著色方案,將黑白圖像與彩色離散的色塊相結(jié)合的方式輸入網(wǎng)絡(luò),進行圖像色彩預(yù)測。一方面能夠讓網(wǎng)絡(luò)更加有針對性的進行顏色預(yù)測,另一方面也為圖像著色提供了更多的選擇,能夠?qū)⒅付ㄎ恢弥山o定的顏色。表4對比了幾個主流圖像著色網(wǎng)絡(luò)[5,62-64]的處理效果。由表4可以看出在圖像著色問題上神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)方法有著較明顯的優(yōu)勢,因為基于神經(jīng)網(wǎng)絡(luò)的圖像著色技術(shù)擅長于從圖像中提取豐富的語義信息,然后將其關(guān)聯(lián)到高層次的感官和場景信息中。尤其是在給出一定額外的提示輸入后,神經(jīng)網(wǎng)絡(luò)可以很好的充分利用提示信息進行圖像顏色推斷并將最合理的顏色賦予指定的區(qū)域。
(a) 灰度圖像(b) 用戶輸入的 稀疏色塊(c) 輸出圖像
表4 主流圖像著色網(wǎng)絡(luò)對退化圖像處理結(jié)果
方法名稱神經(jīng)網(wǎng)絡(luò)額外輸入復(fù)原效果PSNR (dB) 像素預(yù)測×–較差22.82 CIC[5]√自動局部顏色缺失22.04 LRAC[63]√自動局部顏色缺失24.93 AICSC[62]√自動局部顏色缺失23.69 RTUGIC[64]√局部顏色提示較好24.43
目前基于神經(jīng)網(wǎng)絡(luò)的圖像著色問題已經(jīng)取得一定的進展。然而,使用神經(jīng)網(wǎng)絡(luò)進行圖像著色依舊存在很多的問題,如對于圖像中物體的細節(jié)部分或是圖像中有一定遮擋物體來說,神經(jīng)網(wǎng)絡(luò)的著色通常不是很準確。這主要是因為神經(jīng)網(wǎng)絡(luò)的著色過程是基于機器學(xué)習的思路,對于物體細節(jié)部分或是受到遮擋物體的顏色信息容易受到光線、角度等因素影響。但是,在神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展的推動下正逐步被克服。例如對于圖像顏色信息不明確的問題,學(xué)術(shù)界的處理思路已經(jīng)從基于端到端的全自動著色進展到基于一定條件的半自動著色上來。而且,從現(xiàn)階段的復(fù)原效果上看,半自動噪聲已經(jīng)逐步替代了全自動著色成為了圖像著色領(lǐng)域的主力。相信在不久的將來,利用神經(jīng)網(wǎng)絡(luò)進行圖像著色一定會有更大的發(fā)展市場,也會讓更多的資源傾向到利用神經(jīng)網(wǎng)絡(luò)處理圖像著色問題中來。
圖像超分辨率[50,65-73](image super resolution)是利用量化后的關(guān)系將LR圖像通過恢復(fù)生動紋理和顆粒細節(jié)等以變成HR (high resolution)的過程。通常使用神經(jīng)網(wǎng)絡(luò)進行超分辨率的方法為:先將原清晰圖像壓縮尺寸得到LR圖像,然后將LR圖像通過線性插值方式得到新的HR圖像。由于新的HR圖像是經(jīng)過LR處理后得到的,所以內(nèi)容比較模糊,此圖像即為神經(jīng)網(wǎng)絡(luò)的輸入圖像,原清晰圖像為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標圖像。從圖像轉(zhuǎn)換的角度看,通常說的超分辨率問題指的是單幅圖像的超分辨率(single image super-resolution,SISR)問題,其可分為4類[67]:預(yù)測模型(prediction models)、基于邊緣方法(edge based methods)、基于圖像統(tǒng)計方法(image statistical methods)、基于補丁(patch based)或基于樣例(example-based)的方法。評價此類問題處理的難度主要看圖像放大的倍數(shù)。放大倍數(shù)通常為2,3,4倍。表5比較了主流圖像超分辨率網(wǎng)絡(luò)[67,69-73]的處理效果??梢钥吹缴窠?jīng)網(wǎng)絡(luò)處理超分辨率問題相較于傳統(tǒng)算法有著比較明顯的優(yōu)勢。當圖像放大4倍時,基本能達到30 dB以上的峰值信噪比(peak signal noise ratio,PSNR)。雙線性插值是在神經(jīng)網(wǎng)絡(luò)之前經(jīng)典的處理超分辨率問題的算法。
表5 主流圖像超分辨率網(wǎng)絡(luò)對退化圖像處理結(jié)果
(注:表中數(shù)據(jù)為放大4倍的復(fù)原圖與原圖計算的PSNR值)
SRCNN[69](圖9)是使用CNN處理超分辨率的鼻祖方法,其通過FCN的方式預(yù)測LR與HR之間的非線性映射關(guān)系。具體方法為:先將LR圖像使用雙三次差值放大至目標尺寸(如放大2倍、3倍、4倍),并稱放大至目標尺寸后的圖像為LR圖像(Low-resolution image),即圖中的輸入(input)。將LR圖像輸入3層CNN,第1層卷積:卷積核尺寸9×9,卷積核數(shù)目為64,輸出64張?zhí)卣鲌D;第2層卷積:卷積核尺寸1×1,卷積核數(shù)目32,輸出32張?zhí)卣鲌D;第3層卷積:卷積核尺寸5×5,卷積核數(shù)目1,輸出1張?zhí)卣鲌D即為最終重建HR圖像。該方法處理LR圖片的效果明顯優(yōu)于非神經(jīng)網(wǎng)絡(luò)方法。之后隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,人們逐漸意識到更深的網(wǎng)絡(luò)層數(shù)能夠提高網(wǎng)絡(luò)預(yù)測HR的效果。于是VDSR[72]提出使用20層的卷積層來提高網(wǎng)絡(luò)的復(fù)原能力;之后DRCN[67]引入了非常深的遞歸鏈結(jié)構(gòu)層。此時,不斷加深的網(wǎng)絡(luò)層次所帶來的龐大的參數(shù)數(shù)量又給神經(jīng)網(wǎng)絡(luò)處理超分問題帶來了新的困惑。DRRN[73]提出了具有多路徑結(jié)構(gòu)的遞歸塊(該模塊能夠在增加卷積深度而不添加參數(shù)的情況下提升準確率),再次緩解了該問題。而且隨著網(wǎng)絡(luò)的發(fā)展,參數(shù)也在盡可能的縮減。
圖9 SRCNN網(wǎng)絡(luò)架構(gòu)圖(左側(cè)的低分辨率圖像經(jīng)過特征提取層、非線性映射層與重建層,最終生成右側(cè)的高分辨率圖像)
目前基于神經(jīng)網(wǎng)絡(luò)的圖像超分辨率已經(jīng)取得令人滿意的效果,尤其是在GANs大行其道的今天,神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)成為了解決圖像超分辨率問題首選技術(shù)。然而,對于使用神經(jīng)網(wǎng)絡(luò)技術(shù)解決超分辨率問題仍存在一定的問題。其中就包括超分辨率后圖像的尺寸問題,現(xiàn)階段使用神經(jīng)網(wǎng)絡(luò)進行超分辨率時很難生成高質(zhì)量的清晰圖片(如分辨率在1 K或2 K)。因為,生成HR圖像需要更高清晰度的訓(xùn)練集和更大的計算量。神經(jīng)網(wǎng)絡(luò)是基于訓(xùn)練的機器學(xué)習方法,訓(xùn)練的耗時是主要問題。
圖像的復(fù)原可能要面臨非常極端低質(zhì)的原始數(shù)據(jù)。在極端條件下,由于大量的原始信息丟失、有效信息稀少同時還存在大量的干擾信息,因此如何在惡劣的條件下進行有效的圖像復(fù)原是一個非常困難的問題。針對上述極端條件,提出X (Etreme Cases)-GANs,一種基于條件生成對抗網(wǎng)絡(luò)的方法來解決極限退化圖像復(fù)原問題[7]。圖10為網(wǎng)絡(luò)架構(gòu)圖,網(wǎng)絡(luò)由生成器Generator和損失函數(shù)組成。生成器包括下采樣、基于殘差網(wǎng)絡(luò)的殘差塊Residual blocks和上采樣3部分。損失函數(shù)包括關(guān)聯(lián)點損失函數(shù)Corresponding point loss、基于VGG網(wǎng)絡(luò)的感知損失函數(shù)VGG perceptual loss和基于多尺度判別器的對抗感知損失函數(shù)Adversarial perceptual loss、GANs本身的對抗損失函數(shù)Adversarial loss 4部分組成。本文聚焦于僅包含極少的有用信息的圖像復(fù)原工作,不同于文獻[3]是將25%以上離散點的64×64或128×128圖像進行復(fù)原,挑戰(zhàn)具有更高難度的只包含20%以內(nèi)有用信息的256×256退化圖像復(fù)原。面對將盡少量的隨機離散點進行復(fù)原的問題,基于文獻[6, 74]的工作,本文嘗試了如使用非參數(shù)概率密度函數(shù)估計方法等。X-GANs可以解決更少的已知離散點的圖像復(fù)原并可以得到更好和更穩(wěn)定的效果。本文所設(shè)計的神經(jīng)網(wǎng)絡(luò)在解決此類問題時有著自身獨特的優(yōu)勢,通過對大量數(shù)據(jù)樣本進行學(xué)習,學(xué)會了“聯(lián)想”出離散點與對應(yīng)圖像映射關(guān)系。X-GANs對極少量離散點(20%以內(nèi)離散點)的圖像復(fù)原也取得了不錯的效果。
圖10 網(wǎng)絡(luò)架構(gòu)圖(左側(cè)生成器由殘差塊組成,右側(cè)包括對抗損失函數(shù),對抗感知損失函數(shù)組成的多尺度判別器以及VGG感知損失函數(shù)和下面的關(guān)聯(lián)點損失函數(shù))
為了進一步壓縮已知離散點數(shù)量,本文將離散點分布在特定的區(qū)域其有益于圖像復(fù)原,采用sobel[75]或canny算子將圖像邊緣提取出來,目的是將離散點分布在梯度變化較大的區(qū)域。實驗表明,在相同百分比有效離散點的時候,使用sobel[75]算子指定離散點分布的圖像能夠更好的進行圖像復(fù)原。被復(fù)原圖像的細節(jié)和邊緣更加清晰。考慮到人們對圖像某些區(qū)域的復(fù)原效果更為重視,也就是人們視覺重點關(guān)注的區(qū)域。本文最終將被復(fù)原的圖像定義為離散點根據(jù)概率重點覆蓋梯度變化較大的區(qū)域進行掩碼處理之后的圖像。而對于那些梯度沒什么變化的區(qū)域,則覆蓋較少的離散點。該策略可用于圖像的高倍率壓縮方法中。
為了從另一個方面挑戰(zhàn)網(wǎng)絡(luò)訓(xùn)練的能力。本文嘗試解決具有更高復(fù)雜性的隨機彩色噪聲這個新問題。因為網(wǎng)絡(luò)需要在大量彩色點中剝離開干擾信息找到能夠構(gòu)成某個人物的圖像的有效點信息并進行復(fù)原。針對該問題,同樣采用了僅包含20%以內(nèi)的有用信息的圖像進行復(fù)原并取得了良好的結(jié)果。
最后,本文在圖像修補問題上也進行了探討,網(wǎng)絡(luò)對256×256圖像,缺失塊在128×128大小也取得不錯的效果。并且為提升問題難度,本文定義了將缺失白色塊替換為隨機的錯亂色塊的圖像缺失問題,提高了網(wǎng)絡(luò)恢復(fù)圖像難度。網(wǎng)絡(luò)除了要面對區(qū)分復(fù)原數(shù)據(jù)的區(qū)域,還要進行復(fù)原這兩個任務(wù)。圖11在上述2個問題上都取得了令人滿意的效果。
圖11 X-GANs網(wǎng)絡(luò)對不同退化圖像的復(fù)原結(jié)果((a) 隨機場景彩色噪聲;(b) 隨機場景像素插值;(c) 使用Sobel算子處理后的像素插值復(fù)原問題;(d) 圖像修補;(e) 圖像修補(空白);(f) 人物場景彩色噪聲圖像)
綜上可知,相比于非神經(jīng)網(wǎng)絡(luò)的算法,使用基于神經(jīng)網(wǎng)絡(luò)技術(shù)解決退化圖像復(fù)原問題的優(yōu)勢十分明顯。首先,開發(fā)者不必針對每種復(fù)原問題設(shè)計完全獨立的算法并進行分析,而只需要設(shè)計一種網(wǎng)絡(luò)模型,就能解決很多種退化圖像復(fù)原的問題。其次,網(wǎng)絡(luò)的訓(xùn)練只需要進行簡單的數(shù)據(jù)標注和映射等工作,網(wǎng)絡(luò)能夠根據(jù)所給的數(shù)據(jù)自動學(xué)習到退化圖像與完整圖像的映射關(guān)系并自動進行圖像的復(fù)原工作。最后,GANs根據(jù)學(xué)習到的東西產(chǎn)生了一定的“聯(lián)想”能力,能夠在數(shù)據(jù)量極少的情況下對未知區(qū)域給出相對合理的數(shù)據(jù)預(yù)測。
但是神經(jīng)網(wǎng)絡(luò)處理上述問題也有一定的局限性。如泛化能力不足,是因為其是基于機器學(xué)習的,所以多數(shù)情況下只對學(xué)過的問題類型敏感,并依賴于訓(xùn)練的數(shù)據(jù)質(zhì)量和數(shù)量。而且在很多時候網(wǎng)絡(luò)對大尺寸圖像和高清圖像處理效果不是很理想,神經(jīng)網(wǎng)絡(luò)存在不穩(wěn)定性,很容易陷入到一個鞍點或局部極值點上。除此之外,神經(jīng)網(wǎng)絡(luò)的可解釋性比較差[24],當出現(xiàn)生成效果不理想時很難通過調(diào)整網(wǎng)絡(luò)來進行修復(fù)。而這些問題都是未來研究工作需要解決的關(guān)鍵。
神經(jīng)網(wǎng)絡(luò)技術(shù)為解決退化圖像復(fù)原問題帶來了新的思路,同時也帶來了新的挑戰(zhàn)。本文除了介紹的6類問題之外,還有圖像去霧(haze removal)、去雨水(raindrop removal)等問題也受到學(xué)者們的關(guān)注。對于圖像去霧問題,比較經(jīng)典的解決方案還是傳統(tǒng)算法為主[76-78],如文獻[76]使用暗通道先驗去霧算法對圖像去霧問題產(chǎn)生了巨大的影響。對于去雨水問題,神經(jīng)網(wǎng)絡(luò)已經(jīng)是主流的解決方法[79-81],如文獻[79]解決思路與上文介紹的主流算法一致,通過全卷積或GANs等方式進行雨水圖像還原。
隨著越來越多的學(xué)者投身其中,問題也在不斷地被克服。比如pix2pixHD方法[82]對解決條件生成對抗網(wǎng)絡(luò)如何生成高清圖像問題取得了不錯的效果。再比如使用非監(jiān)督方式訓(xùn)練條件生成對抗網(wǎng)絡(luò)方面也做出貢獻[83]。相信不久的將來在越來越多學(xué)者的努力下,神經(jīng)網(wǎng)絡(luò)在退化圖像復(fù)原領(lǐng)域會有更好的發(fā)展。
[1] KRIZHEVSKY A, ILYA S, HINTON G E. Imagenet classification with deep convolutional neural networks [C]//The 25th International Conference on Neural Information Processing Systems. New York: ACM Press, 2012: 1097-1105.
[2] BERTALMIO M, SAPIRO G, CASELLES V, et al. Image inpainting [C]//The 27th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2000: 417-424.
[3] GAO R, GRAUMAN K. On-demand learning for deep image restoration [EB/OL]. [2016-12-05]. https://arxiv. org/abs/1612.01380.
[4] BUADES A, COLL B, MOREL J M. A non-local algorithm for image denoising [C]//2005 IEEE Conference on Computer Vision and Pattern Recognition. York: IEEE Press, 2005: 60-65.
[5] ZHANG R, ISOLA P, EFROS A A. Colorful image colorization [C]//The 17th European Conference on Computer Vision. Heidelberg: Springer, 2016: 649-666.
[6] YANG J, WRIGHT J, HUANG T S, et al. Image super-resolution via sparse representation [EB/OL]. [2010-05-18]. https://ieeexplore. ieee.org/abstract/ document/ 5466111.
[7] LIU L, LI S, CHEN Y, et al. X-GANs: Image reconstruction made easy for extreme cases [EB/OL]. [2018-08-06]. https://arxiv.org/abs/1808.04432.
[8] KUPYN O, BUDZAN V, MYKHAILYCH M, et al. DeblurGAN: Blind motion deblurring using conditional adversarial networks [EB/OL]. [2017-11-19]. https://arxiv. org/abs/1711.07064.
[9] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks [EB/OL]. [2016-11-21]. https://arxiv.org/abs/1611.07004.
[10] S?NDERBY C K, CABALLERO J, THEIS L, et al. Amortised map inference for image super-resolution [EB/OL]. [2016-10-14]. https://arxiv.org/abs/1610.04490.
[11] 張紅英, 彭啟琮. 數(shù)字圖像修復(fù)技術(shù)綜述[J]. 中國圖象圖形學(xué)報, 2007(1): 1-10.
[12] 岡薩雷斯, 伍茲. 數(shù)字圖像處理[M]. 3版. 阮秋琦, 阮宇智等譯. 北京: 電子工業(yè)出版社, 2011: 1-633.
[13] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [EB/OL]. [2006-07-18]. https://www.mitpressjournals.org/doi/abs/ 10.1162/neco.2006.18.7.1527.
[14] LECUN Y, BENGIO Y, HINTON G. Deep learning [EB/OL].[2015-05-28]. https://www.nature. com/articles/ nature14539.
[15] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 3431-3440.
[16] LIOU C Y, HUANG J C, YANG W C. Modeling word perception using the Elman network [EB/OL]. [2008-10-01]. https://www.sciencedirect. com/science/ article/pii/S0925231208002865.
[17] LIOU C Y, CHENG W C, LIOU J W, et al. Autoencoder for words [EB/OL]. [2014-09-02]. https://www.sciencedirect.com/science/article/pii/S0925231214003658.
[18] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]//NIPS’14 Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: IEEE Press, 2014: 2672-2680.
[19] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation [C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Heidelberg: Springer, 2015: 234-241.
[20] YANG C, LU X, LIN Z, et al. High-resolution image inpainting using multi-scale neural patch synthesis [C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 3.
[21] KINGMA D P, WELLING M. Auto-encoding variational bayes [EB/OL]. [2013-12-26]. https://arxiv. org/abs/1312.6114.
[22] Generating Faces with Torch [EB/OL]. [2015-11-13]. http://torch.ch/blog/2015/11/13/gan.html.
[23] PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: Feature learning by inpainting [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 2536-2544.
[24] 焦李成. 深度學(xué)習、優(yōu)化與識別[M]. 北京: 清華大學(xué)出版社, 2017: 1-137.
[25] MIRZA M, OSINDERO S. Conditional generative adversarial nets [EB/OL]. [2014-11-06]. https://arxiv. org/abs/1411.1784.
[26] WU X, XU K, HALL P. A survey of image synthesis and editing with generative adversarial networks [EB/OL]. [2017-12-14]. https://ieeexplore.ieee.org/abstract/ document/8195348.
[27] YEH R A, CHEN C, LIM T Y, et al. Semantic image inpainting with deep generative models [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 5485-5489.
[28] OSHER S, BURGER M, GOLDFARB D, et al. An iterative regularization method for total variation-based image restoration [EB/OL]. [2005-04-06]. https:// epubs.siam.org/doi/abs/10.1137/040605412.
[29] BARNES C, SHECHTMAN E, FINKELSTEIN A, et al. PatchMatch: A randomized correspondence algorithm for structural image editing [J]. ACM Transactions on Graphics (ToG), 2009, 28(3): 24.
[30] EFROS A A, LEUNG T K. Texture synthesis by non-parametric sampling [EB/OL]. [1999-08-10]. https://www.computer.org/csdl/proceedings/iccv/1999/0164/02/01641033.pdf.
[31] HAYS J, EFROS A A. Scene completion using millions of photographs [J]. Communications of the ACM, 2008, 51(10): 87-94.
[32] LIU S, PAN J, YANG M H. Learning recursive filters for low-level vision via a hybrid neural network [C]// The 17th European Conference on Computer Vision. Heidelberg: Springer, 2016: 560-576.
[33] LIU C, FREEMAN W T, SZELISKI R, et al. Noise estimation from a single image [C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2006: 901-908.
[34] LIU X, TANAKA M, OKUTOMI M. Single-image noise level estimation for blind denoising [EB/OL]. [2013-08-10]. http://www.ok.sc.e. titech.ac.jp/res/NLE/ TIP2013-noise-level-estimation06607209.pdf.
[35] CHEN G, ZHU F, ANN HENG P. An efficient statistical method for image noise level estimation [C]// Proceedings of the IEEE International Conference on Computer Vision.New York: IEEE Press, 2015: 477-485.
[36] DABOV K, FOI A, KATKOVNIK V, et al. Image denoising by sparse 3-D transform-domain collaborative filtering [EB/OL]. [2007-07-16]. https://ieeexplore.ieee. org/abstract/document/4271520.
[37] GU S, ZHANG L, ZUO W, et al. Weighted nuclear norm minimization with application to image denoising [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: Press, 2014: 2862-2869.
[38] ZORAN D, WEISS Y. From learning models of natural image patches to whole image restoration [C]// 2011 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2011: 479-486.
[39] BURGER H C, SCHULER C J, HARMELING S. Image denoising: Can plain neural networks compete with BM3D? [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2012: 2392-2399.
[40] CHEN Y, POCK T. Trainable nonlinear reaction diffusion: A flexible framework for fast and effective image restoration [EB/OL]. [2016-08-01]. https:// ieeexplore.ieee.org/abstract/document/7527621.
[41] ZHANG K, ZUO W, CHEN Y, et al. Beyond a gaussian denoiser: Residual learning of deep cnn for image denoising [EB/OL]. [2017-02-01]. https://ieeexplore. ieee.org/abstract/document/7839189.
[42] XIE J, XU L, CHEN E. Image denoising and inpainting with deep neural networks [C]//NIPS’12 Proceedings of the 25th International Conference on Neural Information Processing Systems. New York: IEEE Press, 2012: 341-349.
[43] JAIN V, SEUNG S. Natural image denoising with convolutional networks [EB/OL]. [2012-08-10]. http://papers.nips.cc/paper/4686-image-denoising-and-inpainting-with-deep-neural-networks.
[44] SZELISKI R. Computer vision: Algorithms and applications [EB/OL]. [2010-08-10] http://citeseerx.ist. psu.edu/viewdoc/download?doi=10.1.1.414.9846&rep=rep1&type=pdf.
[45] SUN J, CAO W, XU Z, et al. Learning a convolutional neural network for non-uniform motion blur removal [C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 769-777.
[46] NAH S, KIM T H, LEE K M. Deep multi-scale convolutional neural network for dynamic scene deblurring [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 3.
[47] XU L, ZHENG S, JIA J. Unnatural l0 sparse representation for natural image deblurring [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 1107-1114.
[48] WHYTE O, SIVIC J, ZISSERMAN A, et al. Non-uniform deblurring for shaken images [EB/OL]. [2011-10-27]. https://link.springer. com/article/10.1007/ s11263-011-0502-7.
[49] LEVIN A, LISCHINSKI D, WEISS Y. Colorization using optimization [J]. ACM Transactions on Graphics (TOG), 2004, 23(1): 689-694.
[50] XU L, YAN Q, JIA J. A sparse control model for image and video editing [C]//ACM Transactions on Graphics (TOG), 2013, 32(6): 1-10.
[51] CHIA A Y S, ZHUO S, GUPTA R K, et al. Semantic colorization with internet images [J]. ACM Transactions on Graphics (TOG), 2011, 30(6): 156.
[52] GUPTA R K, CHIA A Y S, RAJAN D, et al. Image colorization using similar images [C]//Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM Press, 2012: 369-378.
[53] IRONI R, COHEN-OR D, LISCHINSKI D. Colorization by Example [EB/OL]. [2005-08-11]. http:// citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.76.424&rep=rep1&type=pdf.
[54] LIU X, WAN L, QU Y, et al. Intrinsic colorization [J]. ACM Transactions on Graphics (TOG), 2008, 27(5): 152.
[55] WELSH T, ASHIKHMIN M, MUELLER K. Transferring color to greyscale images [J]. ACM Transactions on Graphics (TOG), 2002, 21(3): 277-280.
[56] LIU Y, COHEN M, UYTTENDAELE M, et al. Autostyle: Automatic style transfer from image collections to users’ images [EB/OL]. [2014-07-15]. https://onlinelibrary.wiley.com/doi/abs/10.1111/cgf.12409.
[57] MORIMOTO Y, TAGUCHI Y, NAEMURA T. Automatic colorization of grayscale images using multiple images on the web [C]//ACM SIGGRAPH Computer Graphics 2009. New York: ACM Press, 2009: 59.
[58] REINHARD E, ADHIKHMIN M, GOOCH B, et al. Color transfer between images [EB/OL]. [2001-09-11]. https://ieeexplore.ieee.org/abstract/document/946629.
[59] HERTZMANN A, JACOBS C E, OLIVER N, et al. Image analogies [C]//Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2001: 327-340.
[60] CHENG Z, YANG Q, SHENG B. Deep colorization [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 415-423.
[61] Deshpande A, Rock J, Forsyth D. Learning large-scale automatic image colorization [C]//Procee Dings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 567-575.
[62] IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Let there be color!: Joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification [J]. ACM Transactions on Graphics (TOG), 2016, 35(4): 1-11.
[63] LARSSON G, MAIRE M, SHAKHNAROVICH G. Learning representations for automatic colorization [C]// The 16th European Conference on Computer Vision. Heidelberg: Springer, 2016: 577-593.
[64] ZHANG R, ZHU J Y, ISOLA P, et al. Real-time user-guided image colorization with learned deep priors [EB/OL]. [2017-05-08]. https://arxiv.org/abs/1705.02999.
[65] DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution [C]// The 14th European Conference on Computer Vision. Heidelberg: Springer, 2014: 184-199.
[66] DONG C, LOY C C, TANG X. Accelerating the super-resolution convolutional neural network [C]// The 16th European Conference on Computer Vision. Heidelberg: Springer, 2016: 391-407.
[67] KIM J, KWON LEE J, MU LEE K. Deeply-recursive convolutional network for image super-resolution [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1637-1645.
[68] YANG C Y, MA C, YANG M H. Single-image super-resolution: A benchmark [C]// The 14th European Conference on Computer Vision. New York: IEEE Press, 2014: 372-386.
[69] DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks [EB/OL]. [2015-06-01]. https://ieeexplore.ieee.org/ abstract/document/7115171.
[70] HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 5197-5206.
[71] SCHULTER S, LEISTNER C, BISCHOF H. Fast and accurate image upscaling with super-resolution forests [C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3791-3799.
[72] KIM J, KWON LEE J, MU LEE K. Accurate image super-resolution using very deep convolutional networks [C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1646-1654.
[73] TAI Y, YANG J, LIU X. Image super-resolution via deep recursive residual network [C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5.
[74] YEH R A, CHEN C, LIM T Y, et al. Semantic Image Inpainting with Deep Generative Models [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 4.
[75] IRWIN S. History and definition of the sobel operator [EB/OL]. [2014-07-11]. https://www. researchgate.net/publication/239398674_An_Isotropic_3_3_Image_Gradient_Operator.
[76] HE K, SUN J, TANG X. Single image haze removal using dark channel prior [EB/OL]. [2010-09-09]. https://ieeexplore.ieee.org/abstract/document/5567108.
[77] ZHU Q, MAI J, SHAO L. A fast single image haze removal algorithm using color attenuation prior [EB/OL]. [2015-11-11]. https://ieeexplore.ieee.org/iel7/83/4358840/ 07128396.pdf.
[78] CAI B, XU X, JIA K, et al. Dehazenet: An end-to-end system for single image haze removal [EB/OL]. [2016-08-10]. https://ieeexplore. ieee.org/abstract/ document/7539399.
[79] FU X, HUANG J, ZENG D, et al. Removing rain from single images via a deep detail network [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1715-1723.
[80] YANG W, TAN R T, FENG J, et al. Deep joint rain detection and removal from a single image [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1357-1366.
[81] QIAN R, TAN R T, YANG W, et al. Attentive generative adversarial network for raindrop removal from a single image [C]//Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 2482-2491.
[82] WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional gans [EB/OL]. [2017-11-30]. https://arxiv. org/abs/1711.11585.
[83] DONG H, NEEKHARA P, WU C, et al. Unsupervised image-to-image translation with generative adversarial networks [EB/OL]. [2017-06-10]. https://arxiv.org/abs/ 1701.02676.
① “pix2pix”https://phillipi.github.io/pix2pix
Advance of Neural Network in Degraded Image Restoration
LIU Long-fei, LI Sheng, LAI Shun-nan
(School of Information Science and Technology, Peking University, Beijing 100871, China)
Restoration of degraded image is an important and challenging issue in the field of image computing. In recent years, artificial intelligence (AI), especially deep learning, has achieved rapid progress. More and more methods based on neural networks have been proposed to solve this problem. This paper first introduces the main techniques based on neural networks to restore the degraded images and makes a classification of the problems. Then we focused on the key neural networks to resolve the problems of each category. By reviewing the development of various network-based methods in the field of deep learning, we analyzed the advantages and limitations between these methods. Furthermore, a comparison between these methods and the traditional ones was also made. Finally, we put forward a new solution on restoration of extremely degraded image using GANs, sketching out the future work on the restoration of degraded image.
degraded image restoration; neural network; generative adversarial networks; artificial intelligence
TP 391
10.11996/JG.j.2095-302X.2019020213
A
2095-302X(2019)02-0213-12
2018-08-21;
2018-10-29
國家自然科學(xué)基金項目(61472010,61631001,61632003)
劉龍飛(1988-),男,遼寧沈陽人,算法工程師,碩士研究生。主要研究方向為人工智能、計算機視覺等。E-mail:liulongfei@pku.edu.cn
李 勝(1974-),男,廣東高州人,副教授,博士,碩士生導(dǎo)師。主要研究方向為計算機圖形學(xué)、虛擬現(xiàn)實技術(shù)。E-mail:lisheng@pku.edu.cn