王志盛
摘要:針對多尺度CNN網(wǎng)絡(luò)編碼過程中存在獲取特征信息不足,導(dǎo)致重建的去運(yùn)動模糊圖像質(zhì)量不佳。該研究提出了一種將明暗通道先驗嵌入多尺度網(wǎng)絡(luò),并在網(wǎng)絡(luò)中引入雙重注意力機(jī)制的解決方法,該方法增強(qiáng)了網(wǎng)絡(luò)對先驗信息的獲取能力,加強(qiáng)重點信息獲取的同時提高動態(tài)去模糊效果。該方法與同類方法相比峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)均獲得了提升。
關(guān)鍵詞:多尺度;明、暗通道;注意力機(jī)制;運(yùn)動模糊;卷積神經(jīng)網(wǎng)絡(luò)
Abstract: The insufficient feature information obtained in the multi-scale CNN network coding process, which leads to the quality of the reconstructed motion deblur image is poor. A solution is proposed that embeds a priori of light and dark channels in a multi-scale network and introduces a dual attention mechanism into the network. The method enhances the network's ability to acquire prior information, enhances the acquisition of key information, and improves dynamic deblurring effects. Compared with similar methods, this method has improved the peak signal-to-noise ratio (PSNR) and structural similarity (SSIM).
Key words:multi-scale;light、dark channel;attention mechanism;motion blur;convolutional neural network ( CNN)
近年來,動態(tài)場景中運(yùn)動模糊圖像復(fù)原已成為越來越多研究者關(guān)注的領(lǐng)域。運(yùn)動模糊是圖像拍攝中常見問題之一。拍攝設(shè)備在成像時受到抖動或者被拍攝物體運(yùn)動速度過快,散焦等因素影響時,會產(chǎn)生低質(zhì)量并且模糊的圖像。圖像去運(yùn)動模糊技術(shù)在交通、軍事、醫(yī)學(xué)、工業(yè)界具有很高的應(yīng)用價值。因此,運(yùn)動模糊圖像的復(fù)原問題具有重要的現(xiàn)實研究意義。
去運(yùn)動模糊是從模糊圖像中重建出清晰圖像。運(yùn)動模糊的恢復(fù)按照是否需要PSF(Point Spread Function)可分為盲去運(yùn)動模糊和非盲去運(yùn)動模糊。非盲去運(yùn)動模糊是在PSF已知的情況下去模糊。然而,真實場景中PSF往往未知,因此,盲去運(yùn)動模糊成為真實場景中恢復(fù)清晰圖像的重要方式。圖像模糊的數(shù)學(xué)模型可以看成清晰圖像與模糊核的卷積過程,其公式為:
公式中,B為模糊噪聲圖像;I為原始清晰圖像;K和N分別為模糊核和噪聲;[?]是卷積運(yùn)算。因為B為已知的,I與K未知,需要同時恢復(fù)I與K,這是嚴(yán)重的病態(tài)逆問題。I與K要進(jìn)行合適的先驗信息約束才能得到唯一解,實現(xiàn)圖像清晰化。
目前盲去運(yùn)動模糊方法可分為兩類:一類是基于優(yōu)化的方法,另一類是基于學(xué)習(xí)的方法。基于優(yōu)化的方法在盲解模糊時可以靈活運(yùn)用圖像梯度、稀疏性[1]等約束,但是會產(chǎn)生優(yōu)化耗時和過渡簡化假設(shè)模糊核(假設(shè)運(yùn)動模糊圖像模糊核空間不變,非均勻模糊假設(shè)為均勻模糊)問題。基于優(yōu)化的方法處理自然圖像具有很好的優(yōu)勢。但是在特定領(lǐng)域的圖像方面存在缺陷。因此,特定領(lǐng)域需要引入特定的先驗信息。例如,處理文本圖像采用顯著強(qiáng)度和梯度的組合優(yōu)于L0范數(shù)作為正則項,復(fù)原效果更好。Pan[2]等人利用圖像去霧的暗通道先驗來增強(qiáng)潛像暗通道的稀疏性,并在一般和特定圖像上都取得了良好的效果。但是在處理非暗像素點時,該方法不奏效。隨后,Yan[3]等人進(jìn)一步引入了亮通道先驗來解決包含非暗像素的模糊。在各種場景下取得了不錯的效果。但是這種方案存在耗時的缺陷。
基于學(xué)習(xí)的方法通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)映射函數(shù),這種方法實質(zhì)隱式地利用了先驗信息。具有快速和靈活處理動態(tài)場景中空間變化模糊。由于缺乏真實場景下的模糊清晰圖像對,文獻(xiàn)[4-6]中的方法通過合成模糊核產(chǎn)生模糊圖像進(jìn)行訓(xùn)練。這些方法不是以端到端的方式,并且仍然需要估計模糊核。因此,這些方法仍然存在模糊核的估計不準(zhǔn)確的問題,在真實數(shù)據(jù)集上的效果比人工生成的模糊效果差。Nah[7]等人采用了端到端的動態(tài)去模糊方法,這種方法拋棄了傳統(tǒng)方法需要估計模糊核的缺點,提高了去模糊的效果。Tao[8]等人后來采用端到端的深度多尺度卷積網(wǎng)絡(luò),在接近真實的數(shù)據(jù)集上去除動態(tài)場景的運(yùn)動模糊,進(jìn)一步提升了效果。但是上述方法沒有考慮到基于學(xué)習(xí)的方法是在深度神經(jīng)網(wǎng)絡(luò)內(nèi)部學(xué)習(xí)盲解模糊的直接映射。以及當(dāng)前數(shù)據(jù)集規(guī)模小,網(wǎng)絡(luò)對某些特定先驗信息不能獲取。存在特征信息不能很好利用的缺陷,最終導(dǎo)致復(fù)原圖像效果不佳。因此,本文從獲取更多先驗信息以及自適應(yīng)學(xué)習(xí)重點模糊信息角度出發(fā)設(shè)計了一種改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)。
1 網(wǎng)絡(luò)結(jié)構(gòu)
我們的網(wǎng)絡(luò)由粗糙的低分辨率運(yùn)動模糊圖像逐漸恢復(fù)清晰的高分辨率圖像。這種網(wǎng)絡(luò)結(jié)構(gòu)稱為“由粗到細(xì)”的多尺度結(jié)構(gòu)。各尺度采用相同的網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)的輸入由3個分辨率不同的模糊圖像Bi(i=1,2,3),它們由原始模糊圖像下采樣形成。下標(biāo)i代表尺度層級,圖像的分辨率隨著i的增大順序增加,尺度間隔比率設(shè)置為0.5。首先將尺度最小最容易恢復(fù)的模糊圖像B1輸入,恢復(fù)出其對應(yīng)大小估計的清晰圖像I1。然后將估計的中間清晰圖像上采樣到更大的尺度,與模糊圖像B2一同作為下一尺度的輸入,進(jìn)一步引導(dǎo)更大尺寸的圖像恢復(fù)。同理,最終獲得最高分辨率的輸出圖像I3。這種框架結(jié)構(gòu)可以降低網(wǎng)絡(luò)訓(xùn)練難度,使得運(yùn)動模糊圖像更好的復(fù)原。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1。
圖2中尺度層級采用編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu),編碼塊和解碼塊的通道數(shù)的大小分別為32、64和128。步長為2的卷積層將通道數(shù)增加一倍,特征圖尺寸變?yōu)樵瓉淼囊话?相反,步長為2的反卷積層則特征圖尺寸提升一倍,特征通道數(shù)減半。卷積核大小為5x5,下采樣中的卷積核為1x1,反卷積核為4x4。編碼塊進(jìn)行特征提取,抽象圖像內(nèi)容信息并且消除模糊。解碼塊具有恢復(fù)圖像高頻細(xì)節(jié)信息的特性。圖像去模糊需要足夠大的感受野恢復(fù)運(yùn)動模糊圖像。該網(wǎng)絡(luò)模型在編碼器和解碼器的相應(yīng)層之間添加了跳躍連接,從而增加了接受域。
1.1嵌入通道先驗?zāi)K(EcBlock)
通道先驗一般包含暗通道和亮通道,其中暗通道是指自然圖像的RGB三個顏色通道中灰度值趨向于0的值,亮通道是指自然圖像的RGB三個顏色通道中灰度值趨向于1的值。Yan[3]等人發(fā)現(xiàn)形成模糊的過程通常導(dǎo)致圖像暗通道和亮通道稀疏性降低,將暗通道和亮通道稀疏性作為一種先驗信息可以有效地解決圖像盲區(qū)模糊問題。即利用L0范數(shù)強(qiáng)制提高模糊圖像的極端通道的稀疏性來優(yōu)化模型,從而獲得更高質(zhì)量的清晰圖像。很少研究將通道先驗嵌入到網(wǎng)絡(luò)結(jié)構(gòu)中,來提高去模糊網(wǎng)絡(luò)的性能。本文基于學(xué)習(xí)的多尺度構(gòu)架中引入明、暗通道先驗,將明、暗通道先驗作為圖像特征融入網(wǎng)絡(luò)中重建更加清晰的圖像。即通過映射函數(shù)學(xué)習(xí)亮通道特征信息[Ω]和暗通道特征信息[Λ],并分別與圖像的淺層(深層)特征[fl]進(jìn)行級聯(lián)操作,實現(xiàn)模糊圖像的特征與明暗通道信息有效地融合。
公式中,[[Λ,fl,Ω]]表示特征圖像的拼接,N表示映射函數(shù),[[γ|D]]和[[δ|B]]表示參數(shù)[γ]和[δ]在暗通道和亮通道先驗約束下得到的優(yōu)化參數(shù)。EcBlock中DarkEct提取器(簡稱D([?]))提取暗通道特征信息,BrightEct提取器(簡稱B([?]))提取亮通道特征信息,利用L1正則化增強(qiáng)訓(xùn)練中的稀疏性。從而實現(xiàn)明暗通道先驗嵌入網(wǎng)絡(luò)中。D([?])通過計算局部圖像塊中的最小值來提取[Λ]的暗通道信息。B([?])通過計算局部圖像塊的最大值來提取[Ω]亮通道信息。
公式中,[ιD[h,w]]和[ιB[h,w]]分別記錄各分辨率下最小值和最大值的掩碼。每個尺度圖像塊大小設(shè)置為{11×11、19×19、31×31}。各通道中的信息分配給不同的輸出[D(Λ)[h,w]]和[B(Ω)[h,w]]。
本文提出的Ecblock模塊根據(jù)提取到的淺層(深層)特征學(xué)習(xí)模糊圖像的暗通道和亮通道信息,通過目標(biāo)函數(shù)使其逐漸逼近清晰圖像的暗通道和亮通道信息,即將暗通道和亮通道特征稀疏化。從而將暗通道和亮通道先驗信息嵌入到網(wǎng)絡(luò)中,重建更加清晰的圖像。為不增加過多的網(wǎng)絡(luò)參數(shù),在Ecblock模塊中利用6個圖像特征去擬合清晰圖像的暗通道和亮通道特征。即保證Ecblock模塊輸出的特征圖數(shù)不變。
1.2 雙重注意力機(jī)制模塊
注意力機(jī)制是在自然語言處理中開發(fā)的,后來它被引入計算機(jī)視覺中,CNN中的不同注意力機(jī)制利用空間信息[9-10]來改善各種視覺任務(wù)的性能。通道注意力[11]已被廣泛用于自適應(yīng)地重新校準(zhǔn)特征響應(yīng),提高通道間相互依賴性。本文在Resblock后面加入注意機(jī)制模塊(Attention Mechanism Block,AMB)。AMB由通道注意力模塊(Channel Attention Block,CA)和空間注意力模塊(Spatial Attenton Block,SA)組成。注意力機(jī)制的表示為:
1.3 損失函數(shù)
本文采用L2損失函數(shù)作為圖像損失,公式表示為:
2 實驗結(jié)果與分析
本文采用更接近真實的GOPR0數(shù)據(jù)集,它能夠模擬復(fù)雜的相機(jī)抖動和目標(biāo)運(yùn)動帶來的非均勻模糊。GOPRO數(shù)據(jù)集有3204對模糊-清晰圖像,其中2103對數(shù)據(jù)集用于訓(xùn)練,其余1111對圖像用于測試。分辨率為1280X720。實驗設(shè)備CPU為i5,內(nèi)存16GB,GPU為NVIDIA1080Ti 的計算機(jī)進(jìn)行實驗。訓(xùn)練數(shù)據(jù)時隨機(jī)裁剪成256 × 256大小的圖像塊,測試時保持原來圖像大小。初始學(xué)習(xí)率設(shè)置為5E-6,實驗中批尺寸設(shè)為10,用Adam優(yōu)化器來優(yōu)化損失函數(shù),然后使用指數(shù)衰減法逐步減小學(xué)習(xí)率,經(jīng)過6000輪訓(xùn)練達(dá)到最佳的效果。本文采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為評價標(biāo)準(zhǔn)。實驗結(jié)果如表1所示。
表1結(jié)果表明,在接近真實的非均勻模糊GOPRO測試集中可以看出Nah等人的實驗結(jié)果與Sun比較,有了質(zhì)的提升。Tao等人的評價指標(biāo)比Nah等人的效果好。本文改進(jìn)的方法與Tao等人方法相比較PSNR有0.3592的提升,SSIM也得到了提升。
3 結(jié)論
本文改進(jìn)的端到端多尺度網(wǎng)絡(luò)能夠在相同的數(shù)據(jù)集中獲取更多先驗特征信息,自適應(yīng)重點學(xué)習(xí)模糊圖像上下文信息。再不采用疊加更深層次的卷積網(wǎng)絡(luò)情況下,增強(qiáng)細(xì)節(jié)信息獲取能力。這對于恢復(fù)動態(tài)場景的運(yùn)動模糊圖像至關(guān)重要。
參考文獻(xiàn):
[1] Xu L, Jia J. Two-phase kernel estimation for robust motion deblurring[C]//European conference on computer vision. Springer, Berlin, Heidelberg, 2010: 157-170.
[2] Pan J, Sun D, Pfister H, et al. Blind image deblurring using dark channel prior[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1628-1636.
[3] Yan Y, Ren W, Guo Y, et al. Image deblurring via extreme channels prior[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 4003-4011.
[4] Chakrabarti A. A neural approach to blind motion deblurring[C]//European conference on computer vision. Springer, Cham, 2016: 221-235.
[5] Schuler C J, Hirsch M, Harmeling S, et al. Learning to Deblur[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(7): 1439-1451.
[6] Sun J, Cao W, Xu Z, et al. Learning a convolutional neural network for non-uniform motion blur removal[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 769-777.
[7] Nah S, Hyun Kim T, Mu Lee K. Deep multi-scale convolutional neural network for dynamic scene deblurring[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3883-3891.
[8] Tao X, Gao H, Shen X, et al. Scale-recurrent network for deep image deblurring[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8174-8182.
[9] Qi Q, Guo J, Jin W. Attention Network for Non-Uniform Deblurring[J]. IEEE Access, 2020.8:100044-100057.
[10] Zagoruyko S, Komodakis N. Paying more attention to attention:Improving the performance of convolutional neural networks via attention transfer[J]. arXiv preprint arXiv:1612. 03928, 2016.
[11] Zhu W, Huang Y, Tang H, et al. Anatomynet: Deep 3d squeeze-and-excitation u-nets for fast and fully automated whole-volume anatomical segmentation[J]. bioRxiv, 2018: 39 2969.
【通聯(lián)編輯:唐一東】