趙利軍,王 可,張晉京,白慧慧,趙 耀
(1.太原科技大學(xué) 電子信息工程學(xué)院,太原 030024;2.中北大學(xué) 大數(shù)據(jù)學(xué)院,太原 030051;3.北京交通大學(xué)計算機(jī)與信息技術(shù)學(xué)院,北京 100044)
近年來,在各種計算機(jī)視覺任務(wù)中場景的深度信息發(fā)揮著極其重要的作用.很多研究工作已經(jīng)表明高質(zhì)量的深度信息能夠顯著地提升各種任務(wù)的性能,如目標(biāo)識別和檢測[1]、自動駕駛[2]、自然場景的三維重建等.然而,消費(fèi)級別的深度相機(jī)獲得的深度圖分辨率遠(yuǎn)遠(yuǎn)小于對應(yīng)彩色圖的分辨率,并且包含了很多的噪聲像素點(diǎn)和無效的深度值,從而導(dǎo)致拍攝到的深度圖質(zhì)量不能滿足實(shí)際應(yīng)用需求.為了解決該問題,很多的學(xué)者致力于研究深度圖增強(qiáng)去噪方法[3-7].目前,圖像的去噪方法大致可以分為兩類:傳統(tǒng)的圖像去噪方法和基于深度學(xué)習(xí)的圖像去噪方法.
由于早期的圖像去噪方法往往只利用圖像的局部空間相關(guān)性來實(shí)現(xiàn)圖像的加權(quán)平均濾波,因此這些方法無法很好地恢復(fù)圖像的細(xì)節(jié)信息.例如,葉建雄等[8]采用雙邊濾波的方法在一定程度上能夠保留圖像邊緣信息同時濾掉低頻分量的噪聲,但是對于不同噪聲的圖像很難自適應(yīng)地選擇濾波窗口的大小以及權(quán)重參數(shù).不同于濾波方法,基于變換域的去噪方法往往采用小波變換或稀疏表示等進(jìn)行預(yù)處理,然后利用變換域的特性或表示的冗余性來做進(jìn)一步處理.例如,Hu 等[9]提出了一種聯(lián)合局部平滑性和非局部自相似性的圖像去噪方法來恢復(fù)單一深度圖.Elad 等[10]提出了一種基于字典學(xué)習(xí)的圖像去噪方法,該方法使用過完備字典對原圖和降質(zhì)圖進(jìn)行稀疏表示來實(shí)現(xiàn)圖像去噪.Ma 等[11]提出了基于小波變換的圖像去噪方法,該方法將無偏風(fēng)險估計和線性擴(kuò)張閾值理論相結(jié)合來實(shí)現(xiàn)快速的圖像去噪.不同于以上這些方法,向瑞等[12]將深度圖和對應(yīng)的彩色圖的局部二值模式(Local Binary Patterns,LBP)算子作為一種去噪約束融入到去噪算法,用來保護(hù)深度圖的邊緣信息.雖然這些傳統(tǒng)的圖像去噪方法能夠提高深度圖的準(zhǔn)確度,但它們往往很難通過圖形處理器(Graphics Processing Unit,GPU)和張量處理單元(Tensor Processing Unit,TPU)等硬件進(jìn)行加速處理,這極大地限制了它們在計算機(jī)視覺任務(wù)上的廣泛應(yīng)用.
相比于傳統(tǒng)的圖像去噪方法,基于深度學(xué)習(xí)的圖像去噪方法取得了飛躍式的發(fā)展.它的優(yōu)勢在于該方法能夠通過硬件進(jìn)行加速處理,同時能更好地保留圖像的細(xì)節(jié)紋理信息.例如,Jain 等[13]提出了一種適用于自然圖像去噪的神經(jīng)網(wǎng)絡(luò)模型,該神經(jīng)網(wǎng)絡(luò)模型能夠降低計算的復(fù)雜度.類似地,Yu 等[14]提出了一種能夠處理各種壓縮偽影卷積神經(jīng)網(wǎng)絡(luò)方法(Artifacts Reduction Convolutional Neural Network,ARCNN).此外,還設(shè)計了一種快速壓縮偽影去除卷積神經(jīng)網(wǎng)絡(luò)方法(Fast ARCNN).與ARCNN 方法相比,F(xiàn)ast ARCNN 在保持良好的去噪性能的同時將速度提升7.5 倍.Zhang 等[15]采用殘差學(xué)習(xí)和批歸一化技術(shù)來加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并提升去噪的性能,該方法適用于各種圖像去噪任務(wù).Sterzentsenko 等[16]提出了一種自監(jiān)督的全卷積去噪自編碼器方法,該方法解決了深度圖訓(xùn)練數(shù)據(jù)不足的問題.Laina 等[17]提出了一種全卷積殘差網(wǎng)絡(luò)去噪方法,該方法充分利用彩色圖像和深度圖之間的模糊映射關(guān)系對圖像去噪進(jìn)行建模來提高圖像的去噪性能.Li 等[18]將彩色圖和深度圖的一致性結(jié)構(gòu)信息自適應(yīng)地遷移到深度圖,從而解決了圖像聯(lián)合濾波器的紋理拷貝現(xiàn)象.Zhang 等[19]提出了一種輕量化的卷積神經(jīng)網(wǎng)絡(luò)方法,該方法采用高維投影、缺失數(shù)據(jù)填補(bǔ)和圖像重建技術(shù)來實(shí)現(xiàn)圖像去噪.靳華中等[20]提出一種近似U型的網(wǎng)絡(luò)方法,對不同感受野的圖像信息進(jìn)行疊加來盡可能地保留圖像的原有信息,同時該方法引入反卷積網(wǎng)絡(luò)層來實(shí)現(xiàn)圖像恢復(fù)和進(jìn)一步的噪聲去除.
雖然這些深度學(xué)習(xí)圖像去噪方法的性能遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的圖像去噪方法,但是上述這些深度學(xué)習(xí)去噪方法的模型復(fù)雜度過高且參數(shù)量較多.為此,本文作者提出了一種結(jié)合圖像高低頻分解和多尺度兩級融合的深度圖去噪方法.
從帶噪的深度圖分解而來的高頻分量和低頻分量含有不同程度的噪聲干擾.如果僅在淺層網(wǎng)絡(luò)進(jìn)行高頻分量和低頻分量特征融合,勢必導(dǎo)致噪聲傳播到深層的高頻分量和低頻分量特征中.受到U-Net 網(wǎng)絡(luò)的啟發(fā)[21],本文提出了一種結(jié)合圖像高低頻分解和多尺度兩級融合策略的深度圖去噪方法.使用自編碼器的兩個編碼網(wǎng)絡(luò)分別增強(qiáng)帶噪的高頻分量和低頻分量特征,再將增強(qiáng)后的高頻分量和低頻分量特征進(jìn)行融合,使用融合特征增強(qiáng)自編碼器的解碼網(wǎng)絡(luò)特征.
如圖1 所示,所提方法的網(wǎng)絡(luò)結(jié)構(gòu)主要包括三個部分:基于高斯濾波的高低頻分解模塊、基于多尺度兩級融合策略的特征提取模塊和高低頻合并重建模塊.首先,所提的方法利用多尺度高斯濾波器將含噪聲的深度圖分解為低頻分量和高頻分量,高頻分量重點(diǎn)突出深度圖的細(xì)節(jié)信息,而低頻分量則側(cè)重于描述深度圖的結(jié)構(gòu)信息.很顯然,這兩者之間存在明顯的差異.其次,將這兩組分量分別輸入到低頻特征提取網(wǎng)絡(luò)(Low-Frequency-UNet,LFUNet)和高頻特征提取網(wǎng)絡(luò)(High-Frequency-UNet,HF-UNet),這兩個網(wǎng)絡(luò)的作用是分別提取高頻分量和低頻分量的多尺度特征.為了充分地利用高頻分量和低頻分量的互補(bǔ)特性,提出了一種互補(bǔ)的特征加權(quán)融合機(jī)制,并且在該機(jī)制下構(gòu)建了一種多尺度兩級融合策略.最后,利用高頻和低頻增強(qiáng)特征進(jìn)行殘差預(yù)測,再將其與輸入圖相融合得到高質(zhì)量的深度圖.
圖1 本文方法的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Diagram of the network structure of the proposed method
已知一幅含有噪聲的深度圖X,考慮到不同噪聲的特性有所不同,引入多尺度高斯濾波器將其分解成兩組圖像.這里,使用不同大小的高斯核3*3、5*5 和7*7 進(jìn)行高斯濾波得到一組低頻分量分別是Xl-3、Xl-5和Xl-7,從而得到深度圖的多尺度結(jié)構(gòu)信息.通過將輸入圖和這些低頻分量相減可以得到一組高頻分量,即Xh-3=X-Xl-3、Xh-5=X-Xl-5和Xh-7=X-Xl-7,這些高頻分量包含了帶噪深度圖的多尺度細(xì)節(jié)信息.然后,沿著通道維度將低頻分量和高頻分量依次合并在一起,得到多尺度低頻分量和多尺度高頻分量.接下來,使用LF-UNet 和HF-UNet 得到深度圖低頻和高頻分量的多尺度特征.基于多尺度兩級融合策略的特征提取模塊大致可以分為兩個支路(上采樣支路和下采樣支路).當(dāng)以殘差卷積(Res-Conv)為界時,下采樣支路分為四個階段.當(dāng)以一個序列化的CSC 模塊(卷積層、Swish 激活函數(shù)和卷積層)為界時,上采樣支路分為三個階段.一共包含七個階段(和,i=1~7).將深度圖的多尺度低頻分量Xl輸入到LF-UNet 中,同時將深度圖的多尺度高頻分量Xh輸入到HFUNet 中.由此可見,雖然HF-UNet 和LF-UNet 的輸入有所不同,但是它們的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)完全相同.
1.1.1 下采樣支路
經(jīng)過高斯濾波器分解后獲得的高頻分量和低頻分量含有不同程度的噪聲干擾.為了降低噪聲,使用自編碼器的兩個編碼網(wǎng)絡(luò)分別對帶噪的高頻分量和低頻分量特征進(jìn)行初步增強(qiáng).在LF-UNet 的下采樣支路中,第一階段使用一個序列化的CSC 操作(包括卷積層、Swish 激活函數(shù)和卷積層)有選擇地提取深度圖多尺度低頻分量的特征.然后,利用殘差卷積Res-Conv 進(jìn)一步提取深度圖低頻分量的特征以獲得.這里,殘差卷積的跳躍連接有助于緩解因網(wǎng)絡(luò)層數(shù)過多而導(dǎo)致的神經(jīng)網(wǎng)絡(luò)訓(xùn)練困難的問題.
相比之下,在第二階段中,首先使用最大池化層(Maxpooling)對進(jìn)行下采樣來降低特征圖的分辨率.其次,使用一個序列化的CSC 操作去提取深度圖低頻分量的低級特征.然后,利用一個殘差卷積進(jìn)一步提取深度圖低頻分量的特征以獲得.以此類推,在下采樣支路中,LF-UNet 的第三階段和第四階段的輸出為和,將4 個階段依次表示為
因?yàn)镠F-UNet 和LF-UNet 具有完全相同的網(wǎng)絡(luò)結(jié)構(gòu),所以HF-UNet 的下采樣支路能夠獲得,將這四個階段依次表示為
1.1.2 上采樣支路
如果僅在編碼網(wǎng)絡(luò)對高頻分量和低頻分量特征進(jìn)行初步增強(qiáng),勢必導(dǎo)致噪聲傳播到深層的高頻分量和低頻分量特征中.為此,使用編碼網(wǎng)絡(luò)的融合特征來增強(qiáng)自編碼器的解碼網(wǎng)絡(luò)的特征.在LF-UNet 的上采樣支路中,第一階段首先使用一個序列化的TCS 操作(轉(zhuǎn)置卷積層、卷積層和Swish激活函數(shù))對進(jìn)行上采樣來提升特征圖的分辨率.其次,通過跳躍連接將上采樣之后的與下采樣支路中第三階段獲得的合并,即將這些特征圖沿著通道維度進(jìn)行串聯(lián),該操作標(biāo)記為Concat.之后,采用一個殘差卷積Res-Conv 進(jìn)一步提取特征.接下來,將殘差卷積輸出的特征輸入到一個序列化的模塊CSC,該模塊包括兩個卷積層和一個激活函數(shù)Swish,它的輸出為.以此類推,在LF-UNet 的上采樣支路中,第二階段輸入獲得,第三階段輸入獲得,將3 個階段依次表示為
因?yàn)镠F-UNet 和LF-UNet 采用完全相同的網(wǎng)絡(luò)結(jié)構(gòu),所以在HF-UNet 的上采樣支路中,第一階段輸入獲得,第二階段輸入獲得,第三階段輸入獲得,將這三個階段依次表示為
1.1.3 多尺度兩級融合策略
在很多的深度卷積神經(jīng)網(wǎng)絡(luò)中,最常見的特征融合策略主要采用簡單的矩陣逐元素相加策略或者沿通道維度的特征圖堆疊策略.雖然這些策略能夠在一定程度上將不同的特征進(jìn)行合并,但是無法實(shí)現(xiàn)自適應(yīng)的特征融合.考慮到噪聲特征的空間敏感性和高低頻分量特征的差異性,受圖像融合理論的啟發(fā),本文提出一種多尺度兩級融合策略,該策略主要采用互補(bǔ)的特征加權(quán)融合機(jī)制,來實(shí)現(xiàn)深度圖高頻和低頻分量的互補(bǔ)融合,如圖1 和圖2 所示.在HF-UNet 和LF-UNet 的下采樣支路中,第一級融合通過該機(jī)制將高頻的不同尺度特征和低頻的不同尺度特征進(jìn)行聚合,得到淺層的高低頻互補(bǔ)增強(qiáng)特征.在下采樣支路第一階段的尾端,將獲得的和進(jìn)行融合以獲得融合特征圖F1,具體公式如下
圖2 互補(bǔ)的特征加權(quán)融合機(jī)制Fig.2 Complementary feature weighted fusion mechanism
式中:Avgpool(·)是全局平均池化操作,為了增加非線性表達(dá)能力,采用一個序列化的操作(卷積層、Swish 激活層、卷積層和Sigmoid 層),這里依次使用σ、δ和RF表示Sigmoid 函數(shù)、Swish 函數(shù)和加權(quán)融合過程.最后,沿著通道維度使用權(quán)重ω對輸入和進(jìn)行加權(quán)融合可獲得F1.以此類推,在下采樣支路第二階段的尾端、第三階段的尾端和第四階段的尾端,將深度圖高頻分量特征和低頻分量特征進(jìn)行加權(quán)融合,以獲得融合特征圖F2、F3和F4.
第二級融合通過采用互補(bǔ)的特征加權(quán)融合機(jī)制將深層的高低頻特征與高低頻互補(bǔ)增強(qiáng)特征進(jìn)行合并.在輸入到上采樣支路第一階段之前,將和F4進(jìn)行融合,以獲得融合特征圖.將和相加融合獲得LF-UNet 上采樣支路第一階段的輸入.以此類推,能夠獲得HF-UNet 上采樣支路第一階段的輸入.具體公式如下
式中:F4表示第一級融合的第四階段獲得的特征圖,具體過程參考式(17)~式(20);RF表示加權(quán)融合過程,具體融合過程與第一級融合相同.在上采樣支路中的第一階段的尾端、第二階段尾端和第三階段尾端,將高低頻互補(bǔ)增強(qiáng)特征與深層的高頻特征進(jìn)行聚合獲得、和;將高低頻互補(bǔ)增強(qiáng)特征與深層的低頻特征聚合獲得、和.其次,參考式(23)和式(24),在LF-UNet 的上采樣支路中可以獲得、和;在HF-UNet 的上采樣支路中可以獲得、和.最后,采用一個輸出卷積層輸出和,作為高低頻合并重建模塊的輸入.
如圖1 所示,在高低頻合并重建模塊中,首先將HF-UNet 和LF-UNet 輸出的高低頻增強(qiáng)特征相加融合;其次,采用一個殘差卷積和一個輸出卷積層重建殘差圖像.最后,將輸入圖與重建的殘差圖像相融合,可獲得最終輸出圖Y.
一般來說,圖像去噪任務(wù)通常使用均方誤差(Mean Square Error,MSE)損失函數(shù)對圖像去噪網(wǎng)絡(luò)的學(xué)習(xí)進(jìn)行有效的監(jiān)督.Lim[22]等指出在PSNR和SSIM 度量方面,用L1范數(shù)約束的損失函數(shù)訓(xùn)練的圖像去噪網(wǎng)絡(luò)比L2范數(shù)約束的損失函數(shù)獲得更好的去噪性能.為此,本文提出的結(jié)合圖像高低頻分解和多尺度兩級融合策略的深度圖去噪方法的網(wǎng)絡(luò)采用L1范數(shù)約束的損失函數(shù),該函數(shù)可以表示為
式中:‖·‖1表示L1范數(shù);Yi是所提方法的去噪圖像的第i個像素的預(yù)測值;Xi是對應(yīng)的真實(shí)值.
本節(jié)驗(yàn)證所提方法的有效性,將所提的一種結(jié)合圖像高低頻分解和多尺度兩級融合策略的深度圖去噪新方法與最新的幾種圖像去噪方法進(jìn)行性能對比.這里主要采用圖像質(zhì)量的客觀評價指標(biāo)峰值信噪比(Peak Signal to Noise Ratio,PSNR)、均方根誤差(Root Mean Square Error,RMSE)、結(jié)構(gòu)相似性(Structural SIMilarity index,SSIM)、網(wǎng)絡(luò)總參數(shù)量、每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)(FLoating-point Operations Per second,F(xiàn)LOPs)和測試時間來評估這些方法的性能.
本文選擇3 個公開的深度圖數(shù)據(jù)集構(gòu)建訓(xùn)練數(shù)據(jù):1)Middlebury 深度圖數(shù)據(jù)集[23](包含34 個單一深度圖,其中包括2001 年數(shù)據(jù)集的6 張深度圖和2006年的10張深度圖,以及2014年的18 張深度圖);2)MPI Sintel 深度圖數(shù)據(jù)集[24](包括58 個單一深度圖);3)合成深度圖數(shù)據(jù)集[25].采用已經(jīng)填補(bǔ)空洞的Middlebury 2005 和Middlebury 2003 數(shù)據(jù)集來評估不同深度圖去噪方法的性能.將加性高斯白噪聲(Additive White Gaussian Noise,AWGN)添加到原始的深度圖中來得到降質(zhì)的深度圖,AWGN 噪聲方差σ2的取值為10、15、20、25 和30.本文采用深度學(xué)習(xí)框架PyTorch 來實(shí)現(xiàn)所提的方法,選用Adam 優(yōu)化器來訓(xùn)練所提出的網(wǎng)絡(luò)模型,優(yōu)化器的參數(shù)beta1 等于0.9,beta2 等于0.999,網(wǎng)絡(luò)參數(shù)更新的學(xué)習(xí)率為2e-4.圖像批大小為16,每張圖像的大小為128*128.所有的模型都是通過使用NVIDIA RTX 2080ti GPU 進(jìn)行訓(xùn)練和測試.
將本文所提出的深度圖去噪方法與DnCNN[15]、ARCNN[14]、Fast ARCNN[14]、ADNet[26]和FFDNet[27]方法進(jìn)行性能比較.表1 和表2 分別給出了這些方法在Middlebury 2005 數(shù)據(jù)集和2003 數(shù)據(jù)集上的深度圖去噪結(jié)果與未去噪深度圖的客觀質(zhì)量對比.表3 提供了各種深度圖去噪方法的綜合性能對比.表3 中,括號里面的數(shù)字表示客觀指標(biāo)排名,B表示Middlebury 2005數(shù)據(jù)集,C表示Middlebury 2003 數(shù)據(jù)集.從表1~表3 可知,相較于其他5 種方法,ARCNN[14]方法的去噪性能并不好,這是因?yàn)锳RCNN[14]僅考慮了壓縮偽影問題,而沒有充分地考慮到噪聲本身的特性.值得注意是,F(xiàn)ast ARCNN[14]是對ARCNN[14]方法的改進(jìn)版本,改進(jìn)方法的去噪效果要好于ARCNN[14].不同于這些淺層網(wǎng)絡(luò)方法,DnCNN[15]去噪方法設(shè)計了一種帶有批歸一化的深層網(wǎng)絡(luò)來實(shí)現(xiàn)圖像增強(qiáng).FFDNet[27]是DnCNN[15]的升級版,F(xiàn)FDNet 網(wǎng)絡(luò)的噪聲的適應(yīng)能力和計算量均要優(yōu)于DnCNN[15].為了權(quán)衡圖像去噪的性能和效率,ADNet[26]提出了一種注意力引導(dǎo)的降噪卷積神經(jīng)網(wǎng)絡(luò).然而,這些方法的網(wǎng)絡(luò)總參數(shù)量較大,使得神經(jīng)網(wǎng)絡(luò)的復(fù)雜度往往過高.相較于DnCNN[15]、ARCNN[14]、Fast ARCNN[14]、ADNet[26]和FFDNet[27]方法,經(jīng)過本文方法去噪的圖像的PSNR、SSIM 和RMSE 指標(biāo)更高,同時所提方法能夠大幅度地降低網(wǎng)絡(luò)總參數(shù)量和復(fù)雜度.
表1 Middlebury 2005 數(shù)據(jù)集測試下不同噪聲各種深度圖去噪方法去噪前后的性能對比Tab.1 Performance comparisons of before and after denoising of various depth map denoising methods under noise with different variances tested on Middlebury 2005 dataset
表2 Middlebury 2003 數(shù)據(jù)下不同噪聲各種深度圖去噪方法去噪前后性能對比Tab.2 Performance comparisons of before and after denoising various depth map denoising methods under different noises tested on Middlebury 2003 dataset
表3 各種深度圖去噪方法綜合性能對比σ2=25Tab.3 The comprehensive performance comparisons of various depth map denoising methods is compared when σ2=25
具體而言,在Middlebury 2005 和2003 數(shù)據(jù)集上,相比于DnCNN[15],所提方法的PSNR 最高增益分別為2.37 和1.28 dB.相比于ARCNN[14],所提方法PSNR 的最高增益分別為2.87 和1.62 dB.與Fast ARCNN[14]相比,所 提方法的PSNR 分別獲得1.61和1.62dB的最高增益.相比于ADNet[26],PSNR 分別獲得3.69和3.46dB的最高增益.與FFDNet[27]相比,PSNR 分別獲得1.85 和2.56 dB 的最高增益.與此同時,所提方法的RMSE 和SSIM 指標(biāo)也都分別實(shí)現(xiàn)了不同幅度的降低和提升.隨著噪聲水平的提升,PSNR 和SSIM 的提升更顯著,RMSE 也存在明顯的降低.如表3 所示,當(dāng)σ2=25 時,綜合對比了多種客觀評價指標(biāo),本文所提方法的綜合性能明顯優(yōu)于另外五種方法.從以上分析可知,不同級別的噪聲下本文所提出的去噪方法均取得更好的去噪性能.
為了驗(yàn)證本文方法的優(yōu)越性,在Middlebury 2005 數(shù)據(jù)集上將所提出的深度圖去噪方法與DnCNN[15]、ARCNN[14]、Fast ARCNN[14]、ADNet[26]和FFDNet[27]進(jìn)行視覺質(zhì)量比較.圖3 和圖4 分別展示了深度圖Art 和Laundry 經(jīng)過不同的深度圖去噪方法處理后的可視化對比圖.
圖3 Middlebury 2005 數(shù)據(jù)集測試下不同去噪方法增強(qiáng)后的Art 深度圖可視化對比(σ2=25)Fig.3 Visual comparison of Art depth map after enhancement by different denoising methods tested on Middlebury 2005 dataset(σ2=25)
圖4 Middlebury 2005 數(shù)據(jù)集測試不同去噪方法增強(qiáng)后的Laundry 深度圖可視化對比(σ2=25)Fig.4 Visual comparison of Laundry depth map after enhancement by different denoising methods tested on Middlebury 2005 dataset (σ2=25)
根據(jù)圖3 紅框區(qū)域的對比可知,ARCNN[14]和DnCNN[15]去噪深度圖壺底處存在大面積模糊現(xiàn)象,這兩個方法的去噪效果較差.這是因?yàn)锳RCNN[14]采用簡單的序列化卷積操作構(gòu)建了一個淺層網(wǎng)絡(luò),這種表達(dá)能力弱的網(wǎng)絡(luò)往往無法很好實(shí)現(xiàn)高效的圖像去噪.ARCNN[14]方法去噪后的深度圖像往往存在邊緣模糊的現(xiàn)象,而DnCNN[15]只針特定環(huán)境下的降噪.Fast ARCNN[14]是改進(jìn)ARCNN[14]的模型.該方法雖然能夠獲得較好的去噪效果,但是該方法無法較好地恢復(fù)圖像的細(xì)節(jié)信息而且去噪后的深度圖存在過度平滑的現(xiàn)象.將ADNet[26]、FFDNet[27]與前三種方法相比,它們的去噪效果相對較好,ADNet[26]和FFDNet[27]去噪方法能恢復(fù)出清晰的圖像邊界信息.然而,與本文方法所獲得的去噪深度圖相比,這些方法在紅框背景處依然存在霧狀偽影.根據(jù)圖4 紅框放大的窗格區(qū)域?qū)Ρ瓤芍?,ARCNN[14]、DnCNN[15]和Fast ARCNN[14]有很明顯的模糊的現(xiàn)象,使得窗格不完整.雖然ADNet[26]和FFDNet[27]存在輕微模糊,但是這兩個方法能夠保留窗格的整體形狀.相較之下,本文所提方法采用了高低頻分解和多尺度兩級融合策略,該策略能夠克服上述缺點(diǎn).如圖3 所示,在紅框的背景處,經(jīng)過所提方法去噪后的深度圖存在更少霧狀偽影.如圖4 所示,經(jīng)過所提方法去噪后的深度圖的窗格形狀更加清晰完整.綜上所述,所提方法的去噪效果遠(yuǎn)遠(yuǎn)超過了深度圖去噪方法如ARCNN[14]、Fast ARCNN[14]、DnCNN[15]、ADNet[26]和FFDNet[27].
為了進(jìn)一步從視覺效果上驗(yàn)證本文方法的有效性,圖5 和圖6 分別展示了來自于Middlebury 2003測試數(shù)據(jù)集的深度圖Cones 和Tsukuba 經(jīng)過不同的深度圖去噪方法處理后的可視化對比圖.如圖5 所示,從細(xì)節(jié)放大圖中可以清晰看到ARCNN[14]、DnCNN[15]和Fast ARCNN[14]存在嚴(yán)重的細(xì)節(jié)缺失,例如圓錐整體結(jié)構(gòu)缺失,只能看到極少的邊界.相對于真實(shí)的深度圖,ADNet[26]和FFDNet[27]存在結(jié)構(gòu)變形,圓錐尖變鈍變短.相較之下,所提方法獲得的去噪深度圖更為接近真實(shí)的深度圖,雖然它的圓錐尖略微變形,但是整體形狀最為接近真實(shí)的深度圖.圖6 展示了深度圖Tsukuba 的局部細(xì)節(jié)放大圖.相比于 本文方 法,經(jīng) 過ARCNN[14]、DnCNN[15]和Fast ARCNN[14]去噪的深度圖顯得尤為模糊.雖然經(jīng)過ADNet[26]和FFDNet[27]方法去噪后的圖像的整體結(jié)構(gòu)接近本文方法,但在一些邊界細(xì)節(jié)處還存在差異.這些視覺質(zhì)量的對比進(jìn)一步驗(yàn)證了本文方法的有效性.
圖5 Middlebury 2003 數(shù)據(jù)集測試時不同去噪方法增強(qiáng)后的Cones 深度圖視覺對比(σ2=25)Fig.5 Visual comparison of Cones depth map after enhancement by different denoising methods tested on Middlebury 2003 dataset (σ2=25)
圖6 Middlebury 2003 數(shù)據(jù)集測試時不同去噪方法增強(qiáng)后的Tsukuba 深度圖視覺對比(σ2=25)Fig.6 Visual comparison of Tsukuba depth map after enhancement by different denoising methods tested on Middlebury 2003 dataset (σ2=25)
為了驗(yàn)證所提方法各個部分的重要性.如表4所示,本文提供了在Middlebury 2005 數(shù)據(jù)集上的消融實(shí)驗(yàn).首先,為了驗(yàn)證多尺度高斯濾波器的有效性.在本文方法(a)中,采用單一高斯核的高斯濾波器取代多尺度高斯濾波器,其它關(guān)鍵模塊保持不變.在本文方法(b)中,將高斯濾波器去除,其他關(guān)鍵模塊保持不變.當(dāng)采用單一高斯核的高斯濾波器時,客觀評價指標(biāo)PSNR 降低了0.34 dB,RMSE 的值增加了0.06,SSIM 降低了0.000 4.當(dāng)去除高斯濾波器后,PSNR 和SSIM 分別降低了0.07 dB 和0.000 2,而RMSE 值增加了0.01.很顯然,當(dāng)多尺度高斯濾波器被取代或者去除高斯濾波器時,所提方法的整體性能顯著降低.其次,為了驗(yàn)證雙支路去噪網(wǎng)絡(luò)的優(yōu)越性,本文方法(c)將雙支路U 型網(wǎng)絡(luò)改為單支路U 型網(wǎng)絡(luò).從表4 可知,當(dāng)采用單支路U 型網(wǎng)絡(luò)時,所提方法的PSNR 降低了0.58 dB,而RMSE 的值增加了0.1.但是,本文方法(c)的SSIM 指標(biāo)有所提升.總的來說,單支路網(wǎng)絡(luò)的性能低于本文所采用的雙支路網(wǎng)絡(luò).
表4 Middlebury 2005 數(shù)據(jù)集測試時本文所提方法的消融實(shí)驗(yàn)性能對比(σ2=25)Tab.4 Comparison of the experimental performance of the ablation method proposed tested on Middlebury 2005 dataset(σ2=25)
1)提出一種結(jié)合圖像高低頻分解和多尺度兩級融合策略的單一深度圖去噪方法,該方法利用多尺度高斯濾波器將含噪聲的深度圖分解為一組低頻結(jié)構(gòu)分量和一組高頻細(xì)節(jié)分量.為了實(shí)現(xiàn)深度圖高頻和低頻分量的互補(bǔ)融合,設(shè)計了一個多尺度兩級融合策略,該策略主要采用互補(bǔ)的特征加權(quán)融合機(jī)制.
2)在高低頻合并重建模塊中,將LF-UNet 和HF-UNet 輸出的高低頻增強(qiáng)特征相加融合之后,采用一個殘差卷積和一個輸出卷積層進(jìn)行殘差預(yù)測,再將其與輸入圖像相融合得到高質(zhì)量的深度圖.
3)實(shí)驗(yàn)結(jié)果表明,本文所提的方法比多個主流的深度圖去噪方法如ARCNN、Fast ARCNN、DnCNN、ADNet 和FFDNet 的性能更好.
在未來的工作中,將本文所提出的方法擴(kuò)展到聯(lián)合深度圖和彩色圖的去噪和超分辨率任務(wù)中,同時將充分地利用彩色圖和深度圖的結(jié)構(gòu)差異性和一致性來提升深度圖的準(zhǔn)確度.