鮮連義,康明
(1.上海交通大學(xué)微納電子學(xué)系,上海 200240;2.格科微電子(上海)有限公司,上海 201203)
數(shù)字圖像以及視頻噪聲的抑制起步較早,早期經(jīng)典的去噪算法如:均值濾波、中值濾波、高斯濾波、維納濾波[1]等在提出時(shí)都成為主流的優(yōu)秀算法。伴隨著圖像去噪技術(shù)的不斷發(fā)展,越來越多更加先進(jìn)的算法被提出來,目前普遍的傳統(tǒng)圖像以及視頻去噪方法包含空間域去噪[1]、變換域去噪[2-4]、時(shí)間域去噪[5-6]等等。
空間域去噪算法[1]的原理是利用二維圖像空間直接采用相關(guān)操作如取平均等去除像素中的噪聲,常見的操作方法基本是對(duì)具體像素點(diǎn)進(jìn)行代數(shù)運(yùn)算等,因而此類算法的復(fù)雜度較低,運(yùn)算時(shí)間較快。變換域去噪[2-4]又叫頻域去噪,不同于空間域去噪在二維圖像空間內(nèi)進(jìn)行像素點(diǎn)的處理,它的主要思路是通過特定的變換規(guī)則如傅里葉變換等,將二維的圖像矩陣數(shù)據(jù)轉(zhuǎn)換到變換域內(nèi),以便于更容易的區(qū)分圖像真值與噪聲,將噪聲過濾掉。圖像從空間域轉(zhuǎn)換到變換域的方法很多,其中最具代表性的有傅里葉變換、離散余弦變換[2]、多尺度幾何分析方法[3]以及小波變換[4]等。但是這些方法[1-4]在處理過程中不可避免的會(huì)造成圖像的平滑和細(xì)節(jié)的缺失。時(shí)間域去噪[5-6]主要的應(yīng)用是多幀降噪算法,伴隨BM3D[5]算法提出的同時(shí)針對(duì)視頻降噪所提的VBM3D[6]算法,將時(shí)域的冗余信息加入視頻去噪算法當(dāng)中。在此之后不斷有新的結(jié)合時(shí)間域去噪的算法例如VBM4D[7]算法等出現(xiàn)。但是這類的時(shí)間域去噪算法[5-7]往往需要進(jìn)行多次塊匹配,計(jì)算復(fù)雜度高,處理時(shí)間長(zhǎng)。2018年Jana Ehmann等人提出了一種基于金字塔結(jié)構(gòu)的視頻去噪算法[8],可以實(shí)現(xiàn)高分辨率圖像在Pixel2手機(jī)上30fps的去噪處理速度,基本滿足了高分辨率圖像實(shí)時(shí)性要求,但是去噪效果還有提升的空間。
為了克服上述一些方法[2-8]模糊圖像細(xì)節(jié)[1-4]、計(jì)算復(fù)雜度高[5-7]、去噪效果受限[8]等的缺點(diǎn)和劣勢(shì),本文提出了TSF算法。TSF算法結(jié)合了時(shí)空域降噪的算法和頻域降噪的原理,首先建立包含數(shù)字增益的低照度圖像噪聲模型,然后針對(duì)原始視頻中的相鄰前后兩幀圖像,基于光流法[9]完成圖像配準(zhǔn)得到位移圖,在時(shí)空域?qū)Ω哳l圖像進(jìn)行去噪和重構(gòu),進(jìn)而結(jié)合后續(xù)噪聲圖像實(shí)現(xiàn)無限脈沖響應(yīng)處理(Infinite Impulse Response,IIR),同時(shí)在空域進(jìn)行降噪,輸出后一幀去噪圖像。所提TSF算法比實(shí)時(shí)視頻去噪[8]算法具有更好的圖像質(zhì)量和紋理保持效果,與VBM4D去噪[7]算法相比,有效降低了運(yùn)行時(shí)間。
本文提出的低照度場(chǎng)景下的視頻去噪算法處理流程如圖1所示,從上到下的三個(gè)虛線框依次代表三個(gè)步驟:
(1)視頻流前后幀的配準(zhǔn)。
(2)視頻流前后殘差圖像的融合和圖像重構(gòu)傳播。
(3)對(duì)于融合和重構(gòu)生成的低噪圖像進(jìn)行空間域去噪處理,得到輸出結(jié)果。
配準(zhǔn)步驟計(jì)算兩個(gè)連續(xù)幀的位移圖,融合步驟融合輸入幀和前一幀圖像的重構(gòu)圖像,最后空間域去噪處理得到當(dāng)前幀的去噪結(jié)果。結(jié)合圖1的詳細(xì)流程,t和t+1時(shí)刻的圖像分解為高斯和拉普拉斯金字塔。原始圖像用于配準(zhǔn),拉普拉斯金字塔用于融合。融合金字塔經(jīng)過重構(gòu)生成與t+2時(shí)刻繼續(xù)執(zhí)行IIR處理的中間幀,該重構(gòu)結(jié)果作為下一幀(t+2幀)融合步驟t+1時(shí)刻的輸入,這樣可以盡量保證空間域去噪造成的細(xì)節(jié)平滑不會(huì)傳播到t+2幀的處理當(dāng)中。同時(shí)低照度場(chǎng)景下的去噪當(dāng)中僅僅采用時(shí)間域的去噪處理達(dá)不到最理想的處理效果,因此在本文的算法當(dāng)中加入了空間域?yàn)V波的去噪處理模塊。重構(gòu)結(jié)果經(jīng)過空間域去噪處理之后作為t+1時(shí)刻的最終去噪結(jié)果。
圖1 本文算法流程
圖像配準(zhǔn)是將多幀的圖像對(duì)齊。如圖1所示,建立t幀和t+1幀的高斯和拉普拉斯金字塔實(shí)現(xiàn)高頻殘差圖像的提取,并且依據(jù)光流法進(jìn)行圖像配準(zhǔn)得到位移圖。在圖像配準(zhǔn)時(shí)使用快速的迭代逆光流法[9]加快處理速度。同時(shí)為了進(jìn)一步減少處理時(shí)間,進(jìn)行光流匹配時(shí)在除了原始圖像這一金字塔層級(jí)以外的其他層級(jí),采用整數(shù)級(jí)別的運(yùn)動(dòng)矢量來估計(jì)像素的運(yùn)動(dòng)。
本算法的關(guān)鍵在于圖像融合,融合效果相當(dāng)程度上決定了最終的去噪質(zhì)量。融合之后重構(gòu)的圖像用于IIR處理,即采用上一幀重構(gòu)后的圖像而不是未經(jīng)處理的圖像進(jìn)行下一幀的處理。IIR處理對(duì)于去噪有很好的效果但是有潛在的偽影傳播等缺點(diǎn),本文設(shè)計(jì)的插值算法對(duì)配準(zhǔn)錯(cuò)誤有很好的健壯性,降低了偽影傳播的影響。
首先利用位移圖和前一幀的金字塔Lp建立重新映射的金字塔La,于是有:
(1)
其中上標(biāo)l代表圖像金字塔的級(jí)數(shù),Al(p)代表位移圖。
最終得到的圖像金字塔是t+1幀拉普拉斯金字塔Lc與t幀拉普拉斯金字塔經(jīng)過重新映射得到的圖像Lp的融合,也即是:
(2)
其中Ic(p)和Ip(p)是與像素位置、像素值以及噪聲強(qiáng)度有關(guān)的插值函數(shù)。
為了更好地解釋本文插值算法的設(shè)計(jì)原理,設(shè)Ldelta(p)=Lc(p)-La(p)作為像素值的差,通過與公式(2)比較得:
(3)
公式(3)當(dāng)中的插值算子wc和wp分別是Ic的最小值和Ip的最大值,I是決定當(dāng)前和之前像素的最終權(quán)重的插值因子。
1.2.1 建立低照度場(chǎng)景下的噪聲模型
低照度場(chǎng)景下圖像當(dāng)中的信息很少,相應(yīng)的噪聲比例也就越大,因此需要針對(duì)低照度的場(chǎng)景建立相應(yīng)的噪聲模型用于輔助圖像融合。本文的數(shù)據(jù)集是基于當(dāng)前手機(jī)主流圖像傳感器在低照度場(chǎng)景下建立的數(shù)據(jù)集。噪聲建模結(jié)合了文獻(xiàn)[10-11]高斯-泊松噪聲模型的方法,采用純時(shí)域疊加的方式得到參考圖像,比較噪聲圖像與參考圖像的差異得到高斯-泊松噪聲模型。需要注意的是低照度場(chǎng)景下數(shù)字增益也會(huì)影響圖像和噪聲數(shù)據(jù),因此為了提升噪聲模型的泛化性能,本文將數(shù)字增益也列入噪聲模型當(dāng)中,具體的噪聲模型滿足公式(4):
(4)
p為圖像像素值,g代表數(shù)字增益,n(p)代表圖像像素的標(biāo)準(zhǔn)差,a、b為曲線擬合參數(shù)。
依據(jù)公式(4)計(jì)算進(jìn)而得到每一個(gè)像素的噪聲水平nl(p)。由于算法的處理是在圖像金字塔上實(shí)現(xiàn)的,因此針對(duì)于不同的圖像金字塔層級(jí)l需要建立不同的噪聲模型,應(yīng)用到當(dāng)前場(chǎng)景的算法流程當(dāng)中進(jìn)行算法下一步的處理。
1.2.2 自適應(yīng)插值算子wc和wp
wc和wp分別代表當(dāng)前圖像和前一幀圖像融合時(shí)的整體權(quán)重,對(duì)應(yīng)地決定了去噪強(qiáng)度的下限和上限。wc越小,wp越大,去噪強(qiáng)度越大,相應(yīng)的引入偽影也更多;wc越大,wp越小,引入的偽影會(huì)變少,但是去噪強(qiáng)度變小。算子在圖像融合過程中起到平衡去噪強(qiáng)度和偽影的作用。同時(shí)圖像金字塔的層級(jí)對(duì)應(yīng)了不同的圖像信號(hào)頻率,在不同層級(jí)選擇不同的算子,根據(jù)最終圖像去噪質(zhì)量的客觀指標(biāo)和主觀評(píng)價(jià)得到最佳的算子搭配,這樣就能得到圖像質(zhì)量更好,偽影更少的圖像。
由于本文的去噪處理是針對(duì)視頻而言的,某一幀圖像插值算子的權(quán)重并不能適用于視頻內(nèi)的全部圖像。如果在視頻流當(dāng)中采用恒定的插值算子wc和wp,當(dāng)前幀所占整體權(quán)重維持不變,即相當(dāng)于在視頻處理的后續(xù)幀當(dāng)中弱化了去噪性能,甚至引入了噪聲。這樣得到的去噪效果在視頻流的前半部分提升了,后半部分卻下降了,不能維持去噪效果的提升,因此需要在IIR處理過程當(dāng)中不斷的調(diào)整wc和wp。本文在視頻流去噪處理當(dāng)中設(shè)計(jì)動(dòng)態(tài)的插值算子wc和wp,使得處理結(jié)果不僅能夠?qū)崿F(xiàn)圖像去噪效果的提升,而且能夠維持整個(gè)視頻去噪效果提升的穩(wěn)定性,具體的設(shè)計(jì)思想和方式如下文所述。
所提出的TSF算法基于IIR處理,處理的是重構(gòu)后的前一幀圖像和當(dāng)前幀,重構(gòu)后的圖像是經(jīng)過去噪處理的圖像,噪聲強(qiáng)度是減小的,因此在避免引入偽影的同時(shí)應(yīng)當(dāng)逐漸增大重構(gòu)后圖像的整體權(quán)重wp。本文采用有限脈沖響應(yīng)(Finite Impulse Response,F(xiàn)IR)多幀降噪的算法思想來具體地改變wc和wp:即假設(shè)光流法得到的運(yùn)動(dòng)矢量結(jié)果是準(zhǔn)確的,不包含塊匹配錯(cuò)誤,得到去噪圖像也就是計(jì)算若干張?jiān)肼晥D像配準(zhǔn)之后的融合結(jié)果。將FIR處理的思想應(yīng)用到IIR處理當(dāng)中得到動(dòng)態(tài)的插值算子wc以及wp如公式(5)、(6)所示:
(5)
(6)
公式當(dāng)中的n表示視頻流處理的幀序。
隨著視頻流的輸入,當(dāng)前幀所占的比重在處理過程中不斷降低,可以保證在視頻流處理后期不會(huì)引入過多的噪聲,穩(wěn)定已有的去噪效果。
1.2.3 插值因子I的設(shè)計(jì)
插值因子I的選擇是圖像融合步驟的關(guān)鍵因素。wc和wp僅僅代表當(dāng)前圖像和前一幀圖像融合時(shí)的的整體權(quán)重,而插值因子I則決定了融合步驟圖像每一個(gè)像素的具體權(quán)重。在設(shè)計(jì)插值因子I時(shí)要考慮到不同的時(shí)空域處理對(duì)圖像的影響,以在最少的偽影條件下得到更好的去噪效果。同時(shí)要考慮到在視頻前期去噪處理過程中由于配準(zhǔn)錯(cuò)誤沒有得到很好的配準(zhǔn)效果時(shí),算法處理需要更加保守以免在當(dāng)前幀引入偽影。
對(duì)于I采用了文獻(xiàn)[8]基于噪聲改變和像素差異的插值算子的改進(jìn)方法,以sigmod函數(shù)形式實(shí)現(xiàn)插值因子改進(jìn)。
(7)
(8)
不同的噪聲等級(jí)和像素值會(huì)令插值因子I有所差異,在不同的取值區(qū)間也會(huì)使I有不同的變化速度。在高噪聲等級(jí)條件下盡管由于配準(zhǔn)錯(cuò)誤造成的像素值差異依然產(chǎn)生,此時(shí)的I依然可以靈敏的調(diào)節(jié),通過令插值因子在接近0的過程有更大的波動(dòng)范圍,得到既能阻止來自之前幀的圖像成分以減少偽影,又能取得更強(qiáng)去噪效果的處理結(jié)果。
為了防止偽影的過度傳播,在對(duì)于I> 0.5的像素位置算法設(shè)置了一鍵關(guān)閉時(shí)域去噪效果的設(shè)計(jì),此時(shí)使用空間域的雙邊濾波處理配準(zhǔn)錯(cuò)誤的區(qū)域,達(dá)到時(shí)空域聯(lián)合去噪的處理效果。
本文處理的圖像是基于低照度場(chǎng)景下的噪聲視頻圖像,因此單純的時(shí)間域去噪處理并不能達(dá)到最理想的去噪效果。雖然在本算法融合步驟的處理之中包含了空間域去噪的處理,但是圖像配準(zhǔn)錯(cuò)誤的區(qū)域并不占據(jù)很多的成分,導(dǎo)致空間域去噪占比也相當(dāng)有限。因此在得到當(dāng)前幀的重構(gòu)圖像之后,在該圖像上進(jìn)行空間域去噪的處理,例如雙邊濾波、引導(dǎo)濾波[12]、非局部均值算法[13-15]等可以繼續(xù)提升圖像質(zhì)量。所提出的TSF算法采用了與BM3D[7]算法當(dāng)中“兩步估計(jì)”類似的思想,先得到相對(duì)噪聲較小的圖像,再在此圖像之上實(shí)現(xiàn)接下來的空間域去噪處理,得到峰值信噪比和結(jié)構(gòu)相似度更好的去噪圖像。為了降低復(fù)雜度,本文采用雙邊濾波空間域去噪處理。同時(shí)為了防止視頻流處理過程中空間域?yàn)V波平滑效果的傳播,如圖1所示,算法在進(jìn)行空間域雙邊濾波之前就將t+1時(shí)刻的重構(gòu)圖像去與t+2時(shí)刻圖像重復(fù)執(zhí)行配準(zhǔn)和融合等IIR處理,這樣可以在達(dá)到更好的去噪效果的同時(shí)有效地防止細(xì)節(jié)平滑的傳播。
當(dāng)前的數(shù)據(jù)集采用當(dāng)前手機(jī)主流4800萬像素圖像傳感器在低照度場(chǎng)景下獲取。數(shù)據(jù)集包含了36種場(chǎng)景,光照條件包含0.32lux、0.8lux和1.5lux;曝光時(shí)間包含1/15秒和1/30秒;場(chǎng)景包含靜態(tài)、動(dòng)態(tài)(大運(yùn)動(dòng)和小運(yùn)動(dòng))、色卡、手持、窗戶六個(gè)場(chǎng)景,每個(gè)場(chǎng)景拍攝60幀圖片(色卡場(chǎng)景除外),共計(jì)1848張圖片,數(shù)據(jù)集大小17.4G。由該圖像原始數(shù)據(jù)經(jīng)過去黑電平,合并的圖像讀出方式等預(yù)處理得到灰度圖像數(shù)據(jù),進(jìn)行下一步去噪處理。
本文算法的處理是在Intel Core i7 10750H 64位操作系統(tǒng),16G內(nèi)存,Visual Studio 2015平臺(tái)下進(jìn)行的。所提出的TSF算法在0.8lux光照,曝光速度30f條件下的視頻流處理效果折線圖以及各個(gè)場(chǎng)景下與VBM4D[7]、實(shí)時(shí)視頻去噪[8]等方法的結(jié)果數(shù)據(jù)對(duì)比如圖5和表1到表6所示。
表1 0.32lux光照,曝光頻率30f的靜止場(chǎng)景處理結(jié)果對(duì)比
表2 0.32lux光照,曝光頻率15f的靜止場(chǎng)景處理結(jié)果對(duì)比
表3 0.8lux光照,曝光頻率30f的靜止場(chǎng)景處理結(jié)果對(duì)比
表4 0.8lux光照,曝光頻率15f的靜止場(chǎng)景處理結(jié)果對(duì)比
表5 1.5lux光照,曝光頻率30f的靜止場(chǎng)景處理結(jié)果對(duì)比
表6 1.5lux光照,曝光頻率15f的靜止場(chǎng)景處理結(jié)果對(duì)比
由圖2和表1到表6可知,所提出的TSF算法在峰值信噪比(PSNR)、均方根誤差(RMSE)、結(jié)構(gòu)相似度(SSIM)和視頻流處理穩(wěn)定性方面(圖2)得到了更好的客觀指標(biāo),但是由于添加了空間域去噪的處理,相應(yīng)的處理時(shí)間延長(zhǎng)約0.01-0.02s,時(shí)間方差也依據(jù)具體環(huán)境有所上升。以表2為例,在光照為0.32lux,曝光速度15f條件下,TSF算法比實(shí)時(shí)視頻降噪[8]算法PSNR提高了0.99dB,RMSE降低了0.28,SSIM也有所提升,相比而言處理時(shí)間僅僅延長(zhǎng)了0.013s,時(shí)間方差也只提高了0.8左右。這是因?yàn)門SF算法采用了低照度場(chǎng)景下的噪聲建模方式,同時(shí)針對(duì)該場(chǎng)景利用時(shí)空域相結(jié)合的去噪方式,對(duì)于采用的數(shù)據(jù)集產(chǎn)生了更好的去噪效果,顯著提高了圖像的質(zhì)量,相比于實(shí)時(shí)視頻去噪算法[8]提升效果明顯,和一些其他如VBM4D[7]這種離線復(fù)雜度很高的算法也有很好的可比性。
圖2 (a)、(b)、(c)分別為0.8lux光照,曝光速度為30f的場(chǎng)景下視頻流處理PSNR、RMSE、SSIM結(jié)果
2.3.1 靜態(tài)場(chǎng)景比較
由圖3可以看出VBM4D[7]算法由于包含多次的塊匹配,因此對(duì)于圖像的周期紋理去噪效果最好,但是考慮到處理時(shí)間可以知道它的復(fù)雜度很難實(shí)現(xiàn)實(shí)時(shí)化處理。本文的算法處理結(jié)果在主觀去噪效果上與VBM4D[7]算法相近,并且明顯優(yōu)于實(shí)時(shí)視頻去噪[8]算法。算法沒有采用塊匹配的策略,并且針對(duì)低照度場(chǎng)景做了相應(yīng)的噪聲建模和插值算子優(yōu)化,添加了空間域?yàn)V波的算法處理,獲得了相比于VBM4D[7]算法處理時(shí)間的優(yōu)化和比實(shí)時(shí)視頻降噪[8]算法更好的主觀去噪效果。
(a)(b)
2.3.2 動(dòng)態(tài)場(chǎng)景比較
與靜態(tài)場(chǎng)景相比,動(dòng)態(tài)場(chǎng)景的去噪效果更能反映算法的有效性和應(yīng)用性。圖4為0.8lux光照強(qiáng)度,曝光速度每秒30幀的動(dòng)態(tài)場(chǎng)景下視頻流部分連續(xù)幀去噪結(jié)果,比較可以看出先經(jīng)過頻域分隔處理的時(shí)空域去噪,然后通過空間域去噪處理之后,算法的去噪效果明顯,并且在本文設(shè)計(jì)的動(dòng)態(tài)插值算子調(diào)節(jié)下盡量避免了產(chǎn)生偽影、撕裂等缺陷,反映出本文動(dòng)態(tài)插值算子設(shè)計(jì)的有效性。
(a)(b)
對(duì)于傳統(tǒng)視頻去噪方法處理低照度場(chǎng)景視頻的去噪效果有限,并且塊匹配方法計(jì)算復(fù)雜度過高,處理時(shí)間過長(zhǎng)等問題,本文提出了一種相對(duì)快速的視頻去噪方法。所提出的TSF算法建立包含數(shù)字增益的低照度圖像噪聲模型,結(jié)合了時(shí)空域的降噪方法,同時(shí)利用高斯和拉普拉斯金字塔實(shí)現(xiàn)了頻域的處理,相比于實(shí)時(shí)視頻去噪算法[8]在客觀的評(píng)價(jià)指標(biāo)PSNR、RMSE、SSIM等方面得到了較高的提升,達(dá)到了優(yōu)秀的去噪效果,同時(shí)并沒有引起很大的額外時(shí)間處理開銷。在主觀評(píng)價(jià)方面也得到了很強(qiáng)的圖像去噪增強(qiáng)的感受。算法的不足之處在于還沒有實(shí)現(xiàn)實(shí)時(shí)處理,因此在接下來的工作當(dāng)中要在保持去噪效果的同時(shí)優(yōu)化處理時(shí)間,進(jìn)一步優(yōu)化算法和降低算法的復(fù)雜度。