盧 健 孫 怡
(大連理工大學(xué)信息與通信工程學(xué)院 大連 116024)
超分辨率重建是一種突破成像硬件條件限制提高圖像質(zhì)量的方法。文獻[1]對超分辨重建的基本原理進行了總結(jié),給出一般超分辨重建主要包括的3個步驟:首先將低分辨率圖像配準;然后從已配準的低分辨圖像中估計出所需的高分辨圖像;最后再進行一些去模糊等后處理工作。近年來,在此基礎(chǔ)上,研究人員不斷嘗試將新技術(shù)融入到超分辨重建算法之中。然而這些方法所依賴的假設(shè)和模型往往過于簡單和理想化,而實際場景要復(fù)雜得多,這造成了現(xiàn)有超分辨算法數(shù)值試驗的效果遠遠好于實際應(yīng)用效果。為了提高超分辨在實際應(yīng)用中的能力,提高算法的魯棒性成為了新的研究熱點。相關(guān)研究主要集中在兩個方面,一是如何降低配準誤差的影響,二是如何提高重建估計的魯棒性。
配準是超分辨重建的第1步,配準誤差會在重建過程中傳播放大,因此配準的準確性對重建的影響很大。然而實際中的配準問題非常復(fù)雜,除了要受到噪聲的影響,還有運動估計中經(jīng)常遇到的遮擋及“孔徑”問題[2,3]。近年來,人們嘗試利用基于貝葉斯框架的聯(lián)合超分辨方法解決該問題,比如,文獻[4]將超分辨問題引入貝葉斯框架,并利用局部稀疏作為各未知參量的先驗約束來實現(xiàn)重建。文獻[5]則結(jié)合了總變分和自回歸兩種先驗對重建進行約束。該類方法雖然取得了不錯的結(jié)果,但其存在兩個主要的問題:一是未知參量太多,導(dǎo)致算法計算復(fù)雜度過高,收斂性能較差;二是為了減少未知參量個數(shù),往往需要采用簡化的模型,使得該類算法在實際應(yīng)用中存在一定的局限。最近,一些研究者轉(zhuǎn)換了思路,提出了不需要精確配準的方法,主要包括:文獻[6]將非局部平均(Non-Local Means,NLM)去噪算法[7]擴展到了超分辨領(lǐng)域,文獻[8]將核回歸插值方法應(yīng)用于超分辨。文獻[9]通過引入非局部信息,提出了非局部核回歸的方法。文獻[10]對文獻[6]中的方法進行了重新解釋,提出了概率運動場的概念。這些方法主要運用了模糊運動的概念,即在配準階段不再要求唯一精確的運動矢量,而是假定每一個像素有多種運動的可能,這種增加配準冗余性的處理,減小了算法對唯一精確性的依賴,增加了算法的魯棒性。為超分辨在實際場景中的應(yīng)用提供了很好的配準解決方案。
在重建階段,由于超分辨重建是一個病態(tài)問題,因而需要正則化使其變?yōu)榱紤B(tài)問題。正則化的關(guān)鍵是選取合適的正則項。在此類算法中,應(yīng)用較為廣范的是基于總變分(Total Variation, TV)及其改進的一類正則化算法,其中文獻[11]提出了雙邊總變分(Bilateral Total Variation, BTV),提高了TV方法利用鄰域信息的能力。文獻[12]和文獻[13]分別利用差值曲率和形態(tài)學(xué)方法對圖像進行度量并利用度量結(jié)果對TV項進行加權(quán),提高了正則方法的自適應(yīng)性。盡管這些方法有效地改善了重建質(zhì)量,但是卻很難抵抗配準誤差的影響。
本文在分析現(xiàn)有提高魯棒性方法的基礎(chǔ)上,提出了基于Huber范數(shù)M估計和概率運動場的超分辨算法。該算法能夠有效地克服超分辨過程中配準和噪聲對重建結(jié)果的影響,從而提高了超分辨算法在實際應(yīng)用中的魯棒性。
建立觀測模型是研究超分辨率算法的前提。在成像過程中,降質(zhì)因素主要包括光學(xué)模糊,各幀圖像間的相對運動,下采樣過程和噪聲,整個過程可用式(1)表示。
其中λ為正則化系數(shù),用來調(diào)節(jié)正則項對 ML估計的約束強度。
由于實際場景中的超分辨問題非常復(fù)雜,為求解方便,數(shù)學(xué)模型往往需要對實際問題進行抽象與簡化,這種模型與實際問題之間的偏差也是造成超分辨算法實際應(yīng)用效果較差的一個原因。根據(jù)穩(wěn)健統(tǒng)計(robust statistics)理論[14],估計的魯棒性指的是在估計過程中產(chǎn)生的估計量對模型誤差的不敏感性。在穩(wěn)健統(tǒng)計中,基于最大似然估計的一類方法被稱作M估計,M估計的魯棒性與()ρ?的選擇有關(guān)?;?L2范數(shù)的 M 估計對于高斯分布的誤差可以取得最優(yōu)的結(jié)果,而對非高斯分布尤其是較大離群點卻非常敏感,而基于 L1范數(shù)的 M 估計子卻具有極好的魯棒性。雖然在高斯噪聲的情況下,L1范數(shù)較L2范數(shù)并非最優(yōu)解,但在非高斯噪聲特別是存在較大離群點的情況下,L1范數(shù)M估計具有很好的抗噪性能。然而L1范數(shù)不是處處可微的,因此造成了數(shù)值計算的不穩(wěn)定。為了進一步增強算法的穩(wěn)定性,本文引入了處處可微的Huber范數(shù)[15]作為M估計的度量,這樣只要使用基于梯度的優(yōu)化方法就可以對其進行可靠求解。Huber范數(shù)具體表示如式(5)所示,其中α控制了L1和L2范數(shù)的轉(zhuǎn)換點。
由于在配準階段采用了概率運動場,因此在進行M估計時,代價函數(shù)的度量就需要考慮場中各種運動可能性的大小,因此在式(3)中需要采用加權(quán)范數(shù)。加權(quán)Huber范數(shù)表示為
在圖像處理中,一般會選擇與圖像相關(guān)的先驗知識作為正則項。本文選取了 BTV[11]作為正則化項,該正則項可以較好地保持圖像的邊緣信息,BTV正則項的具體表達式為
采用梯度最速下降法(gradient descent)對式(9)進行迭代求解,便可獲得高分辨率圖像z的一個M估計:
式中cSSD稱為SSD的臨界轉(zhuǎn)換點,由圖1所示,Heaviside逼近函數(shù)和高斯函數(shù)曲線都具有單調(diào)遞減的特性,并且能夠?qū)^(qū)間映射為區(qū)間,因此滿足權(quán)重映射的要求。高斯曲線的形狀由參數(shù)σ控制,而 Heaviside逼近函數(shù)曲線的形狀則由控制,小于的值將會映射為比較大的權(quán)重值,而大于的值映射所得權(quán)重將會迅速趨近于0。因此,只要能夠合理地估計出,便可以有效地控制Heaviside逼近函數(shù)曲線的形狀??捎墒?15)估計獲得:
需要說明的是權(quán)重計算需要高分辨率圖像z,而在算法初始時,高分辨率圖像尚未重建,因此本文利用插值方法對原始高分辨率圖像進行初始估計。而在每一次迭代中,都會使用最新重建的高分辨率圖像重新計算權(quán)重。更好的重建圖像保證了權(quán)重計算更加準確,同時更準確的權(quán)重也會進一步提高圖像重建的質(zhì)量,因此,無論是權(quán)重還是重建的高分辨率圖像,都可以在迭代的過程中逐步得到改善。
為驗證算法性能,本文設(shè)計了仿真和實際視頻實驗,通過與其它算法進行比較,來驗證算法的有效性。本文采用的比較算法主要包括:基于非局部平均濾波原理的超分辨重建算法[6],文中以NLM標識;基于非局部核回歸插值的超分辨方法[9],以 NLKR標識;聯(lián)合貝葉斯估計方法[5],以TV-SAR標識,以及基于 L1范數(shù)估計的經(jīng)典超分辨方法[11],以L1-ML標識。所有實驗如未說明均采用相同的參數(shù)。除主觀評價之外,還采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)作為客觀標準,對重建圖像質(zhì)量進行評價。
圖1 權(quán)重映射曲線
首先利用標準圖像 Lena 進行仿真實驗。實驗中采用的低分辨率圖像序列是由一幅高分辨率Lena圖像經(jīng)全局平移(2個像素以內(nèi)),3 倍下采樣,然后加入標準差為 5 的高斯白噪聲和2%的椒鹽噪聲,得到的25幀低分辨率圖像。對這25幀低分辨圖像分別采用不同算法進行重構(gòu)。重構(gòu)結(jié)果如圖 2所示。圖 2(b)為使用文獻[11]中方法進行重建的結(jié)果,從結(jié)果可以看出,由于噪聲的存在,該算法無法獲得精確的運動信息,盡管采用了魯棒的L1范數(shù)估計,但是由于該方法仍然依賴于準確的運動信息,導(dǎo)致了高分辨率網(wǎng)格上的某些點(黑色的點)無法獲得正確像素值,從而重建失??;圖 2(c)為非局部平均超分辨方法[6],該方法利用概率運動場來描述像素間的運動信息,避免了對精確運動信息的依賴,所以沒有出現(xiàn)因運動信息不夠精確而導(dǎo)致的重建失敗,但是由于該方法所采用的是基于L2范數(shù)的估計,因此其對椒鹽噪聲沒有抑制能力,從而導(dǎo)致重建結(jié)果中存在許多椒鹽狀雜點;圖2(d)為本文方法,由于在配準和重建階段分別采用了更為魯棒的概率運動場和Huber估計子,本文方法能夠有效地抵抗運動估計不準以及各類噪聲的影響,從而提高了超分辨率算法的魯棒性。
為了檢測算法對實際視頻的重建效果,本文首先采用標準測試視頻序列Suzie和Foreman進行測試。實驗從上述兩個視頻中截取連續(xù)的30幀圖像,經(jīng)模糊、下采樣以及加噪處理后,生成低分辨圖像序列,其中模糊核為33×的均勻模糊核,下采樣因子為 3,噪聲為標準差等于 2的高斯白噪聲,然后分別采用NLM, NLKR, TV-SAR 和本文算法對兩個序列的前8幀圖像進行重構(gòu)。由于NLM, NLKR以及本文方法都將去模糊作為后處理手段,為了保證比較的客觀性,本文去模糊處理采用與文獻[6]和文獻[9]中相同的去模糊算法[16]。圖3和圖4分別展示了兩個視頻第8幀的重建結(jié)果。表1給出了4個算法重建視頻前8幀的平均 PSNR結(jié)果。
表1 超分辨重建結(jié)果PSNR值 (dB)
圖2 重構(gòu)仿真實驗結(jié)果比較
從主觀視覺比較中可以看出,NLKR受噪聲影響導(dǎo)致核回歸估計不準,會在重建圖像中產(chǎn)生不平整現(xiàn)象。而TV-SAR為了避免聯(lián)合優(yōu)化參數(shù)過多,采用了簡單的全局運動模型。因此,對于符合這一假設(shè)的部分,比如Foreman中的墻板就會取得較好的結(jié)果,而對于復(fù)雜的運動,如 Suzie的眼睛,F(xiàn)oreman的頭部,則效果欠佳。而NLM和本文方法,由于在配準階段都采用了概率運動場,因此取得了相似的結(jié)果,而在重建階段,由于本文方法采用了更為魯棒的 L1范數(shù) M 估計,減少了誤差較大的離群點對重建的影響,因此減少了在 NLM 方法中Suzie的眼睛以及Foreman的嘴部出現(xiàn)的雜點現(xiàn)象。相應(yīng)的客觀評測也印證了主觀評價的結(jié)果。這說明,本文算法能夠從配準和重建兩個方面提高了算法的魯棒性,改善了重建質(zhì)量。
為了進一步檢測算法,本文繼續(xù)從標準測試視頻序列中,選取了另外7段視頻進行了上述實驗,然后對各重建視頻序列求平均 PSNR。計算結(jié)果呈現(xiàn)在圖5中。需要說明的是,由于TV-SAR方法適用于運動形式比較簡單的情況,對運動情況較復(fù)雜的真實視頻效果欠佳,因此圖5只比較了另外3種方法的結(jié)果。由于這3種方法都將去模糊作為后處理手段,為公平比較,本文只對去模糊之前的重建結(jié)果進行比較。從評測結(jié)果可以看出,本文算法對不同的視頻內(nèi)容幾乎都可以取得較好的結(jié)果。這進一步說明本文方法,具有廣泛的適用性和魯棒性,可以有效的提高超分辨在實際應(yīng)用中的重建質(zhì)量。
圖3 Suzie視頻超分辨重建結(jié)果
圖4 Foreman視頻超分辨重建結(jié)果
受到噪聲和非噪聲因素的影響,超分辨重建算法往往很難在實際的應(yīng)用中取得很好的結(jié)果。為了增加算法的魯棒性,本文從配準和重建兩個階段入手,在配準階段通過引入概率運動場,避免了算法對運動信息準確性的依賴,而在重建階段,利用Huber范數(shù)正則化估計,進一步增強了重構(gòu)算法的魯棒性。實驗結(jié)果表明,該方法能夠有效地改善傳統(tǒng)超分辨方法中運動場估計不夠準確以及重建質(zhì)量嚴重受噪聲影響的問題,其重建的魯棒性能優(yōu)于現(xiàn)有的超分辨率方法。
圖5 3種超分辨方法對不同視頻重建的平均PSNR比較
[1] Park S C, Park M K, and Kang M G. Super-resolution image reconstruction: a technical overview[J]. IEEE Signal Processing Magazine, 2003, 20(3): 21-36.
[2] Lu J, Zhang H R, and Sun Y. Video super resolution based on non-local regularization and reliable motion estimation[J].Signal Processing: Image Communication, 2014, 29(4):514-529.
[3] Vrigkas M, Nikou C, and Kondi L P. Accurate image registration for MAP image super-resolution[J]. Signal Processing: Image Communication, 2013, 28(5): 494-508.
[4] Liu C and Sun D. On Bayesian adaptive video super resolution[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(2): 346-360.
[5] Villena S, Vega M, Babacan S D, et al.. Bayesian combination of sparse and non-sparse priors in image super resolution[J].Digital Signal Processing, 2013, 23(2): 530-541.
[6] Protter M, Elad M, Takeda H, et al.. Generalizing the nonlocal-means to super-resolution reconstruction[J]. IEEE Transactions on Image Processing, 2009, 18(1): 36-51.
[7] Buades A, Coll B, and Morel J M. A non-local algorithm for image denoising[C]. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,New York, USA, 2005: 60-65.
[8] Takeda H, Milanfar P, Protter M, et al.. Super-resolution without explicit subpixel motion estimation[J]. IEEE Transactions on Image Processing, 2009, 18(9): 1958-1975.
[9] Zhang H, Yang J, Zhang Y, et al.. Image and video restorations via nonlocal kernel regression[J]. IEEE Transactions on Cybernetics, 2013, 43(3): 1035-1046.
[10] Protter M and Elad M. Super resolution with probabilistic motion estimation[J]. IEEE Transactions on Image Processing, 2009, 18(8): 1899-1904.
[11] Farsiu S, Robinson M D, Elad M, et al.. Fast and robust multiframe super resolution[J]. IEEE Transactions on Image Processing, 2004, 13(10): 1327-1344.
[12] Yuan Q, Zhang L, and Shen H. Multiframe super-resolution employing a spatially weighted total variation model[J].IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(3): 379-392.
[13] Purkait P and Chanda B. Morphologic gain-controlled regularization for edge-preserving super-resolution image reconstruction[J]. Signal, Image and Video Processing, 2013,7(5): 925-938.
[14] Maronna R A, Martin R D, and Yohai V J. Robust Statistics:Theory and Methods[M]. London: John Wiley & Sons, 2006:103-108.
[15] Werlberger M, Pock T, and Bischof H. Motion estimation with non-local total variation regularization[C]. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010:2464-2471.
[16] Getreuer P. Total variation deconvolution using split bregman[J]. Image Processing On Line, 2012, 2(1): 158-174.