梁風(fēng)梅,邢劍卿,羅中良,鄧雪晴
(1.太原理工大學(xué)信息工程學(xué)院,山西 太原 030024) (2.惠州學(xué)院計(jì)算機(jī)系,廣東 惠州 516007)
自從Tsai和Huang[1]提出可以由一組低分辨率(LR)圖像序列恢復(fù)出單幀高分辨率(HR)圖像的理論,圖像超分辨率重建一直是圖像處理領(lǐng)域研究的熱點(diǎn)。
文檔圖像超分辨率重建主要用于光學(xué)字符識(shí)別軟件(OCR)的預(yù)處理過程,也可用于從模糊的監(jiān)控視頻中重建HR文檔圖像[2],或者對web頁面的模糊文檔進(jìn)行實(shí)時(shí)重建。常見的圖像插值方法遠(yuǎn)遠(yuǎn)達(dá)不到理想的重建質(zhì)量,近期國內(nèi)外學(xué)者設(shè)計(jì)了一些主要針對文檔圖像的重建技術(shù)。Fan等[3]利用局部約束一致性在重建過程進(jìn)行線性正則化,并自適應(yīng)生成最佳匹配的HR文檔圖像塊。Patanavijit[4]運(yùn)用M3SS基于塊仿射配準(zhǔn)方法,結(jié)合分塊技術(shù)和仿射模型對降質(zhì)文檔圖像重建。Nasonov等[5]把差分穩(wěn)定雙邊全變分和雙峰懲罰函數(shù)引入正則化項(xiàng),使算法在文檔圖像重建中具有很強(qiáng)的去振鈴和去噪能力。Kumar[6]在基于稀疏表示的重建基礎(chǔ)上,指出雖然字符形狀不一致,但是其邊緣和筆畫曲線等特征都是相似的,最后通過字典訓(xùn)練出了稀疏分解的理想HR圖像塊。另外,貝葉斯估計(jì)方法在文檔圖像重建中也受到普遍關(guān)注[7]。
但是,上述方法都存在著算法復(fù)雜度高、噪聲模型單一、實(shí)時(shí)性和魯棒性差等缺點(diǎn)。鑒于此,本文選用算法復(fù)雜度較低的正則化方法,減小配準(zhǔn)偏差的干擾,從而提升重建效率。目標(biāo)函數(shù)數(shù)據(jù)擬合項(xiàng)中的L1范數(shù)有利于保持邊緣[8],主要針對拉普拉斯噪聲模型;L2范數(shù)有利于平滑噪聲[9],主要針對高斯噪聲模型。然而,實(shí)際圖像中總是夾雜著加性高斯噪聲和拉普拉斯脈沖噪聲[10],而且在重建過程中噪聲及其分布模型都有可能發(fā)生突變,所以上述方法都不能保證高質(zhì)量的重建。本文提出利用不針對特定噪聲模型的G&M范數(shù)作為數(shù)據(jù)擬合項(xiàng),并在BTV正則項(xiàng)的基礎(chǔ)上引入了Huber函數(shù),使其在水平、垂直、對角線方向估計(jì)像素點(diǎn)的梯度值,利用局部結(jié)構(gòu)特征辨別邊緣和平面區(qū)域,克服TV和BTV正則化方法不能充分利用邊緣方向信息的缺陷[11]。
通常把HR圖像的降質(zhì)過程作為觀察模型,通過降質(zhì)模型建立HR和LR之間的關(guān)系,最后生成求解HR的方程。設(shè)HR圖像大小為L1N1×L2N2,L1、L2分別為垂直和水平方向上的下采樣因子,則LR圖像的尺寸為N1×N2。LR圖像是HR圖像通過下采樣、平移、模糊、加噪聲等一系列操作獲得,圖像的降質(zhì)模型為:
uk=DkHkBkz+vk=1,2,3…
(1)
k為LR圖像序列的幀數(shù),uk為第k幀LR圖像,Dk為下采樣矩陣,大小為(N1N2)2×L1N1L2N2;Hk為運(yùn)動(dòng)矩陣,大小為L1N1L2N2×L1N1L2N2;Bk為模糊矩陣,大小為L1N1L2N2×L1N1L2N2。z是原始圖像信號(hào),v為加性高斯噪聲。
多幀LR圖像重建時(shí)需要融合圖像之間的相關(guān)信息,由于本身分辨率低且?guī)瑪?shù)多,所以對運(yùn)動(dòng)估計(jì)的精確度要求很高。本文選用的Lucas-Kanade(LK)光流配準(zhǔn)算法采取金字塔分層處理[12],可在精確計(jì)算Hk前提下減小計(jì)算量,能夠正確檢測亞像素級(jí)的移動(dòng)距離,更重要的是,它能準(zhǔn)確反映運(yùn)動(dòng)邊緣部分的光流信息,而且對平面區(qū)域的光流變化較敏感。
令A(yù)k=DkHkBk,線性算子Ak尺寸為(N1N2)2×L1N1L2N2,有
uk=Akz+v
(2)
由(2)式可知,圖像的重建過程就是通過退化模型估計(jì)反求z的過程。
正則化過程中依據(jù)解的先驗(yàn)信息構(gòu)建附加限制條件,以保證重建解的確定性和唯一性。利用正則化方法分析退化模型,可以構(gòu)造出加入求解限制條件的目標(biāo)方程:
N=L1N1×L2N2
(3)
(4)
λ為正則化系數(shù),λ取值偏大,則重建結(jié)果就偏于平滑,不能突出體現(xiàn)邊緣區(qū)域;λ取值偏小,則數(shù)據(jù)擬合項(xiàng)的值偏低,對配準(zhǔn)誤差不敏感。所以,對λ的適當(dāng)選取是獲取高質(zhì)量重建圖像的重要前提,本文選取λ的經(jīng)驗(yàn)值為0.7。
Ω(z)為正則化項(xiàng),有助于算法從最后的解中剔除偽解,加快迭代速率,補(bǔ)償先驗(yàn)知識(shí)。本文設(shè)計(jì)了結(jié)合BTV和Huber函數(shù)的正則化項(xiàng),力求在保證求得最優(yōu)解的前提下通過正則化最大限度地運(yùn)用字符局部結(jié)構(gòu)特征信息重建最佳效果。
Ω(z)=BTV(z)+aρ(z)
(5)
(6)
文檔圖像具有梯度值分段光滑性質(zhì)[13],梯度值在圖像的邊緣像素點(diǎn)處較大,在平面像素點(diǎn)處較小,因此,可根據(jù)圖像梯度統(tǒng)計(jì)信息設(shè)定一個(gè)閾值區(qū)分邊緣和平面區(qū)域。(7)式中a為邊緣梯度閾值。
(7)
梯度值較大的像素點(diǎn)對應(yīng)著邊緣區(qū)域,即|z|>a,Huber函數(shù)表達(dá)式為2a|z|-a2,觀察圖中函數(shù)值偏小,此時(shí)可加大Ω(z)項(xiàng)中BTV(z)的作用力度,有利于消除字符邊緣上的異常值。梯度值較小的像素點(diǎn)對應(yīng)著平面區(qū)域,即|z|≤a,Huber函數(shù)表達(dá)式為z2,觀察圖中函數(shù)值偏大,可增強(qiáng)自身ρ(z)項(xiàng)的作用,使正則化項(xiàng)在平面區(qū)域能更注重細(xì)節(jié),充分利用字符局部結(jié)構(gòu)特征信息,見圖1。
圖1 Huber函數(shù)圖Fig.1 The figure of Huber function
圖2以中文字符“木”和英文字符“C”體現(xiàn)了中英文字符中典型的結(jié)構(gòu)特征。Huber函數(shù)在正則化項(xiàng)中補(bǔ)償字符結(jié)構(gòu)特征的先驗(yàn)信息,以克服字符邊緣紋理走向復(fù)雜多變的難點(diǎn),并分別在0°、45°、90°、135°這四個(gè)方向上利用局部近似微分估計(jì)出像素點(diǎn)的梯度值:
(8)
圖2 字符結(jié)構(gòu)特征Fig.2 Structural features of characters
(9)
本文采用最速下降法得到如下迭代式,并求解(3)式的極小化問題,加快收斂速度得到最終解實(shí)現(xiàn)重建。
(10)
β為梯度方向上的迭代步長,在初始迭代階段取偏大值以加快收斂速度,在即將收斂階段取偏小值以保證重建精確度。
實(shí)驗(yàn)在matlabR2012平臺(tái)上進(jìn)行。實(shí)驗(yàn)選用的原始HR圖像大小為128×128。首先對文檔HR圖像進(jìn)行下采樣、平移、模糊、加噪聲獲取30幀LR圖像。下采樣因子為2,獲得尺寸為64×64的LR圖像,然后對圖像在水平和垂直方向上進(jìn)行隨機(jī)平移運(yùn)動(dòng)。為了模擬攝像頭的PSF模糊效果,將圖像與核大小為3×3標(biāo)準(zhǔn)偏差等于1的對稱高斯低通濾波器卷積運(yùn)算。同時(shí)加入信噪比(SNR)為12 dB的高斯和拉普拉斯混合噪聲,以驗(yàn)證算法的魯棒性。所有方法迭代次數(shù)都為20次。
首先將LR圖像雙線性插值到高分辨率柵格中,上采樣因子為2。分別選擇序列圖像中第一幀和第二幀作為參考幀和配準(zhǔn)幀,然后將配準(zhǔn)結(jié)果作為和下一幀LR圖像配準(zhǔn)的參考幀。圖3和圖4分別為中英文字符的配準(zhǔn)過程,觀察(c)圖可以發(fā)現(xiàn)LK光流配準(zhǔn)算法能準(zhǔn)確地檢測出亞像素級(jí)的運(yùn)動(dòng),并且對噪聲不敏感,其光流場連續(xù)光滑。(d)圖為配準(zhǔn)融合圖像信息之后的結(jié)果。
圖3 中文字符文檔圖像配準(zhǔn)Fig.3 Registration of Chinese characters image
圖4 英文字符文檔圖像配準(zhǔn)Fig.4 Registration of English characters image
圖5和圖6中L1BTV和L2BTV能在一定程度上銳化字符邊緣,但是由于其方法只能限定于消除特定的模糊噪聲,所以重建結(jié)果受到噪聲的污染較為嚴(yán)重,導(dǎo)致重建圖像出現(xiàn)明顯的振鈴效應(yīng),無法正確分辨具有復(fù)雜筆畫的字符,如圖5(b)和(c)中的漢字“眥”。在圖6中英文字符間距較小,采用L1BTV和L2BTV方法重建時(shí)由于LR圖像邊緣連續(xù)性不穩(wěn)定,導(dǎo)致出現(xiàn)某些英文字符連筆的現(xiàn)象,如(b)和(c)圖中的字母“Q”和“R”等。(d)圖運(yùn)用的是G&M方法,有效地消除了噪聲,但是由于正則化項(xiàng)中沒有加入Huber函數(shù),不能充分利用邊緣方向上的信息,導(dǎo)致字符筆畫不均勻,甚至也出現(xiàn)筆畫嚴(yán)重變形、連筆等現(xiàn)象。本文方法充分利用字符結(jié)構(gòu)特征的先驗(yàn)信息,在平滑平面區(qū)域同時(shí)銳化邊緣,克服了字符筆畫復(fù)雜和間距小等難點(diǎn),重建結(jié)果具有較高的分辨率,基本上已經(jīng)消除了噪聲,能夠清晰地辨別出字符。
圖5 中文字符文檔圖像重建結(jié)果比較Fig.5 Reconstruction results of Chinese characters image
圖6 英文字符文檔圖像重建結(jié)果比較Fig.6 Reconstruction results of English characters image
本文用PSNR值客觀評價(jià)三種方法的重建結(jié)果質(zhì)量,PSNR由(11)式求得,具體值見表1。
(11)
表1 四種方法重建結(jié)果的PSNR值與重建時(shí)間
Table 1 PSNR and reconstruction time of the four reconstructions
字符類型L1BTVL2BTVG&M方法本文方法中文字符/dB27.3127.7228.4329.30英文字符/dB27.4827.5328.3228.96平均重建時(shí)間/s2.332.452.031.73
圖7為漢字和英文字符的識(shí)別率對比折線圖,識(shí)別率是利用漢王OCR識(shí)別軟件測試得出,圖中字符識(shí)別率是各個(gè)迭代階段中英文字符識(shí)別率的平均值。觀察圖中可知本文方法在各個(gè)迭代階段的識(shí)別率均高于其他三種方法,充分說明本文方法的優(yōu)越性。
圖7 各個(gè)迭代階段的字符平均識(shí)別率比較圖Fig.7 The comparison of characters average recognition rate in specified iteration stages
本文提出一種基于Geman&McClure范數(shù)的Huber函數(shù)BTV正則化算法,并采用高精度的LK光流配準(zhǔn)方法對中文字符和英文字符LR圖像進(jìn)行運(yùn)動(dòng)估計(jì)。與L1BTV、L2BTV、G&M方法得到的重建結(jié)果進(jìn)行對比,驗(yàn)證了本文方法針對低分辨率文檔圖像的特征,能夠利用字符結(jié)構(gòu)特征的先驗(yàn)?zāi)P?,克服了由于模糊造成?yán)重的邊緣不連續(xù)現(xiàn)象。在同等條件下,本文方法比其他算法能夠更高效地保持邊緣細(xì)節(jié)、抑制多種未知噪聲污染、消除振鈴效應(yīng),顯著提高LR圖像中的字符識(shí)別率,縮短運(yùn)算時(shí)間,適用于LR文檔圖像超分辨率重建。
[1] HUANG T S, TSAI R Y. Multi-frame image restoration and registration [J]. Advances in Computer Vision Image Processing, 1984, 1:317-339.
[2] 萬雪芬,韓芳. 視頻監(jiān)控圖像的超分辨率復(fù)原研究[J]. 激光雜志, 2014,35(3): 5-8.
[3] FAN W,SUN J. Local consistency constrained adaptive neighbor embedding for text image super-resolution[C]∥ Proceedings of 10thIAPR International Workshop on Document Analysis System(DAS), 2012:90-94.
[4] PATANAVIJIT V. Video enhancement using a robust iterative SRR based on a Geman&McClure stochastic estimation with a general observation model[C]∥ International Conference on Electrical Engineering/Electronics Computer Telecommunications and Information Technology (ECTICON), 2010:875-879.
[5] NASONOV A V, KRYLOV A S. Text images super-resolution and enhancement[C]∥ 5thInternational Congress on Image and Signal Processing (CISP), 2012: 617-620.
[6] KUMAR V, BANSAL A. Sparse document image coding for restoration[C]∥12thInternational Conference on Document Analysis and Recognition (ICDAR), 2013:713-717.
[7] KATHERINE D, GREGORY K M. Bayesian super-resolution of text in video with a text-specic bimodal prior [J]. International Journal on Document Analysis and Recognition, 2005, 7: 159-167.
[8] SONG H H, ZHANG D, WANG P K, et al. An adaptive L1-L2 hybrid error model to super-resolution[C]∥ 17thIEEE International Conference on Image Processing, 2010:2821-2824.
[9] 郭昌. 小波變換與HMT模型的圖像插值算法[J]. 中山大學(xué)學(xué)報(bào):自然科學(xué)版,2012,51(3):55-59.
[10] 楊克偉. 基于光流法的迭代反投影超分辨率重構(gòu)算法[J]. 現(xiàn)代計(jì)算機(jī):專業(yè)版,2014(3):31-34.
[11] XU Z G, SU X Q, ZHANG Z P. Multi-frame image super-resolution by Total-Variation regularization[J].Journal of Information and Computational Science, 2012, 9(4):945-953.
[12] TONG W. Formulation of Lucas-Kanade digital image correlation algorithms for non-contact deformation measurements: a review [J]. Strain, 2013, 49(4):313-334.
[13] BANERJEE J, JAWAHAR C V. Super-resolution of text images using edge-directed tangent field[C]∥ Proceedings of the 8th IAPR International Workshop on Document Analysis Systems, 2008:76-83.