◆李佳琪 楊碩
基于光照不均的場景文本提取算法
◆李佳琪 楊碩
(沈陽化工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 遼寧 110142)
場景文本檢測與識別對于自然場景的理解、圖像中物體信息的獲取以及自動(dòng)駕駛與導(dǎo)航等研究有非常重要的作用。其中文本字符提取屬于場景文本檢測與識別的一個(gè)分支。在自然場景中,針對當(dāng)前場景文本圖像的不均勻照明等問題,提出一種基于邊緣檢測和改進(jìn)的全局自適應(yīng)文本提取模型結(jié)合的文本檢測提取方法。首先,對輸入的圖像先做灰度處理和邊緣檢測,然后,將文本邊緣圖像進(jìn)行二值化和形態(tài)學(xué)處理,獲得候選的字符區(qū)域,最后,將其輸入到改進(jìn)的全局自適應(yīng)文本提取模型中進(jìn)行分類篩選,從而實(shí)現(xiàn)文本字符的檢測提取。實(shí)驗(yàn)結(jié)果表明,該方法具有較好的場景文本字符區(qū)域提取能力。
二值化;邊緣檢測;全局自適應(yīng)文本提取模型;字符提取
隨著信息技術(shù)發(fā)展、人們工作生活的日常需要,使得自然場景圖像的獲取和傳輸變得越來越便捷。其中文字作為自然場景圖像中的一個(gè)重要興趣點(diǎn)[1],往往蘊(yùn)含著場景的關(guān)鍵潛在信息,當(dāng)前許多應(yīng)用程序中都有用到從場景圖像中檢測文本,例如身份證號碼識別、名片信息識別、票據(jù)信息識別、車牌號識別、視頻字幕檢測識別[2],也可以進(jìn)一步應(yīng)用于場景理解、商品推薦、自動(dòng)導(dǎo)航與駕駛等。其中,場景文本的檢測成功率越高,越能降低場景文本識別的復(fù)雜度[2]。自然場景圖像背景復(fù)雜,使用簡單的技術(shù)分離背景與字符比較困難;字符形式多樣,自然場景下的字符,通常具有不同的字體、尺寸和顏色。計(jì)算機(jī)要讀懂場景圖像中的字符需要兩個(gè)步驟:文本檢測和文本識別。
由于圖像在不均勻的光線照射下,可能存在明顯的亮部和暗部,對文本提取效果不佳??紤]基于邊緣檢測的分析不易受整體光照強(qiáng)度變化的影響,許多圖像理解方法都以邊緣為基礎(chǔ)。邊緣檢測強(qiáng)調(diào)的是圖像對比度。檢測對比度即亮度上的差別,可以增強(qiáng)圖像中的邊界特征,而邊緣是階梯變化的位置??梢允褂梦⒎质惯吘壸兓鰪?qiáng),檢測邊緣位置。常見的邊緣檢測算子有:(1)Roberts邊緣檢測算子對具有陡峭的低噪聲的圖像處理效果較好,但利用Roberts算子提取邊緣的結(jié)果比較粗,因此邊緣定位不是很準(zhǔn)確[3];(2)Kirsch邊緣檢測算子和Prewitt邊緣檢測算子對灰度漸變和噪聲較多的圖像處理效果較好[4];(3)Laplacian邊緣檢測算子對圖像中的階躍性邊緣點(diǎn)定位準(zhǔn)確,對噪聲非常敏感,丟失一部分邊緣的方向信息,造成一些不連續(xù)的檢測邊緣;(4)LoG邊緣檢測算子經(jīng)常出現(xiàn)雙邊緣像素邊界,而且該檢測方法對噪聲比較敏感[5],因此,很少會(huì)用LoG算子實(shí)現(xiàn)邊緣檢測,只是用它來判斷邊緣像素是位于什么位置,是圖像的明區(qū)還是暗區(qū);(5)Canny邊緣檢測算子可以在抵抗噪聲與邊緣檢測之間獲得一個(gè)最佳的折中[6-7],具有很好的邊緣監(jiān)測性能,但是容易把噪點(diǎn)誤判為邊界;(6)Sobel邊緣檢測算子對灰度漸變和噪聲較多的圖像處理效果比較好,對邊緣定位比較準(zhǔn)確[8-9]。因此,研究利用Sobel邊緣檢測算子實(shí)現(xiàn)邊緣檢測。經(jīng)過二值化操作和形態(tài)學(xué)處理后提取感興趣區(qū)域。其中,常用的二值化算法分為局部二值化和全局二值化。局部二值化方法以像素的鄰域的信息為基礎(chǔ)來計(jì)算每一個(gè)像素的閾值,局部閾值化算法經(jīng)常會(huì)出現(xiàn)大量噪點(diǎn),而且運(yùn)行時(shí)間也較長。例如Bernsen算法、Niblack算法、Sauvola算法等。全局二值化方法對每一幅圖計(jì)算一個(gè)單一的閥值,灰度級大于閾值的像素被標(biāo)記為背景色,否則為前景。主要有灰度平均值法、基于谷底最小值的閾值、迭代法、OTSU法等[10]。其中,最大類間方差法(簡稱OTSU)是一種自適應(yīng)的閾值確定的方法,類間方差越大,錯(cuò)分概率越小。因此本文選擇OTSU二值化算法,結(jié)合灰度圖,獲得全局自適應(yīng)文本提取模型,最后實(shí)現(xiàn)文本提取。
場景文本提取主要分為目標(biāo)區(qū)域提取和目標(biāo)文本提取兩大部分完成,其主要流程如圖1所示:
圖1 文本提取流程圖
(1)灰度圖像
對輸入的RGB圖像,它在每個(gè)顏色分量上分解并分別由R、G和B表示。在做邊緣檢測之前,先將RGB圖像轉(zhuǎn)為灰度圖像?;叶葓D像的灰度值表示如式(1)所示,其中Y表示灰度值。
(2)邊緣檢測
Sobel邊緣檢測算子是兩個(gè)Prewitte模板中心像素的權(quán)重取2倍的值。Sobel算子的這個(gè)通用形式縮合了一條坐標(biāo)軸上最優(yōu)平滑和另一條坐標(biāo)軸上的最優(yōu)差分。該算子包含兩組3*3的矩陣,將之與圖像作平面卷積,可分別得出橫向和縱向的亮度差分近似值[11]。其公式如(2)所示:
其中A代表原始圖像,x及y分別代表橫向及縱向邊緣檢測的圖像梯度值;再根據(jù)圖像每個(gè)像素的橫向和縱向梯度值進(jìn)行融合,得到該點(diǎn)像素的灰度值,其公式如(3)所示:
由于Sobel算子是濾波算子的形式,用于提取邊緣,可以利用快速卷積函數(shù),簡單有效。邊緣檢測后得到文本字符邊緣圖像。
(3)圖像二值化
圖像二值化是將邊緣檢測后的圖像轉(zhuǎn)化成一個(gè)只有0或者255的二值圖像的過程。邊緣檢測后圖像包含要測試的文本和相應(yīng)的背景噪聲[3]。要從多色值圖像中提取目標(biāo)文本,首先,要將圖像進(jìn)行歸一化處理,讓其像素值在0-255之間,然后,再根據(jù)自適應(yīng)閾值otsu進(jìn)行二值化,公式如下:
其中,gxyf(i,j)表示圖像的整體梯度,mag是圖像梯度最大值,D(i,j)表示該點(diǎn)像素值,P表示自適應(yīng)閾值otsu;經(jīng)過二值化后可以濾除邊界周圍細(xì)小的噪聲,二值處理結(jié)果如圖2所示:
(4)形態(tài)學(xué)處理
將圖像二值化后,得到清楚的字符邊緣二值圖像,由于各個(gè)像素點(diǎn)不是都連通的,無法形成目標(biāo)區(qū)域,因此,進(jìn)行膨脹處理,得到感興趣區(qū)域(像素值為255的點(diǎn))。其形態(tài)學(xué)處理圖像如圖3所示:
圖3 形態(tài)學(xué)處理圖像
(1)全局自適應(yīng)文本提取模型獲取
全局自適應(yīng)文本提取模型獲取的過程是將提取的感興趣區(qū)域與灰度圖像相相結(jié)合,得到目標(biāo)區(qū)域灰度圖,再對目標(biāo)區(qū)域灰度圖進(jìn)行模糊化的過程。融合的過程為:
其中,(,)表示融合后的圖像,(,)表示灰度圖像像素值,(,)是二值化后的形態(tài)學(xué)處理圖像,在(,)中,(,)=(,)時(shí)表示前景,(,)=0時(shí)表示背景。
將得到的前景圖像,通過模糊化的方式獲得局部閾值。具體做法是:
其中,(,)是全局自適應(yīng)文本提取模型,是計(jì)算參數(shù),表示以2為半徑的圓內(nèi),同時(shí)在目標(biāo)區(qū)域內(nèi)的像素點(diǎn)的積分平均數(shù),表示二值化后膨脹圖積分處理,表示(,)圖積分處理,(,)表示二值化后膨脹圖。圖4(a)和4(b)分別為目標(biāo)區(qū)域灰度圖和全局自適應(yīng)文本提取模型:
(2)目標(biāo)文本提取
目標(biāo)文本獲取是將灰度圖像與全局自適應(yīng)文本提取模型作比較,全局自適應(yīng)文本提取模型上的像素值是提取灰度圖像中字符的閾值。根據(jù)以下公式實(shí)現(xiàn)文本提?。?/p>
其中,(,)表示目標(biāo)文本提取圖像。通過以上方法,可以清晰準(zhǔn)確地提取到文本信息。
圖4(a) 目標(biāo)區(qū)域灰度圖
圖4(b) 全局自適應(yīng)文本提取模型
根據(jù)上述算法進(jìn)行實(shí)驗(yàn),本實(shí)驗(yàn)在 Qt5.9.6+OpenCV環(huán)境下實(shí)現(xiàn),計(jì)算機(jī)配置為:主頻為2.6GHz(Inter(R) Core(TM) i5-4210M),運(yùn)行內(nèi)存為8GB。實(shí)驗(yàn)數(shù)據(jù)包含4幅場景文本圖像,主要來源于手機(jī)拍攝。實(shí)驗(yàn)結(jié)果如圖5所示:其中:(a)是亮度對比較明顯的光照不均字符圖像,(b)是其提取結(jié)果;(c)是亮度對比較暗的光照不均字符圖像,(d)是其提取結(jié)果;(e)光照不均車牌圖像,(f)車牌提取圖像;(g)光照不均身份證原圖,(h)身份證提取圖像。
圖5 測試最終結(jié)果圖
在本次研究中,光照不均是導(dǎo)致圖像質(zhì)量下降的重要原因,考慮基于邊緣檢測的分析不易受整體光照強(qiáng)度變化的影響,因此,充分利用了該方法來獲取場景文本圖像邊緣信息,經(jīng)過二值化操作和形態(tài)學(xué)處理后提取感興趣區(qū)域,并結(jié)合使用了全局自適應(yīng)文本提取模型做分類,實(shí)現(xiàn)字符文本提取。實(shí)驗(yàn)結(jié)果證實(shí)了所提算法的有效性,由于算法的復(fù)雜度較低,算法可以用于視頻實(shí)時(shí)處理,具有較高的實(shí)用性。但是,此算法仍然存在問題,單一的靠邊緣信息對文本區(qū)域定位和提取有誤檢的問題,不能準(zhǔn)確定位目標(biāo)區(qū)域,使后續(xù)的檢測識別更加耗時(shí),接下來對該問題將繼續(xù)深入研究,期待找到更好的文本檢測方法。
[1]Peng,Xu,Jin,et a1.Cascade-Based License Plate Localization with Line Segment Features and HaarLike Features[C]Intemational Conference on Image&Graphics.IEEE,2011.
[2]張哲,汪毓鐸.結(jié)合邊緣檢測與CNN分類場景文本檢測的研究[J].現(xiàn)代計(jì)算機(jī),2019(13):67-70.
[3]曾友州,胡瑩,曾偉一,鄭曉霞.提取數(shù)字圖像邊緣的算法比較[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報(bào),2009,25(04):69-72.
[4]江笑嬋,萬振凱,陳利.基于matlab邊緣提取的幾種方法的比較[J].電腦知識與技術(shù),2006(02):138-141.
[5]樊思萌. 面向車輛識別的目標(biāo)檢測與分割模塊設(shè)計(jì)[D].沈陽理工大學(xué),2019.
[6]Cesar Bustacara-Medina, Leonardo Florez-Valencia, Luis Carlos Diaz. Improved Canny Edge Detector Using Principal Curvatures[J]. Journal of Electrical and Electronic Engineering,2020,8(4).
[7]李長有,陳國璽,丁云晉.改進(jìn)Canny算子的邊緣檢測算法[J].小型微型計(jì)算機(jī)系統(tǒng),2020,41(08):1758-1762.
[8]Roma Jain,Jijo S. Nair. Intelligent Parking Space Detection System using Sobel Edge Detection in Open CV[J]. Journal of Innovation and Social Science Research,2019,6(2).
[9]Chang-Yong Lee,Young-Hyung Kim,Yong-Hwan Lee. Optimized Hardware Design using Sobel and Median Filters for Lane Detection[J]. JOURNAL OF ADVANCED INFORMATION TECHNOLOGY AND CONVERGENCE,2019,9(1).
[10]劉明興,劉澤平,李斌,符朝興,孟含.基于OTSU處理不均勻光照圖像改進(jìn)算法研究[J].青島大學(xué)學(xué)報(bào)(工程技術(shù)版),2020,35(03):27-32.
[11]吳進(jìn),趙雋,李聰,吳漢寧.機(jī)器視覺中邊緣檢測算法的SDSoC加速實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(12):208-214.