程燕群
【摘 要】復(fù)雜多變的采集環(huán)境和不確定的人工采集質(zhì)量給后期的文字圖像識(shí)別帶來(lái)困難。通過(guò)總結(jié)前人的經(jīng)驗(yàn),本文提出的方法,首先在圖像中提取出純文本區(qū)域,并對(duì)隨機(jī)hough變換的點(diǎn)選擇進(jìn)行位置限定,在保留原有圖像特征的同時(shí)大大縮減了檢測(cè)的數(shù)據(jù)量,通過(guò)仿真結(jié)果可知,該算法具有很好的檢測(cè)準(zhǔn)確度和速度。
【關(guān)鍵詞】文字圖像;傾斜校正;hough變換;文字區(qū)域提?。浑S機(jī)hough變換
0 前言
在信息時(shí)代,圖像已經(jīng)成為一種重要的信息載體,圖像文字識(shí)別的發(fā)展已經(jīng)經(jīng)歷了幾十年的過(guò)程。在實(shí)際生活中,圖像文字識(shí)別技術(shù)廣泛應(yīng)用于如車牌識(shí)別、文字掃描、地圖中的文字識(shí)別等。但是,在文字圖像識(shí)別中,圖像的傾斜對(duì)于系統(tǒng)始終是一個(gè)敏感因素,因此,如何能夠快速而準(zhǔn)確的檢測(cè)出圖像的傾斜角度一直是該領(lǐng)域研究的課題。
文本圖像的傾斜校正可分為傾角檢測(cè)、旋轉(zhuǎn)校正兩個(gè)問(wèn)題。目前存在的比較常用的傾角檢測(cè)算法主要有基于投影的方法、基于Hough變換的方法以及基于K-最近鄰簇法?;贖ough變換的方法由于其高精確度一直廣受關(guān)注,但在應(yīng)用中卻一直面臨著高時(shí)間成本和高內(nèi)存消耗的問(wèn)題。針對(duì)該問(wèn)題,文獻(xiàn)[2]通過(guò)投影法預(yù)先篩選出文字子區(qū)域,再結(jié)合連通域搜索法提取出文本直線來(lái)計(jì)算傾斜角度,但其文字子區(qū)域篩選區(qū)域面積大,且當(dāng)文字圖像中存在頁(yè)面寬的圖像時(shí),無(wú)法提取出文字子區(qū)域,連通域搜索法在傾斜角度大于20度時(shí)就無(wú)法使用;文獻(xiàn)[3]提出兩級(jí)hough變換法,相對(duì)傳統(tǒng)hough變換速度是有提高,但仍需要消耗大量的時(shí)間;陳軍等[4]提出的隨機(jī)Hough變換,將傳統(tǒng)的“一對(duì)多”的hough變換轉(zhuǎn)化成“多對(duì)一”的映射,大大降低了內(nèi)存需求和計(jì)算時(shí)間;文獻(xiàn)[5]在此基礎(chǔ)上,運(yùn)用變分辨率金字塔策略,分別對(duì)低、高分辨率圖層進(jìn)行兩級(jí)隨機(jī) Hough變換,算法取得了不錯(cuò)的效果。
本文在總結(jié)前人研究的基礎(chǔ)上,首先利用投影法篩選出純文本區(qū)域,再運(yùn)用隨機(jī)hough變換方法,并限定變換兩點(diǎn)的選擇區(qū)域,然后計(jì)算出文本圖像傾斜角度。該方法在保留文本傾斜的特征的基礎(chǔ)上,通過(guò)三個(gè)步驟大大減少了變換的數(shù)據(jù)量。
1 純文本區(qū)域提取
圖像投影時(shí),不同的內(nèi)容會(huì)形成不同的投影特征。在選取篩選區(qū)域時(shí),考慮一般的頁(yè)面特征,從上到下貫穿整個(gè)版面的圖像概率較小,而由于段落的原因,版面右側(cè)出現(xiàn)行不完整情況的概率較大,這樣會(huì)對(duì)純文本的投影特征造成一定的影響。再綜合考慮拍照傾斜時(shí)可能帶入的頁(yè)面邊界,在文字圖像中的行1/4處,列1/4、2/4、3/4處分別取m*n像素大小的區(qū)域,作為候選區(qū)進(jìn)行水平投影。
其中,a、b、c、d、e、f是位于Vproj取值范圍[0,m]之間的相鄰點(diǎn),Vproj是該行的黑色像素點(diǎn)數(shù)。
當(dāng)a與b, b與c,c與d組成的線段滿足相應(yīng)的長(zhǎng)度限制時(shí),則認(rèn)為存在滿足條件的波峰與波谷,如圖所示,[b,c]和[d,e]所在區(qū)域?yàn)椴ǚ?,[a,b]和[c,d]所在區(qū)域?yàn)椴ü取?/p>
利用以上算法對(duì)選擇的區(qū)域進(jìn)行篩選,找出有效的純文本區(qū)。
2 隨機(jī)hough變換
Hough變換方法是利用圖像空間和參數(shù)空間中點(diǎn)與線的關(guān)聯(lián)對(duì)偶性,將原始圖像空間的給定曲線通過(guò)適當(dāng)表達(dá)式運(yùn)算變換為參數(shù)空間的一個(gè)對(duì)應(yīng)點(diǎn)。文本圖像一行中通常會(huì)存在較多的字,這條文本行可以看成是由許多中間有隔斷的直線組成,這條直線代表著文本行的走向。
例如,直線在二維空間的參數(shù)表示形式為:
其中ρ為極半徑,θ為極角。則圖像中某條直線就會(huì)與參數(shù)空間中的一點(diǎn)(ρ,θ)相對(duì)應(yīng),圖像中某點(diǎn)對(duì)應(yīng)參數(shù)空間中的一條正弦曲線。因此,原圖中直線上的任意兩點(diǎn)(xi,yi) 、(xj,yj)對(duì)應(yīng)參數(shù)空間中的兩條正弦曲線理論上相交于共同的一點(diǎn)(ρ,θ)。再通過(guò)投票累加找出局部最大值,即為對(duì)應(yīng)直線的參數(shù)。但若對(duì)圖像中的每一點(diǎn)都做hough變換,則計(jì)算量會(huì)相當(dāng)大,因此本文采用隨機(jī)hough變換。
隨機(jī)hough變換是在hough變換的基礎(chǔ)上運(yùn)用統(tǒng)計(jì)學(xué)知識(shí),并不對(duì)所有點(diǎn)進(jìn)行變換,只隨機(jī)取兩點(diǎn)作直線,取得一個(gè)參數(shù)(ρ′,θ′),對(duì)結(jié)果進(jìn)行投票累加。當(dāng)?shù)_(dá)到一定的閾值后,投票累加最高的結(jié)果就對(duì)應(yīng)著圖像上的直線。將圖像空間中的兩個(gè)點(diǎn)映射到參數(shù)空間中的一個(gè)點(diǎn) ,是一個(gè) “多對(duì)一 ”的映射,避免了傳統(tǒng) Hough變換 “一對(duì)多 ”映射的龐大計(jì)算量。
為了進(jìn)一步減小計(jì)算量,本文在運(yùn)用隨機(jī)hough變換法時(shí),在純文本區(qū)域豎直方向選取一個(gè)窄長(zhǎng)的區(qū)域D,并根據(jù)實(shí)際精度要求選擇區(qū)域E。分別在區(qū)間D和E中隨機(jī)各選擇一個(gè)黑點(diǎn) d1、d2,hough變換后,求得參數(shù) (ρ′,θ′),對(duì)累加器數(shù)組 P[ρ,θ]中相應(yīng)結(jié)果投票加一 。
當(dāng)區(qū)域D的高度和區(qū)域E的高度選取合適時(shí),可以進(jìn)行大幅度的傾斜角檢測(cè)。
通過(guò)實(shí)驗(yàn)得知,本文中手機(jī)采集的2448*3264的照片通過(guò)該算法處理檢測(cè)出傾斜角度的時(shí)間為1.02s,檢測(cè)結(jié)果相對(duì)傳統(tǒng)hough變換的標(biāo)準(zhǔn)偏差為0.047,可見(jiàn)其在保證準(zhǔn)確度的同時(shí)大大提高了檢測(cè)速度。
3 小結(jié)
本文提出的算法是在前人的基礎(chǔ)上所做的改進(jìn)。子區(qū)域具有與頁(yè)面相同的傾斜角度,通過(guò)提取純文本區(qū)域,減少背景和頁(yè)面中圖像的干擾;采用隨機(jī)hough變換,保證hough變換準(zhǔn)確度;同時(shí)對(duì)于隨機(jī)hough變換中的兩個(gè)點(diǎn)采取限定區(qū)域的方式,三個(gè)階段均對(duì)變換數(shù)據(jù)量有大幅減少。通過(guò)實(shí)驗(yàn)可知,通過(guò)該算法對(duì)文本圖像傾斜角度的檢測(cè)角度具有較高的準(zhǔn)確度和速度。對(duì)內(nèi)含表格、背景或版面較復(fù)雜的文本圖片來(lái)說(shuō),只要通過(guò)合適的方法篩選出純文本區(qū)域后,同樣適用,具有較高的應(yīng)用價(jià)值。
【參考文獻(xiàn)】
[1]吳飛飛.文本圖像傾斜校正算法的研究與應(yīng)用[D].北京:北方工業(yè)大學(xué),2014.
[2]周冠瑋,平西建,程娟.基于改進(jìn)Hough變換的文本圖像傾斜校正方法[J].計(jì)算機(jī)應(yīng)用,2007,27(7):52-57.
[3]陳軍,徐友春,趙明,等.基于隨機(jī)hough變換的道路邊界識(shí)別算法研究[J].中國(guó)圖象圖形學(xué)報(bào),2009,14(5):905-911.
[責(zé)任編輯:田吉捷]