朱利娟 云中華 邊巴旺堆*
1(西藏大學(xué)藏文信息技術(shù)研究中心 西藏 拉薩 850012) 2(西藏大學(xué)工學(xué)院 西藏 拉薩 850012) 3(西藏大學(xué)信息技術(shù)國家級(jí)實(shí)驗(yàn)教學(xué)示范中心 西藏 拉薩 850012)
文字識(shí)別技術(shù)[1](Optical Character Recognition),是模式識(shí)別、圖像處理及統(tǒng)計(jì)理論等多學(xué)科融合的一個(gè)重要應(yīng)用領(lǐng)域。利用一定的光電設(shè)備將在某介質(zhì)上的各種文字字符轉(zhuǎn)化成圖像,并利用計(jì)算機(jī)進(jìn)行高速、自動(dòng)地辨識(shí)[2]。OCR可分為印刷體和手寫體文字識(shí)別技術(shù)兩類。近年來越來越多的學(xué)者開始關(guān)注藏文文字識(shí)別技術(shù)領(lǐng)域,使藏文信息技術(shù)不斷提升和發(fā)展[3-4]。
文字識(shí)別過程可分為三個(gè)階段如圖 1 所示。第一階段待識(shí)別手寫文字圖像的采集階段即圖像輸入;第二階段輸入的文字圖像進(jìn)行預(yù)處理和特征提??;第三階段藏文字符的分類識(shí)別以及識(shí)別后的處理過程[5-7]。
圖1 藏文字符識(shí)別系統(tǒng)的結(jié)構(gòu)框圖
由圖1可知藏文字符特征提取常用算法包括基于圖像投影法、方向線素法、分矩形法等[8-10]。其方向線素法特征提取中特征向量的維數(shù)過多、存儲(chǔ)空間大、運(yùn)算速度慢,圖像投影法區(qū)分相似字能力較差。由圖2知藏文字形結(jié)構(gòu)復(fù)雜、相似字的比例高等,將給藏文文字識(shí)別帶來了很大的困難,而藏文文字識(shí)別方法的核心和關(guān)鍵技術(shù)是藏文字符的特征提取。
圖2 藏字結(jié)構(gòu)圖
為了使得藏文字符特征向量維數(shù)少、存儲(chǔ)空間小、運(yùn)算速度快及區(qū)分相似字能力高,結(jié)合Rittavee等[11]提出的自適應(yīng)極坐標(biāo)變換的算法,提出了一種基于極坐標(biāo)變換的脫機(jī)手寫藏文字符特征提取法。該算法首先將藏文字符圖像進(jìn)行預(yù)處理后得到大小、位置統(tǒng)一的二值圖像,并計(jì)算二值圖像的極點(diǎn)位置,其次求出f(x,y)=1的所有點(diǎn)對應(yīng)的極坐標(biāo)(ρ,θ)。然后對所有點(diǎn)的極坐標(biāo)進(jìn)行投影變換,將變換之后得到的向量作為該脫機(jī)手寫藏文字符的特征向量,即可實(shí)現(xiàn)脫機(jī)手寫藏文字符的識(shí)別。結(jié)果表明該算法計(jì)算簡單并有效提升了藏文字符識(shí)別效果。
文字圖像獲取過程中,由于紙張質(zhì)量不同、印刷或書寫質(zhì)量不同及設(shè)備性能的優(yōu)劣使得圖像存在較大噪聲、對比度不夠等缺點(diǎn),使模式識(shí)別的效果較低。故需要進(jìn)行預(yù)處理消除圖像中無關(guān)的信息、最大限度地將干擾信息降到最低、恢復(fù)真實(shí)信息、簡化數(shù)據(jù)信息,從而提高特征提取、分類識(shí)別的可靠性。藏文字圖像預(yù)處理包括二值化、傾斜校正、行、列切分、平滑、去除噪聲、歸一化和抽取輪廓等[12]。本文中預(yù)處理有二值化、行、列切分、歸一化和平滑。二值化可得到0、1的二值點(diǎn)陣圖像,行列切分可找出單個(gè)字符的上下左右邊界,歸一化可得到大小、位置統(tǒng)一的字符,平滑可減少圖像的噪聲。
藏文字符圖像的二值化是將掃描字符的256灰度圖轉(zhuǎn)變成灰度值只有0、1的過程。其中二值化算法中的關(guān)鍵是求得一個(gè)最佳的閾值。
(1)
(2)
(3)
則有組內(nèi)方差:
(4)
組間方差:
(5)
大小歸一化需對不同大小的字符進(jìn)行變換,使之尺寸大小統(tǒng)一,本文先確定輸入藏文字符的外接邊框,再將字符的外邊框按比例線性放大或縮小成48×24點(diǎn)陣。位置歸一化是把整個(gè)字符點(diǎn)陣圖像移到規(guī)定的位置上,文中采用基于質(zhì)心位置歸一化,先計(jì)算字符的質(zhì)心(Gi,Gj),然后把質(zhì)心移到指定的位置上。式(6)為計(jì)算字符質(zhì)心的公式:
(6)
式中:x、y分別表示橫坐標(biāo)和縱坐標(biāo)方向,f(x,y)=1表示該字符像素點(diǎn)為黑像素點(diǎn)即黑色,反之表示白色。top、bott、R、L分別表示字符圖像的上下左右邊界。
(a) (b)(c)(d)圖3 藏文字符“”預(yù)處理過程
特征提取需要從原始圖像數(shù)據(jù)中提取一系列穩(wěn)定的、典型的基本元素或相關(guān)的數(shù)學(xué)表達(dá)式,這些元素或數(shù)學(xué)表達(dá)式能夠精確反映圖像的特征。
1) 極坐標(biāo)系的建立利用極坐標(biāo)的基本思想本文利用方向和距離表示平面上一點(diǎn)與極點(diǎn)之間的關(guān)系。設(shè)f(x,y)是樣本字符預(yù)處理后得到的位置、大小統(tǒng)一的48×24二值點(diǎn)陣圖像,規(guī)定:
(7)
式中:x、y分別表示坐標(biāo)橫軸和縱軸上的點(diǎn)x=1,2,3,…,48,y=1,2,3,…,24,f(x,y)表示二值點(diǎn)陣圖像中某點(diǎn)的坐標(biāo)(x,y)是否屬于目標(biāo)函數(shù)。f(x,y)=1時(shí)表明該點(diǎn)在目標(biāo)函數(shù)上,則該字符像素點(diǎn)為黑像素;f(x,y)≠1時(shí)該點(diǎn)不在目標(biāo)函數(shù)上,則該字符像素點(diǎn)為背景色。
極坐標(biāo)系建立時(shí)利用式(8)、式(9)先計(jì)算極點(diǎn)ο的坐標(biāo)(x0,y0)。
(8)
(9)
式中:H表示二值圖像的高度,W表示二值圖像的寬度。
圖4 藏文字符“”的極坐標(biāo)系
2) 極坐標(biāo)特征提取方法自適應(yīng)極坐標(biāo)變換是一種基于圖片均勻采樣的極坐標(biāo)變換法[11]。該方法充分利用了字符圖像信息,同時(shí)由于圓周方向上的采樣數(shù)隨著半徑值的增大而增加,使得藏文字符筆畫周邊信息得到有效的利用。直角坐標(biāo)系下點(diǎn)(x,y)在極坐標(biāo)系為(ρ,θ)。ρ為這一點(diǎn)到極點(diǎn)的距離,θ表示從極點(diǎn)到該點(diǎn)引出的射線與極軸的夾角大小。若以x軸的正方向?yàn)槠瘘c(diǎn),逆時(shí)針遍歷直角坐標(biāo)系下所有f(x,y)=1時(shí)的坐標(biāo)點(diǎn)。若x0,y0表示直角坐標(biāo)系下的坐標(biāo)原點(diǎn),利用直角坐標(biāo)與極坐標(biāo)的轉(zhuǎn)換公式:
(10)
(11)
將極坐標(biāo)下圖像記為g(ρ,θ),nr表示沿半徑方向的采集數(shù),nθi表示第i個(gè)采集點(diǎn)的半徑處的圓周方向的采樣數(shù),nθmax表示Ri=Rmax處圓周方向的采樣數(shù),Ri表示半徑向第i個(gè)采樣點(diǎn)處的半徑值,Rp,θp分別表示在距離軸ρ和方向軸θ的投影,其中采樣點(diǎn)為f(x,y)=1時(shí)的點(diǎn)[13-14]。則有:
(12)
(13)
在Windows 7系統(tǒng)下用C++語言對本算法進(jìn)行編程實(shí)驗(yàn)。極坐標(biāo)投影的流程圖如圖5所示。
圖5 極坐標(biāo)變換流程圖
實(shí)驗(yàn)使用的數(shù)據(jù)由基字和縱向疊加字符共580個(gè)藏文音節(jié)字符組成,其中包括基字30、基字+元音120個(gè)、上加字+基字33個(gè)、上加字+基字+元音132個(gè)、基字+下加字24個(gè)、基字+下加字+元音96個(gè)、特殊下加字+基字15個(gè)、特殊下加字+基字+元音60、上加字+基字+下加字14個(gè)、上加字+基字+下加字+元音56個(gè)。收集30 000個(gè)藏文手寫字體作為實(shí)驗(yàn)數(shù)據(jù),其中80%的樣本作為訓(xùn)練數(shù)據(jù),20%的樣本作為測試數(shù)據(jù)。建立識(shí)別字典中580個(gè)字符都有一個(gè)標(biāo)準(zhǔn)模板相對應(yīng)??紤]到速度與存儲(chǔ)量等因素,用KNN分類器對6 000個(gè)測試數(shù)據(jù)分別進(jìn)行極坐標(biāo)變換法特征提取及圖像投影法特征提取進(jìn)行識(shí)別性能比較,如表1所示。KNN分類器[15]即k-最近鄰分類法是基于類比學(xué)習(xí),通過將給定的檢驗(yàn)元組與和它相似的訓(xùn)練元組進(jìn)行比較來學(xué)習(xí)。其算法關(guān)鍵是求得一個(gè)最佳的k值。在實(shí)際應(yīng)用中,KNN分類器中不同的近鄰數(shù)k影響著藏文字符的識(shí)別率。
表1 極坐標(biāo)變換法和圖像投影法的識(shí)別性能對比
由表1可看出:(1) 基于圖像投影法的特征提取,近鄰個(gè)數(shù)k從1到7時(shí),藏文字符的識(shí)別率隨著近鄰個(gè)數(shù)的增加而上升;在k=7時(shí)識(shí)別率最高,達(dá)到84.86%。當(dāng)k從7到9時(shí),藏文字符的識(shí)別率總體呈下降趨勢。(2) 基于極坐標(biāo)變換法的特征提取,近鄰個(gè)數(shù)k從1到5時(shí),藏文字符的識(shí)別率隨著近鄰個(gè)數(shù)的增加而上升;在k=5時(shí)識(shí)別率最高,達(dá)到96.32%。當(dāng)k從5到9時(shí),藏文字符的識(shí)別率總體呈下降趨勢。(3) 在k值相同時(shí),基于極坐標(biāo)投影變換法比基于圖像投影法的識(shí)別率有很大幅度的提高。(4) 兩種特征提取法方法中,識(shí)別時(shí)間都隨k值個(gè)數(shù)的增加而延長。雖然基于極坐標(biāo)變換特征提取的方法普遍比基于圖形投影特征提取的方法識(shí)別時(shí)間長,但極坐標(biāo)變換特征提取的方法識(shí)別率在最高時(shí)運(yùn)行時(shí)間是42.25 ms,而基于圖形投影特征提取的方法識(shí)別率在最高時(shí)運(yùn)行時(shí)間是43.97 ms。總的來說基于極坐標(biāo)變換特征提取的方法的運(yùn)行速度快些。
由圖6可知特征空間的維數(shù)從10到74時(shí)識(shí)別率總體呈上升趨勢,當(dāng)特征向量的維數(shù)為74時(shí),識(shí)別效果達(dá)到最大,最大值為96.32%,當(dāng)特征向量的維數(shù)大于74維時(shí),識(shí)別率總體呈下降趨勢。
圖6 不同特征向量維數(shù)的識(shí)別率
針對脫機(jī)手寫藏文字符的字形多樣性、相似字符比例高等特點(diǎn),分析了常用的藏文字符識(shí)別的方法,結(jié)合自適應(yīng)極坐標(biāo)變換的思想,提出一種基于極坐標(biāo)投影變換的藏文字符特征提取的方法,將其有效地運(yùn)用到藏文字符的識(shí)別中。從實(shí)驗(yàn)結(jié)果可以看出,該方法與以往的圖像投影法相比較,不僅能夠充分利用字符圖像的信息,而且藏文字符的識(shí)別率也有明顯的提高,對藏文字符的特征提取具有較好的識(shí)別效果。
[1] 劉偉. 脫機(jī)手寫體漢字識(shí)別的特征提取研究與實(shí)現(xiàn)[D].長沙:湖南大學(xué),2007.
[2] 蔡曉娟. 基于LBP和PCA 的脫機(jī)手寫藏文字符識(shí)別系統(tǒng)[D].西寧:青海師范大學(xué),2016.
[3] Huang H, Da F, Han X, et al. Wavelet transform and gradient direction based feature extraction method for off-line handwritten Tibetan letter recognition[J]. 東南大學(xué)學(xué)報(bào)(英文版), 2014, 30(1):27-31.
[4] Ma L L,Liu H D,Wu J.MRG-OHTC database for on-line handwritten Tibetan characterrecognition[C] // 2011 International Conference on Document Analysis and Recognition (ICDAR). Beijing, China: 2011:207-211.
[5] Lorigo L M, Govidaraju V. Offline Arabic handwriting recognition a survey[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(5):712.
[6] Vamvakas G,Gatos B,Perantonis S J. Handwritten character recognition through two-stage foreground sub-sampling[J].PatternRecognition,2010,43:2807-2816.
[7] 周緯,陳良育,曾振柄. 基于幾何形狀分析的藏文字符識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(18): 201-205.
[8] 王維蘭.藏文基本字符識(shí)別算法研究[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),1999,20(3):20-23.
[9] 王維蘭,丁小青,陳力,等.印刷體現(xiàn)代藏文識(shí)別研究[J].計(jì)算機(jī)工程,2003,29(3):37-39.
[10] 劉真真,李永忠,沈曄華. 基于分形矩的印刷體藏文特征提取方法[J].江南大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,6(6):791-794.
[11] Matungka R, Zheng Y F, Ewing R L. Image registration using adaptive polar transform.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2009, 18(10):2340-2354.
[12] 高定國,珠杰.藏文信息處理的原理與應(yīng)用[M].成都:西南交通大學(xué)出版社,2014:152-159.
[13] 符艷軍,程永梅,潘泉,等.基于自適應(yīng)極坐標(biāo)變換的景象匹配算法[J].西北工業(yè)大學(xué)學(xué)報(bào),2011,29(5):702-708.
[14] 高冠東,王晶,劉菲,等.一種基于極坐標(biāo)變換的點(diǎn)模式匹配算法[J]. 計(jì)算機(jī)工程與科學(xué),2016,38(2):331-336.
[15] 李衛(wèi)平,楊杰,王鋼.比例逆權(quán)重KNN算法及其流處理應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(12):3355-3358.