付吉
(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 甘肅蘭州 730030)
藏文手寫識(shí)別樣本預(yù)處理
付吉
(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 甘肅蘭州 730030)
藏文圖像處理技術(shù)在藏語字符識(shí)別過程中占有重要的地位,本文研究了幾種藏文圖像預(yù)處理算法。針對(duì)手寫藏文樣本的歸一化進(jìn)行了深入研究,并得到了實(shí)驗(yàn)結(jié)果。這些結(jié)果表明這些處理是有效的,能為藏文的手寫識(shí)別提供有力的支持。
圖像預(yù)處理;歸一化;藏文手寫識(shí)別
1997年,國家質(zhì)量技術(shù)監(jiān)督局設(shè)計(jì)和規(guī)定了信息系統(tǒng)字型并發(fā)布了標(biāo)準(zhǔn)《信息技術(shù)信息交換用藏文編碼字符集基本集》[1],從此,藏文字符的識(shí)別拉開了序幕,1999年,西北民族大學(xué)對(duì)藏文基本字符用投影法從垂直、水平、兩對(duì)角線四個(gè)方向五個(gè)子特征進(jìn)行研究,并給出了特征抽取、模式匹配、字符分類的算法[2]。2003年,王華和丁曉青提出了一種基于統(tǒng)計(jì)模式識(shí)別的多字體印刷藏文字符識(shí)別方法[3]。2006~2011年,西北民族大學(xué)在藏文聯(lián)機(jī)手寫識(shí)別的研究方面取得系列成果[4~6]從聯(lián)機(jī)手寫藏文字符預(yù)處理、特征提取、特征壓縮、分類器設(shè)計(jì)到最后的音節(jié)聯(lián)想等,提出了一整套的聯(lián)機(jī)手寫藏文字丁的識(shí)別方法,完成了562個(gè)現(xiàn)代藏文的聯(lián)機(jī)手寫識(shí)別系統(tǒng)。對(duì)聯(lián)機(jī)手寫梵音藏文識(shí)別研究而言,目前還沒有這方面的深入的研究報(bào)道,可以將聯(lián)機(jī)手寫梵音藏文識(shí)別系統(tǒng)劃分成以下幾項(xiàng)工作:藏語文字的獲取,圖像去燥,二值化,歸一化,特征提取,梵音藏文的識(shí)別。梵音藏文樣本采集和預(yù)處理是聯(lián)機(jī)手寫梵音藏文識(shí)別的基礎(chǔ),因此我們提出“梵音藏文樣本采集和預(yù)處理”,希望通過梵音藏文樣本采集和預(yù)處理的研究為進(jìn)一步的研究聯(lián)機(jī)手寫梵音藏文識(shí)別奠定基礎(chǔ)。
2.1 手寫體梵音藏文樣本灰度化
聯(lián)機(jī)手寫樣本采集到的數(shù)據(jù)在計(jì)算機(jī)中是一幅真彩色的圖像。針對(duì)文字識(shí)別主要關(guān)心手寫筆畫,顏色并不重要。因此,要對(duì)樣本圖像做灰度化處理。從另一方面講,真彩色圖像的數(shù)據(jù)量是灰度圖像的三倍,圖像灰度化后可以提高效率。圖像灰度化主要有四種算法:取分量法、取最大值法、平均值法和加權(quán)平均法等,其中最常用的是后兩種算法。對(duì)這幾種算法我們都做了嘗試。
2.2 手寫體梵音藏文樣本二值化
圖像經(jīng)過灰度化處理后每個(gè)像素有256個(gè)灰度級(jí)。但是這些灰度級(jí)對(duì)筆畫結(jié)構(gòu)沒有太大用途,因此可以對(duì)樣本圖像進(jìn)一步簡(jiǎn)化,圖像二值化。該算法是將圖像按照相應(yīng)的規(guī)則劃分成兩種顏色。對(duì)藏文手寫樣本圖像二值化的基本要求是既要讓筆畫中不要出現(xiàn)空白點(diǎn)又要保持原來的結(jié)構(gòu)特征。圖像二值化的關(guān)鍵是閾值的選擇。比較成熟的算法有整體閾值二值化、局部閾值二值化和動(dòng)態(tài)閾值二值化法。整體閾值算法可以用下列公式表示:
式中:h(x,y)表示點(diǎn)(x,y)二值化后的灰度值,f(x,y)表示灰度圖像的點(diǎn)(x,y)的灰度值。這種算法簡(jiǎn)單,而且速度是最快的,但是它不能根據(jù)每個(gè)藏文字符樣本來選擇最佳的閾值。當(dāng)樣本圖像清晰,輪廓明顯,選這種算法比較好。圖1中(a)表示為灰度圖像,(b)為二值化后的圖像。
針對(duì)全局閾值二值化的不足,有人提出了一種灰度直方圖確定閾值方法。由于手寫識(shí)別樣本圖像的背景是白色的而筆畫的顏色接近于黑色中間的灰度值比較少,決定其直方圖基本上呈現(xiàn)出來個(gè)比較大的波峰,所以當(dāng)把閾值選在兩個(gè)大波峰中間的波谷的為閾值時(shí)二值化的效果會(huì)更好。圖2中(a)為字符樣本圖像的灰度圖像,(b)為二值化圖像。
2.3 手寫體梵音藏文樣本平滑
平滑的目的在于去除孤立的噪音點(diǎn),填充手寫體藏文字符邊界小凹陷或刪除其中小的凸起。平滑算法有中值濾波、均值濾波等。
中值濾波方法基本思想用圖像像素點(diǎn)領(lǐng)域灰度值的中值來代替該像素點(diǎn)的灰度值。中值濾波可以用(2)式表示:
圖1 圖像灰度化
圖2 圖像二值化
式中:f(m,n)為設(shè)定模板區(qū)域的像素值,模板大小可以為3×3或5×5。均值濾波是指在圖像上對(duì)目標(biāo)像素給一個(gè)模板,該模板包括了其周圍的臨近像素再用模板中的全體像素的平均值來代替原來像素值,(3)式是均值濾波的算法:
式中:f(m,n)是模板區(qū)s域的像素值,同樣模板大小可為3×3或5×5。圖3展示了手寫藏文字符樣本平滑效果,其中(a)表示平滑處理之前的圖像,(b)為平滑處理之后的圖像。
圖3 平滑前后對(duì)比圖像
圖4 歸一化前后對(duì)比圖像
圖5 傾斜化矯正前后對(duì)比圖像
2.4 手寫體梵音藏文樣本歸一化處理
歸一化是手寫體梵音藏文樣本預(yù)處理非常重要的步驟。由于采集的樣本圖像中的字符大小方面存在很大的差異,因此必須進(jìn)行歸一化處理,有利于減少訓(xùn)練時(shí)間,并且能提高是被的準(zhǔn)確率。標(biāo)準(zhǔn)的字符圖像就是把原來各不相同的字符統(tǒng)一到同一高度和寬度。歸一化有兩種方法,重心歸一化和外框歸一化。本文采用的外框歸一化。該算法首先要找到筆畫的最左、最右、最上和最下點(diǎn)所在的位置;然后利用這四個(gè)點(diǎn)得到一個(gè)剛好能將手寫的字符框住圖像;最后通過縮放將該圖像縮放到預(yù)先設(shè)定的標(biāo)準(zhǔn)圖像大小。圖4展示了歸一化前于歸一化后的手寫藏文樣本圖像的效果。
2.5 手寫體梵音藏文樣本傾斜矯正
人們?cè)谑謱懽址麜r(shí)不能保證非常的正,往往是有一定的傾斜角度的。如果不對(duì)這些傾斜角度做處理,會(huì)加大訓(xùn)練負(fù)擔(dān),降低識(shí)別率。可以選用Hough變換算法進(jìn)行傾斜矯正,圖5表示出來手寫藏文字符矯正前后的效果。
手寫體藏文識(shí)別不能缺少其預(yù)處理部分。這些工作的好壞決定了最終識(shí)別的效率和正確率。通過一系列的預(yù)處理,消除圖像中與識(shí)別無關(guān)的因素,降低了影響識(shí)別效率的因素,而保留了與識(shí)別相關(guān)的最重要的因素。
[1]吳佑壽,丁曉青.漢字識(shí)別:原理、方法與實(shí)現(xiàn)(第一版)[M].北京:高等教育出版社,1992.
[2]王維蘭.藏文基本字符識(shí)別算法研究[J].西北民族學(xué)院學(xué)報(bào)(自然科學(xué)版),1999.
[3]王華,丁曉青.一種多字體印刷藏文字符識(shí)別方法[J].中文信息學(xué)報(bào),2003,17(6).
[4]柳洪軼,王維蘭.聯(lián)機(jī)手寫藏文識(shí)別中字丁的規(guī)范化處理.計(jì)算機(jī)應(yīng)用研究,2006,8:179~181.
[5]Weilan Wang,Jianjun Qian,Daohui Wang,Zhuoma Duojie.Online Handwriting Recognition of Tibetan Characters Based on the Statistical Method.Journal of Communication and Computer,2011,8:188~200.
[6]王維蘭.一種聯(lián)機(jī)手寫藏文字丁的識(shí)別方法[ZL].ZL200910128595.8.西北民族大學(xué),2011.
TP391.4
A
1004-7344(2016)08-0028-02
西北民族大學(xué)研究生科研(實(shí)踐)創(chuàng)新項(xiàng)目(NO.Yxm2014178)。
2016-3-1
付 吉(1988-),男,仡佬族,碩士研究生在讀,研究方向?yàn)橹悄苄畔⑻幚砼c應(yīng)用軟件。