黃弋石
(南通大學公共衛(wèi)生學院實驗中心 江蘇 南通 226019)
維吾爾文脫機手寫識別建模研究
黃弋石
(南通大學公共衛(wèi)生學院實驗中心 江蘇 南通 226019)
為了解決維吾爾文的印刷文字與手寫文字的脫機識別,本文提出了新穎識別技術。規(guī)定了核心模型定義,使用五種機器讀法,來識別文字的特征。使用簡捷方便的編碼方法,使得模型結構舒暢美觀。對于常用文字的編碼,沒有重碼。在理論上,實現(xiàn)了眼睛能夠識別則機器即可辨認的目標。顯然,這種模型設計,也可以改善其他研究者的方案,大幅度提高對應效率與成功率。
維吾爾文手寫識別;手寫識別;脫機識別;連筆識別
維吾爾文十分類似于阿拉伯文,字母共有32個。每個獨立字母,有2到4種實際的書寫形式。見圖1與圖2。字母共有128種變化。其中,具有八種變化的有2個字母。具有四種變化的有24個字母。有兩種變化的有6個字母。另外,附屬字符的字母,共有四個。
書寫時,筆順從右到左,布局從上至下。當然,先完成主體筆畫,然后補充延遲筆畫。在實際書寫中會產(chǎn)生連寫形式。見圖三與圖四。
這些字母,在語言學中,被稱為前連體、雙連體、后連體、獨立體。由它們組合形成詞匯。幸好,常用的維吾爾文詞語,一共只有兩千多字,工作量不算大。
首先定義以下核心定義,然后使用,這些核心定義對每個字母與詞語,進行編碼。會發(fā)現(xiàn),對于兩千多維吾爾語詞語的印刷體的編碼,根本沒有重碼。實現(xiàn)了,人眼能區(qū)分,計算機即可識別的數(shù)學建模效果。核心定義如下。
(1)橫、豎、斜、點。就是對橫線、豎線、斜線與點識別。由于維吾爾文的實際書寫特征,橫線有一定的角度搖擺范圍,同樣豎線也一樣,而斜線介于橫線與豎線之間。而點在幾何意義上,是尺度極短的橫線、豎線與斜線。有時,點還會有尖鉤或彎尖鉤的特征,然而在維吾爾文中,我們不需要考慮這些尖鉤的變化,而一律將其識別為點即可。
(2)圓角、尖角。就是指,角一類的過渡是平滑的還是奇點突越。圓角與尖角,很形象的描述它們的幾何特征。顯然,在數(shù)學上要識別圓角與尖角是很容易的。
(3)連續(xù)、不連續(xù)、交叉與交叉點。就是從筆的落下點到抬起點,是否連續(xù)。不同運行筆跡是否有交叉,并產(chǎn)生了交叉點這個特征。交叉點分兩線交叉點、三線交叉點與四線交叉點。就是,一個點上連接幾條獨立的直線或射線。這種,交叉點的特征是維吾爾文所獨有的。
(4)圈與開圈。就是筆畫中,有閉合的圈與不閉合的圈。這一點利用幾何與拓撲學,很容易識別。
(5)相對八方向位置。就是,將平面坐標,平分八個角度,稱之為,上、下、左、右與左上、左下、右上、右下。
圖1 維吾爾文字母與變體
接著對每個文字與詞匯實施編碼。大致次序,為從右到左,從上到下。
圖2,給出了放大的字母。圖3,給出了放大了的詞語。請注意,有時,圈看起來像巨大的點,由于有圓角與尖角的定義,所以,不會將其誤認為是各種各樣形式的點。
顯然,編碼是很容易的。當然,合理或聰明的編碼設計,將使得程序編寫的干練、高效與流暢。
圖四,是手寫體的示例。大體感覺上,以上方案同樣有效,但是,如果收集樣本,那么,相應的工作量是巨大的,有點難以想象。但是,如果,已經(jīng)存在對應的維吾爾文手寫體樣本數(shù)據(jù)庫,那么,下一步工作可以在理論上可行的。
圖2 維吾爾文字母放大示意
圖3 維吾爾文印刷體示意
其他學者比較成功的識別方案,介紹如下。
第一種是,組合特征識別。就是在外圍輪廓的限定下,加以附加筆畫限定、密度比例、筆畫數(shù)數(shù)據(jù)與位置關系,加以識別[1]??上?,識別率最高只有75.7%。使用的數(shù)學方法很先進,但是,初步效果不理想。
第二種是,使用LVQ神經(jīng)網(wǎng)絡建立字符識別方法。先對字符的最基本結構進行分解,然后使用自學習與自適應的方法,融合協(xié)助,最后反復的提高識別效率[2]。也就是,對字符數(shù)據(jù)庫,根據(jù)全局統(tǒng)計,對特征分析結果實施訓練分析。最后,不斷自我改進識別成功率。這個方法的好處,就是一旦程序完成,則后續(xù)工作較少。但是,該研究者沒有提供具體的識別成功率。
第三種方法,是模糊聚類識別。比如,使用穿刺法,獲得交匯密度特征。比如,用降維法,處理單位面積像素特征值[3]。比如,計算累計貢獻率。這種方法,對數(shù)學要求較高,計算極其復雜。同樣,文獻沒有提供識別率。
第四種方法,是使用中心距離特征建模。就是,對中心距離特征實施特征分析,反復訓練,建立模板庫,反復實施識別測試[4]。這一方法,的確很新穎,但是,還處于研究階段。
第五種方法,使用統(tǒng)計法建立語法分析法則。這種語法或詞法約束,又分兩種,如上下文相關法則與上下文無關法則[5]。經(jīng)過對樣本庫的反復訓練,可以大大提高識別率。而且,可以移植到,每個不同的識別模型中。的確是,一種很有價值的輔助提升效率的方法。
圖4 維吾爾文手寫體示意
本文提出新穎建模方法,在理論上解決了維吾爾文文字的脫機手寫識別的技術。識別的前提是,書寫者的字體較為傳統(tǒng)、較為規(guī)范。依照作者以往對中英文手寫識別解決方案的經(jīng)驗,這一方法,可以機動靈活的移植到維吾爾文的聯(lián)機手寫識別[6-8]。至于,對藝術化的維吾爾文,能否識別。作者認為,只要建立維吾爾文行書與草書或藝術體字符文字庫,那么同樣能夠正常工作。
同樣,其他研究者,如果采納或吸取本文方法,顯然能夠明顯提高他們的識別模型的識別成功率[1-5]。
[1]祖麗菲亞卡哈爾,瑪依熱依布拉音.組合特征的聯(lián)機手寫維吾爾字母識別[J].通信技術,2013,46(5):95-97.
[2]齊向偉,艾孜爾古麗,玉素甫.維吾爾文手寫體基礎數(shù)據(jù)庫的構建與在線識別研究[J].媒體技術,2015,13:12-14.
[3]賈建忠,孫萍.脫機維吾爾文組合特征提取及模糊聚類識別[J].新疆大學學報(自然科學版),2013,30(3):347-353.
[4]吾加合買提司馬義,艾斯卡爾艾木都拉.基于中心距離特征的聯(lián)機手寫維吾爾文全形態(tài)字母識別研究[J].電腦知識與技術,2014,10(13):3097-3103.
[5]柳令令,趙暉.聯(lián)機手寫維吾爾文單詞識別中兩種語言模型的比較研究[J].計算機應用與軟件,2012,29(9):151-153.
[6]黃弋石,梁艷.英文手寫聯(lián)機識別的基礎模型[J].軟件,2012,33(7):141-145.
[7]黃弋石,梁艷,陸崢嶸.漢字聯(lián)機手寫建模方法[J].軟件,2013,34(5):67-70.
[8]黃弋石,梁艷.手寫識別建模數(shù)學方法研究[J].軟件,2013,34(8):13-15.
Research of Offline Handwriting Recognition’s Modeling in Uighur
Huang Yishi.
Lab Center, School of Public Health, Nantong University, Nantong 226019,China.
In order to solve the Uighur printed text with handwritten words offline recognition, this paper proposes new recognition technology. The core model definition is defined, and five machine pronunciations are used to identify the features of the text. Using simple and convenient coding method, the model structure is pleasant and beautiful. For text coding, there is no duplicate code. In theory, the target is recognized by the eyes and the machine can recognize it. Obviously,this model design can also improve the other researchers' program, and greatly improve the corresponding efficiency and success rate.
Uighur handwriting character recognition; Handwriting recognition; Offline Recognition; Cursiverecognition
TP391 【文獻標識碼】A 【文章編號】1009-5624(2018)02-0089-03
黃弋石(1971-),男,江蘇啟東人,學士,實驗師,主要研究方向為數(shù)學建模與應用。E-mail:huangyishint@126.com