陳軍勝
寧夏大學(xué) 機(jī)械工程學(xué)院,銀川 750021
組合結(jié)構(gòu)特征的自由手寫(xiě)體數(shù)字識(shí)別算法研究
陳軍勝
寧夏大學(xué) 機(jī)械工程學(xué)院,銀川 750021
在過(guò)去的幾十年,隨著數(shù)字化、信息化在社會(huì)生活方方面面的推廣及普及,手寫(xiě)體的識(shí)別成為模式識(shí)別的研究熱點(diǎn)。數(shù)字手寫(xiě)體因其在郵政編碼、統(tǒng)計(jì)報(bào)表、財(cái)務(wù)報(bào)表、銀行票據(jù)等方面的廣泛使用,它的自動(dòng)識(shí)別更是受到了人們的廣泛關(guān)注。但是很多方法只是停留在理論研究之中,實(shí)際生活中手寫(xiě)體數(shù)字因個(gè)人書(shū)寫(xiě)風(fēng)格的不同而存在字符變形多樣的問(wèn)題,造成現(xiàn)有算法在手寫(xiě)體識(shí)別中識(shí)別率底、穩(wěn)定性差、魯棒性不足等多方面的問(wèn)題。研究高性能的手寫(xiě)體數(shù)字識(shí)別算法仍然是一個(gè)具有相當(dāng)挑戰(zhàn)性的課題。
手寫(xiě)體數(shù)字的識(shí)別建立在特征提取及比較的基礎(chǔ)之上。按照提取字符特征的不同,現(xiàn)有的數(shù)字手寫(xiě)體識(shí)別算法大體上可以分為兩類(lèi):一類(lèi)是基于結(jié)構(gòu)特征的手寫(xiě)體數(shù)字識(shí)別算法[1-3]。它們通過(guò)識(shí)別字符圖像內(nèi)部包含的凹陷區(qū)特征、輪廓特征結(jié)構(gòu)突變點(diǎn)特征等基元,采用模板匹配的方式實(shí)現(xiàn)手寫(xiě)體數(shù)字的自動(dòng)識(shí)別。這類(lèi)方法能夠直觀(guān)地描述字符的結(jié)構(gòu),但是存在著對(duì)字符形變及噪聲缺乏魯棒的問(wèn)題;另外一類(lèi)是基于統(tǒng)計(jì)特征的手寫(xiě)體數(shù)字識(shí)別算法[4-8]。這類(lèi)算法基于對(duì)大量樣本的表征、變換和學(xué)習(xí),通過(guò)估計(jì)不同樣本類(lèi)別的特征空間分布訓(xùn)練相應(yīng)的分類(lèi)器,并利用這些分類(lèi)器對(duì)未知模式進(jìn)行分類(lèi)。當(dāng)訓(xùn)練樣本選取得足夠充分時(shí),這類(lèi)方法能夠具有很好的識(shí)別能力;然而,充足樣本的構(gòu)造卻成為限制這類(lèi)方法發(fā)展的主要瓶頸。
綜合分析手寫(xiě)體數(shù)字識(shí)別的應(yīng)用需求及現(xiàn)有的手寫(xiě)體數(shù)字識(shí)別算法,會(huì)發(fā)現(xiàn)手寫(xiě)體數(shù)字識(shí)別具有以下特點(diǎn):(1)手寫(xiě)體數(shù)字書(shū)寫(xiě)自由,個(gè)人書(shū)寫(xiě)風(fēng)格千差萬(wàn)別,造成手寫(xiě)體數(shù)字形式變形多樣的特點(diǎn)。這就決定了在手寫(xiě)體數(shù)字識(shí)別中不存在一種簡(jiǎn)單、單一的方案能夠達(dá)到很高的識(shí)別率。(2)手寫(xiě)體數(shù)字識(shí)別正確率要求高。在實(shí)際應(yīng)用中,手寫(xiě)體數(shù)字往往會(huì)涉及到財(cái)會(huì)、金融等領(lǐng)域,因而,其識(shí)別準(zhǔn)確率要求更高。(3)手寫(xiě)體識(shí)別困難度高,不像文字,數(shù)字之間往往沒(méi)有上下文關(guān)系,這就造成在數(shù)字識(shí)別過(guò)程中無(wú)法通過(guò)上下文間的指導(dǎo)信息輔助完成手寫(xiě)體數(shù)字的自動(dòng)識(shí)別,而必須完全獨(dú)立地對(duì)各個(gè)數(shù)字進(jìn)行識(shí)別。
針對(duì)手寫(xiě)體識(shí)別的特點(diǎn)及要求,分析現(xiàn)有算法存在的問(wèn)題,本文提出了一種基于組合結(jié)構(gòu)特征的手寫(xiě)體數(shù)字識(shí)別算法。該算法能夠通過(guò)擴(kuò)展的字符結(jié)構(gòu)特征識(shí)別算法自動(dòng)、魯棒地提取手寫(xiě)體數(shù)字中的諸多結(jié)構(gòu)特征,并綜合使用端點(diǎn)、分叉點(diǎn)、橫線(xiàn)等特征構(gòu)建決策樹(shù),實(shí)現(xiàn)了手寫(xiě)體數(shù)字的自動(dòng)識(shí)別。實(shí)驗(yàn)結(jié)果顯示,該方法的識(shí)別率明顯優(yōu)于其他傳統(tǒng)方法。
本文提出的基于組合結(jié)構(gòu)特征的手寫(xiě)體數(shù)字識(shí)別算法通過(guò)分析字符圖像像素間的關(guān)系自動(dòng)提取端點(diǎn)、分叉點(diǎn)等結(jié)構(gòu)特征,從而實(shí)現(xiàn)手寫(xiě)體的自動(dòng)識(shí)別。在介紹整體算法之前,首先給出基本概念。
1.1 基本概念
定義1(端點(diǎn))在二值圖像中,端點(diǎn)就是連接點(diǎn)為1的點(diǎn),即在它的九鄰域中只有一個(gè)點(diǎn)與它相連。圖1所示的8幅圖像中位居圖像中央的點(diǎn)均為端點(diǎn)。
圖1 端點(diǎn)的九鄰域圖
定義2(三交叉點(diǎn))在二值圖像中,三交叉點(diǎn)起連接作用,是負(fù)責(zé)連接三條不同方向的線(xiàn)且連接數(shù)為3的點(diǎn)。在三交叉點(diǎn)的九鄰域內(nèi)有三個(gè)像素點(diǎn)與它相連并構(gòu)成一定角度。圖2所示的16幅圖像中位居圖像中央的點(diǎn)即為三交叉點(diǎn)。
定義3(四交叉點(diǎn))在二值圖像中,四交叉點(diǎn)其連接作用,是負(fù)責(zé)連接四條不同方向的線(xiàn)且連接數(shù)為4的點(diǎn)。在四交叉點(diǎn)的九鄰域內(nèi)有四個(gè)點(diǎn)與它相連并構(gòu)成一定角度。圖3所示的兩幅圖像中位居圖像中央的點(diǎn)即為四交叉點(diǎn)。
圖2 三交叉點(diǎn)的九鄰域圖
圖3 四交叉點(diǎn)的九鄰域圖
1.2 整體框架
圖4所示為基于組合結(jié)構(gòu)特征的手寫(xiě)體數(shù)字識(shí)別算法的整體框架,主要包括:
(1)手寫(xiě)體數(shù)字圖像的預(yù)處理。
(2)手寫(xiě)體數(shù)字圖像結(jié)構(gòu)特征的提取,通過(guò)本文提出的擴(kuò)展字符結(jié)構(gòu)特征識(shí)別算法魯棒、準(zhǔn)確地識(shí)別手寫(xiě)體數(shù)字圖像中包含的結(jié)構(gòu)特征。
(3)基于決策樹(shù)的手寫(xiě)體數(shù)字自動(dòng)識(shí)別,通過(guò)組合本文提取的結(jié)構(gòu)特征構(gòu)造決策樹(shù)實(shí)現(xiàn)自由手寫(xiě)體數(shù)字圖像的自動(dòng)識(shí)別。
手寫(xiě)數(shù)字識(shí)別時(shí),首先將紙上的字符,經(jīng)光電掃描產(chǎn)生模擬電信號(hào),再經(jīng)模數(shù)轉(zhuǎn)換把帶灰度值的數(shù)字信號(hào)輸入計(jì)算機(jī)。紙張厚度、顏色、油墨深淺、印刷或書(shū)寫(xiě)質(zhì)量都要造成字形畸變,產(chǎn)生污點(diǎn)、飛白、斷筆、交連等干擾。輸入設(shè)備的鑒別率、線(xiàn)形度、光學(xué)畸變也要產(chǎn)生噪聲。所以,在單個(gè)字符識(shí)別之前,要對(duì)帶有隨機(jī)噪聲的字符數(shù)字信號(hào)進(jìn)行預(yù)處理。具體地,預(yù)處理包括灰度化、二值化、平滑、細(xì)化等步驟。
2.1 灰度化
圖4 基于組合結(jié)構(gòu)特征的手寫(xiě)體數(shù)字字符識(shí)別算法整體框架圖
手寫(xiě)體數(shù)字的顏色并不影響其對(duì)應(yīng)的字符,而彩色圖像又占有大量的空間,影響識(shí)別效率及效果。因而,在識(shí)別之前,首先要對(duì)圖像進(jìn)行灰度化處理,以過(guò)濾掉與識(shí)別信息無(wú)關(guān)的數(shù)據(jù)。研究表明:給定一個(gè)24位的BMP圖像,若其每個(gè)像素通過(guò)R(紅色)、G(綠色)、B(藍(lán)色)三個(gè)顏色分量共同表達(dá),則基于人眼對(duì)顏色敏感程度分析,可使用:
RGB=B×0.114+G×0.587+R×0.299 (1)的灰度化公式來(lái)進(jìn)行灰度化?;叶然男Ч鐖D5所示。
圖5 彩色手寫(xiě)體數(shù)字位圖的灰度化
2.2 二值化
為進(jìn)一步減少圖像的數(shù)據(jù)量,使其更加便于圖像的識(shí)別操作,在得到數(shù)字字符的灰度化圖像后,需對(duì)灰度圖像進(jìn)行二值化操作。二值化的一般方法是確定一個(gè)灰度值,即閾值x,將灰度值小于x的像素設(shè)為白色,將灰度值大于等于x的像素設(shè)為黑色。因?yàn)槭謱?xiě)體字符圖像的前景色和背景色為圖像中存在最多的兩種灰度顏色,因而圖像的灰度直方圖中會(huì)各形成一個(gè)波峰,將兩波峰之間的波谷作為閾值,即可有效實(shí)現(xiàn)圖像的二值化操作。為此,本文中,為保證閾值確定的合理性,利用灰度直方圖確定閾值并實(shí)現(xiàn)二值化。圖6給出了圖5所示灰度圖像的二值化結(jié)果。
圖6 灰度圖像的二值化
2.3 平滑處理
為消除手寫(xiě)體圖像中的噪聲,需進(jìn)一步對(duì)手寫(xiě)體圖像進(jìn)行平滑去噪處理。均值濾波、中值濾波、空間與低通濾波是圖像平滑處理中較為常用的濾波方法。鑒于在一定條件下,中值濾波可以克服線(xiàn)性濾波器所帶來(lái)的細(xì)節(jié)模糊問(wèn)題,而且對(duì)濾除脈沖干擾及圖像掃描噪聲非常有效。本文選用7×7的滑動(dòng)窗口對(duì)二值化圖像進(jìn)行中值濾波。圖7給出了利用中值濾波光滑去噪后的字符圖像。
圖7 利用低通濾波對(duì)二值圖像進(jìn)行光滑去噪
圖8 單行字符圖像在X、Y方向上的投影
2.4 字符分割
字符識(shí)別的基本對(duì)象是單個(gè)字符,在進(jìn)行字符識(shí)別之前,需對(duì)光滑去噪后的圖像進(jìn)行分割操作,以從多行或多字符圖像中獲得單個(gè)字符。本文中,將通過(guò)投影分割的方式來(lái)獲取單個(gè)字符。首先,利用水平投影法獲得單行字符圖像,此后再以單行字符圖像為輸入,利用垂直投影法獲得單個(gè)字符圖像。公式(2)(3)分別給出了水平投影及垂直投影的計(jì)算公式。
其中,h,w分別是圖像的高度和寬度,f(i,j)為圖像第i行第j列元素的灰度值,對(duì)二值圖像為1或0。以圖7中平滑去噪后的圖像為例,圖8給出了利用公式(2)、(3)中sum(i) 和sum(j)隨i、j的變化趨勢(shì)圖。由圖可見(jiàn),給定一行字符后,由于字符間獨(dú)立成塊,水平方向之間并無(wú)交集,因而,可在對(duì)單行圖像進(jìn)行垂直投影后利用投影圖像中的空白間隙對(duì)字符集合進(jìn)行分割。圖9給出了相應(yīng)的分割結(jié)果。
圖9 基于垂直投影的圖像分割
2.5 字符細(xì)化
細(xì)化是減少圖像信息量并保留圖像主要特征的又一預(yù)處理操作。為有效提高字符識(shí)別的效果和質(zhì)量,將選用兩步腐蝕的方法對(duì)字符圖像進(jìn)行細(xì)化[9-10]。具體地:第一步,對(duì)字符圖形進(jìn)行預(yù)腐蝕,將所有腐蝕可去除的像素點(diǎn)標(biāo)明但不立即去除;第二步,以第一步標(biāo)注的可去除像素點(diǎn)為基礎(chǔ),選擇消除那些消除后不會(huì)破壞字符連通性的點(diǎn),并保留其他點(diǎn),以確保字符圖像的拓?fù)浣Y(jié)構(gòu)。圖10為按照本文算法細(xì)化得到的效果圖。
圖10 字符細(xì)化
至此,得到了高質(zhì)量的字符圖像,本章將考慮字符圖像的特征提取。由于手寫(xiě)體字符不像印刷體字符那么規(guī)范,使用諸如模板匹配的方法需要建立大量的模板庫(kù),效率低且識(shí)別效果差。而字符結(jié)構(gòu)的某些特征并不因?yàn)闀?shū)寫(xiě)人的不同而發(fā)生改變,如數(shù)字字符1無(wú)論寫(xiě)成怎樣,它都會(huì)存在兩個(gè)端點(diǎn),內(nèi)部也不會(huì)有別的交叉點(diǎn);數(shù)字2無(wú)論寫(xiě)成怎樣,一般都會(huì)有一個(gè)交叉點(diǎn)和兩個(gè)端點(diǎn)的。因而,可以認(rèn)為無(wú)論數(shù)字寫(xiě)得如何隨意,只要不是非??鋸?,特征點(diǎn)信息都是相對(duì)穩(wěn)定的。本文將以預(yù)處理后的字符圖像為輸入提取其字符結(jié)構(gòu)特征,并依據(jù)字符結(jié)構(gòu)特征識(shí)別數(shù)字字符。
3.1 結(jié)構(gòu)特征的提取
不同的數(shù)字具有不同的結(jié)構(gòu)特征,如有些數(shù)字有兩個(gè)端點(diǎn),有些數(shù)字沒(méi)有端點(diǎn),有些數(shù)字有三交叉點(diǎn),有些數(shù)字有四交叉點(diǎn),而且不同數(shù)字特征點(diǎn)的位置也不一樣,所以端點(diǎn)和交叉點(diǎn)特征就可以成為判別數(shù)字的一個(gè)主要特征。本文將利用擊中擊不中變換來(lái)識(shí)別數(shù)字字符的形狀特征。具體地:在擊中擊不中變換中將結(jié)構(gòu)元素分解成兩類(lèi),一類(lèi)定義為前景結(jié)構(gòu)元素E,另一類(lèi)定義為背景結(jié)構(gòu)元素F,定義如下:B=(E,F(xiàn)),其中E和F的交集為空集。對(duì)圖像A進(jìn)行擊中擊不中變換的定義就是:
由于E與F的交集為空,構(gòu)造一個(gè)新的結(jié)構(gòu)T,將E中為1的元素定義為1,將F中為1的元素定義為-1,將其他元素定義為0,就可完整地表征出擊中擊不中的結(jié)構(gòu)元素E 和F。將T定義為發(fā)現(xiàn)結(jié)構(gòu)特征的探針,下面將根據(jù)不同的待識(shí)別結(jié)構(gòu)特征設(shè)置相應(yīng)的探針T。
(1)端點(diǎn)特征。對(duì)于有些數(shù)字,比如1、7,是存在兩個(gè)端點(diǎn)的,而0、8則是不存在端點(diǎn)的。所以端點(diǎn)特征是一個(gè)簡(jiǎn)單且重要的判別特征。為有效識(shí)別端點(diǎn)信息,以圖1給出的8種不同形態(tài)的端點(diǎn)為依據(jù),設(shè)計(jì)了8種不同的探針,如圖11所示。以這8個(gè)探針對(duì)原始圖像進(jìn)行擊中擊不中操作,很容易識(shí)別出字符圖像的端點(diǎn)信息,圖12給出了一個(gè)實(shí)驗(yàn)結(jié)果。
圖11 識(shí)別端點(diǎn)結(jié)構(gòu)的8種探針
圖12 數(shù)字字符中端點(diǎn)結(jié)構(gòu)的提取
(2)三交叉點(diǎn)特征。對(duì)于有些數(shù)字,比如2、3,是存在三交叉點(diǎn)的,而0、1則不存在三交叉點(diǎn)。所以三交叉點(diǎn)特征也是一個(gè)比較重要的判別特征。為有效識(shí)別三交叉點(diǎn)信息,以圖2給出的16種不同形態(tài)的三交叉點(diǎn)為依據(jù),設(shè)計(jì)了16種不同的探針,如圖13所示。以這16個(gè)探針對(duì)原始圖像進(jìn)行擊中擊不中操作可有效識(shí)別出字符圖像中包含的三交叉點(diǎn)信息,圖14給出了一個(gè)實(shí)驗(yàn)結(jié)果。
圖14 數(shù)字字符中三交叉點(diǎn)結(jié)構(gòu)的提取
(3)四交叉點(diǎn)特征。對(duì)于有些數(shù)字,比如4,是存在四交叉點(diǎn)的,而2、7是不存在四交叉點(diǎn)的。四交叉點(diǎn)特征是用以識(shí)別數(shù)字字符的又一重要判別特征。為有效識(shí)別四交叉點(diǎn)信息,以圖3給出的2種不同形態(tài)的四交叉點(diǎn)為依據(jù),設(shè)計(jì)了2種不同的探針,如圖15所示。以這2個(gè)探針對(duì)原始圖像進(jìn)行擊中擊不中操作,很容易識(shí)別出字符圖像的四交叉點(diǎn)信息,圖16給出了相應(yīng)的實(shí)驗(yàn)結(jié)果。
圖15 識(shí)別四交叉點(diǎn)結(jié)構(gòu)的2種探針
圖16 數(shù)字字符中四交叉點(diǎn)結(jié)構(gòu)的提取
通過(guò)擊中擊不中操作可有效地識(shí)別數(shù)字字符中包含的端點(diǎn)、三交叉點(diǎn)、四交叉點(diǎn)等結(jié)構(gòu)點(diǎn)信息。但是,僅僅依賴(lài)結(jié)構(gòu)點(diǎn)還難以完成數(shù)字字符的有效區(qū)別,如數(shù)字2,5都包含2個(gè)端點(diǎn)和1個(gè)三交叉點(diǎn),且都沒(méi)有四交叉點(diǎn)。仔細(xì)觀(guān)察會(huì)發(fā)現(xiàn),除了這些結(jié)構(gòu)點(diǎn)信息,數(shù)字字符中還包含一類(lèi)結(jié)構(gòu)線(xiàn)信息,橫線(xiàn)特征就是一類(lèi)非常重要的結(jié)構(gòu)線(xiàn)信息。如有些數(shù)字,比如2、5、7,是存在橫線(xiàn)的,而0、3、8這些數(shù)字是不存在橫線(xiàn)的;且不同數(shù)字中橫線(xiàn)的長(zhǎng)短和位置也是不一樣的,如數(shù)字2的橫線(xiàn)在下方,而數(shù)字5和7的橫線(xiàn)都在數(shù)字的上方,所以橫線(xiàn)特征也是一個(gè)比較重要的判別特征,可和特征點(diǎn)結(jié)合共同支持字符的識(shí)別。為提取橫線(xiàn)特征,本文定義了如圖17所示的掩膜,通過(guò)原始圖像同掩膜圖像間的卷積標(biāo)識(shí)包含橫線(xiàn)特征的點(diǎn),進(jìn)而發(fā)現(xiàn)橫線(xiàn)特征。圖18給出了一個(gè)相應(yīng)的實(shí)驗(yàn)結(jié)果。
圖17 識(shí)別橫線(xiàn)結(jié)構(gòu)的掩膜
圖18 數(shù)字字符中橫線(xiàn)結(jié)構(gòu)的提取
3.2 偽特征點(diǎn)的去除
理想狀況下,提取以上字符特征,并據(jù)此進(jìn)行數(shù)字識(shí)別就可以了。但是,如表1所示,由于手寫(xiě)體數(shù)字字符的隨意性,會(huì)出現(xiàn)很多標(biāo)準(zhǔn)寫(xiě)法中不該出現(xiàn)的特征,即偽特征點(diǎn):如標(biāo)準(zhǔn)的數(shù)字8中間位置有且僅有一個(gè)四交叉點(diǎn),而這里出現(xiàn)了兩個(gè)三交叉點(diǎn);標(biāo)準(zhǔn)的數(shù)字3應(yīng)該包含兩個(gè)端點(diǎn),一個(gè)三交叉點(diǎn),而這里多出一個(gè)端點(diǎn),等等。這勢(shì)必影響以此為基礎(chǔ)的字符識(shí)別。為此基于字符結(jié)構(gòu)特征的分析,提出了一種偽特征點(diǎn)的去除算法擴(kuò)展已有的字符結(jié)構(gòu)識(shí)別算法以確保特征提取的準(zhǔn)確性、魯棒性。具體地,在一個(gè)特定的閾值范圍內(nèi),如果:
(1)有且僅有2個(gè)端點(diǎn),如表1中的“4”,則去掉2個(gè)端點(diǎn),增加1個(gè)三交叉點(diǎn)。
(2)有且僅有2個(gè)三交叉點(diǎn),如表1中的“8”,則去掉2個(gè)三交叉點(diǎn),增加1個(gè)四交叉點(diǎn)。
(3)有1個(gè)端點(diǎn)、1個(gè)三交叉點(diǎn),如表1中的“3”,則去掉端點(diǎn),三交叉點(diǎn)不變。
(4)有1個(gè)端點(diǎn)、2個(gè)三交叉點(diǎn),如表1中的“9”,則去掉端點(diǎn)和1個(gè)三交叉點(diǎn),只留1個(gè)三交叉點(diǎn)。
(5)有2個(gè)端點(diǎn)和1個(gè)四交叉點(diǎn),如表1中的“5”,則去掉這2個(gè)端點(diǎn)及這個(gè)四交叉點(diǎn),并新增一個(gè)三交叉點(diǎn)。
根據(jù)以上判別條件,依次判斷手寫(xiě)體字符圖像中已識(shí)別特征的真?zhèn)危行コ謱?xiě)體字符中的偽特征點(diǎn),實(shí)現(xiàn)手寫(xiě)體字符特征結(jié)構(gòu)的規(guī)范化,可以更好地克服手寫(xiě)體數(shù)字的隨意性,增加算法的魯棒性。
表1 手寫(xiě)體數(shù)字字符偽特征說(shuō)明1)
以上面提取的各類(lèi)字符結(jié)構(gòu)特征為基礎(chǔ),綜合比較它們的區(qū)別能力并構(gòu)造用以識(shí)別手寫(xiě)體數(shù)字字符的決策樹(shù),以實(shí)現(xiàn)手寫(xiě)體字符的有效識(shí)別。本文中按照端點(diǎn)數(shù)為0~4的不同情況將待識(shí)別數(shù)字字符分為5類(lèi),其中:端點(diǎn)數(shù)為0的有0、8,端點(diǎn)為1的數(shù)字為6、9,端點(diǎn)為2的數(shù)字為1,2,3,5,7,端點(diǎn)為3的數(shù)字為另一種形態(tài)的5,端點(diǎn)為4的是4。進(jìn)一步,將依次利用三交叉點(diǎn)數(shù)、四交叉點(diǎn)數(shù)、橫線(xiàn)數(shù)及其位置細(xì)化識(shí)別結(jié)果。圖19給出了本文所構(gòu)造的決策樹(shù)。每輸入一幅手寫(xiě)體數(shù)字字符,依據(jù)此決策樹(shù),逐條判斷,便可實(shí)現(xiàn)數(shù)字字符的有效識(shí)別。
本文以Matlab為開(kāi)發(fā)平臺(tái),設(shè)計(jì)并實(shí)現(xiàn)了基于組合結(jié)構(gòu)特征的自由手寫(xiě)體數(shù)字識(shí)別系統(tǒng)。系統(tǒng)包括輸入模塊和圖像識(shí)別模塊兩部分。用戶(hù)可通過(guò)輸入模塊提交手寫(xiě)體數(shù)字字符,系統(tǒng)通過(guò)圖像識(shí)別模塊依次對(duì)圖像進(jìn)行預(yù)處理、結(jié)構(gòu)特征提取并依據(jù)決策樹(shù)決策判斷得到輸出結(jié)果。
5.1 測(cè)試庫(kù)的構(gòu)造
為驗(yàn)證算法的準(zhǔn)確性及魯棒性,選取識(shí)別率為評(píng)價(jià)參數(shù),構(gòu)建了一個(gè)包含1 000份不同輸入的測(cè)試集。這1 000份輸入圖像包括數(shù)字圖片0~9各100份,每份由10人分批次書(shū)寫(xiě),形態(tài)各異,輕重不同。表2舉例列出了其中的部分手寫(xiě)體字符。
表2 部分手寫(xiě)體數(shù)字測(cè)試用例
圖19 支持手寫(xiě)體數(shù)字字符自動(dòng)識(shí)別的決策樹(shù)
5.2 識(shí)別率測(cè)試
以本文構(gòu)造的1 000份手寫(xiě)體輸入為測(cè)試數(shù)據(jù),實(shí)現(xiàn)并應(yīng)用本文算法對(duì)0~9的10個(gè)數(shù)字進(jìn)行了測(cè)試,結(jié)果如表3所示。由表3可以看出,針對(duì)不同人書(shū)寫(xiě)的不同形態(tài)的數(shù)字,該算法的整體識(shí)別率高達(dá)97.4%。而針對(duì)不同的數(shù)字,由于字符形式變化多樣性的不同,識(shí)別率略有不同。對(duì)于數(shù)字0和7,該算法的識(shí)別率已經(jīng)達(dá)到100%,其他絕大多數(shù)數(shù)字的識(shí)別率也已經(jīng)達(dá)到90%以上。這表明基于組合結(jié)構(gòu)特征的決策樹(shù)算法具有較高的識(shí)別率和較強(qiáng)的魯棒性。但是不可否認(rèn)的是,該算法仍存在一些問(wèn)題,由于算法中綜合應(yīng)用的判別特征還是不夠多,造成部分?jǐn)?shù)字,如3、4、5的識(shí)別率較低,還有待于改進(jìn)和完善。
表3 基于組合結(jié)構(gòu)特征的手寫(xiě)體數(shù)字識(shí)別結(jié)果統(tǒng)計(jì) (%)
5.3 算法比較
為了進(jìn)一步驗(yàn)證算法的有效性,本文實(shí)現(xiàn)了基于主分量分析(Principal Component Analysis,PCA)[11]的傳統(tǒng)手寫(xiě)體識(shí)別算法,并將該方法和本文提出的基于組合特征的識(shí)別方法進(jìn)行了比較。具體地,在基于PCA的自由手寫(xiě)體識(shí)別實(shí)驗(yàn)中,選用美國(guó)國(guó)家郵政局?jǐn)?shù)據(jù)庫(kù)中包含的7 291個(gè)訓(xùn)練樣本為訓(xùn)練樣本集,依次計(jì)算0~9這10類(lèi)字符的協(xié)方差矩陣Cx,求解其特征值,按特征值大小排序,得到這10個(gè)字符對(duì)應(yīng)特征向量的基向量;并依次選取3,6,16三個(gè)不同的特征維數(shù)d構(gòu)建其基向量數(shù)組u1~ud,依據(jù)式(5)對(duì)本文構(gòu)造的數(shù)據(jù)進(jìn)行分類(lèi)判斷。則待識(shí)別樣本屬于第i類(lèi)模式。
實(shí)驗(yàn)共進(jìn)行了100輪,表4是最后的平均識(shí)別結(jié)果。由實(shí)驗(yàn)結(jié)果可見(jiàn),本文提出自由手寫(xiě)體數(shù)字識(shí)別算法明顯優(yōu)于傳統(tǒng)算法,這是因?yàn)椋海?)字符結(jié)構(gòu)特征相比較統(tǒng)計(jì)方法特征而言是一種更能反映數(shù)字手寫(xiě)體本質(zhì)特征向量,能夠更好地捕捉自由手寫(xiě)體中不變的屬性;(2)本文提出的擴(kuò)展特征結(jié)構(gòu)特征識(shí)別算法能夠魯棒地提取各類(lèi)字符結(jié)構(gòu)特征,進(jìn)一步提高算法的識(shí)別率;(3)通過(guò)組合各類(lèi)結(jié)構(gòu)特征,本算法能夠更好地識(shí)別0~9不同的數(shù)字字符,因而具有更高的識(shí)別率。
表4 本文算法同PCA算法識(shí)別率比較 (%)
本文提出一種基于組合特征的自由手寫(xiě)體數(shù)字識(shí)別算法,給出了自由手寫(xiě)體數(shù)字字符圖像的預(yù)處理方法,設(shè)計(jì)并實(shí)現(xiàn)了手寫(xiě)體數(shù)字字符結(jié)構(gòu)特征信息的有效識(shí)別算法,并針對(duì)性地提出了一種新的偽特征點(diǎn)去除算法擴(kuò)展本文字符結(jié)構(gòu)特征識(shí)別算法,建立了基于組合特征的決策樹(shù)識(shí)別算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該算法的有效性。所提出的字符結(jié)構(gòu)特征構(gòu)建算法能夠準(zhǔn)確、穩(wěn)定地識(shí)別自由手寫(xiě)體數(shù)字字符的結(jié)構(gòu)特征,為手寫(xiě)體的識(shí)別提供底層支持;基于組合特征的決策樹(shù)自動(dòng)識(shí)別算法能夠綜合利用多種結(jié)構(gòu)信息完成自由書(shū)寫(xiě)體字符的自動(dòng)識(shí)別,保證了算法的準(zhǔn)確性及魯棒性;實(shí)驗(yàn)結(jié)果表明該算法的識(shí)別率高達(dá)97.4%,明顯優(yōu)于傳統(tǒng)自由手寫(xiě)體識(shí)別算法。
為了進(jìn)一步加強(qiáng)自由手寫(xiě)體數(shù)字字符的識(shí)別能力及識(shí)別效率,下一步將考慮如何擴(kuò)展并綜合應(yīng)用多種字符結(jié)構(gòu)特征,使其能夠有效地改進(jìn)部分?jǐn)?shù)字,如3,4,5等數(shù)字字符的識(shí)別率,使得手寫(xiě)體數(shù)字字符的整體識(shí)別能力都有所提高。
[1]宋曰聰,胡偉.手寫(xiě)體數(shù)字識(shí)別系統(tǒng)中一種新的特征提取方案[J].計(jì)算機(jī)科學(xué),2007.
[2]黃濤.模板匹配在圖像識(shí)別中的應(yīng)用[J].云南大學(xué)學(xué)報(bào):自然科學(xué)版,2005,27(5A):327-332.
[3]沙騰.基于CCD圖像識(shí)別通用算法研究[D].杭州:浙江大學(xué),2008.
[4]Li Sanping,Yue Zhenjun.Realization of handwritten numeral recognition system based on PNN with MATLAB[J].Journal of Military Communications Technology,2005,3(26):54-57.
[5]賈厚林.基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別研究與實(shí)現(xiàn)[D].南京:東南大學(xué),2006.
[6]姜文理,王衛(wèi),孫正興.基于決策樹(shù)的快速在線(xiàn)手寫(xiě)數(shù)字識(shí)別技術(shù)[J].計(jì)算機(jī)科學(xué),2006.
[7]張偉,王克儉,秦臻.基于神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別的研究[J].微電子學(xué)與計(jì)算機(jī),2006.
[8]Likforman-Sulem L,Sigelle M.Recognition of degraded handwritten digits using dynamic Bayesian networks[C]//Proceedings of SPIE.San Jose,CA:[s.n.],2007.
[9]張德豐.MATLAB數(shù)字圖像處理[M].北京:機(jī)械工業(yè)出版社,2009.
[10]馬駟良,馬洪波,董險(xiǎn)峰.數(shù)字圖像的一種快速細(xì)化方法[J].吉林大學(xué)自然科學(xué)學(xué)報(bào),2001(4):17-19.
[11]芮挺,沈春林,丁健,等.基于主分量分析的手寫(xiě)數(shù)字字符識(shí)別[J].小型微型計(jì)算機(jī)系統(tǒng),2005,26(2):289-293.
CHEN Junsheng
School of Mechanical Engineering,Ningxia University,Yinchuan 750021,China
Because of its large differences in writing style,context-independency and high recognition accuracy requirement, free handwritten digital identification is still a very difficult problem.Analyzing the characteristic of handwritten digits,this paper proposes a new handwritten digital identification method based on combining structural features.Given a handwritten digit,a variety of structural features of the digit including end points,bifurcation points,horizontal lines and so on are identified automatically and robustly by a proposed extended structural features identification algorithm,and a decision tree based on those structural features is constructed to support automatic recognition of the handwritten digit.Experimental result demonstrates that the proposed method is superior to other general methods in recognition rate and robustness.
handwritten digital identification;combining structural feature;decision trees;pattern recognition
自由手寫(xiě)體因其書(shū)寫(xiě)風(fēng)格差異大、上下文無(wú)關(guān)及識(shí)別準(zhǔn)確度要求高等原因?qū)е缕渥R(shí)別難度大的問(wèn)題。針對(duì)手寫(xiě)體數(shù)字識(shí)別的特點(diǎn)及要求,提出一種新的基于組合結(jié)構(gòu)特征的自由手寫(xiě)體數(shù)字識(shí)別算法。通過(guò)擴(kuò)展的字符結(jié)構(gòu)特征識(shí)別算法自動(dòng)、魯棒地提取手寫(xiě)體數(shù)字字符端點(diǎn)、分叉點(diǎn)、橫線(xiàn)等多種結(jié)構(gòu)特征,并組合應(yīng)用這些結(jié)構(gòu)特征構(gòu)造決策樹(shù)完成手寫(xiě)體字符的自動(dòng)識(shí)別。實(shí)驗(yàn)結(jié)果表明基于組合結(jié)構(gòu)特征的自由手寫(xiě)體數(shù)字識(shí)別算法的魯棒性和識(shí)別率明顯優(yōu)于傳統(tǒng)方法。
手寫(xiě)體數(shù)字識(shí)別;組合結(jié)構(gòu)特征;決策樹(shù);模式識(shí)別
A
TP391
10.3778/j.issn.1002-8331.1109-0092
CHEN Junsheng.Research on combining structural features based free handwritten digital identification algorithm. Computer Engineering and Applications,2013,49(5):179-184.
陳軍勝(1969—),男,副教授,主要從事隨機(jī)分析研究。E-mail:chenjs@nxu.edu.cn
2011-09-06
2011-11-28
1002-8331(2013)05-0179-06
CNKI出版日期:2012-01-16 http://www.cnki.net/kcms/detail/11.2127.TP.20120116.0928.062.html