顧立娟,劉才斌,吳 勇,郝玉保
(1.武漢軍械士官學(xué)校 湖北 武漢 430075;2.75719部隊(duì) 湖北 武漢 430074)
文本圖像文字種類的自動(dòng)識別是對以圖像形式呈現(xiàn)、由不同語言文字構(gòu)成的文本圖像,提取能用于計(jì)算機(jī)識別的底層特征,實(shí)現(xiàn)語言文字種類的識別和分類。在海量信息處理中,作為文本圖像分析的重要組成部分和OCR系統(tǒng)的前端處理技術(shù),文本圖像的語言文字種類識別成為海量信息處理中面臨的一個(gè)基本的研究課題。
目前,針對語言文字種類識別進(jìn)行的研究可以劃分為基于統(tǒng)計(jì)特征、基于符號匹配和基于紋理特征的文種識別3大類?;诮y(tǒng)計(jì)特征和符號匹配的文種識別算法具有較高的識別準(zhǔn)確率,但對文本圖像的傾斜、噪聲等魯棒性比較差。基于紋理特征的文種識別算法提高了對圖像質(zhì)量退化的魯棒性,逐漸成為研究重點(diǎn)。目前的算法主要有基于Gabor濾波器法[1]和基于小波變換法[2]基于灰度級共生矩陣法[3]及基于小波變換的共生矩陣法[3]。Gabor濾波具有旋轉(zhuǎn)不變性,文種識別率較高,但是計(jì)算量很大;小波變換存在快速算法,大大減小了計(jì)算量,但識別率不高。
針對目前文本圖像文種識別方法存在的一些問題,本文提出了一種基于多小波變換的文本圖像文種識別方法。多小波[4-6]是多個(gè)尺度函數(shù)構(gòu)成的小波,既保持了傳統(tǒng)小波良好的時(shí)域與頻域的局部化特性,又將光滑性、緊支性、對稱性、正交性完美地結(jié)合在一起,更適合于提取圖像的紋理特征。本文采用多小波變換提取文本圖像的紋理特征進(jìn)行文種識別,在2個(gè)不同質(zhì)量的圖像庫上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,該算法對多文種的識別非常有效并對圖像質(zhì)量退化具有很強(qiáng)的魯棒性。
所謂多小波是指小波函數(shù)的構(gòu)造是由多個(gè)尺度函數(shù)完成的。為了與多小波相區(qū)別,稱傳統(tǒng)小波為單小波。
令 φ=(φ1,φ2,…,φr)T和 ψ=(ψ1,ψ2,…,ψr)T分別為 r階多小波的多尺度函數(shù)和多小波函數(shù)。類似于單尺度情況,φ和ψ滿足雙尺度方程:
其中,矩陣Hk為低通矩陣濾波器,Gk為高通矩陣濾波器。
多小波的分解和重構(gòu)算法為:
分解過程:
合成過程:
多小波有r個(gè)尺度函數(shù),變換后每個(gè)子帶有r×r個(gè)子圖,而單小波只有一個(gè)尺度函數(shù),變換后的每個(gè)子帶只有一個(gè)子圖。容易證明,L級多小波變換將圖像分解為r2×(3L+1)個(gè)子圖。例如:當(dāng)L=1時(shí),雙小波分解每個(gè)子帶有16個(gè)子圖數(shù),而單小波只有4個(gè)。
多小波與單小波本質(zhì)上是一致的,但多小波變換是采用向量濾波器組來實(shí)現(xiàn)的。為了解決輸入數(shù)據(jù)矢量化問題,首先要對信號進(jìn)行預(yù)處理,即在多小波變換前,采用預(yù)處理方法矢量化初始數(shù)據(jù),使其進(jìn)入塔式算法的輸入變?yōu)閞維數(shù)據(jù)。然后通過r×r的預(yù)濾波器Q(w),獲得用于多小波分解的初始矢量信號Ck(0),再進(jìn)行多小波分解。圖1所示為多小波的分解過程。
圖1 多小波分解過程結(jié)構(gòu)圖Fig.1 Chart of multi-wavelet decomposition process
由于多小波由多個(gè)尺度函數(shù)構(gòu)成,所以多小波函數(shù)的設(shè)計(jì)具有更大的靈活性。這樣構(gòu)造出的多小波既可以保持單小波的時(shí)頻域局部化特性,又能克服單小波的缺陷,可同時(shí)具有正交、對稱、短緊支撐和高階消失矩等優(yōu)良特性。在處理文本圖像中的文字信號時(shí),正交性可保持能量,對稱性既適合于人眼的視覺系統(tǒng),又使信號在邊界易于處理,所以本文采用多小波變換提取文本圖像的紋理特征進(jìn)行文種識別。
一幅圖像 f(m,n),大小為 N×N,其平均能量定義為:
不同的文本圖像有不同的平均能量,進(jìn)行多小波變換之前,對各個(gè)文本圖像的能量進(jìn)行歸一化:
本文選擇2個(gè)尺度函數(shù)構(gòu)成的多小波來對g(m,n)進(jìn)行分解。多小波函數(shù)采用'bigm2'雙正交多重小波,預(yù)處理采用雙正交插值預(yù)濾波方法,對圖像進(jìn)行兩級多小波分解,得到24個(gè)細(xì)節(jié)子圖,4個(gè)逼近子圖。圖2為圖像的兩級多小波分解示意圖。
鑒于文本圖像的文字筆畫在各個(gè)方向、各個(gè)頻率的能量分布存在差異,本文計(jì)算多小波兩級分解得到的24個(gè)細(xì)節(jié)子圖的能量均值和標(biāo)準(zhǔn)差作為特征:
圖2 圖像兩級多小波分解示意圖Fig.2 Schematic diagram of image two levels multi-wavelet decomposition
其中 Wlj,k為細(xì)節(jié)子圖;l=1,2,3,4, 表示每級分解同一個(gè)方向上的 4 個(gè)細(xì)節(jié)子圖;j=1,2,表示分解級數(shù);k=1,2,3,分別代表H,V,D 3個(gè)方向,N為圖像尺寸。
據(jù)式(6)~(8)計(jì)算得到48維多小波能量統(tǒng)計(jì)紋理特征矢量:
對于相似文種的特征,類內(nèi)距離越小,類間距離越大,特征的識別能力越好??梢远x不同種類兩兩之間的類內(nèi)距離和類間距離的差值比例rate作為重疊率,來衡量特征的區(qū)別能力:
式中,RE 表示特征 矢量,n,ni,nj表示不同的種 類 ,k=1,2,…,K 表示樣本的數(shù)量,x=1,2,…,X 表示對應(yīng)的特征值索引。 indisn、outdisni,nj表示類內(nèi)、類間距離。 根據(jù) Bayes準(zhǔn)則,重疊率越小,特征的分類能力越強(qiáng)。
本文建立了包含阿拉伯、緬甸、柬埔寨、中、英、印地、日、韓、俄、藏10種文種的圖像庫,其中中日、英俄、阿拉伯、印地、柬埔寨、藏文在紋理方面相對比較接近,從圖像庫1中抽取中、日、英、俄、阿拉伯、印地、柬埔寨、藏8種文種的圖像各100幅作為實(shí)驗(yàn)圖像檢驗(yàn)多小波能量統(tǒng)計(jì)特征對不同文種的區(qū)別能力。據(jù)式(9)計(jì)算實(shí)驗(yàn)圖像的多小波能量統(tǒng)計(jì)紋理特征矢量。 據(jù)式(10)~(15)計(jì)算中日,英俄,阿拉伯印地,柬埔寨藏之間的重疊率。
作為對比,對曾理等人提出的基于單小波變換的文種識別特征提取方法[3]進(jìn)行了同樣的實(shí)驗(yàn)。采用“Daubechies7”小波對圖像進(jìn)行兩級分解,提取每個(gè)細(xì)節(jié)子圖的能量比例紋理特征,得到6維特征矢量。同樣依式(10)~(15)計(jì)算實(shí)驗(yàn)圖像中不同文種的重疊率rate。實(shí)驗(yàn)結(jié)果如表1所示。
表1 特征的區(qū)別能力比較Tab.1 Comparison of ability to discriminate different features
由表1可見,基于多小波的能量統(tǒng)計(jì)紋理特征對文種的區(qū)別能力要優(yōu)于基于單小波的能量比例紋理特征,對文種識別更有效。
如何尋找不同文種特征間的最優(yōu)分類面是文種識別的關(guān)鍵所在。目前文種識別使用最多的分類工具是SVM[7](Support Vector Machines,支持向量機(jī))。但用于對多維特征向量進(jìn)行多分類時(shí),SVM的參數(shù)優(yōu)化過程變得相當(dāng)復(fù)雜。鑒于此,本實(shí)驗(yàn)采用LIBSVM[8]分類軟件。LIBSVM是由Chih_Chung和Chih_jen Lin開發(fā)的一個(gè)SVM工具,廣泛應(yīng)用于SVM、回歸和分類估計(jì),并且支持多類分類,通過交叉確認(rèn)法可以得到最佳的參數(shù)來提高識別的準(zhǔn)確率。本文選取徑向基函數(shù)(RBF)為核函數(shù)。用LIBSVM隨機(jī)抽取2/3樣本用于訓(xùn)練,余下的1/3用于測試。
首先將圖像進(jìn)行能量歸一化處理,然后進(jìn)行多小波分解,提取能量統(tǒng)計(jì)紋理特征,建立紋理特征庫。通過LIBSVM軟件從庫中隨機(jī)抽取樣本進(jìn)行訓(xùn)練,得到SVM的最優(yōu)參數(shù),用此參數(shù)對測試樣本進(jìn)行識別。圖3為本文提出算法的文種識別流程圖。
圖3 文種識別流程圖Fig.3 Flow chart of the script identification
圖像庫1中文本圖像是從雜志和書籍上掃描得到的,在采集過程中出現(xiàn)了輕微的噪聲、筆畫斷裂等質(zhì)量退化現(xiàn)象。圖像庫2對圖像庫1中的圖像做了±1~±5°之間不等角度的傾斜,所包含的文本行為3~8行不等。2個(gè)圖像庫均包含阿拉伯、緬甸、柬埔寨、中、英、印地、日、韓、俄、藏10種文種圖像各300幅。圖像大小為128×128像素,8位灰度圖像。圖4、圖5所示為圖像庫1、2中的部分文本圖像。
圖4 圖像庫1中的部分文本圖像Fig.4 Part of document images in the image database No.1
圖5 圖像庫2中的部分文本圖像Fig.5 Part of document images in the image database No.2
為了驗(yàn)證算法對不同樣本的適應(yīng)能力,對每個(gè)圖像庫各進(jìn)行了5次實(shí)驗(yàn)。實(shí)驗(yàn)時(shí)用LIBSVM從圖像庫中每種文種隨機(jī)抽取200幅用于訓(xùn)練,余下的100幅用于測試。
為了驗(yàn)證算法的有效性,同時(shí)對曾理等人提出的基于單小波變換的文種識別方法[3]進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)參數(shù)在本文2.2節(jié)給出。
在Intel 1.8 GHz和1 G內(nèi)存的Windows XP Professional微機(jī)環(huán)境下,用MallabR2006a為實(shí)驗(yàn)平臺(tái)進(jìn)行實(shí)驗(yàn)。
表2中表示的是每種算法的特征提取時(shí)間,其中T指代時(shí)間。表3中表示的10種文種的識別結(jié)果以及平均識別率。取5次實(shí)驗(yàn)結(jié)果的平均值:
表2 特征提取速度比較Tab.2 Comparision of the feature extraction efficiency
表3 識別結(jié)果(%)Tab.3 Result of recognization(%)
由表2、表3所示的實(shí)驗(yàn)結(jié)果可以看出,多小波變換在計(jì)算速度上要低于單小波變換。但對多文種的圖像庫,基于多小波變換的文種識別算法具有很高的識別準(zhǔn)確率,對質(zhì)量較好的文本圖像幾乎可以進(jìn)行精確的文種識別,性能遠(yuǎn)遠(yuǎn)優(yōu)于單小波特征提取方法。在圖像質(zhì)量較差、單小波識別率迅速下降的情況下,本文算法仍具有較高的識別準(zhǔn)確率。
本文在對文本圖像紋理特征進(jìn)行深入分析的基礎(chǔ)上,針對文本圖像紋理特征具有很強(qiáng)的方向性及以文字行為周期的準(zhǔn)周期性,采用多小波變換來提取文本圖像的紋理特征進(jìn)行文種識別,在對包含10種文種、圖像質(zhì)量退化程度不同的圖像庫上進(jìn)行實(shí)驗(yàn)時(shí),識別精度均很高。相對于單小波變換而言,多小波變換同時(shí)具有正交、對稱、短緊支撐和高階消失矩等優(yōu)良特性,在提取圖像紋理特征進(jìn)行文種識別方面更為有效,對噪聲、筆畫斷裂等質(zhì)量退化現(xiàn)象有很強(qiáng)的魯棒性。
[1]TAN T.Rotation invariant texture features and their use in automatic script identification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(7):751-756.
[2]曾理,唐遠(yuǎn)炎,陳廷槐.基于多尺度小波紋理分析的文字種類自動(dòng)識別[J].計(jì)算機(jī)學(xué)報(bào),2000,23(7):699-704.
ZENG Li, TANG Yuan-yan, CHEN Ting-huai.Multi-scale wavelet texture-based script identification method[J].Chinese Journal of Computers,2000,23(7):699-704.
[3]Busch A,Boles W W,Sridharan S.Texture for script identification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(11):1720-1732.
[4]StrelaV.Multi-wavelets:theoryandapplications[D].Cambridge:Mass Inst Technic,1996.
[5]Strela V,Tan H H,Tham J Y.Symmetric-anti-symmetric orthogonal multi-wavelets and related scalar wavelets[J].Journal of Applied and Computational Harmonic Analysis,2008(8):258-279.
[6]Xia X G, Geronimo J S, Hardin D P, et a1.Design of pre-filters for discrete multi-wavelet transform[J].IEEE Transaction Signal Processing,1996,44(1):25-35.
[7]Vapnik V.The nature of statistical learning theory[M].New York:Springer-Verlag,1995.
[8]Chang C C, Lin C J.LIBSVM:a library for support vector machines[EB/OL]. (2011).http://www.csie.ntu.edu.tw/~cjlin /libsvm.