李敏強,哈力旦·阿布都熱依木,閆 軻
(新疆大學 電氣工程學院,新疆 烏魯木齊 830047)
?
一種改進型局部二值模式的維吾爾文定位算法
李敏強,哈力旦·阿布都熱依木,閆 軻
(新疆大學 電氣工程學院,新疆 烏魯木齊 830047)
針對自然場景中復雜的背景紋理對文本區(qū)域檢測的干擾,提出了一種改進型局部二值模式(ULBP)提取算法,用于維吾爾文文本特征提取,并用獲得的特征向量對候選維吾爾文本區(qū)域進行分類。本算法首先利用同質化映射來構建圖像的同質化空間;然后,在同質化空間利用角點檢測快速獲取候選文本區(qū)域;最后,在候選文本區(qū)域里提取ULBP特征,把這些特征導入訓練后的支持向量機(SVM)即可獲得精確的文本區(qū)域。實驗結果表明:ULBP特征對維吾爾文本區(qū)域具有較高的區(qū)分度,且能使誤檢率降低到8.3%,魯棒性較強。
維吾爾文文本定位;自然場景;改進型局部二值模式;支持向量機
自然場景圖像中的文字包含了很多重要的語義信息。由于文字的字體、大小、方向、位置的千變萬化,背景紋理豐富,顏色復雜,受獲取條件限制或被其他物體遮擋等因素,給文本檢測帶來了極大的困難。
目前,文本區(qū)域的定位提取算法大致分為基于邊緣、連通區(qū)和紋理等定位算法[1-3]。這些方法在對中、英字符的處理中都取得了一定的成果,但不同于中、英文字符,維吾爾文由32個字母組成,并且有120多個字符形式,其多變、復雜的結構使得對自然場景中維吾爾文本的定位更具有挑戰(zhàn)性。
目前,對自然場景中維吾爾文本定位的研究處于起步階段。文獻[4]提出利用RGB彩色邊緣紋理特征對視頻圖像中的維吾爾文進行處理,但其并未考慮維吾爾文獨特的紋理特征,導致背景紋理和文本紋理區(qū)分度不高,檢測效果不太理想。文獻[5]提出的方法對自然場景中背景復雜的圖像魯棒性較差。文獻[6]提出利用小波特征進行定位,由于其并未考慮鄰域點信息,導致誤檢率較高。文獻[7]用到了基線特征,但其只適合于水平文字定位,對傾斜的文字檢測、定位效果不佳,魯棒性較差。
本文先通過同質化映射來增強文本區(qū)域紋理。然后,充分結合維吾爾文獨特的結構特征提出了一種改進型局部二值模式特征,即ULBP,將其用于候選文字區(qū)域的分類確認。該方法不僅考慮了文本區(qū)域的局部特殊性,還充分結合維吾爾文結構特征加強了背景紋理和文本區(qū)域紋理的區(qū)分度。
1.1 局部二值模式特征
局部二值模式(LBP)算子[8]是一種無參數(shù)的操作符,其具有灰度單調和旋轉不變性,是圖像局部特征的有效表征。局部二值模式(LBP)算子的計算公式如下:
(1)
其中:ic表示窗口中心像素(xc,yc)的灰度值;in是以(xc,yc)為中心,半徑為R的P個等間隔分布的鄰域像素灰度值,當鄰域值不能準確落入像素中心時,采用雙線性插值方法進行估計相鄰像素的灰度值。函數(shù)s(x)定義如下:
(2)
對于一個(P,R)=(8,1)鄰域模板,LBP的編碼過程計算如圖1所示。
圖1 局部二值模式計算過程
1.2 ULBP特征
盡管傳統(tǒng)的LBP特征在字符紋理分類上取得了不錯的效果,但仍存在如下問題:
(Ⅰ)文本檢測中把上下顛倒的文本區(qū)域和正常文本區(qū)域歸為一類文本,但依據(jù)LBP特征會將其誤判為兩種不同的文本(其LBP直方圖是兩種不同的形式)。
(Ⅱ)無法有效區(qū)分鄰域灰度值與中心灰度值相等和鄰域灰度值遠大于中心灰度值時鄰域像素點的區(qū)別。
為了解決上述問題,已經有學者提出了拓展局部二進制模式(eLBP)[9]、多級eLBP[10]等改進方法,很好地描述了漢字邊緣,但對于維吾爾文字卻不太適用。維吾爾文字有著自身獨特的結構特點,其主要特點[11-13]如下:
(Ⅰ)維吾爾文的結構分為主體部分和附加部分,有些字母有主體和多個附加部分,另外一些則無附加部分。
(Ⅱ)附加部分分布于主體下部、上部或者中間,且不同的附加部分會構成不同字母。
(Ⅲ)有些字母的附加部分一樣,主體部分不一樣就形成不同的字母。圖2給出了部分維吾爾文字母的獨立形式。
(Ⅳ)維吾爾文的書寫遵循從右到左的方向,對于多行的維吾爾文文檔遵循從上到下的行列方向,且其在結構語法上屬于黏著語類型,圖3給出幾個維吾爾文字及其對應的漢字。
圖2 維吾爾文字母單立式圖3 維吾爾文字及其對應的漢字
通過以上對維吾爾文字結構的分析,發(fā)現(xiàn)維吾爾文字是基于基線上下兩側分布,且其結構近似對稱,其結構圖見圖4。
圖4 維吾爾文字結構圖
因此,本文基于維吾爾文上述特點提出一種改進LBP(即ULBP),以準確地描述維吾爾文文本邊緣區(qū)域。
ULBP算子在權重因子(2n)排布上充分考慮了維吾爾文字基于基線上下近似對稱的結構特征,使權重因子的分布也呈現(xiàn)出基于基線對稱的分布特點,如圖5中矩形框內方框和圓圈標記的權值對稱分布。另外,根據(jù)維吾爾文字符筆畫分布集中于基線上下兩側的特性,其在計算ULBP過程中將鄰域像素分為基線上側方向一類和基線下側方向一類,如圖5中方框和圓圈的兩類標記。因此,把LBP值分為基線上側和下側兩類,即上側邊緣局部二值模式ULBPup算子和下側邊緣局部二值模式ULBPdown算子。當窗口設置為3行×3列,其計算公式如下:
(3)
(4)
(5)
圖5 ULBPup算子和ULBPdown算子計算過程
基于ULBPup算子和ULBPdown算子可以得到兩個局部二值模式的直方圖,且它們分別具有24=16個bin的兩個直方圖,這樣進行特征提取時,特征維數(shù)將遠遠小于256維,明顯降低了維數(shù)。并且根據(jù)維吾爾文字自身特點,使其權值分布基于基線上下兩側對稱,更能突出維吾爾文本區(qū)域邊緣的紋理,從而提高維吾爾文文本區(qū)域與非文本區(qū)域的區(qū)分度,相比于傳統(tǒng)LBP算子,具有更高的精度和效率。
2.1 同質化文本區(qū)域增強
同質性反映圖像中區(qū)域的均勻程度,是一種重要的圖像局部信息,其在圖像分割中扮演重要角色。圖像中的文本區(qū)域具有內部基本均勻且性質相似(高頻性和不連續(xù)性)的特性,為了減少復雜背景中文本與背景紋理相似造成的檢測錯誤,可以在同質性空間中進行文本檢測。文獻[14]將同質性定義為標準方差和強度不連續(xù)性的組合。標準方差體現(xiàn)了一個局部區(qū)域內的變化程度,強度的不連續(xù)性則體現(xiàn)區(qū)域內灰度級突變的程度。根據(jù)模糊邏輯理論,可以將標準方差理解為紋理信息,將強度不連續(xù)性理解為邊緣信息。
令W(x,y)、E(x,y)分別為像素點(x,y)的紋理信息和邊緣信息,定義一點(x,y)的同質性T(x,y)如下:
T(x,y)=[I-(I-W(x,y))(I-E(x,y))]g(x,y),
(6)
其中:W(x,y)和E(x,y)的元素均屬于區(qū)間[0,1];g(x,y)為原圖像中位置(x,y)的特征值;I為單位向量。紋理信息和邊緣信息的計算方法采用文獻[14]介紹的方法,通過求出原始圖像中每一個像素點的同質性值T(x,y),就可以把原始圖像映射到同質性空間。
2.2 基于角點粗檢測
Harris角點檢測算子[15]作為一種經典的提取算子,能有效降低灰度波動、視點變化、噪聲干擾等極端條件對角點檢測的干擾。
在對圖像進行角點檢測后,通過單閾值方法檢測候選文本區(qū)域,其公式描述如下:
(7)
其中:Nc為大小為M×N窗口中的角點數(shù);Tc為設定的檢測窗口內角點個數(shù)的閾值。由于自然場景中字體大小的多變性,本文比較了不同檢測窗口大小和不同閾值的文本檢測效果。根據(jù)實驗效果選取M=20,N=20作為檢測窗口大小,閾值Tc為2時,能在最大限度保留文本區(qū)域的基礎上去除大部分的背景區(qū)域。
2.3 ULBP特征的提取
針對經過粗檢測后的候選文本區(qū)域,利用ULBP算子,提取其鄰域模板P、R分別為(8,1)、(8,2)、(8,3)、(8,4)的上側邊緣局部二值模式ULBPup算子和下側邊緣局部二值模式ULBPdown算子。然后分別計算兩種算子的直方圖,得到8個分別具有16個bin的直方圖,提取直方圖每個bin的值,獲得128維的特征。
2.4 文本區(qū)域的確定
支持向量機(SVM)是建立在統(tǒng)計學習理論的VC維理論和結構風險最小原理基礎上的,其對非線性、小樣本、高維度的分類問題,表現(xiàn)出了極高的分類效率,因此,在文本區(qū)域檢測領域得到了廣泛的應用。本文采用SVM作為分類器,對候選文本框進行確認。本文采用738個文本塊作為正樣本(如圖6a所示)和1 466塊背景區(qū)域作為負樣本(如圖6b所示)對SVM進行訓練。
圖6 訓練樣本
使用大小為16行與16列的滑動窗口,對經過粗檢測獲得的文字區(qū)域圖像進行固定步長為8的掃描。對每個窗口進行4級2個方向的邊界局部二值模式算子計算,然后計算直方圖,提取128 維的紋理特征向量。用訓練好的分類器對其進行分類,按分類結果進行標記,將文本塊內的像素值置為1,將非文本塊內像素值置為0。
目前,國內并沒有統(tǒng)一的關于維吾爾文本分析的標準數(shù)據(jù)庫,本實驗采用的數(shù)據(jù)庫為本實驗室自建的、自然場景下手機或者數(shù)碼相機拍攝的700張含有維吾爾文的圖片,其涵蓋了各種應用場景,并且包含自然場景出現(xiàn)的光照不均、文字排序各異、背景復雜等極端情況。本實驗是在Intel(R) core(TM) 2 Duo CPU主頻為2.20 GHz、內存為2.00 GB、操作系統(tǒng)為Windows 7、仿真軟件為Matlab R2009a的計算機運行。
3.1 ULBP特征有效性測試
表1 不同特征的樣本分類結果比較
本文分別采用eLBP特征[10]、灰度共生矩陣特征[16]、小波矩特征[17]與ULBP特征比較。實驗中采用訓練過的SVM分類器,對標記過的測試樣本進行分類,統(tǒng)計SVM分類準確率,其維吾爾文文本區(qū)域的分類結果如表1所示。
通過表1可以看出:由于ULBP特征充分考慮了維吾爾文自身的結構特征,使其文本區(qū)域紋理和背景區(qū)域紋理有了較高的區(qū)分度。
3.2 不同算法比較與文本定位結果展示
文獻[10]提出的eLBP特征與本文的算法思路相似,因此具有一定的可比性,所以將本算法與其相比較。以本實驗室所收集到的自然場景維吾爾文圖片為實驗對象,以正確檢測率和誤檢率及平均運行時間為主要的性能指標,其結果如表2所示。
正確檢測率和誤檢率計算如式(8):
(8)
其中:Nr為正確檢測率;Nw為誤檢率;r為正確檢測出的文本區(qū)域個數(shù);w為檢測出的錯誤的文本區(qū)域個數(shù);N為文本區(qū)域的總個數(shù)。
表2 定位算法的比較
由表2可以看出:針對維吾爾文的處理,本算法明顯優(yōu)于文獻[10]的算法,這是由于文獻[10]以eLBP為特征進行處理,并未考慮維吾爾文獨特的結構特征,所以直接應用時對以維吾爾文為文本區(qū)域的圖片處理時就有一定的局限性。在算法運行時間上,以上兩種特征提取過程相差不大,因此算法平均運行時間大致相當。相較于上述算法,本算法以維吾爾文獨特的結構特征為基礎,對LBP特征進行改進,極大地提高了維吾爾文文本紋理與背景紋理的區(qū)分度,且通過粗檢測和二次檢測,提高算法的效率和精度,經過驗證效果良好。
圖7 自然場景圖片維吾爾文字定位
本文選取3張比較有代表性(光照不均勻、文本排列不規(guī)則、背景復雜)的場景圖像,其實驗結果如圖7所示。通過圖7a可以看出:該算法能很好地處理光照不均勻的情況。圖7b表明本算法能有效處理文字排序混亂的情況。圖7c證明了該算法對光照不均勻的處理效果。因此,該算法具有較強的魯棒性。這主要是由于粗檢測以角點為基礎,角點對灰度變化、噪聲影響、視點變化有較強的適應性,所以在面對光照強弱不均勻、文字排列不整齊的情況,能有效地保留文本區(qū)域,使其文本區(qū)域誤檢率降到8.3%。二次檢測中通過ULBP檢測這種維吾爾文獨特的紋理特征,其正確檢測率達到了94.6%,能把文字區(qū)域精確地從復雜背景中區(qū)分出來。
本文提出一種基于ULBP特征的自然場景中維吾爾文本區(qū)域定位算法。該算法以維吾爾文獨特的結構特征(基線為對稱線且上下兩側呈現(xiàn)近似對稱)為基礎,對LBP進行改進,得到ULBP這種全新的局部紋理特征,極大地提高了背景紋理與文本區(qū)域紋理的區(qū)分度。并且通過角點檢測確定候選文本區(qū)域,利用ULBP特征對其二次檢測,極大地降低了文本區(qū)域的誤檢率,提高了算法的精度和效率。通過實驗測試,本文算法對光照不均勻、文字排序混亂、背景復雜的各種場景圖像均取得了較好效果,相比于其他紋理特征對維吾爾文的處理效果,本文提出的紋理特征表現(xiàn)出了極大的優(yōu)越性。
[1] Lyu M R,Song J,Cai M.A Comprehensive Method for Multilingual Video Text Detection,Localization,and Extraction[J].IEEE Transactions on Circuits and Systems for Video Technology,2005,15(2):243-255.
[2]Shivakumara P,Phan T Q,Tan C L.A Laplacian Approach to Multi-oriented Text Detection in Video[J].IEEE Transactions on Software Engineering,2011,33(2):412-419.
[3] 馬磊,劉江.基于紋理譜描述子的文檔圖像檢索算法[J].計算機應用,2010,30(11):2980-2982.
[4] 李凱,艾斯卡爾·艾木都拉.基于邊緣和基線的維吾爾文圖像文字定位算法[J].計算機工程與應用,2014,50(10):203-207.
[5] 鄧任任,哈力旦.維吾爾文字自適應角度定位[J].計算機工程與設計,2013,34(3):1121-1125.
[6] 哈力旦·A,庫爾班·買提木沙.基于小波變換的圖像中維吾爾文字定位[J].計算機工程,2011,37(8):197-198.
[7] 圖爾洪江,方向忠.基于筆畫濾波的維吾爾文視頻文字定位算法[J].信息技術,2011(4):69-72.
[8] Anthimopoulos M,Gatos B,Pratikakis L.A Hybrid System for Text Detection in Video Frames[C]//Document Analysis Systems.DAS’08.The 8th IAPR International Workshop on IEEE.2008:286-292.
[9] Ojala T,Pietik?inen M,Harwood D.A Comparative Study of Texture Measures With Classification Based on Featured Distributions[J].Pattern Recognition,1996,29(1):51-59.
[10] Anthimopoulos M,Gatos B,Pratikakis I.A Two-stage Scheme for Text Detection in Video Images[J].Image and Vision Computing,2010,28(9):1413-1426.
[11] 阿地力·依米提,劉吉超,王靜.彩色背景圖像中維吾爾文字定位的研究[J].新疆師范大學學報:自然科學版,2012(4):42-45.
[12] 劉虎.脫機手寫體阿拉伯字符識別關鍵技術研究[D].武漢:武漢理工大學,2011.
[13] 阿力木江·亞森,哈力木拉提·買買提.維吾爾文聯(lián)機手寫識別預處理和特征提取[J].新疆大學學報:自然科學版,2010,27(2):232-241.
[14] 黃劍華,承恒達,吳銳,等.基于模糊同質性映射的文本檢測方法[J].電子與信息學報,2008,30(6):1376-1380.
[15] 趙萬金,龔聲蓉,劉純平,等.一種自適應的Harris角點檢測算法[J].計算機工程,2008,34(10):212-214.
[16] 苑麗紅,付麗,楊勇,等.灰度共生矩陣提取紋理特征的實驗結果分析[J].計算機應用,2009,29(4):1018-1021.
[17] 王建宇,張峰,周獻中,等.利用小波變換和 K均值聚類實現(xiàn)字幕區(qū)域分割[J].計算機輔助設計與圖形學學報,2006,18(10):1508-1512.
國家自然科學基金項目(61163026)
李敏強(1988-),男,河南駐馬店人,碩士生;哈力旦·阿布都熱依木(1959-),女,維吾爾族,新疆烏魯木齊人,教授,碩士生導師,主要研究領域為圖像處理和模式識別.
2014-09-15
1672-6871(2015)03-0043-05
TP391
A