艾合麥提江·麥提托合提,艾斯卡爾·艾木都拉,阿布都薩拉木·達(dá)吾提
1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046
2.新疆大學(xué) 軟件學(xué)院,烏魯木齊 830046
近幾年,隨著各種多媒體技術(shù)以及互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,各類圖像的數(shù)量大幅增加。圖像中不僅包含豐富的色彩、形狀、圖案等物體視覺信息,還可能包含大量豐富而精確的文本信息,準(zhǔn)確有效地提取這些文本信息對(duì)基于內(nèi)容的圖像檢索、圖像自動(dòng)分類、人機(jī)交互和工業(yè)自動(dòng)化等應(yīng)用具有重要價(jià)值,因此從圖像中自動(dòng)提取文本信息已成為模式識(shí)別領(lǐng)域研究的熱點(diǎn)[1]。
圖像中的文本根據(jù)其形成方式可以劃分為兩類,場(chǎng)景文本和圖像文本。場(chǎng)景文本是指文本作為固有的自然場(chǎng)景內(nèi)容隨機(jī)地存在于圖像中,比如廣告牌、道路指示牌、商品名稱等;而圖像文本則是指有目的地加入圖像以便于對(duì)視覺內(nèi)容進(jìn)行補(bǔ)充的文本,例如電影海報(bào)、互聯(lián)網(wǎng)廣告圖像等。通常從圖像中提取文本都需要精確定位包含文本的圖像區(qū)域,然后從定位區(qū)域把文本提取出來(lái),為進(jìn)一步的文本識(shí)別做好準(zhǔn)備,因此圖像中文本區(qū)域的定位是文本提取和識(shí)別的基礎(chǔ)和核心工作。然而,圖像本身以及圖像中的文本具有多變性,圖像中的文本種類比較多,方向任意排列,文本行的組成方式、大小以及長(zhǎng)寬比也不確定,圖像中文本與背景也有一定的相似性,這些因素增加了圖像中文本區(qū)域定位的難度。為了準(zhǔn)確有效地定位到文本區(qū)域,許多學(xué)者提出了很多相應(yīng)的文本區(qū)域定位方法,主要分為基于連通域分析的方法、基于滑動(dòng)檢測(cè)窗口的方法和基于深度學(xué)習(xí)的方法[2]。
基于連通域分析的方法主要通過(guò)分析圖像中的像素點(diǎn)在空間結(jié)構(gòu)上的特征,以及對(duì)特征相似的像素點(diǎn)進(jìn)行特定處理來(lái)構(gòu)造連通域,以便獲取文本候選區(qū)域。最為代表性的基于連通域分析的方法主要包括:筆畫寬度變換(Stroke Width Transform,SWT)方法[3]、最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Region,MSER)方法[4-11]以及基于SWT 和MSER 結(jié)合的方法[12]?;赟WT 的方法首先獲取圖像的邊緣,然后計(jì)算像素點(diǎn)到最近邊緣的垂直距離作為筆畫寬度的值,再根據(jù)像素點(diǎn)筆畫寬度的值構(gòu)造連通區(qū)域?;赟WT的方法可以提取不同尺度和方向的文本候選區(qū)域,然而該方法在圖像邊緣檢測(cè)不準(zhǔn)確并且背景復(fù)雜的情況下魯棒性較差?;贛SER的方法根據(jù)分水嶺概念,通過(guò)設(shè)定不同的閾值對(duì)圖像進(jìn)行二值化,隨著閾值的變化有些連通區(qū)域變化比較小,此類連通區(qū)域就定義為最大穩(wěn)定極值區(qū)域(MSER),并將這些連通區(qū)域作為文字候選區(qū)。無(wú)論是英文、數(shù)字還是其他文本,MSER 檢測(cè)算法都能快速有效地從圖像中提取出文本候選區(qū)域,具有很強(qiáng)的魯棒性和實(shí)用性,因此ICDAR 大賽組委會(huì)將MSER 列為最有希望的文本定位基礎(chǔ)算法[10]。
圖像中文本的語(yǔ)言種類通常較多,甚至?xí)由弦恍?shù)字,并且每一種文本包含了不同規(guī)模的文本類型,然而不同文本或者相同文本的不同文本類型之間具有很大的視覺特征差異。本文主要研究以維吾爾文本為主的文本圖像。維吾爾文本包括了主體部分和附加部分兩個(gè)層次,如圖1所示。主體部分是字母和詞匯書寫時(shí)不間斷地一次寫成的部分,屬于一個(gè)連通域;附加部分是一個(gè)字母和詞匯的次要但又不能省略的部分,即使附加部分與主體部分不連通,但間距比較近;維吾爾文本主要以詞匯為基本單元,每個(gè)詞匯包含主體部分和附加部分,詞匯大小不一致,詞匯之間存在較小的詞間間距,而詞內(nèi)存在更小的詞內(nèi)間距;維吾爾文本存在一條基線,同一行字體大小一致的詞匯都在基線上分布,高度基本一致,間距大小基本一樣,這些特點(diǎn)為維吾爾文本區(qū)域定位提供了思路。
圖1 圖像文本的特點(diǎn)
為了在背景復(fù)雜、文本變化不一致的圖像中有效地獲取維吾爾文本候選區(qū)域,宋云、謝洪濤等[7]采用增強(qiáng)MSER和基于HoG(Histogram of Oriented Gradient)特征的SVM(Support Vector Machine)分類方法定位維吾爾文本區(qū)域。該方法可以獲取比較全面的文本候選區(qū)域,但是對(duì)維吾爾文本的提取效果不太理想,而且基于HoG 特征的SVM 分類方法去除非文本區(qū)域效果不佳,但該文獻(xiàn)提出的遺失文本區(qū)域召回方法提高了文本區(qū)域定位的召回率。文獻(xiàn)[10]提出基于MSER和卷積神經(jīng)網(wǎng)絡(luò)的自然場(chǎng)景文本定位方法,首先在R、G、B 通道下進(jìn)行光線補(bǔ)償,緊接著在三個(gè)通道下提取MSER連通區(qū)域作為字符候選區(qū)域,采用更加嚴(yán)格的篩選方法和基于CNN(Convolutional Neural Network)過(guò)濾的方法比較準(zhǔn)確地去除偽字符區(qū)域,該方法在文本定位準(zhǔn)確率上有了很大的提高,但是沒有對(duì)遺失的文本區(qū)域進(jìn)行召回,導(dǎo)致召回率不高。本文借鑒文獻(xiàn)[10]中單通道上進(jìn)行光線補(bǔ)償?shù)乃悸?,在單通道圖像進(jìn)行膨脹操作來(lái)增加文本區(qū)域的連通性,這樣可以獲取更完整有效的文本候選區(qū)域,去除非文本區(qū)域時(shí)采用分類效果更好的CNN 網(wǎng)絡(luò),同時(shí)提出詞級(jí)別文本區(qū)域的概念以及形成算法,然后根據(jù)文獻(xiàn)[7]中的遺失文本區(qū)域召回方法規(guī)定了本文的遺失文本區(qū)域召回方法。
本文的主要貢獻(xiàn)是研究如何有效地定位圖像中的維吾爾文本區(qū)域,根據(jù)上述對(duì)維吾爾文本特點(diǎn)的分析提出一種基于通道增強(qiáng)MSER和CNN網(wǎng)絡(luò)相結(jié)合的圖像文本區(qū)域定位方法。本文定位方法準(zhǔn)確度高,綜合性能較好,為構(gòu)建基于內(nèi)容的文本圖像檢索和自動(dòng)分類系統(tǒng)提供了理論基礎(chǔ)。
本文方法應(yīng)用通道增強(qiáng)MSER和CNN網(wǎng)絡(luò)完成圖像中維吾爾文本區(qū)域的定位任務(wù),算法流程框架如圖2所示。首先利用通道增強(qiáng)MSER 檢測(cè)方法提取大量的候選區(qū)域,根據(jù)圖像文本特點(diǎn)設(shè)計(jì)的啟發(fā)式規(guī)則過(guò)濾大量的重復(fù)區(qū)域和非文本區(qū)域;利用CNN 網(wǎng)絡(luò)對(duì)候選區(qū)域進(jìn)行分類并保留文本區(qū)域,通過(guò)區(qū)域融合算法得到詞級(jí)別文本區(qū)域。根據(jù)詞級(jí)別文本區(qū)域的色彩相近程度和空間關(guān)系進(jìn)行左右尋找,召回滿足條件的遺漏文本區(qū)域,再利用CNN網(wǎng)絡(luò)進(jìn)行分類,將預(yù)測(cè)為文本的召回區(qū)域融合到詞級(jí)別的文本區(qū)域中;根據(jù)文本區(qū)域空間特征進(jìn)行鏈接,定位出最終的圖像文本區(qū)域。
圖2 文本區(qū)域定位算法框架圖
針對(duì)文本候選區(qū)域的建立而言,最難解決的問(wèn)題是在背景復(fù)雜、文本變化不一致的圖像中有效地提取到文本并建立文本候選區(qū)域。為了獲取有效完整的文本候選區(qū)域,避免文本區(qū)域漏檢現(xiàn)象發(fā)生,本文采用通道增強(qiáng)MSER算法提取文本候選區(qū)域。
最大穩(wěn)定極值區(qū)域(MSER)是在灰度圖像下進(jìn)行計(jì)算。首先設(shè)定一個(gè)閾值,然后將灰度圖像每個(gè)像素值跟閾值比較,如果該像素值大于閾值,則將此像素值設(shè)置為1,反之,將此像素值設(shè)置為0。這樣就會(huì)出現(xiàn)一系列的連通區(qū)域,隨著亮度閾值的不斷調(diào)整,區(qū)域面積也跟著增加或者減小,兩個(gè)不同閾值間的區(qū)域變化不超過(guò)一定閾值就被認(rèn)為是穩(wěn)定極值區(qū)域。根據(jù)Matas 等人的研究[4],其數(shù)學(xué)定義如下:
其中,pi表示灰度閾值為i時(shí)的某一極值區(qū)域,Δ為灰度閾值的微小變化量,qi為當(dāng)閾值為i時(shí)極值區(qū)域pi的變化率,在i處取得局部極小值時(shí),則極值區(qū)域pi為MSER區(qū)域。原始的MSER檢測(cè)算法運(yùn)行速度較慢,因此Nister 等[13]對(duì)該算法進(jìn)行了優(yōu)化,大大提高了運(yùn)行速度。本文算法借助于OpenCV 提供的MSER 檢測(cè)算子。OpenCV中MSER檢測(cè)算子不是利用式(1)計(jì)算,而是利用更易于實(shí)現(xiàn)的式(2)進(jìn)行優(yōu)化。
本文在獲取候選區(qū)域的時(shí)候采取通道增強(qiáng)的MSER檢測(cè)算法,算法流程如圖3所示。首先對(duì)輸入圖像的大小進(jìn)行動(dòng)態(tài)調(diào)整,減少圖像太大而消耗較多的檢測(cè)時(shí)間,以及圖像太小而遺漏文本候選區(qū)域。然后對(duì)輸入圖像進(jìn)行通道分離,并分別在R、G、B 三個(gè)通道下對(duì)單通道圖像進(jìn)行膨脹操作,使得圖像中維吾爾文本的附加部分盡可能地加入到主體部分形成一個(gè)連通域。通常MSER算法用于檢測(cè)灰度圖像,但將彩色圖像轉(zhuǎn)換為灰度圖像時(shí),前景與背景的對(duì)比度變?nèi)?。一般?lái)說(shuō),許多前景在單個(gè)R、G 和B 通道中比在灰度圖像中有更明顯的對(duì)比度。為了在彩色圖像中盡可能多地保留原始信息和提取文本候選區(qū)域,本文分別在增強(qiáng)處理后的R、G、B三個(gè)通道上進(jìn)行MSER區(qū)域檢測(cè),合并三個(gè)通道下提取的MSER區(qū)域作為最后的候選區(qū)域,然后將所有候選區(qū)域在原始彩色圖像中以最小矩形的形式框出來(lái),如實(shí)驗(yàn)部分的圖11所示。幾乎所有的文本候選區(qū)域都可以用通道增強(qiáng)的MSER算法提取出來(lái),候選區(qū)域提取結(jié)果如圖4(a)所示。
圖3 通道增強(qiáng)MSER檢測(cè)算法提取候選區(qū)域流程圖
圖4 部分算法結(jié)果
通過(guò)通道增強(qiáng)MSER 檢測(cè)算法能夠提取出大量的候選區(qū)域,并在原圖像上以矩形框標(biāo)定,但其中包括大量的重復(fù)區(qū)域和非文本區(qū)域。根據(jù)圖像中維吾爾文的文本特征,通過(guò)設(shè)定一些簡(jiǎn)單的啟發(fā)式規(guī)則可以過(guò)濾明顯的重復(fù)區(qū)域和非文本區(qū)域。本文首先根據(jù)標(biāo)定矩形框的位置關(guān)系去除大量完全重復(fù)的區(qū)域,然后通過(guò)計(jì)算標(biāo)定矩形框的面積來(lái)去除過(guò)大和過(guò)小的區(qū)域。在一幅圖像中文本區(qū)域的尺寸有一定的范圍,本文用矩形框標(biāo)定區(qū)域的面積來(lái)表示文本區(qū)域的尺寸。根據(jù)圖像中維吾爾文本的空間特征以及維吾爾詞匯的大小,將面積小于80的區(qū)域作為過(guò)小區(qū)域,并將面積大于8 000的區(qū)域作為過(guò)大區(qū)域,同時(shí)計(jì)算標(biāo)定區(qū)域的縱橫比,根據(jù)維吾爾文本區(qū)域特征分析限定其范圍[0.1,5.0],然后根據(jù)區(qū)域面積的大小和縱橫比刪除明顯的非文本區(qū)域。
通過(guò)上面的步驟可以去除大量的重復(fù)區(qū)域和非文本區(qū)域,但仍有一些大面積重疊的區(qū)域,如何有效地去除這些重疊區(qū)域并盡可能地保留文本區(qū)域也很重要。因此,定義區(qū)域重疊率r如下:
其中,r(a,b)表示兩個(gè)區(qū)域的重疊率,area(a)、area(b)表示兩個(gè)區(qū)域的面積。根據(jù)圖像文本的空間特征規(guī)定當(dāng)重疊率r(a)大于等于0.8時(shí),去除面積小的區(qū)域,保留面積大的區(qū)域。啟發(fā)式規(guī)則去除重復(fù)區(qū)域和非文本區(qū)域結(jié)果如圖4(b)所示。
雖然啟發(fā)式規(guī)則去除了大量的重復(fù)區(qū)域和非文本區(qū)域,但仍需進(jìn)一步判定候選區(qū)域是否為文本區(qū)域。對(duì)于一般的分類器而言,往往需要人工設(shè)計(jì)特征,但這消耗大量的時(shí)間,而且特征提取不當(dāng),其分類結(jié)果也會(huì)不太理想。近年來(lái),深度學(xué)習(xí)在模式識(shí)別問(wèn)題上取得了巨大成功,它通過(guò)對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí)以自動(dòng)地獲取描述特征的方式,而不需要先進(jìn)行人工特征提取,因而避免了繁瑣低效的人工特征提取工程[14]。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種用于特征提取以及分類的自動(dòng)機(jī)器學(xué)習(xí)模型。CNN 網(wǎng)絡(luò)包括卷積層、池化層、全連接層、激活函數(shù)和評(píng)估函數(shù)[15]。卷積層的作用是提取圖像的各種特征;池化層的作用是對(duì)原始特征信息進(jìn)行抽象,從而大幅度減少訓(xùn)練參數(shù),另外還可以減輕模型過(guò)擬合的程度;卷積神經(jīng)網(wǎng)絡(luò)最后一層一般是全連接層,在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起到分類的作用;激活函數(shù)的作用是能夠給神經(jīng)網(wǎng)絡(luò)加入一些非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以更好地解決較為復(fù)雜的問(wèn)題;評(píng)估函數(shù)又稱為損失函數(shù)(Loss Function),用來(lái)量化在訓(xùn)練過(guò)程中網(wǎng)絡(luò)輸出和真實(shí)目標(biāo)間的差距。
為了快速有效地判定候選區(qū)域是否為文本區(qū)域,本文參考AlexNet[15]設(shè)計(jì)了一個(gè)CNN 二元分類網(wǎng)絡(luò),其深度僅采用5層結(jié)構(gòu),如圖5所示。該網(wǎng)絡(luò)有兩個(gè)卷積層、兩個(gè)池化層,最后網(wǎng)絡(luò)的所有輸出連接了一個(gè)二元分類器。首先輸入一個(gè)48×32像素的彩色圖像,然后用16個(gè)3×3的卷積核去提取輸入圖像的特征,得到一個(gè)48×32×16的卷積層,接著使用平均池化來(lái)降低卷積層的維度,得到24×16×16 的池化層,緊接著使用32 個(gè)5×5 的卷積核提取更高層次的特征,最后通過(guò)平均池化來(lái)降低卷積層的維度,得到12×8×32 的輸出,將這些特征的輸出全部連接在一個(gè)全連接層。其實(shí)全連接層就相當(dāng)于是一個(gè)分類器,將上層抽取出來(lái)的特征向量在里面做一個(gè)權(quán)重計(jì)算,輸出兩個(gè)類別的概率,根據(jù)概率值大小來(lái)判斷輸入的區(qū)域是否為文本區(qū)域。
CNN網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)參數(shù)的有效訓(xùn)練是取得良好分類性能的關(guān)鍵。在訓(xùn)練CNN模型時(shí),本文采用了可以替代傳統(tǒng)隨機(jī)梯度下降過(guò)程的一階優(yōu)化算法Adam,其學(xué)習(xí)效率設(shè)定為0.001,學(xué)習(xí)率下降的乘數(shù)因子(γ)設(shè)為0.1,損失函數(shù)采用交叉熵?fù)p失函數(shù)(CrossEntropyLoss)[14]。訓(xùn)練樣本數(shù)據(jù)方面,將候選區(qū)域從原始圖像中裁剪出來(lái),建立了正負(fù)訓(xùn)練樣本,其中正樣本為文本區(qū)域裁剪圖像,負(fù)樣本為非文本區(qū)域裁剪圖像。根據(jù)CNN 網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,去除非文本區(qū)域而保留文本區(qū)域,如圖6(a)和(c)所示。
經(jīng)CNN網(wǎng)絡(luò)分類之后,保留預(yù)測(cè)為文本的區(qū)域,得到許多文本區(qū)域。然而其中一些區(qū)域可能存在重疊部分,同時(shí)有的附加部分區(qū)域沒有完全加入到主體部分區(qū)域,如圖6(a)和(c),為此本文根據(jù)維吾爾文本特點(diǎn)設(shè)計(jì)了一個(gè)形成詞級(jí)別文本區(qū)域的融合算法。
圖5 CNN網(wǎng)絡(luò)結(jié)構(gòu)圖
通過(guò)區(qū)域融合算法就可以得到大部分的詞級(jí)別文本區(qū)域,如圖6(b)所示。然而由于啟發(fā)式規(guī)則過(guò)濾掉少量文本區(qū)域、CNN分類網(wǎng)絡(luò)存在誤分類情況等原因,導(dǎo)致一些文本區(qū)域被遺失,如圖6(d)所示上面的數(shù)字部分,將這些遺失的文本區(qū)域盡可能多地加入到詞級(jí)別文本區(qū)域也極其重要。
圖6 部分算法結(jié)果
圖像文本中屬于同一個(gè)文本區(qū)域的文字一般色彩紋理統(tǒng)一,即具有相近屬性且距離也相近,因此根據(jù)詞級(jí)別文本區(qū)域的顏色相近程度以及空間關(guān)系進(jìn)行左右尋找,可以得到遺漏的文本區(qū)域和少量的非文本區(qū)域。本文根據(jù)空間距離、寬高差和候選區(qū)域縱橫比等特征距離[8]以及顏色直方圖中的相關(guān)性和巴氏距離[16]作為區(qū)域色彩相近程度的度量。首先將詞級(jí)別文本區(qū)域以寬度為基準(zhǔn)分成10 等份,計(jì)算兩兩之間的巴氏距離和相關(guān)性,對(duì)所有的巴氏距離和相關(guān)性結(jié)果計(jì)算平均值分別得到一個(gè)閾值。然后以等寬等高的滑動(dòng)窗口在詞級(jí)別文本區(qū)域左右尋找,將巴氏距離小于巴氏距離閾值并且相關(guān)性大于相關(guān)性閾值的區(qū)域作為遺失的文本區(qū)域再次提取出來(lái)。將提取出來(lái)的候選區(qū)域從原始圖像中裁剪出來(lái),再次使用前面用于分類的CNN網(wǎng)絡(luò)進(jìn)行分類,將預(yù)測(cè)為文本的區(qū)域融合到詞級(jí)別文本區(qū)域,再根據(jù)文本區(qū)域空間特征進(jìn)行鏈接,定位出最終的圖像文本區(qū)域,如圖7(a)和(b)所示。
圖7 最終的文本區(qū)域
本文定位算法主要以圖像中的維吾爾文本為研究對(duì)象,然而目前沒有公開的關(guān)于圖像中維吾爾文本區(qū)域定位的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),因此本文收集了386張包含維吾爾文本的圖像,圖像中的文本有不同的字體、大小和顏色。首先對(duì)數(shù)據(jù)集進(jìn)行劃分,將其中的266張圖片作為訓(xùn)練集,用于構(gòu)建裁剪數(shù)據(jù)集,裁剪數(shù)據(jù)集總共16 683個(gè)樣本,如圖8(a)和(b)所示,其中正樣本為8 485 個(gè)文本區(qū)域裁剪圖像,負(fù)樣本為8 198 個(gè)非文本區(qū)域裁剪圖像,裁剪數(shù)據(jù)集用來(lái)訓(xùn)練和測(cè)試本文構(gòu)建的CNN 網(wǎng)絡(luò)模型;剩余的120張圖像用于評(píng)估本文提出的文本區(qū)域定位算法的性能。
圖8 部分訓(xùn)練樣本實(shí)例
本文首先對(duì)MSER候選區(qū)域提取算子進(jìn)行實(shí)驗(yàn),以確保在候選區(qū)域獲取過(guò)程中提取所有的文本區(qū)域。傳統(tǒng)的MSER檢測(cè)方法將輸入圖像轉(zhuǎn)化為灰度圖像,在灰度圖像上提取MSER 區(qū)域,如圖9 所示,然而該方法提取的文本候選區(qū)域不全面,存在文本區(qū)域遺漏現(xiàn)象。針對(duì)文本區(qū)域遺漏現(xiàn)象,文獻(xiàn)[7]提出分別在R、G、B 單通道上提取MSER 區(qū)域,然后合并到彩色圖像上,如圖10所示。該方法可以獲取比較全面的文本候選區(qū)域,但是對(duì)維吾爾文本的提取效果不太理想,即附加部分沒有完全融合到主體部分的候選區(qū)域中。本文針對(duì)維吾爾文本特征,提出先分別對(duì)R、G、B 單通道圖像進(jìn)行膨脹操作,使得圖像中維吾爾文本的附加部分盡可能地加入到主體部分形成一個(gè)連通域,然后在單通道上進(jìn)行MSER區(qū)域檢測(cè),最后合并到彩色圖像上的方法,如圖11 所示。根據(jù)三個(gè)方法獲取的候選區(qū)域數(shù)量和質(zhì)量的比較,可以得出本文方法能夠提取出更多的候選區(qū)域,同時(shí)將文本的大部分附加部分加入到主體部分,本文方法更適合維吾爾文本候選區(qū)域的提取,具有較好的魯棒性。
圖9 傳統(tǒng)的MSER候選區(qū)域提取
本文對(duì)CNN網(wǎng)絡(luò)訓(xùn)練方式以及用于訓(xùn)練和測(cè)試的樣本數(shù)據(jù)大小與CNN 網(wǎng)絡(luò)預(yù)測(cè)性能關(guān)系進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)平臺(tái)采用Intel Core i5 CPU、主頻為3.1 GHz 的Mac筆記本,深度學(xué)習(xí)工具采用PyTorch。本文CNN網(wǎng)絡(luò)模型為參考AlexNet設(shè)計(jì)的一個(gè)深度為5層的網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)入數(shù)據(jù)時(shí),首先打亂導(dǎo)入數(shù)據(jù)的順序,并以8∶2的比例對(duì)數(shù)據(jù)進(jìn)行隨機(jī)劃分,分別用于訓(xùn)練和測(cè)試,然后對(duì)輸入圖像進(jìn)行標(biāo)準(zhǔn)化,采用均值為0.485、0.456、0.406,方差為0.229、0.224、0.225 的標(biāo)準(zhǔn)化參數(shù)對(duì)導(dǎo)入圖像進(jìn)行變換;訓(xùn)練時(shí),損失函數(shù)采用交叉熵?fù)p失函數(shù),優(yōu)化方法采用可以替代傳統(tǒng)隨機(jī)梯度下降過(guò)程的一階優(yōu)化算法Adam。裁剪圖像大小分別為32×24、32×32、48×32、48×48、64×48時(shí)CNN網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率變化曲線如圖12所示。實(shí)驗(yàn)結(jié)果表明,本文構(gòu)建的CNN 網(wǎng)絡(luò)訓(xùn)練20 到30 輪時(shí)模型預(yù)測(cè)的準(zhǔn)確率就趨于穩(wěn)定。本文采用48×32 裁剪數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)模型,同時(shí)本文定位算法將候選區(qū)域裁剪圖像統(tǒng)一調(diào)整為48×32 大小進(jìn)行分類預(yù)測(cè)。
為了客觀地評(píng)測(cè)本文方法的定位性能,采用三個(gè)性能參數(shù)來(lái)衡量,即準(zhǔn)確率(Precision,P)、召回率(Recall,R)、綜合評(píng)價(jià)指標(biāo)(F-measure,F(xiàn))[2]。本文采用ICDAR2015評(píng)估方法[17],首先定義覆蓋面積比值為:
其中,a0為覆蓋率,Bp和Bgt分別表示定位結(jié)果與Ground-truth,area(Bp∩Bgt) 與area(Bp∪Bgt) 分別表示Bp和Bgt之間的交集區(qū)域與并集區(qū)域。若定位結(jié)果與Ground-truth之間的實(shí)際面積覆蓋率a0>0.5,則認(rèn)為該檢測(cè)結(jié)果為正確的,反之則認(rèn)為是虛警。準(zhǔn)確率(P)與召回率(R)分別定義為:
其中,Tp、E、T分別表示正確的定位結(jié)果集合、定位結(jié)果集合以及Ground-truth集合。綜合評(píng)價(jià)指標(biāo)(F)則定義為:
圖10 增強(qiáng)MSER候選區(qū)域提取
圖11 通道增強(qiáng)MSER候選區(qū)域提取
圖12 裁剪圖像大小與CNN網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率曲線圖
表1 給出了本文算法和文獻(xiàn)[7]、文獻(xiàn)[10]在自建圖像數(shù)據(jù)集上的性能對(duì)比情況。從表中可以看出,本文算法性能優(yōu)于二者。這主要因?yàn)楸疚乃惴ㄊ腔诰S吾爾文本的特點(diǎn)提出的,采用通道增強(qiáng)MSER方法提取候選區(qū)域,根據(jù)維吾爾文本特征的啟發(fā)式規(guī)則和CNN 網(wǎng)絡(luò)去除非文本區(qū)域,形成詞級(jí)別文本區(qū)域以及遺失文本區(qū)域召回機(jī)制等對(duì)于維吾爾文本區(qū)域定位都是有效的。
表1 自建數(shù)據(jù)集上的算法性能對(duì)比
本文根據(jù)圖像中維吾爾文本區(qū)域的空間特征和紋理特征,提出了一種基于通道增強(qiáng)的MSER檢測(cè)方法和CNN網(wǎng)絡(luò)相結(jié)合的圖像文本區(qū)域定位方法。該方法利用通道增強(qiáng)的MSER檢測(cè)方法提取候選區(qū)域,避免了文本區(qū)域遺漏現(xiàn)象;采用啟發(fā)式規(guī)則和CNN 網(wǎng)絡(luò)去除非文本區(qū)域,提高了去除非文本區(qū)域的準(zhǔn)確率和速度;最后利用文本的空間特征和紋理特征召回遺失的文本區(qū)域,提高了文本區(qū)域定位的召回率。實(shí)驗(yàn)結(jié)果表明,該算法能夠準(zhǔn)確有效地定位文本區(qū)域,但在一些質(zhì)量差、存在模糊、文本區(qū)域和背景區(qū)域顏色接近的圖像中文本區(qū)域定位結(jié)果不太理想。因此,如何提高檢測(cè)算法的魯棒性及應(yīng)用性是下一步的研究工作。