王大千, 崔榮一, 金璟璇
延邊大學(xué)工學(xué)院,吉林延吉133002
在場景圖像中通常包括較多的文本,這些文本信息具有比圖像更豐富的語義信息,能夠幫助理解場景內(nèi)容.對場景圖像中的文本進(jìn)行檢測是指在給定的圖像中找出文本所在位置,并準(zhǔn)確定位出文本區(qū)域即單詞或文本行.文本檢測技術(shù)在車牌定位、盲人輔助系統(tǒng)、圖像搜索等領(lǐng)域有著廣泛應(yīng)用[1].雖然自然場景下的文本檢測問題具有極大的研究價(jià)值,但自然場景本身具有很多復(fù)雜多變的因素,例如背景復(fù)雜、模糊、受到不同光照等情況;而且文字本身也具有多樣性,例如不同顏色、大小、形狀、方向以及不同語言混合的文本情況,這些都給文本檢測增加了更多的技術(shù)難題.
目前,針對自然場景的文本檢測技術(shù)主要分為3 類:基于滑動(dòng)窗口的方法、基于連通域的方法以及深度學(xué)習(xí)的方法.基于滑動(dòng)窗口的方法是指通過滑動(dòng)窗口在文本圖像上滑動(dòng),提取一系列如局部二值模式(local binary pattern, LBP)、方向梯度直方圖(histogram of oriented gridients, HOG)等特征后再設(shè)計(jì)分類器,找到最有可能存在文本的區(qū)域.但滑動(dòng)窗口的過程會(huì)帶來很高的計(jì)算成本,從而影響檢測效率;如果圖像中存在不同大小的文本,則需要利用多尺度滑動(dòng)窗口對圖像進(jìn)行處理,這進(jìn)一步增加了計(jì)算的復(fù)雜度.基于連通域的方法是把文本看作是獨(dú)立的字符區(qū)域,根據(jù)事先設(shè)計(jì)的顏色、邊緣等特征形成大量的字符候選連通區(qū)域,再利用分類器得到最終結(jié)果[2].文獻(xiàn)[3]提出利用最大穩(wěn)定極值區(qū)域(maximally stable extremal region, MSER)方法來提取字符候選區(qū)域.MSER 方法具有較好的穩(wěn)定性和仿射不變性.當(dāng)閾值在一定范圍內(nèi)變化時(shí),極值區(qū)域的面積不隨閾值發(fā)生變化,并且能夠提取到精細(xì)程度不同的區(qū)域,因此MSER 方法成為了傳統(tǒng)的自然場景圖像中文本區(qū)域檢測領(lǐng)域使用最多的方法.目前許多研究者對MSER 方法進(jìn)行了改進(jìn)以提高文本區(qū)域檢測的準(zhǔn)確率.文獻(xiàn)[4]提出將MSER和顏色聚類相融合并加入了圖像的顏色信息,彌補(bǔ)了該方法只利用圖像灰度信息的不足,提升了文本檢測的準(zhǔn)確性.文獻(xiàn)[5]提出一種基于邊緣增強(qiáng)的最大穩(wěn)定極值區(qū)域EMSER 方法.該方法先采用Canny 算子提取圖像邊緣特征,然后對邊緣提取后的圖像采用MSER 進(jìn)行連通域分析.MSER 的尺度在不同的閾值下檢測精度幾乎保持不變,但當(dāng)圖像模糊或者低對比度的情況下,其檢測效果會(huì)下降.另外,改進(jìn)MSER 算法大多從灰度值或連通區(qū)域模糊等問題入手,加入顏色特征或邊緣約束來提高檢測精度.文獻(xiàn)[6]提出了適合文本特征的筆畫寬度變換(stroke width transform,SWT),即通過計(jì)算筆畫寬度值來提取字符區(qū)域,該過程不需要滑動(dòng)窗口掃描,計(jì)算過程簡潔、速度快且具有一定的魯棒性.文獻(xiàn)[7-10]通過添加文本位置和人臉的顯著圖來改進(jìn)文獻(xiàn)[11]的模型,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):與背景相比,自然場景中的文本區(qū)域更能吸引人眼注意.在設(shè)計(jì)標(biāo)志牌或廣告牌時(shí),設(shè)計(jì)者會(huì)最大程度地將宣傳對象與背景區(qū)(樹、天空等)分開.對此類圖像進(jìn)行特征提取時(shí),考慮目標(biāo)區(qū)域與背景區(qū)域的差異性特點(diǎn),學(xué)者們會(huì)根據(jù)顏色或亮度等特征設(shè)計(jì)不同的特征提取方法[12].在圖像的視覺特征中,形狀特征相比于顏色和紋理特征也更方便地從語義上描述目標(biāo)圖像[13],因此可以把視覺關(guān)注機(jī)制應(yīng)用在自然場景的文本區(qū)域檢測中,以區(qū)分自然場景中的文本區(qū)域與非文本區(qū)域.
基于深度學(xué)習(xí)的文本檢測方法主要對目標(biāo)檢測框架進(jìn)行了改進(jìn),包括針對SSD(single shot multi box detector)框架的改進(jìn)和針對Faster-RCNN(faster-region convolutional neural networks)框架的改進(jìn).SSD 可以對不同大小和比例的候選框的位置進(jìn)行預(yù)測及回歸,該方法提高了檢測速度及精度.基于Faster-RCNN 框架的CTPN (connectionist text proposal network)方法固定了生成框的寬度以生成細(xì)粒度的候選框,并結(jié)合長短期記憶模型(longshort term memory, LSTM)模型進(jìn)行預(yù)測,該方法利用序列的思想對目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行了改進(jìn),得到了一個(gè)高精度的文本檢測網(wǎng)絡(luò)模型.文獻(xiàn)[16]利用Edge box 和訓(xùn)練好的聚合通道特征(aggregate channel features, ACF)[18]檢測器構(gòu)成單詞候選區(qū)域,再利用機(jī)器學(xué)習(xí)方法訓(xùn)練基于HOG 特征的隨機(jī)森林分類器以去除大量誤檢情況,從而實(shí)現(xiàn)文本定位.
基于上述文獻(xiàn)的思想,本文提出一種結(jié)合改進(jìn)的Itti 視覺關(guān)注模型與多尺度MSER 的文本檢測方法.首先,采用改進(jìn)的Itti 模型生成7 個(gè)不同尺度的區(qū)域特征圖,融合各尺度特征圖得到文本區(qū)域顯著圖;其次,將得到的文本區(qū)域顯著圖與提取的相應(yīng)尺度的MSER 區(qū)域相結(jié)合確定候選區(qū)域,根據(jù)文字與生成文本框的幾何規(guī)則合并文本候選區(qū)域得到文本行;再次,利用隨機(jī)森林分類器除掉非文本區(qū)域從而得到最終的文本區(qū)域;最后,在ICDAR2013 數(shù)據(jù)集與KAIST 數(shù)據(jù)集上驗(yàn)證了本文方法的有效性.
作為視覺關(guān)注模型中最經(jīng)典的模型,Itti 視覺關(guān)注模型是Itti 和Koch 等人在1998 年根據(jù)Treisman 的特征整合理論[19]及Koch 和Ullman 的顯著圖模型[20]提出的.Itti 視覺關(guān)注模型在不需要任何先驗(yàn)信息的情況下,可以根據(jù)視覺場景圖像中的底層數(shù)據(jù)分析視覺刺激.其主要步驟如下:
步驟1采用線性濾波器提取圖像顏色、亮度、方向3 個(gè)維度的初級視覺特征.顏色特征維度包含的4 個(gè)子特征通道R,G,B,Y,亮度特征維度僅包含1 個(gè)特征通道I,公式分別為
方向特征維度包含4 個(gè)子特征通道,即θ等于0?、45?、90?、135?時(shí)4 個(gè)方向的特征.利用Gabor 濾波器構(gòu)建方向金字塔O(σ,θ),共3 個(gè)特征維度的9 個(gè)子特征通道[21],并在每個(gè)子特征通道內(nèi)構(gòu)建9 個(gè)不同尺度的特征高斯金字塔.
步驟2對于每個(gè)子特征通道中不同尺度的特征圖像使用中央周邊差操作Θ 提取特征圖.計(jì)算公式為
式中,c為感受野中心信息尺度,且c ∈{2,3,4},s為感受野周邊區(qū)域背景信息尺度,且s=c+δ(δ ∈{3,4}),I表示亮度特征圖,RG 和BY 表示利用“顏色雙對立”理論產(chǎn)生的顏色特征圖,O表示方向特征圖.7 個(gè)子特征通道中共產(chǎn)生42 幅中央周邊差圖(中央周邊差圖在該模型中被稱為特征圖).
步驟3采取特征合并策略將不同維度的多幅特征圖進(jìn)行歸一化處理,合并形成一幅對應(yīng)該特征的突起圖,再將不同特征的突起圖進(jìn)行歸一化處理得到視覺顯著圖.
步驟4最后根據(jù)得到的顯著圖定位關(guān)注焦點(diǎn)的區(qū)域,使注意力能夠以顯著性降序關(guān)注圖像的不同區(qū)域[22].
MSER 算法[23]最早是由Matas 等人在研究魯棒性的寬基線立體重建時(shí)提出的,該算法借鑒了分水嶺算法的思想,即在0~255 范圍內(nèi)取不同閾值(水位高低代表圖像像素的強(qiáng)度)逐漸淹沒圖像.隨著水位的增高會(huì)形成盆地,并且在一段時(shí)間內(nèi)會(huì)有相對穩(wěn)定的形狀,這些穩(wěn)定的盆地就是MSER.
MSER 算法使用不同灰度閾值對圖像進(jìn)行二值化,區(qū)域面積即為二值化閾值變化上升時(shí)圖像所達(dá)到的穩(wěn)定區(qū)域.MSER 自身具有良好的穩(wěn)定性、仿射不變性和多尺度檢測等特點(diǎn),可以作為字符區(qū)域的特征檢測算子.對于文本與背景對比度較高的情況,文本內(nèi)部結(jié)構(gòu)穩(wěn)定且灰度變化小,滿足最大極值穩(wěn)定區(qū)域的特征,因此MSER 可以有效檢測出文本區(qū)域.
隨機(jī)森林(random forest, RF)是一種基于Bagging 的集成學(xué)習(xí)方法,該算法首先隨機(jī)且有放回地從原始訓(xùn)練數(shù)據(jù)集中抽取M個(gè)訓(xùn)練樣本.其中隨機(jī)抽取訓(xùn)練樣本能使從森林里的每棵樹中抽取的訓(xùn)練集不一致,保證了每棵樹的分類結(jié)果不同;而有放回地抽取訓(xùn)練樣本能確保每棵樹的無偏性.對M個(gè)訓(xùn)練樣本進(jìn)行N次采樣得到N個(gè)訓(xùn)練集和N個(gè)決策樹模型,選取最優(yōu)特征對數(shù)據(jù)集進(jìn)行迭代訓(xùn)練,直到所在節(jié)點(diǎn)的訓(xùn)練樣例都屬于同一類;N棵決策樹組成隨機(jī)森林分類器,按照投票原則決定最終分類結(jié)果.
這種訓(xùn)練方式提升了分類器的訓(xùn)練速度,在訓(xùn)練過程中可以高度并行處理,相比其他強(qiáng)分類器,RF 分類器實(shí)現(xiàn)簡單且泛化能力強(qiáng),在特征維度較高的情況下也可以訓(xùn)練得到高效的模型,在文本特征提取及字符分類等方面可以取得很好的效果.
Itti 視覺關(guān)注模型利用顯著性檢測方法獲取候選文本區(qū)域.MSER 算法是相對傳統(tǒng)的與文本無關(guān)的候選文本生成方法.本文方法結(jié)合改進(jìn)的Itti 和多尺度MSER 兩種算法提取文本候選區(qū)域,并根據(jù)幾何信息及連通域規(guī)則初步生成候選文本區(qū)域;然后根據(jù)候選文本區(qū)域的HOG 特征,利用隨機(jī)森林分類器進(jìn)行訓(xùn)練剔除部分背景區(qū)域,得到最終的文本區(qū)域.
2.1.1 改進(jìn)的Itti 視覺關(guān)注模型
自然場景中的文本信息在視覺上雖然具有較高的顯著性,但不一定是Itti 模型所檢測出的最顯著的目標(biāo).針對自然場景中的文本檢測,文獻(xiàn)[24]提出了一種改進(jìn)的Itti 模型[25],實(shí)驗(yàn)通過計(jì)算場景文本圖像的不同特征圖發(fā)現(xiàn),強(qiáng)度特征圖作為顯著圖時(shí)和文本區(qū)域相關(guān),而顏色特征圖與方向特征圖對文本區(qū)域不敏感,并且會(huì)產(chǎn)生背景干擾,從而使最終得到的視覺顯著圖不適合文本區(qū)域檢測.改進(jìn)的Itti 模型只利用強(qiáng)度特征圖作為最終視覺顯著圖.在生成的顯著圖中,文本區(qū)域是被凸顯出來的,因此該方法對文本是非常敏感的,即所提取出的候選區(qū)域中很大一部分是文本區(qū)域,從而大大減少了文本候選區(qū)域的數(shù)量.
顯著圖反映了不同維度在圖像不同位置上的顯著性.重要目標(biāo)可能在一個(gè)特征通道相應(yīng)的圖像區(qū)域引起了強(qiáng)烈的反應(yīng),而在另一特征通道中受較大的噪聲影響而消失.因此,需要采用適當(dāng)?shù)牟呗詫μ卣鲌D進(jìn)行合并,以突出不同特征維上的真實(shí)顯著目標(biāo)(即文本區(qū)域),有效抑制噪聲.鑒于此,本文僅提取Itti 模型中的亮度特征通道并采用7 個(gè)尺度的高斯金字塔,代表中心信息的圖像尺度c={1,2,3},代表周邊背景信息的圖像尺度s ∈{4,5,6}.高斯金字塔中大尺度圖像包含更多的細(xì)節(jié)信息,而小尺度圖像反映局部圖像的背景信息,將兩種尺度間作差能得到周邊與目標(biāo)間的反差信息[21].通過實(shí)驗(yàn)分析發(fā)現(xiàn),在生成的6 張?zhí)卣鲌D中,I(3,7)所生成的特征圖由于包含噪聲較多不適合提取文字部分,所以本文方法僅提取亮度通道的5 個(gè)尺度對,得到I(1,4)、I(1,5)、I(2,5)、I(2,6)、I(3,6)5 幅文本特征圖,如圖1 所示.合并策略是每一相同中心尺度的特征圖直接進(jìn)行合并,即將c= 1,c= 2,c= 3 的特征圖融合得到3 幅文本顯著圖,分別對應(yīng)圖2 中的(a)~(c).由圖(2)可以看出,結(jié)合特征圖后所形成的顯著圖的文本區(qū)域特征明顯增強(qiáng).
圖1 Itti 特征圖Figure 1 Itti feature map
圖2 文本顯著圖Figure 2 Text saliency map
2.1.2 多尺度MSER
在不同的自然場景圖像甚至同一個(gè)自然場景圖像中文本之間的尺度變化較大.雖然MSER 在一定程度上具有尺度不變性,但對同一個(gè)連通區(qū)域而言,不同尺度下連通區(qū)域內(nèi)的灰度值變化存在一定的差異性,當(dāng)圖像模糊或低對比度時(shí)其檢測性能將會(huì)下降.因此,本文采用了3 種不同尺度(Scale 分別取1.00, 0.50, 0.25)對原始圖像進(jìn)行縮放變換,得到3 種不同尺度下的MSER 區(qū)域分別表示為Im(1.00)、Im(0.50)及Im(0.25),檢測結(jié)果如圖3 所示.
圖3 多尺度下的MSER 區(qū)域Figure 3 Multi-scale MSER Region
2.1.3 文本候選區(qū)域的生成
上述所提取的不同尺度下的文本顯著圖分別與對應(yīng)尺度下的MSER 區(qū)域相結(jié)合,根據(jù)連通規(guī)則生成文本框,形成3 種文字候選區(qū)域圖.在這3 種候選文本區(qū)域中,利用文字的先驗(yàn)信息即真實(shí)文字區(qū)域的大小及連通域高寬比等信息,設(shè)定在每一個(gè)連通區(qū)域中得到的文本框面積不得大于總面積的2/3,同一文本區(qū)域文本框面積大小相差0.1 以下取最大值映射到原圖像.最后根據(jù)得到的幾何信息在一定的范圍區(qū)域進(jìn)行約束,判定符合文本區(qū)域的文本框得到最終文本候選區(qū)域,結(jié)果如圖4 所示.
圖4 文本候選區(qū)域圖Figure 4 Text candidate area map
上述生成的文本候選區(qū)域中還包含大量的背景區(qū)域,因此需要提取HOG 特征并訓(xùn)練一個(gè)RF 分類器用來除掉無法利用幾何信息剔除的非文本區(qū)域.提取HOG 特征時(shí),首先將本文方法提取出來的不同大小的文本區(qū)域圖片統(tǒng)一預(yù)處理為32×32 像素大小.每幅圖片分為8×8 像素大小的cell,使用滑動(dòng)窗口將每組2×2 個(gè)cell 組成一個(gè)block(可重疊),然后計(jì)算梯度值,每個(gè)單元格中將梯度方向分為9,統(tǒng)計(jì)9 個(gè)方向的梯度直方圖,共生成324 維特征[25].
訓(xùn)練樣本采用從KAIST 數(shù)據(jù)集中選取的762 幅圖像,在本文方法提取的文本候選區(qū)域中人工標(biāo)注文本區(qū)域與背景區(qū)域,包含2 842 個(gè)正樣本和1 999 個(gè)負(fù)樣本,訓(xùn)練分類器準(zhǔn)確率為87.8%;從ICDAR 數(shù)據(jù)集中收集2 012 個(gè)正樣本,1 108 個(gè)負(fù)樣本,分類器準(zhǔn)確率為91.2%.測試樣本以同種方法提取特征,輸入到隨機(jī)森林分類器后再根據(jù)分類器的分類結(jié)果得到文本區(qū)域.最后將結(jié)果返回到原圖像中生成最終的文本區(qū)域,如圖5 所示.
圖5 最終文本區(qū)域圖Figure 5 Final text area map
在實(shí)驗(yàn)算法評價(jià)時(shí)選用ICDAR 2013 Robust Reading Competition以及KAIST Scene Text Database 中的圖像庫進(jìn)行算法有效性驗(yàn)證.ICDAR 圖像庫中包含常見的自然場景文本圖像,其中包括廣告牌、雜志封面、標(biāo)志牌、街景商店名等.KAIST 圖像庫中包含的是復(fù)雜場景圖像,其中包括英語、韓語、數(shù)字等多語種混合,且存在陰影、光照強(qiáng)度變化,文字存在畸變、藝術(shù)字及文字非水平方向排列等情況.
實(shí)驗(yàn)評估方法采用國際會(huì)議ICDAR 提出的文本區(qū)域提取準(zhǔn)確率p和召回率r來衡量算法的優(yōu)劣,即
式中,E為算法提取出來的區(qū)域數(shù)量;T為圖像中人工找出的文本區(qū)域數(shù)量;C為E、T的交集.為方便算法性能對比,給出其綜合性能F值,公式為
式中,α為p、r的權(quán)重因子,用來設(shè)定這兩個(gè)參數(shù)對文本提取效果的影響程度,一般取α=0.5.
表1 和2 將本文方法同其他方法的文本檢測結(jié)果進(jìn)行對比.可見本文方法在準(zhǔn)確率、召回率及F值均優(yōu)于其他幾種方法.對比兩種不同數(shù)據(jù)集中的性能指標(biāo)可看出:在多語種文本的復(fù)雜場景條件下,本文方法的檢測性能指標(biāo)相較文獻(xiàn)[26]有所提升,這說明了本文方法的有效性.
表1 ICDAR 數(shù)據(jù)集上不同算法進(jìn)行文本區(qū)域檢測結(jié)果比較Table 1 Comparison of text area detection results of different algorithms on ICDAR data set
表2 KAIST 數(shù)據(jù)集上不同算法進(jìn)行文本區(qū)域檢測結(jié)果比較Table 2 Comparison of text area detection results of different algorithms on KAIST data set
表3 與4 對比了單獨(dú)使用MSER 進(jìn)行場景文本檢測與多尺度下的MSER 結(jié)合后進(jìn)行的文本區(qū)域檢測結(jié)果.表5 和6 對比了不同的結(jié)合方法的文本檢測結(jié)果.單獨(dú)使用改進(jìn)的Itti 模型與邊緣密集度的方法雖然可以提取出大多數(shù)文本區(qū)域,但背景區(qū)域也相對較多,而直接結(jié)合Itti 與MESR 的方法在文字大小多尺度變換時(shí)效果較差,會(huì)出現(xiàn)較多漏檢區(qū)域.相比之下采用文本方法結(jié)合的策略,檢測效果有很大提升.部分?jǐn)?shù)據(jù)集實(shí)驗(yàn)結(jié)果如圖6 所示.
表3 ICDAR 數(shù)據(jù)集上MSER 與多尺度MSER 文本區(qū)域檢測結(jié)果對比Table 3 Comparison of text area detection results between MSER and multi-MSER on ICDAR data set
表4 KAIST 數(shù)據(jù)集上MSER 與多尺度MSER 文本區(qū)域檢測結(jié)果對比Table 4 Comparison of text area detection results between MSER and multi-MSER on KAIST data set
表5 ICDAR 數(shù)據(jù)集上不同結(jié)合方法的文本區(qū)域檢測結(jié)果對比Table 5 Comparison of text area detection results of different combination methods on ICDAR data set
表6 KAIST 數(shù)據(jù)集不同結(jié)合方法的文本區(qū)域檢測結(jié)果對比Table 6 Comparison of text area detection results of different combination methods on KAIST data set
圖6 本文方法部分檢測結(jié)果Figure 6 Part of text detection results by the proposed method
本文提出了一種基于改進(jìn)的Itti 視覺關(guān)注模型與多尺度MSER 結(jié)合的文本檢測方法.該方法首先根據(jù)改進(jìn)的Itti 視覺關(guān)注模型的不同結(jié)合策略生成文本顯著圖,再與多尺度的MSER 結(jié)合生成文本候選區(qū)域,然后根據(jù)文本框的幾何規(guī)則濾除部分非文本行,最后使用隨機(jī)森林分類器區(qū)分背景與文本得到最終文本檢測結(jié)果.本算法將視覺關(guān)注機(jī)制應(yīng)用到文本檢測中,并與傳統(tǒng)文本檢測方法相結(jié)合,有效解決了自然場景下文本檢測受背景復(fù)雜度、文字多尺度、多語言等因素影響較大的問題.本文算法在ICDAR 數(shù)據(jù)集及KAIST 數(shù)據(jù)集上分別進(jìn)行了測試,并與不同方法進(jìn)行了對比,實(shí)驗(yàn)結(jié)果顯示其綜合性能達(dá)到76%.由于本文方法屬于基于連通域的方法,有其自身局限性,人工設(shè)置規(guī)則較多,還不能完全適用于復(fù)雜場景.如何在更復(fù)雜的場景中提高文本檢測性能還需做進(jìn)一步研究.