• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    自然場景文本區(qū)域定位

    2015-12-15 10:31:08黃曉明高陳強(qiáng)田陽陽
    關(guān)鍵詞:極值灰度聚類

    黃曉明,高陳強(qiáng),田陽陽

    (重慶郵電大學(xué)信號與信息處理重慶市重點(diǎn)實(shí)驗(yàn)室,重慶400065)

    0 引言

    智能拍照手機(jī)的廣泛普及,使得人們獲取場景中高質(zhì)量的圖像變得十分便利。現(xiàn)實(shí)中,自然場景的文本分布廣泛,如路標(biāo)、商店名稱、海報(bào)、招牌等。這些文本提供了有關(guān)場景的重要信息,是理解圖像內(nèi)容的重要線索。定位和識別場景中的文本能夠應(yīng)用于多種場合,如搜索引擎、翻譯或?qū)Ш街?。自然場景中文本定位的難點(diǎn)在于場景的多樣性和文本的多樣性,不同的場景有不同的干擾,如窗戶、玻璃,樹木等,而文本可能存在光照不均、傾斜、污染、顏色,大小不同的情況。

    當(dāng)前場景文本定位的方法可以粗略地分為3種。第1種是基于學(xué)習(xí)的,文獻(xiàn)[1-2]首先將圖像分割成一系列片段,然后提取片段的特征,如紋理、小波、梯度直方圖等,最后用一些常見的分類器,如支持向量機(jī),AdaBoost(adaptive boosting)將片段分為文本和非文本,最后將文本片段組成一個完整的文本?;趯W(xué)習(xí)的方法通常需要在多個尺度空間上進(jìn)行,所以運(yùn)算時間很長,并且學(xué)習(xí)很容易受訓(xùn)練樣本的限制;第2種是基于連通域,文獻(xiàn)[3]先將圖像灰度化,然后同時在灰度化和取反的圖像進(jìn)行二值化,之后再進(jìn)行連通域分析,最后根據(jù)連通域的位置關(guān)系將文本進(jìn)行定位。文獻(xiàn)[4]首先利用局部顏色散布分析,框出存在文字的區(qū)域,然后對文字的區(qū)域合并和篩選,最后定位出文本的區(qū)域?;谶B通域的方法雖然不需要學(xué)習(xí),但是存在較多參數(shù)和閾值的設(shè)定,并且有著經(jīng)驗(yàn)性,無法自適應(yīng)圖像的大小;第3種是兩者的結(jié)合,文獻(xiàn)[5]首先利用文本區(qū)域檢測器來估計(jì)文本的位置和尺度,并用二值化的方法將文本分割成一系列的候選文本,接著訓(xùn)練一個條件隨機(jī)場模型,然后利用這一模型將非文本區(qū)域?yàn)V除。雖然這一方法結(jié)合了前面2種方法的優(yōu)點(diǎn),但訓(xùn)練過程時間長,同時,也存在參數(shù)較多的問題。為此,我們提出了基于最大極值穩(wěn)定區(qū)域[6]、顏色聚類和視覺顯著性的自然場景文本定位的方法。

    分析自然場景文本的特點(diǎn),發(fā)現(xiàn)文本內(nèi)部的灰度變化都比較小,而文本和背景的灰度對比度一般都很大,是屬于圖像中的極值穩(wěn)定區(qū)域。最大極值穩(wěn)定區(qū)域算法能夠提取出區(qū)域內(nèi)部灰度變化不明顯但和背景對比強(qiáng)烈的連通部分。另外從設(shè)置自然場景文本的目的考慮,自然場景文本區(qū)域大部分是為了引起人們的視覺注意,所以在顏色、紋理等方面和鄰域相比更加突出。而視覺顯著性能夠評估區(qū)域在視覺中的獨(dú)特性和稀缺性,可以利用來濾除非文本區(qū)域。

    本文首先將彩色圖像轉(zhuǎn)換成灰度圖像,然后在灰度圖像上提取最大極值穩(wěn)定區(qū)域,將提取的區(qū)域二值化后得到候選的字符連通域。然而,最大極值穩(wěn)定區(qū)域缺少對圖像顏色信息的處理,這可能導(dǎo)致在提取時遺漏候選區(qū)域。為此,對原始的彩色圖像進(jìn)行聚類,再對聚類后圖像進(jìn)行二值化得到新的候選字符連通域,對于這2部分候選區(qū)域進(jìn)行非顯著性區(qū)域?yàn)V除以及先驗(yàn)信息的限制,最后將候選字符連成文本行。本文方法涉及文本連通域分析,不需要大量訓(xùn)練數(shù)據(jù)和漫長的訓(xùn)練過程。而合理的顯著性區(qū)域提取方法的利用能夠有效地判定文本和非文本區(qū)域,所以不需要大量嚴(yán)格的先驗(yàn)信息。最后在公開發(fā)表的ICDAR 2003[7]文本定位競賽數(shù)據(jù)集上進(jìn)行測試,驗(yàn)證了本文方法的有效性。

    1 自然場景文本定位系統(tǒng)設(shè)計(jì)

    本文提出的整個文本定位系統(tǒng)如圖1所示。為了充分利用場景文本中圖像的信息,系統(tǒng)利用2種方法進(jìn)行候選連通域的提取。首先,提取的是圖像的最大極值穩(wěn)定區(qū)域的二值化模板,然后對二值化模板進(jìn)行連通域的分析,得到候選的連通域。最大極值穩(wěn)定區(qū)域是在灰度圖像上提取,所以沒有利用彩色信息。而彩色信息在文本定位中有很重要的作用,經(jīng)觀察,文本中的顏色一般跟周圍背景對比很鮮明。因此,采用quick shift[8]進(jìn)行顏色聚類,同樣對聚類后的圖像二值化,然后,進(jìn)行連通域的分析,得到候選的連通域。對于得到的每個連通域計(jì)算其顯著性映射值,將其與整個圖像的顯著性均值進(jìn)行比較,超過一定閾值的連通域則保留。最后,依據(jù)文本的一些先驗(yàn)信息得到包圍文本區(qū)域的包圍盒。

    圖1 系統(tǒng)結(jié)構(gòu)框圖Fig.1 Block diagram of system structure

    1.1 基于最大極值穩(wěn)定區(qū)域的候選區(qū)域提取

    最大極值穩(wěn)定區(qū)域(maximally stable extremal regions,MSER)是由Matas[6]等提出的一種仿射特征區(qū)域提取算法。MSER先將圖像轉(zhuǎn)換成灰度圖像,然后在一定的閾值下將圖像轉(zhuǎn)換成一系列的二值圖像,隨著亮度閾值的增加或者減少,區(qū)域不斷地出現(xiàn)、生長和合并。2個不同閾值間的區(qū)域變化不超過一定閾值就能夠被認(rèn)為是穩(wěn)定的。MSER的數(shù)學(xué)定義:定義圖像I為區(qū)域D到灰度S的映射I:D∈Z2→s,其中,s滿足全序結(jié)構(gòu)。定義像素間的鄰接關(guān)系A(chǔ)?D×D。則圖像中的區(qū)域Q?D可定義為圖像上滿足連接關(guān)系的連通子集,即對于任意點(diǎn)p,q∈Q,有(1)式成立

    (1)式中,ai∈Q,i=1,2,…,n。

    定義Q邊界的?Q為

    對于?p∈Q和?q∈?Q,有I(p)>I(q)成立,則稱Q為極大值區(qū)域,反之為極小值區(qū)域。對于一組相互嵌套的極值區(qū)域Q1,Q2,…,Qi-1,Qi,…。如果其面積變化率為

    在i處取得局部最小值,則稱Qi為最大極值穩(wěn)定區(qū)域。

    MSER能夠同時提取圖像中最大極值穩(wěn)定區(qū)域和最小極值穩(wěn)定區(qū)域,最小極值穩(wěn)定區(qū)域是在灰度圖像反轉(zhuǎn)后提取的。得到極值穩(wěn)定區(qū)域后,將穩(wěn)定區(qū)域賦值為1,將其余區(qū)域賦值為0,得到MSER的二值化模板。對二值化模板進(jìn)行連通域分析,就得到了候選的連通域。最大極值穩(wěn)定區(qū)域算法能夠提取跟背景亮度對比強(qiáng)烈的文本,但如果文本跟背景亮度相差不大或者圖像存在模糊時,其效果會下降很多。MSER區(qū)域提取如圖2所示,圖2a背景和前景對比鮮明,MSER提取的效果很好,文本區(qū)域明顯。圖2c背景復(fù)雜,提取出的MSER區(qū)域?qū)⑽谋緟^(qū)域和背景混肴在一起。

    1.2 基于顏色聚類的候選區(qū)域提取

    最大極值穩(wěn)定區(qū)域只在灰度圖像上進(jìn)行處理,

    (4)式中:yi(1)代表的是特征空間中點(diǎn)的下一個位置;Dij=d2(xi,xj)代表的是2點(diǎn)之間的距離;φ(.)是核函數(shù),一般選擇高斯核函數(shù);N是特征空間中點(diǎn)的個數(shù)。通過不斷移動,所有點(diǎn)連成了一顆樹,再通過一定的閾值將樹分割成一個森林,這樣森林里的每棵樹就是一個聚類。特征空間是一個五維空間,包含轉(zhuǎn)換到Lab空間的3個顏色分量和2個空間信息。

    本文首先采用quick shift算法對圖像進(jìn)行聚類。每個像素都有一個相對應(yīng)的類別標(biāo)簽,一般認(rèn)為圖像中整個字符區(qū)域都有相似的顏色。經(jīng)過聚類后,顏色的類別數(shù)大大減少了,從而增大了字符區(qū)域和背景的對比度。這樣,圖像灰度化后經(jīng)過類似MSER的處理,即對灰度圖進(jìn)行2次二值化處理,2次處理是為了獲得亮文本和暗文本。獲得聚類圖像的二值化結(jié)果之后,對它們進(jìn)行連通域分析,就得到文本區(qū)域的候選區(qū)。

    基于顏色聚類的候選區(qū)域提取結(jié)果如圖3所示,從圖3中可以看出,經(jīng)聚類后如圖3a所示,將圖3a的結(jié)果經(jīng)過灰度化后,再將灰度范圍[0,255],用顏色藍(lán)到紅之間映射可以得到結(jié)果如圖3b所示(在彩色情況下顯示)。從圖3b可以看出,暗文本區(qū)域占據(jù)的是藍(lán)色區(qū)域,其對應(yīng)的背景占據(jù)的是紅色區(qū)域。亮文本區(qū)域占據(jù)的是紅色區(qū)域,而對應(yīng)背景占據(jù)的為黃色區(qū)域,于是設(shè)定閾值為灰度范圍中值。暗文本圖3c是將高于中值的區(qū)域賦值為1,低于中值的為0。亮文本圖3d則反之。

    1.3 顯著性濾除和先驗(yàn)信息限制

    上面的2種方法能夠把大部分的文本檢測出來,但是同時也引進(jìn)較多的非文本區(qū)域,另外我們也需要把單獨(dú)的字符連成文本詞,這樣有利于后續(xù)的處理。所以忽略了文本和背景間的顏色對比,但這一信息在文本定位中起重要作用,采用顏色聚類分析能夠和灰度圖像上提取的最大極值穩(wěn)定區(qū)域構(gòu)成互補(bǔ)。顏色聚類采用的算法是quick shift。

    quick shift是由mean shift[9]改進(jìn)而來的。mean shift的思想是將數(shù)據(jù)點(diǎn)分配給隱含概率密度函數(shù)的某個模型。它的優(yōu)點(diǎn)是聚類的類別數(shù)不需要預(yù)先知道,并且聚類的結(jié)構(gòu)可以是任意的,它的缺點(diǎn)是計(jì)算復(fù)雜度太高。quick shift改進(jìn)了這一缺點(diǎn),它不需要使用梯度來尋找概率密度的模式,而僅僅是將每個點(diǎn)移動到使概率密度增加的最近的點(diǎn)來獲得,公式為

    圖3 基于顏色聚類的候選區(qū)提取Fig.3 Region extraction based on color cluster

    對于較多非文本區(qū)域的問題,從顯著性區(qū)域考慮:一方面,文本定位應(yīng)用一般是為場景字符識別做基礎(chǔ),于是當(dāng)我們拿著智能手機(jī)或者攝像機(jī)來獲取這些圖像時,一般會對準(zhǔn)字符,以便使字符落在鏡頭里;另一方面,從人們設(shè)置場景文本目的出發(fā),場景中的文本集中于海報(bào)、廣告牌、店名、提示、警告等,所有這些都是為了引起人們的注意,所以,文本大部分是場景中的顯著區(qū)域。從這2個方面出發(fā),可以利用目前較好的顯著區(qū)域檢測方法來濾除非文本的連通區(qū)域。

    為了將顯著性用于濾除非文本區(qū)域,首先要計(jì)算出整幅圖像的顯著性均值,在得到候選的連通域后,再計(jì)算連通域所包圍的原圖部分的顯著性均值。如果這部分均值大于整幅圖像的,那么就保留相應(yīng)的連通域,否則丟棄。整個過程如圖4所示。

    這里的顯著性映射是將圖像抽樣成一些隨機(jī)的感興趣區(qū)域[10]。采用這種方法的理由主要是這一方法僅需要調(diào)節(jié)一個參數(shù),運(yùn)算時間中等,并且能夠在原圖上進(jìn)行操作。其流程如圖5所示,對于一幅圖像,第1步,用高斯濾波器進(jìn)行濾波并將三原色(red,green,blue,RGB)空間轉(zhuǎn)換成Lab空間;第2步,隨機(jī)生成n個窗口,對于每個窗口,計(jì)算出面積Area與灰度和sum的比,即

    然后,依據(jù)(6)式計(jì)算窗口中每個像素Ii,j的顯著性映射

    圖4 基于顯著性的區(qū)域?yàn)V除Fig.4 Region filter based on saliency

    圖5 顯著性提取流程圖Fig.5 Flow of saliency extraction

    第2步是在3個通道上分別進(jìn)行的,所以最后的顯著性映射要采用歐式距離把顏色空間的顯著值融合在一起。

    此外,采用字符的先驗(yàn)信息如大小、長寬的比例來濾除,但沒有像一般連通域分析方法那樣引入眾多參數(shù)來進(jìn)行濾除。有了前面的基礎(chǔ),我們可以僅僅用大小和長寬比這2個先驗(yàn)信息來濾除。而字符連成文本詞,也沒有采用訓(xùn)練的方式獲取字符間的連接關(guān)系來得到文本詞,而是采用形態(tài)學(xué)的膨脹腐蝕來實(shí)現(xiàn)。顯著性濾除和文本行構(gòu)造如圖6所示,圖6a表示顯著性映射的灰度圖,同樣,將灰度范圍用顏色藍(lán)到紅進(jìn)行映射得到圖6b,從圖6b可以看出,文本區(qū)域?qū)儆诩t色區(qū)域,代表其顯著值高,而背景部分屬于藍(lán)色,代表其顯著值低。將圖3得到的亮暗文本經(jīng)過顯著性濾除后可以得到圖6c,對圖6c進(jìn)行水平方向膨脹,然后根據(jù)文本行的長寬比進(jìn)行濾除可以得到圖6d。

    圖6 顯著性濾除Fig.6 Filter based on saliency

    2 實(shí)驗(yàn)結(jié)果及分析

    為了驗(yàn)證本文方法的有效性,采用的是公開發(fā)表的ICDAR 2003文本定位競賽數(shù)據(jù)集[7]。該數(shù)據(jù)集包含2部分:一部分用來訓(xùn)練;另一部分用于測試。由于沒有采用學(xué)習(xí)的方式,我們利用測試部分的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。測試部分?jǐn)?shù)據(jù)包含251張來自不同場景,不同光照和不同像素大小的圖片。評價標(biāo)準(zhǔn)采用的是正確率和召回率,可以表示為

    (8)式中:正確率p等于正確估計(jì)的目標(biāo)個數(shù)c除以總共估計(jì)的目標(biāo)總數(shù);召回率r為正確估計(jì)的目標(biāo)個數(shù)c 除以圖像中原有的目標(biāo)總數(shù)。因?yàn)槎ㄎ幌到y(tǒng)標(biāo)記的方框無法和人類標(biāo)記的一模一樣,所以為了使評價標(biāo)準(zhǔn)更加合理,ICDAR2003文本定位競賽重新定義了正確率和召回率。首先,定義2個矩形(e1,e2)的重合度ma為2倍的交叉面積除以各自面積的和,即

    (9)式中,a(e)是矩形e的面積。對于一系列的矩形E,某個矩形e與其的最佳匹配為

    新的正確率和召回率可定義為

    另外,綜合了正確率和召回率的f測量可定義為

    表1列出不同算法在ICDAR2003數(shù)據(jù)集上的性能,文獻(xiàn)[11]是采用連通域分析的方法,文獻(xiàn)[11]中定義了6個不同類型的先驗(yàn)信息,如文本區(qū)域的大小、區(qū)域的交叉比例、區(qū)域輪廓梯度等來濾除非文本區(qū)域。有了顯著性的評估,本文僅采用2個更加合理的先驗(yàn)信息來濾除非文本,分別為文本區(qū)域的大小和高寬比,本文設(shè)定為

    (14)—(15)式中:area代表文本連通域的大小;width代表圖像的寬度;height代表圖像的高度。

    表1 文本定位算法評估Tab.1 Evaluation of text detection algorithm

    文獻(xiàn)[2]是采用訓(xùn)練的方法,這一方法需要在多個尺度上對圖像進(jìn)行處理,而且必須預(yù)先有訓(xùn)練的樣本。本文方法能在原圖上進(jìn)行處理,無需訓(xùn)練的數(shù)據(jù)和流程。從表1可以看出,后4行是一些參加競賽的算法。前2種方法也都是基于訓(xùn)練的,采用的分類器為支持向量機(jī),不同的是提取的特征,分別為邊緣特征和紋理特征。后面2種是基于連通域分析和先驗(yàn)信息濾除。從表1可以看出,本文算法正確率達(dá)到了68%,召回率為60%,優(yōu)于其他的算法。部分定位效果如圖7所示,分別選取了幾種不同的情況,分別為大字體、側(cè)面角度、草地干擾、一般情況以及窗戶干擾。從圖7可以看出,本文方法能夠有效地去除磚頭、草地、窗戶等影響。

    圖7 一些文本定位的例子,文本區(qū)域由藍(lán)色標(biāo)記Fig.7 Some example results of text localization,and the localized text regions are marked in blue

    3 結(jié)束語

    最大極值穩(wěn)定區(qū)域?qū)τ趨^(qū)域的視點(diǎn)、尺度、光照的變化有較強(qiáng)的魯棒性,但是對于圖像模糊和灰度對比度不強(qiáng)烈的區(qū)域效果下降很多,這時通過對原圖進(jìn)行聚類,然后二值化,能夠進(jìn)一步將潛在的字符區(qū)域提取出來。而引入的非字符區(qū)域能夠通過顯著性和一些先驗(yàn)信息進(jìn)行有效地濾除。本文在公開發(fā)表的ICDAR 2003文本定位競賽數(shù)據(jù)集上進(jìn)行測試,驗(yàn)證了本文方法的有效性。

    [1]LEE J J,LEE P H,LEE S W,et al.AdaBoost for Text Detection in Natural Scene[C]//CHAUDHURI B B.ICDAR.Los Alamitos:IEEE Computer Society,2011:429-434.

    [2]GRZEGORZEK M,LI C,RASKATOW J,et al.Texture-Based Text Detection in Digital Images with Wavelet Features and Support Vector Machines[C]//BURDUK.Proceedings of the 8th International Conference on Computer Recognition Systems CORES 2013.Wroclaw:Springer International Publishing,2013:857-866.

    [3]GATOS B,PRATIKAKIS I,KEPENE K,et al.Text detection in indoor/outdoor scene images[C]//Proc.First Workshop of Camera-based Document Analysis and Recognition.Seoul:IEEE Computer Society,2005:127-132.

    [4]周慧燦,劉瓊,王耀南.基于顏色散布分析的自然場景文本定位[J].計(jì)算機(jī)工程,2010,36(8):197-199.

    ZHOU Huican,LIU Qiong,WANG Yaonan.Text Location in Natural Scenes Based on Color Distribution Analysis[J].Computer Engineering,2010,36(8):197-199.

    [5]PAN Y F,HOU X,LIU C L.A hybrid approach to detect and localize texts in natural scene images[J].Image Processing,IEEE Transactions on,2011,20(3):800-813.

    [6]MATAS J,CHUM O,URBAN M,et al.Robust widebaseline stereo from maximally stable extremal regions[J].Image and vision computing,2004,22(10):761-767.

    [7]LUCAS S M,PANARETOS A,SOSA L,et al.ICDAR 2003 robust reading competitions:entries,results,and future directions[J].International Journal of Document A-nalysis and Recognition(IJDAR),2005,7(2-3):105-122.

    [8]VEDALDI A,SOATTO S.Quick shift and kernel methods for mode seeking[M].Berlin Heidelberg:Springer International Publishing,2008:705-718.

    [9]COMANICIU D,MEER P.Mean shift:A robust approach toward feature space analysis[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2002,24(5):603-619.

    [10]VIKRAM T N,TSCHEREPANOW M,WREDE B.A saliency map based on sampling an image into random rectangular regions of interest[J].Pattern Recognition,2012,45(9):3114-3124.

    [11]YI C,TIAN Y.Assistive text reading from complex background for blind persons[M].Berlin Heidelberg:Springer International Publishing,2012:15-28.

    猜你喜歡
    極值灰度聚類
    采用改進(jìn)導(dǎo)重法的拓?fù)浣Y(jié)構(gòu)灰度單元過濾技術(shù)
    極值點(diǎn)帶你去“漂移”
    基于灰度拉伸的圖像水位識別方法研究
    極值點(diǎn)偏移攔路,三法可取
    一類“極值點(diǎn)偏移”問題的解法與反思
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    基于最大加權(quán)投影求解的彩色圖像灰度化對比度保留算法
    基于灰度線性建模的亞像素圖像抖動量計(jì)算
    基于改進(jìn)的遺傳算法的模糊聚類算法
    匹配數(shù)為1的極值2-均衡4-部4-圖的結(jié)構(gòu)
    郴州市| 五华县| 靖江市| 吉林省| 兴安盟| 沁阳市| 彭水| 永川市| 平果县| 西青区| 喀喇沁旗| 乌恰县| 五家渠市| 观塘区| 台中县| 海淀区| 玛多县| 宕昌县| 白银市| 洪雅县| 广州市| 都匀市| 彭泽县| 西乌珠穆沁旗| 土默特左旗| 镇宁| 赤水市| 永城市| 获嘉县| 淅川县| 屏南县| 久治县| 宣城市| 报价| 莱芜市| 苏尼特右旗| 波密县| 武宁县| 尤溪县| 阳城县| 蒙城县|