• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自然場景圖像中的文本檢測方法研究

      2016-03-25 06:23:18李東勤周萬懷
      關(guān)鍵詞:字符邊緣特征

      李東勤 王 芳 周萬懷

      (安徽財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院, 安徽 蚌埠 233030)

      自然場景圖像中的文本檢測方法研究

      李東勤 王 芳 周萬懷

      (安徽財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院, 安徽 蚌埠 233030)

      研究自然場景中的文本檢測與定位方法,總結(jié)文本檢測的研究現(xiàn)狀,并對主流算法進(jìn)行了分類和對比。

      自然場景圖像; 文本檢測; 文本定位; 文本/非文本分類

      從自然場景圖像中自動提取其中的文字信息,成為計算機視覺、模式識別、文檔分析識別等技術(shù)方向的一個研究熱點。自然場景文字提取與識別技術(shù)在基于內(nèi)容的圖像檢索、智能交通、智能翻譯、視頻內(nèi)容分析等領(lǐng)域應(yīng)用廣泛。自然場景圖像中的文本提取包括3個核心技術(shù):文本檢測與定位、文本分割與增強、文本識別。文本檢測與定位技術(shù)用于確定自然場景圖像中文本的位置,并找出這些文本的邊界。文本分割技術(shù)用于去除文本周圍的背景,從而簡化后面的文本識別問題。對分割之后的文本作進(jìn)一步增強非常重要,因為自然場景圖像中的文本很多時候分辨率很低、模糊且有噪聲。文本識別是對前面處理之后的圖像進(jìn)行識別, 從而最終得到相應(yīng)的文本信息。

      1 文本檢測問題難點

      傳統(tǒng)的光學(xué)字符識別(OCR)軟件僅用于文檔圖像。文檔圖像一般通過高精度掃描得到,具有分辨率高、背景簡單等特點,文字識別的難度較小。相比之下,自然場景圖像更加復(fù)雜,文本檢測與定位更加困難。

      普通文檔布局格式通常相對固定,內(nèi)容以字符為主;而自然場景圖像中的文本沒有明顯的布局特征與規(guī)律可循,可能在圖像中任何不確定的位置出現(xiàn)。

      普通文檔圖像背景通常比較單一,往往為白底黑字;而自然場景圖像中的文本背景錯綜復(fù)雜,可出現(xiàn)顏色的變化、噪聲的疊加及光照亮度的變化等。

      普通文檔圖像一般是由光電掃描設(shè)備獲得,幾乎不會引起幾何變形;而自然場景中的圖像,受移動終端設(shè)備的拍攝角度、光照均勻度等因素影響,會發(fā)生幾何變形或透視變形等。

      自然場景圖像雖比較復(fù)雜,但自然場景下的文本特征仍有規(guī)律可循:

      (1) 文本的筆畫特征。筆畫是文本圖像的一個顯著特征,與背景存在較大差異,其寬度、紋理、顏色及強度都與背景大不相同。筆畫信息可作為自然場景圖像中文本檢測與定位的一個重要特征。

      (2) 文本的顏色和亮度。自然場景圖像中的文本顏色、亮度與其背景相差較大,很容易發(fā)現(xiàn)及辨識。盡管有些場景中文本顏色與背景相近,但文本的邊緣與背景必然明顯可分,否則人眼也無法認(rèn)知這些文本。文本顏色與亮度可作為自然場景中文本檢測與定位的另一個重要特征。

      2 文本檢測與定位算法研究

      研究人員提出的多種復(fù)雜場景文本檢測定位算法,總體可分為4類:基于連通區(qū)域的方法、基于紋理的方法、基于邊緣的方法和基于機器學(xué)習(xí)的方法。

      2.1 基于連通區(qū)域的方法

      采用基于連通區(qū)域分析的方法,首先需假設(shè)同一區(qū)域的字符具有相似的顏色和亮度,并且與背景區(qū)域的顏色存在較大差異,可采用自底向上的方法從圖像中提取連通區(qū)域;然后利用幾何約束構(gòu)造啟發(fā)式規(guī)則進(jìn)行連通域分析,合并子區(qū)域,得到最終的文本區(qū)域。

      Shivakumara等人提出了利用頻域拉普拉斯(Laplacian)算子和連通元骨架與分割技術(shù)進(jìn)行視頻文本檢測的方法[1]。文中所針對的視頻文本與自然場景圖像中的文本類似,文本任意方向排列,但均呈直線。首先,使用傅里葉-拉普拉斯算子(Fourier-Laplacian)對輸入圖像進(jìn)行濾波,然后運用K均值聚類法來確認(rèn)最大差異圖的候選文本區(qū)域的像素;其次,獲取各個連通元的骨架并將連通元分成“簡單”和“復(fù)雜”兩類;保留“簡單”的連通元,將“復(fù)雜”的連通元進(jìn)一步分割成多個“簡單”的連通元,最后計算字符串的平直度和邊緣強度,排除非文本區(qū)域。該方法用于處理視頻中水平排列中文文本時,召回率和精確度分別是79%和75%;用于水平排列英文文本時,召回率和精確度分別是86%和82%;用于非水平排列中文文本時,召回率和精確度分別是81%和74%;用于非水平排列英文文本時,召回率和準(zhǔn)確度分別為85%和77%;用于ICDAR2003數(shù)據(jù)集時,召回率和精確度分別是86%和76%;用于Microsoft Asia數(shù)據(jù)集時,召回率和精確度分別是93%和81%。

      Epshtein等人首先利用沿著邊緣點梯度方向的射線對邊緣圖像進(jìn)行筆畫寬度變換,然后在筆畫寬度變換圖像中通過聯(lián)通域分析得到一系列連通分量,接著利用文本分量筆畫寬度等特性,定義驗證規(guī)則,過濾不符合規(guī)則的非文本分量,最后通過布局分析和文本行聚合,將驗證后的候選文本分量聚合成文本行,得到最終的文本區(qū)域[2]。該算法考慮了字符的筆畫寬度特性,用于自然場景圖像中的文本檢測與定位效果較好。

      Chen等人提出邊緣增強的最穩(wěn)定區(qū)域(Maximally Stable Extremal Regions,MSER)檢測方法,用于候選字符提取,然后利用幾何與筆畫寬度信息定義過濾機制,用于去除非文本對象,最后將候選字符聚合成文本行[3]。ICDAR(International Conference on Document Analysis and Recognition)數(shù)據(jù)集的實驗結(jié)果表明,該算法對于自然場景圖像具有很好的定位功能。

      Agnihotri和 Dimitrovalg首先對圖像進(jìn)行增強處理,然后在RGB色彩空間中取紅色元素,利用紅色元素得到文本的高反差邊緣信息,對這些邊緣進(jìn)行處理得到一個表示連通分量的二值圖像,最后將經(jīng)過分割處理后的文本區(qū)域送入OCR進(jìn)行識別[4]。

      Shi等人提出了一種基于最大穩(wěn)定極值區(qū)域圖模型的場景文字檢測方法。在原始圖像中檢測MSERs,將MSERs中的不規(guī)則圖形標(biāo)記為文本區(qū)域,利用一組精心設(shè)計的特征組合去評估MSER節(jié)點是否為真實的文本區(qū)域[5]。

      Yi等人提出了一種利用局部梯度特征進(jìn)行文本區(qū)域檢測的方法。利用字符元素的顏色具有均勻性這一特點分割圖像,得到候選文本字符,再根據(jù)字符大小、排列方式等特征對候選文本字符進(jìn)行合并處理,得到最后的文本區(qū)域[6]。

      2.2 基于邊緣特征的方法

      自然場景中的文本都具有標(biāo)識作用,如廣告、標(biāo)語等。這些文本的顏色、亮度與背景都存在不同的對比度,具有豐富的邊緣信息。因此,邊緣特征成為了文本區(qū)域檢測中廣泛使用的特征之一。

      Zhang等人提出了一種基于角點和筆畫寬度的多尺度視頻文本檢測方法。首先在不同尺度中進(jìn)行角點檢測,生成候選文本區(qū)域,再利用筆畫寬度的一些特性對非文本區(qū)域進(jìn)行過濾[7]。

      Meng等人提出了一種基于邊緣的文本定位方法。通過兩步邊緣進(jìn)行分析,即候選邊緣合并和邊緣分類。在候選邊緣合并階段,將輸入的圖像邊緣分成一些小段,然后對具有像素顏色和筆畫寬度的相鄰邊緣段進(jìn)行合并[8]。通過這一步,使每一個字符都可由一個邊緣段集合進(jìn)行描述。由于自然環(huán)境中很少出現(xiàn)單個文字,因此,在邊緣分類階段,釆用基于字符和字符鏈特征的分類器將候選文本區(qū)域邊緣連接成文本行。在公開數(shù)據(jù)庫ICDAR2011和 SVT(Street View Text Database)上進(jìn)行了測試,結(jié)果表明該算法的性能優(yōu)于其他類似算法。

      Zhao等人利用角點檢測的方法得到視頻圖像的候選文本區(qū)域,然后根據(jù)文本區(qū)域的幾何結(jié)構(gòu)特征制定了一系列啟發(fā)式規(guī)則,利用這些規(guī)則對檢測到的候選文本區(qū)域進(jìn)行判定,得到最終的文本區(qū)域[9]。

      基于邊緣的文本定位方法時間復(fù)雜度低,比較適用于圖像中文本與背景對比度相差較大的情況,文本定位準(zhǔn)確率更高??梢杂行У囟ㄎ粓D像中不同字體、大小、排列方向的文本,然而當(dāng)遇到背景十分復(fù)雜的文本圖像時,誤檢率較高。自然場景中樹枝、樹葉等一些具有強烈邊緣信息的元素易被誤判為文本。

      2.3 基于紋理特征的方法

      基于紋理特征的文本檢測方法將文本視為一種特殊的紋理,這種紋理特征是由于字符特定的排列方向以及字符顏色與背景顏色周期性變化而產(chǎn)生的。通常采用Gabor變換、小波變換和傅里葉變換等方法檢測文本的紋理特征,根據(jù)紋理特征得到文本區(qū)域。

      Kim等人將像素的亮度值作為SVM分類器的輸入值,根據(jù)紋理特征將視頻圖像中的像素點區(qū)分為文本像素和非文本像素,最后利用連通域分析方法得到文本區(qū)域[10]。

      Shivakumara提出了一種基于傅里葉統(tǒng)計特征的視頻文本定位方法,對輸入圖像的RGB三通道分別進(jìn)行傅里葉變換,采用滑動窗口提取傅里葉統(tǒng)計特征,使用K均值算法將提取的特征分為文本和背景2類[11]。進(jìn)行投影分析后,采用基于知識規(guī)則篩選非文本區(qū)域,最后給出定位結(jié)果。

      Chun等人提出了一種結(jié)合快速傅里葉變換和神經(jīng)網(wǎng)絡(luò)的文本區(qū)域定位算法,他們首先使用快速傅里葉變換得到文本區(qū)域的高頻分量,然后通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對這些高頻分量進(jìn)行判斷,得到候選文本區(qū)域,最后通過一些經(jīng)驗規(guī)則來得到最終的文本區(qū)域。

      基于紋理的方法受文本字體、大小的影響較小,可以識別各類文字,具有魯棒性,通用性較好;但是這種方法實現(xiàn)起來計算復(fù)雜,比較耗時[12]。另外,如何選用有效的紋理特征是該類算法的一個難點。

      2.4 基于機器學(xué)習(xí)的方法

      采用基于機器學(xué)習(xí)的文本檢測定位方法,首先采集訓(xùn)練樣本,提取出有效的文本特征,用分類器進(jìn)行訓(xùn)練,分類器通常有SVM、BP 神經(jīng)網(wǎng)絡(luò)、隨機森林等;然后用基于區(qū)域、紋理或邊緣的方法進(jìn)行文本初步定位,得到候選文本區(qū)域,并提取出候選文本區(qū)域的特征,送入已經(jīng)訓(xùn)練好的分類器進(jìn)行判級分類;最后將得到的文本區(qū)域進(jìn)行水平或垂直方向合并,得到最終的文本區(qū)域。

      Shao等人通過對字符分類提出了一個定位文本的方法。首先利用雙邊緣模型從輸入圖像中提取and-valley圖AVI和and-ridge 圖ARI;然后分別從AVI和ARI中檢測連通元,并將這些連通元送入一個支持向量機(Support Vector Machine, SVM)中判別其為字符或非字符;最后通過合并所有可能的字符來生成文本區(qū)域[13]。

      Wang等人從大量視頻幀圖像中選取了1 000個文本區(qū)域和 2 000個非文本區(qū)域進(jìn)行訓(xùn)練,用支持向量機SVM根據(jù)預(yù)先標(biāo)記好的數(shù)據(jù)來確定文本區(qū)域[14]。

      Jung等人設(shè)計了一種用于檢測文本區(qū)域的筆畫濾波器,然后提取灰度密度和常量梯度向量,用支持向量機SVM訓(xùn)練這些特征,進(jìn)行文本區(qū)域分類[15]。

      3 自然場景圖像文本檢測存在的問題

      自然場景文本檢測是實現(xiàn)文本識別的前提條件,其檢測性能將直接影響到后續(xù)的識別結(jié)果。然而根據(jù)文檔分析與識別國際會議(ICDAR)組織的自然場景文本檢測國際競賽的最新結(jié)果[16],競賽冠軍的召回率為66.45%、精度為88.47%、綜合評價指標(biāo)為75.89%。對于一般性自然場景文本而言,即便是最頂級的文本檢測算法,其檢測性能也很難達(dá)到實用水平。該技術(shù)仍有以下問題亟待解決:

      (1) 算法缺乏通用性。目前大部分自然場景文本檢測算法主要針對水平方向排列的文本區(qū)域展開研究,然而在現(xiàn)實自然場景中,文字的排列方向是任意的,因此,現(xiàn)有的算法很難有效地對任意方向排列的文字區(qū)域進(jìn)行檢測。

      (2) 多數(shù)檢測算法僅能處理單一性文字語種。目前大部分自然場景文本檢測算法主要針對英文和阿拉伯?dāng)?shù)字所組成的文本區(qū)域進(jìn)行檢測,少部分檢測算法針對中文文字區(qū)域進(jìn)行檢測,極少部分檢測算法針對其他語種或者混合語種文字區(qū)域進(jìn)行檢測。

      (3) 處理復(fù)雜自然場景時缺乏魯棒性。首先,復(fù)雜自然場景中一些與文字相似的背景區(qū)域比較難以剔除從而導(dǎo)致虛警,同時文字區(qū)域的誤識別也會導(dǎo)致漏檢。自然場景中疊加文字區(qū)域之間相互干擾,從而導(dǎo)致此類情況下的文字檢測問題未能得到有效的解決。此外,很難有效地對小尺寸文字區(qū)域進(jìn)行檢測,即便可以對小尺寸文字進(jìn)行放大處理,但同時也會降低文字與背景之間的對比度。

      自然場景類文本檢測是極具挑戰(zhàn)性的圖像處理工作。目前上述類似問題尚未得到解決,因此自然場景文本檢測系統(tǒng)較難設(shè)計,此類系統(tǒng)還很少見?,F(xiàn)有已初步應(yīng)用的自然場景文字檢測系統(tǒng)只能處理比較簡單的情況(如:車牌檢測、特定約束條件下的文字檢測等),而復(fù)雜自然場景圖像中的文本檢測技術(shù)遠(yuǎn)沒有達(dá)到實際應(yīng)用的水平,仍需深入研究。

      [1] SHIVAKUMARA P,PHAN T Q,TAN C L.A Laplacian Approach to Multi-Oriented Text Detection in Video [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(2):412-419.

      [2] EPSHTEIN B,OFEK E,WEXLER Y.Detecting Text in Natural Scenes With Stroke Width Transform [C]∥Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition.2010:2963-2970.

      [3] CHEN H,TSAI S S,SCHROTH G,et al.Robust Text Detection in NaturaImages With Edge-Enhanced Maximally Stable Extremal Regions[C]∥Image Processing (ICIP),2011 18th IEEE International Conference.2011:2609-2612.

      [4] AGNIHOTRI L,DIMITROVALG N.Text Detection for Video Analysis[C]∥Proceeding International Conference on Multimedia Computing and Systems.1999:109-113.

      [5] SHI C Z,WANG C H,XIAO B H,et al.Scene Text Detection Using Graph Model Built Upon Maximally Stable External Regions[J].Pattern Recognition Letters,2013,34(2):107-116.

      [6] YI C,TIAN Y.Text String Detection From Natural Scenes by Structure-Based Partition and Grouping[G].IEEE Transactions on Image Processing,2011,20(9):2594-2605.

      [7] ZHANG B Y,LIU J F,TANG X L.Multi-Scale Video Text Detection Based on Corner and Stroke Width Verification[C]∥ Visual Communications and Image Processing,Kuching.2013:17-20.

      [8] MENG Q,SONG Y H,ZHANG Y L,et al.Text Detection in Natural Scene With Edge Analysis[C]∥International Conference on Image Processing (ICIP2013).2013:4151-4155.

      [9] ZHAO X,LIN K H,F(xiàn)U Y.Text from Corners:A Novel Approach to Detect Text and Caption in Videos[J].IEEE Transactions on Image Processing,2011,20(3):790-799.

      [10] KIM K I,JUNG K,KIM J H.Texture-based Approach for Text Detection in Images Using Support Vector Machines and Continuously Adaptive Mean Shift Algorithm[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(12):1631-1639.

      [11] SHIVAKUMARA P,PHAN T Q,TAN C L.New Fourier Statistical Features in RGB Space for Video Text Detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2010,20 (11):1520-1532.

      [12] CHUN B T,BAE Y,KIM T Y.Automatic Text Extraction in Digital Videos Using FFT and Neural Network[C]∥ Proceedings of IEEE International Conference on Fuzzy Systems.1999:1112-1115.

      [13] SHAO Y X,WANG C H,XIAO B H,et al.Text Detection in Natural Images Based on Character Classification,in Advances in Multimedia Information Processing-PCM 2010[M].Springer Berlin:[s.n.],2011:736-746.

      [14] WANG X,HUANG L,LIU C.A New Block Partitioned Text Feature for Text Verification[C]∥Proceedings of International Conference on Document Analysis and Recognition.2009:366-370.

      [15] JUNG C,LIU Q,KIM J.A Stroke Filter and Its Application to Text Localization[J].Pattern Recognition Letters,2009,30(2):114-122.

      [16] KARATZAS D,SHAFAIT F,UCHIDA S,et al.ICDAR 2013 Robust Reading Competition[C]∥Proceedings of the 12th International Conference on Document Analysis and Recognition.2013:1484-1493.

      Research on Text Detection of Natural Scene Image

      LIDongqinWANGFangZHOUWanhuai

      (College of Management Science and Engineering, Anhui University of Finance and Economics,Bengbu Anhui 233030, China)

      This paper focuses on the research of the key technologies of text detection and text location from natural scene images. And based on research status of text detection, a comparison study is conducted on categorized algorithm.

      natural scene image; text detection; text location; text/non-text classification

      2016-08-26

      國家自然科學(xué)基金項目“基于近紅外光譜學(xué)的機采籽棉雜質(zhì)含量快速檢測方法研究”(31601224);安徽財經(jīng)大學(xué)2016年度校級科研項目“自然場景圖像文本信息提取關(guān)鍵問題研究”(ACKY1652)

      李東勤(1981 — ),女,江蘇鹽城人,碩士,講師,研究方向為圖像處理、模式識別、數(shù)字水印。

      TP317

      A

      1673-1980(2016)06-0108-04

      猜你喜歡
      字符邊緣特征
      尋找更強的字符映射管理器
      如何表達(dá)“特征”
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計
      電子制作(2019年19期)2019-11-23 08:41:50
      不忠誠的四個特征
      消失的殖民村莊和神秘字符
      抓住特征巧觀察
      一張圖看懂邊緣計算
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      在邊緣尋找自我
      雕塑(1999年2期)1999-06-28 05:01:42
      泗水县| 昭通市| 梅河口市| 札达县| 宁远县| 七台河市| 三河市| 定西市| 夏河县| 尚义县| 塔河县| 葫芦岛市| 临猗县| 金山区| 新昌县| 泗阳县| 新巴尔虎左旗| 缙云县| 肇源县| 沙河市| 武功县| 微山县| 同德县| 元谋县| 宜昌市| 垣曲县| 东阿县| 万荣县| 襄樊市| 改则县| 泽州县| 丰都县| 泰顺县| 东乡县| 淳化县| 本溪| 湘阴县| 大兴区| 虞城县| 堆龙德庆县| 启东市|