姚麗君 李浪
摘要:近年來,數(shù)字圖像的數(shù)量急劇上漲。通常數(shù)字圖像中所包含的文字信息對于圖片內容的理解、索引和檢索具有重要意義。該文介紹了計算機對圖像中文字自動識別和提取的主要步驟和技術難點;并提出了在靜態(tài)圖像文字提取技術中的幾個設想。
關鍵詞:文字提??;靜態(tài)圖像;文字檢測
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)33-7991-02
Abstract: In recent years, the number of digital images has increased dramatically. Generally speaking, the text information digital image containsis of great significance to understand, index and retrieve the content of the images.Consequently this paperintroduces the the main steps and technical difficulties for a computer torealize automatic recognition and extraction of image texts and at last puts forward some ideas aboutthe techniques of extracting texts from still images.
Key words: text extraction;still image;text detection
1 研究背景
隨著計算機科學的飛速發(fā)展,以圖像為主的多媒體信息迅速成為重要的信息傳遞媒介,在圖像中,文字信息(如新聞標題等字幕)包含了豐富的高層語義信息,提取出這些文字,對于圖像高層語義的理解、索引和檢索非常有幫助。圖像文字提取又分為動態(tài)圖像文字提取和靜態(tài)圖像文字提取兩種。其中,靜態(tài)圖像文字提取是動態(tài)圖像文字提取的基礎,其應用范圍更為廣泛,對它的研究具有基礎性,所以本文主要討論靜態(tài)圖像的文字提取技術。
2 主要技術
如何從一幅靜態(tài)圖像中提取出我們感興趣的文字,一般需要經過以下幾個步驟:
第一,文字的檢測,即先在圖像中定位文字區(qū)域,這里可以利用文字自身的一些先驗知識和特征來達到目的。
第二,圖像增強,改善字符區(qū)域的圖像質量,提高圖像水平和垂直方向的分辨率。
第三,字符的分割與提取,即對字符區(qū)域進行二值化處理。
第四,字符的識別,采用目前成熟的光學字符識別(OCR)技術來進行識別。
2.1 文字檢測
1) 基于邊緣的文字檢測方法,即通過尋找垂直邊緣來檢測文字。這種方法能夠快速的檢測文字,但是該方法不能適應圖像背景的復雜變化,檢測的錯誤率較高。
2) 基于紋理的文字檢測方法,即利用紋理的特征去決定一個像素點或像素區(qū)域是否屬于文字。這種方法對于復雜背景中的文字能夠較好的檢測出,但是這種算法也存在著定位不準和算法復雜度較高的缺點。
3) 基于區(qū)域的文字檢測方法是把字符作為滿足特定啟發(fā)式規(guī)則的單色區(qū)域來檢測。該方法的處理速度快并且定位精確,但是只適用于二值圖像,具有局限性。
4) 基于學習的文字檢測方法就是引入學習機機制,先通過選取的樣本來對學習機進行訓練,然后再用訓練好的學習機來檢測文字,因此該方法的訓練樣本集與測試樣本集的相似程度就決定了最終的識別效果。
2.2 圖像增強
圖像增強技術的使用,主要是為了通過一定手段對圖像中附加一些信息或變換數(shù)據(jù),突出文字的特征而抑制或掩蓋非文字區(qū)域中的特征,使得在下一步驟中更好的進行字符分割與提取處理。圖像增強分為兩大類:頻率域法和空間域法。前者一般采用低通濾波法來去掉圖中的噪聲;采用高通濾波法來增強邊緣等高頻信號,使圖片變得清晰。后者常用局部求平均值法和中值濾波法來去除或減弱圖片中噪聲,以達到清晰化圖片的目的。
2.3 字符分割與提取
字符的分割與提取其實是屬于圖像分割技術范疇的,只不過在進行分割時還應該把字符本身的一些特性考慮進去,如:文字一般位于前端,不會被遮擋;文字一般是單色的;一幅圖片中的文字大寫比較固定;文字的分布比較集中;文字的排列方向一般為水平或垂直等。目前彩色圖像分割技術主要采用的方法有:直方圖閥值化,特征空間聚類分析方法,基于區(qū)域的方法,邊緣檢測,模糊技術,人工神經網絡和基于物理模型的方法等。這部分研究我們可以考慮將文字自身特性和已有的彩色圖像分割方法融合到一起,另外結合其他學科優(yōu)秀的知識成果也是一個不錯的選擇,這是我接下來研究的方向。
2.4 字符識別
目前,字符的識別技術是比較成熟的,一般我們用現(xiàn)有的OCR系統(tǒng)就可以完成字符的識別工作。特別需要考慮的是:分割出來的文字可能由于圖像分辨率較低而達不到較好的識別效果,這時我們就需要先對分割出來的文字區(qū)域再進行一定的增強處理,之后再來識別。當然,也可以考慮優(yōu)化現(xiàn)有的識別系統(tǒng),以達到更好的識別效率。
3 結束語
隨著計算機技術、多媒體技術以及通訊技術的飛速發(fā)展,信息量急劇增長,相當多的新增信息都是以數(shù)字形式存在著,它們不僅包括文字和聲音,更多的是圖形、圖像和視頻等視覺信息,因此,如何管理和檢索海量的圖像和視頻數(shù)據(jù)已經成為全球學術界和工業(yè)界一個富有挑戰(zhàn)性的熱門話題之一。在此形勢下,基于內容的多媒體檢索的研究和被稱為多媒體內容描述接口的國際標準MPEG-7的制定也就引起了人們廣泛的關注,而圖像中的文字,尤其是網頁和視頻圖像中的文字,就是其一個高層語義的來源。實踐證明,這些文字對圖像和視頻的高層語義索引和檢索是非常有價值的,雖然人眼可以輕而易舉地識別出這些文字,但對于計算機來說,這些文字的獲取還面臨很大困難。正如本文所綜述的,現(xiàn)有的許多工作對這些難題都做了有益的嘗試和得到一定程度上的解決,但其結果離實用化還有相當?shù)木嚯x,需要國內外學者的繼續(xù)努力。
參考文獻:
[1] 楊磊.復雜背景圖像中文本檢測與定位研究[D].廣州:華南理工大學,2013.
[2] 周翔,陳會,張鍇,宋懷波.復雜背景下的圖像文本區(qū)域定位方法研究[J].計算機工程與應用,2013,49(12):101-105.
[3] 孫巧榆.復雜背景圖像的文本信息提取研究[D].上海:華東師范大學,2012.
[4] 陳慶民.圖像文本提取系統(tǒng)設計及應用研究[D].上海:上海交通大學,2011.
[5] Su Lu.DCT coefficient based text detection[D].newark:the University of Delaware,2008.
[6] 戴維,張申生.基于二值化聚類的圖像文字提取算法[J].計算機應用,2009,29(1):57-59.