劉振華,胡 佳,朱陽端
(長沙航空職業(yè)技術(shù)學(xué)院,湖南 長沙 410124)
自然場景中的文字包含了豐富的語義信息,提取和識別這些文字對于完整地理解和認(rèn)知自然場景圖像具有重要的意義。自然場景下的文本信息提取概括起來可以分為三個(gè)步驟:文本獲取,文本定位,文本識別[1]。其中文本定位前,通常需要對源圖像進(jìn)行預(yù)處理,降低源圖像的復(fù)雜程度。由于圖像來源的多樣性,圖像采集、存儲設(shè)備的制約和圖像獲取條件等諸多方面的因素,比如,文字背景千變?nèi)f化,與文字特征類似的場景元素非常普遍,如樹枝、門窗、欄桿等等。文字的光照、遮擋、陰影和觀察角度導(dǎo)致的幾何形變等等。文本提取算法所面對的自然圖像的質(zhì)量是有很大的差別的,這些差別會導(dǎo)致文本提取算法的適應(yīng)性問題[2]。
研究發(fā)現(xiàn),當(dāng)圖像質(zhì)量較低時(shí),單一的顏色會出現(xiàn)較大的擾動(dòng),增加圖像的復(fù)雜程度,如圖1(a)所示;但是,如果是高質(zhì)量的圖像,精細(xì)地再現(xiàn)了自然場景中的細(xì)微差別,只會導(dǎo)致圖像更加復(fù)雜,反而不利于文本的提取,如圖1(b)所示。上述兩種情形都將導(dǎo)致同一個(gè)問題——即使是視覺上單一的顏色,實(shí)際上也是有差異的,顯然文本提取之前應(yīng)當(dāng)消除這些差異,減少后續(xù)處理的難度。
圖1 圖像質(zhì)量對圖像復(fù)雜度的影響
基于上述原因,文本提取之前的圖像預(yù)處理,并不是以提高圖像質(zhì)量為目的,而是以降低圖像的復(fù)雜度為目的。因此,文本提取關(guān)心的是文本和非文本之間的差異,并不不在乎樹葉的顏色是深一些還是淺一些。
一副灰度數(shù)字圖像可以利用一個(gè)二維函數(shù)f(x,y)來表示,其中(x,y)表示數(shù)字圖像中某一點(diǎn)的空間坐標(biāo),f表示該點(diǎn)的亮度,這樣,可以得到如式(1)的數(shù)字圖像函數(shù)的表示。
圖2 真彩色圖像的RGB空間分量
通常,在自然場景中捕獲到的圖像是彩色圖像,本質(zhì)上,彩色圖像可以認(rèn)為是由多幅單色的灰度圖像組成的,根據(jù)組成方式的不同,就形成了不同的彩色空間,常見的彩色空間有RGB、HIS、YCb-Cr、HSV、CMYK、NTSC 等。文中采用 RGB 彩色空間,彩色圖像被分成R(紅)、G(綠)、B(藍(lán))三個(gè)單色灰度圖像,每幅圖像的灰度級別為256級(也可采用65536級等)[3]。習(xí)慣上把單個(gè)分量采用256級灰度的圖像稱為真彩色圖像,這也是常用數(shù)碼采集設(shè)備的輸出格式。圖2給出了真彩色圖像的RGB空間分量示例。
對圖像進(jìn)行預(yù)處理的目的是降低圖像的復(fù)雜程度,消除各種干擾和過多的圖像細(xì)節(jié)。常見的方法歸納起來大致有以下幾種。
這類方法通過一個(gè)亮度閾值來區(qū)分文字和非文字區(qū)域,閾值的選取通常依據(jù)亮度直方圖和圖像的統(tǒng)計(jì)信息,典型的如Ostu’s閾值分割算法,但是這類算法適用場合有限,一般要求背景十分簡單,不適用于自然場景。
源圖像由于干擾和其它原因?qū)е碌念伾l繁變化和擾動(dòng)在頻率空間表現(xiàn)為高頻信號,它是對圖像進(jìn)行低通濾波,消除圖像的高頻分量,使圖像更平滑。這類方法適用范圍很廣,是經(jīng)常采用的方法之一,缺點(diǎn)是對圖像復(fù)雜程度的改善十分有限,并且還會破壞文字的邊緣。
顏色聚類也是降低圖像復(fù)雜度的方法之一,其思想是把原圖像首先利用顏色聚類算法聚為一定數(shù)目,從而減少圖像中的顏色成分而達(dá)到降低圖像復(fù)雜度的目的,這類算法能大大降低圖像的復(fù)雜性,減少了后續(xù)工作量,但由于合適的聚類數(shù)目確定比較困難,限制了它的適用范圍[4]。
自然場景下的彩色圖像可以采用多種不同的色彩空間來描述,如CMYK、HLS、RGB等,事實(shí)證明,RGB色彩空間更適合表示自然場景[5]。
對自然場景下的彩色圖像的R、G、B分量分別實(shí)施亮度分級合并,減少了每種顏色分量的灰度級別,從而減少了圖像顏色的數(shù)量,將大致相近的顏色歸并為同一種顏色,達(dá)到降低圖像復(fù)雜度的目的。
通常,在自然場景下,為了吸引觀察者的注意力,文字信息都具有一個(gè)共同的特點(diǎn),就是比較醒目。醒目意味著文字與背景的顏色相差很大或者是與背景的對比度很大,根據(jù)RGB彩色空間的形成原理,無論是顏色的明顯差異還是亮度的明顯差異,都會導(dǎo)致R、G、B三個(gè)顏色分量中至少有一個(gè)呈現(xiàn)為明顯的亮度差別。對R、G、B三個(gè)顏色分量實(shí)施亮度分級,本質(zhì)上就是分別合并三個(gè)分量上的相近灰度,盡管這樣的合并會導(dǎo)致大量的顏色信息損失,但是至少在一個(gè)顏色分量上保持了文字和背景的差異,從而保證了文字和背景在分級合并之后仍然在顏色上是可區(qū)分的,這意味著算法最關(guān)心的圖像信息被保留下來,圖像的結(jié)構(gòu)沒有被破壞。總的來說,該算法使得醒目的信息被保留,不夠醒目的信息被消除。由于顏色大量減少,圖像的復(fù)雜度顯然降低了。
觀察圖3標(biāo)準(zhǔn)的256級、16級、8級和4級全灰度色帶,容易發(fā)現(xiàn),當(dāng)灰度均勻地分成16個(gè)等級時(shí),對于肉眼來說,相鄰的兩級之間的差異就已經(jīng)不太明顯,考慮到前面提到的醒目原則,8級的分級數(shù)量所體現(xiàn)的級間差異完全能夠保持圖像在文字提取算法上的結(jié)構(gòu)完整性。實(shí)際上,實(shí)驗(yàn)表明,在分級數(shù)量為4級的時(shí)候,就能夠滿足大多數(shù)的文本提取場合的要求。根據(jù)RGB色彩構(gòu)成原理,一幅具有65536(256*256*256)種顏色的真彩色自然場景圖像,在分級數(shù)量為8級和4級的時(shí)候,顏色被精簡為512(8*8*8)種和64(4*4*4)種,復(fù)雜程度大大降低。
圖3 不同分級時(shí)的全灰度色帶
根據(jù)上述思路,設(shè)每個(gè)顏色分量的灰度級別分為n個(gè)等級,則算法可表示如下:
式中,I(i,,j)表示原彩色圖像的一個(gè) R、G、B分量,maxG、minG分別表示 I(i,,j)的最大和最小灰度值,為分級后的圖像。圖4為一個(gè)亮度分級預(yù)處理示例。
圖4 n=4時(shí),亮度分級預(yù)處理效果
基于RGB亮度分級的圖像預(yù)處理,在不破壞圖像結(jié)構(gòu)的前提下,減少了圖像的顏色數(shù)量,降低了圖像的復(fù)雜程度,與傳統(tǒng)的圖像低通濾波方法相比,準(zhǔn)確的保留了文字的邊緣,與一般的聚類方法相比,避免了依賴更多的先驗(yàn)知識來進(jìn)行聚類數(shù)目的選擇,對源圖像的預(yù)處理取得了較好的效果。
[1]周慧燦,劉瓊,王耀南.基于顏色散布分析的自然場景文本定位[J].計(jì)算機(jī)工程,2010,(8):197-202.
[2]史萌,陳勇,郭愛平.基于Matlab的幾種常用邊緣檢測算子的研究[J].軟件導(dǎo)刊,2011,(8):47-48.
[3]趙娜娜.視頻圖像預(yù)處理關(guān)鍵技術(shù)研究[D].杭州:杭州電子科技大學(xué),2012.
[4]易劍,彭宇新,肖建國.基于顏色聚類和多幀融合的視頻文字識別方法[J].軟件學(xué)報(bào),2011,22(12):2919-2933.
[5]張德豐.MATLAB數(shù)字圖像處理(第2版)[M].北京:機(jī)械工業(yè)出版社,2012:224-283.