呂國寧,高敏
(1.鄭州師范學(xué)院 網(wǎng)絡(luò)管理中心,河南 鄭州450044; 2.鄭州師范學(xué)院 信息科學(xué)與技術(shù)學(xué)院,河南 鄭州450044)
視覺感知式場景文字檢測定位方法
呂國寧1,高敏2
(1.鄭州師范學(xué)院 網(wǎng)絡(luò)管理中心,河南 鄭州450044; 2.鄭州師范學(xué)院 信息科學(xué)與技術(shù)學(xué)院,河南 鄭州450044)
針對自然場景中復(fù)雜背景干擾檢測的問題,本文提出一種基于視覺感知機制的場景文字檢測定位方法。人類視覺感知機制通常分為快速并行預(yù)注意步驟與慢速串行注意步驟。本文方法基于人類感知機制提出一種場景文字檢測定位方法,該方法首先通過兩種視覺顯著性方法進行預(yù)注意步驟,然后利用筆畫特征以及文字相互關(guān)系實現(xiàn)注意步驟。本文方法在ICDAR 2013與場景漢字數(shù)據(jù)集中均取得較有競爭力的結(jié)果,實驗表明可以較好地用于復(fù)雜背景的自然場景英文和漢字的檢測。
視覺感知;視覺顯著性;筆畫寬度變換;場景文字;文字檢測定位;視覺注意;漢字;英文
互聯(lián)網(wǎng)技術(shù)與電子技術(shù)的高速發(fā)展下,人們逐漸形成以數(shù)字圖像與視頻分享信息交流感情習(xí)慣,因此在電子設(shè)備與網(wǎng)絡(luò)中存在著海量的數(shù)字圖像信息。這些圖像信息普遍來自人類生活的自然場景,其中存在著不計其數(shù)的關(guān)鍵文字信息。如何有效提取數(shù)字圖像中的關(guān)鍵文字信息,是有效管理電子設(shè)備與網(wǎng)絡(luò)中的數(shù)字圖像的重要手段。而有效準確提取數(shù)字圖像中的關(guān)鍵文字信息是當(dāng)今一個頗具挑戰(zhàn)性的工作,受到研究者的廣泛關(guān)注。
數(shù)字圖像中文字的提取根據(jù)文字種類分為人工文字和場景文字[1],前者是人們后期添加到圖像上的文字,如視頻字幕、電影中的說明文字及比賽計分牌等,后者是自然場景中真實存在并通過數(shù)字成像設(shè)備保存在數(shù)字圖像中的文字,如交通標示、街道名稱、廣告海報以及商店招牌等。場景文字的提取因為沒有場景先驗知識,且受到場景中周圍環(huán)境、相機參數(shù)及光照因素的影響,因而它比人工文字的提取具有更大難度。
場景圖像文字定位算法通常分為兩類:基于滑動窗口的方法和基于連通域的方法。文獻[2-3]隸屬基于滑動窗口的方法,首先使用滑動窗口遍歷圖像各個尺度,分類器判定每一個滑動窗口區(qū)域是否包含文字并給出置信度;然后將各個尺度置信度疊加,得到置信圖;最后根據(jù)置信圖分割得到文字區(qū)域。文獻[4-5]分別利用筆畫與最大極值穩(wěn)定區(qū)域獲取連通域作為文字候選區(qū)域,然后使用分類器對文字候選區(qū)域進行驗證(保留文字區(qū)域,剔除背景區(qū)域),最后將單個文字聚合成文本行?;诨瑒哟翱诘姆椒ㄒ驗樾枰闅v圖像各個尺度,故速度較慢,但抗干擾能力稍強于基于連通域的方法;基于連通域的方法速度較快,但容易受到復(fù)雜背景干擾。
以上算法各有利弊,但都存在復(fù)雜背景干擾造成定位效果不佳的問題,并且兩類性能遠不如人類自身。本文思路來源于文獻[6]。針對該問題,本文嘗試參照人類視覺感知機制設(shè)計算法。人類視覺感知機制按照如下進行:首先進行快速簡單的并行預(yù)注意過程,此過程能夠快速獲得顯著性目標,消除復(fù)雜背景的影響;然后完成一個較慢的復(fù)雜的串行注意過程,有意識地剔除無效顯著性目標,突出感興趣的顯著性目標。
參考以上兩個步驟,本文方法分為3個步驟。首先,本文方法采用顏色通道的對比度顯著性算法與譜殘差顯著性算法獲得顯著性區(qū)域;然后,基于顯著性區(qū)域運用單極性筆畫寬度變換獲得文字候選區(qū)域;最后,根據(jù)文字候選區(qū)域自身信息與相互之間信息,利用圖模型篩選得到文字區(qū)域。第一個步驟對應(yīng)于人類的快速簡單的并行預(yù)注意過程,后兩個步驟相當(dāng)于較慢的復(fù)雜的串行注意過程。
本文創(chuàng)新點在于利用顏色通道的對比度顯著性與譜殘差顯著性獲得顯著性區(qū)域以減少后續(xù)算法的虛警率,并根據(jù)顯著性算法設(shè)計單極性筆畫寬度變換。
本節(jié)結(jié)合兩種顯著性模型獲得顯著性區(qū)域,顏色通道的對比度視覺顯著性模型側(cè)重基于顏色的對比度較大的區(qū)域,而譜殘差顯著性模型則偏重于邊緣豐富的區(qū)域。這兩種偏好均符合場景文字的對比度突出和邊緣豐富的特點,可以較好互補完成文字顯著性區(qū)域檢測。視覺顯著性算法流程圖如圖1。
顏色通道的對比度視覺顯著性模型是建立在Opponent Color space上。式(1)中L是Opponent Color Space中的亮度分量,RG是Opponent Color Space中紅色-綠色分量,BY是Opponent Color Space中藍色-黃色分量。
式中:r、g與b代表彩色圖像的紅色、綠色與藍色分量。
式中:σ=4 5 6 7 8是 滑動窗口的尺度因子,w與h為圖像的寬度與高度。
最后,將不同尺寸的滑動窗口下得到的對比度圖進行線性疊加并進行歸一化得到顏色通道的顯著性圖。本節(jié)選取了紅色-綠色通道與藍色-黃色通道進行對比度顯著性計算,并逐像素對二者取幾何平均與高斯濾波,如圖2。
(a)原圖
(b)紅色-綠色通道與藍色-黃色通道原圖
(c)σ=5
(d)σ=8
(e)兩個尺度結(jié)合
(f)兩個通道顯著性圖結(jié)合 圖2 顏色通道的顯著性效果圖Fig.2 Saliency map of color channel
譜殘差視覺顯著性算法[7]是快速可靠且無需先驗知識的顯著性算法,它分為3步:1)將彩色圖像灰度化并進行適當(dāng)縮放和預(yù)處理;2)對前一步產(chǎn)生的灰度圖像傅里葉幅度對數(shù)譜進行卷積均值濾波;3)從圖像傅里葉幅度對數(shù)譜中減去上一步的均值濾波結(jié)果,最終得到顯著性圖S。式(4)描述譜殘差視覺顯著性模型的求解
式中:A(I)表示圖像的傅里葉幅度譜,log(A(I))表示圖像的傅里葉幅度對數(shù)譜,h(I)表示均值濾波。
圖3顯示的是利用譜殘差視覺顯著性模型得到的場景文字顯著性圖。上面一行圖像是場景文字的原圖,下面一行圖像是對應(yīng)的譜殘差顯著性圖,圖像亮度代表顯著性程度。譜殘差視覺顯著性算法有效檢測自然場景中包含文字的邊緣豐富區(qū)域,但同時也會因為環(huán)境中其他邊緣豐富的元素產(chǎn)生虛警率。
圖3 譜殘差顯著性效果圖Fig.3 Spectral residue saliency map
以上兩種顯著性圖的取值范圍是介于0~1之間,對二者計算顯著性圖,本質(zhì)是進行二值化。因此可以使用改進的大津法求取顯著圖的二值化閾值T′s,二值化閾值T′s將顯著圖分為顯著性區(qū)域與非顯著性區(qū)域。
1)首先采用大津法得到閾值t,然后在訓(xùn)練數(shù)據(jù)集中設(shè)定顯著區(qū)域中文字召回率的閾值TR,初始化系數(shù)α為1,以0.01為步長遞減系數(shù)α,直到首次顯著區(qū)域中文字召回率R首次達到閾值TR即停止,最終通過式(5)計算得到閾值T′s。顏色通道的對比度顯著性算法系數(shù)為αc=1,譜殘差顯著性算法系數(shù)為αs=0.73。在得到兩種顯著性區(qū)域后,分別進行數(shù)學(xué)形態(tài)學(xué)操作,并填補去除顯著性區(qū)域中的孔洞。
筆畫(Stroke)是圖像中相鄰的能夠形成近似恒定寬度的條帶部分[8]。而“筆畫寬度”則被定義為近似恒定寬度的條帶邊緣之間的距離,即圖4中p與q像素之間的距離w。
筆畫寬度變換[8](SWT)為數(shù)字圖像中所有像素計算對應(yīng)的筆畫寬度。此種變換最終結(jié)果是筆畫寬度圖,圖中每一像素值是其筆畫寬度。
圖4 筆畫寬度計算方法圖Fig.4 Stroke width map
通常自然場景中的文字存在黑暗背景明亮文字與黑暗文字明亮背景兩種極性,因此在無任何先驗知識情況下需要沿邊緣像素的梯度方向與反梯度方向進行兩次SWT。圖5(b)中SWT的方向與場景文字極性不符,圖5(b)中SWT的方向與場景文字極性相符??煽闯?,兩次SWT固然可以保證自然場景中兩種極性的文字不遺漏,但也增加大量非文字區(qū)域的虛警。對此,本節(jié)基于視覺顯著性提出兩種極性判斷條件,并據(jù)此設(shè)計單極性SWT算法。圖5(d)、(e)是分別對應(yīng)(b)、(c)的筆畫寬度直方圖,從中可看出,當(dāng)極性正確情況下筆畫寬度直方圖更加集中。
(a)原圖
(b)SWT方向與文字極性不符
(c)SWT方向與文字極性相符
(d)圖(b)對應(yīng)筆畫寬度直方圖
(e)圖(c)對應(yīng)筆畫寬度直方圖 圖5 場景文字極性與筆畫寬度直方圖關(guān)系Fig.5 The relation between the pole of scene text and stroke width histogram
極性判斷條件:
①起始階段不做極性判斷,任意選擇一種極性在顯著性區(qū)域進行SWT。若其間,任一邊緣像素的射線越過顯著性區(qū)域邊界,則此顯著性區(qū)域為相反極性。
②如果兩種極性SWT計算中均未發(fā)生邊緣像素的射線越過顯著性區(qū)域邊界情況,則對該顯著性區(qū)域兩種極性的筆畫寬度圖求直方圖。按照式(6)計算兩種極性的筆畫寬度直方圖的集中度,集中度較大的極性為此顯著性區(qū)域的極性。
式中:h代表筆畫寬度直方圖,N是劃分的bin數(shù)目,i代表bin的編號。
無向圖模型通常被用于圖像分割,本節(jié)嘗試將其表示文字候選區(qū)域相互之間的關(guān)系,并將文字候選區(qū)域使用最大流/最小割方法標注為文字與背景。
在文字候選區(qū)域的無向圖G={V,E}中,頂點V是文字候選區(qū)域,邊緣E連接著頂點V,表示著文字候選區(qū)域的相互關(guān)系。當(dāng)文字候選區(qū)域滿足如式(7)關(guān)系則二者相鄰。其中xi、xj分別代表兩個文字候選區(qū)域的位置,wi、wj分別代表兩個文字候選區(qū)域的寬度,hi、hj分別代表兩個文字候選區(qū)域的高度,dist(xi,xj)分別代表兩個文字候選區(qū)域的實際距離。
dist(xi,xj)<2×min(max(wi,hi),max(wj,hj))
∧min(wi,wj)/max(wi,wj)>0.4
無向圖G的代價函數(shù)如式(8)所示。
式中:U是一元代價函數(shù),B是二元代價函數(shù)。一元代價函數(shù)是使用如表1中5個特征根據(jù)隨機森林分類器輸出得到。
式(9)是二元代價函數(shù),Discol與Disstroke分別代表兩個相鄰文字候選區(qū)域的顏色差值與筆畫寬度差值。
最終,圖模型求解即文字候選區(qū)域的標注則采用文獻[9]的最大流/最小割算法。
在進行文字候選區(qū)域驗證后,根據(jù)文字高度的相似性、筆畫寬度的相似性、顏色的相似性與相對位置關(guān)系采用啟發(fā)規(guī)則進行文字行的聚合。
表1 圖模型用到的特征
本文實驗圖像來自ICDAR 2013場景文字定位競賽數(shù)據(jù)集。ICDAR2013場景文字定位競賽數(shù)據(jù)集是目前英語文字定位算法的主流測試數(shù)據(jù)集,它取代了2011年之前的主流數(shù)據(jù)集即ICDAR 2005場景文字定位競賽數(shù)據(jù)集。ICDAR 2013場景文字定位競賽數(shù)據(jù)集包含訓(xùn)練與測試兩部分,本文隨機森林分類器的訓(xùn)練數(shù)據(jù)集來自ICDAR 2013場景文字定位競賽數(shù)據(jù)集的訓(xùn)練集,算法評估則在測試集上完成,結(jié)果如表2。表2中的R代表召回率,P代表準確率,F(xiàn)代表綜合性能,評價方法按照競賽標準[10]。從表2可以看出本文算法與競賽大多數(shù)算法相比是具有競爭力的,3個性能指標(召回率、準確率與綜合性能)分別比表2中算法第一名的3項指標分別高1.48%、0.45%與0.82%。
本文同時對自然場景漢字進行了測試,使用的數(shù)據(jù)集如文獻[12]描述,評價標準參照文獻[11],實驗結(jié)果如表3所示。如文獻[12]是2012~2013年間國內(nèi)研究者算法性能,可以看出本文算法遠好于以上兩種算法。值得說明,因為國際研究者鮮有公開的受到研究者一致認可的場景漢字數(shù)據(jù)集,所以可參照的算法與數(shù)據(jù)集不多。
表2 ICDAR 2013文字定位競賽數(shù)據(jù)集實驗結(jié)果
表3 場景漢字數(shù)據(jù)集實驗結(jié)果
實驗在Intel E7400/2G RAM,MATLAB混合編程情況下完成,實驗中單幅圖像均保持長寬比歸一化高度為480,每幅圖像平均耗時1.2 s。場景文字驗證階段的隨機森林分類器由150棵樹組成,采用交叉驗證的方法進行訓(xùn)練,輪流用2/3訓(xùn)練樣本訓(xùn)練和1/3樣本驗證。
圖6是本文方法效果圖,可以看出本文方法取得不錯效果,較好排除背景干擾,有效檢測定位圖像中的場景英文和場景漢字。本文方法是對英文與漢字同時有效。
圖6 算法效果圖Fig.6 Algorithm result
本文提出一種視覺感知式場景文字檢測定位方法。該方法首先利用顏色通道的對比度顯著性與譜殘差顯著性獲得顯著性區(qū)域,然后在顯著興趣區(qū)域中采用單極性筆畫寬度變換得到文字候選區(qū)域,最后再根據(jù)文字候選區(qū)域自身信息與相互之間信息基于圖模型篩選得到文字區(qū)域。第1個步驟對應(yīng)于視覺感知機制的預(yù)注意過程,后兩個步驟對應(yīng)于視覺感知機制的注意過程。實驗表明,本文方法在ICDAR 2013與ICDAR 2005競賽數(shù)據(jù)集中取得較有競爭力的結(jié)果。本文創(chuàng)新點在于利用顏色通道的對比度顯著性與譜殘差顯著性獲得顯著性區(qū)域以減少后續(xù)算法的虛警率,并根據(jù)顯著性算法設(shè)計單極性筆畫寬度變換。
[1]JUNG K, KIM K I, JAIN A K. Text information extraction in images and video: a survey[J]. Pattern recognition, 2004, 37(5): 977-997.
[2]BAI Bo, YIN Fei, LIU Chenglin. Scene text localization using gradient local correlation[C]//International Conference on Document Analysis and Recognition, Washington DC, 2013: 1412-1416.
[3]姜維, 盧朝陽, 李靜, 等. 針對場景文字的基于視覺顯著性和提升框架的背景抑制方法[J]. 電子與信息學(xué)報, 2014, 36(3): 617-623.
JIANG Wei, LU Zhaoyang, LI Jing, et al. Visual saliency and boosting based background suppression for scene text[J]. Journal of electronics & information technology, 2014, 36(3): 617-623.
[4]CONG Yao, et al. Detecting texts of arbitrary orientations in natural images[C]//IEEE Conference on Computer Vision and Pattern Recognition, Providence. 2012: 1083-1090.
[5]LI Yao, JIA Wenjing, SHEN Chunhua, et al. Characterness: an indicator of text in the wild[J]. IEEE transactions on image processing, 2014, 23(4): 1666-1677.
[6]趙春暉, 王佳, 王玉磊. 采用背景抑制和自適應(yīng)閾值分割的高光譜異常目標檢測[J]. 哈爾濱工程大學(xué)學(xué)報, 2016, 37(2): 278-283.
ZHAO Chunhui, WANG Jia, WANG Yulei. Hyperspectral anomaly detection based on background suppression and adaptive threshold segmentation[J]. Journal of Harbin engineering university, 2016, 37(2): 278-283.[7] HOU X D, ZHANG L Q. Saliency detection: a spectral residual approach[C]//IEEE Conference on Computer Vision and Pattern Recognition, Minneapolis, 2007: 1-8.
[8]EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform[C]//IEEE International Conference on Computer Vision and Pattern Recognition. San Francisco, 2010: 2963-2970.
[9]BOYKOV Y, KOLMOGOROV V. An experimental comparison of min-cut/max-flow algorithms for energy minimization in vision[J]. IEEE transaction pattern analysis and machine intelligence, 2004, 26(9): 1124-1137.
[10]KARATZAS D, SHAFAIT F, UCHIDA S, et al. ICDAR 2013 Robust Reading Competition[C]//IEEE International Conference on Document Analysis and Recognition. Washington DC, 2013: 1484-1493.
[11] LUCAS S M. ICDAR 2005 text locating competition results[C]//8th International Conference on Document Analysis and Recognition. 2005: 80-84.
[12]姜維,盧朝陽,李靜,等. 基于角點類別特征和邊緣幅值方向梯度直方圖統(tǒng)計特征的復(fù)雜場景文字定位算法[J]. 吉林大學(xué)學(xué)報: 工學(xué)版, 2013, 43(1): 250-255.
JIANG Wei, LU Zhaoyang, LI Jing, et al. Text localization algorithm in complex scene based on corner-type feature and histogram of oriented gradients of edge magnitude statistical feature[J]. Journal of Jilin University: engineering and technology edition, 2013, 43(1): 250-255.
2017機器人及機電一體化國際會議(ICRoM 2017)
2017theInternationalConferenceonRoboticsandMechantronics(ICRoM2017)
2017 the International Conference on Robotics and Mechantronics (ICRoM 2017) will be held during December 12-14, 2017, Hongkong.
Topics of interest include all aspects , but not limited to:
Mechatronics and Robotics
Actuator design, robotic mechanisms and design, robot kinematics and dynamics
Agile Manufacturing
Agriculture, construction, industrial automation, manufacturing process
Automation and control systems, middleware
Biomedical and rehabilitation engineering, welfare robotics and mechatronics
Cellular Manufacturing
Concurrent Engineering
Design for Manufacture and Assembly
Distributed Control Systems
Flexible Manufacturing Systems
FMS Artificial Intelligence
Humanoid robots, service robots
Human-robot interaction, semi-autonomous systems, telerobotics
Information Technology Applied to
Knowledge Based Systems
Lean Manufacturing Logistics
Machine Vision
Management of Technology
Manufacturing Mining robotics Mobile robotics
Modeling and Simulation Scheduling
Nano/micro systems and applications, biological and medical applications
Navigation, localization, manipulation
Operations Management
Rapid Prototype
Rescue, hazardous environments
Robot intelligence and learning
Robot vision and audition
Robots and Automation
Sensor design, sensor fusion, sensor networks
Sensor development Sensors and Applications
Sustainability, energy conservation, ecology
Universal design and services, ubiquitous robots and devices
Scenetextdetectionandlocalizationschemewithvisualperceptionmechanism
LYU Guoning1, GAO Min2
(1.Network Management Center, Zheng Zhou Normal University, Zheng Zhou 450044, China; 2. School of Information Science and Technique, Zheng Zhou Normal University, Zheng Zhou 450044, China)
To solve the detection problem with respect to the interference of complex backgrounds in natural scenes, in this paper, we propose a scene text detection and localization scheme based on a visual perception mechanism. The human visual perception mechanism is commonly divided into the fast parallel pre-attention step and the slow serial attention step. In our proposed scheme, we first precedes the pre-attention step with two visual saliency methods and then implement the attention step using a stroke feature and the relationship between characters. Our experimental results show the scheme to be competitive with respect to the ICDAR 2013 and the scene Chinese-character dataset. It is also suitable for English and Chinese character detection of natural scenes under complex background conditions.
visual perception; visual saliency; swt; scene text; text detection and localization; visual attention; Chinese text; English text
2016-04-07.網(wǎng)絡(luò)出版日期2017-06-30.
國家自然基金河南人才培養(yǎng)聯(lián)合基金項目(U1204703,U1304614).
呂國寧.E-mail:sjzmdwxqzz@outlook.com.
10.11992/tis.201604011
http://kns.cnki.net/kcms/detail/23.1538.TP.20170630.2115.006.html
TP18;TP39
A
1673-4785(2017)04-0563-07
中文引用格式:呂國寧,高敏.視覺感知式場景文字檢測定位方法J.智能系統(tǒng)學(xué)報, 2017, 12(4): 563-569.
英文引用格式:LYUGuoning,GAOMin.ScenetextdetectionandlocalizationschemewithvisualperceptionmechanismJ.CAAItransactionsonintelligentsystems, 2017, 12(4): 563-569.
呂國寧,男,1981年生,講師,主要研究方向為人工智能和大數(shù)據(jù)。