基于SWT法網(wǎng)絡社交平臺圖像文本檢測

2019-11-12 11:38:42喬平安劉佩龍

現(xiàn)代電子技術 2019年20期

喬平安劉佩龍

摘 ?要：網(wǎng)絡社交平臺圖像包含豐富的文本信息，而文本檢測是提取這些文本信息的基礎。針對網(wǎng)絡社交平臺圖像的特點，提出一種基于筆畫寬度變換（Stroke Width Transform）的檢測圖像文本的方法。該方法首先預處理輸入的圖像，接著按照分布規(guī)則檢測圖像文本區(qū)域，然后根據(jù)形態(tài)規(guī)則和筆畫特征規(guī)則篩除非文本區(qū)域，最后輸出檢測的文本區(qū)域結果。仿真實驗結果表明，該方法能夠準確檢測網(wǎng)絡社交平臺圖像文本區(qū)域，效率較好。

關鍵詞：圖像文本檢測; 網(wǎng)絡社交平臺; 筆畫寬度變換; 文本區(qū)域檢測; 算法流程; 仿真驗證

中圖分類號： TN919.8?34; TP391.1 ? ? ? ? ? ? ? ? ? 文獻標識碼： A ? ? ? ? ? ? ? ? 文章編號： 1004?373X（2019）20?0048?05

Social networking platform image text detection based on SWT algorithm

QIAO Pingan1，2， LIU Peilong1

（1. School of Computing， Xian University of Posts and Telecommunications， Xian 710100， China;

2. Shaanxi Provincial Key Laboratory of Network Data Analysis and Intelligent Processing， Xian 710100， China）

Abstract： Social networking platform image contains abundant text information， and text detection is the basis of extracting text information. In allusion to the features of the social networking platform image， a method for text image detection based on SWT （stroke width transform） is proposed. In this method， the input image is preprocessed， the image text area is detected according to the distribution rules， and those non?text areas are eliminated according to the morphology rules and stroke feature rules. Finally， the detected results of text area are output. The simulation experimental results show that the method can accurately detect the image text area of the social networking platform， and has better detection efficiency.

Keywords： image text detection; social networking platform; stroke width transform; text area detection; algorithm flow; simulation verification

0 ?引 ?言

文本檢測已成為計算機視覺與模式識別、文檔分析與識別領域的一個研究熱點[1?3]。近年來，隨著互聯(lián)網(wǎng)的發(fā)展和移動終端的普及，微信、微博、Facebook、推特、ins等網(wǎng)絡社交平臺已經(jīng)完全融入大眾生活，這些平臺上的大量信息成為情感研究、輿情監(jiān)測、網(wǎng)絡環(huán)境凈化等關注的重點。目前，國內外對自然場景文本檢測研究很多，超過80%的關于自然場景論文關注圖像文本檢測問題[2，4]，但是針對網(wǎng)絡社交平臺上的圖像文本的檢測卻很少。如何檢測、識別和提取網(wǎng)絡社交平臺上的圖像文本信息具有重要意義和研究價值?；诖耍疚母鶕?jù)大眾在這些社交網(wǎng)絡平臺發(fā)布圖像的文本特點，提出一種基于筆畫寬度變換（SWT）的圖像文本檢測方法用于檢測網(wǎng)絡社交平臺圖像文本信息。

1 ?相關工作

目前，文本檢測中最具代表性的方法為最大穩(wěn)定極值區(qū)域（MSER）法[5?7]和筆畫寬度變換（SWT）法[8]。SWT算法能準確地獲取圖像文本候選區(qū)域以及根據(jù)網(wǎng)絡平臺圖像文本的分布規(guī)則減少圖像檢測的面積，提高檢測效率。

Epshtein等人首次提出SWT算法，利用Canny算法對輸入圖像進行邊緣檢測，并計算邊緣像素點的梯度方向，沿著梯度方向的路線尋找與之匹配的像素[8]。這個做法使得場景文字檢測向前邁出一大步;Yao Cong通過筆畫寬度變換（SWT）處理獲得文本候選區(qū)域，用文本級分類器（簡單特征+隨機森林）過濾非文本區(qū)域[9];利用文本間的相似性連接成文本行，再用文本行級的分類器（簡單特征+隨機森林）[10]進一步過濾背景區(qū)域，較早地實現(xiàn)了任意方向排列的自然場景文本檢測任務;Huang Weilin考慮到傳統(tǒng)的筆畫寬度變換方法在應對圖像中包含一些具有不規(guī)則梯度方向的邊緣時往往不能準確地計算出筆畫寬度，所以利用顏色信息來改進筆畫寬度算法并提出筆畫特征變換（Stroke Feature Transform）算法[11]。

5）筆畫寬度規(guī)則。繼續(xù)對圖像進行筆畫特征規(guī)則，有的圖像會產(chǎn)生長而窄的連通域，這些會被誤認為是文本區(qū)域，實則不然，在此限制它們的寬高比，不符合要求的剔除掉，對于高寬比較大的區(qū)域可以排除。同樣限制連通域的直徑和筆畫寬度的中值比。一塊區(qū)域的邊界框包含不超過兩塊連通域，以消除文本外圍包圍線之類，單獨的字符通常不出現(xiàn)在圖像中，當作噪聲剔除。

6）合并輸出。連通域合并形成文本行然后輸出。中文合并：同一個文本行里的漢字有相似的筆畫寬度，所以平均筆畫寬度比值應該在0.8和1/0.8之間，兩個漢字之間水平排列，連通域外接矩形的中心點坐標差值不大于兩個連通域之間較高的高度值的0.5。英文合并：兩個字母應具有相似的筆畫寬度（筆畫寬度均值比率小于2.0）。字母的高度比不得超過2.0（由于大寫和小寫字母之間的差異）。字母之間的距離不得超過寬字母寬度的3倍，另外顏色相同進行合并即可。

4 ?實驗與分析

4.1 ?實驗數(shù)據(jù)集

為了更好地評定本文的研究，本文根據(jù)ICDAR的數(shù)據(jù)集的圖像組成規(guī)則，建立了針對中英文文本提取的圖像庫，圖像主要來源于微信、微博、推特、Facebook、Ins等網(wǎng)絡社交平臺。具體建立步驟如下：

1）數(shù)量組成：200幅當作訓練樣本的圖像和100幅作測試集的圖像。

2）圖像分辨率范圍：類似的文中采集的圖像，分辨率范圍為650×260～860×1 024。

3）難度比例：根據(jù)圖像文本提取的難度，將圖像分為難、中和易三個等級，比例為2∶3∶5。

4）圖像文本內容：ICDAR圖像庫中文本內容包括路邊標志牌文本、建筑物名稱等，自建庫圖像適合聊天或發(fā)心情日志等帶有感情色彩。

4.2 ?評價標準

本文采用國際會議ICDAR所提出的評估方法具體如表1所示。

4.3 ?結果分析

仿真實驗數(shù)據(jù)集采用自建的中英文數(shù)據(jù)集，在WIN8系統(tǒng)下用Matlab 2016a版本進行仿真實驗。

圖6和圖7是仿真實驗的具體實現(xiàn)步驟。

表1 ?評價的標準

??

圖8中列舉了一些本文算法的檢測結果。其中第1、2行特意選取符合文本規(guī)則的復雜場景圖像。圖8a）為原圖（藍色框為圖像文本規(guī)則分布）;圖8b）為圖像檢測結果;圖8c）為原圖;圖8d）為它的檢測結果，說明該方法也能夠在有復雜背景的場景圖像中精確地檢測文本區(qū)域。第3行是網(wǎng)絡社交平臺圖像檢測結果。圖8e）為原圖;圖8f）為圖像檢測結果。第4行是失敗的檢測案例。圖8g）和圖8i）為輸入的原圖（藍色框為文本規(guī)則分布），由于圖像文本分布規(guī)則不符合，所以圖8h）和圖8j）原文本區(qū)域的文本當作背景篩除。

利用本文方法檢測圖像文本得到的結果與其他算法相比較，結果如表2所示。無論是準確率或者時間效率，本文算法都較優(yōu)于其他一些文獻檢測算法。

圖8 ?其他圖像檢測

5 ?結 ?語

依據(jù)網(wǎng)絡社交平臺圖像和自然場景圖像的不同點和相同點，提出了基于改進SWT法的圖像檢測方法，該方法分為4部分：圖像輸入、分布規(guī)則、篩選、輸出結果。筆畫寬度特征在分布規(guī)則之后進行檢測，分布規(guī)則大大減少了算法處理像素的數(shù)量，從而減少了算法時間成本和提高了效率。

仿真實驗結果表明效果達到了理想預期，提高了定位的準確性，但是由于SWT算法主要針對英文檢測，中文文本檢測還有提高的空間，以后還需要繼續(xù)研究改進。

參考文獻

[1] BAI X， SHI B， ZHANG C， et al. Text/nontext image classification in the wild with convolutional neural networks [J]. Pattern recognition， 2016， 66： 437?446.

[2] LIU Y， JIN L. Deep matching prior network： toward tighter multi?oriented text detection [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu： IEEE， 2017： 3456?3461.

[3] SHI B G， BAI X， YAO C. An end?to?end trainable neuralnetwork for image?based sequence recognition and its application to scene text recognition [J]. IEEE transactions on pattern analysis and machine intelligence， 2015， 39（11）： 2298?2304.

[4] 王潤民，桑農(nóng)，丁丁，等.自然場景圖像中的文本檢測綜述[J].自動化學報，2018，44（12）：3?31.

WANG Runmin， SANG Nong， DING Ding， et al. Overview of text detection in natural scene images [J]. Journal of automation， 2018， 44（12）： 3?31.

[5] NEUMANN L， MATAS J. A method for text localization and recognition in real?world images [C]// Proceeding of 10th Asian Conference on Computer Vision. Queenstown： [s.n.]， 2010： 770?783.

[6] ZHU A， GAO R， UCHIDA S. Could scene context be beneficial for scene text detection [J]. Pattern recognition， 2016， 8： 204?215.

[7] WEI Y， ZHANG Z， SHEN W， et al. Text detection in scene images based on exhaustive segmentation [J]. Signal processing image communication， 2017， 50： 1?8.

[8] EPSHTEIN B， OFEK E， WEXLER Y. Detecting text in natural scenes with stroke width transform [C]// Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco： IEEE， 2010： 2963?2970.

[9] YAO C， BAI X， LIU W， et al. Detecting texts of arbitrary orientations in natural images [C]// Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence： IEEE， 2012： 1083?1090.

[10] ANTHIMOPOULOS M， GATOS B， PRATIKAKIS I. Detection of artificial and scene text in images and video frames [J]. Pattern analysis and applications， 2013， 16（3）： 431?446.

[11] HUANG W L， ZHE L， YANG J， et al. Text localization in natural images using stroke feature transform and text covariance descriptors [C]// Proceedings of IEEE International Conference on Computer Vision. Sydney： IEEE， 2013： 1241?1248.

[12] 張偉偉.一種針對漢字特點的場景圖像中文文本定位算法[J].信息工程大學學報，2014，15（6）：729?736.

ZHANG Weiwei. A Chinese image localization algorithm for scene images based on Chinese characters [J]. Journal of Information Engineering University， 2014， 15（6）： 729?736.

現(xiàn)代電子技術2019年20期

現(xiàn)代電子技術的其它文章: 基于虛擬現(xiàn)實技術的園林景觀規(guī)劃效果模擬系統(tǒng)設計; 基于不同能耗計算方法的綠色建筑節(jié)能評價系統(tǒng); 基于Hadoop平臺的崗位推薦系統(tǒng)設計; 基于Matlab的飛機機翼結構拓撲優(yōu)化設計; 基于GIS的土地區(qū)域整理項目規(guī)劃輔助系統(tǒng)設計; 突觸晶體管及其神經(jīng)形態(tài)系統(tǒng)應用