• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Tesseract視覺耦合支持向量機(jī)的字符識(shí)別算法

      2016-12-15 07:27:56錢偉強(qiáng)
      系統(tǒng)仿真技術(shù) 2016年3期
      關(guān)鍵詞:字符識(shí)別字符特征向量

      錢偉強(qiáng)

      (陜西交通職業(yè)技術(shù)學(xué)院,陜西 西安 710018)

      ?

      Tesseract視覺耦合支持向量機(jī)的字符識(shí)別算法

      錢偉強(qiáng)

      (陜西交通職業(yè)技術(shù)學(xué)院,陜西 西安 710018)

      為了解決當(dāng)前字符識(shí)別算法嚴(yán)重依賴固定匹配模板,使其難以識(shí)別形態(tài)多變的手寫字符的問題,本文提出了Tesseract視覺耦合支持向量機(jī)的字符識(shí)別算法。首先,通過開源視覺庫Tesseract自帶圖像預(yù)處理工具,對(duì)字符圖像進(jìn)行邊緣檢測處理,提取字符的邊緣特征;再通過訓(xùn)練工具cowboxer,快速訓(xùn)練出字符特征文件,通過識(shí)別函數(shù)與定位函數(shù),準(zhǔn)確完成字符的初步識(shí)別。然后,引入支持向量機(jī),通過訓(xùn)練字符特征向量,開發(fā)訓(xùn)練字庫,對(duì)初步識(shí)別中的遺漏目標(biāo)完成字符的補(bǔ)償識(shí)別,有效確保字符的識(shí)別正確率。實(shí)驗(yàn)結(jié)果顯示:與當(dāng)前識(shí)別算法相比,本文算法的識(shí)別精度與抗干擾性更高。

      字符識(shí)別; 支持向量機(jī); Tesseract視覺; 特征向量

      1 引 言

      字符識(shí)別廣泛應(yīng)用于各行業(yè),如工業(yè)制造、物聯(lián)網(wǎng)、智能監(jiān)控和智能教育,往往作為一個(gè)核心模塊,決定產(chǎn)品或者系統(tǒng)的競爭力[1-2]。字符識(shí)別是一個(gè)集圖像處理、機(jī)器視覺、模式識(shí)別的綜合性課題,也是實(shí)現(xiàn)人工智能化,提高人們生活質(zhì)量的重要基石之一[3]。以往國內(nèi)很多廠家推出的字符識(shí)別產(chǎn)品往往具有兩大問題:基于商業(yè)軟件開發(fā)的系統(tǒng),如VisionPro、Halcon和Matrix等,具有識(shí)別精度高和抗干擾的優(yōu)點(diǎn),但是商業(yè)軟件本身價(jià)格昂貴,且后期牽涉版權(quán)問題,導(dǎo)致產(chǎn)品推廣困難?;谧灾鏖_發(fā)的系統(tǒng),成本低且推廣容易,但是開發(fā)周期長,很難適應(yīng)快速變化的市場需求[4-5]。因此,本文提出基于開源軟件庫tesseract與自主開發(fā)相互結(jié)合的系統(tǒng)架構(gòu),既保證開發(fā)周期,有保證算法有效性。

      在算法研究方面,國內(nèi)研究人員已經(jīng)將圖像處理與模式識(shí)別技術(shù)引入到字符識(shí)別中,對(duì)其展開研究。如支馨悅[5]提出了基于基于安卓手機(jī)的液晶屏字符識(shí)別系統(tǒng),利用圖像的預(yù)處理以及霍夫變換,對(duì)圖像傾斜角進(jìn)行測量,同時(shí)矯正傾斜角度;另一方面,使用直方圖將數(shù)字字符進(jìn)行一定程度上的分割,并用網(wǎng)格法對(duì)字符的特殊值進(jìn)行提取,最后利用三層BP神經(jīng)網(wǎng)絡(luò)識(shí)別液晶屏所顯示字符。但是,其中神經(jīng)網(wǎng)絡(luò)技術(shù)依靠大量的字符樣本信息,在字符樣本不足尤其是手寫字符時(shí),往往影響了識(shí)別精度。周嘯[6]提出了鋼鐵物流鋼板字符識(shí)別系統(tǒng),對(duì)鋼鐵物流生產(chǎn)線上鋼板字符的特點(diǎn)進(jìn)行研究和分析,并對(duì)字符圖像的預(yù)處理和模板匹配算法進(jìn)行簡單介紹,提出使用模板匹配字符識(shí)別算法來識(shí)別鋼板字符,并在簡單模板匹配的基礎(chǔ)上提出一種改進(jìn)的模板匹配算法,最后達(dá)到字符識(shí)別目的。然而,這種技術(shù)依賴固定模板,在手寫字符特征多變的情況下,往往不能區(qū)分字符,導(dǎo)致識(shí)別失敗。

      對(duì)此,為了提高字符識(shí)別算法的精度,使其對(duì)手寫字符識(shí)別時(shí),仍然能夠精確識(shí)別出字符信息。本文提出了基于tesseract與支持向量機(jī)的字符識(shí)別算法。先設(shè)計(jì)基于tesseract的快速訓(xùn)練與識(shí)別算子,完成一次識(shí)別。然后基于支持向量機(jī),構(gòu)建字符特征向量與樣本特征庫。最后,編程實(shí)現(xiàn)整個(gè)系統(tǒng),測試了本文字符識(shí)別系統(tǒng)的精度與抗干擾性。

      2 本文字符識(shí)別算法

      本文算法流程見圖1。該算法首先采集字符圖像至系統(tǒng)內(nèi)存,隨后基于tesseract開源庫自帶的圖像處理類ImageHelper,對(duì)圖像進(jìn)行預(yù)處理,包括灰度化、邊緣檢測。然后提取每個(gè)字符的特征,包括面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差,構(gòu)建特征向量。利用tesseract開源庫的訓(xùn)練工具cowboxer,完成快速訓(xùn)練碼,包括box文件生成、字體特征文件生成、字符集特征文件生成和訓(xùn)練文件合并。利用支持向量機(jī)(簡稱SVN,Support Vector Machine)原理對(duì)特征向量,進(jìn)行樣本訓(xùn)練,以有限的樣本信息,在模型復(fù)雜性與學(xué)習(xí)能力間取最佳折衷,完成字符識(shí)別。兩種識(shí)別模式并行進(jìn)行,在不影響系統(tǒng)效率的前提下,提高識(shí)別正確率。字符圖像如圖2所示,本文識(shí)別系統(tǒng)針對(duì)字母與中文字符。

      圖1 本文機(jī)制架構(gòu)Fig.1 Mechanism framework of this paper

      2.1 基于Tesseract的快速識(shí)別算子

      Tesseract開源字符識(shí)別庫,屬于Google公司開源項(xiàng)目,可以支持五大平臺(tái)(Windows、Linux、Mac、Android和Iphone),支持多種文字(包括中文和英文)的識(shí)別,本文算法使用的版本是3.02。首先基于tesseract自帶的調(diào)整行為軟件cowboxer,對(duì)訓(xùn)練字符樣本,同時(shí)融合tesseract已經(jīng)訓(xùn)練好的字符樣本。

      具體步驟:

      (1) 基于tesseract開源庫自帶的圖像處理類ImageHelper對(duì)待識(shí)別圖像(圖2)進(jìn)行灰度化,如圖3所示,減小計(jì)算量,增加字符圖像對(duì)比度。

      圖2 待識(shí)別的字符Fig.2 Character to be recognized

      圖3 灰度濾波結(jié)果Fig.3 Gray filtering result

      (2) ImageHelper邊緣檢測圖3,得到包含字符邊緣的圖像,提取字符特征(面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差)如圖4所示。

      圖4 邊緣檢測結(jié)果Fig.4 Edge detection results

      (3) 再將樣本圖像格式轉(zhuǎn)換為tif格式。

      (4) 利用cowboxer生成box文件,進(jìn)行box修正,即對(duì)字符對(duì)應(yīng)的信息進(jìn)行手動(dòng)修正,即監(jiān)督學(xué)習(xí),生成的box文件與tif文件存于同一目錄。

      (5) 對(duì)逐個(gè)字符進(jìn)行(1)-(4)處理,建立字符特征文件,包含文字各種信息(加粗、斜體、字體等),最后合并訓(xùn)練文件,完成基于tesseracter訓(xùn)練。

      (6) 基于開源識(shí)別函數(shù)處理待識(shí)別圖像,如Emgu.CV.OCR.Tesseract.Charactor[]charactors = ocr.GetCharactors(),函數(shù)返回字符信息,處理結(jié)果如圖5所示,可見識(shí)別正確。

      至此完成一次識(shí)別,識(shí)別流程圖如圖6所示。

      2.2 基于支持向量機(jī)的精準(zhǔn)識(shí)別算子

      完成tesseracter識(shí)別,為了進(jìn)一步確保字符識(shí)別正確性,本文引入自主開發(fā)的支持向量機(jī)識(shí)別技術(shù)。支持向量機(jī)起源于統(tǒng)計(jì)學(xué)、VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,在小樣本、非線性和高維模式下,具有很高的識(shí)別效率和精度[7-8]。因此,本文利用支持向量機(jī),對(duì)提取出的字符特征(面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差)進(jìn)行訓(xùn)練,構(gòu)建樣本庫,建立支持向量機(jī)字符識(shí)別機(jī)制。

      圖5 tesseract識(shí)別結(jié)果Fig.5 reorganization result based on tesseract

      圖6 tesseract識(shí)別流程圖Fig.6 reorganization flow chartof tesseract

      首先,建立映射模型函數(shù),將特征數(shù)據(jù)映射到分類結(jié)果:

      (1)

      式中:x為特征值,l為特征值范圍,f(x)為分類結(jié)果即字符信息,w,b為模型值,通過多組特征信息值,建立方程式,求解得w,b,得到完整的模型映射方程。

      為了增加分類識(shí)別精度,本文算法增加特征(面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差),構(gòu)建特征向量,將式中特征值x替換為特征向量X,求對(duì)應(yīng)的模型向量W,B,如下式所示:

      (2)

      式中:X為特征值,l為特征值范圍,f(X)為分類結(jié)果即字符信息,W,B為模型向量值。

      可見,本文算法不僅考慮低維訓(xùn)練,同時(shí)考慮高維馴良,基于支持向量機(jī)最小風(fēng)險(xiǎn)原則,兼顧低維與高維最小風(fēng)險(xiǎn),推導(dǎo)決策函數(shù)如下式所示:

      (3)

      式中:h(X,x)代表決策值,w,b為模型值,W,B為模型向量值,sgn代表標(biāo)準(zhǔn)核處理,即去除數(shù)值小數(shù)部分。

      由于支持向量機(jī)原理[9-10]充分考慮最小風(fēng)險(xiǎn)原則和高低維特征向量,計(jì)算模型向量值,故本文構(gòu)建了特征向量樣本庫和標(biāo)準(zhǔn)樣本特征庫。本文算法支持SVN數(shù)據(jù)采集UI,如圖7所示,可采集訓(xùn)練特征向量(面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差)?;谥С窒蛄繖C(jī)訓(xùn)練字庫后,對(duì)圖2進(jìn)行識(shí)別,結(jié)果如圖8所示,可見本文算法的支持向量機(jī)字符識(shí)別準(zhǔn)確。如圖9所示為支持向量機(jī)字符識(shí)別流程圖。

      3 實(shí)驗(yàn)與討論

      為了體現(xiàn)本文算法的優(yōu)勢,將當(dāng)前字符識(shí)別性能較好的技術(shù)-文獻(xiàn)[5]、文獻(xiàn)[6]設(shè)為對(duì)照組?;赩S2012,C#語言開發(fā)實(shí)現(xiàn)算法的是被功能,部分實(shí)驗(yàn)參數(shù)設(shè)置為:邊緣灰度連接值(68)、邊緣灰度分離值(138)、模型參數(shù)W([34,18,57,28,56])、B([214,318,527,218,156])。

      圖7 SVN數(shù)據(jù)訓(xùn)練Fig.7 SVN data training

      圖8 SVN識(shí)別效果圖Fig.8 SVN recognition result

      圖9 svn識(shí)別流程圖Fig.9 Svn identification flow chart

      以圖10為識(shí)別對(duì)象,其包含多個(gè)中文字符待識(shí)別。本文采用tesseract開源庫的HelpImage圖像處理類,邊緣檢測圖10,得圖11,可見準(zhǔn)確得到字符邊緣,作為后續(xù)識(shí)別圖像。然后利用基于前面介紹的tesseract與支持向量機(jī)訓(xùn)練與識(shí)別機(jī)制,實(shí)現(xiàn)字符識(shí)別,如圖12所示,在雙重識(shí)別機(jī)制的確保下,可見本系統(tǒng)識(shí)別準(zhǔn)確。

      而利用對(duì)照組文獻(xiàn)[5]技術(shù)處理圖10時(shí),由于神經(jīng)網(wǎng)絡(luò)技術(shù)依靠大量的字符樣本信息,在字符樣本不足尤其是手寫字符時(shí),往往影響了識(shí)別精度,如圖13所示,存在字符識(shí)別錯(cuò)誤。而文獻(xiàn)[6]技術(shù)處理*時(shí),這種技術(shù)依賴固定模板,在手寫字符特征多變的情況下,往往不能區(qū)分字符,導(dǎo)致識(shí)別失敗,如圖14所示,存在字符誤識(shí)別。

      圖10 原圖Fig.10 Initial image

      圖11 tesseract邊緣檢測結(jié)果Fig.11 edge detection results based on tesseract

      圖12 本文識(shí)別結(jié)果Fig.12 Recognition results of the algorithm

      圖13 文獻(xiàn)[5]的識(shí)別結(jié)果Fig.13 Recognition results of reference[5]

      4 結(jié) 論

      為了解決手寫字符形式多變影響字符識(shí)別精度的問題,本文設(shè)計(jì)了基于tesseract開源庫與支持向量機(jī)的字符識(shí)別系統(tǒng),實(shí)現(xiàn)對(duì)手寫字符圖像的邊緣檢測、特征提取、tesseract自建庫訓(xùn)練、標(biāo)準(zhǔn)樣本庫建立、特征向量建立和分類器決策函數(shù)建立。實(shí)驗(yàn)結(jié)果表明:與當(dāng)前字符識(shí)別技術(shù)相比,在面對(duì)存在樣式多變的手寫字符識(shí)別需求下,本文方法具有更好的精度和抗干擾性,為手寫字符準(zhǔn)確識(shí)別提供了技術(shù)保障。

      圖14 文獻(xiàn)[6]的識(shí)別結(jié)果Fig.14 Recognition results of reference[6]

      [1] ZHOU Mingke,ZHANG Xuyao,YIN Fei.Discriminative quadratic feature learning for handwritten Chinese character recognition[J].Pattern Recognition,2016,49(3):7-18.

      [2] 賈文其.基于棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)的車牌字符識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,20(3):571-572.

      JIA Wenqi.Computer engineering and design,the license plate character recognition[J].stack noise self coding based on neural network 2016,20(3):571-572.

      [3] Hai Guo,Jingying Zhao.Research on Feature Extraction for Character Recognition of NaXi Pictograph[J].Journal of Computers,2011,6(5):947-954.

      [4] A.Al-Marakeby,F.Kimura,M.Zaki.Design of an Embedded Arabic Optical Character Recognition[J].Journal of Signal Processing Systems,2013,70(3):249-258.

      [5] 支馨悅.基于安卓手機(jī)的液晶屏數(shù)字識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].自動(dòng)化儀表,2016,12(34):218-225.

      ZHI Xinyue.Design and implementation of digital recognition system for LCD screen based on Android mobile phone[J].automation instrument,2016,12(34):218-225.[6] 周嘯.鋼鐵物流鋼板字符識(shí)別的研究[J].工業(yè)控制計(jì)算機(jī),2015,21(21):283-287.

      ZHOU Xiao.Steel logistics steel plate character recognition research[J].industrial control computer,2015,21(21):283-287.

      [7] 丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2-10.

      DING Shifei,QI Bingjuan,TAN Hongyan.Review of theory and algorithm of support vector machine[J].Journal of University of Electronic Science and technology,2011,40(1):2-10.

      [8] 萬鵬,王紅軍,徐小力.局部切空間排列和支持向量機(jī)的故障診斷模型[J].儀器儀表學(xué)報(bào),2012,33(12):2789-2795.

      WAN Peng,WANG Hongjun,XU Xiaoli.Fault diagnosis model of local tangent space alignment and support vector machine[J].Journal of instrumentation,2012,33(12):2789-2795.

      [9] 何苑,郝夢巖,譚紅葉.基于最小風(fēng)險(xiǎn)貝葉斯的垃圾博客識(shí)別算法研究[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,37(1):42-47.

      HE Yuan,HAO Mengyan,TAN Hongye.Research on spam blog recognition algorithm based on minimum risk Bayes[J].Journal of Shanxi University(NATURAL SCIENCE EDITION),2015,37(1):42-47.

      [10] Gonzalo Acua,Cristian Ramirez,Millaray Curilem.Software sensors for biomass concentration in a SSC process using artificial neural networks and support vector machine[J].Bioprocess and Biosystems Engineering,2014,37(1):27-36.

      Character Recognition Algorithm Based on Tesseract and Support Vector Machine

      QIAN Weiqiang

      (Shanxi College of Communication Technology,Xi’an 710018,China)

      In order to solve the defect of difficult recognizing the morphological changing handwritten characters induced by relying heavily on the fixed template in current character recognition algorithm,the character recognition algorithm based on Tesseract visual coupling support vector machine was proposed in this paper.First of all,the edge feature was extracted by detecting the character image edge based on open source vision library Tesseract comes with image preprocessing tool; then accurate recognition of characters was finished by identifying function and the position function based on training tool cowboxer to fast train out of character feature files.the compensation recognition of the initial recognition with the omission of the target was finished by training the character feature to development of character training based on support vector machine.Experimental results show that this algorithm had higher identification precision and anti-jamming.

      character recognition; support vector machine; tesseract vision; feature vector

      錢偉強(qiáng) 男(1971-),河北行唐人,講師,碩士,主要研究方向?yàn)槟繕?biāo)識(shí)別、圖像處理、數(shù)據(jù)庫。

      TP 391

      A

      猜你喜歡
      字符識(shí)別字符特征向量
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      尋找更強(qiáng)的字符映射管理器
      克羅內(nèi)克積的特征向量
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      一類特殊矩陣特征向量的求法
      一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識(shí)別
      EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
      儀表字符識(shí)別中的圖像處理算法研究
      东乡县| 香港| 盐池县| 西乌珠穆沁旗| 县级市| 通河县| 江都市| 大埔县| 德昌县| 梨树县| 乐清市| 泽库县| 名山县| 龙泉市| 翁源县| 马龙县| 新乡市| 九寨沟县| 林口县| 南澳县| 大邑县| 本溪市| 信宜市| 泸定县| 南岸区| 旅游| 尚义县| 井陉县| 商河县| 新闻| 皋兰县| 天等县| 从化市| 瓦房店市| 宁波市| 金川县| 济阳县| 黄大仙区| 天等县| 沁源县| 三原县|