• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度學(xué)習(xí)在文字識別領(lǐng)域的應(yīng)用

      2018-05-10 05:10:32李新煒殷韶坤
      電子技術(shù)與軟件工程 2018年24期
      關(guān)鍵詞:機(jī)器準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)

      李新煒 殷韶坤

      摘要

      在本論文中使用了深度學(xué)習(xí)的DenseNet網(wǎng)絡(luò)及CTC進(jìn)行了深度學(xué)習(xí),用來實(shí)現(xiàn)漢字印刷體OCR的功能,同時(shí)與傳統(tǒng)OCR開源軟件Tesseract進(jìn)行了性能對比,證明了深度學(xué)習(xí)的效果好,速度快的優(yōu)勢,但又暴露了深度學(xué)習(xí)需要的較多數(shù)據(jù)進(jìn)行訓(xùn)練的缺點(diǎn)。

      【關(guān)鍵詞】深度學(xué)習(xí) DenseNet TensorflowTesseract

      1引言

      本文會(huì)通過在印刷體文字OCR領(lǐng)域?qū)煞N技術(shù)進(jìn)行一些對比,驗(yàn)證、討論深度學(xué)習(xí)對比傳統(tǒng)機(jī)器學(xué)習(xí)有什么優(yōu)點(diǎn),深度學(xué)習(xí)未來是否會(huì)完全取代其他的人工智能算法。

      2算法介紹

      2.1機(jī)器學(xué)習(xí)與深度學(xué)習(xí)

      機(jī)器學(xué)習(xí)是經(jīng)由各種算法用大量的數(shù)據(jù)來“訓(xùn)練”讓機(jī)器實(shí)現(xiàn)人工智能的一種方式。利用算法來解析現(xiàn)實(shí)中的數(shù)據(jù)做出預(yù)測和做出判斷后再從中學(xué)習(xí)并不斷完善的過程。這與傳統(tǒng)的使用固定編碼來解決特定任務(wù)的軟件程序是不同的。

      深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的其中一種技術(shù),其訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)也會(huì)用到有、無監(jiān)督的方法。但由于近年來該領(lǐng)域發(fā)展迅猛,一些獨(dú)有的學(xué)習(xí)手段相繼被提出,因此越來越多的人將其單獨(dú)看作一種學(xué)習(xí)的方法。

      2.2 DenseNet

      DenseNet是一種具有密集連接的CNN。DenseNet有以下長處:首先如要在ImageNer分類數(shù)據(jù)集上達(dá)到類似的準(zhǔn)確率,DenseNer網(wǎng)絡(luò)結(jié)構(gòu)比ResNet節(jié)省了一半的參數(shù)量。其次只需要ResNet算法計(jì)算量的50%左右,DenseNet算法就可以達(dá)到與ResNet相當(dāng)?shù)木?。最后該算法有較強(qiáng)的抗過擬合能力,密集連接具備正則化效果,極大的降低了對訓(xùn)練集數(shù)量較少的任務(wù)的過擬合量。

      2.3 Tesseract與Tensorflow

      Tesseract是一個(gè)開源光學(xué)字符識別引擎,它是基于Apache許可證的自由軟件,支持多種的操作系統(tǒng)。由于其Tesseract4.0版本應(yīng)用了基于深度學(xué)習(xí)的算法,因此在這里使用的是之前的版本用來做對比試驗(yàn)。Tensorflow屬于第二代人工智能學(xué)習(xí)系統(tǒng),由谷歌公司研發(fā)。它可用于語音識別或圖像識別等多項(xiàng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域,在本文中主要通過使用Tensorflow來進(jìn)行深度學(xué)習(xí)訓(xùn)練用來對比識別效果。

      3算法實(shí)現(xiàn)

      3.1數(shù)據(jù)集的準(zhǔn)備

      首先選擇基于TensorFlow通過DenseNet和CTC進(jìn)行文字識別的訓(xùn)練,其中數(shù)據(jù)利用了中文語料庫,使用模糊、拉伸、灰度、字體等轉(zhuǎn)變方式隨機(jī)生成了大量圖片。圖片分辨率統(tǒng)一為280x32,共約364萬張圖片,按照99:1劃分成訓(xùn)練集和驗(yàn)證集,每個(gè)樣本固定10個(gè)字符,字符隨機(jī)截取自語料庫中的句子。

      3.2基于TensorFlow對算法的實(shí)現(xiàn)

      3.2.1通過CTPN進(jìn)行文本檢測

      用卷積神經(jīng)網(wǎng)絡(luò)VGG16取前五層得到一個(gè)多層矩形陣列的特征圖,在這個(gè)特征圖的每層里都取一個(gè)3*3的窗口特征量,并且讓這個(gè)窗口特征量滑動(dòng)。向一個(gè)雙向的LSTM神經(jīng)網(wǎng)絡(luò)輸入得到的特征量,得到一個(gè)結(jié)果為寬度x256長度的輸出,然后配合長度為512的全連接層開始輸出。然后能得到一個(gè)密集預(yù)測的文本結(jié)果,并用一個(gè)標(biāo)準(zhǔn)的非極大值抑制算法來處理該結(jié)果。最后將大量的文本段利用基于圖的文本行構(gòu)造算法組合成文本行。

      3.2.2通過DenseNet和CTC進(jìn)行文字識別

      DenseNet網(wǎng)絡(luò)選用Relu作為激活函數(shù),使用了3個(gè)Dense Block層進(jìn)行演算,各個(gè)Dense Block之間通過Transition結(jié)構(gòu)連接在一起組成的DenseNet網(wǎng)絡(luò),配合CTC loss進(jìn)行訓(xùn)練并得出最終的數(shù)據(jù)模型。該算法的數(shù)據(jù)經(jīng)由DenseBlock層處理后,進(jìn)行卷積操作然后傳送給Transition結(jié)構(gòu)進(jìn)行參數(shù)整合規(guī)范,通過池化減少參數(shù)后傳送給下層的Dense Block結(jié)構(gòu),從而達(dá)到較高的精度。

      4與傳統(tǒng)的OCR軟件Tesseract效果進(jìn)行對比

      4.1使用兩種方法對數(shù)據(jù)集識別效果對比

      隨機(jī)抽取1000張測試集圖片,分別進(jìn)行識別測試。測試結(jié)果如表1所示。

      4.2準(zhǔn)確率接近情況下的資源消耗對比

      對Tesseract訓(xùn)練識別天貓工商執(zhí)照圖片,使用498張?jiān)瓐D,通過人工標(biāo)注后進(jìn)行訓(xùn)練的方式,訓(xùn)練后準(zhǔn)確率達(dá)到96.8%,此時(shí)使用深度學(xué)習(xí)方式識別此類圖片準(zhǔn)確率下降至97.1%,準(zhǔn)確率相近。

      5結(jié)論

      顯然通過深度學(xué)習(xí)訓(xùn)練后的模型識別效果要遠(yuǎn)好于Tesseract的效果,但是并不能說明“深度學(xué)習(xí)最終會(huì)淘汰其他傳統(tǒng)機(jī)器學(xué)習(xí)算法”。目前深度學(xué)習(xí)在計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的應(yīng)用已經(jīng)遠(yuǎn)超過傳統(tǒng)機(jī)器學(xué)習(xí)的方法。雖然深度學(xué)習(xí)方法在機(jī)器學(xué)習(xí)領(lǐng)域非常熱門,但通過本文的比較測試可以發(fā)現(xiàn)深度學(xué)習(xí)目前還存在兩個(gè)問題。首先,深度學(xué)習(xí)需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,才能表現(xiàn)出它的優(yōu)勢,面對小樣本的問題,深度學(xué)習(xí)方法的效果就會(huì)差強(qiáng)人意,而傳統(tǒng)的機(jī)器學(xué)習(xí)方法就可以處理;其次,在個(gè)別領(lǐng)域只需要采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,便可以較好的解決問題,無需使用復(fù)雜的深度學(xué)習(xí)方法。

      參考文獻(xiàn)

      [1] Graves A, Gomez F. Connectionisttemporal classification: labellingunsegmented sequence data withrecurrent neural networks[C].International Conference on MachineLearning.ACM,2006.

      [2]降小龍,基于語義結(jié)構(gòu)和視覺焦點(diǎn)的場景目標(biāo)識別[D].中北大學(xué),2016.

      [3]吳杰.基于卷積神經(jīng)網(wǎng)絡(luò)的行為識別研究[D].電子科技大學(xué),2015.

      猜你喜歡
      機(jī)器準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)
      機(jī)器狗
      機(jī)器狗
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      未來機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      齐河县| 淳化县| 横山县| 泾源县| 招远市| 绥江县| 绥阳县| 贵港市| 庆城县| 洛扎县| 淅川县| 宜昌市| 忻城县| 武宣县| 朝阳区| 巴林左旗| 定结县| 壶关县| 瑞金市| 朝阳市| 遵义县| 闸北区| 宁晋县| 商水县| 涟水县| 孟津县| 长顺县| 广水市| 筠连县| 白城市| 准格尔旗| 安吉县| 吴江市| 元氏县| 万安县| 高清| 龙海市| 八宿县| 鄂州市| 琼结县| 汉川市|