• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)方法的手寫文本行提取綜述

    2021-05-04 11:11:18楊益暄田益民崔圓斌齊千慧韓利利
    關(guān)鍵詞:手寫手稿文檔

    楊益暄,田益民,崔圓斌,齊千慧,韓利利

    (北京印刷學(xué)院 信息工程學(xué)院,北京 102600)

    0 引 言

    信息技術(shù)的飛速發(fā)展無時(shí)無刻不在影響著人們的生活。多媒體數(shù)字網(wǎng)絡(luò)的迅猛發(fā)展,使傳統(tǒng)的紙質(zhì)媒體受到了劇烈的沖擊。然而仍然有很多價(jià)值珍貴的或?qū)€(gè)人而言意義重大的資料保存記錄在紙質(zhì)媒介上。如雜志、手寫文稿、歷史文稿等。當(dāng)在成千上萬(wàn)的文檔中搜索信息時(shí),紙質(zhì)文檔的不適用性就會(huì)體現(xiàn)出來。文檔分析與識(shí)別(Document Analysis and Recognition,DAR)[1]系統(tǒng)是一項(xiàng)復(fù)雜的工程任務(wù),其一般包含文本與非文本部分分離、文本行或單詞提取、文本傾斜和偏移的校正、字符或單詞識(shí)別等步驟。其中,文本行是文檔圖像中的重要實(shí)體,因此正確提取文檔中的文本行將直接影響單詞或字符識(shí)別的準(zhǔn)確程度。

    當(dāng)今流行的文本行提取方法分為兩大類:傳統(tǒng)方法和學(xué)習(xí)方法。傳統(tǒng)手寫文本行提取方法主要基于機(jī)器學(xué)習(xí)和啟發(fā)式算法,又可細(xì)分為3類[5]:自頂向下的方法、自底向上的方法和混合型方法。自頂向下的方法對(duì)文本行的字符序列部分進(jìn)行分組,并將屬于不同文本行的各個(gè)組成部分進(jìn)行拆分,從而實(shí)現(xiàn)文本行的定位。如文獻(xiàn)[6],用接縫裁剪法獲取圖像特征后,通過計(jì)算能量圖分割文本行;Alaei[7]等人則先確定行間間隙,然后在每個(gè)間隙上應(yīng)用分段過濾,最后使用細(xì)化算法分割手寫文本行。自底向上的方法則是根據(jù)局部特征對(duì)像素或相連的部分進(jìn)行分組,以形成文本行。如,文獻(xiàn)[8]使用超像素法獲得圖像連通區(qū)域(Connected components,CCs),并通過最小化能量函數(shù)對(duì)CCs進(jìn)行分割提取文本行。Ryu等人[9]通過改進(jìn)文獻(xiàn)[8]的CCs分割方法和最小化能量函數(shù),克服了少量CCs無法正確提取文本行的問題,提出了一種不受語(yǔ)言影響的文本行提取方法?;旌闲头椒▌t將自頂向下和自底向上文本行提取方法相結(jié)合。如,Louloudis等人[10]采用了先得到CCs后,再用Hough變換檢測(cè)文本行,最后通過后期處理以糾正錯(cuò)誤。Deshmukh等人[11]則利用全局閾值和各行的局部閾值分割文本行,再通過后期基于分治和水平投影的方法,從剩余未分割的區(qū)域中提取文本行。

    時(shí)至今日,已有許多基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本行提取方法。如基于Hough變換的方法[2]、基于模擬水流的方法[3]、基于圖像接縫裁剪[4]方法等等。而隨著深度學(xué)習(xí)的興起,越來越多的工作者結(jié)合深度學(xué)習(xí)開展相應(yīng)的研究。

    本文將針對(duì)目前主要的基于深度學(xué)習(xí)的文本行提取方法分析研究,并對(duì)常用的數(shù)據(jù)集做簡(jiǎn)單介紹。

    1 基于深度學(xué)習(xí)提取方法

    隨著深度學(xué)習(xí)的興起,人們注意到基于深度學(xué)習(xí)的文本行提取方法可以解決許多傳統(tǒng)方法面臨的問題。許多研究人員指出,從文檔中提取文本行最有效的方法是搭建深度神經(jīng)網(wǎng)絡(luò),大量的參數(shù)和網(wǎng)絡(luò)隱層數(shù)使其擁有很強(qiáng)的非線性擬合能力以及自學(xué)習(xí)能力。此外,基于深度學(xué)習(xí)的方法在應(yīng)對(duì)文檔圖像中的不同噪聲和古籍紙張自然老化或污損有著較好的魯棒性。

    1.1 基于全卷積神經(jīng)網(wǎng)絡(luò)方法

    圖像分割作為計(jì)算機(jī)視覺領(lǐng)域的三大任務(wù)之一,一直存在著極大的挑戰(zhàn)性。由Long等人[12]提出的全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)在這方面取得了顯著的進(jìn)步。FCN將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的全連接層替換為卷積層,實(shí)現(xiàn)了單張圖像像素級(jí)的分類,從而解決語(yǔ)義級(jí)別的圖像分割(semantic segmentation)問題。FCN分為二部分:卷積層和反卷積層。卷積層可以接受任意尺寸的輸入圖像,之后采用反卷積層對(duì)最后一個(gè)卷積層產(chǎn)生的特征圖進(jìn)行上采樣,使它恢復(fù)到輸入圖像相同的尺寸,從而預(yù)測(cè)每一個(gè)像素的類別,同時(shí)保留了原始輸入圖像中的空間信息,最后在上采樣的特征圖上進(jìn)行逐像素分類。

    由于FCN在圖像分割領(lǐng)域的優(yōu)秀表現(xiàn),研究人員將此網(wǎng)絡(luò)應(yīng)用于文檔或歷史手稿圖像的文本行提取中。FCN作為一種端到端的圖像分割方法,可以通過反卷積層得到的熱圖并使用不同的分割方法來提取文本行。Vo等人[13]通過FCN對(duì)手寫文檔圖像進(jìn)行了文本行提??;Baraket等人[14]同樣使用FCN對(duì)具有挑戰(zhàn)性歷史手稿圖像進(jìn)行了文本行提取,得到了比傳統(tǒng)方法更好的效果。但是,原始的FCN結(jié)構(gòu)在反卷積過程對(duì)圖像細(xì)節(jié)的處理不到位,丟失了許多細(xì)節(jié)信息。Renton等人[15-16]分別對(duì)比了反卷積、上池化和空洞卷積在手寫文本行提取的應(yīng)用效果,發(fā)現(xiàn)空洞卷積增大感受野,提高了對(duì)文本信息的識(shí)別精度。因此提出了一種新的架構(gòu),將卷積層和最大池化層替換為空洞卷積。此外引入X高度作為文本行的標(biāo)簽進(jìn)行訓(xùn)練,減少文本行之間字符粘連的影響,在所用數(shù)據(jù)集上達(dá)到了不錯(cuò)的效果。

    1.2 基于編解碼器方法

    為了實(shí)現(xiàn)醫(yī)學(xué)圖像的分割,Ronneberger等人[17]于2015年提出一種編解碼結(jié)構(gòu)的網(wǎng)絡(luò)模型U-Net。U-Net體系結(jié)構(gòu)由兩個(gè)對(duì)稱部分組成,即收縮路徑和擴(kuò)展路徑。收縮路徑進(jìn)行特征提取,擴(kuò)展路徑通過組合從收縮路徑捕獲的圖像上下文信息來保證準(zhǔn)確定位。U-Net體系結(jié)構(gòu)既充當(dāng)編碼器又充當(dāng)解碼器。U-Net作為FCN的變體,可以將可變大小的圖像作為U-Net結(jié)構(gòu)的輸入,而且,訓(xùn)練階段不需要大量的圖像。另外,U-Net在對(duì)文檔圖像語(yǔ)義分割的多項(xiàng)工作中顯示出有效的效果。

    基于原始的U-Net,Mechi等人[18]提出了一種自適應(yīng)U-Net結(jié)構(gòu)的歷史手稿圖像文本行分割方法。該方法在解碼器階段使用反卷積操作,以在網(wǎng)絡(luò)架構(gòu)的輸入和輸出上保持相同的分辨率。同時(shí)將原網(wǎng)絡(luò)結(jié)構(gòu)收縮路徑所設(shè)置的卷積核減少到一半,消除訓(xùn)練階段的過度擬合問題。Gruning等人[19]提出了一種基于ARU-Net的歷史手稿文本行檢測(cè)方法,該架構(gòu)是U-Net的擴(kuò)展。通過注意模型和殘差結(jié)構(gòu)構(gòu)建U型結(jié)構(gòu),旨在及時(shí)處理任意大小的圖像,以考慮所有空間上下文信息。其使用的空間注意機(jī)制允許ARU-Net專注于不同位置和比例的圖像內(nèi)容。此外,還可以從頭開始訓(xùn)練。利用數(shù)據(jù)增強(qiáng)方法,不需要過多地手動(dòng)標(biāo)注示例圖片。Neche等人[20]提出了結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的RU-Net,這種方法比ARU-Net訓(xùn)練簡(jiǎn)單,僅需要較少的處理步驟,即可達(dá)到更好的效果。

    1.3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)方法

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)于20世紀(jì)80年代提出,隨著不斷地改進(jìn)和GPU性能的提升,逐漸在自然語(yǔ)言處理、目標(biāo)檢測(cè)等方面取得了諸多成果。

    基于RNN的手寫文本行提取方法受到目標(biāo)檢測(cè)方法的啟發(fā),結(jié)合CNN和根據(jù)RNN改進(jìn)的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對(duì)文本行進(jìn)行定位檢測(cè)。Moysset等人[21-22]對(duì)文本行周圍的bounding box進(jìn)行打分,再利用分類器定位每個(gè)文本行的起點(diǎn)并標(biāo)記,最后得到文本行的邊界框。在文獻(xiàn)[23]中,Moysset通過MLSTM改良了之前的方法,提高了這種定位方法的精度,對(duì)具有高度差異性的數(shù)據(jù)集進(jìn)行測(cè)試,顯示出了良好的效果。

    1.4 基于生成式對(duì)抗網(wǎng)絡(luò)方法

    生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)于2014年由Goodfellow等人[24]提出。GAN基于零和博弈的思想,構(gòu)造出一個(gè)生成器和一個(gè)判別器。生成器從隨機(jī)信號(hào)分布中合成一些有意義的數(shù)據(jù)矩陣,判別器則區(qū)分真實(shí)分布和虛假分布,通過不斷的對(duì)抗來優(yōu)化網(wǎng)絡(luò)的結(jié)構(gòu)。目前,GAN已經(jīng)在圖像編輯、圖像生成、視頻預(yù)測(cè)、圖像超分辨率等諸多領(lǐng)域大放異彩。

    由于GAN架構(gòu)優(yōu)秀的生成能力,Kundu等人[25]首次將GAN引入文本行提取領(lǐng)域。受Isola等人[26]提出的pix2pix啟發(fā),以Encoder-Decoder和U-Net分別作為兩個(gè)GAN的生成器,以Patch-GAN作為判別器。在實(shí)驗(yàn)過程中,以U-Net為生成器的GAN在迭代對(duì)抗訓(xùn)練中能夠更精確的分割文本圖像。這種pix2pix結(jié)構(gòu)有效地學(xué)習(xí)了文本行的特征,為手寫文本行提取領(lǐng)域注入了新的思路。但GAN對(duì)輸入的超參數(shù)極其敏感。此外,則需要更多的數(shù)據(jù)集利用其他方法和人工來標(biāo)注真實(shí)標(biāo)簽依然是應(yīng)用方面的關(guān)鍵問題。

    2 數(shù)據(jù)集

    本節(jié)簡(jiǎn)要整理了常用的基于深度學(xué)習(xí)手寫文本行提取應(yīng)用的數(shù)據(jù)集,見表1。

    表1 數(shù)據(jù)集Tab.1 Dataset introduction

    當(dāng)需要對(duì)算法的可行性進(jìn)行驗(yàn)證時(shí),可選用國(guó)際文檔分析與識(shí)別會(huì)議(International Conference on Document Analysis and Recognition,ICDAR)的分割競(jìng)賽和HIT-MW等數(shù)據(jù)集。此類數(shù)據(jù)手寫文本排列整齊,圖像噪聲和偽影較少,預(yù)處理方法簡(jiǎn)單。當(dāng)實(shí)驗(yàn)?zāi)康臑榫哂刑魬?zhàn)性的歷史手稿時(shí),可選用DIVA-HisDB類數(shù)據(jù)集。

    3 結(jié)束語(yǔ)

    文本行提取領(lǐng)域經(jīng)過了幾十年的發(fā)展,雖然已經(jīng)擁有長(zhǎng)足的發(fā)展和實(shí)用的算法,但在大數(shù)據(jù)時(shí)代面對(duì)海量的文檔圖片數(shù)據(jù)仍然捉襟見肘,尤其對(duì)于歷史手稿的圖片處理更是一大難題,時(shí)下大熱的深度學(xué)習(xí)為該領(lǐng)域探索了新的出路?;谏疃葘W(xué)習(xí)的手寫文本行提取,涵蓋了各種不同的方法,每種算法都有各自的特點(diǎn)。RNN根據(jù)目標(biāo)檢測(cè)的原理對(duì)文本行進(jìn)行定位,這種方法新穎而且不需要標(biāo)記文本行的邊界,但其缺點(diǎn)也很明顯,在處理繁重的任務(wù)時(shí)無法起到更好的效果,并且對(duì)于歷史手稿類的圖像,難以提取其傾斜的甚至曲線狀的文本行。FCN作為計(jì)算機(jī)視覺領(lǐng)域著名的圖像分割網(wǎng)絡(luò)能夠端到端對(duì)圖像分割,易于對(duì)布局較為簡(jiǎn)單的普通手寫文本圖像進(jìn)行提取。但其反卷積過程中對(duì)圖像粗糙處理的缺點(diǎn)會(huì)在文本行分割之后丟失文字的細(xì)節(jié)信息。對(duì)于不同語(yǔ)言文字的保存會(huì)減少準(zhǔn)確性,而之后的文字或單詞提取也會(huì)面臨諸多困難。與FCN相比,U-Net在上采樣階段進(jìn)行了比較大的改動(dòng),結(jié)合了下采樣時(shí)的低分辨率信息和上采樣時(shí)的高分辨率信息提高分割精度。GAN的方法則是結(jié)合了納什均衡和圖像分割的思想對(duì)手寫文本行進(jìn)行提取。從以上方法可以看出,F(xiàn)CN、U-Net等基于分割的文本行提取方法是深度學(xué)習(xí)方法的主流。

    目前的方法在一定程度上達(dá)到了需求,但仍有很大的提升空間。以下提出3點(diǎn)對(duì)未來研究的展望:

    (1)本文提及的4種神經(jīng)網(wǎng)絡(luò)都存在各自的局限性,探索不同網(wǎng)絡(luò)結(jié)合的效果會(huì)是一條可行的途徑。

    (2)GAN方法應(yīng)用不夠廣泛,還有很大的空間可以提升,可以使用其他的GAN網(wǎng)絡(luò)和更多數(shù)據(jù)集進(jìn)行驗(yàn)證。

    (3)由于不同歷史手稿的特殊性和差異性,對(duì)于監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)方法來說為大量圖像添加標(biāo)簽是一個(gè)亟待解決的問題。因此無監(jiān)督學(xué)習(xí)的方法會(huì)是未來研究的一大熱點(diǎn)。

    猜你喜歡
    手寫手稿文檔
    手寫比敲鍵盤更有助于學(xué)習(xí)和記憶
    作家手稿
    綠洲(2022年3期)2022-06-06 08:17:22
    作家手稿
    綠洲(2022年2期)2022-03-31 08:37:08
    我手寫我心
    有人一聲不吭向你扔了個(gè)文檔
    丟失的手稿
    抓住身邊事吾手寫吾心
    基于集成學(xué)習(xí)的MINIST手寫數(shù)字識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:08
    手稿
    作品(2017年2期)2017-02-23 14:51:46
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    南靖县| 壤塘县| 赤水市| 临潭县| 六枝特区| 宜宾市| 南郑县| 武隆县| 柯坪县| 开原市| 榆树市| 响水县| 霍林郭勒市| 砚山县| 察隅县| 华坪县| 璧山县| 渑池县| 海安县| 土默特右旗| 卓资县| 玛曲县| 青州市| 泰兴市| 蛟河市| 贺州市| 嘉善县| 张家口市| 治多县| 洪江市| 舒兰市| 延津县| 阿拉善右旗| 房山区| 安陆市| 霍州市| 虞城县| 白河县| 颍上县| 米易县| 闻喜县|