• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種融合Transformer 和CNN 的印刷體數(shù)學(xué)表達(dá)式圖像識別方法

      2022-07-11 01:13:32尹鋒朱躍生周昭坤
      電子技術(shù)與軟件工程 2022年4期
      關(guān)鍵詞:解碼器字符表達(dá)式

      尹鋒 朱躍生 周昭坤

      (北京大學(xué)深圳研究生院 廣東省深圳市 518055)

      1 介紹

      數(shù)學(xué)表達(dá)式是人類知識和智慧的結(jié)晶,通過數(shù)字和字符就能夠揭示自然界不同事物之間的關(guān)系。印刷體數(shù)學(xué)表達(dá)式圖像識別(Printed Mathematical Expression Recognition,PMER)是光學(xué)字符識別(Optional Character Recognition,OCR)技術(shù)的一個重要分支。由于PMER 不僅需要從圖像中識別所有的符號,而且還需要捕獲符號之間復(fù)雜的二維結(jié)構(gòu)信息,包括常量表達(dá)式、變量表達(dá)式、求積分、開根號、復(fù)雜分?jǐn)?shù)、矩陣、求和、平方、立方等,而目前的OCR 技術(shù)無法處理含有二維結(jié)構(gòu)信息的數(shù)學(xué)表達(dá)式圖像。

      傳統(tǒng)數(shù)學(xué)表達(dá)式圖像識別研究主要是基于字符分割的識別方法。1968 年,Anderson在其博士論文中首次提出了關(guān)于數(shù)學(xué)表達(dá)式圖像識別的研究。在Okamoto等人的系統(tǒng)中,將數(shù)學(xué)表達(dá)式識別分為依據(jù)字符投影的輪廓信息進(jìn)行數(shù)學(xué)表達(dá)式分割、使用模版匹配法進(jìn)行符號識別以及自頂向下和自底向上的結(jié)構(gòu)分析法。

      目前基于深度學(xué)習(xí)的數(shù)學(xué)表達(dá)式圖像識別方法通常是基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)進(jìn)行圖像編碼,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural NSetwork, RNN)并結(jié)合注意力機(jī)制生成字符級別的LaTeX 字符序列。中國科技大學(xué)語音和信息處理國家工程實(shí)驗(yàn)室張建樹和杜輝等人提出了基于GRU(Gated Recurrent Unit,GRU)的編碼器-解碼器框架的端到端的數(shù)學(xué)表達(dá)式識別方法,該方法能夠識別在線手寫體數(shù)學(xué)表達(dá)式,它基于門控遞歸單元的循環(huán)神經(jīng)網(wǎng)絡(luò)對輸入的二維手寫體軌跡進(jìn)行編碼,解碼器同樣是門控遞歸單元的循環(huán)神經(jīng)網(wǎng)絡(luò)在注意力機(jī)制作用下完成對數(shù)學(xué)表達(dá)式字符識別和結(jié)構(gòu)分析,最終輸出LaTeX 格式的字符序列。2017 年,哈佛大學(xué)團(tuán)隊(duì)提出的從粗到細(xì)的注意力機(jī)制來降低計(jì)算成本的IM2Markup 模型。2019,密歇根州立大學(xué)和學(xué)而思教育集團(tuán)AI 實(shí)驗(yàn)室的團(tuán)隊(duì)提出了R-Transformer模型,具有RNN和Transformer的優(yōu)點(diǎn),同時避免了它們各自的缺點(diǎn),該模型可以有效捕獲序列中局部結(jié)構(gòu)和全局依賴關(guān)系,而不需要任何位置嵌入。2019 年,北京大學(xué)深圳研究生院的張偉在原有注意力機(jī)制的基礎(chǔ)上,提出了一種多重注意力機(jī)制模型,從而提升了數(shù)學(xué)表達(dá)式識別模型對于數(shù)學(xué)字符定位的精度。2020 年,華東師范大學(xué)的Fu提出了一種EDSL 方法,即編碼器-解碼器與符號級特征,以識別打印的數(shù)學(xué)表達(dá)式。2021 年10 月,微軟亞洲研究院團(tuán)隊(duì)等設(shè)計(jì)和開發(fā)了一個高效識別打印和手寫文本識別的模型,這是一種端到端的基于Transformer 的OCR 識別模型,它利用Transformer 進(jìn)行圖像的編碼和word-level 文本生成,該模型簡單有效。雖然該模型是針對OCR 識別,但其思想和方法對于數(shù)學(xué)表達(dá)式圖像的識別有一定的參考價值。

      盡管以上方法有效并取得了一定的成果,但我們認(rèn)為,這些方法在解決PMER 問題上可能不是最優(yōu)的,這些方法存在以下不足:

      (1)傳統(tǒng)識別方法需要依賴大量的先驗(yàn)知識,需要手動執(zhí)行符號分割,不是端到端的識別方法。這種方法對于空間結(jié)構(gòu)復(fù)雜的數(shù)學(xué)表達(dá)式圖像,傳統(tǒng)識別方法存在很大的挑戰(zhàn),往往受到字符分割算法和結(jié)構(gòu)分析方法的限制。

      (2)基于深度學(xué)習(xí)CNN 和RNN 的識別方法在處理圖像的復(fù)雜的二維結(jié)構(gòu)信息上不是最優(yōu)的。在同一個數(shù)學(xué)表達(dá)式中,相同的符號可以具有不同的語義,對于如下公式(1)所示的數(shù)學(xué)表達(dá)式:

      有7 個數(shù)字“2”,“2”在不同的位置其表示的意義也就不同。

      (3)PMER 需要提供對數(shù)學(xué)表達(dá)式全面的、細(xì)粒度的描述。并且現(xiàn)有方法的模型難以并行化,訓(xùn)練時間較長,并且當(dāng)輸入字符序列很長時,由于梯度消失難以捕捉長距離依賴關(guān)系。

      隨著Transformer 在圖像處理、目標(biāo)檢測、自然語言處理等領(lǐng)域的成功,Transformer 可以很好的對模型進(jìn)行并行化訓(xùn)練,并且有捕獲數(shù)學(xué)表達(dá)式字符長距離依賴關(guān)系的優(yōu)勢,但是考慮到Transformer 缺乏CNN 所固有的一些歸納偏置,比如平移不變性和局部特性,因此,我們提出了一種融合Transformer 和CNN 的印刷體數(shù)學(xué)表達(dá)式圖像識別方法,簡稱TrCPMER,它解決了當(dāng)輸入字符序列很長時,難以捕獲長距離依賴關(guān)系的問題,同時通過融合CNN增加了模型的平移不變性和更好的提取圖像的多尺度的局部特征。TrCPMER 模型由編碼器和解碼器兩個組件組成,編碼器組件由CNN 和 transformer 編碼器兩個模塊組成,TrCPMER 編碼器組件以細(xì)粒度的方式識別符號特征和符號之間復(fù)雜的二維空間信息。TrCPMER 解碼器組件采用的是標(biāo)準(zhǔn)的Transformer 解碼器,將編碼后的圖像解碼為順序輸出的LaTeX 字符序列。

      本文的主要貢獻(xiàn)如下:

      (1)我們提出了一個融合Transformer 和CNN 的端到端的編碼器-解碼器模型,用于解決PMER 問題。Transformer 可以捕獲輸入圖像的全局特征,CNN 可以提取輸入圖像的局部特征。

      (2)我們在公共數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,識別性能在多項(xiàng)指標(biāo)上表現(xiàn)良好,并且提升了模型的訓(xùn)練效率。

      2 模型構(gòu)建

      本文遵循標(biāo)準(zhǔn)Transformer 模型的架構(gòu),對模型的設(shè)計(jì)具體描述如下。

      2.1 問題定義

      對于一個印刷體數(shù)學(xué)表達(dá)式圖像x,假設(shè)y= <y, y, y,…, y>為LaTeX 文本字符序列,其中y為LaTeX 序列y 中的第i 個文本字符,n 為序列的長度。TrCPMER 的任務(wù)是將印刷體數(shù)學(xué)表達(dá)式圖像轉(zhuǎn)錄為LaTeX 文本序列。因此,TrCPMER 問題可以定義如下:

      定義1(TrCPMER 問題):給出一個印刷體數(shù)學(xué)表達(dá)式圖像x, TrCPMER 的目標(biāo)是學(xué)習(xí)一個映射函數(shù)f,該映射函數(shù)f 能實(shí)現(xiàn)把x 映射為LaTeX 文本字符序列y= <y, y, y, …,y>,使用LaTeX 編譯器可以把y 渲染為圖像x 中的數(shù)學(xué)表達(dá)式。

      2.2 TrCPMER模型

      圖1 是TrCPMER 模型的總體結(jié)構(gòu)圖,它由兩個主要組件組成:

      圖1:TrCPMER 模型總體結(jié)構(gòu)圖

      (1)融合CNN 的Transformer 圖像編碼器;

      (2)LaTeX 字符序列Transformer 解碼器。

      圖像編碼器組件由CNN 編碼器和Transformer 編碼器兩個模塊組成,用于提取數(shù)學(xué)表達(dá)式圖像的局部特征和全局特征信息,以及復(fù)雜的二維結(jié)構(gòu)空間信息。解碼器組件采用標(biāo)準(zhǔn)的Transformer 解碼器,用于將編碼數(shù)學(xué)表達(dá)式圖像轉(zhuǎn)錄為LaTeX 字符序列。

      2.2.1 CNN 編碼器

      我們首先將輸入的數(shù)學(xué)表達(dá)式圖像進(jìn)行了預(yù)處理,圖像的大小調(diào)整為56×168。由于數(shù)學(xué)表達(dá)式具有復(fù)雜的二維空間結(jié)構(gòu),空間相鄰像素通常是高度相關(guān)的。然后,我們使用CNN 提取輸入圖像中數(shù)學(xué)表達(dá)式的視覺特征,CNN 編碼器通過使用局部感受野、共享權(quán)值來捕獲圖像的局部特征,從而實(shí)現(xiàn)了一定程度的平移、尺度和旋轉(zhuǎn)不變性。此外,考慮到不同復(fù)雜程度的局部特征,卷積核的層次結(jié)構(gòu)學(xué)習(xí)是從簡單的低級邊緣和紋理到高級語義的學(xué)習(xí)模式。CNN 編碼器由6 個卷積神經(jīng)網(wǎng)絡(luò)和3 個最大池化層。每個卷積層的卷積核大小為(3,3),步長為1;而所有的最大池化層窗口都采用核大小為(2,2),stride 為2,padding 為0。圖像經(jīng)過卷積和池化,將輸入的數(shù)學(xué)表達(dá)式圖像編碼生成特征圖。

      2.2.2 Transformer 編碼器

      我們首先將CNN 編碼器生成的特征圖像(H,W)分割為固定大小的patch 序列,作為Transformer 編碼器的輸入,因?yàn)闃?biāo)準(zhǔn)Transformer 是不能處理原始圖像。Patch 的大小為4×4,因此特征圖像被分割成patch 序列數(shù)N=HW/P。然后,將patch 序列平鋪成特征向量轉(zhuǎn)換為多頭注意力機(jī)制輸入所需要的維度。然后嵌入位置信息,輸入到具有相同的編碼器層傳遞。每個Transformer 層都由一個多頭注意力Multi-Head Attention、一個全連接前饋網(wǎng)絡(luò)Feed Forward 和Add& Norm 三個組件組成。對CNN MODEL 輸出的特征矩陣進(jìn)行編碼,輸出具有上下文信息的特征結(jié)果向量。

      多頭注意力Multi-Head Attention 由8 個Self-Attention組成。Self-Attention 的輸入是CNN MODEL 輸出的數(shù)學(xué)表達(dá)式圖像特征,經(jīng)過如下三個公式(2)(3)(4)的三個線性變換,得到查詢矩陣Q、鍵矩陣K、值矩陣V。

      其中h=8,把8 個head, …, head拼接在一起(Concat),然后傳入一個線性層Linear 層,得到多頭注意力Multi-Head Attention 的輸出矩陣Z。

      編碼器的下一個模塊Feed Forward Neural Network,是一個兩層的全連接,第一層的激活函數(shù)是ReLU,第二層是一個線性激活函數(shù),可以表示為公式(7):

      為了幫助深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練更快,加快收斂,在編碼器部分引入了殘差連接Add 和歸一化Norm。殘差連接Add 可以讓網(wǎng)絡(luò)只關(guān)注當(dāng)前差異部分,歸一化Norm 會將每一層神經(jīng)元的輸入都轉(zhuǎn)成均值和方差都一樣。

      編碼器對圖像特征進(jìn)行編碼,輸出具有上下文信息的特征結(jié)果向量。

      2.2.3 LaTex 解碼器

      本文的TrCPMER 模型使用標(biāo)準(zhǔn)Transformer 解碼器。解碼器的結(jié)構(gòu)與編碼器的結(jié)構(gòu)相似。第一個不同的地方是第一個Multi-Head Attention 層采用了Mask 操作,第二個不同的地方是第二個Multi-Head Attention 層鍵矩陣K 和值矩陣V 使用了編碼器的輸出矩陣,而查詢矩陣Q 使用了上一個解碼層的輸出。解碼器最后的歸一化指數(shù)函數(shù)Softmax 層用來計(jì)算輸出字符的概率向量,找出概率向量中最大概率值索引對應(yīng)的字符作為生成的字符。通過循環(huán)解碼,從而獲得輸入數(shù)學(xué)表達(dá)式圖像x 對應(yīng)的LaTeX 字符序列y。

      3 對比實(shí)驗(yàn)及結(jié)果分析

      為了驗(yàn)證和評估TrCPMER 的性能,我們在公共數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn)。

      3.1 數(shù)據(jù)集

      為了對我們的模型進(jìn)行實(shí)驗(yàn),我們使用了公共數(shù)據(jù)集IM2latex-100k,它收集了一個用LaTeX 編寫的真實(shí)世界的數(shù)學(xué)表達(dá)式的大語料庫。

      IM2latex 數(shù)據(jù)集由103556 張分辨率為1654×2339 的圖像、以及相應(yīng)的LaTeX 公式組成,其中83883 幅圖像作為訓(xùn)練數(shù)據(jù)集,9319 幅圖像作為驗(yàn)證數(shù)據(jù)集,10354 幅圖像作為測試數(shù)據(jù)集。數(shù)據(jù)標(biāo)簽由LaTeX 文本字符序列組成,符號長度在38 到997 之間,平均118 個字符,中位數(shù)98 個字符。

      3.2 評價參數(shù)

      我們的模型的核心評價指標(biāo)是BLEU評分,用來檢測識別出的數(shù)學(xué)表達(dá)式與源圖像x 中的真實(shí)數(shù)學(xué)表達(dá)式的準(zhǔn)確性。Bleu 是雙語翻譯質(zhì)量評價輔助工具,是一個評估機(jī)器翻譯質(zhì)量的工具。機(jī)器翻譯結(jié)果與專業(yè)人工翻譯結(jié)果越接近,機(jī)器翻譯的質(zhì)量就越好。計(jì)算生成的數(shù)學(xué)表達(dá)式的思想與計(jì)算機(jī)器翻譯的思想是一致的。BLEU 算法決定兩個句子之間的相似度。目前,數(shù)學(xué)表達(dá)式識別通常將原始表達(dá)式序列與模型生成的表達(dá)式序列進(jìn)行比較。這與機(jī)器翻譯的情況非常相似,所以我們借用了機(jī)器翻譯中的BLEU 評價指標(biāo)作為參考。一個生成的數(shù)學(xué)表達(dá)式序列與其相對應(yīng)的原始序列比較,算出一個綜合分?jǐn)?shù)。這個分?jǐn)?shù)越高說明模型生成的數(shù)學(xué)表達(dá)式效果越好。該指標(biāo)不僅能反映數(shù)學(xué)表達(dá)式字符識別的準(zhǔn)確度,還能體現(xiàn)數(shù)學(xué)字符之間的前后關(guān)系,因此我們重點(diǎn)使用4-單位片段BLEU 值進(jìn)行評估。

      我們還使用了文本編輯距離準(zhǔn)確率Edit Distance 評價指標(biāo),文本編輯距離是一個標(biāo)準(zhǔn)的衡量兩個字符串之間相似度的指標(biāo)。此外,我們還使用了檢查渲染的預(yù)測圖像與真實(shí)圖像的匹配精度Match,我們還使用Match-ws 檢查消除空白列后的精確匹配精度。

      3.3 模型的實(shí)現(xiàn)方法

      在我們的TrCPMER 模型中,我們采用了8 頭注意力機(jī)制的4 層Transformer 編碼器和解碼器。TCPMER 的嵌入尺寸是256。我們在NVIDIA Titan X GPU 上訓(xùn)練了我們的模型。數(shù)據(jù)集的批量大小為16,優(yōu)化器是Adam 算法,初始學(xué)習(xí)率設(shè)置為0.0003。如果在驗(yàn)證時損失函數(shù)在連續(xù)三個階段沒有減少,學(xué)習(xí)率就會減半。如果在驗(yàn)證時損失函數(shù)在連續(xù)50 個階段沒有減少,我們就停止訓(xùn)練。

      4 實(shí)驗(yàn)結(jié)果和分析

      通過大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1 所示,實(shí)驗(yàn)結(jié)果與deng提出的IM2Markup 模型進(jìn)行了比較。我們提出的TrCPMER 模型的各項(xiàng)指標(biāo)都優(yōu)于IM2Markup 模型,在公共數(shù)據(jù)集IM2latex-100k 上的實(shí)驗(yàn)結(jié)果如表1 所示。

      表1:在公共數(shù)據(jù)集IM2latex-100k 的實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)結(jié)果顯示,在BLEU 評價指標(biāo)上達(dá)到了90.40%,在符號編輯距離Edit Distance 評價指標(biāo)上達(dá)到了96.18%,在圖像匹配精度Match 上達(dá)到了86.56%,在消除空白列后的圖像精確匹配精度Match-ws 上達(dá)到了79.99%。通過實(shí)驗(yàn)結(jié)果和分析,說明了圖像中數(shù)學(xué)表達(dá)式的二維空間結(jié)構(gòu)對識別結(jié)果有很大影響。

      我們的模型超參數(shù)很多,對模型性能影響較大的主要有初始學(xué)習(xí)率learningRate、訓(xùn)練樣本的次數(shù)epoch 等,本文擬采用控制變量的方法,在保證其他參數(shù)不變的情況下,研究了初始學(xué)習(xí)率learningRate 對模型的識別效果。通過Bleu和Edit Distance 評價指標(biāo)隨著各個參數(shù)的變化,動態(tài)地反映了該模型的性能。

      如圖2所示,當(dāng)初始學(xué)習(xí)率0.00006≤learningRate≤0.0003時,對模型的識別精度影響相對較小,但是當(dāng)初始學(xué)習(xí)率learningRate<0.00006 時,或learningRate>0.0003 時,該模型的重要指標(biāo)Bleu 和Edit Distance 產(chǎn)生了很大的變化,當(dāng)learningRate=0.0015 時,Bleu 僅為17.2%,Edit Distance 僅為37.35%。

      圖2:初始學(xué)習(xí)率learningRate 與Bleu 和Edit Distance 指標(biāo)

      因此,印刷體數(shù)學(xué)表達(dá)式圖像識別準(zhǔn)確率與初始學(xué)習(xí)率learningRate 并不是正相關(guān)的。當(dāng)初始學(xué)習(xí)率learningRate=0.0003 時,模型可以達(dá)到更好的性能。

      5 結(jié)論

      本文提出了一種基于融合Transformer 和CNN 的端到端PMER 方法TrCPMER,該TrCPMER 方法簡單且有效,不僅可以捕獲圖像的局部特征和全局特征,而且提升了模型的訓(xùn)練效率和識別準(zhǔn)確率。與現(xiàn)有的方法的對比實(shí)驗(yàn)結(jié)果表明,我們的方法在識別性能的評價指標(biāo)BLEU、Edit Distance和Match 上分別達(dá)到了90.40%、96.18%和86.56%,相應(yīng)提升了3.04%、9.79%和11.75%。未來的可能研究方向包括:構(gòu)建更優(yōu)的CNN 編碼器、更優(yōu)的位置編碼算法、優(yōu)化Transformer 編碼器、手寫數(shù)學(xué)表達(dá)式識別等。

      猜你喜歡
      解碼器字符表達(dá)式
      尋找更強(qiáng)的字符映射管理器
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      一個混合核Hilbert型積分不等式及其算子范數(shù)表達(dá)式
      表達(dá)式轉(zhuǎn)換及求值探析
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      淺析C語言運(yùn)算符及表達(dá)式的教學(xué)誤區(qū)
      延津县| 湄潭县| 内黄县| 兖州市| 二连浩特市| 溆浦县| 阆中市| 交口县| 拉萨市| 邻水| 靖边县| 越西县| 屏东市| 开封县| 遂溪县| 澄城县| 陵川县| 泽州县| 苍溪县| 孝感市| 屯昌县| 武山县| 东方市| 措美县| 张掖市| 鹤山市| 柳江县| 康保县| 炉霍县| 贵溪市| 基隆市| 安多县| 武冈市| 清丰县| 巴里| 古浪县| 蓬莱市| 嘉荫县| 宁河县| 邵阳县| 乌苏市|