• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于端對(duì)端網(wǎng)絡(luò)模型的手寫公式識(shí)別

      2023-01-31 08:55:52管延智李梓源
      關(guān)鍵詞:手寫特征提取準(zhǔn)確率

      管延智 孫 浩 馮 帥 李梓源

      (北方工業(yè)大學(xué)機(jī)械與材料工程學(xué)院 北京 100144)

      0 引 言

      手寫公式識(shí)別技術(shù)在自動(dòng)閱卷、拍照搜題、試題數(shù)字化等教育領(lǐng)域具有廣泛的應(yīng)用需求。公式本身復(fù)雜的二維結(jié)構(gòu)、繁多的符號(hào)、符號(hào)的相似性與含義的多樣性導(dǎo)致目前手寫公式識(shí)別準(zhǔn)確率的效果并不理想。Blostein等[1]首次針對(duì)數(shù)學(xué)符號(hào)識(shí)別問題提出了符號(hào)分析和結(jié)構(gòu)處理的研究方法,主要分為符號(hào)識(shí)別的早期處理、符號(hào)分割、符號(hào)空間關(guān)系確定、邏輯關(guān)系確定等步驟。近年來隨著計(jì)算機(jī)計(jì)算能力的顯著提升和大數(shù)據(jù)時(shí)代的到來,基于神經(jīng)網(wǎng)絡(luò)的公式識(shí)別算法受到了研究者的青睞。Faure等[2]利用圖像在X、Y軸上的投影,提出一種新型的數(shù)學(xué)符號(hào)分割方法,但是其在根號(hào)上的分割往往是不成功的,而且存在等號(hào)等符號(hào)的過度分割問題。王奕松[3]利用LSTM網(wǎng)絡(luò)架構(gòu),構(gòu)建了數(shù)學(xué)統(tǒng)計(jì)語言模型,通過改進(jìn)基于坐標(biāo)軸投影的符號(hào)分割方法,達(dá)到字符分割的目的,并基于外接矩形、點(diǎn)分布模式的特征提取,對(duì)數(shù)學(xué)解題語言中的根式、分式等做出判別來完成符號(hào)識(shí)別。而Cho等[4]在機(jī)器翻譯領(lǐng)域提出了端對(duì)端的方法,其具有更好的優(yōu)勢(shì),此方法由數(shù)據(jù)驅(qū)動(dòng)而不再是傳統(tǒng)的預(yù)定義方法,而且輸入序列不需要與輸出序列有嚴(yán)格的對(duì)應(yīng)關(guān)系。最近的端對(duì)端模型研究也顯示了該模型可以通過注意力機(jī)制自動(dòng)訓(xùn)練提取手寫公式中的符號(hào)而不需要分割的優(yōu)勢(shì)。

      Zhang等[5]基于文獻(xiàn)[4]提出了一種基于GRU[6](Gated Recurrent Unit)的編碼器模型,并結(jié)合注意力機(jī)制可將在線手寫公式轉(zhuǎn)換為L(zhǎng)aTeX。文獻(xiàn)[7]使用CNN(Convolutional Neural Networks)代替了GRU編碼器,可以實(shí)現(xiàn)離線手寫公式圖片轉(zhuǎn)換的功能。此外,Deng等[8]提出了不同的網(wǎng)絡(luò)模型結(jié)構(gòu),該模型使用CNN和多層RNN(Recurrent Neural Network)作為編碼器,利用基于注意力機(jī)制的LSTM作為解碼器,該模型在IM2LATEX-100K數(shù)據(jù)集上測(cè)試并取得了良好的性能,并證實(shí)在識(shí)別手寫公式方面也有較好的性能[9]。后來Wang等[10]改進(jìn)了文獻(xiàn)[8]模型,利用Dense-net[11]來作為CNN編碼,并通過聯(lián)合圖像通道與空間上的注意力機(jī)制[12]增強(qiáng)了注意力。Zhang等[13]將原圖像大小增大兩倍并使用雙關(guān)注機(jī)制,從而提升了性能。

      本文基于端對(duì)端網(wǎng)絡(luò)架構(gòu),提出一種手寫公式識(shí)別網(wǎng)絡(luò)模型,在CNN編碼采用稠密連接塊(Dense-net)的結(jié)構(gòu),獲取深度特征,并建立不同感受野來對(duì)手寫公式圖片進(jìn)行大小特征提取,把握更多的全局信息。在RNN解碼采用雙向GRU,每一層中使用的雙向單元使得RNN網(wǎng)絡(luò)可以從符號(hào)之間的正向和反向捕獲上下文,有助于捕獲更復(fù)雜的語言語義。該網(wǎng)絡(luò)可以獲取不同特征,緩解了多次卷積后特征圖分辨率較低導(dǎo)致部分文本缺失問題,并且能夠更好地把握提取特征之間地前后關(guān)系,從而更好地識(shí)別手寫公式。

      1 網(wǎng)絡(luò)模型

      端到端網(wǎng)絡(luò)模型(encoder-decoder),也稱為序列到序列結(jié)構(gòu)(seq2seq),已成功應(yīng)用于圖像處理和文本處理這兩個(gè)領(lǐng)域的交集。用于此類應(yīng)用的編碼器通常是卷積神經(jīng)網(wǎng)絡(luò)(CNN),它將輸入圖像編碼為抽象特征,而解碼器通常是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),該神經(jīng)網(wǎng)絡(luò)代表一種語言模型,將編碼器輸出轉(zhuǎn)換為從詞匯表中提取的標(biāo)記序列。這種體系結(jié)構(gòu)使輸入圖像和輸出序列的大小變得靈活,并且可以以端到端的方式進(jìn)行訓(xùn)練。端到端模型已成功用于圖像字幕和場(chǎng)景文本識(shí)別任務(wù),并且在文獻(xiàn)[8]中已成功地將基于注意力的端到端模型應(yīng)用于將圖像轉(zhuǎn)換為L(zhǎng)aTeX的問題上,這證明了該模型處理公式識(shí)別的能力。

      1.1 Encoder編碼單元

      對(duì)圖像特征提取的工作采用CNN網(wǎng)絡(luò),可以強(qiáng)化特征抓取,特別是在小型的訓(xùn)練網(wǎng)絡(luò)。Dense-net作為一種新型卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),在圖像分類任務(wù)上表現(xiàn)出了出色的性能,因?yàn)樗膭?lì)特征重用,加強(qiáng)了特征提取,促進(jìn)梯度傳播,并減少了參數(shù)數(shù)量。在數(shù)學(xué)公式識(shí)別任務(wù)中,由于數(shù)學(xué)公式復(fù)雜的二維結(jié)構(gòu),符號(hào)間上下文關(guān)系異常緊密可能在多個(gè)字符之后,上下文依然存在著聯(lián)系,例如:d=sqrt{4^{2}-4}=2sqrt{3}中的等號(hào)前后的根號(hào)存在著緊密聯(lián)系,所以對(duì)圖像識(shí)別出的特征不能夠有遺失。Dense-net就可以保證最大程度網(wǎng)絡(luò)中各層之間直接連接,保證信息交流,為保持前饋性,每層都從所有先前的層中獲取其他輸入并將其自己的特征圖傳遞給后續(xù)層。更重要的是,與Res-net[14]相比,前后層之間不通過求和再傳遞到層中,而是通過串聯(lián)特征來組合特征,這樣不僅僅是從網(wǎng)絡(luò)的深度而是利用特征重用來挖掘網(wǎng)絡(luò)的潛能。因此采用Dense-net作為encoder編碼器特征提取的網(wǎng)絡(luò)架構(gòu)。而對(duì)于手寫數(shù)學(xué)公式圖片中不同符號(hào)特征分辨率不同的問題,建立了不同感受野來對(duì)特征進(jìn)行提取的方法。

      (1) 主要特征的提取。Dense-Net讓網(wǎng)絡(luò)的每一層的輸入變成所有前面層的疊加(concat),然后把它的特征圖傳遞給所有接下來的網(wǎng)絡(luò)層。計(jì)算公式如下:

      xl=Hl([x0,x1,…,xl-1])

      (1)

      式中:H表示層的卷積函數(shù);x0,x1,…,xl表示不同層的輸出。主要特征提取網(wǎng)絡(luò)中函數(shù)由BN(Batch Normalization)+ReLU+3×3 Conv(歸一化+激活函數(shù)+3×3卷積)組成。網(wǎng)絡(luò)中一個(gè)部分是下采樣層,它用來改變特征圖的大小,為了使得網(wǎng)絡(luò)的下采樣更便利,將網(wǎng)絡(luò)分解為多個(gè)Dense Block,把介于兩個(gè)Dense Block之間的網(wǎng)絡(luò)層稱為轉(zhuǎn)換層,轉(zhuǎn)換層主要進(jìn)行卷積和池化操作。轉(zhuǎn)換層由BN+1×1 Conv+2×2平均池化組成。

      Dense-Net的網(wǎng)絡(luò)層很窄,盡管每個(gè)網(wǎng)絡(luò)層值輸出k個(gè)特征圖,但是它的輸入會(huì)非常多。根據(jù)Res-Net網(wǎng)絡(luò)結(jié)構(gòu),可以在3×3的卷積之前使用1×1的卷積來減少輸入的特征圖數(shù)量,從而提高計(jì)算效率。因此在網(wǎng)絡(luò)中使用了1×1的卷積,一個(gè)網(wǎng)絡(luò)層則由BN+ReLU+1×1 Conv+BN-ReLU+3×3 Conv(歸一化+激活函數(shù)+1×1卷積+歸一化+激活函數(shù)+3×3卷積)組成,其中每個(gè)1×1的卷積生成4 000幅特征圖。參照dense-net網(wǎng)絡(luò)架構(gòu),初等數(shù)學(xué)公式圖片的主要特征提取過程如下:(1) 對(duì)輸入圖片進(jìn)行7×7卷積,提取基本特征,對(duì)特征圖進(jìn)行歸一化,通過ReLU激活函數(shù)進(jìn)行非線性操作,最大值池化;(2) 深度為16,增長(zhǎng)率為24的dense塊,每層深度間進(jìn)行的是BN、ReLU、1×1卷積、BN、ReLU、3×3卷積;(3) 轉(zhuǎn)換層:BN、ReLU、1×1卷積核卷積、2×2平均池化。

      主要特征提取網(wǎng)絡(luò)總共設(shè)有3個(gè)dense塊和轉(zhuǎn)換塊相連,dense塊與轉(zhuǎn)換塊交替使用。每個(gè)dense塊中有16層神經(jīng)網(wǎng)絡(luò),后一層繼承所有前層的特征,每個(gè)dense塊的增長(zhǎng)率為24。每個(gè)轉(zhuǎn)換塊由歸一化、激活函數(shù)、1×1卷積、2×2平均池化組成,主要網(wǎng)絡(luò)結(jié)構(gòu)流程圖如圖1所示。

      圖1 主要特征提取網(wǎng)絡(luò)流程

      (2) 小特征的提取。雖然dense塊的組合提取了圖片集的特征,但是考慮到pooling層縮小了像素圖的大小,降低了分辨率。由于手寫數(shù)學(xué)公式符號(hào)的比例差異很大,在低分辨率的feature map中會(huì)丟失,因此提取每層特征的細(xì)節(jié)在手寫初等數(shù)學(xué)公式識(shí)別中尤為重要。在多層池化后,小的視覺信息很容易消失,從而導(dǎo)致特征提取不足的后果。為了解決這項(xiàng)問題,采用并聯(lián)一種大感受野的dense塊,達(dá)到提供辨別低分辨率特征,又不遺失高分辨率特征的目的。大感受野的dense塊可以感受更大的視覺信息,更貼近現(xiàn)實(shí)情況。根據(jù)一般情況,3個(gè)dense模塊構(gòu)成一組dense-net網(wǎng)絡(luò)結(jié)構(gòu),為使網(wǎng)絡(luò)達(dá)到緊湊,減少不必要的計(jì)算量,在2號(hào)dense塊分支連接一個(gè)大感受野的dense塊,用來提取小感受野中的特征,層數(shù)為8,增長(zhǎng)率與之前相同,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      圖2 小特征提取網(wǎng)絡(luò)流程

      1.2 Decoder解碼單元

      Decoder是將輸入序列(提取的特征)編碼而成的帶有語義的向量,與數(shù)據(jù)集真實(shí)label之間建立聯(lián)系,得到預(yù)測(cè)序列結(jié)果的部分,其中應(yīng)用最廣泛的是RNN。接下來主要介紹label的詞嵌入和RNN網(wǎng)絡(luò)結(jié)構(gòu)。

      (1) Token embedding。為實(shí)現(xiàn)手寫初等數(shù)學(xué)公式的識(shí)別,需要對(duì)label中出現(xiàn)的字符做一個(gè)字符表。為使得每一個(gè)數(shù)學(xué)公式的字符都有上下文,在本研究中為每一個(gè)label的前邊都插入了一個(gè)起始符“”,每一個(gè)label后邊都出入一個(gè)終止符“”。經(jīng)過對(duì)數(shù)據(jù)集label中出現(xiàn)的字符進(jìn)行統(tǒng)計(jì),詞典的大小為120。

      字符表是LaTeX序列中的一個(gè)處理單元,用于簡(jiǎn)化公式轉(zhuǎn)換器的設(shè)計(jì),Label可以通過字符表被分割為字符y0,y1,…,yt。label字符編碼可以以不同的表示形式饋入解碼單元。一個(gè)簡(jiǎn)單的選擇是將每個(gè)標(biāo)記表示為one-hot向量,但是這樣標(biāo)記彼此正交,可能會(huì)丟失重要的語言語義。而公式識(shí)別類似于自然語言的單詞,許多LaTeX字符相互關(guān)聯(lián)。例如,“{”和“}”具有很高的相關(guān)性,所以它們需要根據(jù)LaTeX語法成對(duì)使用。所以在中添加NLP中常用的詞嵌入[15]層,其中將字符yt投影到保留語義關(guān)系的高維向量Wt中:

      Wt=embedding(yt)

      (2)

      這種嵌入是可訓(xùn)練的,并且能夠捕獲不同令牌之間的相互關(guān)系[15],更能表現(xiàn)公式識(shí)別中各個(gè)符號(hào)之間的聯(lián)系。

      (2) BiGRU。GRU基于LSTM循環(huán)網(wǎng)絡(luò)[16],也可以解決簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)中的存在的長(zhǎng)依賴問題,但是較LSTM網(wǎng)絡(luò)的門控制來得更為簡(jiǎn)潔,而且在多種序列到序列任務(wù)中表現(xiàn)也很好,所以GRU在自然語言處理問題的處理上使用也越來越頻繁。LSTM網(wǎng)絡(luò)中引入了三個(gè)門單元來控制信息的更新方式,其中輸入門和遺忘門是互補(bǔ)的關(guān)系,用兩個(gè)門就比較冗余,在改進(jìn)的GRU網(wǎng)絡(luò)中,將輸出門和遺忘門合并成一個(gè)門,而且不引入額外的記憶單元ct,而是直接在當(dāng)前狀態(tài)ht和歷史狀態(tài)ct-1之間建立依賴關(guān)系。圖3為GRU網(wǎng)絡(luò)單元具體結(jié)構(gòu)。

      圖3 GRU網(wǎng)絡(luò)

      圖3中的更新門zt用于控制在歷史狀態(tài)信息中保留多少和從候選狀態(tài)(hidden states)信息中接受多少,并傳遞給當(dāng)前狀態(tài);rt表示重置門,用來控制候選狀態(tài)ht是否與上一時(shí)間狀態(tài)的ht-1建立聯(lián)系;輸入是xt,經(jīng)過GRU網(wǎng)絡(luò)輸出為ht。

      zt=σ(Wzxt+Uzht-1+bz)

      (3)

      rt=σ(Wrxt+Utht-1+br)

      (4)

      (5)

      (6)

      本模型中使用雙向深層GRU單元的解碼器網(wǎng)絡(luò),雙向GRU有助于捕獲更復(fù)雜的語言語義,并且在每一層中的雙向單元有助于從符號(hào)之間的正向和反向捕獲上下文。圖4顯示了本文模型中的雙向GRU的結(jié)構(gòu)。

      圖4 BiGRU結(jié)構(gòu)

      BiGRU的計(jì)算過程如下:

      (7)

      (8)

      (9)

      在NLP應(yīng)用中,解碼器的初始隱藏狀態(tài)和單元狀態(tài)通常是編碼器的輸出,但是由于本模型中編碼器是CNN,不會(huì)產(chǎn)生這樣的輸出,因此解碼器的信息性初始狀態(tài)采用0初始化。由于CNN編碼器不具有存儲(chǔ)功能,而且RNN的初始狀態(tài)不足以壓縮所有來自編碼器的信息,但注意力機(jī)制[17]已經(jīng)證明可以解決這個(gè)問題。CNN編碼對(duì)手寫公式圖片進(jìn)行特征提取后,對(duì)特征建立相關(guān)聯(lián)的上下文向量,這樣才能饋入RNN解碼網(wǎng)絡(luò)。采用coverage機(jī)制[18]建立上下文詞向量,這種機(jī)制可以解決序列到序列問題中預(yù)測(cè)序列經(jīng)常有重復(fù)的現(xiàn)象,計(jì)算公式如下:

      (10)

      (11)

      式中:VT、Wh、Ws、WC為權(quán)值矩陣;b為偏置;hi、st為隱藏狀態(tài);tanh為激活函數(shù);ct是一個(gè)長(zhǎng)度為輸入長(zhǎng)度的向量,包括前時(shí)刻輸入第一個(gè)詞權(quán)重的疊加和,輸入第二個(gè)詞權(quán)重的疊加和,以此類推。αti表示第i個(gè)詞序列在時(shí)間t的權(quán)重,計(jì)算公式如下:

      αti=βTtanh(W1ht-1+W2ei)

      (12)

      αti=softmax(αti)

      (13)

      ht=RNN(ht-1,ct)

      (14)

      預(yù)測(cè)概率公式如下所示,并表示詞匯表V上下一個(gè)符號(hào)的概率分布:

      P(yt)=(wtct)

      (15)

      完成數(shù)據(jù)集圖片與真實(shí)label的訓(xùn)練模型后,雖然能夠?qū)D片特征預(yù)測(cè)出序列結(jié)果,但是預(yù)測(cè)過程需要通過上下文和上一個(gè)預(yù)測(cè)的單詞,來預(yù)測(cè)下一個(gè)詞。著名的貪心算法[19]如果存在著在預(yù)測(cè)序列中有一個(gè)單詞預(yù)測(cè)的不準(zhǔn)確,那么它會(huì)影響后面所有單詞的預(yù)測(cè)的問題。而有時(shí)概率低的反而是真實(shí)label標(biāo)簽,考慮到在公式識(shí)別過程中,對(duì)識(shí)別結(jié)果準(zhǔn)確度的要求較高,相對(duì)于只取一個(gè)概率最大的單詞,范圍預(yù)測(cè)[20]能夠得到更合理的句子結(jié)果。在整個(gè)encoder-decoder端到端網(wǎng)絡(luò)中,主要特征識(shí)別、編碼、解碼過程可簡(jiǎn)單用圖5表示。

      圖5 手寫公式識(shí)別模型簡(jiǎn)單數(shù)據(jù)流圖

      2 實(shí) 驗(yàn)

      2.1 數(shù)據(jù)集組成

      數(shù)據(jù)集來自谷歌CROHME標(biāo)準(zhǔn)公式識(shí)別數(shù)據(jù)集,CROHME競(jìng)賽分為四個(gè)任務(wù),手寫公式識(shí)別就是其任務(wù)之一。數(shù)據(jù)集中符號(hào)種類繁多、結(jié)構(gòu)復(fù)雜,數(shù)量也會(huì)隨著年份的增加而增多。本文采用的CROHME2016數(shù)據(jù)集,訓(xùn)練集數(shù)量為8 836幅公式圖片,且所有標(biāo)簽均為L(zhǎng)aTeX作為標(biāo)記。在驗(yàn)證過程上,采用CROHME2014測(cè)試集作為驗(yàn)證集來評(píng)估模型框架的性能。并使用CROHME2016測(cè)試集來體現(xiàn)模型的泛化性能。具體實(shí)驗(yàn)數(shù)據(jù)集分布如表1所示。

      表1 實(shí)驗(yàn)數(shù)據(jù)集分布

      在一般深度學(xué)習(xí)圖片識(shí)別任務(wù)中,為識(shí)別不同的特征,通常采用RGB三通道彩色圖片作為輸入,達(dá)到區(qū)別色彩的目的,而在手寫數(shù)學(xué)公式識(shí)別中,數(shù)據(jù)集圖片主要由黑白兩部分進(jìn)行組成,黑色為手寫字跡,白色為背景,所以區(qū)別彩色對(duì)本任務(wù)幫助不大。而數(shù)據(jù)集圖片的光照強(qiáng)度卻對(duì)識(shí)別過程有著很大的影響,因此實(shí)驗(yàn)數(shù)據(jù)集圖片均采用了彩色圖轉(zhuǎn)灰度圖的預(yù)處理,降低了光照強(qiáng)度對(duì)識(shí)別結(jié)果的影響,同時(shí)減少了模型訓(xùn)練過程的運(yùn)算量,提高了訓(xùn)練速度。

      2.2 配置環(huán)境及超參數(shù)設(shè)置

      實(shí)驗(yàn)所有環(huán)節(jié)均在Windows 10系統(tǒng)下進(jìn)行,使用PyTorch深度學(xué)習(xí)框架。主要的網(wǎng)絡(luò)的超參數(shù)設(shè)置如下:主要特征提取網(wǎng)絡(luò)層數(shù)為16層,增長(zhǎng)率k取24;小特征提取網(wǎng)絡(luò)層數(shù)為8層,增長(zhǎng)率k取24;編碼單元dropout為0.2,embedding層維度為256;BiGRU網(wǎng)絡(luò)隱藏層數(shù)取256;范圍搜索長(zhǎng)度為10。為使得計(jì)算機(jī)性能得到最大利用,batch_size大小為10,學(xué)習(xí)率即梯度下降步長(zhǎng)為2e-2,學(xué)習(xí)率衰減因子為0.5,最大梯度裁減為5,損失函數(shù)采用交叉熵?fù)p失函數(shù),優(yōu)化器算法為Adam算法[21]。

      2.3 結(jié)果及分析

      圖6為迭代計(jì)算350個(gè)epoch后利用tensorboardX庫進(jìn)行可視化,得到的損失函數(shù)loss變化曲線圖。模型訓(xùn)練過程前期,loss曲線變化較快,在300多個(gè)epoch后,loss值趨于收斂狀態(tài),并在350多個(gè)epoch時(shí)達(dá)到局部極值。由此可以得出本模型對(duì)樣本數(shù)據(jù)集的擬合狀態(tài)較好,并沒有出現(xiàn)梯度消失或者梯度爆炸等現(xiàn)象,損失函數(shù)達(dá)到了很好的收斂效果。

      圖6 驗(yàn)證集后60次準(zhǔn)確率曲線

      另一方面,模型訓(xùn)練過程中訓(xùn)練集準(zhǔn)確率如圖7所示??梢钥闯?,準(zhǔn)確率曲線逐漸收斂于95%。對(duì)于驗(yàn)證集,迭代350次后的準(zhǔn)確率曲線如圖8所示,可以看出驗(yàn)證集的準(zhǔn)確率在逐步上升,期間雖有波動(dòng),但逐漸收斂于89%,說明參數(shù)設(shè)置有效提高了網(wǎng)絡(luò)的穩(wěn)健性,避免了訓(xùn)練過程中的過擬合現(xiàn)象,表明模型對(duì)驗(yàn)證數(shù)據(jù)也有比較好的表達(dá)能力。

      圖7 訓(xùn)練集準(zhǔn)確率曲線

      圖8 驗(yàn)證集準(zhǔn)確率曲線

      針對(duì)在CROHME2016谷歌識(shí)別大賽中表現(xiàn)比較好的Wiris、Tokyo等算法[22],本模型在同一測(cè)試集上與上述幾種算法和相關(guān)主流算法的準(zhǔn)確率做了對(duì)比,結(jié)果如表2所示。其中MyScipt使用了額外的訓(xùn)練數(shù)據(jù)??梢钥闯霰疚奶岢龅木W(wǎng)絡(luò)模型在手寫公式識(shí)別任務(wù)上達(dá)到了深層特征提取的目的,有著較好的準(zhǔn)確率,為51%,僅次于第一名的準(zhǔn)確率67.65%,說明所提模型具有較好的泛化能力,能夠自動(dòng)獲取圖片中的特征,自動(dòng)調(diào)節(jié)網(wǎng)絡(luò)參數(shù),達(dá)到模型的優(yōu)化,有效避免了過擬合問題,提高了預(yù)測(cè)的穩(wěn)健性,能夠很好地解決手寫數(shù)學(xué)公式的識(shí)別問題。

      表2 與其他算法的對(duì)比

      另外,圖9為本文模型在測(cè)試集上的部分識(shí)別結(jié)果,可見本模型可以對(duì)輸入的手寫初等數(shù)學(xué)公式圖像進(jìn)行良好的識(shí)別,不同感受野的特征提取模塊有效緩解了對(duì)于小分辨率文本出現(xiàn)特征丟失遺漏的現(xiàn)象,雙向GRU網(wǎng)絡(luò)有助于捕獲公式結(jié)構(gòu)復(fù)雜的語言語義,每一層中的雙向單元從符號(hào)和詞向量的正向和反向捕獲上下文,在輸入數(shù)學(xué)公式較長(zhǎng)的情況下也能很好地完成識(shí)別任務(wù)。

      圖9 測(cè)試集部分識(shí)別結(jié)果

      3 結(jié) 語

      基于encoder-decoder端到端架構(gòu),提出一種手寫公式識(shí)別網(wǎng)絡(luò)模型,采用主流Dense-net網(wǎng)絡(luò),根據(jù)不同尺度的感受野,將特征提取分為主要特征提取和小特征提取,能夠全面地表達(dá)輸入圖片中各個(gè)特征信息,緩解了多次卷積后特征圖分辨率較低導(dǎo)致部分文本缺失以至于預(yù)測(cè)不準(zhǔn)確的問題。雙向GRU有效捕捉了編碼特征向量和字符表向量的正反向的上下文關(guān)系,將復(fù)雜的公式語義關(guān)系緊密聯(lián)系,對(duì)長(zhǎng)公式也有較好的預(yù)測(cè)能力。本模型的超參數(shù)設(shè)置有效地避免了訓(xùn)練過程中模型梯度消失和梯度爆炸的問題,在350個(gè)epoch迭代過程中,并沒有出現(xiàn)過擬合的現(xiàn)象,并在最后loss值和準(zhǔn)確率都趨于收斂,本網(wǎng)絡(luò)模型在PyTorch框架下,對(duì)訓(xùn)練集進(jìn)行訓(xùn)練并在測(cè)試集中進(jìn)行測(cè)試,最終模型在測(cè)試集上表現(xiàn)的準(zhǔn)確率約為0.51,僅次于MyScipt的準(zhǔn)確率,說明本文模型具有較好的泛化能力。

      猜你喜歡
      手寫特征提取準(zhǔn)確率
      手寫比敲鍵盤更有助于學(xué)習(xí)和記憶
      我手寫我心
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      抓住身邊事吾手寫吾心
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      基于集成學(xué)習(xí)的MINIST手寫數(shù)字識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:08
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      Bagging RCSP腦電特征提取算法
      建宁县| 德保县| 夹江县| 赤峰市| 阿城市| 林芝县| 浦北县| 石屏县| 富锦市| 遵化市| 新巴尔虎左旗| 九台市| 云浮市| 瑞金市| 宝清县| 襄垣县| 奇台县| 麻阳| 叶城县| 泽普县| 甘南县| 石阡县| 贵溪市| 宁化县| 龙江县| 宜城市| 锡林浩特市| 桓台县| 炉霍县| 涿鹿县| 大英县| 左权县| 嘉义县| 井研县| 峨山| 微山县| 九寨沟县| 东至县| 云阳县| 南丹县| 简阳市|