• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      手寫(xiě)液晶體數(shù)字及識(shí)別技術(shù)

      2020-08-19 10:41:58鐘寶江
      關(guān)鍵詞:手寫(xiě)體手寫(xiě)復(fù)雜度

      丁 娜,鐘寶江

      蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215000

      1 引言

      字符識(shí)別是模式識(shí)別的一個(gè)研究熱點(diǎn),手寫(xiě)數(shù)字識(shí)別技術(shù)作為其重要的研究分支,得到了廣泛的關(guān)注與發(fā)展。手寫(xiě)數(shù)字識(shí)別是一種利用計(jì)算機(jī)以及一些識(shí)別設(shè)備自動(dòng)辨認(rèn)手寫(xiě)阿拉伯?dāng)?shù)字的技術(shù)。常見(jiàn)應(yīng)用主要包括郵件自動(dòng)分揀、財(cái)務(wù)報(bào)表、銀行單據(jù)的檢查和處理、數(shù)據(jù)錄入等。這些任務(wù)一般都需要非常高的識(shí)別精確度和非??斓淖R(shí)別速度。然而,不同人的手寫(xiě)風(fēng)格迥異,差距較大,因此手寫(xiě)體數(shù)字的格式難以規(guī)范,準(zhǔn)確識(shí)別有較大的難度。為此,本文設(shè)計(jì)了一種利用“液晶體”記錄數(shù)字的方式,并進(jìn)一步提出了一種對(duì)應(yīng)的快速識(shí)別方法。與普通的手寫(xiě)體數(shù)字相比,手寫(xiě)液晶體數(shù)字在格式上比較規(guī)范統(tǒng)一,從而可以通過(guò)低復(fù)雜度的算法完成高精度的識(shí)別。

      手寫(xiě)液晶體數(shù)字識(shí)別的關(guān)鍵問(wèn)題在于:不同樣本在筆畫(huà)深淺和筆畫(huà)粗細(xì)上存在差異,并且冗余筆畫(huà)會(huì)形成噪聲,影響識(shí)別效果。傳統(tǒng)的字符識(shí)別方法會(huì)對(duì)輸入圖像先進(jìn)行一系列預(yù)處理操作(如高斯模糊化、二值化、形態(tài)學(xué)運(yùn)算等),再進(jìn)行特征提取,旨在減少這些差異與噪聲帶來(lái)的識(shí)別錯(cuò)誤。這些預(yù)處理步驟往往使得算法過(guò)程復(fù)雜化,并且可能出現(xiàn)不穩(wěn)定的識(shí)別結(jié)果。為此,本文提出的識(shí)別技術(shù)將直接對(duì)輸入的待識(shí)別數(shù)字圖像進(jìn)行特征提取,能夠盡可能完整地保持原始的圖像信息,同時(shí)保證算法運(yùn)行的穩(wěn)定性。該技術(shù)將不同人的書(shū)寫(xiě)風(fēng)格歸一化,使得輸入的待識(shí)別樣本轉(zhuǎn)化為一個(gè)基本不變的數(shù)字表示。最后,實(shí)現(xiàn)了對(duì)手寫(xiě)液晶體數(shù)字的可靠分類和識(shí)別。與現(xiàn)有方法相比,新方法的識(shí)別過(guò)程簡(jiǎn)單穩(wěn)定,卻能夠取得更好的識(shí)別效果。

      本文以計(jì)算機(jī)閱卷系統(tǒng)的研發(fā)為背景,在這一任務(wù)中,對(duì)學(xué)生學(xué)號(hào)的識(shí)別需要有盡可能高的準(zhǔn)確率。比如一個(gè)學(xué)號(hào)由10 位數(shù)字組成,則需要10 位數(shù)字都能正確識(shí)別,該學(xué)號(hào)記錄才能有效。也就是說(shuō),在這一應(yīng)用場(chǎng)景中對(duì)單個(gè)數(shù)字識(shí)別的損失函數(shù)是通常識(shí)別任務(wù)的10倍。目前主流的數(shù)字識(shí)別方法是神經(jīng)網(wǎng)絡(luò)算法[1-7]。在本地區(qū)中小學(xué)校采集了一批通常的手寫(xiě)體數(shù)字樣本,運(yùn)用在標(biāo)準(zhǔn)的手寫(xiě)體數(shù)據(jù)庫(kù),即MNIST 數(shù)據(jù)庫(kù)(http://yann.lecun.com/exdb/mnist/)上訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)模型對(duì)其進(jìn)行識(shí)別,正確率僅有62%左右,效果很不理想。如果期望提高正確率,則需要擴(kuò)大或者更換訓(xùn)練數(shù)據(jù)集,重新訓(xùn)練網(wǎng)絡(luò)模型,工作流程復(fù)雜,且對(duì)于專業(yè)知識(shí)和硬件設(shè)施的要求也比較高。即便如此,對(duì)單個(gè)字符的識(shí)別率一般也只能提升到99%左右。此時(shí)對(duì)于一串包含10位數(shù)字的學(xué)號(hào)來(lái)說(shuō),其識(shí)別的準(zhǔn)確率僅有90%,依然不夠理想。在其他類似的應(yīng)用場(chǎng)景中,數(shù)字一般也都是以字符串形式出現(xiàn)的??梢?jiàn),單個(gè)手寫(xiě)體數(shù)字的識(shí)別準(zhǔn)確率需要進(jìn)一步提升。

      本文提出的液晶體數(shù)字記錄方式將解決問(wèn)題的關(guān)鍵步驟前置,采集到的待識(shí)別數(shù)字樣本具有相對(duì)規(guī)范的格式,從而能夠顯著減輕后期識(shí)別階段的壓力。對(duì)應(yīng)提出的識(shí)別方法基于貝葉斯分類器來(lái)實(shí)現(xiàn),無(wú)需事先訓(xùn)練,算法復(fù)雜度低,在排除用戶未按照要求的模板書(shū)寫(xiě)的情形后能夠?qū)崿F(xiàn)100%的識(shí)別率。與現(xiàn)有方法相比,其優(yōu)勢(shì)非常明顯。

      2 相關(guān)技術(shù)

      在計(jì)算機(jī)視覺(jué)和文本圖像分析領(lǐng)域,手寫(xiě)數(shù)字的識(shí)別技術(shù)已經(jīng)取得了巨大的進(jìn)展。1998 年,Kundu 等人[8]利用可變持續(xù)時(shí)間隱馬爾可夫模型和路徑判別隱馬爾可夫模型策略,實(shí)現(xiàn)了一種手寫(xiě)文字識(shí)別系統(tǒng)。2007年,Wen 等人[9]提出了一種手寫(xiě)孟加拉數(shù)字識(shí)別系統(tǒng),在郵政信件自動(dòng)分揀機(jī)上得到了實(shí)際應(yīng)用。該系統(tǒng)主要采用了支持向量機(jī)分類器,并且結(jié)合主成分分析特征提取器,能夠快速地給出識(shí)別結(jié)果。此外,研究人員已經(jīng)對(duì)隱馬爾可夫模型[10]、支持向量機(jī)、Fisher 線性分類器、隨機(jī)森林、k-近鄰[11]等多種分類器模型進(jìn)行了研究。這些傳統(tǒng)的分類模型在小規(guī)模數(shù)據(jù)集上可以達(dá)到較好的識(shí)別效果,然而在大規(guī)模數(shù)據(jù)集上的識(shí)別率和收斂速度都不夠高。總體來(lái)說(shuō),基于傳統(tǒng)的手寫(xiě)體數(shù)字識(shí)別算法簡(jiǎn)單,速度快,但是并不能達(dá)到百分百的精度需求[12-13]。

      近年來(lái),深度學(xué)習(xí)技術(shù)的發(fā)展為解決手寫(xiě)體數(shù)字識(shí)別提供了新途徑。一批基于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法被提出[1-7]。作為一種新的機(jī)器學(xué)習(xí)方式,深度學(xué)習(xí)吸引了人們的廣泛關(guān)注。深度學(xué)習(xí)基于一組算法,試圖通過(guò)使用多個(gè)非線性信息處理階段對(duì)數(shù)據(jù)建模進(jìn)行更高層次的抽象,重點(diǎn)學(xué)習(xí)數(shù)據(jù)的表達(dá)[14]。在深度學(xué)習(xí)環(huán)境中,基于表示學(xué)習(xí)的模式識(shí)別任務(wù)已經(jīng)成功實(shí)現(xiàn)[15]。由于數(shù)據(jù)的可用性和對(duì)分類任務(wù)的高準(zhǔn)確性和良好泛化能力,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決問(wèn)題的主要方法。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在字符和數(shù)字識(shí)別上展示了優(yōu)秀的識(shí)別率[16]。CNN 技術(shù)的優(yōu)勢(shì)在于能夠自動(dòng)提取輸入字符中不變的顯著特征[17-18]。雖然這些模型具有較高的精度,但是為了實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)的權(quán)值進(jìn)行微調(diào)以便提取出更好的特征,并使收斂速度慢于最優(yōu)解,需要付出相應(yīng)的代價(jià),即大量的計(jì)算和復(fù)雜的體系結(jié)構(gòu)開(kāi)發(fā)。對(duì)于手寫(xiě)體數(shù)字的識(shí)別,目前大都基于MNIST 手寫(xiě)體數(shù)據(jù)集進(jìn)行訓(xùn)練識(shí)別。圖1 展示了該數(shù)據(jù)庫(kù)中兩批不同的樣本,可以看到在書(shū)寫(xiě)方向、數(shù)字大小、筆畫(huà)粗細(xì)深淺等方面這些樣本存在明顯不同的風(fēng)格化特征。如前所述,若使用MNIST 數(shù)據(jù)庫(kù)上訓(xùn)練出的模型來(lái)對(duì)該數(shù)據(jù)庫(kù)以外的手寫(xiě)體數(shù)字樣本進(jìn)行測(cè)試,識(shí)別率很低。也就是說(shuō),基于特定數(shù)據(jù)集進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,對(duì)非數(shù)據(jù)庫(kù)中的樣本進(jìn)行識(shí)別時(shí)準(zhǔn)確率并不理想。因此,目前在實(shí)際應(yīng)用中,CNN神經(jīng)網(wǎng)絡(luò)識(shí)別算法不夠穩(wěn)定,其泛化性能的提高是一個(gè)瓶頸性的難點(diǎn),并且使用成本非常高。

      圖1 不同風(fēng)格的手寫(xiě)體數(shù)字樣本

      為了保證識(shí)別的超高精度,一般會(huì)考慮使用答題卡系統(tǒng)。答題卡上的信息通過(guò)光標(biāo)閱讀機(jī)識(shí)別,用配套軟件使涂點(diǎn)數(shù)據(jù)錄入到計(jì)算機(jī)中,如圖2(a)所示。然而,答題卡系統(tǒng)的設(shè)備成本高,且使用不方便,靈活程度低,限制了其應(yīng)用范圍。一方面,光標(biāo)閱讀機(jī)對(duì)信息卡的定位精度要求較高,因此制作一張答題卡有很多要求,比如紙張纖維要長(zhǎng)、薄厚均勻、挺括程度好等,并且在印刷的套印和基準(zhǔn)邊的裁切精度方面也要求很高,否則很容易造成閱讀錯(cuò)誤,降低識(shí)別精度。此外,因?yàn)榇痤}卡紙張纖維具有很強(qiáng)的親水性,在溫度急劇變化時(shí)漲縮也較大,所以機(jī)讀答題卡的存放與保管也需格外小心。另一方面,在答題卡填涂方面也非常講究,必須時(shí)刻保持答題卡的頁(yè)面整潔、不得折疊,需要使用指定的2B鉛筆進(jìn)行特定形狀的填涂,否則會(huì)無(wú)法識(shí)別。在設(shè)備成本方面,市場(chǎng)上光標(biāo)閱讀機(jī)的價(jià)格為1 萬(wàn)元左右,外設(shè)條件要求更高。因此,答題卡系統(tǒng)大多用于一些重要的考試場(chǎng)合,實(shí)際應(yīng)用范圍小。相對(duì)地,本文提出的計(jì)算機(jī)閱卷系統(tǒng)不僅在設(shè)備成本、使用方式等方面具有明顯的優(yōu)勢(shì),同時(shí)也契合當(dāng)前互聯(lián)網(wǎng)以及個(gè)人液晶圖像設(shè)備(如手機(jī))十分普及的時(shí)代特點(diǎn),能夠在大范圍內(nèi)靈活與廣泛地應(yīng)用。

      本文所設(shè)計(jì)的手寫(xiě)液晶體數(shù)字的結(jié)構(gòu)簡(jiǎn)單,可以使得不同人的書(shū)寫(xiě)風(fēng)格盡量保持一致,如圖2(b)所示。進(jìn)一步地,將基于貝葉斯分類器來(lái)設(shè)計(jì)一種無(wú)需事先訓(xùn)練的識(shí)別算法。貝葉斯分類器通過(guò)計(jì)算樣本的最大后驗(yàn)概率進(jìn)行分類,適合處理多分類問(wèn)題,并且在小規(guī)模數(shù)據(jù)集上的處理效果很好。同時(shí),雖然該算法的程序?qū)崿F(xiàn)簡(jiǎn)單,運(yùn)行速度快,但是卻能達(dá)到理想的識(shí)別精度。

      圖2 兩種答題卡學(xué)號(hào)識(shí)別區(qū)域的對(duì)比

      3 手寫(xiě)液晶體數(shù)字

      3.1 手寫(xiě)液晶體的提出

      數(shù)字是一種用來(lái)表示數(shù)的書(shū)寫(xiě)符號(hào),國(guó)際通用的數(shù)字是阿拉伯?dāng)?shù)字。不同人的書(shū)寫(xiě)風(fēng)格不同,因此手寫(xiě)體數(shù)字從形態(tài)、大小、結(jié)構(gòu)、深淺等各方面都會(huì)存在明顯差異,部分手寫(xiě)數(shù)字甚至難以被人眼識(shí)別。如前所述,對(duì)于計(jì)算機(jī)閱卷系統(tǒng)這類場(chǎng)景來(lái)說(shuō),對(duì)單個(gè)數(shù)字的識(shí)別準(zhǔn)確率要求非常高,傳統(tǒng)手寫(xiě)阿拉伯?dāng)?shù)字的多變性將使得解決這一問(wèn)題變得異常困難。答題卡識(shí)別系統(tǒng)雖然識(shí)別率高,但由于涂寫(xiě)結(jié)果并不直觀、難以檢查等因素,涂錯(cuò)數(shù)字的情況也時(shí)有發(fā)生,而且使用成本過(guò)高,因此無(wú)法普及。受數(shù)碼管上液晶字體(如圖3(a)所示)的啟發(fā),本文提出了一種新的手寫(xiě)體數(shù)字記錄方式,即“手寫(xiě)液晶體數(shù)字”。在設(shè)計(jì)液晶體數(shù)字的模板(如圖3(b)所示)時(shí),考慮到大部分人的書(shū)寫(xiě)習(xí)慣,將該模板整體設(shè)計(jì)成略向右上角傾斜。為了保證用戶能夠正確書(shū)寫(xiě),同時(shí)會(huì)給出標(biāo)準(zhǔn)的數(shù)字樣例,如圖3(c)所示?;谶@一數(shù)字記錄方式,后期的識(shí)別正確率能夠得到有效保證,從而很好地解決前面兩類識(shí)別系統(tǒng)遇到的問(wèn)題。

      相比通常的手寫(xiě)數(shù)字樣本(見(jiàn)圖1),本文所采集到的手寫(xiě)液晶體數(shù)字樣本(如圖3(d)和(e)所示)的結(jié)構(gòu)穩(wěn)定,風(fēng)格相對(duì)統(tǒng)一,從而保證了識(shí)別的正確率。與傳統(tǒng)答題卡系統(tǒng)相比,使用者能夠直觀地檢查自己的書(shū)寫(xiě)結(jié)果,避免傳統(tǒng)答題卡上容易出現(xiàn)的填涂錯(cuò)誤。另外,一般的掃描機(jī)或者手機(jī)拍照后的圖像都可以在系統(tǒng)中直接進(jìn)行處理和識(shí)別,不需要特殊的閱讀機(jī),也不需要額外特殊的答題紙與答題筆,顯著提升了系統(tǒng)使用的便利性。

      圖3 液晶數(shù)字及手寫(xiě)數(shù)碼體學(xué)號(hào)

      3.2 液晶體數(shù)字?jǐn)?shù)據(jù)庫(kù)

      從本地區(qū)中小學(xué)校中采集了6 386個(gè)手寫(xiě)液晶體數(shù)字樣本,建立了一個(gè)用于測(cè)試的數(shù)據(jù)集,其中包含10種數(shù)字類別,即0~9這10類數(shù)字。圖4展示了10種數(shù)字類的部分樣本。書(shū)寫(xiě)的工具包括鉛筆(著色淡,見(jiàn)圖3(d))和黑色簽字筆(著色深,見(jiàn)圖3(e)),并且因?yàn)椴煌瑢W(xué)生在筆畫(huà)深淺、粗細(xì)、連貫性等各方面有所差別,使得數(shù)據(jù)集中的樣本具備多樣性與真實(shí)性,保證了實(shí)驗(yàn)的合理性、測(cè)試的準(zhǔn)確性以及本文方法的有效性。

      圖4 本文提出的數(shù)據(jù)集的部分樣本圖

      此外,為了模擬真實(shí)的應(yīng)用場(chǎng)景,數(shù)據(jù)集中包含了少量未按規(guī)則填寫(xiě)的數(shù)據(jù)樣本和漏寫(xiě)的空樣本。為此,本文的識(shí)別算法將增加“拒判”這一分類結(jié)果,并將通過(guò)人眼驗(yàn)證的合理“拒判”當(dāng)作正確識(shí)別結(jié)果。圖5 給出了兩個(gè)被“拒判”的樣本,這些樣本均沒(méi)有按照模板要求的格式進(jìn)行書(shū)寫(xiě),因此“拒判”為正確的識(shí)別結(jié)果。

      圖5 被合理“拒判”的樣本

      4 識(shí)別算法

      為了保證識(shí)別過(guò)程和結(jié)果的穩(wěn)定性,本文沒(méi)有采用傳統(tǒng)識(shí)別方法中對(duì)圖像樣本進(jìn)行的預(yù)處理操作(如圖像模糊化和二值化)。這類預(yù)處理步驟主要是為了提高算法對(duì)于圖像噪聲的魯棒性,但同時(shí)也會(huì)丟失圖像的部分有效信息,使得識(shí)別結(jié)果變得不穩(wěn)定。本文的識(shí)別算法將直接從原始樣本的圖像中提取特征,過(guò)程穩(wěn)定且計(jì)算復(fù)雜度低,同時(shí)通過(guò)貝葉斯模型的特點(diǎn)(即基于后驗(yàn)概率進(jìn)行分類)來(lái)保證算法的抗噪性能。圖6給出了本文識(shí)別算法的主要步驟。具體地,首先基于液晶體數(shù)字模板的坐標(biāo)設(shè)置7 個(gè)窗口,由此采集數(shù)字圖像的信息特征;然后依據(jù)貝葉斯判決方法將待識(shí)別樣本的特征與10類不同數(shù)字的標(biāo)準(zhǔn)特征向量進(jìn)行匹配;最后根據(jù)最大后驗(yàn)概率準(zhǔn)則完成分類和識(shí)別。該算法的計(jì)算復(fù)雜度低,因此具有很快的識(shí)別速度,滿足在線實(shí)時(shí)識(shí)別的要求。

      圖6 基于貝葉斯分類器的手寫(xiě)數(shù)碼體數(shù)字主要步驟

      4.1 特征提取

      手寫(xiě)液晶體數(shù)字樣本一共包含10 個(gè)類別,分別由ω0,ω1,…,ω9表示。其中ω0表示數(shù)字0的類別,ω1代表數(shù)字1的類別,以此類推。此外測(cè)試數(shù)據(jù)集中包含了部分實(shí)際無(wú)效(即沒(méi)有按照要求書(shū)寫(xiě),需要被合理“拒判”)的樣本。

      本文識(shí)別算法直接對(duì)輸入的待識(shí)別液晶體數(shù)字圖像進(jìn)行特征提取。液晶體數(shù)字的模板在7 個(gè)位置記錄不同數(shù)字的筆畫(huà)。根據(jù)這一結(jié)構(gòu),可在這些位置上相應(yīng)地設(shè)置窗口來(lái)采樣可能出現(xiàn)的筆畫(huà),如圖7(a)所示。

      本文分別用R1,R2,…,R7表示這些信息采樣窗口,基于采樣結(jié)果,每個(gè)待識(shí)別數(shù)字都會(huì)被表示為一個(gè)7維向量。由于橫向的筆畫(huà)和豎向的筆畫(huà)有不同的長(zhǎng)度,采用了兩種不同尺寸的窗口分別覆蓋(見(jiàn)圖7(a))。如果窗口尺寸過(guò)小,則可能會(huì)將采樣到的噪音點(diǎn)當(dāng)作真實(shí)筆畫(huà),形成筆畫(huà)存在的假象,從而導(dǎo)致錯(cuò)誤識(shí)別。為此,選擇較大尺寸的窗口,保證了筆畫(huà)采樣的可靠性。

      由于書(shū)寫(xiě)誤差的問(wèn)題,在初始設(shè)定的位置上這些窗口可能不僅覆蓋了目標(biāo)筆畫(huà),還包括了相鄰窗口對(duì)應(yīng)筆畫(huà)的一部分,這時(shí)目標(biāo)筆畫(huà)會(huì)被錯(cuò)誤表示。為了解決這一問(wèn)題,允許窗口的位置在一定范圍內(nèi)浮動(dòng),得到多個(gè)采樣結(jié)果,最終依據(jù)灰度值之和最大(包含黑色像素點(diǎn)最少)的窗口來(lái)判斷筆畫(huà)是否存在。如果這一灰度值之和小于給定的閾值,則認(rèn)為在對(duì)應(yīng)的位置上出現(xiàn)了筆畫(huà),稱之為“有效筆畫(huà)”。圖7(b)和(c)分別列舉了對(duì)于數(shù)字“3”和“4”的識(shí)別過(guò)程。對(duì)于數(shù)字“3”,有5 個(gè)窗口被確認(rèn)為存在有效筆畫(huà);而對(duì)于數(shù)字“4”,只有4個(gè)窗口出現(xiàn)了有效筆畫(huà)。為了表示待識(shí)別的數(shù)字樣本,記:

      其中,xj(j=1,2,…,7)表示待識(shí)別圖像中液晶體數(shù)字的7個(gè)筆畫(huà)窗口內(nèi)的灰度值之和。由于不同數(shù)字樣本在筆跡的粗細(xì)、深淺方面均有差異,而且同一個(gè)樣本的橫向筆畫(huà)和豎向筆畫(huà)粗細(xì)也可能都不同,為了得到不變的樣本表示,以橫、豎兩個(gè)方向上的有效窗口灰度值的均值分別對(duì)兩個(gè)方向上筆畫(huà)的特征值進(jìn)行約化。為了便于表示,約化后該樣本的特征向量仍然用向量x表示。

      圖7 采樣窗口的配置

      用ri分別表示0~9這10個(gè)數(shù)字類的標(biāo)準(zhǔn)特征向量:

      具體來(lái)說(shuō),向量ri中某個(gè)元素值若為1,則表示模板的對(duì)應(yīng)位置有筆畫(huà)存在;若值為0,則表示對(duì)應(yīng)位置無(wú)筆畫(huà)。例如,用向量r2=(1,1,1,0,1,1,0)T作為ω2(即數(shù)字“2”)的類特征表示,可解釋為第四和第七分量所對(duì)應(yīng)的位置無(wú)筆畫(huà),其余位置均有筆畫(huà)。表1列出了所有數(shù)字類的特征向量。

      4.2 分類識(shí)別

      貝葉斯分類器是一種基于貝葉斯定理和最大后驗(yàn)概率確定新樣本輸出屬性的概率分類模型[19]?;谳斎胩卣飨嗷オ?dú)立這一假設(shè)來(lái)計(jì)算概率,實(shí)現(xiàn)對(duì)模型的分類,適合處理多分類問(wèn)題。因此,本文選擇了該分類器來(lái)識(shí)別液晶體數(shù)字,雖然算法結(jié)構(gòu)和實(shí)現(xiàn)簡(jiǎn)單,但在識(shí)別速度和準(zhǔn)確率方面均達(dá)到了理想的效果。

      首先,對(duì)于每一個(gè)數(shù)字類別ωi,計(jì)算其先驗(yàn)概率,計(jì)算如下:

      表1 10個(gè)數(shù)字的類特征向量

      其中,Ni表示數(shù)據(jù)集中第i類數(shù)字圖像的數(shù)量,N表示數(shù)據(jù)集中數(shù)字圖像的總數(shù)。在學(xué)號(hào)識(shí)別這一應(yīng)用場(chǎng)景中,10個(gè)數(shù)字類的先驗(yàn)概率顯然均為0.1,這是先驗(yàn)概率相等的情形。其他場(chǎng)景中也可能會(huì)出現(xiàn)先驗(yàn)概率不相等的情形,比如在識(shí)別身份證號(hào)碼時(shí),身份證序列的第一位只能取1~6 和8 這七類數(shù)字,顯然這十類數(shù)字的先驗(yàn)概率不是相等的,這七類數(shù)字的先驗(yàn)概率將大于其他三類數(shù)字??梢砸罁?jù)統(tǒng)計(jì)數(shù)據(jù)分別配置10個(gè)數(shù)字類的先驗(yàn)概率,從而保證最終識(shí)別的準(zhǔn)確率。

      接著,基于待識(shí)別的數(shù)字樣本和每一個(gè)數(shù)字類的特征向量之間的距離來(lái)計(jì)算其屬于每一類數(shù)字的似然性pi,計(jì)算如下:

      最后,根據(jù)貝葉斯公式計(jì)算待識(shí)別樣本的后驗(yàn)概率分布,計(jì)算如下:

      根據(jù)貝葉斯分類準(zhǔn)則,后驗(yàn)概率取值最大的類即為待識(shí)別樣本所屬的數(shù)字類別,即:

      如果用戶未按照規(guī)范進(jìn)行書(shū)寫(xiě),則會(huì)導(dǎo)致分類結(jié)果不可靠。為了區(qū)分這種情況,可以考慮含“拒判”決策的分類方法,即如果

      則對(duì)X拒判。結(jié)合式(5)和(6),本文具體的分類模型表示為:

      其中,τP默認(rèn)值為0.16。

      圖8 給出了數(shù)字“5”的三個(gè)手寫(xiě)液晶體數(shù)字樣本。圖8(a)中的樣本筆跡較淺,圖8(b)中的樣本筆跡較深,圖8(c)中的樣本沒(méi)有按照模板書(shū)寫(xiě),從而無(wú)法從設(shè)置的窗口中正確采樣筆畫(huà)。這三個(gè)樣本在不同數(shù)字類上的后驗(yàn)概率結(jié)果如圖9所示。容易看到,前兩個(gè)樣本的后驗(yàn)概率具有大致相同的分布規(guī)律,并且都在“5”這個(gè)數(shù)字類上達(dá)到最大值,從而被正確識(shí)別。

      圖8 數(shù)字“5”的三個(gè)樣本

      圖9 數(shù)字“5”的三種不同樣本的后驗(yàn)概率

      可見(jiàn),基于后驗(yàn)概率的分類過(guò)程對(duì)于筆跡深淺具有明顯的不變性。而不按照模板要求書(shū)寫(xiě)的第三個(gè)樣本,其最大后驗(yàn)概率小于給定閾值,即屬于每一個(gè)數(shù)字類的概率都很低,因此被合理拒判。

      4.3 容錯(cuò)策略

      對(duì)于計(jì)算機(jī)閱卷系統(tǒng)來(lái)說(shuō),考慮到各個(gè)用戶的書(shū)寫(xiě)習(xí)慣不同,可能不會(huì)完全按照數(shù)字模板要求填寫(xiě),導(dǎo)致實(shí)際的手寫(xiě)液晶體數(shù)字樣本與標(biāo)準(zhǔn)模板數(shù)字之間存在差異,形成錯(cuò)誤的識(shí)別。但這些樣本可以被人眼準(zhǔn)確識(shí)別,那么也應(yīng)該屬于本文算法的正確識(shí)別范疇。因此本文設(shè)計(jì)了一種容錯(cuò)策略來(lái)識(shí)別這類樣本。

      基于采集到的數(shù)字樣例,本文總結(jié)出了一些具有代表性的“錯(cuò)誤樣例”(如圖10 所示),大概占樣本總數(shù)的1.36%。為了正確識(shí)別這些人眼可以容忍的錯(cuò)誤,在識(shí)別系統(tǒng)中加入了以下容錯(cuò)策略,從而提高了識(shí)別的效率。

      圖10 人眼可以容錯(cuò)的書(shū)寫(xiě)錯(cuò)誤

      根據(jù)實(shí)際采樣結(jié)果,只有1、6、9這三種數(shù)字類別需要進(jìn)行容錯(cuò),其容錯(cuò)表示稱為“容錯(cuò)碼”,如表2 所示。在分類時(shí),對(duì)這三類數(shù)字的特征向量進(jìn)行了補(bǔ)充,也就是將待識(shí)別樣本的特征向量與這三個(gè)數(shù)字類的標(biāo)準(zhǔn)碼及容錯(cuò)碼都分別進(jìn)行概率計(jì)算,然后依據(jù)概率值高的結(jié)果進(jìn)行分類,得出最終識(shí)別結(jié)果。

      表2 “1”“6”“9”數(shù)字類的容錯(cuò)碼

      若算法中沒(méi)有增加這個(gè)容錯(cuò)策略,則上述三種“錯(cuò)誤”的數(shù)字樣本會(huì)被分類錯(cuò)誤或者被拒判,識(shí)別率并不理想。因此,該容錯(cuò)策略有效地增加了識(shí)別算法的可靠性與識(shí)別系統(tǒng)的可用性,提高了識(shí)別準(zhǔn)確率。

      5 實(shí)驗(yàn)結(jié)果及分析

      以下通過(guò)仿真實(shí)驗(yàn)來(lái)評(píng)估本文方法的有效性。由于手寫(xiě)液晶體數(shù)字是本文提出的新的數(shù)字記錄方式,目前沒(méi)有其他可使用的同類數(shù)據(jù)集,無(wú)法進(jìn)行量化結(jié)果的直接對(duì)比。在手寫(xiě)數(shù)字識(shí)別領(lǐng)域,近幾年來(lái)基于神經(jīng)網(wǎng)絡(luò)的識(shí)別算法取得了顯著成效,具有一定的影響力。因此為了進(jìn)行性能評(píng)估,將所提出的方法與目前三種具有代表性的神經(jīng)網(wǎng)絡(luò)方法(LeNet[20]、AlexNet[21]和VGG16[22)]進(jìn)行了比較。采用的評(píng)價(jià)指標(biāo)包括識(shí)別的正確率、在數(shù)字串識(shí)別時(shí)的損失函數(shù)值、識(shí)別的抗噪性能以及算法運(yùn)行時(shí)間四方面。

      5.1 評(píng)價(jià)指標(biāo)

      識(shí)別正確率是分類效率的一種度量,是比較各種分類方案好壞的主要標(biāo)準(zhǔn)。正確率越高,算法識(shí)別效果越好。算法的正確率即用識(shí)別正確的樣本數(shù)除以樣本總數(shù)得到:

      其中,ei表示第ωi類中樣本被錯(cuò)判為其他類別的數(shù)量,Ni為每一類的總樣本數(shù)。

      由于對(duì)數(shù)字的識(shí)別任務(wù)一般會(huì)出現(xiàn)在對(duì)字符串進(jìn)行識(shí)別的場(chǎng)景中,本文考慮的第二個(gè)評(píng)價(jià)指標(biāo)即為單個(gè)數(shù)字識(shí)別對(duì)整個(gè)數(shù)字串識(shí)別的損失函數(shù)值。該損失值反映了所使用的識(shí)別方法在識(shí)別錯(cuò)誤時(shí)所產(chǎn)生的風(fēng)險(xiǎn)。計(jì)算機(jī)閱卷系統(tǒng)中的一組學(xué)號(hào)由十位數(shù)字組成,即需要滿足十位數(shù)字都能識(shí)別正確學(xué)號(hào)記錄才能有效。因此,損失函數(shù)計(jì)算如下:

      其中,ei表示第ωi類中樣本被錯(cuò)判為其他類別的數(shù)量,λ=10 為損失系數(shù)。

      本文對(duì)測(cè)試數(shù)據(jù)集中的數(shù)字樣本加上不同強(qiáng)度的高斯噪聲與椒鹽噪聲,通過(guò)最終識(shí)別率的變化來(lái)反映各算法的抗噪性能。

      在統(tǒng)計(jì)識(shí)別時(shí)間方面,對(duì)于神經(jīng)網(wǎng)絡(luò)算法的描述包括了訓(xùn)練時(shí)間與測(cè)試時(shí)間,而本文算法無(wú)需預(yù)先訓(xùn)練,因此只包含測(cè)試時(shí)間。方法的識(shí)別時(shí)間越少,識(shí)別效率越高。

      5.2 對(duì)比算法

      本文選擇如下三種具有代表性的手寫(xiě)體數(shù)字識(shí)別方法進(jìn)行比較。

      LeNet-5[20]:由 Lecun 在 1998 年提出,用于手寫(xiě)體數(shù)字識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)方法。絕大多數(shù)的美國(guó)銀行用該方法識(shí)別支票上的手寫(xiě)數(shù)字,是早期卷積神經(jīng)網(wǎng)絡(luò)中最具代表性的技術(shù)之一。在LeNet-5 中,包含2 個(gè)卷積層、2個(gè)池化層和3個(gè)全連接層。輸入圖像的大小為32×32像素。

      AlexNet[21]:由Hinton團(tuán)隊(duì)提出,在2012年世界權(quán)威的ISVRC(計(jì)算機(jī)視覺(jué)競(jìng)賽)中得到了第一名,并因此成為圖像分類的核心算法模型,為其后CNN 的發(fā)展奠定了技術(shù)基礎(chǔ)。AlexNet由8個(gè)學(xué)習(xí)層組成,包括5個(gè)卷積層和3個(gè)全連接層。輸入圖像的大小為227×227×3像素。

      VGG16[22]:2014年ISVRC中使用的神經(jīng)網(wǎng)絡(luò)模型,并且獲得了第一名。VGG16 由16 個(gè)學(xué)習(xí)層組成,包括13 個(gè)卷積層和3 個(gè)全連接層,是一個(gè)深層卷積神經(jīng)網(wǎng)絡(luò)。輸入圖像的大小為224×224像素。

      從整個(gè)數(shù)據(jù)集中隨機(jī)選取了1 452幅圖像作為測(cè)試集,剩余的4 934 幅圖像作為訓(xùn)練集。為了讓所對(duì)比的三個(gè)神經(jīng)網(wǎng)絡(luò)有更好的表現(xiàn),利用現(xiàn)有已經(jīng)訓(xùn)練好的模型的權(quán)值參數(shù)作為初始化的參數(shù),結(jié)合新的數(shù)據(jù)重新訓(xùn)練,從而盡可能彌補(bǔ)訓(xùn)練數(shù)據(jù)比較少,進(jìn)而影響識(shí)別結(jié)果的問(wèn)題。

      5.3 測(cè)評(píng)與分析

      表3 給出了本文方法與所對(duì)比的三種識(shí)別方法在識(shí)別正確率和損失值方面的表現(xiàn)??梢钥闯?,對(duì)于其他三種神經(jīng)網(wǎng)絡(luò)方面的經(jīng)典算法,本文方法取得了最高的識(shí)別率,達(dá)到了100%,完全滿足識(shí)別精度要求很高的情形?;趽p失值的對(duì)比,新方法比現(xiàn)有方法對(duì)于學(xué)號(hào)的識(shí)別具有更明顯的優(yōu)勢(shì)。

      表3 識(shí)別結(jié)果正確率和損失值

      為了測(cè)試識(shí)別算法的抗噪性能,本文在測(cè)試圖像上分別添加了不同強(qiáng)度高斯噪聲和椒鹽噪聲。圖11和圖12分別展示了帶有噪聲的樣本圖像。實(shí)際環(huán)境下,噪聲可能會(huì)由于拍攝圖像的光線過(guò)暗或者樣本在圖像傳輸或壓縮過(guò)程中訊號(hào)受到干擾而形成。表4和表5分別給出了本文算法與對(duì)比算法在高斯噪聲與椒鹽噪聲(方差σ分別為0.1、0.2、0.3、0.4)上的識(shí)別率。隨著噪聲強(qiáng)度的增加,三種對(duì)比算法的識(shí)別率明顯逐漸下降,而本文算法不受噪聲的影響,識(shí)別率依然穩(wěn)定在100%,具有優(yōu)秀的抗噪能力。

      圖11 不同強(qiáng)度的高斯噪聲樣本

      圖12 不同強(qiáng)度的椒鹽噪聲樣本

      表4 不同強(qiáng)度高斯噪聲下各算法的識(shí)別率%

      表5 不同強(qiáng)度椒鹽噪聲下各算法的識(shí)別率%

      5.4 計(jì)算復(fù)雜度分析

      以下用浮點(diǎn)運(yùn)算次數(shù)來(lái)分析各算法的時(shí)間復(fù)雜度。一次浮點(diǎn)運(yùn)算定義為一次乘法或者一次加法。

      卷積神經(jīng)網(wǎng)絡(luò)中,n個(gè)卷積層的時(shí)間復(fù)雜度為[23]:

      其中,M表示每個(gè)卷積核輸出特征圖的邊長(zhǎng);K表示每個(gè)卷積核的邊長(zhǎng);n表示神經(jīng)網(wǎng)絡(luò)的卷積層數(shù),即網(wǎng)絡(luò)的深度;Cl表示神經(jīng)網(wǎng)絡(luò)第l個(gè)卷積層的輸出通道數(shù)。卷積層越多,運(yùn)算次數(shù)越多,時(shí)間復(fù)雜度越高。由5.2 節(jié)可知,在上述三種對(duì)比算法中,LeNet-5 的時(shí)間復(fù)雜度最低,VGG16 的時(shí)間復(fù)雜度最高。因此只需比較LeNet-5與本文算法之間的時(shí)間復(fù)雜度。

      輸入一張p×q的圖像,則n=p×q表示所有像素點(diǎn)的個(gè)數(shù)。將圖像縮放為指定尺寸需要遍歷所有的像素點(diǎn),時(shí)間復(fù)雜度為O(n)。基于式(10)是對(duì)運(yùn)行次數(shù)的估算,進(jìn)而通過(guò)估算其運(yùn)行次數(shù)來(lái)對(duì)比兩個(gè)算法之間的時(shí)間復(fù)雜度。在LeNet-5 算法中,卷積核大小為5×5,第一層卷積核的輸入通道為1,輸出6 張28×28 的特征圖,則運(yùn)算次數(shù)約為282×52×1×6;第二層卷積核的輸入為第一層的輸出,輸出為16張10×10 的特征圖,則運(yùn)算次數(shù)約為 102×52×6×16 ;因此LeNet-5 總的運(yùn)算次數(shù)約為357 600,而AlexNet 和VGG16 的運(yùn)算次數(shù)則遠(yuǎn)大于該值。

      在本文算法中,首先分別遍歷7個(gè)窗口中的像素點(diǎn)進(jìn)行特征提取,其運(yùn)算次數(shù)為600×3+450×4。然后基于貝葉斯分類器進(jìn)行分類識(shí)別。先驗(yàn)概率的計(jì)算取決于類別數(shù),則運(yùn)算次數(shù)約為10;類概率密度的運(yùn)算次數(shù)約為330;最大后驗(yàn)概率的運(yùn)行次數(shù)約為31。最后相加可知,本文算法總的運(yùn)行次數(shù)約為4 001,明顯低于LeNet-5 的運(yùn)算次數(shù)。由此可見(jiàn),本文算法的時(shí)間復(fù)雜度顯然低于對(duì)比算法的時(shí)間復(fù)雜度。

      表6 給出了不同方法對(duì)每個(gè)樣本的實(shí)際平均訓(xùn)練時(shí)間和識(shí)別時(shí)間。所有實(shí)驗(yàn)均在以Linux為操作系統(tǒng)的NVIDIA TITAN Xp 的服務(wù)器上編譯運(yùn)行。本文算法的明顯優(yōu)勢(shì)在于其不需要預(yù)先訓(xùn)練的時(shí)間,卻也能達(dá)到實(shí)時(shí)識(shí)別的效果,因此效率更高。

      表6 不同算法的運(yùn)行時(shí)間 ms

      總體來(lái)說(shuō),本文算法基于液晶體數(shù)字的結(jié)構(gòu)提取特征與分類識(shí)別,無(wú)需訓(xùn)練步驟,從而其運(yùn)行不依賴于數(shù)據(jù)集的大小,但能夠取得優(yōu)于三種神經(jīng)網(wǎng)絡(luò)方法的識(shí)別準(zhǔn)確率、抗噪性以及識(shí)別速度。

      6 總結(jié)

      對(duì)于需要識(shí)別整個(gè)數(shù)字字符串的場(chǎng)景,對(duì)單個(gè)數(shù)字的識(shí)別精度需求很高。為此,本文提出了一種新的手寫(xiě)體數(shù)字記錄方式,即液晶體數(shù)字,并提出了一種穩(wěn)定可靠、快速有效的識(shí)別方法。本文方法首先基于液晶體模板的布局設(shè)置了7個(gè)圖樣采樣窗口,提取數(shù)字的特征信息,并將其轉(zhuǎn)換為樣本的特征向量。然后計(jì)算樣本與各數(shù)字類之間的距離,從而基于貝葉斯分類器實(shí)現(xiàn)分類。實(shí)驗(yàn)結(jié)果表明,本文算法能夠取得優(yōu)于現(xiàn)有識(shí)別算法的準(zhǔn)確率,在算法復(fù)雜度、識(shí)別時(shí)間與抗噪性能方面也有明顯優(yōu)勢(shì)。

      猜你喜歡
      手寫(xiě)體手寫(xiě)復(fù)雜度
      手寫(xiě)比敲鍵盤(pán)更有助于學(xué)習(xí)和記憶
      哐當(dāng)(外一首)
      哐當(dāng)(外一首)
      我手寫(xiě)我心
      抓住身邊事吾手寫(xiě)吾心
      基于大數(shù)據(jù)下的手寫(xiě)體識(shí)別的設(shè)計(jì)與研發(fā)
      披著書(shū)法外衣的手寫(xiě)體
      一種低復(fù)雜度的慣性/GNSS矢量深組合方法
      基于集成學(xué)習(xí)的MINIST手寫(xiě)數(shù)字識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:08
      求圖上廣探樹(shù)的時(shí)間復(fù)雜度
      蕉岭县| 上饶县| 宜君县| 米泉市| 恩平市| 云龙县| 会宁县| 彩票| 习水县| 稻城县| 河曲县| 石城县| 汶上县| 临邑县| 华阴市| 垫江县| 方城县| 安阳市| 铜陵市| 金湖县| 定兴县| 西吉县| 体育| 黎平县| 井冈山市| 鄂伦春自治旗| 双城市| 二手房| 潞西市| 常熟市| 顺义区| 蓬溪县| 怀柔区| 临泉县| 商洛市| 昌邑市| 莎车县| 灵璧县| 腾冲县| 沧源| 吉林省|