黎育權
摘要 文字是人類表達和交流信息的重要工具之一,如郵政物流信件或快遞包裹的分揀和分流、交通系統(tǒng)中車牌號碼的識別和卡o收費。本文通過搭建DCNN進行字符識別,能夠達到平均98.3%的準確率,而傳統(tǒng)的BP神經網絡只能達到95%。隨后,在DCNN基礎上,加入了多種改進算法。使得神經網絡對MNIST手寫字符集的識別率達到99.1%。最后,又將多個神經網絡進行組合,加入集成學習中的Bagging算法,最終使得神經網絡對MNIST手寫字符集的識別率達到99.4%。
【關鍵詞】深度學習 機器學習 深度卷積神經網絡 集成學習 手寫字符識別
模式識別是人工智能和計算機視覺領域的重要分支之一,它通過處理和分析表征事物或現象的信息,對文字、聲音、圖像等進行辨認和分類,在自動化以及信息處理和檢索等方面應用極其廣泛。文字是人類表達和交流信息的重要工具之一。字符識別能夠將字符高效的輸入到計算機系統(tǒng),因而具有重要的研究價值。
1 人工神經網絡
BP神經網絡是一種采用反向傳播算法進行的高效訓練的多層前饋神經網絡,是目前應用最強大最廣泛的神經網絡之一。卷積神經網絡(CNN)是一種前饋神經網絡,它的人工神經元可以響應一部分覆蓋范圍內的周圍單元,對于大型圖像處理有出色表現。一般地,CNN的基本結構至少包括兩層,卷積層和池化層。
2 集成學習及Bagging算法
集成學習方法是從機器學習領域中逐漸發(fā)展起來,以用于提升弱分類算法以獲得高準確率的一種技術,與單個學習器相比,夠顯著地提高系統(tǒng)的泛化能力。Bagging算法的基本思想是對訓練集實施有放回的隨機樣本重復抽樣,形成多個與訓練集規(guī)模相近但各不相同的訓練子集,此基礎上形成多個基分類器,最終將多個分類器進行集成。
3 字符識別
3.1 數據集
論文采用MNIST手寫數字字符數據集,MNIST擁有60000張不同的28*28像素的訓練集圖片,10000張測試集圖片。數據集由來自250個不同人手寫的數字構成,其中50%是高中學生,50%來自人口普查局。
3.2 搭建神經網絡
搭建BP神經網絡分類器,神經網絡的層數為2-5層不等。并搭建卷積神經網絡分類器,使用2~3個卷積層和池化層,卷積核數量為32、64、32個,以及2個全連接層,神經元數量為:1024、1個。隨后使用多個搭建的神經網絡進行組合預測。
3.3 識別結果
通過搭建不同結構的BP-NN和CNN,并使用不同的結構和隨機種子進行訓練,得到如下9中不同的BP神經網絡,以及9中不同的CNN。BP神經網絡的平均誤差率為2.71%,識別率較高。CNN的平均誤差率:0.82%,達到了99%以上,識別率相比BP神經網絡更高。在卷積神經網絡的基礎上,加入集成學習,將9個卷積神經網絡組合起來,卷積神經網絡在組合之后,平均誤差率下降了0.3%,達到0.39%,識別結果異常優(yōu)秀。
3.4 誤差結果對比
最終將BP神經網絡、卷積神經網絡和組合神經網絡進行l(wèi)oss對比:
得到如圖1的誤差圖。
從圖1中可以看出,在訓練初期,BP神經網絡收斂的更快,但隨著訓練的進行,CNN的強大便體現出來了,在中后期持續(xù)高于BP神經網絡。最終的集成卷積神經網絡誤差為0.018,低于BP神經網絡和卷積神經網絡。
4 結語
對于BP神經網絡和卷積神經網絡,由研究結果來看,BP神經網絡的平均誤差率為2.71%,而卷積神經網絡平均誤差率只有0.82%。從整體來看,加入集成學習后的神經網絡能夠提升明顯。BP神經網絡從平均2.71%誤差率下降到1.69%(概率均值),卷積神經網絡從平均0.82%下降到0.58%。
參考文獻
[1]張超群.基于深度學習的字符識剮[D].電子科技大學,2016.
[2]劉余霞.基于機器學習的車牌字符識別算法研究[D].安徽工程大學,2013.
[3]張魁,基于遺傳-BP神經網絡的手寫數字的識別方法[D].西安科技大學,2012.
[4]王俊杰.優(yōu)化BP神經網絡在手寫體數字識別中的性能研究[J],電子設計工程,2017,25 (06):27-30.
[5]鄧介一,劉黎志,譚培祥.基于神經網絡的數字字符識別系統(tǒng)設計與實現[J],軟件導刊,2017,16 (05): 47-50.
[6]商俊蓓,基于雙向長短時記憶遞歸神經網絡的聯機手寫數字公式字符識別[D].華南理工大學,2015.
[7]董峻妃,鄭伯川,楊澤靜,基于卷積神經網絡的車牌字符識別[J],計算機應用,2017, 37 (07): 2014-2018.
[8]楊建華,王鵬,一種基于BP神經網絡的車牌字符識別算法[J],軟件工程師,2015,18 (01):19-20.