針對手寫數(shù)字算法需要人工預(yù)處理和特征提取的問題,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識別中。利用卷積神經(jīng)網(wǎng)絡(luò)本身具有局域感受野、權(quán)值共享和次抽樣的特性,能直接從原始數(shù)字圖像中提取樣本的特征信息,作為神經(jīng)網(wǎng)絡(luò)的輸入,能有效減小特征,縮小神經(jīng)網(wǎng)絡(luò)的規(guī)模。通過試驗結(jié)果證明,采用卷積神經(jīng)網(wǎng)絡(luò)能減少前期處理工作量,并具有較高的網(wǎng)絡(luò)識別率。
【關(guān)鍵詞】卷積神經(jīng)網(wǎng)絡(luò) 手寫數(shù)字識別 模式識別 特征提取
1 引言
手寫數(shù)字識別的基本原理是把輸入數(shù)字樣本的特征與標(biāo)準(zhǔn)樣本的特征進(jìn)行模式匹配,以最大相似度為度量原則,輸出識別結(jié)果。在整個識別過程中,關(guān)鍵的是特征的選擇提取額分類器的設(shè)計。目前應(yīng)用于手寫數(shù)字識別的算法有BP神經(jīng)網(wǎng)絡(luò)、貝葉斯估計、支持向量機等,這些方法在識別前需要人工確定預(yù)處理步驟和特征。在大量實踐證明,這樣的方法存在局限性,無法適應(yīng)各種各樣的字符特征。卷積神經(jīng)網(wǎng)絡(luò)預(yù)處理工序少,可進(jìn)行特征學(xué)習(xí)的有點,讓其對數(shù)字自負(fù)平移、縮放和扭曲等特征具有很強的糾錯能力,故把卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識別,為手寫數(shù)字識別提供一種新的工具。
2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于二維數(shù)據(jù)處理,它能夠通過大量學(xué)習(xí),求解出輸入與輸出之間的關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)是由卷積層和采樣層交替組成,每一層中包括多個特征提取器。卷積層中的每一個神經(jīng)元與上一層中的局部區(qū)域進(jìn)行連接。通過卷積層的卷積運算,可以提取二維數(shù)據(jù)的特征信息,并且降低噪聲對特征的干擾。采樣層對二維數(shù)據(jù)進(jìn)行抽樣,降低其分辨率,在盡量保留圖像的特征信息的同時降低數(shù)據(jù)處理的維度,提高信息處理的速度。
2.1 卷積神經(jīng)網(wǎng)絡(luò)模型
下面介紹典型的卷積神經(jīng)網(wǎng)絡(luò)模型,包括輸入層,共有7層。其網(wǎng)絡(luò)模型如圖1所示。
輸入層負(fù)責(zé)接收輸入,它是由32×32個節(jié)電組成。接著是卷積層C1,它是由6個大小為28×28的特征圖組成,特征圖是卷積核對圖像進(jìn)行卷積運算后,通過激活函數(shù)作用形成的。采樣層S2是由6個14×14的特征圖組成,然后采用mean-pooling方式對C1區(qū)域內(nèi)2×2個像素求取均值,然后通過激活函數(shù)輸出結(jié)果。卷積層C3,它是由6個大小為10×10的特征圖組成,每個特征圖接收采樣層S2若干個特征連接。C5層由120個大小為1×1的特征圖組成,卷積核大小為5×5。F6層是與C5曾全連接的84個神經(jīng)元。輸出層是0-9工10個字符組成的神經(jīng)元,采用RBF徑向基函數(shù)進(jìn)行分類。
2.2 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
下面對卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)進(jìn)行介紹。以參數(shù)l表示當(dāng)前層,那么當(dāng)前層的輸出為下式:
x1=f(u1),u1=w1x1-1+b1 (1)
u1為當(dāng)前層的輸入,w1表示當(dāng)前層的權(quán)值,x1-1表示上一層的輸出,b1表示當(dāng)前層的額外偏置。f為激活函數(shù),在文中采用sigmoid函數(shù)作為激活函數(shù)。
在卷積層中,使用卷積核對上一層的特征圖進(jìn)行卷積,然后通過激活函數(shù),得到卷積層的特征圖。卷積層的計算公式如下:
(2)
其中,l表示當(dāng)前層數(shù),xj1表示采樣層的第j個神經(jīng)元輸出,xi1-1為上一層第i個神經(jīng)元輸出,w1ij表示上一層的第i個神經(jīng)元與當(dāng)前層第j個神經(jīng)元之間的連接權(quán)值。b1表示當(dāng)前層的額外偏置。f為激活函數(shù),Mj為輸入特征圖的集合。
在采樣中,對上一層的特征圖進(jìn)行采樣處理,具體計算公式為:
(3)
其中,n表示從卷積層到采樣層的窗口寬度。
對于多個樣本(x,y),它的誤差能表示為:
(4)
式子中,E是輸出誤差,yij是期望輸出,oij是卷積神經(jīng)網(wǎng)絡(luò)的輸出。λ為懲罰系數(shù),防止過度擬合。
3 實驗結(jié)果及分析
3.1 試驗數(shù)據(jù)
實驗用的數(shù)據(jù)來自MNIST手寫數(shù)字字符數(shù)據(jù)庫,其中包含0-9的訓(xùn)練樣本集和測試數(shù)據(jù)集,選擇其中10000個包含不同手寫數(shù)字的樣本作為訓(xùn)練樣本集,選取1000個樣本作為測試樣本,每張圖片的大小為8×8,灰度級為8。如圖2所示,為數(shù)字3的手寫樣例。
3.2 試驗結(jié)果與分析
為了分析卷積神經(jīng)網(wǎng)絡(luò)的性能,利用MNIST手寫數(shù)字字符庫的數(shù)據(jù)對卷積神經(jīng)網(wǎng)絡(luò)驚醒訓(xùn)練,并與幾種常用的手寫數(shù)字字符識別算法進(jìn)行對比,結(jié)果如表1所示。
從表1可以看出,卷積神經(jīng)網(wǎng)絡(luò)在MNIST手寫數(shù)字字符的正確識別率為98.9%,相比其他常用方法,正確識別率更高,說明卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識別方面具有其獨特的優(yōu)勢。
4 結(jié)束語
本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到手寫數(shù)字識別研究之中。研究結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)能夠快速有效提取二維圖像的特征,并具有較高的識別率,正確識別率達(dá)到98.9%。
參考文獻(xiàn)
[1]何西麟.基于深度學(xué)習(xí)的手寫體字符識別研究與實現(xiàn)[D].中山大學(xué),2015.
[2]尚磊,劉風(fēng)進(jìn).基于支持向量機的手寫體數(shù)字識別[J].兵工自動化,2007(03):39-41.
作者簡介
張紅(1970-),女,內(nèi)蒙古自治區(qū)人。大學(xué)本科學(xué)歷?,F(xiàn)為烏海職業(yè)技術(shù)學(xué)院副教授。研究方向為電子技術(shù)、計算機技術(shù)。
馬靜(1982-),女,山東省人。研究生學(xué)歷。講師。研究方向為自動化技術(shù)、計算機技術(shù)。
作者單位
烏海職業(yè)技術(shù)學(xué)院 內(nèi)蒙古自治區(qū)烏海市 016000endprint