基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別算法

2018-01-17 16:01:54張紅

電子技術(shù)與軟件工程 2017年22期

關(guān)鍵詞：模式識別卷積神經(jīng)網(wǎng)絡(luò)特征提取

針對手寫數(shù)字算法需要人工預(yù)處理和特征提取的問題，將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識別中。利用卷積神經(jīng)網(wǎng)絡(luò)本身具有局域感受野、權(quán)值共享和次抽樣的特性，能直接從原始數(shù)字圖像中提取樣本的特征信息，作為神經(jīng)網(wǎng)絡(luò)的輸入，能有效減小特征，縮小神經(jīng)網(wǎng)絡(luò)的規(guī)模。通過試驗結(jié)果證明，采用卷積神經(jīng)網(wǎng)絡(luò)能減少前期處理工作量，并具有較高的網(wǎng)絡(luò)識別率。

【關(guān)鍵詞】卷積神經(jīng)網(wǎng)絡(luò) 手寫數(shù)字識別模式識別特征提取

1 引言

手寫數(shù)字識別的基本原理是把輸入數(shù)字樣本的特征與標(biāo)準(zhǔn)樣本的特征進(jìn)行模式匹配，以最大相似度為度量原則，輸出識別結(jié)果。在整個識別過程中，關(guān)鍵的是特征的選擇提取額分類器的設(shè)計。目前應(yīng)用于手寫數(shù)字識別的算法有BP神經(jīng)網(wǎng)絡(luò)、貝葉斯估計、支持向量機等，這些方法在識別前需要人工確定預(yù)處理步驟和特征。在大量實踐證明，這樣的方法存在局限性，無法適應(yīng)各種各樣的字符特征。卷積神經(jīng)網(wǎng)絡(luò)預(yù)處理工序少，可進(jìn)行特征學(xué)習(xí)的有點，讓其對數(shù)字自負(fù)平移、縮放和扭曲等特征具有很強的糾錯能力，故把卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識別，為手寫數(shù)字識別提供一種新的工具。

2 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于二維數(shù)據(jù)處理，它能夠通過大量學(xué)習(xí)，求解出輸入與輸出之間的關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)是由卷積層和采樣層交替組成，每一層中包括多個特征提取器。卷積層中的每一個神經(jīng)元與上一層中的局部區(qū)域進(jìn)行連接。通過卷積層的卷積運算，可以提取二維數(shù)據(jù)的特征信息，并且降低噪聲對特征的干擾。采樣層對二維數(shù)據(jù)進(jìn)行抽樣，降低其分辨率，在盡量保留圖像的特征信息的同時降低數(shù)據(jù)處理的維度，提高信息處理的速度。

2.1 卷積神經(jīng)網(wǎng)絡(luò)模型

下面介紹典型的卷積神經(jīng)網(wǎng)絡(luò)模型，包括輸入層，共有7層。其網(wǎng)絡(luò)模型如圖1所示。

輸入層負(fù)責(zé)接收輸入，它是由32×32個節(jié)電組成。接著是卷積層C1，它是由6個大小為28×28的特征圖組成，特征圖是卷積核對圖像進(jìn)行卷積運算后，通過激活函數(shù)作用形成的。采樣層S2是由6個14×14的特征圖組成，然后采用mean-pooling方式對C1區(qū)域內(nèi)2×2個像素求取均值，然后通過激活函數(shù)輸出結(jié)果。卷積層C3，它是由6個大小為10×10的特征圖組成，每個特征圖接收采樣層S2若干個特征連接。C5層由120個大小為1×1的特征圖組成，卷積核大小為5×5。F6層是與C5曾全連接的84個神經(jīng)元。輸出層是0-9工10個字符組成的神經(jīng)元，采用RBF徑向基函數(shù)進(jìn)行分類。

2.2 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

下面對卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)進(jìn)行介紹。以參數(shù)l表示當(dāng)前層，那么當(dāng)前層的輸出為下式：

x1=f（u1），u1=w1x1-1+b1 （1）

u1為當(dāng)前層的輸入，w1表示當(dāng)前層的權(quán)值，x1-1表示上一層的輸出，b1表示當(dāng)前層的額外偏置。f為激活函數(shù)，在文中采用sigmoid函數(shù)作為激活函數(shù)。

在卷積層中，使用卷積核對上一層的特征圖進(jìn)行卷積，然后通過激活函數(shù)，得到卷積層的特征圖。卷積層的計算公式如下：

（2）

其中，l表示當(dāng)前層數(shù)，xj1表示采樣層的第j個神經(jīng)元輸出，xi1-1為上一層第i個神經(jīng)元輸出，w1ij表示上一層的第i個神經(jīng)元與當(dāng)前層第j個神經(jīng)元之間的連接權(quán)值。b1表示當(dāng)前層的額外偏置。f為激活函數(shù)，Mj為輸入特征圖的集合。

在采樣中，對上一層的特征圖進(jìn)行采樣處理，具體計算公式為：

（3）

其中，n表示從卷積層到采樣層的窗口寬度。

對于多個樣本（x，y），它的誤差能表示為：

（4）

式子中，E是輸出誤差，yij是期望輸出，oij是卷積神經(jīng)網(wǎng)絡(luò)的輸出。λ為懲罰系數(shù)，防止過度擬合。

3 實驗結(jié)果及分析

3.1 試驗數(shù)據(jù)

實驗用的數(shù)據(jù)來自MNIST手寫數(shù)字字符數(shù)據(jù)庫，其中包含0-9的訓(xùn)練樣本集和測試數(shù)據(jù)集，選擇其中10000個包含不同手寫數(shù)字的樣本作為訓(xùn)練樣本集，選取1000個樣本作為測試樣本，每張圖片的大小為8×8，灰度級為8。如圖2所示，為數(shù)字3的手寫樣例。

3.2 試驗結(jié)果與分析

為了分析卷積神經(jīng)網(wǎng)絡(luò)的性能，利用MNIST手寫數(shù)字字符庫的數(shù)據(jù)對卷積神經(jīng)網(wǎng)絡(luò)驚醒訓(xùn)練，并與幾種常用的手寫數(shù)字字符識別算法進(jìn)行對比，結(jié)果如表1所示。

從表1可以看出，卷積神經(jīng)網(wǎng)絡(luò)在MNIST手寫數(shù)字字符的正確識別率為98.9%，相比其他常用方法，正確識別率更高，說明卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識別方面具有其獨特的優(yōu)勢。

4 結(jié)束語

本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到手寫數(shù)字識別研究之中。研究結(jié)果表明，卷積神經(jīng)網(wǎng)絡(luò)能夠快速有效提取二維圖像的特征，并具有較高的識別率，正確識別率達(dá)到98.9%。

參考文獻(xiàn)

[1]何西麟.基于深度學(xué)習(xí)的手寫體字符識別研究與實現(xiàn)[D].中山大學(xué)，2015.

[2]尚磊，劉風(fēng)進(jìn).基于支持向量機的手寫體數(shù)字識別[J].兵工自動化，2007（03）：39-41.

作者簡介

張紅（1970-），女，內(nèi)蒙古自治區(qū)人。大學(xué)本科學(xué)歷?，F(xiàn)為烏海職業(yè)技術(shù)學(xué)院副教授。研究方向為電子技術(shù)、計算機技術(shù)。

馬靜（1982-），女，山東省人。研究生學(xué)歷。講師。研究方向為自動化技術(shù)、計算機技術(shù)。

作者單位

烏海職業(yè)技術(shù)學(xué)院內(nèi)蒙古自治區(qū)烏海市 016000endprint