羅嘉杰 施佳林
摘 ? 要:目前,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和分類(lèi)領(lǐng)域取得了良好的效果,但網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的選擇對(duì)圖像識(shí)別和分類(lèi)的效果與效率影響很大。為了提高卷積網(wǎng)絡(luò)的圖像分類(lèi)性能,本文結(jié)合理論分析和對(duì)比實(shí)驗(yàn),對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了詳細(xì)的理論分析,并且本文設(shè)計(jì)了一個(gè)具有8層卷積層的深度卷積網(wǎng)絡(luò),并結(jié)合批量歸一化處理,在CIFAR-10數(shù)據(jù)集上進(jìn)行了相關(guān)的分類(lèi)實(shí)驗(yàn),得到了88.1%的分類(lèi)精度,相比于傳統(tǒng)的分類(lèi)設(shè)計(jì)有效地改善了卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別分類(lèi)效果。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò) ?圖像識(shí)別 ?圖像分類(lèi) ?LeNet-5模型
中圖分類(lèi)號(hào):TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1674-098X(2019)08(c)-0130-02
卷積神經(jīng)網(wǎng)絡(luò)是一種具有卷積結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),它能夠減少網(wǎng)絡(luò)參數(shù)的數(shù)量,并減輕模型的過(guò)度擬合問(wèn)題。為了確保一定程度的平移,縮放和失真不變性,在卷積神經(jīng)網(wǎng)絡(luò)中設(shè)計(jì)了局部感受域,共享權(quán)重以及空間或時(shí)間下采樣,對(duì)于此提出了一種用于字符識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5。LeNet-5由卷積層,下采樣層和完全連接層組成。
1 ?LeNet-5網(wǎng)絡(luò)模型結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)與其他神經(jīng)網(wǎng)絡(luò)模型的最大區(qū)別在于卷積神經(jīng)網(wǎng)絡(luò)將卷積層連接到神經(jīng)網(wǎng)絡(luò)的輸入層之前,該卷積層成為卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入,而作為經(jīng)典模型的LeNet-5網(wǎng)絡(luò),是由嚴(yán)樂(lè)村開(kāi)發(fā)的用于手寫(xiě)字符識(shí)別的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型。
LeNet-5的體系結(jié)構(gòu)有7層,其中有3個(gè)卷積層。第一卷積層由6個(gè)特征圖組成,故C1包含156可訓(xùn)練參數(shù)((6個(gè)5X5內(nèi)核加上6偏值)來(lái)創(chuàng)建122304(156*(28*28)-122,304)個(gè)連接。在C1層上,F(xiàn)M的大小為28×28。C3層共有1516個(gè)可訓(xùn)練參數(shù)以及151600個(gè)連接。Lecun設(shè)計(jì)了這些連接最大化C3的功能數(shù)量,同時(shí)減少了權(quán)重?cái)?shù)量,在最后的卷積層C5包含120個(gè)FM,輸出尺寸為1X1。
2 ?模型設(shè)計(jì)
CIFAR-10數(shù)據(jù)集含有6萬(wàn)張的自然圖像,共分為10種類(lèi)型,由Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集而來(lái)。包含50,000張訓(xùn)練圖片,10,000張測(cè)試圖片,數(shù)據(jù)集中的數(shù)據(jù)存在于一個(gè)數(shù)組中(按行存儲(chǔ),每行代表一個(gè)圖像),前1024位是R值,中間1024位是G值,最后1024位是B值。在本文中,實(shí)驗(yàn)數(shù)據(jù)集被簡(jiǎn)單地剪切和白化,并且像素值被發(fā)送到神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練,本文結(jié)合CIFAR-10數(shù)據(jù)集,設(shè)計(jì)了一個(gè)深度卷積網(wǎng)絡(luò)模型,模型的架構(gòu)參數(shù)如表1所示。
3 ?實(shí)驗(yàn)分析
將最大迭代次數(shù)設(shè)置為50,000次,使用SGD+ Momentum學(xué)習(xí)算法初始化學(xué)習(xí)速率,Epoch學(xué)習(xí)速率每125次衰減為前一次的0.1倍,其他參數(shù)保持基本參數(shù)不變,相應(yīng)的成本函數(shù)曲線(xiàn)如圖1所示。
在模型訓(xùn)練50000次迭代后,使得成本函數(shù)穩(wěn)定大約在0.18左右,最低為0.10,最后的分類(lèi)精度可達(dá)88.1%。可以看出,本文的圖像識(shí)別分類(lèi)精度優(yōu)于目前大部分研究中得到的分類(lèi)精度。
4 ?結(jié)語(yǔ)
眾所周知,目前將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類(lèi)實(shí)驗(yàn)已經(jīng)取得了良好的效果,但是網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的選擇一直是分類(lèi)效果提升的瓶頸,為了更好地將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類(lèi)中,本文針對(duì)CIFAR-10圖像數(shù)據(jù)集,設(shè)計(jì)了一個(gè)具有8層卷積層的深度卷積網(wǎng)絡(luò),并結(jié)合批量歸一化,在CIFAR-10數(shù)據(jù)集上得到了88.1%的分類(lèi)精度,比CIFAR-10官網(wǎng)上公布的大部分研究的分類(lèi)精度要高,有效地改善了卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別分類(lèi)效果,因此可以將本文的實(shí)驗(yàn)成果應(yīng)用于醫(yī)學(xué)圖像的鑒定、交通圖像的識(shí)別等領(lǐng)域,對(duì)國(guó)民生活和經(jīng)濟(jì)發(fā)展提供技術(shù)支持。
參考文獻(xiàn)
[1] Alex Krizhevsky, Ilya Sutskever, Geoff Hinton. Imagenet classification with deep con-volutional neural networks[J]. Advances in Neural Information Processing Systems,2012(25):1106-1114.
[2] Ioffe S, Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. Computer Science, 2015(33): 45-49.
[3] Simon M, Rodner E, Denzler J. ImageNet pre-trained models with batch normalization[J].2016(12): 115-120.