河北農(nóng)業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院 陳勇濤 郭曉穎 陶慧杰
圖像識(shí)別也就是圖像的模式識(shí)別,是模式識(shí)別技術(shù)在圖像領(lǐng)域中的具體應(yīng)用,是對(duì)輸入的圖像信息建立圖像識(shí)別模型,分析并提取圖像的特征,然后建立分類器,根據(jù)圖像的特征進(jìn)行分類識(shí)別的一種技術(shù)。
圖像識(shí)別的常用方法有:貝葉斯分類法、模板匹配法等。貝葉斯分類法,是假設(shè)圖像的特征之間獨(dú)立并計(jì)算特征的后驗(yàn)概率來對(duì)圖像進(jìn)行分類模板匹配法,是將樣本特征與特定的模板比較,根據(jù)相似度判斷是否同類。但由于貝葉斯定理假設(shè)一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?,而此假設(shè)在實(shí)際情況中經(jīng)常是不成立的,因此其分類準(zhǔn)確率可能會(huì)下降。模板匹配法,研究某一特定對(duì)象物的圖案位于圖像的什么地方,進(jìn)而識(shí)別對(duì)象物。但模板匹配具有自身的局限性,主要表現(xiàn)在它只能進(jìn)行平行移動(dòng),若原圖像中的匹配目標(biāo)發(fā)生旋轉(zhuǎn)或大小變化,該算法無效。
而基于深度學(xué)習(xí)的圖像識(shí)別方法,是使用大規(guī)模深層次卷積神經(jīng)網(wǎng)絡(luò)模型從海量數(shù)據(jù)集中自動(dòng)學(xué)習(xí)圖像特征,并泛化到實(shí)際識(shí)別場(chǎng)景中。其通過模擬人類的大腦皮層,采用多層非線性方式處理、逐級(jí)提取以及逐層建立映射的方式使復(fù)雜的工作簡(jiǎn)單化。
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)有很多的相似之處:閾值、前向傳播、計(jì)算殘差、反向傳播,直到殘差收斂且滿足精度需求。其基本結(jié)構(gòu)包括卷積層、嗎池化層和全連接層。
卷基層實(shí)質(zhì)上是通過卷積核計(jì)算后的網(wǎng)絡(luò)層。卷積核是利用卷積層計(jì)算的重要組成部分,通過卷積層的運(yùn)算,把原圖像轉(zhuǎn)換到超平面坐標(biāo)系下,超平面能最大程度上集中同類圖像。在前向傳播的過程中,每個(gè)卷積核進(jìn)行卷積計(jì)算,生成一個(gè)2維的特征圖,通過一定的網(wǎng)絡(luò)訓(xùn)練,將這些卷積結(jié)果激活圖進(jìn)行疊加,便可得出結(jié)果。
池化層也稱為下采樣層,利用卷基層處理過的數(shù)據(jù)作為輸 入來進(jìn)行池化操作對(duì)結(jié)果進(jìn)行一定的壓縮,以降低數(shù)據(jù)的空間尺寸,減少參數(shù)數(shù)量,進(jìn)而可以提高計(jì)算效率,有效控制過擬合。
全連接層在卷積神經(jīng)網(wǎng)絡(luò)的最后會(huì)把卷積輸出的二維特征圖轉(zhuǎn)化成一維的一個(gè)向量,以提高特征提取的純度,更方便的交給最后的分類器或者回歸。
如圖1是卷積神經(jīng)網(wǎng)絡(luò)LetNet-5的結(jié)構(gòu)圖,共有7層(不包括INPUT),每層都有訓(xùn)練參數(shù),輸入圖像大小為32×32(像素),卷積窗口大小為5×5(像素),卷積核在二維平面上平移,并且卷積核的每個(gè)元素與被卷積圖像對(duì)應(yīng)位置相乘,再求和。通過卷積核的不斷移動(dòng)可得出完全由卷積核在各個(gè)位置時(shí)的乘積求和的結(jié)果組成的圖像。經(jīng)過池化和全連接層后,其采用滑動(dòng)卷積窗口的方法對(duì)輸入圖像進(jìn)行卷積。
針對(duì)現(xiàn)代化科技進(jìn)步更快、更準(zhǔn)確的需求,提高CNN的性能,更豐富的數(shù)據(jù)集、更有效的模型以及更高效的去過擬合技術(shù)在AlexNet中使用。
圖1 LetNet-5 網(wǎng)絡(luò)模型
圖2 AlexNet CNN網(wǎng)絡(luò)模型
如圖2是AlexNet的結(jié)構(gòu)圖,其中有5個(gè)卷積層和3個(gè)全連接層,中間穿插著池化操作。除去卷積、池化、全連接操作外,本模型還有以下幾點(diǎn)優(yōu)化:
(1)ReLU作為激活函數(shù)
模擬神經(jīng)元輸出的標(biāo)準(zhǔn)函數(shù)一般是:tanh(x)或者sigmoid(x)函數(shù)(也稱為飽和函數(shù));而f(x)=max(0,x)是一種非線性的非飽和函數(shù)。這種扭曲線性函數(shù),不但保留了非線性的表達(dá)能力,而且由于其具有線性性質(zhì)(正值部分),相比前者在誤差反向傳遞時(shí),不會(huì)有由于非線性引起的梯度彌散形象(頂層誤差較大, 因此ReLU作為激活函數(shù)可以訓(xùn)練更深的網(wǎng)絡(luò)。
(2)多GPU并行訓(xùn)練
事實(shí)證明,120萬個(gè)訓(xùn)練樣本才足以訓(xùn)練網(wǎng)絡(luò),但這對(duì)于一個(gè)GPU的工作能力而言是不可能順利完成的。所以AlexNet模型將網(wǎng)絡(luò)分布在兩個(gè)GPU上。即每個(gè)GPU中放置一半核(或神經(jīng)元)。這種結(jié)構(gòu)降低了錯(cuò)誤率,提高了圖像識(shí)別效率,減少了大量的訓(xùn)練時(shí)間。
(3)局部反應(yīng)歸一化(LRN)
利用臨近的數(shù)據(jù)做歸一化。這個(gè)策略貢獻(xiàn)了1.2%的Top-5錯(cuò)誤率。
Dropout和LRN 技術(shù)使網(wǎng)絡(luò)的去過擬合能力更強(qiáng),保證了卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和泛化性能。
[1]王禹鄢.深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用與發(fā)展[J].中國戰(zhàn)略新興產(chǎn)業(yè),2017:115-116
[2]Bottou L,Bengio Y,Cun Y L.Global Training of Document Processing Systems Using Graph Transformer Networks[C]//Proceeding of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Juan, Puerto Rico:IEEE,1997:489-494.
[3]陳旭,張軍,陳文偉,李碩豪.廣東工業(yè)大學(xué)學(xué)報(bào)[J].2017,34:20-26.
[4]張慶輝,萬晨霞.卷積神經(jīng)網(wǎng)絡(luò)綜述[J].2017,28:82-86.
[5]馬衛(wèi)飛.ALexNet模型的詳解[EB/OL]. http://blog.csdn.net/maweifei/article/details/53117830,2016-11-10