王曉鋒,馬 鐘
(1.山西醫(yī)科大學(xué) 汾陽學(xué)院,山西 汾陽 032200;2.西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710129)
基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的貨運(yùn)列車車號(hào)識(shí)別研究
王曉鋒1,馬鐘2
(1.山西醫(yī)科大學(xué) 汾陽學(xué)院,山西 汾陽032200;2.西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安710129)
針對(duì)貨運(yùn)列車車號(hào)字符識(shí)別,提出了基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的改進(jìn)識(shí)別方法,考慮到卷積神經(jīng)網(wǎng)絡(luò)的層次化以及局部領(lǐng)域等結(jié)構(gòu)特點(diǎn),對(duì)網(wǎng)絡(luò)中各層特征圖的數(shù)量及大小等參數(shù)進(jìn)行相應(yīng)的改進(jìn),形成了適用于貨運(yùn)車號(hào)識(shí)別的新網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)車號(hào)的斷裂、污損等問題的解決有較強(qiáng)的魯棒性,達(dá)到了較高的識(shí)別率,為整個(gè)車號(hào)識(shí)別系統(tǒng)的精確性提供了保障。
列車車號(hào);車號(hào)識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);LeNet-5
目前貨運(yùn)列車車號(hào)識(shí)別系統(tǒng)[1-2]主要是基于RFID技術(shù)實(shí)現(xiàn)的,但是,由于該系統(tǒng)的準(zhǔn)確性依賴于列車底部安裝的RFID標(biāo)簽,而RFID標(biāo)簽容易損壞、丟失,因此,此類系統(tǒng)無法保證車號(hào)識(shí)別的準(zhǔn)確性。為此,研究者開發(fā)了基于圖像的貨運(yùn)列車車號(hào)識(shí)別系統(tǒng),系統(tǒng)根據(jù)視頻采集到的圖像,利用模糊集合論[1-2]、人工神經(jīng)網(wǎng)絡(luò)[3]、支持向量機(jī)[4]以及隱馬爾可夫模型[4]等技術(shù)進(jìn)行車號(hào)字符的識(shí)別。但是,由于貨運(yùn)列車車號(hào)存在因噴涂方式而導(dǎo)致的單個(gè)字符斷裂,或者列車長期的野外運(yùn)行導(dǎo)致的車廂污損,車號(hào)字符的殘缺等現(xiàn)象,這使得目前的基于圖像的貨運(yùn)列車車號(hào)識(shí)別系統(tǒng)的魯棒性與識(shí)別率還有待進(jìn)一步提高。
LeNet-5[5-7]是由YannLecun等人提出的一種專門用于二維圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)避免了人工提取特征依賴于主觀意識(shí)的缺點(diǎn),只需要將歸一化大小的原始圖像輸入網(wǎng)絡(luò),該網(wǎng)絡(luò)就可以直接從圖像中識(shí)別視覺模式。LeNet-5把特征提取和識(shí)別結(jié)合起來,通過綜合評(píng)價(jià)和學(xué)習(xí),并在不斷的反向傳播過程中選擇和優(yōu)化這些特征,將特征提取變?yōu)橐粋€(gè)自學(xué)習(xí)的過程,通過這種方法找到分類性能最優(yōu)的特征。LeNet-5已經(jīng)成功應(yīng)用于銀行對(duì)支票手寫數(shù)字的識(shí)別中。
為此,本文將卷積神經(jīng)網(wǎng)絡(luò)LeNet-5應(yīng)用于列車車號(hào)字符的識(shí)別中,為了使之適用于列車車號(hào)字符的識(shí)別需求,去除掉了LeNet-5中的一些針對(duì)手寫字符識(shí)別而特別設(shè)計(jì)的連接方式及參數(shù),并在此基礎(chǔ)上,改變網(wǎng)絡(luò)中各層特征圖的數(shù)量以形成新的網(wǎng)絡(luò)模型。
卷積神經(jīng)網(wǎng)絡(luò)可以從很多方面著手改進(jìn)。諸如多層前饋網(wǎng)絡(luò),可以考慮在誤差函數(shù)中增加懲罰項(xiàng)使得訓(xùn)練后得到趨向于稀疏化的權(quán)值,或者增加一些競(jìng)爭(zhēng)機(jī)制使得在某個(gè)特定時(shí)刻網(wǎng)絡(luò)中只有部分節(jié)點(diǎn)處在激活狀態(tài)等。本文主要從卷積神經(jīng)網(wǎng)絡(luò)的層次化以及局部鄰域等結(jié)構(gòu)上的特點(diǎn)入手,考慮卷積神經(jīng)網(wǎng)絡(luò)中各層特征圖數(shù)量及大小對(duì)網(wǎng)絡(luò)訓(xùn)練過程及識(shí)別結(jié)果的影響。
以LeNet-5結(jié)構(gòu)為基礎(chǔ),去除掉LeNet-5中的一些針對(duì)手寫字符識(shí)別而特別設(shè)計(jì)的連接方式及參數(shù),得到改進(jìn)后的神經(jīng)網(wǎng)絡(luò)。在此基礎(chǔ)上,改變網(wǎng)絡(luò)中各層特征圖的數(shù)量以形成新的網(wǎng)絡(luò)模型。定義一種新的網(wǎng)絡(luò)模型,將其命名為LeNet-5.1,該網(wǎng)絡(luò)結(jié)構(gòu)與LeNet-5基本相同,主要做出以下改變:
(1)將原先LeNet-5所采用的激活函數(shù)由雙曲正切函數(shù)修改為Sigmoid函數(shù),此時(shí),網(wǎng)絡(luò)中所有層的輸出值均在[0,1]區(qū)間內(nèi),輸出層的最終結(jié)果也將保持在[0,1]區(qū)間內(nèi)。
(2)省略掉F6層,將輸出層與C5層直接相連,連接方式為全連接,而不是原LeNet-5中所采用的徑向基函數(shù)(RBF)網(wǎng)絡(luò)結(jié)構(gòu)。
(3)簡化原LeNet-5中的學(xué)習(xí)速率。原LeNet-5網(wǎng)絡(luò)中采用的學(xué)習(xí)速率為一個(gè)特殊的序列,而在本網(wǎng)絡(luò)中將學(xué)習(xí)速率固定為0.002。
(4)輸入數(shù)據(jù)原始尺寸為28×28,采取邊框擴(kuò)充背景像素的方法將圖像擴(kuò)充至32×32。
之所以做以上相關(guān)改動(dòng),是因?yàn)樵嫉腖eNet-5就是專門為手寫字符識(shí)別任務(wù)而特殊設(shè)計(jì)的,這就造成了LeNet-5網(wǎng)絡(luò)中相關(guān)的預(yù)處理及參數(shù)的選擇過程或多或少均帶有一些針對(duì)特定問題的先驗(yàn)知識(shí)。例如激活函數(shù) f(x)=a tanh(bx)中參數(shù)的選擇,學(xué)習(xí)速率中特定的速率序列以及數(shù)據(jù)預(yù)處理中特殊的填充方式等,這些特定的設(shè)計(jì)使得LeNet-5在其他任務(wù)的識(shí)別過程中并不一定適用,或者需要進(jìn)行長期的觀察實(shí)驗(yàn)以選得一組針對(duì)特定任務(wù)的較好的值,造成了LeNet-5不能快速的應(yīng)用于除手寫字符外其他的識(shí)別任務(wù)中。
車號(hào)經(jīng)過分割之后為一個(gè)個(gè)的單字符圖像,采用邊框擴(kuò)充背景像素的方法將其歸一化為32×32,如圖1所示。
由圖1中可以看出,待識(shí)別的字符圖像質(zhì)量不高,有的數(shù)字字符出現(xiàn)殘缺、斷裂或者嚴(yán)重變形。這都給識(shí)別任務(wù)提出了一定的挑戰(zhàn)。
圖1 經(jīng)過歸一化的單個(gè)車號(hào)字符圖像
本文采集到的車號(hào)圖像來自于不同型號(hào)的貨運(yùn)列車。從中選取400幅圖像作為訓(xùn)練集,另外選取400幅圖像作為測(cè)試集。用上一節(jié)提出的LeNet-5.1網(wǎng)絡(luò)進(jìn)行訓(xùn)練,誤分類率曲線如圖2所示。可以看出,在LeNet-5.1訓(xùn)練過程中,訓(xùn)練MCR(Misclassification Rate)和測(cè)試MCR的變化過程相對(duì)穩(wěn)定,驗(yàn)證了改進(jìn)后網(wǎng)絡(luò)結(jié)構(gòu)的合理性。在經(jīng)過16次的迭代之后,測(cè)試MCR降至最低(5.75%),之后基本保持穩(wěn)定,即16次迭代之后,網(wǎng)絡(luò)達(dá)到了當(dāng)前的最佳訓(xùn)練效果,達(dá)到了收斂狀態(tài)。這時(shí),訓(xùn)練MCR為0.5%,測(cè)試MCR是5.75%。
圖2 LeNet-5.1在車號(hào)字符數(shù)據(jù)集上訓(xùn)練過程中的誤分類率曲線
而針對(duì)相同的數(shù)據(jù),采用原始的LeNet-5進(jìn)行訓(xùn)練和測(cè)試后,誤分類率如圖3所示。從圖3中可以看出,LeNet-5經(jīng)過了18次的迭代后,測(cè)試MCR才達(dá)到相對(duì)穩(wěn)定的狀態(tài),降至6%,最終的訓(xùn)練MCR為1%。相比之下,經(jīng)過簡化和改進(jìn)的LeNet-5.1,由于改進(jìn)了原始的LeNet-5中專門為手寫字符識(shí)別任務(wù)而特殊設(shè)計(jì)的一些預(yù)處理及函數(shù)選擇等固定模式,并且精簡了網(wǎng)絡(luò)結(jié)構(gòu),使得LeNet-5.1在列車車號(hào)的識(shí)別方面具有了更快的訓(xùn)練速度和收斂速度,另外,最終達(dá)到的準(zhǔn)確度也有所提升。
在證明了改進(jìn)后的LeNet-5.1網(wǎng)絡(luò)的合理性之后,增加訓(xùn)練圖像的規(guī)模,采用10 000幅車號(hào)數(shù)字字符圖像用來訓(xùn)練,5 000幅用來測(cè)試。為了與其他方法進(jìn)行比較,采用相同的訓(xùn)練數(shù)據(jù)對(duì)車號(hào)識(shí)別中常用的三層BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,這里采用的BP網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)量為450,學(xué)習(xí)速率采用0.01。實(shí)驗(yàn)結(jié)果比較如表1所示。從表1可以看出,改進(jìn)后的LeNet-5.1網(wǎng)絡(luò)的識(shí)別率比BP網(wǎng)絡(luò)的識(shí)別率高出4.62個(gè)百分點(diǎn),在識(shí)別速度方面,LeNet-5.1也明顯優(yōu)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)。
圖3 LeNet-5在車號(hào)字符數(shù)據(jù)集上訓(xùn)練過程中的誤分類率曲線
表1 LeNet-5.1網(wǎng)絡(luò)與BP網(wǎng)絡(luò)識(shí)別性能比較
貨運(yùn)列車車號(hào)的組成是由車型號(hào)與車號(hào)共同組成的,因此還需要對(duì)車型號(hào)進(jìn)行識(shí)別,車型號(hào)中除了有阿拉伯?dāng)?shù)字字符之外,還有很多表示車種及車廂材質(zhì)等屬性的英文字母,這些英文字母同樣采用卷積神經(jīng)網(wǎng)絡(luò)來識(shí)別。由于車型號(hào)很多,初期針對(duì)若干常用型號(hào)的列車進(jìn)行識(shí)別,以測(cè)試網(wǎng)絡(luò)的性能,后期對(duì)全車型進(jìn)行識(shí)別。
3.1常用列車車型的識(shí)別
在試運(yùn)行階段主要識(shí)別的車型局限于7種主要的車型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于車種都為敞篷車(第一個(gè)大寫字母C),主要對(duì)后面代表該車型載重量的兩位數(shù)字以及最后代表車廂材質(zhì)等屬性的字母進(jìn)行識(shí)別。考慮到車型號(hào)字符串的固定模式,如圖4所示,可以分別建立兩個(gè)不同的卷積神經(jīng)網(wǎng)絡(luò)分別用來識(shí)別數(shù)字和字母,由于之前已經(jīng)解決了數(shù)字的識(shí)別問題,接下來主要進(jìn)行字母的識(shí)別。要識(shí)別的代表車廂材質(zhì)的字母共有6個(gè):K,H,A,E,A和B,為了盡可能的避免因字母分割問題而導(dǎo)致的識(shí)別錯(cuò)誤,把AK和BK分別作為一個(gè)整體來識(shí)別,那么需要識(shí)別的字符組合變?yōu)椋篕,H,A,E,AK和BK。由于識(shí)別種類的減少,可以對(duì)網(wǎng)絡(luò)模型LeNet-5.1進(jìn)行相應(yīng)的簡化,命名該模型為LeNet-5.2。
圖4 車型編碼結(jié)構(gòu)圖
LeNet-5.2是在LeNet-5.1的基礎(chǔ)上進(jìn)行改動(dòng)而得到的:
(1)卷積層C1的特征圖由6個(gè)減少為4個(gè),相應(yīng)地,S2層的特征圖也由6個(gè)減少為4個(gè)。
(2)卷積層C3的特征圖由16個(gè)減少為11個(gè),相應(yīng)地,S4層的特征圖也由16個(gè)減少為11個(gè)。
(3)卷積層C5的特征圖個(gè)數(shù)由120個(gè)減少為80個(gè)。
(4)輸出分類的數(shù)目由10個(gè)減少為6個(gè)。
另外,卷積層C3層與次抽樣層S2層的連接情況如表2所示。
表2 LeNet-5.2中C3層與S2層的連接方式
表2的連接方式采用與表1相同的思想,每一列都說明了C3層中的一個(gè)特征圖是由S2中的那幾個(gè)特征圖結(jié)合而成。卷積層C3中第0個(gè)至第5個(gè)特征圖分別與次抽樣層S2中的兩個(gè)特征圖相連接,一共6種組合。C3中的這6個(gè)特征圖負(fù)責(zé)抽取上一層中某兩個(gè)特征圖所潛在的特征。C3層中第6個(gè)至第9個(gè)特征圖中每個(gè)特征圖分別對(duì)應(yīng)上一層中的3個(gè)特征圖的組合,而C3層中最后一個(gè)特征圖則與上一層中所有的特征圖相連接。這樣卷積層C3中的特征圖就包含了次抽樣層S2中多個(gè)特征圖的所有組合,這樣使得卷積層C3抽取到的特征比S2層更抽象、更高級(jí),同時(shí),相對(duì)于輸入數(shù)據(jù),C3層相比S2層具有更好的對(duì)位移、扭曲等特征的不變性。
相比LeNet-5.1,LeNet-5.2將網(wǎng)絡(luò)層中的特征圖數(shù)量做了相應(yīng)的削減,減少了網(wǎng)絡(luò)中可訓(xùn)練參數(shù)的數(shù)量。
實(shí)驗(yàn)數(shù)據(jù)來自以上提到的7類常用車型。經(jīng)過前面過程的定位和分割之后,將分割之后代表車廂材質(zhì)等屬性的字母圖像收集起來。本實(shí)驗(yàn)中,共收集到6種代表不同車廂材質(zhì)屬性的字母共800幅,其中400幅用作訓(xùn)練數(shù)據(jù),另外400幅用作測(cè)試數(shù)據(jù)。
圖5為LeNet-5.2使用以上數(shù)據(jù)訓(xùn)練過程中得到的MCR曲線圖。由圖5中可以看出,在經(jīng)過13次迭代之后,測(cè)試MCR達(dá)到最低的3.25%,并且在隨后的迭代過程中基本保持穩(wěn)定,而對(duì)應(yīng)的訓(xùn)練MCR為0.75%。
3.2全車型識(shí)別
經(jīng)過對(duì)鐵道行業(yè)標(biāo)準(zhǔn)《鐵路貨車車種車型車號(hào)編碼》(TB2435-93)里面包含的所有車型號(hào)進(jìn)行統(tǒng)計(jì),除了10個(gè)阿拉伯?dāng)?shù)字外,包括了除O,R,V,Z四個(gè)字母外所有的大寫英文字母,總共有32類字符。
圖5 LeNet-5.2在車型號(hào)字母數(shù)據(jù)集上訓(xùn)練過程中的誤分類率曲線
針對(duì)車型號(hào)的識(shí)別需求,本文在LeNet-5.1的基礎(chǔ)上提出了一種新的網(wǎng)絡(luò)模型,稱之為LeNet-5.3。與LeNet-5.2相反,LeNet-5.3是在LeNet-5.1的基礎(chǔ)上對(duì)網(wǎng)絡(luò)中各層的特征圖數(shù)量進(jìn)行擴(kuò)充:
(1)卷積層C1的特征圖由6個(gè)增加至8個(gè),相應(yīng)地,S2層的特征圖也由6個(gè)增加至8個(gè)。
(2)卷積層C3的特征圖由16個(gè)增加至24個(gè),相應(yīng)地,S4層的特征圖也由16個(gè)增加至24個(gè)。
(3)卷積層C5的特征圖個(gè)數(shù)由120個(gè)增加至240個(gè)。
(4)輸出層神經(jīng)元的個(gè)數(shù)由10個(gè)增加至32個(gè)。
其中卷積層C3層與次抽樣層S2層的連接情況參考LeNet-5.2所采用的原則,使卷積層C3中的特征圖包含次抽樣層S2中多個(gè)特征圖的主要組合。
與LeNet-5.1相比,LeNet-5.3需要有更多的輸出類別,各層的特征圖數(shù)量也做了相應(yīng)的增加,以增加整個(gè)網(wǎng)絡(luò)的識(shí)別性能。為了驗(yàn)證改進(jìn)后的LeNet-5.3的性能,收集了大量真實(shí)列車車廂圖片,經(jīng)過車號(hào)定位和分割之后,將單個(gè)的數(shù)字字符或者大寫字母字符圖像尺寸依次歸一化為32×32,分別建立訓(xùn)練圖像庫和測(cè)試圖像庫。
由于LeNet-5.1各層的特征圖數(shù)量多,因此該網(wǎng)絡(luò)涉及到的可訓(xùn)練參數(shù)也大大增加,這也意味著需要更多的數(shù)據(jù)樣本用于網(wǎng)絡(luò)訓(xùn)練。若訓(xùn)練集和測(cè)試集規(guī)模依然采用跟前面實(shí)驗(yàn)中一樣的各400幅,訓(xùn)練過程中的誤分類率曲線如圖6所示,圖6中的曲線變化非常不穩(wěn)定,波動(dòng)較大。測(cè)試MCR達(dá)到最低點(diǎn)后又突然升高,不能獲得穩(wěn)定的分類結(jié)果,訓(xùn)練過程無法收斂。
網(wǎng)絡(luò)訓(xùn)練過程中無法收斂的主要原因在于相比網(wǎng)絡(luò)中過多的需要訓(xùn)練確定的權(quán)值,數(shù)據(jù)集規(guī)模過小,已然不能滿足學(xué)習(xí)的要求。從特征圖角度來看,網(wǎng)絡(luò)無法通過不充足的訓(xùn)練樣本學(xué)習(xí)到穩(wěn)定而有效的特征圖組合,從而導(dǎo)致了網(wǎng)絡(luò)不收斂。要解決這個(gè)問題需要加大測(cè)試樣本的數(shù)量。
為了訓(xùn)練和測(cè)試LeNet-5.3,對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)充:訓(xùn)練圖像庫包含字符圖像4 000幅,測(cè)試圖像庫包含字符圖像2 000幅。訓(xùn)練過程中的誤分類率曲線如圖7所示。從圖7中可以看出,經(jīng)過32次迭代之后網(wǎng)絡(luò)趨于收斂,并且達(dá)到了較好的識(shí)別率。
圖6 LeNet-5.3在規(guī)模較小的數(shù)據(jù)集上訓(xùn)練過程中的誤分類率曲線
圖7 LeNet-5.3在規(guī)模較大的數(shù)據(jù)集上訓(xùn)練過程中的誤分類率曲線
本文針對(duì)貨運(yùn)列車車號(hào)識(shí)別的難題,提出了基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5改進(jìn)后的識(shí)別方法,主要對(duì)卷積神經(jīng)網(wǎng)絡(luò)中各層特征圖數(shù)量及大小進(jìn)行了改進(jìn)。且與傳統(tǒng)的BP網(wǎng)絡(luò)進(jìn)行了比較,從實(shí)驗(yàn)結(jié)果可以看出,改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)無論在魯棒性還是識(shí)別率以及識(shí)別速度上都優(yōu)于BP網(wǎng)絡(luò),可以很好地勝任列車車號(hào)識(shí)別任務(wù)。
[1]宋敏.鐵路車輛車號(hào)自動(dòng)識(shí)別系統(tǒng)的研究和開發(fā)[D].天津:河北工業(yè)大學(xué),2011:1-5.
[2]LU S,CHEN B M,KO C C.Perspective rectification of document images using fuzzy set and morphological operations[J]. Image and vision computing,2005,23(5):541-553.
[3]SHAH P,KARAMCHANDANI S,NADKAR T,et al.OCR-based chassis-number recognition using artificial neural networks[C]//Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety(ICVES).[S.l.]:IEEE,2009:31-34.
[4]CHEN D,BOURLARD H,THIRAN J P.Text identification in complex background using SVM[C]//Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2001:621-626.
[5]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[6]LECUN Y A,BOTTOU L,ORR G B,et al.Efficient backprop[M]//Anon.Neural networks:tricks of the trade.Berlin: Springer Berlin Heidelberg,1998:9-50.
[7]SIMARD P,STEINKRAUS D,PLATT J C.Best practices for convolutional neural networks applied to visual document analysis[C]//Proceedings of 2003 7th International Conference on Document Analysis and Recognition.[S.l.]:IEEE,2003:958-962.
[8]KORNAI A.An experimental HMM-based postal OCR system[C]//Proceedings of 1997 IEEE International Conference on Acoustics,Speech,and Signal Processing.US:IEEE,1997,4:3177-3180.
Research on freight train license recognition based on convolutional neural network LeNet-5
WANG Xiaofeng1,MA Zhong2
(1.Fenyang College of Shanxi Medical University,F(xiàn)enyang 032200,China;2.School of Computer Science,Northwestern Polytechnical University,Xi'an 710129,China)
For the character recognition of freight train license,the improved recognition method based on convolutional neural network LeNet-5 is proposed.Considering the structural features of the hierarchical convolutional neural network and local field,the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition.The experimental results show that the proposed method has strong robustness to solve the license breakage and stain,and high recognition rate,which provides a guarantee for the accuracy of the entire license recognition system.
train license;license recognition;convolutional neural network;LeNet-5
TN911.73-34;TP391
A
1004-373X(2016)13-0063-04
10.16652/j.issn.1004-373x.2016.13.016
2015-11-10
國家自然科學(xué)基金(61171156)支持項(xiàng)目
王曉鋒(1978—),男,工學(xué)碩士,實(shí)驗(yàn)師。主要研究方向?yàn)閳D像處理。
馬鐘(1985—),男,博士研究生。研究方向?yàn)閳D像處理、視線跟蹤。