基于深度學(xué)習(xí)的車牌識別系統(tǒng)設(shè)計

2018-06-20 07:50:34陳利

計算機技術(shù)與發(fā)展 2018年6期

陳利

(1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院，陜西西安 710127；2.銅川職業(yè)技術(shù)學(xué)院基礎(chǔ)部，陜西銅川 727031)

0 引言

當(dāng)今中國經(jīng)濟(jì)已進(jìn)入高速發(fā)展的階段，人民生活水平不斷提高，私家車的數(shù)量與日俱增，隨著機動車數(shù)量的增加，一系列社會問題也隨之而來，如交通堵塞、交通事故頻發(fā)、環(huán)境污染加劇等。這些問題尤其是交通問題的根治僅僅依靠大規(guī)模的道路建設(shè)是不夠的，智能交通系統(tǒng)(intelligent traffic system，ITS)是解決交通問題的一個重要手段，而車輛牌照識別(license plate recognition，LPR)技術(shù)在其中起著至關(guān)重要的作用。車輛牌照識別系統(tǒng)能夠?qū)Λ@得的車輛圖像信息進(jìn)行分析，識別出車輛牌照的位置，并進(jìn)一步識別出車牌號碼。雖然在高清靜止的場景中車牌識別技術(shù)已經(jīng)較為成熟，但在霧霾天、夜晚和視角不正等更廣義的場景中，車牌識別問題依然面臨挑戰(zhàn)，尤其在未來無人車、無人交通中，車牌識別技術(shù)更有著非常大的提高空間。

深度學(xué)習(xí)的發(fā)展對計算機視覺和圖像處理領(lǐng)域帶來了巨大的變化，其在圖像物體檢測和分類問題中比其他算法具有明顯的優(yōu)勢，因此文中基于深度學(xué)習(xí)進(jìn)行車牌識別的研究。

1 相關(guān)研究內(nèi)容

1.1 深度學(xué)習(xí)

深度學(xué)習(xí)[1-2]的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。人工神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層次較淺，一般有一至兩層的隱藏層，由于神經(jīng)網(wǎng)絡(luò)樣本個數(shù)和計算單元個數(shù)有限，因此處理復(fù)雜問題時其泛化能力受到限制。而深度學(xué)習(xí)網(wǎng)絡(luò)模型至少有五層以上的隱藏層，可通過學(xué)習(xí)一種深層的非線性網(wǎng)絡(luò)結(jié)構(gòu)，把人工神經(jīng)網(wǎng)絡(luò)得到的底層特征更進(jìn)一步地抽象成更加抽象的高層表示屬性類別或特征，并用其強大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力，實現(xiàn)對復(fù)雜函數(shù)的逼近，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

卷積神經(jīng)網(wǎng)絡(luò)[3-5](convolution neural network，CNN)是人工神經(jīng)網(wǎng)絡(luò)的一種，它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元，在大量圖像處理中表現(xiàn)出色。卷積神經(jīng)網(wǎng)絡(luò)中較為重要的層次為卷積層、Pooling層、歸一化層、損失函數(shù)層、激活函數(shù)層以及全連層。其中卷積層的表達(dá)式為：

(1)

其中，Wi,j為卷積核的第i行第j列的權(quán)值；Xr+i,c+j為卷積層輸入的第r+i行、第c+j列個元素；b為偏差；fr,c為卷積層第r行、第c列個元素。

Pooling層(Max-Pooling)的計算表達(dá)式為：

(2)

其中，Xr+i,c+j表示Pooling層輸入的第r+i行、第c+j列個元素；fr,c表示Pooling層輸出的第r行、第c列個元素。

Pooling層的作用是從附近多個激活的元素中選擇最大的元素，以去除附近其他噪聲，同時Pooling可以有效縮減模型規(guī)模，將圖片的長寬一次次縮小，減少神經(jīng)網(wǎng)絡(luò)的計算量?；谏疃葘W(xué)習(xí)的目標(biāo)檢測方法有R-CNN[6]、Fast R-CNN[7]、Faster R-CNN[8]、Single Shot Multi Box Detector[9](SSD)等。

1.2 車牌定位

車牌定位是車牌識別系統(tǒng)的關(guān)鍵環(huán)節(jié)，提升整個系統(tǒng)的識別率的關(guān)鍵點就是準(zhǔn)確地獲取車牌區(qū)域。車牌定位算法有很多,如邊緣檢測法[10-11]、紋理特征法[12]、小波變換法[13]和遺傳算法[14]等。傳統(tǒng)的邊緣檢測算法檢測到的邊緣信息存在大量的干擾信息，當(dāng)光照條件不同時，傳統(tǒng)的邊緣檢測算法很多情況下不能實現(xiàn)車牌定位；紋理特征法對于牌照傾斜以及光照不勻的情況，定位效果較好，但對于噪聲大、背景復(fù)雜的圖像則不能實現(xiàn)較好的定位；小波變換法能很好地解決含有噪聲的車牌圖像的定位問題，缺點是速度比較慢，并且在噪聲比較大時誤判率較高；遺傳算法在圖像質(zhì)量較差時對目標(biāo)區(qū)域有很好的增強效果，但是在實時系統(tǒng)中，遺傳算法中的迭代次數(shù)會對車牌定位的速度造成很大的影響，導(dǎo)致運算速度慢，效率不高。由于灰度圖像信息較少，計算量相對彩色圖像較小，處理時間較短，因此文中使用基于灰度圖的目標(biāo)檢測方法來定位車牌。

1.3 車牌字符分割

要準(zhǔn)確地識別出車牌上的字符，就要先將定位好的車牌上的字符逐個分割出來，拆分成一個個字符。因此字符分割的是否合理，會直接影響字符的正確識別。文中采用的方法是垂直投影法，其中心思想是綜合利用車牌上字符本身具有的諸多特點，把二值化后的車牌字符形成的圖像進(jìn)行垂直方向上的投影，由于車牌上字符不僅對應(yīng)區(qū)域中存在比較多的黑色像素點，而且車牌上每個字符間存在一定的間隔。因此，投影過后就會得到多個相對集中的投影峰值群，再根據(jù)得到的這個投影峰值本身的特點，將其分割，最終得到車牌的字符。

1.4 字符識別

(1)模板匹配。

模板匹配的重點就是提取與選擇特征值，國內(nèi)車牌字符是按照一定的順序依次排布的，第1個字符是漢字，通常是省份簡寫，第2個字符是大寫英文字母，最后5個字符則是阿拉伯?dāng)?shù)字0到9以及除“O”以外的英文字母的組合。針對這一特征，模板庫分成3個模板子庫，即數(shù)字字庫、漢字字庫以及英文字母字庫。因為角度以及拍攝扭曲程度的原因，同樣的字符歸一化后所得到的圖像會出現(xiàn)多種筆畫位置和形狀。在識別字符時，如果使用單一模板，會因為部分扭曲字符和標(biāo)準(zhǔn)模板不能準(zhǔn)確匹配，影響最后的識別。因此需要為每一個字符配備多個標(biāo)準(zhǔn)模板，這些模板能夠最大程度適應(yīng)常見的變形。盡管選用多個模板能夠照顧到更多的情況，但同時也將算法復(fù)雜化，因此適當(dāng)?shù)哪０鍞?shù)量以及挑選適合的模板會對最后的識別速度以及識別率產(chǎn)生重要的影響。計算模板匹配度的算法較多，通常采用式3:

(3)

其中，f為模板二值圖像，g為對應(yīng)的車牌二值圖像，兩幅圖像的大小一致，均為M×N；Tf和Tg分別為對應(yīng)二值圖像中值為1的像素個數(shù)；∧為與運算。

(2)特征統(tǒng)計優(yōu)化識別。

多模板匹配比單一模板識別率高，但是依然會出現(xiàn)不少的錯誤識別，錯誤一般集中在B和8、L和1、C和6、Z和7以及O和Q等形狀相似的字符的識別上。針對這種情況，需要進(jìn)一步分析這些字符的特征，然后進(jìn)行識別，該算法主要是為經(jīng)常出錯的字符而設(shè)計的。字母B和數(shù)字8的區(qū)別主要是在左半部分，可以通過只匹配左半部分來放大這種局部差別以實現(xiàn)識別。針對這些易出現(xiàn)識別錯誤的字符，專門建立一個局部模板庫，這個模板庫以相似字符為一組建立。例如，Q跟O以右下方為特征，B跟8以左半邊為特征建立標(biāo)準(zhǔn)模板庫。算法的計算過程如下：

Step1:假如第一次識別的結(jié)果是某一個相似的字符，那么進(jìn)行Step2，如果不是就進(jìn)行Step5。

Step2:以第一次識別的結(jié)果為依據(jù)，確定屬于哪個局部模板庫。

Step3:依據(jù)選擇的模板庫，選擇相同的位置，然后依據(jù)式3進(jìn)行計算。

Step4:選用匹配度最高的值作為最后的識別結(jié)果。

Step5:輸出結(jié)果。

(3)基于Hausdorff距離的多模板匹配。

與單一模板匹配比較，多模板匹配算法將車牌字符因扭曲、旋轉(zhuǎn)產(chǎn)生的變形問題也一并考慮，通過為每一個字符添加多個模板來增強識別算法的健壯性，但是增加少量的模板仍然不能顧及所有情況，不能滿足識別的需要，如果添加更多的模板，雖然能夠提高算法識別率但同時也大大降低了運算速度。

Hausdorff[15]距離又稱為最大最小距離，是一種表達(dá)兩點集的相似度的一種量度，它是兩集合之間距離的一種定義方式。Hausdorff距離定義為：H(A,B)=max(h(A,B),h(B,A))，即A到B和B到A兩個有向距離的最大值。其中A和B分別表示兩個集合，A={a1,a2,…,aM}和B={b1,b2,…,bN}，h(A,B)表示集合A中某個任意的點到集合B的所有點的距離的最小值中的最大值，表示為：h(A,B)=max(min(|a-b|))，h(B,A)表示集合B中某個任意的點到集合A所有點的距離的最小值中的最大值，表示為h(B,A)=max(min(|b-a|))。因為存在噪聲，這種選擇最小值最大值的方式有可能使計算結(jié)果出現(xiàn)錯誤，抗干擾性弱。

2 基于深度學(xué)習(xí)的車牌識別算法

采用上述技術(shù)，文中提出一種基于深度學(xué)習(xí)的車牌識別算法，步驟如下：

(1)車牌圖像預(yù)處理。

通常在車牌識別中用到的圖像是通過數(shù)碼設(shè)備在戶外拍攝得到的，因此受天氣和光照等環(huán)境的影響較大，需要在特征提取和模式識別處理之前，將圖像中隱含的無用干擾信息去除，并將原圖中有用信息增強[16]。圖像預(yù)處理主要是通過圖像灰度化以及利用灰度拉伸、圖像平滑等操作對采集到的圖像進(jìn)行處理，以便將干擾信息盡可能多地剔除，有利于后續(xù)定位。

算法通過加權(quán)平均值法對圖像進(jìn)行灰度化處理，利用中值濾波法平滑圖像，如圖1所示。

圖1預(yù)處理過程

(2)基于深度學(xué)習(xí)的車牌定位。

由于車牌定位中，并不需要定位多個類別的物體，所以使用Faster R-CNN中的RPN(region proposal network)來生成候選框。圖2為車牌定位的卷積神經(jīng)網(wǎng)絡(luò)模型，其中“conv”代表卷積層，“pool”代表polling層，“norm”代表歸一化層，“fc”代表全連接層，“dropout”代表dropout層，“sum of square loss”即回歸目標(biāo)函數(shù)；“c96”代表96個通道，“k7”代表卷積核或者polling核為7×7個像素，“s2”代表步長為兩個像素，“p1”代表圖像周圍用寬度為1的0值作為邊框，“fc”中的參數(shù)為其輸出個數(shù)，即輸出了4096個元素。

圖2 車牌定位卷積神經(jīng)網(wǎng)絡(luò)模型

(3)車牌字符分割。

算法使用垂直投影法進(jìn)行車牌字符分割，根據(jù)車牌字符間具有間隔相等的特點，對二值圖像(見圖3)進(jìn)行垂直投影，計算出字符的寬度及兩個字符之間的間距，分別向前、后兩個方向進(jìn)行分割，定位出每個字符的左右邊界，然后對每個分割出的字符進(jìn)行水平投影，進(jìn)而確定字符的上下邊界。由于分割出的車牌字符尺寸大小不同，為進(jìn)一步提高準(zhǔn)確率，需要歸一化處理待識別的字符，采用雙線性插值法將字符的尺寸統(tǒng)一起來。

圖4是歸一化后的圖像。

圖3 二值化圖像

圖4 車牌字符分割圖像

(4)車牌字符識別。

為降低噪聲的干擾，可通過計算最小距離和，而不是計算所有點的最小距離的最大值，達(dá)到預(yù)期效果。如果只求模板點集B到字符點集A的距離h(B,A)，因為僅僅計算字符到模板之間的有向距離就會有這種狀況：假設(shè)一個模板點分布比較集中并且數(shù)量不多，導(dǎo)致模板圖像與待識別圖像之間的距離比較遠(yuǎn)，這樣算法就認(rèn)為這個模板跟大部分字符都匹配，導(dǎo)致結(jié)果不正確，但是反過來計算模板到字符之間的有向距離就能夠有效地避免這個問題。

經(jīng)過改進(jìn)后的Hausdorff距離計算公式為：

H(B,A)=∑min(‖b-a‖)

(4)

用改進(jìn)的Hausdorff距離為核心的多模板匹配方法運算步驟與前面介紹的多模板匹配方法基本一樣。該算法仍然是給每一個字符設(shè)置五個標(biāo)準(zhǔn)模板，初次模板匹配能夠?qū)⒋蟛糠肿址诸?，特征統(tǒng)計優(yōu)化識別主要針對非常相似，易出現(xiàn)錯誤分類的字符，不同點就是利用式4計算Hausdorff距離匹配度。

3 基于深度學(xué)習(xí)的車牌識別系統(tǒng)

采用文中設(shè)計的算法，在車牌定位模塊中，使用開源框架Caffe下的RPN網(wǎng)絡(luò)結(jié)構(gòu)，其他模塊則使用MATLAB進(jìn)行編程，設(shè)計了相應(yīng)測試平臺，具體內(nèi)容如圖5所示。

采集了16217張車牌圖片(見圖6)作為數(shù)據(jù)源，數(shù)據(jù)大小為160×160。隨機抽取這些圖片的80%(12974)用于訓(xùn)練，20%(3243)用于測試，共循環(huán)10次，用交叉驗證法得到車牌最終定位準(zhǔn)確率(見表1)。

圖5 車牌識別系統(tǒng)流程

圖6 車牌定位效果圖

算法準(zhǔn)確定位錯誤定位準(zhǔn)確率%邊緣檢測算法3 02222193.2紋理特征算法3 07117294.7文中算法3 1657897.6

表2是利用從原始數(shù)據(jù)集中隨機選取的337張圖片測試得到的各算法的識別率比較情況。圖7為部分定位車牌識別圖像。

表2 不同算法對隨機選取車牌識別準(zhǔn)確率對比

圖7 車牌原圖和車牌識別結(jié)果

由這些表格數(shù)據(jù)可知，文中算法比傳統(tǒng)的模板匹配和神經(jīng)網(wǎng)絡(luò)算法具有更高的定位和識別準(zhǔn)確率，能夠達(dá)到準(zhǔn)確識別的目的。

4 結(jié)束語

針對車牌識別存在的問題，通過對車牌定位、車牌字符分割和車牌字符識別技術(shù)進(jìn)行研究，提出了一種基于深度學(xué)習(xí)的車牌識別原型系統(tǒng)方案。實驗結(jié)果表明，設(shè)計的基于深度學(xué)習(xí)的算法的識別正確率優(yōu)于模板匹配算法和神經(jīng)網(wǎng)絡(luò)算法，具有一定的可行性。

參考文獻(xiàn)：

[1] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.

[2] ZE Heiga,SENIOR A,SCHUSTER M．Statistical parametric speech synthesis using deep neural networks[C]//International conference on acoustics speech and signal processing.Vancouver,BC,Canada:IEEE,2013:7962-7966.

[3] 余凱，賈磊，陳雨強，等．深度學(xué)習(xí)的昨天、今天和明天[J]．計算機研究與發(fā)展，2013，50(9)：1799-1804．

[4] YANN L,KAVUKCUOGLU K,FARABET C.Convolutional networks and applications in vision[C]//Proceedings of2010IEEE international symposium on circuits and systems.Paris,France:IEEE,2010:253-256.

[5] HE Kaiming，ZHANG Xiangyu，REN Shaoqing，et al．Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1906.

[6] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the2014IEEE conference on computer vision and pattern recognition.Columbus,OH,USA:IEEE,2014:580-587.

[7] GIRSHICK R.Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision．Piscataway，NJ:IEEE，2015:1440-1448．

[8] REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster r-cnn:towards real-time object detection with region proposal networks[J]．IEEE Transactions on Pattern Analysis & Machine Intelligence，2017，39(6):1137-1149．

[9] LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single shot multibox detector[C]//European conference on computer vision.[s.l.]:Springer International Publishing,2016:21-37.

[10] CHEN Rongbao,LUO Yunfei.An improved license plate location method based on edge[J].Physics Procedia,2012,24:1350-1356.

[11] MOUSA A．Canny edge detection based vehicle plate recognition[J]．International Journal of Signal Processing Image Processing & Pattern Recognition,2012,5(3):1-7．

[12] YU Shengfeng，XU Zhijiang，ZHANG Biaobiao，et al．A novel algorithm for license plate location based on the RGB features and the texture features[C]//Proceedings of the20125th international conference on biomedical engineering and informatics．Piscataway，NJ: IEEE，2012:156-159．

[13] WANG Y R，LIN W H，HORNG S J．A sliding window technique for efficient license plate localization based on discrete wavelet transform[J].Expert Systems with Applications,2011,38(4):3142-3146.

[14] SMARA G A，KHALEFAH F.Localization of license plate number using dynamic image processing techniques and genetic algorithms[J].IEEE Transactions on Evolutionary Computation,2014,18(2):244-257.

[15] HUTTENLOCHER D P, KLANDERMAN G A, RUCKL-IDGE W J.Comparing image using the Hausdorff distance[J].IEEE Transaction Patterns Analysis and Machine Intelligenee,1993,15(9):850-863.

[16] 史海玲,邱曉暉.運動模糊車輛圖像復(fù)原方法研究[J].計算機技術(shù)與發(fā)展,2016,26(8):60-64.