吳章輝,李志清,楊曉玲,劉雨桐
(湘潭大學(xué) 信息工程學(xué)院學(xué)院,湘潭 411105)
樹狀卷積神經(jīng)網(wǎng)絡(luò)的車標(biāo)識別應(yīng)用①
吳章輝,李志清,楊曉玲,劉雨桐
(湘潭大學(xué) 信息工程學(xué)院學(xué)院,湘潭 411105)
為了提高在自然環(huán)境下車標(biāo)識別率,提出一種多通路樹狀結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型.該模型采用多通路樹狀結(jié)構(gòu),在傳統(tǒng)卷積網(wǎng)絡(luò)單一種類卷積核的卷積層上,使用多種類型的卷積核進(jìn)行卷積操作,并且采用樹狀網(wǎng)絡(luò)結(jié)構(gòu).通過對每個通路的頂層提取特征,作為全連接層的輸入,進(jìn)行車標(biāo)的分類任務(wù).通過理論分析和實(shí)驗(yàn)表明,與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練獲得的分類器相比,車標(biāo)識別率提升至98.43%.
深度學(xué)習(xí); 卷積神經(jīng)網(wǎng)絡(luò); 特征圖; 車標(biāo)識別
車標(biāo)自動識別系統(tǒng)是車輛自動識別系統(tǒng)的重要組成部分.車標(biāo)是車輛的重要信息,包含了車型信息,更重要的是包含了廠家的信息,由于廠家信息難于更換,有了車型的信息,在交通事故和利用車輛犯罪案件中能迅速縮小范圍,對車輛信息識別提供了很大的作用.
對于車標(biāo)識別,國內(nèi)外已經(jīng)有一些研究人員使用各類方法去嘗試.如文獻(xiàn)[1]提出在PCA的基礎(chǔ)上,利用圖像的質(zhì)量分析,通過對車標(biāo)圖像模糊度的計(jì)算,將車標(biāo)質(zhì)量相似圖像進(jìn)行分類.文獻(xiàn)[2]中提出利用adaboost算法進(jìn)行車標(biāo)圖像的定位,然后使用Techebichef 矩進(jìn)行識別.文獻(xiàn)[3,6]中采用方向梯度直方圖HOG算法進(jìn)行特征的提取,然后使用支持向量機(jī)SVM分類.文獻(xiàn)[4]采用了深度學(xué)習(xí)方法進(jìn)行車標(biāo)的特征自動提取和分類,分類正確率有很大的提升,并且網(wǎng)絡(luò)的輸入是原始的圖像,并不要人為的圖像預(yù)處理.文獻(xiàn)[5]改進(jìn)了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),利用最后兩個池化層的特征進(jìn)行分類,車標(biāo)的識別率比較傳統(tǒng)的卷積網(wǎng)絡(luò)有了一定的提高.但是,目前車標(biāo)識別系統(tǒng)在對光照不均,部分缺失,形變等因素下的車標(biāo)圖像正確識別率存在不足.為了降低這些因素的影響,提出了多通路的樹狀結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型.該模型能夠充分利用網(wǎng)絡(luò)底層提取的特征,并且能夠多尺度提取圖像特征.實(shí)驗(yàn)證明,在提出的T-CNN網(wǎng)絡(luò)進(jìn)行測試,車標(biāo)的正確識別率達(dá)到了98.43%.
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一般是由輸入層,多個交替的卷積層(C)和池化層(P),全連接層(FC)及輸出層(O)組成.如圖1所示.
一般地,卷積層為特征提取層,每個神經(jīng)元的輸入與前一層的局部感受野相連,提取該局部的特征.在同一個特征圖上的神經(jīng)元連接的權(quán)值共享.池化層的輸入一般是前一層的卷積層的輸出,主要對特征進(jìn)行模糊,從而獲得平移,尺度的不變性.在卷積神經(jīng)網(wǎng)絡(luò)中[12],有四種基本的運(yùn)算.依次定義為:內(nèi)卷積,外卷積,下采樣,上采樣.
圖1 CNN 網(wǎng)絡(luò)實(shí)現(xiàn)結(jié)構(gòu)
假設(shè) A,B 是矩陣,大小分別為 M×N,m×n,且 M≥m,N≥n,則它們的內(nèi)卷積 的所有元素定義為:
它們的外積定義如下:
如果對矩陣A進(jìn)行不重疊分塊,設(shè)每塊大小為k×L,第 ij塊的矩陣形式則其構(gòu)造如下:
用大小為k×L不重疊塊對矩陣A的下采樣定義為;
對矩陣A進(jìn)行倍數(shù)為k×L的不重疊上采樣定義為
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)[7-9]在圖像分類上取得了很好的效果,但影響卷積神經(jīng)網(wǎng)絡(luò)正確識別率和魯棒性的關(guān)鍵參數(shù)是卷積核大小和下采樣層的采樣間距.文獻(xiàn)[10]證明了卷積核的大小對識別率有很大的影響,文獻(xiàn)[11]中證明了采樣間距較小時,網(wǎng)絡(luò)輸出的激活值仍能重構(gòu)出與原始輸入相似的圖像.而下采樣間隔過小會導(dǎo)致不變性喪失,過大丟失大量有用信息.由于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)是在單通路內(nèi)完成的,只能單一的設(shè)置卷積核大小和池化層的采樣間距,這樣就限制了參數(shù)設(shè)置的靈活性,不能有效的提取局部和全局的特征.并且傳統(tǒng)的卷積網(wǎng)絡(luò)只是使用頂層提取的特征進(jìn)行訓(xùn)練分類器,并沒有充分的利用底層提取的特征.為了提高識別率和魯棒性,提出了T-CNN網(wǎng)絡(luò)結(jié)構(gòu),用于建立車標(biāo)分類模型.
T-CNN網(wǎng)絡(luò)采用多通路樹狀結(jié)構(gòu),即在傳統(tǒng)卷積網(wǎng)絡(luò)單一卷積核的卷積層上,使用多種類型的卷積核進(jìn)行卷積操作,形成樹狀網(wǎng)絡(luò)結(jié)構(gòu).
1.2.1 樹狀卷積網(wǎng)絡(luò)的學(xué)習(xí)過程
對于第a個樣本xa,樹狀卷積網(wǎng)絡(luò)的前向傳播過程
反向傳播過程,首先計(jì)算網(wǎng)絡(luò)中的每一層反饋傳遞誤差:
訓(xùn)練步驟:
輸出:網(wǎng)絡(luò)的權(quán)值和偏置
Step 1.隨機(jī)初始化所有權(quán)重和偏置;
Step 2.前向傳播,計(jì)算實(shí)際輸出,公式 (8);
Step 3.反向傳播,計(jì)算每層的反饋傳遞誤差,公式(9).
Step 4.計(jì)算網(wǎng)絡(luò)的權(quán)值和偏置的偏導(dǎo)數(shù),公式 (10);
Step 5.梯度下降算法更新權(quán)值和偏導(dǎo)數(shù).
本文使用的數(shù)據(jù)集是從LPR數(shù)據(jù)庫和網(wǎng)絡(luò)上收集得到的圖片.對數(shù)據(jù)進(jìn)行增強(qiáng),如圖像的平移,旋轉(zhuǎn)等圖像變換,最終獲得了20類共40000張圖片.對于這 40000張圖片,30000張用于訓(xùn)練,10000張用于測試,車標(biāo)圖像示例如圖3所示.所有圖片都被歸一化到64×64 大小.分別為阿爾法羅密歐,奧迪,寶馬,奔馳,比亞迪,東風(fēng)標(biāo)致,別克,金杯,大眾,菲亞特,豐田,福特,現(xiàn)代,雷諾,鈴木,馬自達(dá),尼桑,歐寶,西亞特,雪鐵龍.
2.2.1 車標(biāo)測試集測試
測試集中有20類車標(biāo)類型,每類有500張圖片,表1給出了T-CNN網(wǎng)絡(luò)模型對測試集測試的結(jié)果.
同時,在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,在其深度上與T-CNN保持一致.3個卷積層,卷積核大小分別為 12×5×5,48×3×3,192×3×3,Stride 為 1.3 個下采樣層,采樣間距 2×2,stride 為 2.測試結(jié)果如表2 所示.
圖3 20 類車標(biāo)圖片實(shí)例
2.2.2 與其他方法的比較
跟其它車標(biāo)識別方法的比較中,采樣相同的訓(xùn)練集和測試集.20類車標(biāo)30000張圖片進(jìn)行訓(xùn)練,10000張測試集上進(jìn)行測試.與文獻(xiàn)[2]所提到的HOG+SVM方法,文獻(xiàn)[4]中使用傳統(tǒng)的CNN+SVM方法,及文獻(xiàn)[5]提出的聯(lián)合卷積網(wǎng)絡(luò)Multi-CNN特征的識別方法進(jìn)行比較.比較的結(jié)果如表3所示.
2.2.3 實(shí)驗(yàn)結(jié)果分析
從表1和表2的結(jié)果分析得到,T-CNN能夠在自然場景下進(jìn)行圖像的識別,在光照不均,圖像在一定程度的形變,扭曲和缺失的情況下能夠提取較好的特征進(jìn)行分類任務(wù).比較傳統(tǒng)的卷積網(wǎng)絡(luò),分類的性能有一定的提升.從表3分析可知,傳統(tǒng)的特征提取受到外界因素的影響較大,不利于分類特征的提取.而Multi-CNN利用多層采樣層的特征進(jìn)行分類,但單通路下不能提取多種尺度范圍的特征.
表1 T-CNN 車標(biāo)測試識別率
表2 CNN 車標(biāo)測試識別率
表3 不同方法車標(biāo)測試結(jié)果
2.2.4 T-CNN 性能分析
T-CNN網(wǎng)絡(luò)結(jié)構(gòu)在測試集上的性能分析,分類準(zhǔn)確率和損失函數(shù)與迭代次數(shù)之間的關(guān)系,如圖4.
本文提出了一種樹狀結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)T-CNN用于車標(biāo)識別,與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比較,能夠提取有效的識別特征,能夠自主的進(jìn)行特征的提取,避免了人工提取特征的繁瑣.但在實(shí)驗(yàn)中使用的車標(biāo)類型較少,對于工程應(yīng)用有一定的局限性.而且與一般的卷積神經(jīng)網(wǎng)絡(luò)相比,樹狀結(jié)構(gòu)卷積網(wǎng)絡(luò)層數(shù)過多會引起參數(shù)過大,不利于計(jì)算.接下來的工作中,擴(kuò)大樣本數(shù)量和類型的數(shù)量.擴(kuò)大網(wǎng)絡(luò)的深度,減少各個通路的卷積核的數(shù)量進(jìn)行T-CNN的驗(yàn)證.
表4 T-CNN 具體描述
圖4 T-CNN 性能圖
1王枚,王國宏,房培玉,等.基于 PCA 與不變矩的車標(biāo)定位與識別.武漢大學(xué)學(xué)報?信息科學(xué)版,2008,33(1):36–40.
2Dai SJ,Huang H,Gao ZY,et al.Vehicle-logo recognition method based on Tchebichef moment invariants and SVM.Proc.of the 2009 WRI World Congress on Software Engineering.Xiamen,China.2009.18–21.
3Llorca DF,Arroyo R,Sotelo MA.Vehicle logo recognition in traffic images using HOG features and SVM.Proc.of the 16th International IEEE Conference on Intelligent Transportation System.The Hague,Netherlands.2013.2229–2234.
4彭博,藏笛.基于深度學(xué)習(xí)的車標(biāo)識別方法研究.計(jì)算機(jī)科學(xué),2015,42(4):268–273.[doi:10.11896/j.issn.1002-137X.2015.04.055]
5Zhang L,Zhang DM,Zheng H.Vehicle logo recognition using convolutional neural network combined with multiple layer feature.Journal of Computer Application,2016,36(2):444–448.
6Sun Q,Lu XB,Chen L,et al.An improved vehicle logo recognition method for road surveillance images.Proc.of the 7th International Symposium on Computational Intelligence and Design (ISCID).Hangzhou,China.2014.373–376.
7LeCun Y,Bottou L,Bengio Y.LeNet-5,Convolutional neural networks.IEEE Communication,1989:41–46.
8Szegedy C,Liu W,Jia YQ,et al.Going deeper with convolutions.Proc.of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,MA,USA.2015.1–9.
9Krizhevsky A,Sutskever I,Hinton GE.ImageNet classifi-cation with deep convolutional neural networks.Proc.of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,Nevada,USA.2012.1097–1105.
10Coates A,Lee H,Ng AY.An analysis of single-layer networks in Unsupervised feature learning.Proc.of the 14th International Conference on Artificial Intelligence and Statistics.Ft.Lauderdale,FL ,USA.2011.215–223.
11Zeiler MD,Fergus R.Visualizing and understanding convolutional networks.Proc.of the 13th European Conference on Computer Vision.Zurich,Switzerland.2014.818–833.
12張婷,李玉鑑,胡海鶴,等.基于跨連卷積神經(jīng)網(wǎng)絡(luò)的性別分類模型.自動化學(xué)報,2016,42(6):858–865.[doi:10.16383/j.aas.2016.c150658]
Vehicle Logo Recognition Using Tree-Based Convolution Neural Network
WU Zhang-Hui,LI Zhi-Qing,YANG Xiao-Ling,LIU Yu-Tong
(The College of Information Engineering,Xiangtan University,Xiangtan 411105,China)
In order to improve the recognition rate of vehicle in natural situations,this paper proposes a vehicle logo recognition modal based on a multi-path tree structure convolutional neural networks,which modal with different convolution kernel in the same convolutions,namely T-CNN.Firstly,different layer convolution features are obtained and are joined together as the input of the fully connected layer to get classifiers.Compared with the traditional method,the theoretical analysis and simulation results show that T-CNN can increase the recognition accuracy up to 98.43%.
deep leaning; convolutional neural network(CNN); feature map; vehicle logo recognition
吳章輝,李志清,楊曉玲,劉雨桐.樹狀卷積神經(jīng)網(wǎng)絡(luò)的車標(biāo)識別應(yīng)用.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(10):166–171.http://www.c-sa.org.cn/1003-3254/6002.html
2017-01-12; 采用時間:2017-02-20