• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多尺度特征融合CNN模型的車(chē)輛精細(xì)型號(hào)識(shí)別

      2018-09-18 02:12:18劉廷建顧乃杰張孝慈林傳文
      關(guān)鍵詞:型號(hào)準(zhǔn)確率卷積

      劉廷建,顧乃杰,張孝慈,林傳文

      1.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027

      2.中國(guó)科學(xué)技術(shù)大學(xué) 安徽省計(jì)算與通信軟件重點(diǎn)實(shí)驗(yàn)室,合肥 230027

      3.中國(guó)科學(xué)技術(shù)大學(xué) 先進(jìn)技術(shù)研究院,合肥 230027

      1 引言

      近年來(lái),我國(guó)汽車(chē)保有量的急劇增長(zhǎng)給交通管理造成了巨大的壓力。智能交通管理系統(tǒng)的出現(xiàn),極大地提高了交通管理的便捷性和高效性,給大眾的生活帶來(lái)了廣泛的影響??诒O(jiān)控場(chǎng)景下的車(chē)輛精細(xì)型號(hào)識(shí)別作為智能交通系統(tǒng)中的重要組成部分,不僅可以為車(chē)輛檢測(cè)、識(shí)別和跟蹤提供有效的信息,還有助于打擊違法套牌行為、減少套牌車(chē)犯罪行為等。

      關(guān)于車(chē)輛型號(hào)識(shí)別的研究,最初主要解決的是車(chē)輛制造商品牌的分類(lèi),如奔馳、奧迪、比亞迪等,這類(lèi)研究只對(duì)車(chē)輛型號(hào)做了粗略的分類(lèi)。實(shí)際上,車(chē)輛的同一品牌會(huì)包含多個(gè)系列,如奧迪A5和奧迪Q5便屬于奧迪旗下的兩個(gè)不同的精細(xì)型號(hào)。由于車(chē)輛精細(xì)型號(hào)種類(lèi)繁多,同一個(gè)制造商不同子型號(hào)的車(chē)輛正臉在外觀上又很相似,而且監(jiān)控?cái)z像頭容易受天氣、光照等因素的影響,導(dǎo)致不同車(chē)輛型號(hào)間的差異變小,因此針對(duì)車(chē)輛精細(xì)型號(hào)的研究更具挑戰(zhàn)性。

      2 相關(guān)工作

      針對(duì)車(chē)輛精細(xì)型號(hào)識(shí)別的問(wèn)題,國(guó)內(nèi)外眾多學(xué)者已經(jīng)進(jìn)行了研究。Wang等人[1]通過(guò)提取車(chē)輛臉部位置特征向量,并建立車(chē)輛臉部特征庫(kù),然后利用最小距離法依次比較特征庫(kù)中車(chē)輛臉部特征向量和目標(biāo)樣本特征向量之間的差異,以此判斷該樣本的類(lèi)別。這種方法雖然實(shí)現(xiàn)簡(jiǎn)單,但算法泛化性能不足。Psyllos等人[2]利用車(chē)牌位置等先驗(yàn)知識(shí)定位出車(chē)標(biāo)位置,然后使用一個(gè)概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Network,PNN)完成車(chē)輛品牌的識(shí)別,但對(duì)于車(chē)輛精細(xì)型號(hào)的識(shí)別,只用車(chē)標(biāo)區(qū)域的特征信息并不足以很好地區(qū)分同一品牌下的不同子系列的型號(hào)。Yu等人[3]提出了一種基于詞袋(Bag-of-Words,BoW)的車(chē)輛標(biāo)識(shí)識(shí)別方法,首先提取車(chē)標(biāo)的尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征,其次將特征量化為視覺(jué)詞匯表,最后建立空間信息直方圖訓(xùn)練一個(gè)SVM分類(lèi)器來(lái)實(shí)現(xiàn)車(chē)標(biāo)的識(shí)別。該方法對(duì)于SIFT特征的提取,通常需要大量的計(jì)算,且準(zhǔn)確率也不高。張等人[4]提出一種基于聯(lián)合特征的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),該方法將通過(guò)CNN中不同層提取的特征聯(lián)合起來(lái)作為全連接層的輸入,訓(xùn)練分類(lèi)器用于車(chē)型分類(lèi)。該方法雖然識(shí)別效果較好,但由于額外使用了一個(gè)輔助網(wǎng)絡(luò),從而降低了模型的識(shí)別速度。Munroe等人[5]先檢測(cè)出車(chē)輛正臉圖片的邊緣信息,然后從中提取一組固定長(zhǎng)度的特征向量,最后用K最近鄰(K-Nearest Neighbor,KNN)方法完成車(chē)型的分類(lèi)。但由于只采用了單一的車(chē)輛邊緣信息,沒(méi)有考慮車(chē)輛其他局部區(qū)域的特征,因此識(shí)別效果不佳。Yang等人[6]構(gòu)建了一個(gè)公開(kāi)的車(chē)輛圖像數(shù)據(jù)庫(kù)CompCars,并用經(jīng)典的CNN模型(AlexNet、Overfeat和GoogLeNet等)對(duì)車(chē)輛精細(xì)型號(hào)的識(shí)別問(wèn)題進(jìn)行了研究,但并沒(méi)有針對(duì)車(chē)輛精細(xì)型號(hào)識(shí)別問(wèn)題對(duì)現(xiàn)有的CNN模型作進(jìn)一步改進(jìn)。Fang等人[7]提出了一個(gè)由粗到精的CNN模型,用以提取并融合車(chē)輛的局部特征和全局特征,并訓(xùn)練一個(gè)SVM分類(lèi)器實(shí)現(xiàn)車(chē)輛精細(xì)型號(hào)的識(shí)別,但相比端到端的CNN模型,這種方法訓(xùn)練和測(cè)試的速度都較慢。

      如上所述,現(xiàn)有的車(chē)輛精細(xì)型號(hào)識(shí)別方法仍然存在諸多局限性。一方面,對(duì)于傳統(tǒng)的人工提取車(chē)輛特征進(jìn)行識(shí)別的方法[1,3],通常需要十分復(fù)雜的計(jì)算,且算法泛化性能不足;另一方面基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛精細(xì)型號(hào)識(shí)別方法[4,7],雖然在提取圖像特征時(shí),得到了比普適性較差的傳統(tǒng)手工設(shè)計(jì)特征法更好的結(jié)果[8-10],但仍然存在一些缺點(diǎn),例如(1)只重視模型識(shí)別精度的提升而忽略模型識(shí)別速度的下降;(2)車(chē)輛特征提取不充分,只提取車(chē)輛輪廓或車(chē)標(biāo)區(qū)域等單一特征,而沒(méi)能綜合考慮車(chē)輛全局和局部特征;(3)模型參數(shù)規(guī)模較大,使得模型更容易過(guò)擬合。為克服上述局限性,本文針對(duì)卡口監(jiān)控場(chǎng)景下的車(chē)輛精細(xì)型號(hào)識(shí)別問(wèn)題,提出一種高效的基于多尺度特征融合的端到端CNN模型,在大幅度降低模型參數(shù)規(guī)模的同時(shí),提高了模型的識(shí)別精度。

      3 基于多尺度特征融合的CNN模型

      3.1 網(wǎng)絡(luò)結(jié)構(gòu)

      為解決復(fù)雜卡口監(jiān)控場(chǎng)景下車(chē)輛精細(xì)型號(hào)的識(shí)別問(wèn)題 ,本文構(gòu)建了一個(gè)基于多尺度特征融合的卷積神經(jīng)網(wǎng)絡(luò)模型(Multi-Scale feature fusion CNN,MS-CNN)。為便于闡述,下文中采用MS-CNN指代該網(wǎng)絡(luò)模型。MS-CNN模型的總體結(jié)構(gòu)如圖1所示。從圖1可以看出,MS-CNN包含一個(gè)輸入層,4個(gè)特殊的結(jié)構(gòu)單元(TraConv0,MlpConv1,MlpConv2和MlpConv3),以及兩個(gè)全連接層fc1和fc2。以下將從前向傳播過(guò)程,依次闡述MS-CNN各層的結(jié)構(gòu)。

      圖1 MS-CNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

      表1列出了MS-CNN模型的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。如表所示,輸入MS-CNN模型的是卡口監(jiān)控場(chǎng)景中的車(chē)輛正臉彩色圖像,該圖像變換為3×224×224的尺寸后,作為結(jié)構(gòu)單元TraConv0的輸入。表1中的C、H、W分別代表圖像的通道數(shù)、高度和寬度。TraConv0保持了傳統(tǒng)的卷積形式,依次包含一個(gè)卷積層、一個(gè)池化層和一個(gè)局部響應(yīng)歸一化(Local Response Normalization,LRN)層[11]。加入LRN層的主要目的是抑制隱藏層輸出大的激勵(lì),從而提升模型的泛化能力。此外,在MS-CNN模型中,每個(gè)卷積層后都會(huì)緊隨一個(gè)ReLU(Rectified Linear Unit)層[11],以增強(qiáng)網(wǎng)絡(luò)的非線性擬合能力。

      表1 MS-CNN網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)

      如圖1所示,在TraConv0后依次創(chuàng)建了3個(gè)結(jié)構(gòu)單元:MlpConv1、MlpConv2和MlpConv3。這3個(gè)單元有相同的結(jié)構(gòu),不同之處在于MlpConv1中的第一個(gè)卷積層的步長(zhǎng)以及填充與后兩者不同,因此下文以Mlp-Conv1為例闡述這種結(jié)構(gòu)單元的組成和作用。

      MlpConv1結(jié)構(gòu)單元包含一個(gè)卷積核大小為3×3的卷積層conv1,后接兩個(gè)卷積核大小為1×1的卷積層cccp1_1和cccp1_2,最后將隱含層結(jié)果經(jīng)過(guò)最大池化后輸出。這種結(jié)構(gòu)借鑒了Lin等人在文獻(xiàn)[12]提出的NIN(Network In Network)網(wǎng)絡(luò)中一個(gè)非常重要的觀點(diǎn):使用形如MlpConv1的結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的卷積結(jié)構(gòu),有助于改善模型對(duì)非線性特征的表達(dá)能力。以ReLU[11]激活函數(shù)為例,一個(gè)傳統(tǒng)的卷積層可按照公式(1)計(jì)算:

      公式中,(i,j)是特征圖的像素索引,xi,j是卷積窗口中的特征塊,k是特征圖的通道索引。而MlpConv1結(jié)構(gòu)可以看作是一個(gè)卷積層加上傳統(tǒng)的多層感知器(Multilayer Perceptron,MLP),其計(jì)算公式為:

      公式(2)中,n是MLP中層的編號(hào)。結(jié)合公式(1)和公式(2),可看出,傳統(tǒng)卷積層是通過(guò)使用非線性激活函數(shù)(如ReLU)的線性組合來(lái)產(chǎn)生特征圖,而MLP卷積層中特征圖 fn的計(jì)算依賴于 fn-1,從而實(shí)現(xiàn)多個(gè)特征圖的線性組合,達(dá)到跨通道信息整合的目的。因此使用形如MlpConv1的結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的卷積層,使得網(wǎng)絡(luò)實(shí)現(xiàn)跨通道信息整合,并提高非線性特征的提取能力。

      在此基礎(chǔ)上,本文依次堆疊了3個(gè)相似的MlpConv1單元。鑒于CNN層數(shù)越高視野域越大的特性,這樣的堆疊方式既考慮了底層(靠近輸入層)結(jié)構(gòu)單元對(duì)車(chē)輛局部特征的學(xué)習(xí),又兼顧了高層結(jié)構(gòu)單元對(duì)車(chē)輛全局特征的提取,也為下文的特征融合提供了多尺度的特征選擇。同時(shí),由于這種堆疊結(jié)構(gòu)中大量使用了1×1的卷積核,使得在增加網(wǎng)絡(luò)深度的同時(shí),有效降低了網(wǎng)絡(luò)的參數(shù)量。

      MS-CNN模型中另一個(gè)關(guān)鍵的結(jié)構(gòu)是實(shí)現(xiàn)對(duì)特征的融合操作。如圖1所示,全連接層fc1同時(shí)與MlpConv2結(jié)構(gòu)單元的池化層pool2和MlpConv3結(jié)構(gòu)單元的池化層pool3連接,并且將fc1的輸出固定為一個(gè)160維的向量。這種設(shè)計(jì)的目的是因?yàn)殡S著下采樣的逐步推進(jìn),pool3層含有的神經(jīng)元個(gè)數(shù)太少,從而成為網(wǎng)絡(luò)信息傳遞的瓶頸;另一方面,pool3層提取到的特征比pool2層具備更多的全局性特征,即越往后的卷積層具備越大的視野。因此這種特征的融合操作,既考慮了車(chē)輛局部的特征(pool2層),又兼顧了車(chē)輛全局的視野(pool3層)。在具體實(shí)現(xiàn)時(shí),如表1所示,增加了一個(gè)concat層,用于拼接pool2和pool3層的輸出,并與fc1全連接,使得每個(gè)圖像最終學(xué)習(xí)到一個(gè)160維的特征向量。

      最后將fc1層的輸出送入Softmax層[8]進(jìn)行分類(lèi),并給出各類(lèi)別的概率值。此外,MS-CNN模型還在fc1層后插入一個(gè)dropout層[13],用以避免某些特征僅僅在與其他特定特征組合下才有效果的情況,從而提升防止模型過(guò)擬合的能力。

      3.2 網(wǎng)絡(luò)構(gòu)建策略的分析

      相對(duì)于其他經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),本文在構(gòu)建MS-CNN模型時(shí)力求在保證模型精度的同時(shí)使用最少的參數(shù)。基于這個(gè)思想,在上述網(wǎng)絡(luò)構(gòu)建過(guò)程中使用了以下設(shè)計(jì)策略。

      3.2.1 減少大尺寸卷積核的使用

      從理論上來(lái)講,使用小尺寸卷積核更有利于壓縮模型的規(guī)模,如使用1個(gè)3×3的卷積核所需要的參數(shù)量是1×1卷積核的9倍。因此在構(gòu)建MS-CNN模型過(guò)程中,避免了使用像AlexNet模型中11×11的這種大尺寸卷積核。MS-CNN模型除了在網(wǎng)絡(luò)開(kāi)始階段使用一個(gè)5×5的卷積核對(duì)樣本進(jìn)行特征的粗略提取外,其余都是3×3和1×1的小尺寸卷積核。

      3.2.2 減少輸入輸出通道數(shù)量

      對(duì)于一個(gè)使用卷積核大小為D×D的卷積層,在不考慮偏置的情況下,當(dāng)前卷積層所有參數(shù)的數(shù)量可由公式(3)計(jì)算:

      公式中,D是卷積核尺寸,C是輸入通道數(shù)量,N是輸出通道數(shù)量。由公式(3)可看出,模型壓縮不僅需要減少大尺寸卷積核的使用,還需要減少當(dāng)前層特征圖的輸入輸出通道數(shù)量。因此,在MS-CNN模型構(gòu)建過(guò)程中,合理設(shè)計(jì)了一系列相對(duì)偏小的通道數(shù)量,而不使用像NIN模型中1 024這種數(shù)量較大的輸入輸出通道數(shù)。

      3.2.3跨通道信息整合

      傳統(tǒng)的CNN模型是卷積層和池化層交替堆疊,而在MS-CNN模型中,使用了MLP卷積結(jié)構(gòu),即一個(gè)3×3的卷積層后緊隨兩個(gè)1×1的卷積層的形式。在這種結(jié)構(gòu)中,輸入特征圖經(jīng)過(guò)3×3的卷積層后,延遲最大池化的操作,然后再使用1×1的卷積核實(shí)跨通道的信息整合。在結(jié)構(gòu)的最后,才進(jìn)行池化操作。這種結(jié)構(gòu)能夠使得模型對(duì)樣本的非線性特征具有更好的表達(dá)能力。

      上述3個(gè)策略中,前兩個(gè)策略都是針對(duì)降低模型參數(shù)規(guī)模而設(shè)計(jì)的,第三個(gè)策略則是針對(duì)提升模型精度而提出的,再結(jié)合3.3節(jié)中對(duì)多尺度特征融合的分析,使得MS-CNN模型在保證模型精度的同時(shí)使用最少的參數(shù)。

      3.3 多尺度特征的融合

      實(shí)際卡口監(jiān)控場(chǎng)景中,被拍攝到的車(chē)輛正臉圖片除了車(chē)身輪廓外,還包含了車(chē)燈、車(chē)標(biāo)、散熱器格柵等豐富的局部特征,因此在提取車(chē)輛特征時(shí),就需要兼顧車(chē)輛的局部特征和全局特征。如表1所示,pool2層的輸出包含96個(gè)大小為6×6的特征圖,將每個(gè)特征圖轉(zhuǎn)換為一維向量并按序拼接成一個(gè)3 456維的向量,記為向量A。同理,將pool3的輸出拼接成一個(gè)1 152維的向量,記為向量B。然后將向量A和向量B再拼接后形成一個(gè)長(zhǎng)為4 608的一維向量C,則該向量C即作為fc1層的輸入。向量C經(jīng)過(guò)fc1層后降維到160維,這個(gè)降維后的向量就是從樣本中提取到的車(chē)輛的最終特征表示。

      由于越高的卷積層具有越大的視野,因此提取自pool3的向量B比提取自pool2的向量A具有更全局性的車(chē)輛特征??紤]到相比車(chē)身的全局輪廓特征,車(chē)輛精細(xì)型號(hào)分類(lèi)更應(yīng)該關(guān)心車(chē)輛的局部特征提取,因此拼接后的向量C中提取自pool2的向量A具有更大的比重。這種全局特征和局部特征的融合,從不同尺度上盡可能地保留了車(chē)輛的特征信息,從而提高了網(wǎng)絡(luò)的特征表達(dá)能力。

      4 實(shí)驗(yàn)與分析

      為了驗(yàn)證本文提出的基于多尺度特征融合的車(chē)輛精細(xì)型號(hào)識(shí)別方法的有效性,將文中提出的方法在公開(kāi)數(shù)據(jù)集上進(jìn)行了測(cè)試,并將測(cè)試結(jié)果與其他幾種方法進(jìn)行了對(duì)比。實(shí)驗(yàn)中使用Caffe[14]平臺(tái)訓(xùn)練MS-CNN模型,訓(xùn)練過(guò)程中采用了帶沖量的隨機(jī)梯度下降法(Momentum SGD),其中初始學(xué)習(xí)率為0.001,衰減因子為0.000 5,沖量值為0.9。采用多分步(Multistep)策略更新學(xué)習(xí)率,實(shí)驗(yàn)最大迭代次數(shù)為250 000次,并分別在第150 000和200 000更新學(xué)習(xí)率。

      4.1 平臺(tái)與數(shù)據(jù)集

      實(shí)驗(yàn)平臺(tái)為一臺(tái)8卡GPU服務(wù)器,配有2顆Intel XeonE5-2620 v2 2.1 GHz CPU及126 GB內(nèi)存。GPU是NVIDIA Tesla K40 m,單精度峰值為4.29 Tflops,顯存為12 GB GDDR5,顯存帶寬為288 GB/s。

      實(shí)驗(yàn)采用了由香港中文大學(xué)提供的CompCars數(shù)據(jù)集[6]。CompCars數(shù)據(jù)集包括兩類(lèi)圖片:一類(lèi)是從互聯(lián)網(wǎng)收集的車(chē)輛各個(gè)角度的圖片;另一類(lèi)是通過(guò)監(jiān)控探頭所捕獲的車(chē)輛正臉圖片。本文選擇了后者作為實(shí)驗(yàn)的數(shù)據(jù)集,包括281個(gè)車(chē)輛精細(xì)型號(hào)的44 481張車(chē)輛正臉圖像。實(shí)驗(yàn)中,根據(jù)Fang等人在文獻(xiàn)[7]中的數(shù)據(jù)集切分方式,將數(shù)據(jù)集按7∶3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集。CompCars數(shù)據(jù)集的特點(diǎn)是圖像采集環(huán)境變化較大,覆蓋了白天、黑夜、雨天和霧天等多種情況,其部分樣本如圖2所示。

      圖2 CompCars數(shù)據(jù)集樣例

      4.2 結(jié)果與分析

      基于上述同一數(shù)據(jù)集,設(shè)計(jì)了幾組對(duì)比實(shí)驗(yàn),以驗(yàn)證本文所提出的方法的先進(jìn)性。以下將從模型分類(lèi)效率和分類(lèi)準(zhǔn)確率兩方面來(lái)描述。

      4.2.1 模型分類(lèi)效率

      表2對(duì)比了4種方法的模型參數(shù)大小和分類(lèi)效率。其中,模型參數(shù)大小是在Caffe平臺(tái)中訓(xùn)練得到的CNN模型大小,而分類(lèi)效率指模型對(duì)一張圖片進(jìn)行分類(lèi)的時(shí)間開(kāi)銷(xiāo),也即是Caffe平臺(tái)中每張圖片在前向(Forward)計(jì)算過(guò)程中的平均用時(shí)。模型參數(shù)規(guī)模越小則其需要的內(nèi)存開(kāi)銷(xiāo)也越小,模型分類(lèi)效率越高則其實(shí)用性也越強(qiáng)。

      表2 卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)大小

      表2中,前三行是采用AlexNet[11]、NIN[12]和GoogLeNet[15]這3種經(jīng)典的CNN模型對(duì)CompCars數(shù)據(jù)集進(jìn)行分類(lèi)的結(jié)果。從表中可以看出,本文所提出的MS-CNN模型對(duì)一張圖片的前向計(jì)算只需0.83 ms。相對(duì)于表中另外3種CNN模型,其分類(lèi)效率分別提高了2.80倍、3.80倍和9.52倍,同時(shí)模型參數(shù)大小僅為3.93 MB。因此,MS-CNN模型相對(duì)于表中另外2種CNN模型具有更小的模型參數(shù)規(guī)模和更高的分類(lèi)效率。

      4.2.2 模型分類(lèi)準(zhǔn)確率

      為了驗(yàn)證本文提出的方法在車(chē)輛精細(xì)型號(hào)分類(lèi)問(wèn)題上的準(zhǔn)確率,除了對(duì)比表2中3種經(jīng)典的CNN模型的分類(lèi)結(jié)果外,還引入了同樣基于CompCars數(shù)據(jù)集的3篇文獻(xiàn)中的識(shí)別結(jié)果,對(duì)比結(jié)果如表3所示。表中Acc1和Acc2分別表示兩種不同的分類(lèi)準(zhǔn)確率。由于實(shí)驗(yàn)所采用的CompCars數(shù)據(jù)集中,各類(lèi)樣本數(shù)目很不均衡(類(lèi)別樣本數(shù)目平均為158張,而最少的類(lèi)別僅有14張圖片,最多的類(lèi)別卻有565張),因此如果只采用如公式(4)所示的傳統(tǒng)準(zhǔn)確率Acc1的計(jì)算方法就會(huì)忽略樣本數(shù)量少的類(lèi)別分類(lèi)準(zhǔn)確率差的情況。為避免這種情況,本文引入了Fang等人在文獻(xiàn)[7]中提出的一種新的準(zhǔn)確率Acc2。如公式(5)所示,Acc2等價(jià)于各類(lèi)別準(zhǔn)確率之和的算術(shù)平均值。

      表3 分類(lèi)準(zhǔn)確率對(duì)比

      其中,ti是第i類(lèi)預(yù)測(cè)正確的樣本個(gè)數(shù),ni是第i類(lèi)樣本總數(shù),N是樣本的類(lèi)別個(gè)數(shù)。

      圖3中展示了MS-CNN與3種經(jīng)典CNN模型隨著迭代次數(shù)的增加,分類(lèi)準(zhǔn)確率的變化情況。結(jié)合表3中的識(shí)別結(jié)果,可以看出,在3種經(jīng)典CNN模型中GoogLeNet的識(shí)別結(jié)果最佳,其Acc1和Acc2分別達(dá)到了98.36%和97.83%。表中第4、5、6行是文獻(xiàn)[16-17]和文獻(xiàn)[7]同樣基于CompCars監(jiān)控?cái)?shù)據(jù)集上所提出的方法的分類(lèi)性能,其中第4、5行的實(shí)驗(yàn)結(jié)果是Fang等人在文獻(xiàn)[7]中復(fù)現(xiàn)了文獻(xiàn)[16-17]的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,文獻(xiàn)[16]和文獻(xiàn)[17]所提出的方法在CompCars上數(shù)據(jù)集上效果不佳。Fang等人在文獻(xiàn)[7]中提出的方法取得了較高的準(zhǔn)確率,Acc1達(dá)到了98.63%,Acc2達(dá)到了98.29%。綜合表3的實(shí)驗(yàn)結(jié)果可看出,本文所提出的MS-CNN模型無(wú)論是Acc1還是Acc2都優(yōu)于其他6種方法。

      圖3 分類(lèi)準(zhǔn)確率對(duì)比

      結(jié)合表2和表3,進(jìn)一步綜合考慮模型分類(lèi)效率和分類(lèi)準(zhǔn)確率兩個(gè)方面。與3種經(jīng)典CNN模型中準(zhǔn)確率最高的GoogLeNet相比,MS-CNN模型的Acc1和Acc2分別提升了0.44%和0.60%,分類(lèi)效率提高了9.55倍,且模型參數(shù)大小僅為GoogLeNet的1/12。此外,本文提出的端到端MS-CNN模型不同于表3中Fang等人在文獻(xiàn)[7]中提出的方法,后者提出的方法需要單獨(dú)訓(xùn)練一個(gè)SVM分類(lèi)器來(lái)對(duì)提取出的車(chē)輛特征進(jìn)行分類(lèi)。因此相比文獻(xiàn)[7]中的方法,端到端的MS-CNN模型不僅在準(zhǔn)確率上有所提升,而且模型更為小巧簡(jiǎn)潔。

      由于每個(gè)樣本最后僅用一個(gè)160維的特征向量表示,因此即使MS-CNN模型中存在全連接層,也能夠有效降低網(wǎng)絡(luò)中的參數(shù)規(guī)模。此外MS-CNN中還大量采用了小尺寸卷積核,使得最終模型參數(shù)大小不到NIN[12]模型的1/6。同時(shí),對(duì)車(chē)輛局部特征和全局特征的有效融合,增強(qiáng)了網(wǎng)絡(luò)對(duì)車(chē)輛特征的表達(dá)能力,使得在網(wǎng)絡(luò)參數(shù)規(guī)模大幅度降低的同時(shí),模型的兩種分類(lèi)準(zhǔn)確率均有所提高。

      4.3 1×1卷積核數(shù)量影響網(wǎng)絡(luò)性能的評(píng)估

      MS-CNN模型中依次堆疊了3個(gè)相似的MlpConv1單元,雖然其在增加網(wǎng)絡(luò)深度的同時(shí),有效降低了網(wǎng)絡(luò)的參數(shù)量,但過(guò)多的1×1卷積核數(shù)量可能會(huì)對(duì)模型分類(lèi)精度造成影響。為對(duì)不同數(shù)量的1×1卷積核下的模型識(shí)別性能進(jìn)行評(píng)估,本節(jié)分別對(duì)不同組合情況下的模型識(shí)別精度進(jìn)行了測(cè)試,測(cè)試結(jié)果如表4所示。表中N_stack表示當(dāng)前模型堆疊的MlpConv單元個(gè)數(shù),N_kernel表示在當(dāng)前模型的每個(gè)MlpConv單元中,3×3的卷積層后連接的1×1卷積層個(gè)數(shù)。特別的是,當(dāng)N_kernel為0時(shí),當(dāng)前MlpConv單元可視為傳統(tǒng)的卷積結(jié)構(gòu),即對(duì)3×3卷積層的輸出直接進(jìn)行池化操作。

      表4 不同的1×1卷積核數(shù)量的識(shí)別結(jié)果

      在保持與各組對(duì)比實(shí)驗(yàn)無(wú)關(guān)條件不變的前提下,共設(shè)置10組對(duì)比實(shí)驗(yàn),分為兩大類(lèi)。第一類(lèi)是堆疊兩個(gè)相似的MlpConv單元,第二類(lèi)是堆疊3個(gè)相似的MlpConv單元。對(duì)于每一類(lèi),再分別對(duì)模型中每個(gè)MlpConv單元中1×1卷積核個(gè)數(shù)統(tǒng)一從0到4逐個(gè)實(shí)驗(yàn),每類(lèi)共計(jì)5組實(shí)驗(yàn)。實(shí)驗(yàn)中,fc1層的融合操作的輸入來(lái)自靠近fc1層的兩個(gè)MlpConv單元的池化層輸出。

      觀察表4可發(fā)現(xiàn),無(wú)論N_stack的值等于2還是3,一方面,模型準(zhǔn)確率最低的情況都發(fā)生在N_kernel為0時(shí),這也從側(cè)面印證了前文中提出的“使用形如MlpConv1的結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的卷積結(jié)構(gòu),有助于改善模型對(duì)非線性特征的表達(dá)能力”的觀點(diǎn);另一方面,當(dāng)N_kernel的值等于2時(shí)模型識(shí)別精度最佳,N_kernel的值大于2時(shí),模型精度不升反降,說(shuō)明過(guò)多的1×1的卷積核確實(shí)會(huì)對(duì)模型的精度造成影響。并且,當(dāng)N_kernel為0、1、2時(shí),相比堆疊兩個(gè)MlpConv單元,3個(gè)單元的堆疊能夠取得更高的識(shí)別精度。這說(shuō)明,在一定程度上,增加網(wǎng)絡(luò)的深度,有助于改善模型的識(shí)別準(zhǔn)確率。最終,模型在堆疊3個(gè)MlpConv單元,每個(gè)單元包含兩個(gè)1×1卷積層后取得了最佳的模型識(shí)別精度,這個(gè)模型即為本文所提出的MS-CNN模型。

      4.4 網(wǎng)絡(luò)特征可視化

      為了進(jìn)一步直觀地說(shuō)明本文提出的MS-CNN模型相對(duì)于其他方法的優(yōu)勢(shì),本文使用t-SNE(t-distributed stochastic neighbor embedding)[18]方法對(duì)AlexNet、NIN、GoogLeNet以及MS-CNN模型基于CompCars相同測(cè)試集上所提取的特征降維到平面空間進(jìn)而實(shí)現(xiàn)可視化,可視化結(jié)果如圖4所示。實(shí)際可視化過(guò)程中,為便于觀察,在CompCars測(cè)試集281類(lèi)樣本上隨機(jī)選取了30個(gè)類(lèi)別,每類(lèi)40張樣本(若同一類(lèi)別樣本量少于40,則全部取完)。CNN模型的最后一層通常用于給出各類(lèi)別的概率值,因此實(shí)驗(yàn)中可視化的對(duì)象為該層的前一層所提取的特征。圖中,一個(gè)小點(diǎn)代表一個(gè)樣本,同一類(lèi)別的樣本聚集成簇。

      圖4 模型的特征可視化

      圖4 (a)中,各類(lèi)所有樣本點(diǎn)整體呈現(xiàn)一種聚類(lèi)趨勢(shì),然而存在同類(lèi)樣本聚集成簇但比較松散的現(xiàn)象,即類(lèi)內(nèi)距離不夠小,這說(shuō)明了NIN對(duì)同類(lèi)樣本的聚合能力還有待提升;相比圖4(a),圖4(b)的類(lèi)間間距更為明顯,且同類(lèi)樣本的聚合能力也得到一定程度的改善;圖4(c)是對(duì)GoogLeNet所提取特征的可視化結(jié)果,可以看出,相比前兩種模型,GoogLeNet對(duì)同類(lèi)樣本點(diǎn)具有更強(qiáng)的聚合能力;而本文提出的MS-CNN模型所提取特征的可視化結(jié)果如圖4(d)所示,對(duì)比NIN、AlexNet和GoogLeNet,MS-CNN類(lèi)內(nèi)樣本點(diǎn)聚合程度更高,說(shuō)明對(duì)屬于同一類(lèi)樣本的識(shí)別能力更強(qiáng);同時(shí)類(lèi)間間距更大,意味著MS-CNN模型所提取的特征對(duì)不同類(lèi)別具有更好的區(qū)分度。

      5 結(jié)束語(yǔ)

      針對(duì)卡口監(jiān)控場(chǎng)景下的車(chē)輛精細(xì)型號(hào)識(shí)別的問(wèn)題,本文提出一種基于多尺度特征融合的卷積神經(jīng)網(wǎng)絡(luò)MS-CNN。該方法對(duì)每個(gè)樣本提取固定的160維特征向量,且該向量既考慮了車(chē)輛的局部特征又兼顧了車(chē)輛的全局特征。實(shí)驗(yàn)表明,MS-CNN模型在車(chē)型精細(xì)型號(hào)識(shí)別測(cè)試中分類(lèi)準(zhǔn)確率達(dá)到了98.43%。與其他方法相比,MS-CNN模型不僅在識(shí)別準(zhǔn)確率上有所提高,而且模型參數(shù)規(guī)模大幅度降低到3.93 MB,平均每張圖片的分類(lèi)時(shí)間僅為0.83 ms,具有良好的實(shí)用價(jià)值。

      猜你喜歡
      型號(hào)準(zhǔn)確率卷積
      “三化”在型號(hào)研制中的應(yīng)用研究
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      型號(hào)產(chǎn)品配套管理模式探索與實(shí)踐
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      不同型號(hào)CTC/TDCS設(shè)備的互聯(lián)互通
      岑溪市| 长垣县| 芜湖县| 金门县| 大埔县| 且末县| 龙口市| 汤阴县| 武胜县| 莆田市| 荔浦县| 贺州市| 剑阁县| 攀枝花市| 阜康市| 郸城县| 衡阳县| 鱼台县| 繁昌县| 色达县| 永清县| 盘锦市| 怀仁县| 克拉玛依市| 木里| 德保县| 乌审旗| 宁阳县| 左贡县| 宜黄县| 壶关县| 伊吾县| 垦利县| 靖边县| 襄垣县| 通渭县| 桐城市| 大荔县| 临潭县| 壶关县| 扎赉特旗|