張鵬,陳湘軍,2,阮雅端,陳啟美
(1.南京大學(xué)電子科學(xué)與工程學(xué)院, 210046, 南京;2.江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院, 213001, 江蘇常州)
?
采用稀疏SIFT特征的車型識(shí)別方法
張鵬1,陳湘軍1,2,阮雅端1,陳啟美1
(1.南京大學(xué)電子科學(xué)與工程學(xué)院, 210046, 南京;2.江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院, 213001, 江蘇常州)
針對(duì)實(shí)際應(yīng)用中因圖像清晰度低等因素導(dǎo)致的車型識(shí)別誤差過(guò)大的問(wèn)題,提出了一種基于稀疏尺度不變轉(zhuǎn)換特征(sparse scale invariant feature transform,S-SIFT)的車型識(shí)別方法。該方法用背景建模方法檢測(cè)交通視頻運(yùn)動(dòng)目標(biāo),提取目標(biāo)SIFT特征;通過(guò)L1約束計(jì)算出SIFT特征的稀疏編碼,并用最大池化方法降低稀疏編碼維度,在線性SVM分類器中完成車型分類,彌補(bǔ)了背景建模方法識(shí)別誤差過(guò)大、不具備車型分類功能的缺陷。經(jīng)G36高速公路實(shí)際應(yīng)用表明:算法對(duì)車輛場(chǎng)景識(shí)別率可達(dá)98%以上,車型識(shí)別準(zhǔn)確率可達(dá)89%以上,對(duì)低清晰度、不同視角、雨雪、遮擋等場(chǎng)景有很好的魯棒性;圖像平均處理時(shí)間不超過(guò)40 ms,可滿足系統(tǒng)對(duì)實(shí)時(shí)性的要求,在準(zhǔn)確率和時(shí)間效率兩方面均明顯優(yōu)于傳統(tǒng)的SIFT方法和HOG方法。
深度學(xué)習(xí);車型識(shí)別;稀疏特征;尺度不變轉(zhuǎn)換特征;線性支持向量機(jī)分類
交通監(jiān)控視頻信息內(nèi)容形象直觀、鋪設(shè)方便、覆蓋范圍廣泛,基于機(jī)器視覺(jué)的車型識(shí)別方法已在智能交通ITS領(lǐng)域逐步得到應(yīng)用。目前常用的車型識(shí)別技術(shù)包括模板匹配[1]、尺度不變特征變換(scale invariant feature transform,SIFT)結(jié)合SVM分類器[2]、背景建模[3]等。模板匹配需要對(duì)圖像掃描,計(jì)算量較大,不適用于實(shí)時(shí)系統(tǒng);SIFT特征方法在視頻不清晰、特殊天氣狀況下識(shí)別準(zhǔn)確率不高[4];背景建模方法基于幀間像素動(dòng)態(tài)變化解析,實(shí)時(shí)性強(qiáng),應(yīng)用較廣泛,但其對(duì)場(chǎng)景很敏感,光線變化、攝像機(jī)抖動(dòng)、雨滴、樹(shù)枝搖晃等均可能造成誤判為運(yùn)動(dòng)目標(biāo),需進(jìn)一步判別目標(biāo)。
車輛長(zhǎng)度、輪廓特征常用作分類特征,但隨攝像機(jī)的距離遠(yuǎn)近而發(fā)生尺度變化,不適合用于監(jiān)控視頻。方向梯度直方圖(histogram of oriented gradients,HOG)是Dalal等提出的一種目標(biāo)檢測(cè)算法[5],用圖像梯度的統(tǒng)計(jì)信息描述圖像局部形狀,可在一定程度上抑制平移和旋轉(zhuǎn)的影響,但很難處理遮擋問(wèn)題,并且由于梯度的性質(zhì),對(duì)噪點(diǎn)很敏感。SIFT是一種基于尺度空間的算子,是基于關(guān)鍵點(diǎn)特征向量的描述,它對(duì)圖像縮放、旋轉(zhuǎn)都能夠保持不變性,可以有效描述圖像局部特征。
作為一種無(wú)監(jiān)督學(xué)習(xí)方法,稀疏編碼通過(guò)訓(xùn)練低層特征向量得到一組超完備基向量,用基向量的線性組合來(lái)表示輸入圖像特征,可對(duì)圖像像素或已有特征做進(jìn)一步抽象。稀疏模型在超分辨率重建[6]、圖像分割[7]、圖像分類[8]等領(lǐng)域已經(jīng)有相關(guān)研究。Yang等用SIFT特征結(jié)合空間金字塔(spatial pyramid matching,SPM)作為低層向量,訓(xùn)練出用于稀疏編碼的基向量,取得了較好的圖像分類效果[9]。盡管稀疏編碼在圖像分類領(lǐng)域已引起了廣泛關(guān)注,但將其應(yīng)用于公路車輛識(shí)別和分類的研究還很少。
本文基于深度學(xué)習(xí)理論,提出了一種基于稀疏SIFT特征的車型識(shí)別的方法。該算法用高斯混合背景差分技術(shù)提取運(yùn)動(dòng)目標(biāo)以減少計(jì)算量,保證系統(tǒng)實(shí)時(shí)性;提取目標(biāo)圖像的低層SIFT特征向量,再經(jīng)訓(xùn)練獲得編碼字典和稀疏SIFT特征,得到更深層次圖像特征,以適應(yīng)不同視角、光照變化、陰影、遮擋等復(fù)雜場(chǎng)景,進(jìn)一步提高識(shí)別率;最后用線性支持向量機(jī)實(shí)現(xiàn)稀疏SIFT特征分類,降低時(shí)間復(fù)雜度,保證實(shí)時(shí)性。
1.1 S-SIFT特征算法
S-SIFT特征算法是在圖像SIFT特征的基礎(chǔ)上,進(jìn)一步訓(xùn)練超完備字典基,在L1約束下編碼的稀疏SIFT,可以實(shí)現(xiàn)更高層次車輛圖像抽象。
定義矩陣X包含圖像在D維特征空間的M個(gè)SIFT特征描述子,X=(x1,…,xM)T,則X可以表示為
X=WC
(1)
式中:W是稀疏編碼系數(shù);C=(c1,…,cK)T是K個(gè)基向量。求解X的稀疏編碼可以表征為下式對(duì)W和C求解最優(yōu)化問(wèn)題
(2)
式中:‖·‖和|·|分別表示L2范數(shù)和L1范數(shù)。由L1約束性質(zhì)可知,懲罰項(xiàng)|wm|保證了編碼結(jié)果的稀疏性,稀疏系數(shù)β控制|wm|的權(quán)重,即稀疏性?;蛄渴沁^(guò)完備的(K>D),因此用cg的L2約束避免平凡解。
雖然求解式(2)時(shí)W和C同時(shí)變化,目標(biāo)函數(shù)不是凸優(yōu)化問(wèn)題,但是分別固定W和C時(shí),目標(biāo)函數(shù)分別退化為關(guān)于C和W的凸函數(shù)。固定W時(shí),目標(biāo)函數(shù)退化為關(guān)于C的最小二乘問(wèn)題
(3)
可以用拉格朗日對(duì)偶算法[10]快速求解。固定C,目標(biāo)函數(shù)退化為單獨(dú)對(duì)每一個(gè)wm求最優(yōu)解的線性回歸問(wèn)題
(4)
可以用特征符號(hào)搜索算法[10]求解。
實(shí)驗(yàn)中D=128,β=0.15,K選用8、32、128、512、1 024共5種編碼維度。M取決于圖像大小。以一幅256×256像素的圖像為例,SIFT圖像塊大小定義為16×16像素,步長(zhǎng)為6,則橫向作(256-16)/6=40次匹配,縱向作(256-16)/6=40次匹配,M=40×40,即1 600,用512維S-SIFT算法處理SIFT特征子,最終輸出的稀疏編碼為 1 600個(gè)512維的向量。
1.2 池化
池化是統(tǒng)計(jì)稀疏編碼結(jié)果的過(guò)程,其模擬人眼視覺(jué)皮層的生理機(jī)制[11],可以減少輸入向量維數(shù),有利于降低訓(xùn)練分類器的時(shí)間復(fù)雜度。以上文的256×256圖像為例,其稀疏SIFT編碼維度為1 600×512=819 200,訓(xùn)練一個(gè)輸入向量維度超過(guò)80萬(wàn)的分類器難度很大,且容易出現(xiàn)過(guò)擬合。采用池化方法,獲取一幅圖像的概要統(tǒng)計(jì)特征,不僅降低了訓(xùn)練分類器的難度,而且避免了過(guò)擬合現(xiàn)象。
目前常見(jiàn)的池化方法有平均池化和最大池化等,計(jì)算方法為
(5)
式中:wm是稀疏編碼向量;p是池化結(jié)果;wij表示第i個(gè)稀疏編碼向量的第j個(gè)元素。Lee等證明了稀疏編碼更適合用最大池化方法[10],Boureau等將SIFT特征、稀疏編碼和最大池化相結(jié)合,取得了非常好的圖像分類效果[12]。池化后的特征用簡(jiǎn)單的線性SVM分類器就能達(dá)到較好的分類效果,時(shí)間復(fù)雜度僅為O(n)。
2.1 目標(biāo)提取
定義t時(shí)刻的一個(gè)像素點(diǎn)為xt,如果xt滿足
(6)
則該像素點(diǎn)屬于背景,否則屬于前景。式中:B表示背景;F表示前景。
選取一個(gè)時(shí)間段T內(nèi)的圖像序列,在t時(shí)刻訓(xùn)練集為xT=(xt,…,xt-T)。用M個(gè)高斯模型組成的高斯混合模型估計(jì)背景概率密度,用馬氏距離計(jì)算新加入樣本與當(dāng)前背景的距離,距離較大則可能是前景,賦予較小的權(quán)重,反之則賦予較大的權(quán)重,不斷更新均值和方差,選取M個(gè)高斯模型中對(duì)背景模型最重要的B個(gè),可以得到
(7)
(a)背景圖像 (b)目標(biāo)提取圖1 高斯混合模型的背景與目標(biāo)提取
2.2SVM分類器參數(shù)訓(xùn)練
定義Q={(xi,yi)},i=1,…,n,其中Q是n個(gè)輸入數(shù)據(jù)點(diǎn)集;xi表示輸入變量;yi表示目標(biāo)值,在二類問(wèn)題中yi∈{1,-1}。分類函數(shù)定義為
(8)
式中:φ(x)表示從輸入空間到高維特征空間的映射。根據(jù)序列最小優(yōu)化算法(sequential minimal optimization, SMO)可以求得決策函數(shù)如下
(9)
式中:ai表示拉格朗日乘子;κ〈xi,x〉表示核函數(shù),用于快速計(jì)算映射到高維空間后兩個(gè)向量的內(nèi)積。常見(jiàn)的核函數(shù)有線性核、高斯核、多項(xiàng)式核。用非線性核SVM分類器,訓(xùn)練時(shí)間復(fù)雜度為O(n2~n3),分類時(shí)間復(fù)雜度為O(n),用線性核則可以將訓(xùn)練時(shí)間復(fù)雜度降低到O(n),分類時(shí)間復(fù)雜度仍為O(n)。實(shí)驗(yàn)中輸入向量的維度最高達(dá)到了1 024維,采用線性核函數(shù)可以提高訓(xùn)練效率,保證系統(tǒng)實(shí)時(shí)性。
實(shí)驗(yàn)使用江蘇省G36高速公路監(jiān)控系統(tǒng)的H.264視頻。車與非車圖像特征差異較大,僅需少量訓(xùn)練集樣本即可完成訓(xùn)練,而不同車圖像特征差異較小,需要更多的訓(xùn)練樣本。分別提取scVideo_2c和scVideo_4c兩組數(shù)據(jù)集做訓(xùn)練和測(cè)試。scVideo_2c數(shù)據(jù)集用于驗(yàn)證S-SIFT算法在不同場(chǎng)景下的車輛檢測(cè)效果,scVideo_4c數(shù)據(jù)集用于驗(yàn)證S-SIFT算法的車型分類效果。具體而言,scVideo_2c訓(xùn)練集包含120幅車輛圖像和120幅非車圖像,測(cè)試集包括車速較快場(chǎng)景、車輛遮擋較多場(chǎng)景和雨雪天氣場(chǎng)景3組場(chǎng)景;scVideo_4c訓(xùn)練集包含客車、轎車、卡車、面包車4類車型圖像各1 500幅,測(cè)試集中4類車型對(duì)應(yīng)數(shù)量為1 020輛、1 301輛、1 221輛和958輛。兩組數(shù)據(jù)集示例如圖2和圖3所示。
圖2 scVideo_2c場(chǎng)景數(shù)據(jù)集
圖3 scVideo_4c車輛數(shù)據(jù)集
首先用16×16像素的圖像塊對(duì)圖像提取稠密SIFT特征,步長(zhǎng)設(shè)為6。對(duì)SIFT特征中使用已訓(xùn)練的1 024個(gè)基向量進(jìn)行稀疏編碼,基向量維度為128維,稀疏系數(shù)β設(shè)為0.15。分類器為線性核函數(shù)的SVM。
軟件環(huán)境為OpenCV2.4、Matlab2013b,硬件環(huán)境為Intel Xeon E5-1603CPU,16 GB內(nèi)存。實(shí)驗(yàn)對(duì)比了基于SIFT特征和S-SIFT特征兩種方法的訓(xùn)練準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖4~圖8所示,不失一般性,圖中訓(xùn)練準(zhǔn)確率是采用10輪迭代平均結(jié)果。每次實(shí)驗(yàn)都從數(shù)據(jù)集中選取一部分做訓(xùn)練樣本,剩余部分做測(cè)試樣本。
3.1 scVideo_2c場(chǎng)景數(shù)據(jù)集
稀疏SIFT特征從所有SIFT特征集合中隨機(jī)選取7 200個(gè)特征來(lái)訓(xùn)練生成128維基向量,交替優(yōu)化的最大次數(shù)為50,編碼維度分別為8、32、128、512、1 024維。逐漸增加訓(xùn)練樣本個(gè)數(shù),直到訓(xùn)練準(zhǔn)確率趨向于收斂。不同維度S-SIFT和傳統(tǒng)SIFT方法的訓(xùn)練準(zhǔn)確率曲線結(jié)果如圖4所示。
圖4 傳統(tǒng)SIFT與不同編碼維度S-SIFT算法對(duì)scVideo_2c場(chǎng)景數(shù)據(jù)集的訓(xùn)練準(zhǔn)確率曲線
由圖4可以看出,當(dāng)編碼維度增加時(shí),S-SIFT訓(xùn)練準(zhǔn)確率有明顯提高,維度為512維時(shí),訓(xùn)練準(zhǔn)確率可達(dá)到98%以上;對(duì)比S-SIFT方法和SIFT方法可以看到,32維S-SIFT方法與SIFT方法的準(zhǔn)確率相近,高維度S-SIFT方法的準(zhǔn)確率明顯優(yōu)于SIFT方法。
用已訓(xùn)練的稀疏編碼字典和SVM分類器對(duì)3組場(chǎng)景樣本分別進(jìn)行測(cè)試,表1給出了不同方法對(duì)3組場(chǎng)景的分類準(zhǔn)確率。可以看出,S-SIFT方法分類準(zhǔn)確率隨編碼維度增加不斷提高。當(dāng)編碼維度在512維以上時(shí),S-SIFT方法對(duì)3種場(chǎng)景的分類準(zhǔn)確率均可達(dá)到96%以上,比低維S-SIFT方法至少提高3.0%;比原始SIFT方法提高4.6%;比背景建模方法提高24.5%,有效地去除了背景建模方法的誤判圖像;比HOG方法提高8.7%,在干擾較多的雨雪場(chǎng)景和遮擋場(chǎng)景中,S-SIFT方法明顯優(yōu)于HOG方法。
表1 scVideo_2c場(chǎng)景數(shù)據(jù)集的分類準(zhǔn)確率
表2給出了不同方法對(duì)3組場(chǎng)景的查全率,可以看出,背景建模方法的查全率最高,在3種場(chǎng)景中
表2 scVideo_2c場(chǎng)景數(shù)據(jù)集的查全率
均達(dá)到98.5%以上;S-SIFT方法的查全率隨維度增加呈上升趨勢(shì);HOG方法和SIFT方法的查全率與低維度S-SIFT方法相近。
結(jié)合表1和表2可以看出,背景建模方法查全率雖然較高,但是對(duì)3種場(chǎng)景的分類準(zhǔn)確率均低于75.5%,存在較多誤判;512維以上S-SIFT方法在3種場(chǎng)景下準(zhǔn)確率均可達(dá)到96%以上,查全率誤差在4.06%~12.29%之間,兩種指標(biāo)均優(yōu)于HOG方法和傳統(tǒng)SIFT方法。
圖5給出了S-SIFT方法和SIFT方法的訓(xùn)練時(shí)間曲線。可以看出,S-SIFT方法訓(xùn)練時(shí)間隨維度增加而增加,當(dāng)訓(xùn)練樣本為40個(gè)時(shí),1 024維S-SIFT的訓(xùn)練時(shí)間達(dá)到1.02 s,平均每個(gè)樣本訓(xùn)練時(shí)間25.5 ms,8維S-SIFT的訓(xùn)練時(shí)間最少,僅為0.076 5s,平均每個(gè)樣本訓(xùn)練時(shí)間1.9 ms。雖然分類準(zhǔn)確率隨編碼維度增加而提高,但訓(xùn)練所需時(shí)間成本也隨之增加,因此不能無(wú)限增加編碼維度來(lái)提高準(zhǔn)確率。
圖5 scVideo_2c場(chǎng)景數(shù)據(jù)集的SVM分類器訓(xùn)練時(shí)間
結(jié)合圖4和圖5可以看出,SIFT方法訓(xùn)練時(shí)間介于1 024維S-SIFT和512維S-SIFT之間,當(dāng)S-SIFT方法的編碼維度在32維至512維之間時(shí),其在分類準(zhǔn)確率和分類器訓(xùn)練時(shí)間兩方面均優(yōu)于SIFT方法。
3.2 scVideo_4c車輛數(shù)據(jù)集
對(duì)scVideo_4c車輛數(shù)據(jù)集的SIFT特征進(jìn)行原始采樣,提取150 000個(gè)特征訓(xùn)練稀疏編碼的128維基向量,交替優(yōu)化50次,編碼維度同樣選取為8、32、128、512、1 024維。與scVideo_2c場(chǎng)景數(shù)據(jù)集類似,不斷增加訓(xùn)練樣本數(shù),直到訓(xùn)練準(zhǔn)確率趨向于收斂。圖6給出了訓(xùn)練準(zhǔn)確率的實(shí)驗(yàn)結(jié)果。
圖6 SIFT算法與不同維度S-SIFT算法對(duì)scVideo_4c車輛數(shù)據(jù)集的訓(xùn)練準(zhǔn)確率曲線
由圖6可以看出,當(dāng)編碼維度為128維及以上時(shí),S-SIFT方法具有更高的準(zhǔn)確率;對(duì)比幾種不同編碼維度的S-SIFT方法可見(jiàn),訓(xùn)練準(zhǔn)確率隨編碼維度增加而逐漸提高,當(dāng)達(dá)到1 024維時(shí),訓(xùn)練準(zhǔn)確率達(dá)到89%以上。對(duì)比圖4和圖6可以看出,scVideo_4c車輛數(shù)據(jù)集的訓(xùn)練準(zhǔn)確率明顯低于scVideo_2c場(chǎng)景數(shù)據(jù)集的訓(xùn)練準(zhǔn)確率,原因是后者區(qū)分不同場(chǎng)景圖像,兩類圖像間差異較大,而scVideo_4c車輛數(shù)據(jù)集區(qū)分不同車型,不同類別圖像間特征差異相對(duì)較小,因此準(zhǔn)確率有所下降。
用已訓(xùn)練的稀疏編碼字典和SVM分類器對(duì)車輛樣本進(jìn)行分類測(cè)試,表3給出幾種方法對(duì)不同車型的分類準(zhǔn)確率??梢钥闯?SIFT方法和HOG方法的分類性能與32維S-SIFT方法相近;512維S-SIFT方法比SIFT方法準(zhǔn)確率提高了10.24%,比HOG方法提高了10.86%;1 024維S-SIFT方法比SIFT方法準(zhǔn)確率提高了13.27%,比HOG方法提高了13.89%;背景建模方法沒(méi)有車型分類的功能。
表3 scVideo_4c車輛數(shù)據(jù)集的分類準(zhǔn)確率
表4給出了不同方法對(duì)scVideo_4c車輛數(shù)據(jù)集的查全率??梢钥闯?背景建模方法查全率最高,對(duì)不同車型的查全率均可達(dá)到99.79%以上;S-SIFT方法查全率隨編碼維度增加而上升;HOG和SIFT方法與128維S-SIFT方法查全率相近。結(jié)合表3和表4可以看出,背景建模方法查全率雖然最高,但不具有車型分類的功能;HOG和SIFT方法在準(zhǔn)確率和查全率兩方面均低于高維S-SIFT方法。
表4 scVideo_4c車輛數(shù)據(jù)集的查全率
圖7給出了S-SIFT和SIFT方法對(duì)scVideo_4c車輛數(shù)據(jù)集的分類器訓(xùn)練時(shí)間曲線??梢钥闯?高維S-SIFT方法的訓(xùn)練時(shí)間明顯高于低維S-SIFT方法。SIFT方法的訓(xùn)練時(shí)間與1 024維S-SIFT方法相近。當(dāng)編碼維度在32維和1 024維之間時(shí),S-SIFT方法在準(zhǔn)確率和實(shí)時(shí)性方面均優(yōu)于SIFT方法。
圖7 scVideo_4c車輛數(shù)據(jù)集的SVM分類器訓(xùn)練時(shí)間
圖8 1 024維S-SIFT對(duì)scVideo_4c數(shù)據(jù)集分類混淆矩陣
圖8給出了1 024維S-SIFT方法對(duì)scVideo_4c車輛數(shù)據(jù)集的分類準(zhǔn)確率混淆矩陣,圖中第i行第j列數(shù)值表示第j類被誤分成第i類的比率(i≠j)。對(duì)角線上數(shù)值代表對(duì)應(yīng)類的分類準(zhǔn)確率。從0到100%分成10個(gè)灰度區(qū)間,顏色越深表示準(zhǔn)確率越低。由圖8可以看出,客車和卡車最容易發(fā)生混淆,因?yàn)檫@兩類車型車身都較長(zhǎng),特征較為接近。
本文以深度學(xué)習(xí)理論為基礎(chǔ),提出了一種基于稀疏SIFT特征的車型識(shí)別方法,實(shí)現(xiàn)了快速、準(zhǔn)確的交通監(jiān)控視頻車輛識(shí)別。算法用背景建模方法提取車輛目標(biāo),采集其SIFT特征作為圖像低層特征,并對(duì)SIFT特征進(jìn)行稀疏編碼,得到更深層次的圖像表征模型,用稀疏SIFT編碼作為車輛特征訓(xùn)練線性SVM分類器,實(shí)現(xiàn)車型識(shí)別。實(shí)驗(yàn)結(jié)果表明,算法對(duì)低分辨率、視角變化、遮擋、雨雪天氣等復(fù)雜場(chǎng)景下的車輛圖像具有較高的識(shí)別率,準(zhǔn)確率和訓(xùn)練時(shí)間均優(yōu)于傳統(tǒng)SIFT方法。
[1] ZHANG Zhaoxiang, TAN Tieniu, HUANG Kaiqi, et al. Three-dimensional deformable-model-based localization and recognition of road vehicles [J]. IEEE Transactions on Image Processing, 2012, 21(1): 1-13.
[2] 崔瑩瑩. 智能交通中的車型識(shí)別研究 [D]. 成都: 電子科技大學(xué), 2013.
[3] WOOD R J, REED D, LEPANTO J, et al. Robust background modeling for enhancing object tracking in video [J]. Proceedings of the SPIE, 2014, 9089(2): 1-9.
[4] 黃毅, 陳湘軍, 阮雅端, 等. 低清晰視頻的“白化-稀疏特征”車型分類算法 [J]. 南京大學(xué)學(xué)報(bào): 自然科學(xué)版, 2015, 51(2): 257-263. HUANG Yi, CHEN Xiangjun, RUAN Yaduan, et al. The whitening-sparse coding vehicle classification algorithm for low resolution video [J]. Journal of Nanjing University: Science Edition, 2015, 51(2): 257-263.
[5] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]∥Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2005: 886-893.
[6] DONG Weisheng, LI Xin, ZHANG Lei, et al. Sparsity-based image denoising via dictionary learning and structural clustering [C]∥Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2011: 457-464.
[7] MAIRAL J, BACH F, PONCE J, et al. Discriminative learned dictionaries for local image analysis [C]∥Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2008: 1-8.
[8] 程?hào)|陽(yáng), 蔣興浩, 孫錟鋒. 基于稀疏編碼和多核學(xué)習(xí)的圖像分類算法 [J]. 上海交通大學(xué)學(xué)報(bào), 2012, 46(11): 1789-1793. CHENG Dongyang, JIANG Xinghao, SUN Tanfeng. Image classification using multiple kernel learning and sparse coding [J]. Journal of Shanghai Jiaotong University, 2012, 46(11): 1789-1793.
[9] YANG Jianchao, YU Kai, GONG Yihong, et al. Linear spatial pyramid matching using sparse coding for image classification [C]∥Proceedings of the 2009
IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2009: 1794-1801.
[10]LEE H, BATTLE A, RAINA R, et al. Efficient sparse coding algorithms [J]. Advances in Neural Information Processing Systems, 2006, 19(1): 801-808.
[11]SERRE T, WOLF L, POGGIO T. Object recognition with features inspired by visual cortex [C]∥Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2005: 994-1000.
[12]BOUREAU Y L, BACH F, LECUN Y, et al. Learning mid-level features for recognition [C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2010: 2559-2566.
(編輯 武紅江)
A Vehicle Classification Technique Based on Sparse Coding
ZHANG Peng1,CHEN Xiangjun1,2,RUAN Yaduan1,CHEN Qimei1
(1. School of Electronic Science and Engineering, Nanjing University, Nanjing 210046, China;2. School of Computer Engineering, Jiangsu University of Technology, Changzhou, Jiangsu 213001, China)
A new method based on sparse scale invariant feature transform(S-SIFT) is proposed to improve the vehicle recognition rate in environment such as low image quality. Moving objects are detected using a Gaussian mixture background subtraction model and SIFT features of the objects are calculated. Then, the sparse coding of SIFT features is obtained through L1 constraint. A max pooling strategy is introduced to reduce the dimension of the sparse coding. Finally, a linear support vector machine (SVM) is used to classify and to recognize the objects. The method solves the problems that the background modeling has a larger error rate and lacks function of vehicle classification. An application of the technique on G36 highway shows that the algorithm has an excellent result on different scenes such as low resolution, different camera angles, sleet and shade. The experimental results provide a more than 98% scene recognition rate, and a more than 89% classification accuracy rate. Moreover, the average time to process images is less than forty milliseconds, and it meets the real-time requirement. It is concluded that the proposed method is better than the SIFT and the HOG methods on both accuracy and time efficiency.
deep learning; vehicle recognition; sparse feature; scale invariant feature transform; linear support vector machine classification
2015-06-04。
張鵬(1991—),男,碩士生;陳啟美(通信作者),男,教授,博士生導(dǎo)師。
國(guó)家科技重大專項(xiàng)資助項(xiàng)目(2012ZX03005-004-003);國(guó)家自然科學(xué)基金資助項(xiàng)目(61105015)。
10.7652/xjtuxb201512022
TP391.4
A
0253-987X(2015)12-0137-07