陳一民 鄒國(guó)志 鄒一波 高雅平 趙林林
(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院 上海 200444)
基于3DKAZE通道特征的實(shí)時(shí)行人檢測(cè)
陳一民 鄒國(guó)志 鄒一波 高雅平 趙林林
(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院 上海 200444)
將二維非線性擴(kuò)散濾波方法擴(kuò)展到三維時(shí)空域,提出一種新的3DKAZE特征點(diǎn)檢測(cè)與描述方法。同時(shí)提出一種基于3DKAZE通道特征的實(shí)時(shí)行人檢測(cè)算法。利用雙目視覺的方式獲取輸入圖像對(duì)中行人的深度信息進(jìn)而排除了地面和天空等自由區(qū)域,采用HOG+LUV+3DKAZE的積分檢測(cè)算子進(jìn)行檢測(cè),最后通過訓(xùn)練得到的SoftCascade分類器對(duì)得到的描述子進(jìn)行分類,最終得到目標(biāo)行人。在Caltech、ETH、INRIA以及TUD-Brussels四個(gè)公共基準(zhǔn)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明,所提出的行人檢測(cè)算法的檢測(cè)結(jié)果在準(zhǔn)確性上達(dá)到了較好的水準(zhǔn),同時(shí)也得到了快速實(shí)時(shí)的效果。
快速行人檢測(cè) 積分通道特征 3DKAZE 雙目視覺
隨著Google、特斯拉、沃爾沃等科技公司在無人駕駛領(lǐng)域的研究,無人駕駛越來越成為一個(gè)前沿的并具有挑戰(zhàn)的領(lǐng)域。毫無疑問,如何快速地對(duì)路面物體進(jìn)行檢測(cè)感知是無人駕駛的重點(diǎn)。路面目標(biāo)物體被檢測(cè)的效率越高,車輛的“反應(yīng)”也就越快,留給車輛進(jìn)行換檔加速的時(shí)間也就越多。于此同時(shí),安全性也是無人駕駛不容重視的,如何有效地降低安全隱患從而避免無謂的事故就要求檢測(cè)效果要盡可能的準(zhǔn)確。這就需要我們?cè)谀繕?biāo)檢測(cè)算法的準(zhǔn)確性和實(shí)效性之間進(jìn)行有效地平衡。
目前,行人檢測(cè)主要受到兩個(gè)因素的影響:機(jī)器學(xué)習(xí)分類算法和設(shè)計(jì)的圖像特征表示。
從分類器的設(shè)計(jì)上大體可以分為DPM變體、Deep Networks和Decision Forests三種形式。在足夠多的特征環(huán)境下,目前還尚且沒有直接的結(jié)果表明一個(gè)特定的分類器壓迫比其他分類器更適合行人檢測(cè)。ConvNet[1]在INRIA數(shù)據(jù)集構(gòu)建一個(gè)卷積神經(jīng)網(wǎng)絡(luò),直接在原始像素值上通過自學(xué)習(xí)底層特征來泛化為高層次的特征。盡管目前尚沒有相關(guān)實(shí)驗(yàn)直接表明深度神經(jīng)網(wǎng)絡(luò)善于從行人檢測(cè)中學(xué)習(xí)特征,但許多成功的方法都使用這個(gè)架構(gòu)來構(gòu)造更高層次的特征,且實(shí)驗(yàn)結(jié)果接近了DPM和決策森林等方法[2-3]。
從選取人為設(shè)計(jì)的圖像特征表示來看,目前大部分方法關(guān)注的都是邊緣紋理、顏色通道、局部形狀信息和協(xié)方差特征信息等,而對(duì)于立體信息、光流信息以及跟蹤信息的研究還有待進(jìn)一步深入。文獻(xiàn)[4]在基于遞歸的二值圖像連通區(qū)域像素標(biāo)記算法基礎(chǔ)上,加入運(yùn)動(dòng)目標(biāo)的幾何特征,很好地實(shí)現(xiàn)了多運(yùn)動(dòng)目標(biāo)的檢測(cè)。研究表明,使用額外的信息對(duì)于提高檢測(cè)結(jié)果確實(shí)具有重要的意義,大約30%的方法都是通過在輸入圖像中增加或多樣化特征,采用更豐富和更高維度的表示來提高檢測(cè)質(zhì)量的。
在快速行人檢測(cè)方面,Benenson等[5]通過引入stixels世界模型的先驗(yàn)知識(shí)縮小目標(biāo)物體的檢測(cè)范圍。通過對(duì)地面信息進(jìn)行檢測(cè),快速地排除地面以下以及行人以上的天空區(qū)域等自由空間,縮小檢測(cè)范圍,從而起到快速檢測(cè)的效果。在目標(biāo)檢測(cè)階段,基于積分通道特征對(duì)輸入圖像進(jìn)行線性或非線性轉(zhuǎn)換,并利用積分圖快速地計(jì)算出每個(gè)通道的局部矩形區(qū)域從而生成相應(yīng)的特征信息。
在多尺度方面,傳統(tǒng)的方法是通過對(duì)圖像進(jìn)行縮放得到單模型。但是,這樣得到的最優(yōu)模型的大小很難把握,同時(shí),由于像素的離散化,小尺度的圖像會(huì)出現(xiàn)“模糊”問題,而在進(jìn)行檢測(cè)的時(shí)候也需要對(duì)輸入圖像再進(jìn)行縮放。Dollár等[6]提出一種新的方法,由于相鄰尺度之間可以相互近似,這樣我們只需對(duì)圖像縮放N/K次,并用其近似剩下的N-N/K。Benenson等[5]將Dollar的方法進(jìn)行了“逆轉(zhuǎn)”,訓(xùn)練出N/K個(gè)分類器,然后用這N/K個(gè)分類器近似余下的N-N/K個(gè)不同尺度的分類器,這樣在測(cè)試階段就不需要對(duì)輸入圖片重復(fù)縮放,從而通過這種將縮放圖片的任務(wù)從測(cè)試階段轉(zhuǎn)移到訓(xùn)練階段來達(dá)到快速檢測(cè)的效果。
本文將二維非線性擴(kuò)散濾波方法擴(kuò)展到三維時(shí)空域,提出了一種新的3DKAZE特征點(diǎn)檢測(cè)與描述方法,從而更好地適應(yīng)視頻序列。同時(shí),提出了一種基于3DKAZE通道特征的行人檢測(cè)算法,通過雙目視覺的方式獲取輸入圖像對(duì)中行人的深度信息,映射到v-disparity圖中并利用Hough線檢測(cè)到地面進(jìn)而排除了地面和天空等非目標(biāo)區(qū)域,從而縮減了行人檢測(cè)范圍。再采用HOG+LUV+3DKAZE的積分檢測(cè)算子進(jìn)行檢測(cè),最終通過訓(xùn)練得到的SoftCascade分類器對(duì)得到的描述子進(jìn)行分類,進(jìn)而獲得行人目標(biāo)。
傳統(tǒng)的高斯線性核在構(gòu)建高斯線性尺度空間的同時(shí)也破壞了圖像的邊緣細(xì)節(jié),降低了圖像的局部準(zhǔn)確率和辨別率。相比之下,KAZE[7]等非線性核方法的效果要好得多。通過非線性的擴(kuò)散濾波,KAZE特征檢測(cè)與描述算法在降噪的同時(shí)也保留了很好的目標(biāo)物體的邊緣細(xì)節(jié)。但是,KAZE特征是基于二維的空間域,這就使得KAZE方法丟失了視頻序列的時(shí)間維度信息?;诖?,本文提出了一種新的3DKAZE特征檢測(cè)和描述方法,通過非線性時(shí)空轉(zhuǎn)換來完善視頻序列中的時(shí)空信息。
1.1 非線性尺度空間的構(gòu)建
非線性擴(kuò)散濾波是由Perona等[8]提出的。通過在擴(kuò)散過程中引入電導(dǎo)率函數(shù)的概念,從而更好地適應(yīng)圖像的局部結(jié)構(gòu)來減少邊緣位置的擴(kuò)散,這就使得圖像是在一個(gè)區(qū)域內(nèi)做平滑操作而不是跨過邊界做平滑。擴(kuò)展到三維的電導(dǎo)率系數(shù)c為:
(1)
非線性擴(kuò)散方法通常都是以非線性偏微分方程的形式給出。本文擴(kuò)展的三維電導(dǎo)率系數(shù)c的非線性擴(kuò)散方程定義如下:
c(x,y,t,e)·△I+▽c·▽I
(2)
其中,div是散度算子, ▽和△分別是時(shí)空變量對(duì)應(yīng)的梯度算子和拉普拉斯算子。為了能夠維持算法得穩(wěn)定性,我們將像素級(jí)的離散尺度單元σ轉(zhuǎn)換成時(shí)間單元,即有e=σ2/2。從理論上來說,這些非線性擴(kuò)散濾波的偏微分方程式?jīng)]有解析解的。Perona等提出了一種半隱式的機(jī)制,該機(jī)制基于非線性擴(kuò)散尺度空間的框架通過加性運(yùn)算分離AOS(Additive Operator Splitting)算法來近似微分方程。
1.2 特征檢測(cè)與描述
在已構(gòu)建的三維時(shí)空非線性尺度中檢測(cè)特征點(diǎn)的想法源自于傳統(tǒng)的二維空間域特征點(diǎn)檢測(cè),目的是找到那些在視頻序列中的空間和時(shí)間維度上都發(fā)生大的變化的點(diǎn)。為了能夠快速地檢測(cè)這些興趣點(diǎn),我們計(jì)算一個(gè)尺度歸一化的時(shí)空二階Hessian矩陣的響應(yīng)值,通過在時(shí)空維度的不同閾值以及響應(yīng)值閾值來判定興趣點(diǎn)。
(3)
其中,Lxx、Lyy、Ltt分別是水平、垂直方向、時(shí)間維度的二階導(dǎo)數(shù),而Lxy、Lxt、Lyt分是三個(gè)維度的混合二階導(dǎo)數(shù)。假設(shè)H(·;δ2)的三個(gè)特征值分別為λ1、λ2、λ3,(λ1<λ2<λ3),計(jì)算擴(kuò)展的時(shí)空角點(diǎn)Hessian響應(yīng)值為:
H=det(H)-ktrace3(H)
=λ1λ2λ3-k(λ1+λ2+λ3)3
(4)
為了得到一個(gè)具有旋轉(zhuǎn)不變性的描述子,我們給興趣點(diǎn)的鄰域指定一個(gè)主方向。通過計(jì)算時(shí)空維度方向的Haar小波響應(yīng) ,Lx、Ly、Lt。對(duì)應(yīng)的時(shí)空梯度表示如下:
(5)
到目前為止,每個(gè)像素點(diǎn)具有三個(gè)變量來表示梯度在時(shí)空維度上的幅值和方向了。如圖1所示,在以興趣點(diǎn)為中心,半斤為6δ的球形區(qū)域內(nèi),我們均勻地將球體分成20等份。對(duì)于其中的每一塊,計(jì)算以興趣點(diǎn)為中心呈高斯分布計(jì)算分權(quán)的小波響應(yīng),響應(yīng)結(jié)果以平行于時(shí)空維度軸向的Haar小波Lx、Ly、Lt的向量來表示。其中最長(zhǎng)的向量就是興趣點(diǎn)的主向量。最終可以得到描述子v:
v=(∑Lx,∑Ly,∑Lt,∑Lxx,∑Lyy, ∑Ltt,∑Lxy,∑Lxt,∑Lyt)
圖1 主方向計(jì)算示意圖
傳統(tǒng)的圖像深度圖目標(biāo)檢測(cè)是通過立體圖像對(duì)建立一個(gè)密集的深度圖,該深度圖可以被用作特征檢測(cè)以增強(qiáng)檢測(cè)質(zhì)量,或者被用來減少搜索空間以提高檢測(cè)速度。如圖2所示。
圖2 傳統(tǒng)的圖像深度圖計(jì)算過程
由于傳統(tǒng)的圖像深度圖計(jì)算的高復(fù)雜度成為了快速檢測(cè)過程的一個(gè)瓶頸,并且密集深度圖的信息遠(yuǎn)遠(yuǎn)多于我們需要的信息。而stixels世界模型可以對(duì)真實(shí)世界進(jìn)行簡(jiǎn)化,它假設(shè)地面都是局部平坦的,并且所有的物體都可以被描述成一個(gè)平的“sticks”,垂直于地面,每個(gè)這樣的垂直的sticks對(duì)應(yīng)著圖片中的一列,被稱作stixels[5]。stixels世界模型通過利用幾何信息計(jì)算出地面上的物體區(qū)域,也就是物體的最小世界模型。通過stixels世界模型的先驗(yàn)知識(shí),我們可以大大縮小目標(biāo)行人的搜索范圍。
stixels世界模型會(huì)假設(shè)地面是局部平坦的,并且地面上的目標(biāo)物體的高度是限制在一定的范圍,通常在0.5~3 m。從模型簡(jiǎn)化角度來說,stixels世界模型可以分解成三個(gè)部分:獲取地平面、計(jì)算地平面上行人間的距離、計(jì)算目標(biāo)行人的高度。
2.1 地平面評(píng)估
stixels世界模型為路平面提供了很好的幾何表示[12],它對(duì)路平面上的障礙物的相對(duì)高度以及立體傳感器相對(duì)于路面的俯仰角都給出了評(píng)估,進(jìn)而對(duì)公路縱剖面圖進(jìn)行分析,抽取出路平面上的目標(biāo)物體。
通過雙目立體圖像對(duì),可以計(jì)算得到視差圖I△。如圖3所示,定義視差圖I△的函數(shù)H,有H(I△)=Iv△,其中H對(duì)圖像中某一行中具有相同的視差進(jìn)行累積。我們稱Iv△為v視差圖(v-disparity image)。對(duì)于圖像中的第i行來說,II△中的點(diǎn)M的橫坐標(biāo)uM就對(duì)應(yīng)著視差△M,它的灰度級(jí)IM則對(duì)應(yīng)著第i行具有相同視差△M的像素點(diǎn)數(shù)。所以,通過視差圖I△,就可以沿著v軸計(jì)算出v視差圖Iv△。
圖3 v-disparity圖計(jì)算過程
2.2stixels距離和高度評(píng)估
地平面的評(píng)估是通過計(jì)算水平軸方向上投影的損失量。獲取stixels的深度信息從而得到stixels之間的距離信息就需要沿著垂直方向投影,并計(jì)算垂直方向的損失量。對(duì)于每個(gè)u坐標(biāo)和可能的視差d,通過計(jì)算stixels損失量cs(u,d),損失值越小則stixels出現(xiàn)在(u,d)位置的可能性越大。cs(u,d)是有兩部分組成的:co(u,d)的物體損失和cg(u,d)的地面損失,即cs(u,d)=co(u,d)+cg(u,d),而:
(6)
其中,|v|表示圖像的行數(shù)。通過二維動(dòng)態(tài)規(guī)劃可以計(jì)算出每個(gè)stixels的視差[5]:
(7)
相比較圖像強(qiáng)度,SAD和SSD雖然對(duì)光源的一致性依賴性比較強(qiáng),邊緣方向?qū)獾拿舾行砸惨煤芏?,但是面?duì)遮擋問題或者路面潮濕出現(xiàn)反射時(shí),檢測(cè)就會(huì)出現(xiàn)嚴(yán)重誤差。所以在計(jì)算損失量的時(shí)候添加了一項(xiàng)平滑項(xiàng),有效地解決部分遮擋問題。由于損失量cm(u,v,d)計(jì)算出后都被保存在內(nèi)存中,并且這個(gè)步驟是基于像素計(jì)算的,所以可以很好地實(shí)現(xiàn)并行計(jì)算,從而達(dá)到快速檢測(cè)的效果。圖4給出了實(shí)驗(yàn)的結(jié)果示意圖。
圖4 stixels距離計(jì)算以及目標(biāo)的高度評(píng)估
積分通道特征ICF(Integral Channel Features)是指通過對(duì)輸入圖片進(jìn)行非線性轉(zhuǎn)換計(jì)算得到多個(gè)圖像通道[6],然后在每個(gè)通道上使用局部矩形區(qū)域和的特征抽取,這些局部和以及特征可以通過積分圖像得到有效的計(jì)算,其中包括Haar小波、泛化特征以及局部直方圖等,我們把這些特征叫做積分通道特征。
對(duì)于輸入圖像I來說,相應(yīng)的通道就是原圖像的一個(gè)映射。使用符號(hào)Ω表示通道生成函數(shù),記C=Ω((I)。那么最普通的通道就是通道C=Ω(I)=I的一張?jiān)瓐D像的灰色圖;類似的,對(duì)于彩色圖中的每個(gè)顏色通道都可以作為一個(gè)特征通道;其他的通道可以通過對(duì)原圖像進(jìn)行非線性轉(zhuǎn)化計(jì)算得到。大量實(shí)驗(yàn)結(jié)果表明,積分通道特征結(jié)合標(biāo)準(zhǔn)的Boosting分類算法對(duì)行人檢測(cè)的效果要好于其他方法。因?yàn)槠渚哂幸韵聝?yōu)點(diǎn):(1) 不同的通道信息之間具有高度異構(gòu)性,所以ICF天生具有整合異構(gòu)信息的能力;(2) 只需極少個(gè)參數(shù),所以對(duì)參數(shù)設(shè)置沒有那么敏感;(3) 檢測(cè)階段考慮到更加準(zhǔn)確的空間位置;
本文采用的是HOG+LUV+3DKAZE等11個(gè)積分通道特征,即HOG量化后的6個(gè)梯度方向、1個(gè)梯度幅值,LUV 3個(gè)顏色通道以及3DKAZE局部特征通道信息。從某種意義上來說,積分通道特征可以被看作是經(jīng)典的VJ和DT(HOG+SVM)的結(jié)合。
在分類器的設(shè)計(jì)方面,平衡分類器的準(zhǔn)確性和實(shí)時(shí)性一直是研究的難點(diǎn)。一個(gè)常用的方法就是Cascade分類器:將復(fù)雜的分類器分解成一系列二分類的子分類器,形成了這種分類器中的決策樹,通過由粗到細(xì)的逐步分解,以減少?gòu)?fù)雜度。但是Cascade在通過二分類的子分類器的時(shí)候并沒有考慮到樣本在當(dāng)前子分類器中表現(xiàn)的好壞,而且如果樣本在任一子分類器中沒有通過的話,該樣本就會(huì)被丟棄。對(duì)于一個(gè)10個(gè)階段的Cascade分類器來說,如果想要在假陽(yáng)性(false positive rate)為下達(dá)到90%的檢測(cè)率,則每個(gè)子分類器階段都要達(dá)到99%的檢測(cè)率。鑒于此,SoftCascade訓(xùn)練出的是一個(gè)單一的由T個(gè)特征組成的持續(xù)的階段,分類器的結(jié)果形式如下:
(8)
通過計(jì)算部分和,構(gòu)成每個(gè)樣本的特征“軌跡”,為不同特征之間形成一個(gè)很強(qiáng)的統(tǒng)計(jì)獨(dú)立性。在“軌跡”線上的每個(gè)特征點(diǎn)設(shè)置閾值,如果累積和小于閾值,該樣本就被判定為負(fù)樣本。而“軌跡”線上的每個(gè)輸出函數(shù)都是通過AdaBoost選擇的,輸出函數(shù)對(duì)應(yīng)的權(quán)重代表著這個(gè)弱分類器的重要性。
為了實(shí)現(xiàn)實(shí)時(shí)行人檢測(cè),我們利用stixels世界模型的先驗(yàn)信息,縮小視頻的檢測(cè)范圍,從而加快檢測(cè)速度。在模型分類上,SoftCascade分類器能夠有效地終止那些不可能的檢測(cè),減少計(jì)算量,提高了檢測(cè)速度。本文實(shí)現(xiàn)了兩種檢測(cè)方法:CPU版和GPU加速版。實(shí)驗(yàn)環(huán)境是在一臺(tái)高性能圖形工作站中進(jìn)行的,配有i7-3770K的CPU、24 GB的RAM、Nvidia Quadro 4 000 的專業(yè)顯卡。在Caltech數(shù)據(jù)集中的整個(gè)訓(xùn)練階段(CPU+GPU)大約花了5個(gè)小時(shí)。GPU加速運(yùn)行的測(cè)試下,檢測(cè)速率可達(dá)到100 fps。
4.1 公共數(shù)據(jù)集
過去幾年中,很多公共的行人檢測(cè)數(shù)據(jù)集被提了出來,其中最常用的幾個(gè)有:INRIA,ETH以及Caltech。INRIA是最久的一個(gè)數(shù)據(jù)集,相對(duì)來說其圖片數(shù)量要少,但是它的優(yōu)點(diǎn)是在不同場(chǎng)景下(城市、沙灘、高山等)對(duì)行人的標(biāo)記都有很高的準(zhǔn)確率,這也是其經(jīng)常被用來作為訓(xùn)練集的又一原因。ETH規(guī)模相對(duì)來說屬于中等。除了INRIA,其他的數(shù)據(jù)集都是通過視頻的方式采集的,所以當(dāng)考慮光流信息的時(shí)候很有用處。在這些數(shù)據(jù)集中,最流行的要數(shù)Caltech這個(gè)基準(zhǔn)數(shù)據(jù)集了。目前,大部分視頻檢測(cè)方法都在Caltech上進(jìn)行評(píng)估。
4.2 模型訓(xùn)練
本文的方法是基于Benenson的VeryFast檢測(cè)子,VeryFast的思想是通過計(jì)算圖像矩形區(qū)域的特征響應(yīng)的積分通道圖來實(shí)現(xiàn)的。在這些矩形特征上構(gòu)建了一系列兩層的決策樹,其中每棵樹上有三個(gè)樹樁分類器,在這2 000個(gè)二層的決策樹的弱分類器中通過Boosting進(jìn)行線性加權(quán)得到一個(gè)強(qiáng)分類器。這些決策樹和他們的權(quán)值都是通過離散AdaBoost得到,特征是從30 000個(gè)矩形池中隨機(jī)選取的。訓(xùn)練剛開始是隨機(jī)選取5 000個(gè)負(fù)樣本,然后boostraps兩次,每次增加額外的5 000個(gè)負(fù)樣本。整個(gè)訓(xùn)練和測(cè)試都是在Caltech數(shù)據(jù)集下進(jìn)行的。
圖5中,(a) 是所有特征中的權(quán)重最大的前10個(gè)的特征在矩形區(qū)域的局部反應(yīng),不同顏色表示正方形的面積是其權(quán)重的反應(yīng);(b) 顯示的是HOG+LUV+3DKAZE的11個(gè)通道特征在最后訓(xùn)練模型中所占特征比例圖。
圖5 特征分布情況
4.3 檢測(cè)結(jié)果
為了對(duì)不同的目標(biāo)檢測(cè)子進(jìn)行評(píng)估,常用的是從兩個(gè)方面進(jìn)行評(píng)估:基于窗口的檢測(cè)子用的是DET(Detection Error Tradeoff)和ROC(Receiver Operating Characteristics)曲線對(duì)分類器性能進(jìn)行量化。而從整體上來說,目標(biāo)檢測(cè)子是通過Precision-Recall曲線來衡量檢測(cè)子對(duì)目標(biāo)位置的檢測(cè)準(zhǔn)確率。不管從什么角度來說,檢測(cè)子都會(huì)得到一個(gè)置信度值,通過從一個(gè)很低的可能值開始,評(píng)估得到參數(shù),如假陽(yáng)性數(shù)(False Positives)、召回率(Recall Rate)或者準(zhǔn)確率(Precision Rate),然后逐步增加閾值直到達(dá)到可能的最高值,這樣就得到一個(gè)曲線。
實(shí)驗(yàn)中采用DET評(píng)估方法。DET衡量的是檢測(cè)結(jié)果與假陽(yáng)性的比例,在log-log尺度下畫出一條MR(Miss Rate,沿著x軸方向)與FPPI(False Positives Per Image,沿著y軸方向)的對(duì)應(yīng)曲線,其中MR值越小,表示分類器效果越好。其值包含的信息與ROC曲線相同,其優(yōu)點(diǎn)是可以讓小概率FPPI的辨別率更容易,尤其是在滑動(dòng)窗口數(shù)量在1 000~10 000級(jí)別之間的時(shí)候就顯得更有必要了。比如通常會(huì)使用的假陽(yáng)性作為檢測(cè)結(jié)果的參考點(diǎn)。
在數(shù)據(jù)集的選用上,我們分別在Caltech、ETH以及INRIA三個(gè)基準(zhǔn)數(shù)據(jù)集中進(jìn)行了測(cè)試。并將結(jié)果分別與ConvNet[1]、VeryFast[5]、FPDW[6]、RandForest[9]、Franken[10]、WordChannels[11]、MultiFtr+Motion[12]、JointDeep[13]、InformedHaar[14]、ACF[15]等檢測(cè)子進(jìn)行了比較。從圖6可以看出,本節(jié)中提出的加入3DKAZE新特征通道后的目標(biāo)檢測(cè)算法的檢測(cè)結(jié)果達(dá)到了很好的水準(zhǔn)。圖7給出了檢測(cè)算法在CPU和GPU下的檢測(cè)結(jié)果。
(a) Caltech
(b) ETH
(c) INRIA圖6 不同檢測(cè)子與本文的檢測(cè)子的比較結(jié)果
圖7 檢測(cè)結(jié)果示意圖
本文提出了一種基于3DKAZE通道特征的行人檢測(cè)算法,在stixels世界模型中利用雙目視覺將輸入圖像對(duì)映射到v-disparity圖中進(jìn)而排除地面和天空等非目標(biāo)區(qū)域,從而縮減了行人檢測(cè)范圍,并采用HOG+LUV+3DKAZE的積分檢測(cè)算子進(jìn)行檢測(cè),最終通過訓(xùn)練得到的SoftCascade分類器對(duì)得到的描述子進(jìn)行分類檢測(cè)。
本文提出的檢測(cè)算法是通過添加人為設(shè)計(jì)的新特征來提高檢測(cè)精度的。相比之下,深度神經(jīng)網(wǎng)絡(luò)通過對(duì)原始像素值進(jìn)行特征抽取從而進(jìn)行自學(xué)習(xí)底層特征以泛化為高層次的特征,盡管目前尚沒有確切的證據(jù)表明深度神經(jīng)網(wǎng)絡(luò)善于從行人檢測(cè)中學(xué)習(xí)特征,但是深度學(xué)習(xí)在探索到底是什么讓現(xiàn)在這些人為設(shè)計(jì)的特征具有很好的表征特性方面具有重大意義,進(jìn)而設(shè)計(jì)出更好的特征。
[1] Russakovsky O, Deng J, Su H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[2] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[3] Girshick R, Iandola F, Darrell T, et al. Deformable part models are convolutional neural networks[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 437-446.
[4] 崔金魁,宋旭,楊揚(yáng).視頻監(jiān)控中多運(yùn)動(dòng)目標(biāo)的檢測(cè)與跟蹤[J].計(jì)算機(jī)應(yīng)用與軟件, 2013, 30(3): 278-279,290.
[5] Benenson R, Mathias M, Timofte R, et al. Pedestrian detection at 100 frames per second[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, IEEE, 2012: 2903-2910.
[6] Dollár P, Belongie S, Perona P. The Fastest Pedestrian Detector in the West[C]//Proceedings of the British Machine Vision Conference, 2010: 1-11.
[7] Alcantarilla P F, Bartoli A, Davison A J. KAZE features[C]//Proceedings of the 12thEuropean Conference on Computer Vision. Springer, 2012: 214-227.
[8] Perona P, Malik J. Scale-space and edge detection using anisotropic diffusion[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990, 12(7): 629-639.
[9] Marin J, Vázquez D, López A M, et al. Random forests of local experts for pedestrian detection[C]//Computer Vision (ICCV), 2013 IEEE International Conference on, IEEE, 2013: 2592-2599.
[10] Mathias M, Benenson R, Timofte R, et al. Handling occlusions with franken-classifiers[C]//Computer Vision (ICCV), 2013 IEEE International Conference on, IEEE, 2013: 1505-1512.
[11] Costea A D, Nedevschi S. Word channel based multiscale pedestrian detection without image resizing and using only one classifier[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, IEEE, 2014: 2393-2400.
[12] Ouyang W, Wang X. Single-pedestrian detection aided by multi-pedestrian detection[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, IEEE, 2013: 3198-3205.
[13] Ouyang W, Wang X. Joint deep learning for pedestrian detection[C]//Computer Vision (ICCV), 2013 IEEE International Conference on, IEEE, 2013: 2056-2063.
[14] Zhang S, Bauckhage C, Cremers A B. Informed haar-like features improve pedestrian detection[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, IEEE, 2014: 947-954.
[15] Dollár P, Appel R, Belongie S, et al. Fast feature pyramids for object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8): 1532-1545.
REAL TIME PEDESTRIAN DETECTION BASED ON 3DKAZE CHANNEL FEATURE
Chen Yimin Zou Guozhi Zou Yibo Gao Yapin Zhao Linlin
(CollegeofComputerEngineeringandScience,ShanghaiUniversity,Shanghai200444,China)
A new 3DKAZE feature point detection and description method is proposed by extending the two-dimensional nonlinear diffusion filtering method to three-dimensional space-time domain. At the same time, a real-time pedestrian detection algorithm based on 3DKAZE channel feature is proposed. Using binocular vision to obtain the depth of pedestrian information in the input image and then exclude the free area of the ground and the sky, and using HOG + LUV + 3DKAZE integral detection operator for detection. Finally, we classify the descriptors by training SoftCascade classifier, and finally get the target pedestrians. The experimental results in Caltech, ETH, INRIA and TUD-Brussels four common benchmark datasets show that the pedestrian detection algorithm proposed in this paper achieves a good level of accuracy in the detection results, and also has a fast real-time effect.
Fast pedestrian detection Integral channel feature 3DKAZE Binocular vision
2016-03-15。上海市國(guó)際科技合作基金項(xiàng)目(12510708400);上海市自然科學(xué)基金項(xiàng)目(14ZR1419700)。陳一民,教授,主研領(lǐng)域:網(wǎng)絡(luò)與多媒體技術(shù),計(jì)算機(jī)控制技術(shù)。鄒國(guó)志,碩士生。鄒一波,博士生。高雅平,碩士生。趙林林,碩士生。
TP391
A
10.3969/j.issn.1000-386x.2017.05.022