孫文靜 朱文球 王業(yè)祥 劉少林
(湖南工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 湖南 株洲 412007)
目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)非常重要的突破,也是許多研究學(xué)者現(xiàn)在的主要研究方向。目前,目標(biāo)跟蹤已經(jīng)在智能監(jiān)控、智能交通、人機(jī)交互、醫(yī)學(xué)圖像等方面得到廣泛應(yīng)用。目標(biāo)跟蹤問(wèn)題可以被理解為在一個(gè)場(chǎng)景中估計(jì)目標(biāo)的運(yùn)動(dòng)軌跡,然而在跟蹤過(guò)程中,目標(biāo)可能會(huì)發(fā)生遮擋、尺度、形狀等變化,對(duì)于場(chǎng)景環(huán)境,如光照變化、噪聲、復(fù)雜背景等也會(huì)影響目標(biāo)跟蹤的魯棒性和準(zhǔn)確性。
在傳統(tǒng)的目標(biāo)跟蹤方法中,大多采用顏色、紋理、HOG、Harr、SIFT、SURF等單一特征進(jìn)行目標(biāo)建模,或者使用多種特征融合進(jìn)行目標(biāo)建模,從而使提取的目標(biāo)特征更具有表達(dá)能力、抗變性和可區(qū)分性。針對(duì)目標(biāo)表觀變化和遮擋問(wèn)題,在文獻(xiàn)[1-2]中又引入了分塊思想。雖然基于傳統(tǒng)特征的目標(biāo)跟蹤方法已取得一定的成績(jī),但是以上特征都是人工設(shè)計(jì),有時(shí)只能適用某一特定目標(biāo)的跟蹤,如Harr特征適用于人臉檢測(cè),HOG特征適用于行人檢測(cè);其次,只提取目標(biāo)的一種或幾種低層特征,并不能較全面地表示目標(biāo)的特性;再次,如提取SIFT特征、多種融合特征,計(jì)算比較復(fù)雜,在一定程度上會(huì)降低目標(biāo)跟蹤的實(shí)時(shí)性。2006年,Hinton等[3]的突破性進(jìn)展表明:多層神經(jīng)網(wǎng)絡(luò)模型有很強(qiáng)的特征學(xué)習(xí)能力,深度學(xué)習(xí)模型學(xué)習(xí)到的特征數(shù)據(jù)對(duì)原始數(shù)據(jù)有更本質(zhì)的代表性。近年來(lái)深度學(xué)習(xí)已被廣泛地應(yīng)用到語(yǔ)音識(shí)別、圖像識(shí)別和自然語(yǔ)言處理領(lǐng)域,通過(guò)神經(jīng)網(wǎng)絡(luò)能夠從數(shù)據(jù)中自動(dòng)學(xué)習(xí)更抽象、更豐富、表達(dá)能力更強(qiáng)的高層特征。2013年,Wang等[4]把深度學(xué)習(xí)成功應(yīng)用到了目標(biāo)跟蹤中,并取得較好的成績(jī)。其后,Wang等[5]通過(guò)分析低層網(wǎng)絡(luò)特征包含更多目標(biāo)細(xì)節(jié),高層網(wǎng)絡(luò)特征偏向目標(biāo)整體語(yǔ)義信息的特點(diǎn),利用全卷積網(wǎng)絡(luò)(VGG-16)提取的高低層特征實(shí)現(xiàn)了目標(biāo)跟蹤 ,在一定程度上解決了目標(biāo)漂移問(wèn)題,同時(shí)對(duì)目標(biāo)本身的形變具有更加魯棒的效果。針對(duì)目標(biāo)與背景出現(xiàn)角色轉(zhuǎn)換的問(wèn)題,Nam等[6]提出了MDNet。Cui等[7]利用多向神經(jīng)網(wǎng)絡(luò)來(lái)建模和挖掘?qū)φw跟蹤有用的可靠目標(biāo)部分,最終解決預(yù)測(cè)誤差累計(jì)和傳播導(dǎo)致的跟蹤漂移問(wèn)題。因此,本文也將采用卷積網(wǎng)絡(luò)實(shí)現(xiàn)特征提取。同時(shí)受到簽名認(rèn)證連體網(wǎng)絡(luò)[8]的啟發(fā),并且在文獻(xiàn)[9-10]中,也都采用了類似的網(wǎng)絡(luò)結(jié)構(gòu),在人臉檢測(cè)與圖片相似度判別方面有一定的優(yōu)勢(shì)?;谶@種思想,本文的網(wǎng)絡(luò)結(jié)構(gòu)也將使用連體網(wǎng)絡(luò),一個(gè)用于正樣本的特征提取,另一個(gè)用于視頻幀的特征提取。在文獻(xiàn)[11-13]中,采用正向稀疏約束選取候選目標(biāo),雖然提高了性能,大量的正負(fù)模板增加了計(jì)算量。本文加入逆向稀疏建模思想,對(duì)候選樣本進(jìn)行選擇,減少了模板數(shù)量,從而實(shí)現(xiàn)了較為魯棒的目標(biāo)跟蹤。
在視覺目標(biāo)跟蹤中,最常采用例子濾波跟蹤框架預(yù)測(cè)下一幀目標(biāo)和更新目標(biāo)位置。設(shè)xt表示t時(shí)刻的目標(biāo)狀態(tài),yt表示t時(shí)刻的視頻幀,y1:t表示初始1~t時(shí)刻所有的視頻幀。目標(biāo)跟蹤的含義是利用直到當(dāng)前時(shí)刻所有視頻幀估計(jì)出當(dāng)前時(shí)刻目標(biāo)狀態(tài)的后驗(yàn)分布,即p(xt|y1:t)。粒子濾波框架主要包含預(yù)測(cè)和更新兩步:
1) 預(yù)測(cè)階段:利用上一時(shí)刻視頻幀的狀態(tài)對(duì)當(dāng)前時(shí)刻目標(biāo)狀態(tài)進(jìn)行估計(jì):
(1)
式中:p(xt|xt-1)描述了目標(biāo)狀態(tài)在相鄰時(shí)刻之間的轉(zhuǎn)移,稱為轉(zhuǎn)移分布。
2) 更新階段:利用yt對(duì)后驗(yàn)分布p(xt|y1:t)進(jìn)行更新:
(2)
式中:p(yt|xt)代表當(dāng)前給定目標(biāo)狀態(tài)時(shí)的概率,成為似然分布。
(3)
設(shè)模板集合T={ti∈Rd×1},i=1,2,…,m,d表示模板圖像的特征維數(shù),m表示模板個(gè)數(shù)(包含正負(fù)模板)。在目標(biāo)跟蹤過(guò)程中,粒子濾波算法會(huì)產(chǎn)生許多粒子,也就是候選樣本集Y={yj∈Rd×1},j=1,2,…,n,n表示粒子個(gè)數(shù)。正向稀疏表示思想就是用模板集合T中的幾個(gè)模板來(lái)線性表示每一個(gè)候選樣本yj,即yj=Tα。為了保證α的稀疏性,通過(guò)添加稀疏約束條件進(jìn)行限制,即求解如下表達(dá)式:
(4)
式中:‖·‖2、‖·‖1分別表示L2范數(shù)和L1范數(shù),μ是正則化參數(shù),α是稀疏相關(guān)系數(shù),表示所有模板與候選樣本yj的相關(guān)性,系數(shù)值越大,相關(guān)性越大。
本文采用五層卷積神經(jīng)網(wǎng)絡(luò),在每一層卷積操作后通過(guò)非飽和的ReLU激活函數(shù)進(jìn)行激活,在第一、第二層的激活后又添加了池化操作,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)輸入圖片可以是灰度圖片,也可以是彩色圖片,最終網(wǎng)絡(luò)輸出大小為6×6的256維的特征集。
圖1 卷積網(wǎng)絡(luò)結(jié)構(gòu)
在粒子濾波跟蹤算法[11-13]中,經(jīng)常通過(guò)求解如下的L1范式最小化問(wèn)題,對(duì)粒子進(jìn)行非負(fù)稀疏約束表示,從而評(píng)估每個(gè)粒子的重要性。但是對(duì)于模板集除了需要包含正模板,還需要引入負(fù)模板,以此來(lái)避免跟蹤目標(biāo)漂移,并且大量的L1范式計(jì)算將會(huì)降低目標(biāo)跟蹤的時(shí)效性。
受到正向稀疏理論的啟發(fā),本文算法采用逆向稀疏思想判斷候選樣本與模板的相關(guān)性,即用候選樣本稀疏表示模板,具體表示過(guò)程如圖2所示。目標(biāo)模板為要跟蹤的目標(biāo)(正模板),在候選樣本集中也只有與目標(biāo)相近的候選樣本才和正模板有較大的相關(guān)性。因此上述逆向稀疏理論可轉(zhuǎn)化為如式(5)的求解問(wèn)題。相比正向稀疏表示,逆向稀疏表示每一幀也只需對(duì)一個(gè)模板進(jìn)行求解,減少了大量計(jì)算。
(5)
圖2 逆向稀疏建模示意圖
經(jīng)過(guò)卷積網(wǎng)絡(luò)處理后輸出的特征是高維的,為了簡(jiǎn)化計(jì)算,將模板和候選樣本集平鋪成矩陣再進(jìn)行稀疏約束優(yōu)化求解。
上述逆向稀疏求解將得到每種特征對(duì)應(yīng)的稀疏系數(shù),那么模板的重建殘差為:
(6)
(7)
在跟蹤過(guò)程中,目標(biāo)會(huì)出現(xiàn)姿態(tài)、尺寸、遮擋等變化,如果模板保持不變,會(huì)出現(xiàn)目標(biāo)漂移或者丟失的現(xiàn)象,所以很有必要采用某種模板更新策略。對(duì)于模板更新太過(guò)頻繁而導(dǎo)致累積誤差造成的跟蹤漂移,Mei等[14]根據(jù)候選樣本與模板的相似性更新模板;Wei等[15]在此基礎(chǔ)上,對(duì)負(fù)模板更新加以距離限制,即遠(yuǎn)離目標(biāo)區(qū)域8像素距離;Zhuang等[11]利用歐式距離來(lái)判別是否更新正模板。
本文算法采用模板重建殘差來(lái)判斷是否更新模板。在上一節(jié)中得到每一維特征的重建殘差,對(duì)應(yīng)特征重建殘差向量為E=[e1,e2,…,e256],如果誤差小于一定閾值θ,則用最佳候選粒子對(duì)應(yīng)的特征進(jìn)行替換;否則保持不變。由于模板特征維數(shù)高,在不斷更新的過(guò)程中,既可能保留了之前視頻幀的目標(biāo)特征,也可包含最近視頻幀的特征,對(duì)目標(biāo)的本身變化具有一定的魯棒性。
1) 輸入:當(dāng)前幀:Ft
2) 初始化,將第一幀的粒子集和手動(dòng)標(biāo)注的目標(biāo)調(diào)整為127×127大小圖片后送入卷積網(wǎng)絡(luò),進(jìn)行特征提取,其中目標(biāo)特征集直接作為正模板。
4) 利用式(5)進(jìn)行對(duì)特征平鋪矩陣求解稀疏系數(shù)矩陣β。
5) 利用殘差式(6)評(píng)估目標(biāo)重建誤差。
6) 通過(guò)最大后驗(yàn)概率和式(7)估計(jì)出最佳粒子。
7) 模板更新:如果模板每一維特征重建誤差小于一定閾值θ,則用最佳粒子對(duì)應(yīng)維數(shù)的特征進(jìn)行替換;否則,保持不變。
8) 保留當(dāng)前幀的目標(biāo)位置和更新后的目標(biāo)模板。
9) 循環(huán)3~8操作,直到視頻結(jié)束。
10) 輸出整個(gè)視頻的目標(biāo)跟蹤結(jié)果。
實(shí)驗(yàn)中以MATLAB 2014b為編程工具,在Ubunhtu 16.04操作系統(tǒng)環(huán)境下進(jìn)行實(shí)驗(yàn),為了加速計(jì)算,本機(jī)配置了獨(dú)立顯卡(Quadro K1200,顯存256 MB)。本文算法中的參數(shù)λ值為0.25,θ為0.6。測(cè)試視頻數(shù)據(jù)集來(lái)源于http://cvlab.hanyang.ac.kr/tracker_benchmark/datasets.html,主要選取了包含復(fù)雜背景、遮擋、快速運(yùn)動(dòng)和光線變化環(huán)境因素的數(shù)據(jù)集:Skating1、Freeman4、Faceocc1、MotorRolling、Car4、Shaking。實(shí)驗(yàn)分析部分采用其他5種跟蹤算法與本文算法在定性和定量?jī)蓚€(gè)標(biāo)準(zhǔn)上評(píng)估。對(duì)比方法包括基于核的在線結(jié)構(gòu)輸出預(yù)測(cè)的Struck[16]算法、基于增強(qiáng)分類器的OAB[17]算法、基于區(qū)域積分直方圖的Frag[18]算法、采用加速梯度方法的最小化L1范數(shù)的L1APG[19]跟蹤算法,以及跟蹤學(xué)習(xí)檢測(cè)的TLD[20]算法。
圖3、圖4、圖5分別展示了5種跟蹤算法與本文算法在復(fù)雜背景、遮擋、快速運(yùn)動(dòng)和光線變化環(huán)境下的跟蹤對(duì)比。
圖3 光線變化因素
圖4 速度變化因素
圖5 復(fù)雜背景和遮擋因素
1) 光線變化。圖3主要展示了車輛經(jīng)過(guò)鐵橋時(shí)光線從亮到暗再?gòu)陌档搅恋母櫺ЧO聢D182幀和187幀是亮度從量到暗的跟蹤效果,F(xiàn)rag算法發(fā)生了漂移,后續(xù)幀直接丟失目標(biāo)。218幀和236幀展現(xiàn)了從暗到亮的跟蹤效果,OAB、Struck、L1APG均出現(xiàn)漂移。雖然TLD算法也能夠跟蹤到目標(biāo),但相較于本文算法,精確度不高。
2) 目標(biāo)快速運(yùn)動(dòng)。如圖4所示,開始跟蹤效果都比較好,在28幀目標(biāo)開始下降,在接下來(lái)經(jīng)過(guò)35幀、39幀時(shí),OAB算法一直都能捕捉到目標(biāo),相對(duì)于另外5種方法,本文算法的性能較好。接下來(lái)隨著目標(biāo)的快速前進(jìn)和上升,本文算法也能夠取得較好的跟蹤效果。在88幀目標(biāo)到達(dá)最高點(diǎn)時(shí),只有OAB和本文算法依然可跟蹤到目標(biāo)。
3) 目標(biāo)在復(fù)雜背景情況下被遮擋。如圖5所示,在第53幀時(shí),由于復(fù)雜背景的干擾,OAB和Frag算法已丟失跟蹤目標(biāo),TLD算法發(fā)生了目標(biāo)漂移,Struck、L1APG和本文算法表現(xiàn)良好。在第82幀目標(biāo)發(fā)生部分遮擋時(shí),Struck和TLD算法也出現(xiàn)了丟失目標(biāo)的現(xiàn)象,本文算法依然能夠捕捉到跟蹤目標(biāo)。不過(guò)在240幀時(shí),本文算法也出現(xiàn)了跟蹤位置輕微偏離,但當(dāng)目標(biāo)完全顯露時(shí),跟蹤位置就很快回歸到了目標(biāo)位置。
為了更具體地衡量跟蹤算法的性能,本節(jié)既采用中心位置誤差和重疊率對(duì)6種跟蹤方法進(jìn)行定量分析,又采用在時(shí)間魯棒性評(píng)估(TRE)和空間魯棒性評(píng)估(SRE)測(cè)試跟蹤器的魯棒性。
1) 中心誤差為各跟蹤算法估計(jì)的中心位置與手工標(biāo)注的真實(shí)目標(biāo)中心的歐氏距離,距離越小,表明跟蹤效果越好。重疊率為跟蹤框區(qū)域和真實(shí)目標(biāo)區(qū)域的交集比上它們的并集,其值越大,則說(shuō)明跟蹤結(jié)果與目標(biāo)真實(shí)位置越接近。表1和表2分別描述了平均中心誤差和平均中心率。從結(jié)果對(duì)比發(fā)現(xiàn),本文算法在以上兩種衡量標(biāo)準(zhǔn)下整體優(yōu)于其他5種跟蹤算法,進(jìn)一步表明本文算法的跟蹤性能較好。
表1 6種跟蹤算法的平均重疊率
表2 6種跟蹤算法的平均中心定位誤差(像素個(gè)數(shù))
2) 時(shí)間魯棒性評(píng)估是從不同視頻幀開始跟蹤,統(tǒng)計(jì)其跟蹤結(jié)果的重疊率和中心誤差率??臻g魯棒性評(píng)估是通過(guò)偏移或縮放目標(biāo)真實(shí)位置邊框來(lái)抽取初始化的邊界框,然后對(duì)跟蹤結(jié)果進(jìn)行評(píng)估。從圖6和圖7的曲線可以看出,本文算法在不同情況下均表現(xiàn)出較好的跟蹤效果。
圖6 時(shí)間魯棒性評(píng)估曲線圖
圖7 空間魯棒性評(píng)估曲線
在目標(biāo)跟蹤過(guò)程中,抗變性的目標(biāo)表示對(duì)跟蹤效果有很大的影響,本文采用卷積神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的特征提取方法,利用高層特征的語(yǔ)義性、抽象性來(lái)提高目標(biāo)表示的抗變性。同時(shí),引入逆向稀疏思想,只用一個(gè)正模板進(jìn)行L1范式稀疏約束求解,直接選取最佳候選樣本。實(shí)驗(yàn)結(jié)果表明,在光線變化、目標(biāo)快速運(yùn)動(dòng)、復(fù)雜背景以及遮擋情況下,相比于其他算法,本文算法的跟蹤效果較好。
[1] 劉振興,范新南,李敏.融合SURF特征的改進(jìn)自適應(yīng)分塊目標(biāo)跟蹤算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(2):454-459.
[2] 鮑華,趙宇宙,張陳斌,等.基于自適應(yīng)分塊表觀模型的視覺目標(biāo)跟蹤[J].控制與決策,2015,31(3):448-452.
[3] Hinton G E,Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[4] Wang N, Yeung D Y. Learning a deep compact image representation for visual tracking[C]//International Conference on Neural Information Processing Systems. Curran Associates Inc. 2013:809-817.
[5] Wang L, Ouyang W, Wang X, et al. Visual Tracking with Fully Convolutional Networks[C]//IEEE International Conference on Computer Vision. IEEE, 2016:3119-3127.
[6] Nam H, Han B. Learning Multi-domain Convolutional Neural Networks for Visual Tracking[C]//Computer Vision and Pattern Recognition. IEEE, 2016:4293-4302.
[7] Cui Z,Xiao S,Feng J,et al.Recurrently target-attending tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2016:1449-1458.
[8] Bromley J, Guyon I, Lecun Y, et al. Signature verification using a siamese time delay neural network[C]//Advances in Neural Information Processing Systems.DBLP,1993:737-744.
[9] Taigman Y, Yang M, Ranzato M, et al. DeepFace: Closing the gap to human-level performance in face verification[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:1701-1708.
[10] Zagoruyko S, Komodakis N. Learning to compare image patches via convolutional neural networks[C]//Computer Vision and Pattern Recognition. IEEE, 2015:4353-4361.
[11] Zhuang B, Lu H, Xiao Z, et al. Visual tracking via discriminative sparse similarity map[J]. IEEE Transactions on Image Processing, 2014, 23(4):1872-1881.
[12] Wang D, Lu H, Bo C. Online visual tracking via two view sparse representation[J]. IEEE Signal Processing Letters, 2014, 21(9):1031-1034.
[13] Wang D, Lu H, Xiao Z, et al. Inverse sparse tracker with a locally weighted distance metric[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2015, 24(9):2646-2657.
[14] Mei X, Ling H. Robust visual tracking using l(1) minimization[C]//IEEE, International Conference on Computer Vision. DBLP, 2009:1436-1443.
[15] Zhong W, Lu H C, Yang M H. Robust object tracking via sparsity-based collaborative model[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:1838-1845.
[16] Hare S, Saffari A, Torr P H S. Struck: Structured output tracking with kernels[C]//IEEE International Conference on Computer Vision. IEEE, 2011:263-270.
[17] Grabner H, Grabner M, Bischof H. Real-time tracking via on-line boosting[C]//British Machine Vision Conference 2006, Edinburgh, Uk, September. DBLP, 2006:47-56.
[18] Adam A, Rivlin E, Shimshoni I. Robust fragments-based tracking using the integral histogram[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2006:798-805.
[19] Bao C, Wu Y, Ling H, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]//Computer Vision and Pattern Recognition. IEEE, 2012:1830-1837.
[20] Kalal Z, Matas J, Mikolajczyk K. P-N learning: Bootstrapping binary classifiers by structural constraints[C]//Computer Vision and Pattern Recognition. IEEE, 2010:49-56.