丁建偉,唐云祁,田華偉,張小博
(1.中國人民公安大學(xué),北京 102623;2.中國電子科技集團(tuán)公司第三研究所,北京 100015)
?
復(fù)雜場景下基于多特征融合的視頻跟蹤
丁建偉1,唐云祁1,田華偉1,張小博2
(1.中國人民公安大學(xué),北京 102623;2.中國電子科技集團(tuán)公司第三研究所,北京 100015)
為了解決常見視頻跟蹤方法在復(fù)雜場景中難以有效跟蹤運動物體的難題,研究了在粒子濾波框架下基于多特征融合的判別式視頻跟蹤算法。首先分析了特征提取和跟蹤算法的魯棒性和準(zhǔn)確性的關(guān)系,指出融合多種特征能有效地提升算法在復(fù)雜場景中的跟蹤效果,然后選擇提取HSV顏色特征和HOG特征描述目標(biāo)表觀,并在線訓(xùn)練邏輯斯特回歸分類器構(gòu)造判別式目標(biāo)表觀模型。在公開的復(fù)雜場景視頻進(jìn)行測試,比較了使用單一特征和多種特征的實驗效果,并且將所提算法和經(jīng)典跟蹤算法進(jìn)行了比較,實驗結(jié)果表明融合多種特征的視頻跟蹤更具魯棒性和準(zhǔn)確性。
視頻跟蹤;多特征融合;復(fù)雜場景
視頻跟蹤研究如何讓計算機(jī)自動確定感興趣的目標(biāo)在連續(xù)圖像序列中的位置、軌跡以及運動參數(shù)等信息。視頻跟蹤是計算機(jī)視覺的關(guān)鍵研究問題,其結(jié)果會促進(jìn)視頻分割、行為分析、場景理解等問題的研究。另外,視頻跟蹤還具有很高的應(yīng)用價值,在智能視頻監(jiān)控、人機(jī)交互和車輛導(dǎo)航等多個領(lǐng)域具有廣泛應(yīng)用。
近年來,雖然視頻跟蹤研究有了長足的進(jìn)步,但距離復(fù)雜場景下視頻的魯棒跟蹤仍然有較遠(yuǎn)的距離。當(dāng)場景中存在嚴(yán)重的圖像噪聲、快速的光照與姿態(tài)變化、相似物體干擾、復(fù)雜的目標(biāo)運動以及遮擋時,現(xiàn)有的視頻跟蹤算法依然很難解決這些難題,原因在于跟蹤的核心問題目標(biāo)表觀建模還沒有得到根本解決。目標(biāo)表觀建模在對未知目標(biāo)進(jìn)行有效的視覺描述上依然存在很多不足。
對目標(biāo)進(jìn)行建模,首先需要進(jìn)行視覺描述并提取特征,選擇哪種特征對跟蹤性能有著重要影響。在跟蹤中常用的特征有原始像素特征[1]、直方圖特征[2]和二值特征[3]等。每種特征都有其優(yōu)缺點和適用場合。目前,研究者們還沒有找到一種有效的特征使得跟蹤對任意物體和場景均有效。
為了改正常見視頻跟蹤算法使用單一特征存在的缺點,提升算法在復(fù)雜場景中的性能,本文研究融合多種特征來構(gòu)造視頻表觀模型,從而減少跟蹤中的漂移或失敗現(xiàn)象,提升跟蹤算法的魯棒性和準(zhǔn)確率。
為了更好地處理非線性非高斯運動,本文基于粒子濾波框架設(shè)計跟蹤算法。在粒子濾波框架中,跟蹤可以看作是貝葉斯?fàn)顟B(tài)空間推理問題
p(Xt|Ot)∝p(ot|Xt)∫p(Xt|Xt-1)p(Xt|Ot)dXt-1
(1)
式中:Ot={o1,o2,…,ot}是目標(biāo)的觀測集合,ot是目標(biāo)在t時刻的觀測向量,且ot∈Rd×1。Xt描述的是目標(biāo)在t時刻的狀態(tài)參數(shù),在本文中僅考慮目標(biāo)的位置和尺度,因此Xt主要包括四個變量,即Xt=(xt,yt,ht,wt)。其中xt,yt,ht和wt分別表示目標(biāo)在橫軸和縱軸的位移,以及方框的長度和寬度。表觀似然度函數(shù)p(ot|Xt)表示目標(biāo)狀態(tài)為Xt時觀測為ot的概率,基于在線學(xué)習(xí)的目標(biāo)表觀模型計算而得到。目標(biāo)動態(tài)模型p(Xt|Xt-1)表示連續(xù)幀之間目標(biāo)狀態(tài)的轉(zhuǎn)移概率。圖1是整個視頻跟蹤系統(tǒng)的算法框架。
圖1 視頻跟蹤系統(tǒng)框架
(2)
根據(jù)權(quán)重分布函數(shù)的形式,可以選擇不同的粒子濾波器。SIR粒子濾波器假設(shè)權(quán)重分布函數(shù)和觀測無關(guān),即
q(Xt|X1:t-1,Ot)=p(Xt|Xt-1)
(3)
將式(3)代入式(2)后,粒子的權(quán)重可通過對表觀似然度p(ot|Xt)歸一化得到。由于SIR粒子濾波器采樣方式簡單,因而得到了廣泛應(yīng)用,本文也采用SIR粒子濾波器。
在t時刻估計的最優(yōu)目標(biāo)狀態(tài)為粒子集合中權(quán)重最大的那個粒子對應(yīng)的狀態(tài)參數(shù),即
(4)
目標(biāo)表觀模型可分為生成式和判別式兩種。基于生成式模型的視頻跟蹤算法在每一幀中尋找與目標(biāo)模型最相似的區(qū)域,典型的生成式模型有子空間模型[1]和稀疏表達(dá)模型[4]等。而基于判別式模型的視頻跟蹤算法將跟蹤視為前景和背景的二分類問題,通過在線學(xué)習(xí)得到的分類器,在當(dāng)前幀中搜索與背景最具區(qū)分度的前景區(qū)域。典型的判別式模型有在線提升模型[5]等。由于判別式模型融合了背景信息,因而在跟蹤時能夠比生成式模型更好地區(qū)分相似物體的干擾,近年來成為跟蹤研究的熱點。本文選擇判別式表觀模型描述目標(biāo),具體包括特征提取和在線分類器學(xué)習(xí)。
2.1特征提取
為了得到更魯棒的視頻跟蹤算法,本文提取多種特征來構(gòu)造表觀模型,這樣可以克服單一特征造成的局限性,大大提高了跟蹤算法在復(fù)雜場景下的準(zhǔn)確性,并且可以減小跟蹤產(chǎn)生漂移的可能。
通過分析跟蹤中常用特征的優(yōu)缺點,并且考慮到算法的實時性,本文選擇融合HSV顏色特征和方向梯度直方圖(Histogram of Oriented Gradient, HOG)[6]特征描述目標(biāo)。
HSV顏色特征是基于HSV顏色空間提取的特征,包括色度(Hue)、飽和度(Saturation)和亮度(Value)。首先輸入圖像從RGB空間轉(zhuǎn)化到HSV空間,然后采集樣本圖像并調(diào)整到標(biāo)準(zhǔn)大小,例如16×16像素,則對應(yīng)的HSV顏色特征是16×16×3=768維度的向量,最后將該顏色特征向量進(jìn)行歸一化,記為xhsv。
HOG特征[6]通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來描述物體,對圖像的幾何和光學(xué)形變都能保持較好的不變性,因而在計算機(jī)視覺領(lǐng)域獲得了廣泛應(yīng)用,特別是在圖像檢測領(lǐng)域取得了巨大的成功。由于原始的HOG特征提取比較費時,因此本文采用文獻(xiàn)[7]描述的快速HOG特征提取方法,并對提取的HOG特征進(jìn)行歸一化,記為xhog。
將HSV顏色特征和HOG特征組合,即可得到目標(biāo)圖像的特征描述子ot=[xhog,xhsv]T。
2.2在線分類器學(xué)習(xí)
在判別式跟蹤框架中,目標(biāo)的表觀似然度p(ot|Xt)一般由在線學(xué)習(xí)的二分類器計算得到,本文選擇邏輯斯蒂回歸(LogisticRegression,LR)分類器。LR分類器的輸入是特征描述子ot,設(shè)輸出的分類結(jié)果為y∈{0,1},其中數(shù)值0代表背景,數(shù)值1代表跟蹤目標(biāo),則目標(biāo)表觀似然度由下式計算得到
(5)
式中:hw(ot)是輸入為特征向量ot輸出分類結(jié)果為y=1的概率,w∈Rd×1是LR分類器的模型參數(shù)。
在跟蹤中目標(biāo)的表觀和場景都會發(fā)生較大變化,因此需要在線更新表觀模型,從而保證模型具有最佳區(qū)分性能。在更新表觀模型時,為了減小LR分類器訓(xùn)練時發(fā)生過擬合的情況,本文在定義損失函數(shù)L(w)時增加模型參數(shù)w的L2正則化項,即
(6)
(7)
式中:α為w的學(xué)習(xí)速率。
為了驗證算法在復(fù)雜場景下跟蹤目標(biāo)的有效性,本文使用了公開的具有挑戰(zhàn)性的跟蹤測試視頻[8],在這些視頻中存在各種跟蹤難題,包括快速光照變化、姿態(tài)變化、雜亂背景、局部遮擋和低質(zhì)量圖像等。本文設(shè)計了兩組實驗,首先比較了使用單一特征和多種特征的跟蹤結(jié)果,然后將本文算法與其他幾種經(jīng)典的跟蹤算法進(jìn)行了比較。
3.1多種特征的有效性
為了驗證融合多種特征能夠增強(qiáng)跟蹤算法的性能,本文使用了視頻“Bolt”和“David”進(jìn)行了測試。圖2和圖3分別是在視頻 “Bolt” 和“David”上使用不同特征的跟蹤結(jié)果截圖,圖中第一行和第二行分別是僅使用HSV顏色特征和HOG特征的跟蹤結(jié)果,第三行是融合兩種特征的跟蹤結(jié)果,圖中數(shù)字代表圖片序列號,方框代表估計的目標(biāo)位置。
圖2 在視頻“Bolt”上使用不同特征的跟蹤結(jié)果(截圖)
圖3 在視頻“David”上使用不同特征的跟蹤結(jié)果(截圖)
在視頻 “Bolt”中,跟蹤目標(biāo)是一名運動員,該運動員身穿的運動服顏色與周圍運動員和場地具有較大差異性,因此使用顏色特征進(jìn)行跟蹤可以取得較好結(jié)果,而由于運動員跑動中姿態(tài)變化較大,因此使用HOG特征跟蹤效果不太理想,圖2的跟蹤結(jié)果驗證了該結(jié)論??梢钥吹降诙械母櫧Y(jié)果從第5幀就開始出現(xiàn)了偏差,然后很快失去目標(biāo),而第一行和第三行的跟蹤結(jié)果從始至終都是正確的。
在視頻 “David”中,跟蹤目標(biāo)是人臉,由于該目標(biāo)在運動中存在快速的光照變化,因此僅使用HSV顏色特征并不能很好地跟蹤目標(biāo),由圖3第一行的跟蹤結(jié)果可以看出,在第225幀、304幀和350幀都出現(xiàn)了較大的跟蹤誤差;而HOG特征對光照變化具有較強(qiáng)的不變性,因此圖3第二行和第三行的跟蹤結(jié)果都是比較精確的。
由該組實驗可知,在跟蹤算法中融合多種特征可以增強(qiáng)算法在不同復(fù)雜場景下的魯棒性。
3.2與其他算法的比較
為了進(jìn)一步驗證基于多特征融合跟蹤算法的有效性,將本文算法與增量式跟蹤算法IVT[1]、在線Adaboost跟蹤算法OAB[5]、結(jié)構(gòu)化輸出跟蹤算法Struck[8]和壓縮感知跟蹤算法CT[9]進(jìn)行了比較,共使用6組測試視頻[10],跟蹤目標(biāo)包括行人和車輛等典型物體,視頻中包括各種干擾因素,例如光照變化、姿態(tài)變化、尺度變化以及目標(biāo)形變等,評價指標(biāo)是跟蹤中心誤差均值,即標(biāo)定方框與跟蹤方框中心的歐氏距離,該值越小表明跟蹤結(jié)果越好。表1是3種方法在測試視頻上的跟蹤中心誤差均值比較結(jié)果。在6組視頻中,本文算法取得了4組第一,并且在剩下的2組視頻中與最好的結(jié)果相比也非常接近,可見本文算法在復(fù)雜場景跟蹤典型物體具有較好的魯棒性與正確性。
表13種方法在測試視頻的跟蹤中心誤差均值
視頻本文算法OAB[5]IVT[1]Struck[8]CT[9]David3.719.73.96.712.9Bolt4.0150.2200.6126.6180.6CarDark5.02.83.21.0119.2Deer7.031.310.88.113.9Walking2.45.31.84.66.9Woman8.632.310093.516.0
本文研究了復(fù)雜場景中視頻跟蹤的難題,分析了特征提取與跟蹤算法魯棒性和準(zhǔn)確性的關(guān)系。為了改正常見算法在復(fù)雜場景中僅使用單一特征很難有效跟蹤目標(biāo)的缺點,本文研究了基于粒子濾波框架融合多種特征的視頻跟蹤算法。本文選擇融合HSV顏色特征和HOG特征,通過在線訓(xùn)練邏輯斯特回歸分類器構(gòu)造判別式目標(biāo)表觀模型。為了檢驗算法的有效性,選取了公開的典型復(fù)雜場景視頻進(jìn)行測試,并與經(jīng)典的視頻跟蹤方法進(jìn)行比較,實驗結(jié)果表明使用多種特征能夠提高算法的魯棒性和準(zhǔn)確性。
[1]ROSSDA,LIMJ,LINR-S,etal.Incrementallearningforrobustvisualtracking[J].Internationaljournalofcomputervision, 2008,77(1):125-141.
[2]COMANICIUD,RAMESHV,MEERP.Kernel-basedobjecttracking[J].IEEEtransactionsonpatternanalysisandmachineintelligence, 2003,25(5):564-577.
[3]LIX,SHENCH,DICKA,etal.Learningcompactbinarycodesforvisualtracking[C]//IEEEConferenceonComputerVisionandPatternRecognition.Oregon:IEEE, 2013:2419-2426.
[4]MEIX,LINGH.RobustvisualtrackingusingL1minimization[C]//IEEEInternationalConferenceonComputerVision.Kyoto:IEEE, 2009:1436-1443.
[5]GRABNERH,GRABNERM,BISCHOFH.Real-timetrackingviaon-lineboosting[C]//BritishMachineVisionConference.Edinburgh:BMVA, 2006:47-56.
[6]DALALN,TRIGGSB.Histogramsoforientedgradientsforhumandetection[C]//IEEEConferenceonComputerVisionandPatternRecognition.SanDiego:IEEE, 2005:886-893.
[7]DOLLARP,APPELR,BELONGIES,etal.Fastfeaturepyramidsforobjectdetection[J].IEEEtransactionsonpatternanalysisandmachineintelligence, 2014, 36(8):1532-1545.
[8]HARES,SAFFARIA,TORRPHS.Struck:structuredoutputtrackingwithkernels[C]//IEEEInternationalConferenceonComputerVision.Barcelona:IEEE, 2011:263-270.
[9]ZHANGK,ZHANGL,YANGMH.Fastcompressivetracking[J].IEEEtransactionsonpatternanalysisandmachineintelligence, 2014, 36(10): 2002-2015.
[10]WUY,LIMJ,YANGMH.Onlineobjecttracking:abenchmark[C]//IEEEConferenceonComputerVisionandPatternRecognition.Oregon:IEEE, 2013:2411-2418.
丁建偉(1984— ),博士,講師,主要研究方向為視頻圖像處理、模式識別;
唐云祁(1983— ),博士,講師,主要研究方向為視頻圖像處理、模式識別;
田華偉(1983— ),博士,講師,主要研究方向為視頻圖像處理、信息安全;
張小博(1987— ),博士,主要研究方向為視頻圖像處理。
責(zé)任編輯:閆雯雯
Multiple features fusion for object tracking in complex scenes
DING Jianwei1, TANG Yunqi1, TIAN Huawei1, ZHANG Xiaobo2
(1.People′sPublicSecurityUniversityofChina,Beijing102623,China;2.TheThirdResearchInstituteofChinaElectronicsTechnologyGroupCorporation,Beijing100015,China)
To address difficulties of traditional object tracking methods which can′t track moving object effectively in complex scenes, a multiple features fusion based discriminative object tracking algorithm in particle filter framework is proposed. Firstly, the relationship between feature extraction and robustness and accuracy of tracking algorithm is analyzed, and points out that it can promote tracking performance largely by using multiple features in complex scenes. HSV color feature and HOG feature are selected to represent appearance of object, and the online trained logistic regression classifier is used to construct the discriminative appearance model. The method is tested in public videos with complex scenes. Results obtained by using only one kind of feature and multiple kinds of features are compared. And the proposed method with other classic tracking algorithms are compared. Experimental results show that the proposed object tracking algorithm with multiple features is more robust and accurate.
video tracking; multiple features fusion; complex scenes
TN941.1
ADOI: 10.16280/j.videoe.2016.10.019
國家自然科學(xué)基金項目(61503388;61402484;61503387);中國人民公安大學(xué)2016年度中央高校基本科研業(yè)務(wù)費項目(2016JKF01203)
2015-11-20
文獻(xiàn)引用格式:丁建偉,唐云祁,田華偉,等. 復(fù)雜場景下基于多特征融合的視頻跟蹤[J].電視技術(shù),2016,40(10):93-96.
DING J W, TANG Y Q, TIAN H W,et al. Multiple features fusion for object tracking in complex scenes[J]. Video engineering,2016,40(10):93-96.